<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>Chat Template on </title>
    <link>/tags/chat-template/</link>
    <description>Recent content in Chat Template on </description>
    <generator>Hugo -- gohugo.io</generator>
    <language>en</language>
    <lastBuildDate>Mon, 20 Apr 2026 12:15:00 +0800</lastBuildDate><atom:link href="/tags/chat-template/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>vLLM 启用 Qwen3.6 的 preserve_thinking：双机 A/B 验证</title>
      <link>/posts/vllm-qwen36-preserve-thinking/</link>
      <pubDate>Mon, 20 Apr 2026 12:15:00 +0800</pubDate>
      
      <guid>/posts/vllm-qwen36-preserve-thinking/</guid>
      <description>TL;DR Qwen3.6 的 preserve_thinking 是写在模型 chat template 里的 Jinja 变量，不是 vLLM CLI 标志。 正确启用方式：--default-chat-template-kwargs &#39;{&amp;quot;preserve_thinking&amp;quot;: true}&#39;。 在双机 DGX Spark 集群上用一台开、一台关做 A/B 对照：同样输入下 prompt tokens 55 vs 51（差 4 tokens 就是保留下来的历史 &amp;lt;think&amp;gt; 块），completion tokens 355 vs 382（关掉后模型重新&amp;quot;想&amp;quot;一遍）。 起因 Reddit 的一篇文章提到 Qwen3.6 随 KV cache 修复一起 &amp;ldquo;ships preserve_thinking flag&amp;rdquo;（原文链接）。集群里跑的正好是 Qwen3.6-35B-A3B-FP8（reasoning parser qwen3），想在两台 DGX Spark 上把这个开关打开。
参数归属：chat template 而非 vLLM CLI 这里&amp;quot;flag&amp;quot;是个容易误导的措辞。Qwen3.6 的 chat_template.jinja 里写着：
{%- if (preserve_thinking is defined and preserve_thinking is true) or (loop.</description>
    </item>
    
  </channel>
</rss>
