Qwen3.6 随 KV cache 修复一起引入的 preserve_thinking 开关是 chat template 的 kwarg,不是 vLLM CLI 标志;借助集群两台 DGX Spark 做 A/B 对照,量化出 prompt/completion token 的差异。
Qwen3.6 随 KV cache 修复一起引入的 preserve_thinking 开关是 chat template 的 kwarg,不是 vLLM CLI 标志;借助集群两台 DGX Spark 做 A/B 对照,量化出 prompt/completion token 的差异。