Qwen3.6 随 KV cache 修复一起引入的 preserve_thinking 开关是 chat template 的 kwarg,不是 vLLM CLI 标志;借助集群两台 DGX Spark 做 A/B 对照,量化出 prompt/completion token 的差异。
Posts for: #Qwen
两台 DGX Spark 跑 Qwen3.6-35B-A3B:直连 vLLM vs 经过 Gateway 的吞吐对比
实测两台 DGX Spark 上 Qwen3.6-35B-A3B-FP8 的 vLLM 吞吐:单机单流 ~50 tok/s,双机经 FastAPI Gateway 并发 N=16 聚合可达 ~485 tok/s。