Posts for: #Qwen

vLLM 启用 Qwen3.6 的 preserve_thinking：双机 A/B 验证

2026-04-20

#AI #LLM #vLLM #Qwen #DGX Spark #Reasoning #Chat Template

Qwen3.6 随 KV cache 修复一起引入的 preserve_thinking 开关是 chat template 的 kwarg，不是 vLLM CLI 标志；借助集群两台 DGX Spark 做 A/B 对照，量化出 prompt/completion token 的差异。

[Read more]

2026-04-17

#AI #LLM #NVIDIA #DGX Spark #vLLM #Benchmark #Gateway #Qwen

实测两台 DGX Spark 上 Qwen3.6-35B-A3B-FP8 的 vLLM 吞吐：单机单流 ~50 tok/s，双机经 FastAPI Gateway 并发 N=16 聚合可达 ~485 tok/s。

[Read more]