Qwen3.6 随 KV cache 修复一起引入的 preserve_thinking 开关是 chat template 的 kwarg,不是 vLLM CLI 标志;借助集群两台 DGX Spark 做 A/B 对照,量化出 prompt/completion token 的差异。
Posts for: #LLM
Apple M5 上 omlx + Gemma4-26B 性能调优实录
基于一次 M5 本地测试,记录 MoE 模型带宽瓶颈,以及通过内存热缓存把长上下文推理提速到约 6.4 倍的过程。
两台 DGX Spark 跑 Qwen3.6-35B-A3B:直连 vLLM vs 经过 Gateway 的吞吐对比
实测两台 DGX Spark 上 Qwen3.6-35B-A3B-FP8 的 vLLM 吞吐:单机单流 ~50 tok/s,双机经 FastAPI Gateway 并发 N=16 聚合可达 ~485 tok/s。
Bifrost 负载均衡 DGX Spark:从 TP=2 跨节点到双机独立部署
将两台 DGX Spark 从不稳定的 vLLM TP=2 跨节点部署迁移到单节点独立运行 + Bifrost 负载均衡网关的完整实践和 benchmark 结果。
Nemotron EP2 vs TP2:两台 DGX Spark 的实际对比
在两台 DGX Spark 上对比 vLLM EP2 和 TP2 跑 NVIDIA Nemotron 3 Super 120B A12B NVFP4 的结果,并分析 EP2 失稳的可能原因。
vLLM TP=2 跨节点部署实践:两台 DGX Spark 跑 Qwen3.5-35B-A3B
记录首次在两台 DGX Spark 上以 vLLM TP=2 方式部署 Qwen3.5-35B-A3B 的过程与 benchmark 结果。
深入理解 Model Context Protocol (MCP):从概念到实践
本文通过一个 SQLite MCP 服务器案例,学习 Model Context Protocol (MCP) 的核心概念(Tools、Resources、Prompts)以及一条可运行的开发流程。