用两台 GB10 跑 DeepSeek-V4-Flash：284B 模型的双机部署记录

2026-05-31

#deepseek #vllm #gb10 #dgx-spark #llm-inference #tensor-parallel

用两台 DGX Spark（GB10）部署 DeepSeek-V4-Flash（284B/13B-active，官方 FP8）的实践记录：为什么 128GB 单机装不下 149GB 权重、如何为 GB10 的 sm_121 架构选对 vLLM 引擎、源码构建中 torch 被悄悄降级的隐蔽问题，以及 MTP 调优后的实际吞吐。

[Read more]

vLLM 启用 Qwen3.6 的 preserve_thinking：双机 A/B 验证

2026-04-20

#AI #LLM #vLLM #Qwen #DGX Spark #Reasoning #Chat Template

Qwen3.6 随 KV cache 修复一起引入的 preserve_thinking 开关是 chat template 的 kwarg，不是 vLLM CLI 标志；借助集群两台 DGX Spark 做 A/B 对照，量化出 prompt/completion token 的差异。

[Read more]

两台 DGX Spark 跑 Qwen3.6-35B-A3B：直连 vLLM vs 经过 Gateway 的吞吐对比

2026-04-17

#AI #LLM #NVIDIA #DGX Spark #vLLM #Benchmark #Gateway #Qwen

实测两台 DGX Spark 上 Qwen3.6-35B-A3B-FP8 的 vLLM 吞吐：单机单流 ~50 tok/s，双机经 FastAPI Gateway 并发 N=16 聚合可达 ~485 tok/s。

[Read more]

Bifrost 负载均衡 DGX Spark：从 TP=2 跨节点到双机独立部署

2026-04-14

#AI #LLM #NVIDIA #DGX Spark #vLLM #Bifrost #负载均衡 #Benchmark

将两台 DGX Spark 从不稳定的 vLLM TP=2 跨节点部署迁移到单节点独立运行 + Bifrost 负载均衡网关的完整实践和 benchmark 结果。

[Read more]

Nemotron EP2 vs TP2：两台 DGX Spark 的实际对比

2026-04-14

#AI #LLM #NVIDIA #DGX Spark #vLLM #Expert Parallel #Benchmark

在两台 DGX Spark 上对比 vLLM EP2 和 TP2 跑 NVIDIA Nemotron 3 Super 120B A12B NVFP4 的结果，并分析 EP2 失稳的可能原因。

[Read more]

vLLM TP=2 跨节点部署实践：两台 DGX Spark 跑 Qwen3.5-35B-A3B

2026-04-12

#AI #LLM #NVIDIA #DGX Spark #vLLM #Tensor Parallel

记录首次在两台 DGX Spark 上以 vLLM TP=2 方式部署 Qwen3.5-35B-A3B 的过程与 benchmark 结果。

[Read more]

Posts for: #DGX Spark

用两台 GB10 跑 DeepSeek-V4-Flash：284B 模型的双机部署记录

vLLM 启用 Qwen3.6 的 preserve_thinking：双机 A/B 验证

两台 DGX Spark 跑 Qwen3.6-35B-A3B：直连 vLLM vs 经过 Gateway 的吞吐对比

Bifrost 负载均衡 DGX Spark：从 TP=2 跨节点到双机独立部署

Nemotron EP2 vs TP2：两台 DGX Spark 的实际对比

vLLM TP=2 跨节点部署实践：两台 DGX Spark 跑 Qwen3.5-35B-A3B