<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>Expert Parallel on </title>
    <link>/tags/expert-parallel/</link>
    <description>Recent content in Expert Parallel on </description>
    <generator>Hugo -- gohugo.io</generator>
    <language>en</language>
    <lastBuildDate>Tue, 14 Apr 2026 02:10:00 +0800</lastBuildDate><atom:link href="/tags/expert-parallel/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>Nemotron EP2 vs TP2：两台 DGX Spark 的实际对比</title>
      <link>/posts/nemotron-ep2-dgx-spark/</link>
      <pubDate>Tue, 14 Apr 2026 02:10:00 +0800</pubDate>
      
      <guid>/posts/nemotron-ep2-dgx-spark/</guid>
      <description>结论先行 在同一份 Nemotron 3 Super 120B A12B NVFP4、同一镜像、同一保守 profile 下，我这轮测试里 TP2 明显好于 EP2。
我这里做的是 clean-room 对比：清掉两台机器上所有其他 vLLM 实例后，分别跑 EP2 和 TP2，再额外用 max_tokens=32 做一次长输出探针。
测试条件 镜像：vllm/vllm-openai:gemma4-cu130 模型目录：/home/admin/models/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-aria2 公共参数：gpu_memory_utilization=0.75、max_model_len=32768、kv_cache_dtype=fp8、quantization=fp4、mamba-ssm-cache-dtype=float32 EP2：TP=1 + DP=2 + --enable-expert-parallel TP2：tensor-parallel-size=2 结果对比 拓扑 短输出 benchmark 成功数 成功 case 平均 tok/s 最慢 case 延迟 32-token 探针 结论 EP2 TP=1 + DP=2 + --enable-expert-parallel 2/4 2.44 301.64 s 第 3 个 case 即把服务打死，后续探针 connection refused 可启动，但不稳定 TP2 tensor-parallel-size=2 4/4 4.68 23.</description>
    </item>
    
  </channel>
</rss>
