Expert Parallel on

Expert Parallel on /tags/expert-parallel/ Recent content in Expert Parallel on Hugo -- gohugo.io en Tue, 14 Apr 2026 02:10:00 +0800 Nemotron EP2 vs TP2：两台 DGX Spark 的实际对比 /posts/nemotron-ep2-dgx-spark/ Tue, 14 Apr 2026 02:10:00 +0800 /posts/nemotron-ep2-dgx-spark/ 结论先行在同一份 Nemotron 3 Super 120B A12B NVFP4、同一镜像、同一保守 profile 下，我这轮测试里 TP2 明显好于 EP2。我这里做的是 clean-room 对比：清掉两台机器上所有其他 vLLM 实例后，分别跑 EP2 和 TP2，再额外用 max_tokens=32 做一次长输出探针。测试条件镜像：vllm/vllm-openai:gemma4-cu130 模型目录：/home/admin/models/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-aria2 公共参数：gpu_memory_utilization=0.75、max_model_len=32768、kv_cache_dtype=fp8、quantization=fp4、mamba-ssm-cache-dtype=float32 EP2：TP=1 + DP=2 + --enable-expert-parallel TP2：tensor-parallel-size=2 结果对比拓扑短输出 benchmark 成功数成功 case 平均 tok/s 最慢 case 延迟 32-token 探针结论 EP2 TP=1 + DP=2 + --enable-expert-parallel 2/4 2.44 301.64 s 第 3 个 case 即把服务打死，后续探针 connection refused 可启动，但不稳定 TP2 tensor-parallel-size=2 4/4 4.68 23.