Tensor Parallel on

Tensor Parallel on /tags/tensor-parallel/ Recent content in Tensor Parallel on Hugo -- gohugo.io en Sun, 12 Apr 2026 10:00:00 +0800 vLLM TP=2 跨节点部署实践：两台 DGX Spark 跑 Qwen3.5-35B-A3B /posts/dgx-spark-benchmark-2026/ Sun, 12 Apr 2026 10:00:00 +0800 /posts/dgx-spark-benchmark-2026/ 概述本文记录在两台 DGX Spark 上首次以 vLLM TP=2（跨节点张量并行）方式部署 Qwen3.5-35B-A3B 的完整过程。这次实验先得到几条比较初步的观察： TP=2 跨节点推理可以跑通，短请求成功完成成功样本吞吐约 21–31 tok/s，与单机 TP=1（~29 tok/s）基本持平稳定性不足：代码生成 case 在约 300 秒后返回 HTTP 500 按这轮实验结果看，如果是追求更稳妥的生产方案，我目前更倾向于两台节点各自独立运行 TP=1，再通过 LiteLLM / Nginx 做负载均衡技术背景 DGX Spark 与统一内存 DGX Spark 搭载 NVIDIA GB10 Grace Blackwell Superchip，其关键特征是 128GB LPDDR5X 统一内存（CPU+GPU 共享），带宽 273 GB/s。与独立显存的传统 GPU 不同，统一内存没有独立的 VRAM 分区。这意味着： --gpu-memory-utilization 不能像常规设置那样给到 0.9，需要保守设为 0.7，为内存碎片留出余量按我这轮实验里的环境约束，最好关闭 swap，否则系统在内存压力下很容易出现明显卡顿甚至失去响应模型权重、KV cache、推理中间态都在同一块 128GB 池子里分配 vLLM 与 Tensor Parallel vLLM 是一个高性能 LLM 推理引擎，提供 OpenAI 兼容 API、PagedAttention 显存管理、持续批处理等特性。它原生支持 Tensor Parallel（张量并行）：将模型的计算图按张量维度切分到多个 GPU 上执行，各 GPU 之间通过 NCCL（NVIDIA GPU 间通信库）进行 all-reduce 通信同步中间结果。