<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>Bifrost on </title>
    <link>/tags/bifrost/</link>
    <description>Recent content in Bifrost on </description>
    <generator>Hugo -- gohugo.io</generator>
    <language>en</language>
    <lastBuildDate>Tue, 14 Apr 2026 11:30:00 +0800</lastBuildDate><atom:link href="/tags/bifrost/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>Bifrost 负载均衡 DGX Spark：从 TP=2 跨节点到双机独立部署</title>
      <link>/posts/bifrost-load-balancing-dgx-spark/</link>
      <pubDate>Tue, 14 Apr 2026 11:30:00 +0800</pubDate>
      
      <guid>/posts/bifrost-load-balancing-dgx-spark/</guid>
      <description>TL;DR 将两台 DGX Spark 从 vLLM TP=2 跨节点部署（RPC 超时、频繁崩溃）迁移到 每台独立运行 vLLM + Bifrost 负载均衡网关后：
✅ 稳定性：至少在这轮测试里没有再复现崩溃，P95 延迟大约在 1,400ms（20 tokens） ✅ 吞吐：单机 ~15 tok/s，双机并发 ~56 tok/s（Bifrost 开销 &amp;lt;1ms） ✅ 可用性：双机独立 + 自动故障转移，不再有单点故障 ✅ 可扩展：水平加节点即可，不受 TP 上限约束 背景：为什么放弃 TP=2 跨节点 之前的实践中，我在两台 DGX Spark 上尝试了 vLLM 的 TP=2（跨节点张量并行）部署：
《vLLM TP=2 跨节点部署实践》 《Nemotron EP2 vs TP2：两台 DGX Spark 的实际对比》 这次测试里最直接的观察是：TP=2 跨节点能跑通但不稳定，日志里反复出现：
TimeoutError: RPC call to sample_tokens timed out. No available shared memory broadcast block found in 60 seconds.</description>
    </item>
    
  </channel>
</rss>
