Posts for: #Gateway

两台 DGX Spark 跑 Qwen3.6-35B-A3B：直连 vLLM vs 经过 Gateway 的吞吐对比

2026-04-17

#AI #LLM #NVIDIA #DGX Spark #vLLM #Benchmark #Gateway #Qwen

实测两台 DGX Spark 上 Qwen3.6-35B-A3B-FP8 的 vLLM 吞吐：单机单流 ~50 tok/s，双机经 FastAPI Gateway 并发 N=16 聚合可达 ~485 tok/s。

[Read more]