多台 GPU 之间怎么组网互联？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

比如要部署 deepseek 满血版，总不能用一台跑对吧，那比如有三台 SXM 版的 8 卡 A100 的 GPU 服务器

好奇问一下，想学习学习

第 1 条附言 · 4 天前

为什么想了解这个，GPU太贵了，单节点可能都要几十上百万，集群才考虑组网，实践的机会更少了。

现在招人都要求有经验的，不像以前能从初级开始干，有机会从实践中学习。

GPU

互联

部署

27 条回复 • 2026-04-26 00:31:11 +08:00

makictos

PRO

4 天前

每台机器插八个 cx7 400g 网卡，然后三台机器走 48 口交换机做互联

minami

4 天前 via Android

关键字：NvLink 、NvSwitch 、InfiniBand

ptstone

4 天前

网卡互联根本行不通，pcie5 的速度都不够，至少 1Tb/s 这种才能考虑

liaohongxing

4 天前

有个 gpustack 的项目，据说可以组集群。

https://github.com/gpustack/gpustack

stoneabc

4 天前

@ptstone ...现在主流集群参数面组网都是走网卡，有啥行不通的

catazshadow

4 天前 via Android

@stoneabc 延迟要炸的

geekvcn

4 天前

目前都是 IB 网卡或者雷电网桥，总之带宽越高越好，以太网也行但是效率堪忧

thevita

4 天前

单台机内 nvlink
跨机器 RDMA 呗

网络并不是对等的, nvlink 带宽和延迟肯定都要好于网络, 所以尽量把 all-to-all 的通信放单个 node 内（比如 TP ）
跨 node 通信也需要深度的优化，通过各种 pipeline overlapped 来隐藏延迟

不是搞这个的，仅仅是个人粗浅的理解

mingtdlb

4 天前

@ptstone #3 gpu 是 smx 的，单节点内 nvlink 没问题，但集群的话，按 1 楼哥 @makictos 说的那样那个是专用卡？然后走 rdma （ ib 或 rocev2 ）。

刚问了下 Gemini ，大概意思服务器安装网卡驱动
ib 的话：需要在一个节点上运行 Subnet Manager (OpenSM) 来管理网络拓扑和分配 LID ，就没了
RoCEv2 的话：配上 ip ，还要优化网络，然后是主机这边 rdma 相关的配置

这么看下来，加上现在有 AI 的辅助，gpu 服务器的集群的部署也没很难？😂

roygong

4 天前 via iPhone

Infiniband 是一个专门的硬件，有了就可以跨机跑模型

geekvcn

4 天前

@mingtdlb 连接不要用光缆，用铜缆直通，有专门的直连铜缆，缺点是长度受限仅适用于机器都在单机柜里。不用光缆是因为光电转换会引入额外的开销和延时

neteroster

4 天前

除了硬件还要考虑并行，dp, ep, tp 啥的，各种调优，infra 没那么简单的

Muniesa

4 天前 via Android

sglang：在 96 个 H100 GPU 上部署具有 PD 解耦和大规模专家并行性的 DeepSeek
https://www.lmsys.org/blog/2025-05-05-large-scale-ep/

stoneabc

4 天前

@catazshadow 没那么夸张，现在万卡集群不用 IB 直接走 roce 的都一堆，都是成熟方案了

catazshadow

4 天前

@stoneabc 真这么夸张，本来推理几十 tps 用了网卡可能就十几 tps 了

COOOOOOde

4 天前

未来的方案都是上光信号铜缆都不行了, 你炒股的话就知道现在的 CPO 题材有多火了

mingtdlb

4 天前

@stoneabc #14 搜了一些文章，比较同意，用 roce ，ib 成本太高了。但具体怎么组网还没搜到。。。想看具体的方案细节

coefu

3 天前

LLM 多机多卡分布式并行推理的话，infra 上的优化总是有限度的，还得是架构优化，kvcache 量化，pd 分离，虽然都是老生常谈，但是真的必须得用。

要是 pipeline 串行推理，那非常简单明了，10G 以太网都能搞。

coefu

3 天前

glm5.1 Q8-k-xl,811G ,2 个 m3 mac studio ultra 512G 通过雷电口串起来跑 pipeline ，也是能跑的。就是慢罢了。

amd 2023 年出的 mi300x,单卡都 192G hbm3 ，一机 8 卡，也有 1.5T ，现在开源的量化都能单机塞进去。
就不用说 2024 年出的 mi325x ，单卡 256G hbm3e ，一机 8 卡，2T ，开源的 BF16 都能塞进去，还有 context 空间。

所以，多机多卡分布式并行推理，在这些大船靠岸的时候，都是过去时了。只是，当下，对于市面上的穷人来说，还是有用的。或许，工程学术上还能水一点文章。

makictos

PRO

3 天前

@coefu 多机器组全局 nvl 不是为了推理的，如果你需要强推理，有很多其他高性价比选择，比如说你说的 mi325x ，或者 intel 的 gaudi3 。全局 nvl 的核心主要在于多集群的训练，这个是 nv 独有的优势。

makictos

PRO

3 天前

@mingtdlb 你想看哪些技术细节？目前想要做多机组网，对于小规模客户来说，其实 ib 就是成本最低的。因为有集群组网经验的技术年薪。。大概率高于一台 H200 整机。而且就算集群组网，也无法实现你把模型拖进去就能用，程序并不是原生就能做 nvl 多卡拆分的。

coefu

2 天前

@makictos #20 训练多大参数的模型呢？有这个训练需求的，单卡早超过了 128G 。全世界不会超过 10 家，这 10 家的 infra 技术，和，你，我，他，有什么关系？你，我，他，会不会，懂不懂，又有什么关系？

你的观点是工程学术理论极限，但是学界也没有条件搞这个级别的集群的工程技术创新，普罗大众也接触不到。能研究这个极限的，也就大厂的那些个有条件接触超大集群 infra 的工程师。理论极限，我当然懂。我每天都看最新研究论文。

我的观点是，多机多卡分布式并行推理，就算是攒了一些低端卡，凑个 40G 网络的普通玩家来说，也是个鸡肋技术。不要说训练，多机多卡分布式并行训练，虽然起码理论上来说，我懂，但是我也没实践过，没条件。但是，并不是说，每个人从理论上都懂的。

makictos

PRO

12 小时 54 分钟前

@coefu 无意冒犯，我目前就职于你所说的大厂，也确实是 v2 少数能完整直接控制超大集群的工程师。回复此贴只是做技术解答。

makictos

PRO

12 小时 51 分钟前

@coefu 其次，懂这些是相当有必要的，在目前 tesla v100 sxm2 这种入门级卡片只要 600 元的市场下，如果个人购买百卡组小规模集群进行学习实践，可以有效提高你进入大厂的可能性。在目前的组内需求中，我们仍缺乏有经验的百卡/千卡工程师。

mingtdlb

10 小时 47 分钟前

@makictos #21 你讲的对我来说有点高深，什么 nvl ，什么多卡拆分，我不太了解这些，我知道你有东西，第一条回复就能看出来😁

这么说吧，比如我想在企业内网跑一个大模型，供内部使用，要企业级的方案，最开始肯定是确认需求算力、并发、吞吐量、显存大小，再选型 GPU ，硬件到货了再给他组起来。

假设吧，比如是有 8 台 SXM 版的 GPU 服务器，每台是 8 卡 H200 ，那首先要把硬件连接起来，怎么连呢，然后再部署 ds v4 的大模型，提供 api 接口给业务用。

我想了解下怎么开展这项工作，有没有文章可以看的，想学习了解一下，我个人是做云计算方面的，未来 GPU 价格如果下来了，企业内网有需求的都会这么玩吧

软件层面可能企业中有 GPU 云平台这种东西，能直接纳管 GPU 服务器，然后平台能直接部署大模型，还带监控、运维管理啥的（我按云计算的的思想，猜的，就像 esxi 这种厂家，到时部署大模型给业务用就像发个虚拟机一样简单），先不考虑这种的

coefu

5 小时 26 分钟前

@makictos #24 味儿太浓，你要是能不这么端着交流，我还能高看你一眼。但是你这装的，处处感觉自己屌人一筹。讲真，LLM 这波还能走多远都是个问题，行家都知道 LLM 根本没有什么搞头。你也就是在这波泡沫里游荡一回罢了。底层这点工程技术，早就没什么新鲜东西。而且我都没问你，你解答个什么？你给 OP 回复就行了，并且你回复的也不是我不懂的东西嘛。讲了和没讲一样，谁不知道 nvlink?

一开始是无所谓冒犯不冒犯的，但是你后面这两个回复，确实味儿太冲，熏到哥们儿了。但是我理解你孤芳自赏的内心，我原谅你。

coefu

4 小时 53 分钟前

@makictos #23 有时间有精力，就多追一下业界最强。

Decoupled DiLoCo for Resilient Distributed Pre-training https://arxiv.org/html/2604.21428v1