V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
mingtdlb
V2EX  ›  Local LLM

多台 GPU 之间怎么组网互联?

  •  1
     
  •   mingtdlb · 4 天前 · 1741 次点击

    比如要部署 deepseek 满血版,总不能用一台跑对吧,那比如有三台 SXM 版的 8 卡 A100 的 GPU 服务器

    好奇问一下,想学习学习

    第 1 条附言  ·  4 天前

    为什么想了解这个,GPU太贵了,单节点可能都要几十上百万,集群才考虑组网,实践的机会更少了。

    现在招人都要求有经验的,不像以前能从初级开始干,有机会从实践中学习。

    27 条回复    2026-04-26 00:31:11 +08:00
    makictos
        1
    makictos  
    PRO
       4 天前   ❤️ 3
    每台机器插八个 cx7 400g 网卡,然后三台机器走 48 口交换机做互联
    minami
        2
    minami  
       4 天前 via Android
    关键字:NvLink 、NvSwitch 、InfiniBand
    ptstone
        3
    ptstone  
       4 天前
    网卡互联根本行不通,pcie5 的速度都不够,至少 1Tb/s 这种才能考虑
    liaohongxing
        4
    liaohongxing  
       4 天前
    有个 gpustack 的项目,据说可以组集群。

    https://github.com/gpustack/gpustack
    stoneabc
        5
    stoneabc  
       4 天前
    @ptstone ...现在主流集群参数面组网都是走网卡,有啥行不通的
    catazshadow
        6
    catazshadow  
       4 天前 via Android
    @stoneabc 延迟要炸的
    geekvcn
        7
    geekvcn  
       4 天前
    目前都是 IB 网卡或者雷电网桥,总之带宽越高越好,以太网也行但是效率堪忧
    thevita
        8
    thevita  
       4 天前
    单台机内 nvlink
    跨机器 RDMA 呗

    网络并不是对等的, nvlink 带宽和延迟肯定都要好于网络, 所以尽量把 all-to-all 的通信放单个 node 内(比如 TP )
    跨 node 通信也需要深度的优化,通过各种 pipeline overlapped 来隐藏延迟

    不是搞这个的,仅仅是个人粗浅的理解
    mingtdlb
        9
    mingtdlb  
    OP
       4 天前
    @ptstone #3 gpu 是 smx 的,单节点内 nvlink 没问题,但集群的话,按 1 楼哥 @makictos 说的那样 那个是专用卡?然后走 rdma ( ib 或 rocev2 )。

    刚问了下 Gemini ,大概意思服务器安装网卡驱动
    ib 的话:需要在一个节点上运行 Subnet Manager (OpenSM) 来管理网络拓扑和分配 LID ,就没了
    RoCEv2 的话:配上 ip ,还要优化网络,然后是主机这边 rdma 相关的配置

    这么看下来,加上现在有 AI 的辅助,gpu 服务器的集群的部署也没很难?😂
    roygong
        10
    roygong  
       4 天前 via iPhone
    Infiniband 是一个专门的硬件,有了就可以跨机跑模型
    geekvcn
        11
    geekvcn  
       4 天前
    @mingtdlb 连接不要用光缆,用铜缆直通,有专门的直连铜缆,缺点是长度受限仅适用于机器都在单机柜里。不用光缆是因为光电转换会引入额外的开销和延时
    neteroster
        12
    neteroster  
       4 天前
    除了硬件还要考虑并行,dp, ep, tp 啥的,各种调优,infra 没那么简单的
    Muniesa
        13
    Muniesa  
       4 天前 via Android
    sglang:在 96 个 H100 GPU 上部署具有 PD 解耦和大规模专家并行性的 DeepSeek
    https://www.lmsys.org/blog/2025-05-05-large-scale-ep/
    stoneabc
        14
    stoneabc  
       4 天前
    @catazshadow 没那么夸张,现在万卡集群不用 IB 直接走 roce 的都一堆,都是成熟方案了
    catazshadow
        15
    catazshadow  
       4 天前
    @stoneabc 真这么夸张,本来推理几十 tps 用了网卡可能就十几 tps 了
    COOOOOOde
        16
    COOOOOOde  
       4 天前
    未来的方案都是上光信号 铜缆都不行了, 你炒股的话 就知道现在的 CPO 题材有多火了
    mingtdlb
        17
    mingtdlb  
    OP
       4 天前
    @stoneabc #14 搜了一些文章,比较同意,用 roce ,ib 成本太高了。但具体怎么组网还没搜到。。。想看具体的方案细节
    coefu
        18
    coefu  
       3 天前
    LLM 多机多卡分布式并行推理的话,infra 上的优化总是有限度的,还得是 架构优化,kvcache 量化,pd 分离,虽然都是老生常谈,但是真的必须得用。

    要是 pipeline 串行推理,那非常简单明了,10G 以太网都能搞。
    coefu
        19
    coefu  
       3 天前
    glm5.1 Q8-k-xl,811G ,2 个 m3 mac studio ultra 512G 通过 雷电口串起来跑 pipeline ,也是能跑的。就是慢罢了。

    amd 2023 年出的 mi300x,单卡都 192G hbm3 ,一机 8 卡,也有 1.5T ,现在开源的量化都能单机塞进去。
    就不用说 2024 年出的 mi325x ,单卡 256G hbm3e ,一机 8 卡,2T ,开源的 BF16 都能塞进去,还有 context 空间。

    所以,多机多卡分布式并行推理,在这些大船靠岸的时候,都是过去时了。只是,当下,对于市面上的穷人来说,还是有用的。或许,工程学术上还能水一点文章。
    makictos
        20
    makictos  
    PRO
       3 天前
    @coefu 多机器组全局 nvl 不是为了推理的,如果你需要强推理,有很多其他高性价比选择,比如说你说的 mi325x ,或者 intel 的 gaudi3 。全局 nvl 的核心主要在于多集群的训练,这个是 nv 独有的优势。
    makictos
        21
    makictos  
    PRO
       3 天前
    @mingtdlb 你想看哪些技术细节?目前想要做多机组网,对于小规模客户来说,其实 ib 就是成本最低的。因为有集群组网经验的技术年薪。。大概率高于一台 H200 整机。而且就算集群组网,也无法实现你把模型拖进去就能用,程序并不是原生就能做 nvl 多卡拆分的。
    coefu
        22
    coefu  
       2 天前
    @makictos #20 训练多大参数的模型呢?有这个训练需求的,单卡早超过了 128G 。全世界不会超过 10 家,这 10 家的 infra 技术,和,你,我,他,有什么关系?你,我,他,会不会,懂不懂,又有什么关系?

    你的观点是工程学术理论极限,但是学界也没有条件搞这个级别的集群的工程技术创新,普罗大众也接触不到。能研究这个极限的,也就大厂的那些个有条件接触超大集群 infra 的工程师。理论极限,我当然懂。我每天都看最新研究论文。

    我的观点是,多机多卡分布式并行推理,就算是攒了一些低端卡,凑个 40G 网络的普通玩家来说,也是个鸡肋技术。不要说训练,多机多卡分布式并行训练,虽然起码理论上来说,我懂,但是我也没实践过,没条件。但是,并不是说,每个人从理论上都懂的。
    makictos
        23
    makictos  
    PRO
       12 小时 54 分钟前
    @coefu 无意冒犯,我目前就职于你所说的大厂,也确实是 v2 少数能完整直接控制超大集群的工程师。回复此贴只是做技术解答。
    makictos
        24
    makictos  
    PRO
       12 小时 51 分钟前
    @coefu 其次,懂这些是相当有必要的,在目前 tesla v100 sxm2 这种入门级卡片只要 600 元的市场下,如果个人购买百卡组小规模集群进行学习实践,可以有效提高你进入大厂的可能性。在目前的组内需求中,我们仍缺乏有经验的百卡/千卡工程师。
    mingtdlb
        25
    mingtdlb  
    OP
       10 小时 47 分钟前
    @makictos #21 你讲的对我来说有点高深,什么 nvl ,什么多卡拆分,我不太了解这些,我知道你有东西,第一条回复就能看出来😁

    这么说吧,比如我想在企业内网跑一个大模型,供内部使用,要企业级的方案,最开始肯定是确认需求算力、并发、吞吐量、显存大小,再选型 GPU ,硬件到货了再给他组起来。

    假设吧,比如是有 8 台 SXM 版的 GPU 服务器,每台是 8 卡 H200 ,那首先要把硬件连接起来,怎么连呢,然后再部署 ds v4 的大模型,提供 api 接口给业务用。

    我想了解下怎么开展这项工作,有没有文章可以看的,想学习了解一下,我个人是做云计算方面的,未来 GPU 价格如果下来了,企业内网有需求的都会这么玩吧

    软件层面可能企业中有 GPU 云平台这种东西,能直接纳管 GPU 服务器,然后平台能直接部署大模型,还带监控、运维管理啥的(我按云计算的的思想,猜的,就像 esxi 这种厂家,到时部署大模型给业务用就像发个虚拟机一样简单),先不考虑这种的
    coefu
        26
    coefu  
       5 小时 26 分钟前
    @makictos #24 味儿太浓,你要是能不这么端着交流,我还能高看你一眼。但是你这装的,处处感觉自己屌人一筹。讲真,LLM 这波还能走多远都是个问题,行家都知道 LLM 根本没有什么搞头。你也就是在这波泡沫里游荡一回罢了。底层这点工程技术,早就没什么新鲜东西。而且我都没问你,你解答个什么?你给 OP 回复就行了,并且你回复的也不是我不懂的东西嘛。讲了和没讲一样,谁不知道 nvlink?

    一开始是无所谓冒犯不冒犯的,但是你后面这两个回复,确实味儿太冲,熏到哥们儿了。但是我理解你孤芳自赏的内心,我原谅你。
    coefu
        27
    coefu  
       4 小时 53 分钟前
    @makictos #23 有时间有精力,就多追一下业界最强。

    Decoupled DiLoCo for Resilient Distributed Pre-training https://arxiv.org/html/2604.21428v1
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   813 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 79ms · UTC 21:24 · PVG 05:24 · LAX 14:24 · JFK 17:24
    ♥ Do have faith in what you're doing.