比如要部署 deepseek 满血版,总不能用一台跑对吧,那比如有三台 SXM 版的 8 卡 A100 的 GPU 服务器
好奇问一下,想学习学习
为什么想了解这个,GPU太贵了,单节点可能都要几十上百万,集群才考虑组网,实践的机会更少了。
现在招人都要求有经验的,不像以前能从初级开始干,有机会从实践中学习。
1
makictos PRO 每台机器插八个 cx7 400g 网卡,然后三台机器走 48 口交换机做互联
|
2
minami 4 天前 via Android
关键字:NvLink 、NvSwitch 、InfiniBand
|
3
ptstone 4 天前
网卡互联根本行不通,pcie5 的速度都不够,至少 1Tb/s 这种才能考虑
|
4
liaohongxing 4 天前
|
6
catazshadow 4 天前 via Android
@stoneabc 延迟要炸的
|
7
geekvcn 4 天前
目前都是 IB 网卡或者雷电网桥,总之带宽越高越好,以太网也行但是效率堪忧
|
8
thevita 4 天前
单台机内 nvlink
跨机器 RDMA 呗 网络并不是对等的, nvlink 带宽和延迟肯定都要好于网络, 所以尽量把 all-to-all 的通信放单个 node 内(比如 TP ) 跨 node 通信也需要深度的优化,通过各种 pipeline overlapped 来隐藏延迟 不是搞这个的,仅仅是个人粗浅的理解 |
9
mingtdlb OP |
10
roygong 4 天前 via iPhone
Infiniband 是一个专门的硬件,有了就可以跨机跑模型
|
12
neteroster 4 天前
除了硬件还要考虑并行,dp, ep, tp 啥的,各种调优,infra 没那么简单的
|
13
Muniesa 4 天前 via Android
sglang:在 96 个 H100 GPU 上部署具有 PD 解耦和大规模专家并行性的 DeepSeek
https://www.lmsys.org/blog/2025-05-05-large-scale-ep/ |
14
stoneabc 4 天前
@catazshadow 没那么夸张,现在万卡集群不用 IB 直接走 roce 的都一堆,都是成熟方案了
|
15
catazshadow 4 天前
@stoneabc 真这么夸张,本来推理几十 tps 用了网卡可能就十几 tps 了
|
16
COOOOOOde 4 天前
未来的方案都是上光信号 铜缆都不行了, 你炒股的话 就知道现在的 CPO 题材有多火了
|
18
coefu 3 天前
LLM 多机多卡分布式并行推理的话,infra 上的优化总是有限度的,还得是 架构优化,kvcache 量化,pd 分离,虽然都是老生常谈,但是真的必须得用。
要是 pipeline 串行推理,那非常简单明了,10G 以太网都能搞。 |
19
coefu 3 天前
glm5.1 Q8-k-xl,811G ,2 个 m3 mac studio ultra 512G 通过 雷电口串起来跑 pipeline ,也是能跑的。就是慢罢了。
amd 2023 年出的 mi300x,单卡都 192G hbm3 ,一机 8 卡,也有 1.5T ,现在开源的量化都能单机塞进去。 就不用说 2024 年出的 mi325x ,单卡 256G hbm3e ,一机 8 卡,2T ,开源的 BF16 都能塞进去,还有 context 空间。 所以,多机多卡分布式并行推理,在这些大船靠岸的时候,都是过去时了。只是,当下,对于市面上的穷人来说,还是有用的。或许,工程学术上还能水一点文章。 |
20
makictos PRO @coefu 多机器组全局 nvl 不是为了推理的,如果你需要强推理,有很多其他高性价比选择,比如说你说的 mi325x ,或者 intel 的 gaudi3 。全局 nvl 的核心主要在于多集群的训练,这个是 nv 独有的优势。
|
21
makictos PRO @mingtdlb 你想看哪些技术细节?目前想要做多机组网,对于小规模客户来说,其实 ib 就是成本最低的。因为有集群组网经验的技术年薪。。大概率高于一台 H200 整机。而且就算集群组网,也无法实现你把模型拖进去就能用,程序并不是原生就能做 nvl 多卡拆分的。
|
22
coefu 2 天前
@makictos #20 训练多大参数的模型呢?有这个训练需求的,单卡早超过了 128G 。全世界不会超过 10 家,这 10 家的 infra 技术,和,你,我,他,有什么关系?你,我,他,会不会,懂不懂,又有什么关系?
你的观点是工程学术理论极限,但是学界也没有条件搞这个级别的集群的工程技术创新,普罗大众也接触不到。能研究这个极限的,也就大厂的那些个有条件接触超大集群 infra 的工程师。理论极限,我当然懂。我每天都看最新研究论文。 我的观点是,多机多卡分布式并行推理,就算是攒了一些低端卡,凑个 40G 网络的普通玩家来说,也是个鸡肋技术。不要说训练,多机多卡分布式并行训练,虽然起码理论上来说,我懂,但是我也没实践过,没条件。但是,并不是说,每个人从理论上都懂的。 |
24
makictos PRO @coefu 其次,懂这些是相当有必要的,在目前 tesla v100 sxm2 这种入门级卡片只要 600 元的市场下,如果个人购买百卡组小规模集群进行学习实践,可以有效提高你进入大厂的可能性。在目前的组内需求中,我们仍缺乏有经验的百卡/千卡工程师。
|
25
mingtdlb OP @makictos #21 你讲的对我来说有点高深,什么 nvl ,什么多卡拆分,我不太了解这些,我知道你有东西,第一条回复就能看出来😁
这么说吧,比如我想在企业内网跑一个大模型,供内部使用,要企业级的方案,最开始肯定是确认需求算力、并发、吞吐量、显存大小,再选型 GPU ,硬件到货了再给他组起来。 假设吧,比如是有 8 台 SXM 版的 GPU 服务器,每台是 8 卡 H200 ,那首先要把硬件连接起来,怎么连呢,然后再部署 ds v4 的大模型,提供 api 接口给业务用。 我想了解下怎么开展这项工作,有没有文章可以看的,想学习了解一下,我个人是做云计算方面的,未来 GPU 价格如果下来了,企业内网有需求的都会这么玩吧 软件层面可能企业中有 GPU 云平台这种东西,能直接纳管 GPU 服务器,然后平台能直接部署大模型,还带监控、运维管理啥的(我按云计算的的思想,猜的,就像 esxi 这种厂家,到时部署大模型给业务用就像发个虚拟机一样简单),先不考虑这种的 |
26
coefu 5 小时 26 分钟前
@makictos #24 味儿太浓,你要是能不这么端着交流,我还能高看你一眼。但是你这装的,处处感觉自己屌人一筹。讲真,LLM 这波还能走多远都是个问题,行家都知道 LLM 根本没有什么搞头。你也就是在这波泡沫里游荡一回罢了。底层这点工程技术,早就没什么新鲜东西。而且我都没问你,你解答个什么?你给 OP 回复就行了,并且你回复的也不是我不懂的东西嘛。讲了和没讲一样,谁不知道 nvlink?
一开始是无所谓冒犯不冒犯的,但是你后面这两个回复,确实味儿太冲,熏到哥们儿了。但是我理解你孤芳自赏的内心,我原谅你。 |
27
coefu 4 小时 53 分钟前
@makictos #23 有时间有精力,就多追一下业界最强。
Decoupled DiLoCo for Resilient Distributed Pre-training https://arxiv.org/html/2604.21428v1 |