InfiniBand vs RoCE: 为啥大模型集群要选IB?

大模型训练迈入万卡时代后，一个共识越来越清晰：网络不再是算力的配角，而是决定集群效率的核心变量。但究竟什么样的网络才能撑起超大规模智算集群？最近一张InfiniBand与RoCE的对比图在圈内流传，把这个问题彻底摆到了台面上。

先说结论：在大模型训练这个场景里，IB依然是更优解，RoCE还有很长的路要走。先看硬指标。主流带宽上，IB已经跑到400G（NDR），RoCE还在200G阶段。带宽领先整一代意味着什么？意味着在同样的时间内，IB能传两倍的数据。对于通信耗时动辄占40%-60%的MoE模型来说，这个差距直接反映在训练效率上，不是纸上谈兵。再看延迟。IB交换机能做到300纳秒以下，RoCE在300到500纳秒之间。表面看只差了几百纳秒，但在万卡集群里，每一次梯度同步、每一次参数更新，背后都是海量数据在成千上万张卡之间高频穿梭。微秒级的差异，会被规模放大成训练周期的明显拉长。

但更关键的区别不在表面参数，而在底层机制。IB采用基于信用的流控——发数据前先确认接收端有足够缓冲区，相当于高铁发车前确认轨道空闲，从根源上杜绝丢包，是真正的“无损网络”。RoCE依赖PFC（优先级流控），相当于路上堵车了才发暂停指令，这种事后补救的机制容易引发PFC风暴甚至死锁。这种机制差异直接决定了易用性。IB是集中式调度，像高铁调度中心，无死锁风险，即插即用。RoCE配置复杂，需要持续观察、反复调整水线。在动辄数千卡的集群里，这个差距意味着运维成本的天壤之别。还有一个容易被忽略的点：组网规模。IB支持数万节点，性能平稳；RoCE跨POD通信性能较差，更适合中小规模。当大家都在往十万卡集群冲刺时，这个差距就成了天花板，绕不过去。所以问题来了：既然IB优势这么明显，为什么市面上还有这么多RoCE的声音？答案很简单——因为IB过去没得选。长期被海外厂商垄断，成本高、供货受限、技术支持慢。国内用户要么接受RoCE的性能折中，要么忍受IB的供应困境，没有第三条路。这也是为什么中科曙光最近推出全自研scaleFabric值得关注。它做的正是国产原生IB网络，从交换芯片到上层软件100%自研，带宽、延迟、流控机制完全对标IB标准，网络成本比进口方案降低约30%。在国家超算互联网核心节点，这套方案36小时完成3套万卡集群部署，稳定运行超10个月。当算力竞赛进入下半场，“网络定义算力效率”不再是口号。谁掌握了高速互联

群发资讯网

InfiniBand vs RoCE: 为啥大模型集群要选IB?

热门分类