群发资讯网

InfiniBand vs RoCE: 为啥大模型集群要选IB?

大模型训练迈入万卡时代后,一个共识越来越清晰:网络不再是算力的配角,而是决定集群效率的核心变量。但究竟什么样的网络才能撑

大模型训练迈入万卡时代后,一个共识越来越清晰:网络不再是算力的配角,而是决定集群效率的核心变量。但究竟什么样的网络才能撑起超大规模智算集群?最近一张InfiniBand与RoCE的对比图在圈内流传,把这个问题彻底摆到了台面上。

先说结论:在大模型训练这个场景里,IB依然是更优解,RoCE还有很长的路要走。先看硬指标。主流带宽上,IB已经跑到400G(NDR),RoCE还在200G阶段。带宽领先整一代意味着什么?意味着在同样的时间内,IB能传两倍的数据。对于通信耗时动辄占40%-60%的MoE模型来说,这个差距直接反映在训练效率上,不是纸上谈兵。再看延迟。IB交换机能做到300纳秒以下,RoCE在300到500纳秒之间。表面看只差了几百纳秒,但在万卡集群里,每一次梯度同步、每一次参数更新,背后都是海量数据在成千上万张卡之间高频穿梭。微秒级的差异,会被规模放大成训练周期的明显拉长。

但更关键的区别不在表面参数,而在底层机制。IB采用基于信用的流控——发数据前先确认接收端有足够缓冲区,相当于高铁发车前确认轨道空闲,从根源上杜绝丢包,是真正的“无损网络”。RoCE依赖PFC(优先级流控),相当于路上堵车了才发暂停指令,这种事后补救的机制容易引发PFC风暴甚至死锁。这种机制差异直接决定了易用性。IB是集中式调度,像高铁调度中心,无死锁风险,即插即用。RoCE配置复杂,需要持续观察、反复调整水线。在动辄数千卡的集群里,这个差距意味着运维成本的天壤之别。还有一个容易被忽略的点:组网规模。IB支持数万节点,性能平稳;RoCE跨POD通信性能较差,更适合中小规模。当大家都在往十万卡集群冲刺时,这个差距就成了天花板,绕不过去。所以问题来了:既然IB优势这么明显,为什么市面上还有这么多RoCE的声音?答案很简单——因为IB过去没得选。长期被海外厂商垄断,成本高、供货受限、技术支持慢。国内用户要么接受RoCE的性能折中,要么忍受IB的供应困境,没有第三条路。这也是为什么中科曙光最近推出全自研scaleFabric值得关注。它做的正是国产原生IB网络,从交换芯片到上层软件100%自研,带宽、延迟、流控机制完全对标IB标准,网络成本比进口方案降低约30%。在国家超算互联网核心节点,这套方案36小时完成3套万卡集群部署,稳定运行超10个月。当算力竞赛进入下半场,“网络定义算力效率”不再是口号。谁掌握了高速互联