
众所周知,为了满足自身需求及降低成本,亚马逊、谷歌等众多云服务大厂在数年前就已经开始了自研云端AI芯片。根据亚马逊AWS公布的信息显示,目前其定制芯片业务规模已达数十亿美元,Trainium系列芯片全球部署总量突破100万张,成为支撑超大规模AI计算的核心支柱,在全球云厂商自研芯片中仅次于谷歌TPU。
具体来说,Trainium 3 基于台积电3nm制程工艺,单芯片可提供2.52 PFLOPs(FP8)算力,支持FP32、BF16、MXFP8及新增MXFP4等多种精度格式。同时,该芯片还将HBM3e内存容量提升至144GB、带宽提升至4.9TB/s,同时强化结构化稀疏性和微缩放硬件支持,进一步优化大语言模型训练与推理效率。
AWS表示,Trainium 3有望将AI模型全生命周期成本整体降低50%,可以为客户带来更高的性价比AI算力服务。
同时,AWS还推出了基于全新一代Neuron Fabric互联技术的Trainium3 UltraServers,最多可以将144颗Trainium3 整合在单一系统中总算力达362 FP8 PFLOPs。

△Trainium3 UltraServers
根据AWS的说法,相较上一代的Trainium2 UltraServers,全新的Trainium3 UltraServers 的原始性能提升了4.4倍,性能功耗比提升4倍,整体能源效率提升40%。实测数据显示,部署主流开源模型(如 GPT-OSS)时,单芯片吞吐量提升3倍,响应延迟缩短4倍。这使客户能以更快速度训练模型,把原先需要数月时间缩短到数周,同时支持更多推理请求,降低上线时间和营运成本,让过去被视为不切实际或太昂贵的AI 项目化为可能。
通过EC2 UltraClusters 3.0架构,Trainium3 UltraServers 可扩展至最高100万张芯片的超级集群,规模较上一代提升10倍,已为Anthropic的“Project Rainier”项目提供核心算力支撑(目前已部署50万张Trainium 2,计划年底前扩容至100万张)。
AWS指出,已有多家客户使用Trainium3 和Trainium3 UltraServers 取得成效,包括Anthropic、Karakuri、Metagenomi、NetoAI、Ricoh、Splash Music 等,训练成本比其他方案最多降低50%。
此外,AWS 还曝光了下一代AI 加速器Trainium4。虽然目前这款芯片正在开发中,AWS也没有公布Trainium4 推出的具体时间,但是AWS 承诺Trainium4 将会带来至少6倍处理性能(FP4)、3倍FP8 性能、4倍內存频宽。

更重要的是,Trainium4 将支持NVIDIA NVLink Fusion 高速互连技术,使Trainium4、Graviton 及EFA(Elastic Fabric Adapter)能在通用的MGX 机架顺畅协作,与NVIDIA GPU 相互操作、扩展性能。
编辑:芯智讯-浪客剑