
据六位直接知情人士透露,就在Meta与AMD、英伟达签署新芯片供应协议的同时,其自研AI芯片项目接连遇到严重问题。
消息人士称,由于设计困难重重,Meta上周取消了正在开发的最高端AI训练芯片,转而将重心放在结构更简单的版本上。公司已在上周向AI基础设施部门员工通报了这一调整。
这一决定凸显出,科技巨头想要设计出能与市场霸主英伟达抗衡的AI芯片,难度极大。
核心要点
Meta因设计难题,砍掉自研高端AI训练芯片Olympus
这一决定凸显出挑战英伟达主导地位的难度
Meta已与AMD、英伟达达成数据中心芯片供应协议
Meta调整芯片路线图之前,已在近几周与超威半导体(AMD)、英伟达建立新合作:
周二,Meta与AMD宣布,将采购功率达6吉瓦的AMD芯片,大致可满足多个大型数据中心需求
本月稍早,Meta与英伟达达成多代次长期合作,承诺在数据中心部署数百万片英伟达现有及下一代芯片
Meta的自研AI芯片隶属于MTIA(Meta训练与推理加速器)项目,是公司自主开发AI硬件、降低对英伟达等外部芯片厂商依赖的重要举措,旨在降低成本、加强对数据中心基础设施的掌控。
例如,Meta预计2026年资本支出将达到1150亿~1350亿美元,其中大部分将投向芯片与服务器。
Meta发言人在声明中表示:
“我们仍致力于投资多元化的芯片组合以满足自身需求,包括推进MTIA系列产品,今年将公布更多信息。”
包括微软在内的其他科技公司,在自研AI芯片时也遇到类似问题。
去年,英伟达CEO黄仁勋曾公开表示,大多数科技巨头最终会放弃自研竞品芯片的计划,并称这些芯片的性能将持续落后于英伟达产品。
Meta多款自研芯片接连遇挫
Meta多款自研芯片均出现问题:
公司已砍掉第二代训练芯片的一个版本,内部代号Iris
随后启动更先进的训练芯片项目,代号Olympus,但如今也已取消
一位参与Meta芯片项目的人士表示,公司内部对自研芯片能否追上英伟达能力持怀疑态度,因为项目存在延期与重新设计风险。
该人士称,这项工作需要庞大工程师团队进行设计、调试,并确保功耗不会过高,否则相比英伟达芯片将毫无性价比。
Iris采用SIMD(单指令多数据)架构,硬件设计相对简单,但训练AI模型时软件编程难度更高
Olympus采用与英伟达AI芯片类似的SIMT(单指令多线程)架构,软件编程更友好,但硬件设计难度极大
许多科技公司青睐英伟达普及的SIMT架构,因为它更灵活,更适合训练现代AI模型。
据四位消息人士透露,Meta原本计划最早在2026年第四季度完成Olympus设计,而新芯片从初步设计到量产通常还需要九个月甚至更久。
Olympus负责AI计算的核心GPU部分,计划采用Meta去年收购的芯片初创公司Rivos的设计。
Rivos曾宣称,其GPU可以高效运行英伟达专属的CUDA软件代码,而CUDA是当前训练与运行机器学习模型的主流软件生态。
据一位消息人士称,Meta最初计划用Olympus搭建大型服务器集群,但高管最终认定,在与OpenAI、谷歌等成熟对手激烈竞争的背景下,这会给新模型训练带来重大风险。
多位人士表示,Olympus的训练软件稳定性不如英伟达,且复杂设计可能导致难以大规模量产。
因此,Meta目前选择继续使用第三方厂商的训练芯片,这些芯片的软件生态已经成熟。