12月4日晚间消息,在亚马逊云科技2025re:invent全球大会上,亚马逊云科技首席执行官mattgarman宣布推出全新的p6egb300系列,并正式发布基于研芯片trainium3和基于该芯片的trn3ultraservers服务器。
他介绍,“这些产品(p6egb300)采用英伟达最新的gb300nvl72系统,我们持续为最苛刻的ai工作负载提供顶级算力。我们在硬件、软件与运营层面的全栈严谨性,为全球最大的企业提供最佳的可靠性和性能。其中包括英伟达自己——他们的大规模genai集群projectceiba就运行在亚马逊云科技上;以及像openai这样的大型机构也在积极使用亚马逊云科技。这些大型企业如今都在使用拥有数十万颗芯片的ec2ultraservers集群,目前使用的是gb200系列,很快就会用到gb300系列。”
此外,mattgarman还宣布推出amazonaifactories。“通过这一发布,我们让客户能够在自己的数据中心内部署专属的亚马逊云科技ai基础设施,供其独享。实际上,aifactory就像一个‘亚马逊云科技私有区域’,让客户利用已有的数据中心空间与电力能力,同时仍然能够访问亚马逊云科技领先的ai基础设施与服务,包括最新的训练集群、nvidiagpu,以及amazonsagemaker和amazonbedrock等服务。”
他介绍,aifactories是为每个客户独立运行的,帮助他们保持物理与逻辑隔离,同时继续享有来自亚马逊云科技的安全性与可靠性,也能满足严格的合规与数据主权要求。
亚马逊云科技还宣布推出自研ai芯片amazontrainium。mattgarman介绍,trainium2目前实际上是全世界最佳的推理系统之一。他表示,“事实上,我们在数据中心部署trainium2的速度,比我们过去部署任何芯片的速度都快好几倍。是的,这是我们迄今部署速度最快的ai芯片,我们现在的销售速度几乎和产能齐平。仅训练芯片这一部分,今天已是一个数十亿美元规模的业务,并且仍在快速增长。”
此外,亚马逊云科技在去年官宣布的新一代芯片trainium3,也有了新进展,目前trainium3ultraservers正式可用。“我很高兴地宣布,我们已经在全力研发trainium4,并且已经进入深度设计阶段,对目前看到的结果十分期待。与trainium3相比,trainium4将在所有维度实现巨大跃升:fp4计算性能提升6倍、内存带宽提升4倍、高带宽内存容量提升2倍,以支持全球最大规模模型的训练需求。”