目 录CONTENT

文章目录

独家探访亚马逊Trainium实验室:一颗征服Anthropic、OpenAI乃至苹果的芯片

Administrator
2026-03-22 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://techcrunch.com/2026/03/22/an-exclusive-tour-of-amazons-trainium-lab-the-chip-thats-won-over-anthropic-openai-even-apple/

原文作者:Julie Bort


在亚马逊CEO安迪·贾西宣布AWS与OpenAI达成一项里程碑式1000亿美元投资协议后不久,亚马逊邀请我参观了该公司芯片研发的核心实验室,费用基本由亚马逊承担。

行业专家们正密切关注亚马逊在此设施中研发的Trainium芯片,关注其在降低AI推理成本方面的潜力,以及可能对英伟达近乎垄断的地位造成的冲击。

我带着好奇心同意了这次参观。

当天的向导是实验室主任克里斯托弗·金(Kristopher King,下图右)和工程总监马克·卡罗尔(Mark Carroll,下图左),以及安排此次访问的公关人员多龙·阿龙森(Doron Aronson,故事后面会与我合影)。

ASW Chip实验室领导者马克·卡罗尔和克里斯托弗·金
AWS芯片实验室领导者马克·卡罗尔和克里斯托弗·金。图片来源:TechCrunch/Julie Bort

自AI实验室早期以来,AWS一直是Anthropic的主要云平台——尽管Anthropic后来又增加了微软作为云合作伙伴,并且亚马逊与OpenAI的合作不断加深,但这一关系仍然非常重要。

与OpenAI的交易使AWS成为该模型制造商新AI代理构建器Frontier的独家供应商,如果代理能像硅谷预期的那样大规模发展,Frontier可能会成为OpenAI业务的重要组成部分。我们将拭目以待此次独家协议是否会如预期般执行。《金融时报》本周报道称,微软可能认为OpenAI与亚马逊的交易违反了其与OpenAI的协议,特别是关于微软能够访问OpenAI所有模型和技术的条款。

是什么让AWS对OpenAI如此有吸引力?作为交易的一部分,这家云巨头已同意为OpenAI提供2吉瓦的Trainium计算能力。这是一个巨大的承诺,因为Anthropic和亚马逊自己的Bedrock服务已经消耗Trainium芯片的速度超过了亚马逊的生产能力。

公司表示,目前已部署了140万颗Trainium芯片(包括所有三代),其中Anthropic的Claude运行在超过100万颗Trainium2芯片上。

值得注意的是,虽然Trainium最初是为更快、更便宜的模型训练(几年前是重点)而设计的,但现在它也被调整用于推理。推理——即运行AI模型以生成响应的过程——是目前行业中最大的性能瓶颈。

例如:Trainium2处理着亚马逊Bedrock服务上的大部分推理流量,该服务支持亚马逊众多企业客户构建AI应用程序,并允许这些应用程序使用多个模型。

“我们的客户群正在以我们能提供的算力速度一样快地扩展,”金说。“Bedrock有一天可能会像EC2一样大,”他补充道,EC2是AWS庞大的计算云服务。

亚马逊的Trainium3芯片
亚马逊的Trainium3芯片。图片来源:Amazon

Trainium vs. 英伟达

除了提供英伟达因积压订单而难以获得的GPU的替代方案外,亚马逊表示,其运行在新型专用Trn3 UltraServers上的新芯片,在可比性能下,运行成本比使用传统云服务器低50%。

与去年12月发布的Trainium3一起,这个AWS团队还构建了新的Neuron交换机,卡罗尔说这是革命性的。

“这给了我们巨大的优势,”卡罗尔说。这些交换机允许每个Trainium3芯片在网状配置中与其他芯片通信,从而降低延迟。“这就是为什么Trainium3正在打破各种记录,”尤其是在“每瓦特成本”方面,他说。

当每天涉及数万亿个Token时,这种改进的累积效应是巨大的。

事实上,亚马逊的芯片团队在2024年受到了苹果的赞扬。在一个这家神秘公司罕见的公开时刻,苹果的AI总监公开描述了他们如何使用该团队的另一款芯片——Graviton,这是一款低功耗、基于ARM的服务器CPU,也是该团队设计的首款突破性芯片。苹果还称赞了Inferentia——一款专为推理设计的芯片,并对当时还算新颖的Trainium芯片表示了肯定。

这些芯片代表了亚马逊经典的运营模式:了解人们想要什么,然后构建一个内部替代品,以价格进行竞争。

但芯片的历史性难题在于切换成本。为英伟达芯片编写的应用程序必须重新架构才能与其他芯片协同工作——这是一个耗时的过程,阻碍了开发者切换。

但AWS芯片团队自豪地告诉我,Trainium现在支持PyTorch,这是一个流行的开源框架,用于构建AI模型。这包括许多托管在Hugging Face上的模型,Hugging Face是一个开发者共享开源模型的大型库。

卡罗尔告诉我,迁移过程“基本上只需要一行代码的更改,然后重新编译,就可以在Trainium上运行。”换句话说,亚马逊正试图尽可能地削弱英伟达的市场主导地位。

本月,AWS还宣布与Cerebras Systems建立合作关系,将该公司的数据中心芯片集成到运行Trainium的服务器上,以实现亚马逊承诺的超强、低延迟AI性能。

但亚马逊的雄心不止于芯片本身。它还设计承载芯片的服务器。除了网络组件,该团队还设计了“Nitro”——一种软硬件结合技术,提供虚拟化技术(允许多个软件实例在同一服务器上独立运行);最新的液冷技术;以及承载这些设备的服务器滑橇(下图)。

这一切都是为了控制成本和提升性能。

AWS奥斯汀芯片实验室之旅,带组件的滑橇
AWS奥斯汀芯片实验室之旅,带组件的滑橇。图片来源:TechCrunch/Julie Bort

24/7 全力投入“上线”工作

亚马逊的定制芯片设计部门诞生于2015年1月,当时这家云巨头以约3.5亿美元收购了以色列芯片设计公司Annapurna Labs。因此,该团队设计AWS芯片已有十多年历史。该部门保留了其Annapurna的根基和名称——它的标志在办公室随处可见。

这个芯片实验室位于奥斯汀高档“The Domain”区的闪亮镀铬窗户大楼内,这是一个遍布商店和餐馆的步行区,有时被称为“奥斯汀的硅谷”。

办公室里有典型的科技公司氛围:隔间办公桌、聚会区和会议室。但位于大楼高层后面一个隐蔽的房间里,是真正的实验室,可以俯瞰城市美景。

这个装满架子的实验室,大约有两个大型会议室那么大,由于设备风扇的噪音,是一个嘈杂的工业空间。它看起来像高中手工课和好莱坞高端实验室场景的混合体,只不过工程师们穿着牛仔裤,而不是白大褂。

AWS奥斯汀芯片实验室
AWS奥斯汀芯片实验室。图片来源:TechCrunch/Julie Bort
AWS奥斯汀芯片实验室
AWS奥斯汀芯片实验室。图片来源:TechCrunch/Julie Bort

请注意,这里不是芯片的制造地,因此不需要穿白色的防护服。Trainium3是一款由台积电生产的先进3纳米芯片,台积电可以说是3纳米制造领域的领导者,其他芯片由Marvell生产。

但这就是“上线”魔术发生的地方。

“芯片上线(silicon bring-up)是指当你第一次拿到芯片的时候,那就像一场盛大的通宵派对。你得待在这里,像被锁住一样,”金解释道。经过18个月的工作,芯片首次被激活,以验证其是否按设计工作。团队甚至拍摄了一些Trainium3上线的视频并发布到了YouTube上。

剧透一下:从来都不是一帆风顺的。

对于Trainium3,原型芯片最初采用与前几代相同的风冷散热。现在的芯片采用了液冷技术,这带来了能源优势,并且是一项了不起的工程壮举。

在上线过程中,芯片安装在风冷散热器上的尺寸不符,导致芯片无法激活。

尽管如此,团队“立刻拿来一个研磨机,开始打磨金属,”金说。由于不想噪音破坏上线派对的气氛,他们偷偷溜到会议室里进行打磨。

“整夜不眠地解决问题,这就是芯片上线(silicon bring-up)的全部意义,”金说。

实验室甚至还有一个焊接站,硬件实验室工程师兼焊接大师艾萨克·格瓦拉(Isaac Guevara)在显微镜下演示了焊接微小的集成电路组件。这是一项极其困难的工作,以至于资深领导者卡罗尔公开承认自己做不到,引得格瓦拉和房间里的其他工程师哈哈大笑。

AWS奥斯汀芯片实验室之旅,焊接站
AWS奥斯汀芯片实验室之旅,焊接站。图片来源:TechCrunch/Julie Bort

实验室还配备了定制和商用工具,用于测试和分析芯片问题。信号工程师阿尔温德·斯里尼瓦桑(Arvind Srinivasan)在这里演示实验室如何测试芯片上的每一个微小组件:

AWS奥斯汀芯片实验室之旅,测试设备
AWS奥斯汀芯片实验室之旅,测试设备。图片来源:TechCrunch/Julie Bort

滑橇是实验室的明星

但实验室的明星是展示该团队设计的每一代“滑橇”的整排展台。

AWS奥斯汀芯片实验室之旅,滑橇墙
AWS奥斯汀芯片实验室之旅,滑橇墙。图片来源:TechCrunch/Julie Bort

滑橇是承载Trainium AI芯片、Graviton CPU芯片以及支持板卡和组件的托盘。将它们堆叠在机架上,并配上同样由该团队定制设计的网络组件,你就得到了支撑Anthropic Claude成功的核心系统。

这是在去年12月AWS re:Invent大会上展示的滑橇:

AWS奥斯汀芯片实验室之旅,Trainium3滑橇
AWS奥斯汀芯片实验室之旅,Trainium3滑橇。图片来源:TechCrunch/Julie Bort

Anthropic和OpenAI的验证

我本以为我的向导在参观过程中会大肆吹嘘与OpenAI的交易。但他们并没有。

这种克制可能与之前提到的可能围绕该交易的法律阴影有关。但我感觉到的是,这些实干的工程师(他们目前正在设计下一代Trainium4)迄今为止还没有太多机会与OpenAI合作。他们的日常工作一直专注于Anthropic和亚马逊的需求。

目前,Trainium2芯片最大的部署是在Project Rainier——这是世界上最大的AI计算集群之一——该集群于2025年末上线,拥有50万颗芯片。它由Anthropic使用。

但在主办公室有一个墙上显示器,上面展示着关于OpenAI将如何使用Trainium的引言。虽然低调,但自豪感依然存在。

除了这个实验室,该团队还拥有自己的私有数据中心用于质量和测试目的。距离这里不远,它不运行客户工作负载,因此它设在一个共置设施中,而不是AWS数据中心。

安保非常严格:进入大楼和进入亚马逊区域都有严格的协议。

数据中心的冷却系统非常嘈杂,必须佩戴耳塞,空气中弥漫着加热金属的刺鼻气味。对普通人来说,这不是一个令人愉快的地方。

AWS奥斯汀芯片实验室之旅数据中心
我和阿龙森在AWS奥斯汀芯片实验室数据中心,在现场服务器旁保护耳朵。图片来源:TechCrunch / Julie Bort

在这个数据中心,有成排的服务器,里面装满了集成了亚马逊最新定制芯片的滑橇:Graviton CPU、液冷Trainium3、Amazon Nitro,所有这些都在高效运行。冷却液在一个封闭系统中运行,这意味着它是可重复使用的,工程师们说这也有助于减少对环境的影响。

这是当前Trn3 UltraServer的样子:顶部和底部有多个滑橇,中间是Neuron交换机。硬件开发工程师David Martinez-Darrow在这里进行滑橇维护:

AWS奥斯汀芯片实验室之旅数据中心
AWS奥斯汀芯片实验室之旅数据中心。图片来源:TechCrunch/Julie Bort

虽然该团队一直备受关注,但最近的审查力度明显加大。

亚马逊CEO安迪·贾西密切关注着这个实验室,像一个骄傲的父亲一样公开吹捧其产品。去年12月,他说Trainium已经是AWS的一个数十亿美元的业务,并称它是他最兴奋的AWS技术之一。在宣布与OpenAI的协议时,他还提到了这款芯片。

该团队也感受到了压力。在每次上线事件前后,工程师们会连续工作三到四周,以修复任何问题,从而使芯片能够量产并投入数据中心。

“尽快证明它确实能正常工作非常重要,”卡罗尔说。“到目前为止,我们做得相当不错。”

*披露:亚马逊提供了机票并支付了一晚当地酒店的费用。为了遵守其“节俭”的领导原则,这是经济舱座位和一家经济型酒店。TechCrunch承担了其他相关旅行费用,如打车费和行李费。(是的,我为一个过夜旅行打包了一个行李箱。我就是这么挑剔。)




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区