📢 转载信息
原文作者:David Brown

AI 发展迅猛,对大多数客户而言,真正的机会不在于实验性地使用 AI,而在于将其投入生产,以驱动有意义的业务成果。这意味着需要构建能够可靠运行、规模化执行并满足组织安全合规要求的系统。
今天,在 NVIDIA GTC 2026 上,AWS 和 NVIDIA 宣布扩大合作,推出新的技术集成,以支持不断增长的 AI 计算需求,并帮助您构建和运行生产就绪的 AI 解决方案。这些集成涵盖了加速计算、互连技术以及模型微调和推理。具体包括:
- 自 2026 年起,在 AWS 区域部署超过 100 万个 NVIDIA GPU。
- Amazon Elastic Compute Cloud (Amazon EC2) 支持 NVIDIA RTX PRO 4500 Blackwell 服务器版 GPU — 在主流云服务提供商中首家支持。
- 通过 AWS Elastic Fabric Adapter (EFA) 为解耦的 LLM 推理提供互连加速。
- 使用 Amazon EMR on Amazon Elastic Kubernetes Service (Amazon EKS) 结合 Amazon EC2 G7e 实例(搭载 NVIDIA RTX PRO 6000 Blackwell 服务器版 GPU),将 Apache Spark 性能提升 3 倍。
- 在 Amazon Bedrock 上扩展 NVIDIA Nemotron 模型支持。
NVIDIA GTC 2026 主要发布
通过扩展的 GPU 选项和优化的互连扩展 AI 基础设施
在代理 AI 时代加速计算能力
从 2026 年开始,AWS 将在其全球云区域增加超过 100 万个 NVIDIA GPU,包括 Blackwell 和 Rubin GPU 架构。AWS 提供任何云提供商中最广泛的基于 NVIDIA GPU 的实例集合,以支持多样化的 AI/ML 工作负载。AWS 和 NVIDIA 还在合作开发 Spectrum 网络和其他基础设施领域,为双方长达 15 年的联合创新增添新内容。
AWS 的先进云和 AI 基础设施为企业、初创公司和研究人员提供了构建和扩展代理 AI 系统所需的底层支持——这些系统能够跨复杂工作流程进行推理、规划和自主行动。
搭载 NVIDIA RTX PRO 4500 Blackwell 服务器版 GPU 的新款 Amazon EC2 实例
今天,我们宣布即将推出由 NVIDIA RTX PRO 4500 Blackwell 服务器版 GPU 加速的 Amazon EC2 实例。AWS 是第一家宣布支持 RTX PRO 4500 Blackwell 服务器版 GPU 的主流云提供商。这些实例非常适合各种工作负载,包括数据分析、会话式 AI、内容生成、推荐系统、视频流、视频渲染和其他图形工作负载。
由 NVIDIA RTX PRO 4500 Blackwell 服务器版 GPU 加速的 Amazon EC2 实例将构建在 AWS Nitro System 之上,该系统结合了专用硬件和轻量级虚拟机管理程序,可将主机硬件几乎所有的计算和内存资源交付给您的实例,以实现更好的整体资源利用率和性能。Nitro System 的专用硬件、软件和固件旨在强制执行限制,确保无人(包括 AWS 内部人员)能够访问您的敏感 AI 工作负载和数据。此外,Nitro System 在系统保持运行的同时支持固件更新、错误修复和优化。Nitro System 中的这些功能为 AI、分析和图形工作负载在生产环境中所需的增强资源效率、安全性和稳定性提供了支持。
使用 NVIDIA NIXL 在 AWS EFA 和 Trainium 上加速解耦 LLM 推理
随着模型规模的增长,GPU 或 Trainium 之间的通信开销可能成为瓶颈。今天,我们宣布支持 NVIDIA 推理 Xfer 库 (NIXL) 与 AWS EFA 结合,以加速 Amazon EC2 上的解耦大型语言模型 (LLM) 推理,支持 NVIDIA GPU 和 AWS Trainium。加速解耦推理对于扩展现代 AI 工作负载至关重要,因为它能够高效地重叠通信和计算,同时最大限度地减少通信延迟并最大限度地提高 GPU 利用率。此集成能够实现高性能、低延迟的 KV 缓存数据在执行令牌生成和存储 KV 缓存状态的分布式内存资源之间的移动。它还提供了灵活性,可以使用 GPU 和 Trainium EFA 启用的 EC2 实例的任何组合来构建推理集群。NIXL 与 EFA 原生集成到 NVIDIA Dynamo、vLLM 和 SGLang 等流行开源框架中,可提供改进的跨令牌延迟和更高效的 KV 缓存内存利用率。
通过 Amazon EMR 和 NVIDIA GPU 加速数据分析
使用 Amazon EMR on Amazon EKS with G7e 实例,Apache Spark 性能提升 3 倍
数据工程师和数据科学家经常面临数小时的数据处理流程,这会减慢 AI/ML 模型迭代和商业智能的生成。我们看到了这些工作负载的显著性能提升——AWS 和 NVIDIA 通过 Amazon EMR on EKS 结合 NVIDIA 的 RTX PRO 6000 架构优化 GPU 加速分析,为 Apache Spark 工作负载提供 3 倍的性能提升。凭借 Amazon EMR 和 G7e 实例,数据工程师和数据科学家可以加快 AI/ML 特征工程、复杂 ETL 转换和大规模实时分析的洞察时间。运行大规模数据处理管道的客户可以缩短运行分析所需的时间,同时保持与现有 Spark 应用程序的完全兼容性。
扩展 Amazon Bedrock 上的 NVIDIA Nemotron 模型支持
即将在 Amazon Bedrock 中使用强化微调 (RFT) 微调 Nemotron 模型
开发人员将很快能够在 Amazon Bedrock 上使用强化微调 (RFT) 直接微调 NVIDIA Nemotron 模型。这对于需要将模型行为与特定领域(无论是法律、医疗保健、金融还是任何其他专业领域)对齐的团队来说意义重大。强化微调可以塑造模型的推理和响应方式,而不仅仅是它的知识。由于这在 Amazon Bedrock 上原生运行,因此无需基础设施开销。您定义任务,提供反馈信号,Bedrock 将处理其余部分。了解 Amazon Bedrock 中的强化微调。
Nemotron 3 Super 即将在 Amazon Bedrock 上线
NVIDIA Nemotron 3 Super——一款专为多代理工作负载和扩展推理而构建的混合 MoE 模型——即将登陆 Amazon Bedrock。它旨在使 AI 代理能够在复杂的、多步骤的工作流程中保持准确性,支持金融、网络安全、零售和软件开发等领域的用例——通过完全托管的 API 提供快速、经济高效的推理。
提高能源效率和可持续性
随着 AI 工作负载的扩展,每瓦性能不仅仅是一个可持续性指标——它是一种竞争优势。在本次 NVIDIA GTC 会议中,Amazon CSO Kara Hurst 将与来自 Equinix 和 PepsiCo 的可持续发展领导者一起,讨论 AI 如何大规模地改变企业能源和基础设施——从作为主动电网参与者的数据中心,到作为企业效率引擎的 AI,以及 AWS 如何通过比本地数据中心更节能 4.1 倍的 AWS 基础设施帮助您实现最佳能源效率。
共同构建,一体运行
这些发布之所以令人兴奋,并非因为某个单一的功能——而是它们共同代表的意义。AWS 和 NVIDIA 十五年的合作伙伴关系已经构建了一个端到端优化的全栈 AI 基础设施,从 GPU 到网络再到托管服务层。您无需自己进行拼接,它已准备就绪,可供使用。
如果您本周参加 GTC,请前往 AWS 展位。观看现场演示,参加我们的展位剧院会议,并获取定制的 AWS Swag Factory 礼品。
访问 AWS 在 NVIDIA GTC 2026 了解 AWS 在此次会议上的所有动态。
评论区