📢 转载信息
原文链接:https://blogs.nvidia.com/blog/aws-partnership-expansion-reinvent/
原文作者:Ian Buck
在AWS re:Invent大会上,英伟达(NVIDIA)与亚马逊云科技(Amazon Web Services, AWS)扩展了其战略协作,在互连技术、云基础设施、开放模型和实体AI等领域带来了新的技术集成。
作为此次扩展的一部分,AWS将支持英伟达的NVLink Fusion平台——一个用于定制AI基础设施的平台——以便部署其定制设计的芯片,包括用于推理和智能体AI模型训练的下一代Trainium4芯片、用于广泛工作负载的Graviton CPU,以及Nitro System虚拟化基础设施。
通过使用英伟达NVLink Fusion,AWS将把英伟达的NVLink扩展互连技术和NVIDIA MGX机架架构与AWS定制芯片相结合,以提高性能,并加快其下一代云规模AI能力的上市时间。
AWS正在设计Trainium4与NVLink和NVIDIA MGX集成,这是英伟达与AWS在NVLink Fusion方面多代合作的首次体现。
AWS已经大规模部署了配备NVIDIA GPU的MGX机架。集成NVLink Fusion将使AWS能够进一步简化跨其平台的部署和系统管理。
AWS还可以利用NVLink Fusion的供应商生态系统,该系统提供从机架、机箱到电源和冷却系统等全套机架规模部署所需的组件。
通过支持AWS的Elastic Fabric Adapter和Nitro系统,AWS上的英伟达Vera Rubin架构将为客户提供强大的网络选择,同时保持与AWS云基础设施的完全兼容性,并加速新AI服务的推出。
英伟达创始人兼首席执行官黄仁勋表示:“对GPU算力的需求正在激增——更多的算力才能带来更智能的AI,更智能的AI驱动更广泛的应用,更广泛的应用又会产生对更多算力的需求。AI的良性循环已经到来。随着英伟达NVLink Fusion应用于AWS Trainium4,我们正在将我们的扩展架构与AWS的定制芯片统一起来,以构建新一代加速平台。英伟达和AWS共同正在为AI工业革命创造计算基础——将先进的AI带给每一家公司、每一个国家,加速世界迈向智能化的进程。”
AWS首席执行官Matt Garman表示:“AWS和英伟达并肩工作已超过15年,今天标志着这段旅程的新里程碑。与英伟达合作,我们正在推进我们的大规模AI基础设施,为客户提供最高的性能、效率和可扩展性。即将推出的对AWS Trainium4、Graviton和Nitro系统中NVIDIA NVLink Fusion的支持,将为客户带来新功能,使他们能够以前所未有的速度进行创新。”
规模与主权融合
AWS已通过NVIDIA Blackwell架构扩展了其加速计算产品组合,包括NVIDIA HGX B300和NVIDIA GB300 NVL72 GPU,为客户立即提供了行业内最先进的用于训练和推理的GPU。专为视觉应用设计的NVIDIA RTX PRO 6000 Blackwell服务器版GPU预计将在未来几周内在AWS上可用。
这些GPU构成了AWS AI工厂的基础设施骨干,AWS AI工厂是一项新的AI云产品,将为全球客户提供所需的专用基础设施,以便在其自有数据中心(由AWS运营)中利用先进的AI服务和功能,同时允许客户控制其数据并遵守当地法规。
英伟达和AWS正致力于在全球范围内部署主权AI云,并将最好的AI创新带给世界。随着AWS AI工厂的启动,两家公司正在提供安全、主权AI基础设施,以提供前所未有的计算能力,同时满足日益严格的主权AI要求。
对于公共部门组织而言,AWS AI工厂将革新联邦超级计算和AI格局。AWS AI工厂的客户将能够无缝集成AWS行业领先的云基础设施和服务——以其可靠性、安全性和可扩展性而闻名——与NVIDIA Blackwell GPU和完整的NVIDIA全栈加速计算平台(包括NVIDIA Spectrum-X以太网交换机)。
统一的架构将确保客户能够访问先进的AI服务和功能,以及训练和部署大规模模型,同时保持对其专有数据的绝对控制,并完全遵守当地的监管框架。
NVIDIA Nemotron与Amazon Bedrock集成,扩展软件优化
在硬件之外,此次合作扩展了英伟达的软件堆栈与AWS AI生态系统的集成。英伟达的Nemotron开放模型现已与Amazon Bedrock集成,使客户能够在生产规模上构建生成式AI应用程序和智能体。开发人员可以访问Nemotron Nano 2和Nemotron Nano 2 VL,以构建能够高效准确地处理文本、代码、图像和视频的专业化智能体AI应用。
此次集成使得高性能、开放的英伟达模型可通过Amazon Bedrock的无服务器平台即时访问,客户可以在此依赖经过验证的可扩展性和零基础设施管理。行业领导者CrowdStrike和BridgeWise是首批使用该服务部署专业AI智能体的公司。
AWS上的NVIDIA软件简化开发者体验
英伟达和AWS也在软件层面进行联合工程,以加速每个企业的“数据骨干”。Amazon OpenSearch Service现在提供用于向量索引构建的无服务器GPU加速,由NVIDIA cuVS(一个用于GPU加速向量搜索和数据聚类的开源库)提供支持。这一里程碑标志着使用GPU处理非结构化数据的一个根本性转变,早期采用者发现向量索引速度提高了10倍,成本仅为四分之一。
这些显著的性能提升降低了搜索延迟,加速了写入操作,并通过在需要时精确提供所需数量的GPU算力,为检索增强生成(RAG)等动态AI技术解锁了更快的生产力。AWS是首家提供带NVIDIA GPU的无服务器向量索引的主要云提供商。
可投入生产的AI智能体需要性能可见性、优化和可扩展的基础设施。通过结合用于智能体开发的Strands Agents、用于深度分析和性能调优的NVIDIA NeMo Agent Toolkit,以及用于安全、可扩展智能体基础设施的Amazon Bedrock AgentCore,组织可以为开发人员提供从原型到生产的完整、可预测的路径。
这种扩展的支持建立在AWS与英伟达技术的现有集成之上,包括NVIDIA NIM微服务以及如NVIDIA Riva和NVIDIA BioNeMo等框架,以及与Amazon SageMaker和Amazon Bedrock集成的模型开发工具——这些都有助于组织以前所未有的速度部署智能体AI、语音AI和科学应用。
加速实体AI
开发实体AI需要高质量和多样化的数据集来训练机器人模型,以及在实际部署前在模拟中进行测试和验证的框架。
NVIDIA Cosmos世界基础模型(WFMs)现已作为Amazon EKS 上的 NVIDIA NIM 微服务 推出,支持实时机器人控制和模拟工作负载,具有无缝的可靠性和云原生的效率。对于基于批处理的任务和离线工作负载,例如大规模合成数据生成,Cosmos WFMs 也可通过 AWS Batch 作为容器使用。
Cosmos 生成的世界状态随后可用于使用开源模拟和学习框架(如 NVIDIA Isaac Sim 和 Isaac Lab)来训练和验证机器人。
包括 Agility Robotics, Agile Robots, ANYbotics, Diligent Robotics, Dyna Robotics, Field AI, Haply Robotics, Lightwheel, RIVR 和 Skild AI 在内的领先机器人公司正在使用 NVIDIA Isaac 平台与 AWS 合作,应用范围从收集、存储和处理机器人生成的数据,到用于扩展机器人开发的训练和模拟。
持续合作
印证了多年持续的合作,英伟达荣获了AWS全球生成式AI基础设施与数据合作伙伴年度奖,该奖项表彰了那些拥有生成式AI能力、并在多种类型和格式中支持向量嵌入、数据存储和管理或合成数据生成的顶尖技术合作伙伴。
了解更多关于英伟达和AWS合作的信息,并参加在拉斯维加斯举行的、持续到12月5日星期五的AWS re:Invent会议。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区