📢 转载信息
原文链接:https://blogs.nvidia.com/blog/dgx-superpod-rubin/
原文作者:Charlie Boyle
NVIDIA DGX SuperPOD 正在为基于 NVIDIA Rubin 平台的下一代 AI 计算系统的部署铺平道路。
在拉斯维加斯举行的 CES 展会上,NVIDIA 今天推出了 Rubin 平台,该平台包含六款旨在提供卓越 AI 超级计算机体验的新芯片,并专为加速代理式 AI、混合专家(MoE)模型和长上下文推理而设计。
Rubin 平台通过先进的代码设计方法,将六款芯片——NVIDIA Vera CPU、Rubin GPU、NVLink 6 交换机、ConnectX-9 SuperNIC、BlueField-4 DPU 和 Spectrum-6 以太网交换机——融为一体,从而加速训练并降低推理令牌生成的成本。
DGX SuperPOD 仍然是跨企业和研究环境中部署基于 Rubin 系统的基础设计。
NVIDIA DGX 平台将整个技术栈——从 NVIDIA 计算到网络再到软件——作为一个单一的、统一的系统来处理,从而消除了基础设施集成的负担,使团队能够专注于 AI 创新和业务成果。
NVIDIA 创始人兼首席执行官 Jensen Huang 表示:“随着对训练和推理的 AI 计算需求正在飙升,Rubin 正好在最恰当的时刻到来。”
AI 工业革命的新平台
新 DGX 系统中使用的Rubin 平台引入了五项主要技术进步,旨在实现智能和效率的阶跃式提升:
- 第六代 NVIDIA NVLink — 每个 GPU 3.6TB/s,每个 Vera Rubin NVL72 机架 260TB/s,适用于大规模 MoE 和长上下文工作负载。
- NVIDIA Vera CPU — 88 个 NVIDIA 定制 Olympus 核心,完全兼容 Armv9.2,以及超快的 NVLink-C2C 连接,为行业领先的高效 AI 工厂计算提供支持。
- NVIDIA Rubin GPU — 提供 50 petaflops 的 NVFP4 计算能力,专为 AI 推理设计,具有采用硬件加速压缩的第三代 Transformer Engine。
- 第三代 NVIDIA 机密计算 — Vera Rubin NVL72 是首个提供 NVIDIA 机密计算的机架级平台,可在 CPU、GPU 和 NVLink 域中保持数据安全。
- 第二代 RAS 引擎 — 跨 GPU、CPU 和 NVLink,NVIDIA Rubin 平台提供实时健康监控、容错和主动维护,模块化的无电缆托盘使维修速度提高 3 倍。
这些创新共同实现了比上一代推理令牌成本降低高达 10 倍的成果——随着 AI 模型在规模、上下文和推理深度上不断增长,这是一个关键的里程碑。
DGX SuperPOD:NVIDIA Rubin 扩展的蓝图
基于 Rubin 的 DGX SuperPOD 部署将集成:
- NVIDIA DGX Vera Rubin NVL72 或 DGX Rubin NVL8 系统
- NVIDIA BlueField-4 DPU,用于安全、软件定义的 基础设施
- NVIDIA 推理上下文内存存储平台,用于下一代推理
- NVIDIA ConnectX-9 SuperNIC
- NVIDIA Quantum-X800 InfiniBand 和 NVIDIA Spectrum-X 以太网
- NVIDIA Mission Control,用于自动化 AI 基础设施的编排和操作
NVIDIA DGX SuperPOD 采用 DGX Vera Rubin NVL72 统一了八个 DGX Vera Rubin NVL72 系统,配备 576 个 Rubin GPU,可提供 28.8 exaflops 的 FP4 性能和 600TB 的快速内存。每个 DGX Vera Rubin NVL72 系统——结合了 36 个 Vera CPU、72 个 Rubin GPU 和 18 个 BlueField-4 DPU——在一个机架内实现了统一的内存和计算空间。凭借 260TB/s 的聚合 NVLink 吞吐量,它消除了模型分区划分的需求,并允许整个机架作为一个单一的、连贯的 AI 引擎运行。
NVIDIA DGX SuperPOD 采用 DGX Rubin NVL8 系统,提供 64 个 DGX Rubin NVL8 系统,包含 512 个 Rubin GPU。NVIDIA DGX Rubin NVL8 系统将 Rubin 性能引入液冷外形规格,并采用 x86 CPU,为组织在开发到部署管道中的任何 AI 项目提供高效的 Rubin 时代接入点。每台 DGX Rubin NVL8 系统由八个 NVIDIA Rubin GPU 和第六代 NVLink 驱动,与 NVIDIA Blackwell 系统相比,可提供 5.5 倍的 NVFP4 FLOPS。
AI 工厂的下一代网络
Rubin 平台通过革命性的网络技术将数据中心重新定义为高性能 AI 工厂,其中包括 NVIDIA Spectrum-6 以太网交换机、NVIDIA Quantum-X800 InfiniBand 交换机、BlueField-4 DPU 和 ConnectX-9 SuperNICs,旨在支持全球最大规模的 AI 工作负载。通过将这些创新集成到 NVIDIA DGX SuperPOD 中,Rubin 平台消除了扩展、拥塞和可靠性方面的传统瓶颈。
为大规模集群优化连接
下一代 800Gb/s 端到端网络套件为 AI 基础设施提供了两条专用路径,确保无论使用 InfiniBand 还是以太网,都能实现最高效率:
- NVIDIA Quantum-X800 InfiniBand:为专用的 AI 集群提供业界最低的延迟和最高的性能。它利用可扩展的分层聚合和规约协议(SHARP v4)和自适应路由,将集体操作卸载到网络上。
- NVIDIA Spectrum-X 以太网:该平台基于 Spectrum-6 以太网交换机和 ConnectX-9 SuperNIC 构建,为使用标准以太网协议的 AI 工厂带来可预测、高性能的扩展和跨域连接,并且专门针对 AI 工作负载的“东西向”流量模式进行了优化。
工程化兆瓦级 AI 工厂
这些创新代表着与 Rubin 平台的极致代码设计。通过掌握拥塞控制和性能隔离,NVIDIA 正在为下一波兆瓦级 AI 工厂铺平道路。这种整体方法确保了随着 AI 模型复杂性的增加,AI 工厂的网络结构仍然是速度的催化剂而不是限制因素。
NVIDIA 软件推进 AI 工厂运营和部署
NVIDIA Mission Control——用于基于 NVIDIA Blackwell 的 DGX 系统的 AI 数据中心运营和编排软件——将可用于基于 Rubin 的 NVIDIA DGX 系统,使企业能够自动化其基础设施的管理和运营。
NVIDIA Mission Control 加速了基础设施运营的方方面面,从配置部署到与设施集成,再到管理集群和工作负载。
借助智能化的集成软件,企业可以更好地控制 NVIDIA Rubin 的冷却和电源事件以及基础设施的弹性。NVIDIA Mission Control 能够快速检测泄漏,从而实现更快的响应,解锁对 NVIDIA 最新效率创新的访问,并通过自主恢复来最大化 AI 工厂的生产力。
NVIDIA DGX 系统还支持 NVIDIA AI Enterprise 软件平台,其中包括 NVIDIA NIM 微服务,例如用于 NVIDIA Nemotron-3 系列开放模型、数据和库的微服务。
DGX SuperPOD:工业 AI 的未来之路
DGX SuperPOD 长期以来一直充当大规模 AI 基础设施的蓝图。Rubin 平台的到来将成为新一代 AI 工厂的发射台——这些系统旨在跨越数千个步骤进行推理,并以显著降低的成本提供智能,帮助组织构建下一波前沿模型、多模态系统和代理式 AI 应用。
配备 DGX Vera Rubin NVL72 或 DGX Rubin NVL8 系统的 NVIDIA DGX SuperPOD 将于今年下半年上市。
有关软件产品信息,请参阅声明。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区