目 录CONTENT

文章目录

加速计算和网络驱动人工智能时代的超级计算

Administrator
2025-11-18 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://blogs.nvidia.com/blog/accelerated-computing-networking-supercomputing-ai/

原文作者:Scott Martin


在SC25大会上,NVIDIA在NVIDIA BlueField DPU、下一代网络、量子计算、国家研究、AI物理学等方面展示了最新进展——加速系统正在驱动人工智能超级计算的下一篇章。

Ian Buck, vice president and general manager of accelerated computing at NVIDIA, delivered a special address at SC25.
NVIDIA加速计算副总裁兼总经理Ian Buck在SC25发表特别演讲。

NVIDIA还重点介绍了由NVIDIA BlueField-4数据处理单元(DPU)提供支持的存储创新,该DPU是BlueField全栈平台的一部分,用于加速万亿级规模(gigascale)的AI基础设施。

更多细节也公布了关于NVIDIA Quantum-X Photonics InfiniBand CPO网络交换机的信息——它能帮助AI工厂大幅降低能耗和运营成本。TACC、Lambda和CoreWeave等公司计划集成这些交换机。

上个月,NVIDIA开始出货DGX Spark,这是全球最小的AI超级计算机。DGX Spark将每秒浮点运算能力(petaflop)的AI性能和128GB的统一内存集成在台式机外形中,使开发者能够在多达2000亿参数的模型上运行推理,并在本地进行模型微调。它基于Grace Blackwell架构构建,集成了NVIDIA GPU、CPU、网络、CUDA库和完整的NVIDIA AI软件栈。

DGX Spark的统一内存和NVIDIA NVLink-C2C提供的带宽是PCIe Gen5的5倍,从而实现更快的GPU-CPU数据交换。这提高了大型模型的训练效率,减少了延迟,并支持无缝的微调工作流程——所有这些都在台式机尺寸内完成。

NVIDIA Apollo作为最新的AI物理学开源模型系列发布

在SC25大会上,NVIDIA还推出了NVIDIA Apollo,这是一个AI物理学开源模型系列。NVIDIA Apollo的行业采用者包括Applied Materials、Cadence、LAM Research、Luminary Cloud、KLA、PhysicsX、Rescale、Siemens和Synopsys等,他们正在利用这些开源模型来模拟和加速其在电子设备自动化和半导体、计算流体动力学、结构力学、电磁学、天气预报等广泛领域的设计流程。

这个开源模型家族利用了AI物理学的最新发展,将一流的机器学习架构(如神经算子、Transformer和扩散方法)与特定领域的知识相结合。Apollo将提供用于训练、推理和基准测试的预训练检查点和参考工作流程,使开发者能够根据其特定需求集成和定制模型。

NVIDIA Warp为物理模拟提供超强动力 🔗

NVIDIA Warp是一个专用的开源Python框架,可将计算物理学和AI的GPU加速提升高达245倍。

NVIDIA Warp为模拟、机器人技术和机器学习工作负载提供结构化方法,将Python的易用性与与原生CUDA代码相当的性能相结合。

Warp支持创建GPU加速的3D模拟工作流程,这些工作流程可以与PyTorch、JAX、NVIDIA PhysicsNeMo和NVIDIA Omniverse中的ML管道集成。这使得开发者无需离开Python编程环境,即可大规模运行复杂的模拟任务和生成数据。

通过提供CUDA级别的性能和Python级别的生产力,Warp简化了高性能模拟工作流程的开发。它旨在通过降低GPU编程的门槛来加速AI研究和工程,使先进的模拟和数据生成更高效、更易于访问。

Siemens、Neural Concept、Luminary Cloud等公司正在采用NVIDIA Warp。

NVIDIA BlueField-4 DPU powering the OS of AI factories
NVIDIA BlueField-4 DPU:驱动AI工厂操作系统的处理器

展示BlueField-4为AI工厂操作系统提供动力 🔗

在华盛顿特区GTC大会上推出的NVIDIA BlueField-4 DPU正在为AI工厂的操作系统提供动力。通过卸载、加速和隔离关键的数据中心功能——网络、存储和安全——它们将CPU和GPU解放出来,使其能够完全专注于计算密集型工作负载。

BlueField-4集成了64核NVIDIA Grace CPU和NVIDIA ConnectX-9网络技术,可在规模化部署中实现前所未有的性能、效率和零信任安全。它支持多租户环境、快速数据访问和实时保护,并原生集成了NVIDIA DOCA微服务,以实现可扩展的、容器化的AI操作。它们共同将数据中心转变为面向万亿令牌AI及更高级别的智能、软件定义引擎。

随着AI工厂和超级计算中心的规模和能力不断扩大,它们需要更快、更智能的存储基础设施来管理结构化、非结构化和AI原生数据,以支持大规模训练和推理。

领先的存储创新者——DDN、VAST Data和WEKA——正在采用BlueField-4来重新定义AI和科学工作负载的性能和效率。

  • DDN正在构建下一代AI工厂,加速数据管道以最大化GPU在AI和HPC工作负载中的利用率。
  • VAST Data正在通过跨大规模AI集群的智能数据移动和实时效率来推进AI管道。
  • WEKA正在BlueField-4上推出其NeuralMesh架构,直接在DPU上运行存储服务,以简化和加速AI基础设施。

这些HPC存储领导者共同展示了NVIDIA BlueField-4如何转变数据移动和管理——使存储成为下一代超级计算和AI基础设施的性能倍增器。

NVIDIA ConnectX-9 SuperNIC
NVIDIA ConnectX-9 SuperNIC

采用NVIDIA共封装光学(Co-Packaged Optics)以实现速度和可靠性 🔗

TACC、Lambda和CoreWeave宣布,他们最早将于明年在新一代系统中集成NVIDIA Quantum-X Photonics CPO交换机。

NVIDIA Quantum-X Photonics网络交换机使AI工厂和超级计算中心能够大幅降低能耗和运营成本。NVIDIA已在大规模实现了电子电路与光通信的融合。

随着AI工厂规模达到前所未有的水平,网络必须随之发展。通过消除传统可插拔收发器(作业运行时故障的常见原因),NVIDIA Photonics交换机系统不仅实现了3.5倍的电源效率提升,而且可靠性提高了10倍,使应用程序能够不间断运行的时间延长5倍。

在硅谷的GTC 2024大会上,NVIDIA推出了NVIDIA Quantum-X800 InfiniBand交换机,专为支持万亿参数规模的生成式AI模型而设计。得益于SHARPv4和FP8支持等创新,这些平台提供了惊人的800Gb/s端到端吞吐量——带宽是前代产品的2倍,网络内计算能力是前代产品的9倍。

随着NVIDIA Quantum-X800被广泛采用以满足大规模AI的需求,NVIDIA Quantum-X Photonics(于今年早些时候在GTC上宣布)解决了更大规模部署中关键的功耗、弹性(resiliency)和信号完整性挑战。通过将光学元件直接集成到交换机中,它消除了由可插拔收发器和链路抖动(link flaps)引起的故障,使工作负载能够以规模化、不间断地运行,并确保基础设施能够比使用可插拔收发器的方式好5倍地支持下一代计算密集型应用。

Lambda的云基础设施产品经理Maxx Garrison表示:“NVIDIA Quantum-X Photonics代表了构建高性能、高弹性AI网络的下一步。这些在电源效率、信号完整性和可靠性方面的进步,对于支持我们客户高效、大规模的工作负载至关重要。”

SHARPv4实现了网络内聚合和规约(aggregation and reduction),最大限度地减少了GPU到GPU的通信开销。结合FP8精度,它通过减少带宽和计算需求来加速万亿参数模型的训练——实现更快的收敛和更高的吞吐量,并且是NVIDIA Quantum-X800和Quantum-X Photonics交换机的标准配置。

CoreWeave的联合创始人兼首席技术官Peter Salanki表示:“CoreWeave正在构建AI的必要云。有了NVIDIA Quantum-X Photonics,我们正在提高电源效率,并进一步提升CoreWeave在支持大规模下一代AI工作负载方面闻名的可靠性,帮助我们的客户充分释放下一代AI的潜力。”

NVIDIA Quantum-X Photonics平台以NVIDIA Quantum Q3450 CPO为基础的InfiniBand交换机和ConnectX-8 SuperNIC为核心,专为需要显著降低功耗、更高弹性和更低延迟的最高性能环境而设计。

全球超级计算中心采用NVQLink

全球十多家顶尖的科学计算中心正在采用NVQLink,这是一种将加速计算与量子处理器连接起来的通用互连技术。NVQLink

NVIDIA加速计算副总裁兼总经理Ian Buck表示:“在这次超级计算大会上,我们宣布我们一直在与全球致力于构建下一代量子GPU、CPU-GPU超级计算机的超级计算中心合作,以及如何将它们连接到其特定的研究领域或量子计算部署平台。”

NVQLink将量子处理器与NVIDIA GPU连接起来,通过CUDA-Q软件平台支持由大规模工作负载驱动的应用。NVQLink的开放架构为超级计算中心集成不同量子处理器提供了关键的连接,同时以FP4精度提供40 Petaflops的AI性能。

在未来,每个超级计算机都将利用量子处理器来扩展它们可以解决的问题,而每个量子处理器都将依赖GPU超级计算机来正确运行。

量子计算公司Quantinuum的新Helios QPU通过NVQLink与NVIDIA GPU集成,实现了全球首次可扩展qLDPC量子纠错码的实时解码。得益于NVQLink的微秒级低延迟,该系统在纠错方面保持了99%的保真度,而没有纠错时为95%。

有了NVQLink,科学家和开发者可以在量子和经典硬件之间获得一座通用桥梁——使可扩展的纠错、混合应用和实时量子-GPU工作流程变得切实可行。

在亚太地区,日本的国家先进工业科学与技术研究所(AIST)下的全球商业量子AI技术研发中心(G-QuAT)和理化学研究所计算科学研究中心、韩国的韩国科学技术信息研究所(KISTI)、台湾的国家高性能计算中心(NCHC)、新加坡的国家量子计算中心(新加坡量子技术中心、A*STAR高性能计算研究所和新加坡国家超级计算中心联合倡议)——以及澳大利亚的Pawsey超级计算研究中心都是早期采用者。

在欧洲和中东地区,NVQLink正被CINECA、丹麦AI超级计算机运营商丹麦DCAI、法国国家高性能计算大设施(GENCI)、捷克共和国的IT4Innovations国家超级计算中心(IT4I)、德国的于利希超级计算中心(JSC)、波兰的波兹南超级计算与网络中心(PCSS)、阿联酋的技术创新研究所(TII)以及沙特阿拉伯的阿卜杜拉国王科学技术大学(KAUST)所拥抱。

在美国,包括布鲁克海文国家实验室、费米国家加速器实验室、劳伦斯伯克利国家实验室、洛斯阿拉莫斯国家实验室、麻省理工学院林肯实验室、国家能源研究科学计算中心、橡树岭国家实验室、太平洋西北国家实验室和桑迪亚国家实验室在内的领先国家实验室也正在采用NVQLink来推进混合量子-经典研究。

开发真实的混合应用

带有NVQLink的Quantinuum Helios QPU实现了以下成果:

  • qLDPC纠错码的首次实时解码
  • 有NVQLink纠错时保真度约为99%,无纠错时约为95%
  • 反应时间为60微秒,比Helios的1毫秒要求快16倍

NVQLink将量子处理器与GPU超级计算相结合,实现了可扩展的纠错和混合应用。科学家可以通过CUDA-Q API获得统一的编程环境。开发者可以实时构建和测试量子-GPU工作流程。

通过NVQLink,全球的超级计算中心正在为实用的量子-经典系统奠定基础,以空前的速度和规模将不同的量子处理器连接到NVIDIA加速计算。

NVIDIA与理研携手推进日本科学前沿

NVIDIA和理研(RIKEN)正在构建两台新的GPU加速超级计算机,以扩大日本在科学AI和量子计算领域的领先地位。这两个系统将总共配备2140个NVIDIA Blackwell GPU,通过GB200 NVL4平台和NVIDIA Quantum-X800 InfiniBand网络连接,加强日本的主权AI战略和国内安全基础设施。

  • AI for Science系统: 1600个Blackwell GPU将支持生命科学、材料科学、气候和天气预报、制造业和实验室自动化等领域的研究。
  • 量子计算系统: 540个Blackwell GPU将加速量子算法、混合模拟和量子-经典方法。

此次合作建立在理研与富士通和NVIDIA合作共同设计FugakuNEXT(Fugaku超级计算机的继任者)的基础上,预计该系统将在2030年前实现100倍的应用性能提升,并集成生产级量子计算机。

理研的两台新系统计划于2026年春季投入运营。

Arm采用NVIDIA NVLink Fusion 🔗

AI正在重塑数据中心,这是一次世代性的架构转变,效率(每瓦性能)决定了成功与否。核心是Arm Neoverse,已部署在超过十亿个核心中,预计到2025年将达到50%的超大规模用户市场份额。AWS、Google、Microsoft、Oracle和Meta等所有主要提供商都在基于Neoverse进行构建,突显了其在规模化AI支持中的作用。

为满足激增的需求,Arm正在通过NVIDIA NVLink Fusion扩展Neoverse。NVLink Fusion是最初与Grace Blackwell共同开创的高带宽、一致性互连技术。NVLink Fusion将CPU、GPU和加速器链接成一个统一的机架级架构,消除了限制AI性能的内存和带宽瓶颈。通过与Arm的AMBA CHI C2C协议连接,它确保了基于Arm的CPU与合作伙伴首选加速器之间的数据无缝移动。

Arm和NVIDIA共同为AI基础设施设定了新标准,使生态系统合作伙伴能够构建差异化、高能效的系统,从而加速AI时代的创新。

Buck表示:“构建自己的ARM CPU或使用Arm IP的公司,实际上可以访问NVLink Fusion,能够将该ARM CPU连接到Nvidia GPU或NVLink生态系统的其余部分,这正在机架和扩展基础设施层面发生。”

加速计算的更智能电源管理

随着AI工厂规模的扩大,能源正成为新的瓶颈。NVIDIA域电源服务(DPS)将这一限制转化为机遇——将电源转变为动态、可编排的资源。DPS作为Kubernetes服务运行,对数据中心(从机架到机房再到整个设施)的能源使用进行建模和管理。它使运营商能够通过智能地限制功率来提高每兆瓦的性能,从而在不扩大基础设施的情况下提高吞吐量。

DPS与NVIDIA Omniverse DSX Blueprint(用于设计和运营下一代数据中心的平台)紧密集成。它与Power Reservation Steering(用于在设施内平衡工作负载)和Workload Power Profile Solution(用于根据特定作业需求调整GPU功率)等技术协同工作。它们共同构成了DSX Boost——一个能源感知的控制层,可在满足性能目标的同时最大限度地提高效率。

DPS还扩展到数据中心之外。通过面向电网的API,它支持自动负载削减和需求响应,帮助公用事业公司在高峰期稳定电网。其结果是构建了一个弹性、与电网交互的AI工厂,将每一瓦特都转化为可衡量的进展。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区