📢 转载信息
原文链接:https://blogs.nvidia.com/blog/nvidia-at-kubecon-2026/
原文作者:Justin Boitano
人工智能已迅速成为现代计算中最关键的工作负载之一。
对于绝大多数企业而言,这项工作负载运行在Kubernetes上,这是一个自动化容器化应用程序部署、扩展和管理的开源平台。
为了帮助全球开发者社区更透明、更高效地管理高性能AI基础设施,NVIDIA将一块关键软件——NVIDIA动态资源分配(DRA)驱动程序 for GPUs——捐赠给云原生计算基金会(CNCF),这是一个致力于培养和维护云原生生态系统的独立于供应商的组织。
今天在阿姆斯特丹举行的CNCF旗舰会议KubeCon欧洲展上宣布,此次捐赠将驱动程序从供应商治理转变为在Kubernetes项目下提供完全的社区所有权。这种开放环境鼓励更广泛的专家群体贡献想法,加速创新,并帮助确保技术与现代云景观保持一致。
CNCF首席技术官Chris Aniszczyk表示:“NVIDIA与Kubernetes和CNCF社区的深度合作,将NVIDIA GPU的DRA驱动程序上游化,标志着开源Kubernetes和AI基础设施的一个重要里程碑。通过将其硬件创新与上游Kubernetes和AI合规性工作相结合,NVIDIA正在使高性能GPU编排无缝且易于所有人访问。”
此外,NVIDIA与CNCF的机密容器社区合作,为Kata Containers引入了GPU支持。Kata Containers是充当容器的轻量级虚拟机。这扩展了硬件加速功能,提供了更强的隔离性,分离工作负载以提高安全性,并使AI工作负载能够以增强的保护运行,从而使组织能够轻松实现机密计算来保护数据。
简化AI基础设施
历史上,管理数据中心内驱动AI的强大GPU需要付出巨大的努力。
此次贡献旨在使高性能计算更加易于访问。为开发者带来的主要好处包括:
- 提高效率:该驱动程序允许更智能地共享GPU资源,有效利用计算能力,并支持NVIDIA Multi-Process Service和NVIDIA Multi-Instance GPU技术。
- 大规模扩展:它为连接系统提供了原生支持,包括使用NVIDIA Multi-Node NVlink互连技术。这对于在NVIDIA Grace Blackwell系统和下一代AI基础设施上训练大规模AI模型至关重要。
- 灵活性:开发者可以动态地重新配置硬件以适应其需求,即时更改资源分配方式。
- 精确性:该软件支持精细化的请求,允许用户根据其应用程序所需的特定计算能力、内存设置或互连安排进行请求。
全行业的协作努力
NVIDIA正与行业领导者合作——包括Amazon Web Services、Broadcom、Canonical、Google Cloud、Microsoft、Nutanix、Red Hat和SUSE——共同推动这些功能向前发展,以造福整个云原生生态系统。
Red Hat首席技术官兼全球工程高级副总裁Chris Wright表示:“开源将成为每个成功的企业AI战略的核心,为驱动生产AI工作负载的高性能基础设施组件带来标准化。NVIDIA捐赠GPU的DRA驱动程序有助于巩固开源在AI发展中的作用,我们期待在Kubernetes生态系统内与NVIDIA以及更广泛的社区合作。”
CERN平台基础设施负责人Ricardo Rocha表示:“开源软件及其维护的社区是科学计算和研究基础设施的基石。对于像CERN这样需要高效分析PB级数据以促进发现的组织来说,社区驱动的创新有助于加快科学发展的步伐。NVIDIA捐赠DRA驱动程序加强了研究人员用于处理传统科学计算和新兴机器学习工作负载数据的生态系统。”
拓展开源视野
此次捐赠只是NVIDIA支持开源社区更广泛举措的一部分。例如,在上周的GTC大会上,NVIDIA宣布了NVSentinel(一个用于GPU故障修复的系统)和AI Cluster Runtime(一个代理式AI框架)。
此外,NVIDIA在GTC上宣布了新的开源项目,包括NVIDIA NemoClaw参考堆栈和用于安全运行自主代理的NVIDIA OpenShell运行时。OpenShell提供细粒度的可编程策略安全和隐私控制,并与Linux、eBPF和Kubernetes原生集成。
NVIDIA今天还宣布,其高性能AI工作负载调度器KAI Scheduler已作为CNCF沙盒项目加入——这是促进更广泛协作和确保技术与云原生生态系统需求同步发展的重要一步。开发者和组织可以立即使用和贡献KAI Scheduler。
NVIDIA仍致力于积极维护和贡献Kubernetes及CNCF项目,以帮助满足企业AI客户的严格需求。
此外,在NVIDIA Dynamo 1.0发布之后,NVIDIA正在通过Grove扩展Dynamo生态系统。Grove是一个开源Kubernetes应用程序接口,用于在GPU集群上编排AI工作负载。Grove使开发者能够在一个声明性资源中表达复杂推理系统,并正在与llm-d推理堆栈集成,以便在Kubernetes社区中更广泛地采用。
开发者和组织可以立即开始使用和贡献NVIDIA DRA驱动程序。
访问NVIDIA在KubeCon的展台,观看这项技术的现场演示。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区