📢 转载信息
原文链接:https://blogs.nvidia.com/blog/neurips-open-source-digital-physical-ai/
原文作者:Bryan Catanzaro
全球研究人员依靠开源技术作为其工作的 $ ext{foundation}$(基础)。为了向社区提供数字和物理AI领域的最新进展,英伟达正在进一步扩展其开源AI模型、数据集和工具的集合——这些工具潜在应用于几乎所有的研究领域。
在世界顶级的AI会议之一 $ ext{NeurIPS}$ 上,英伟达正在推出用于支持研究的开源物理AI模型和工具,其中包括 $ ext{Alpamayo-R1}$(全球首个行业规模的开源推理视觉语言动作 ($ ext{VLA}$) 模型),用于自动驾驶。在数字AI领域,英伟达正在发布用于语音和AI安全的新模型及数据集。
英伟达研究人员将在本次会议上发表超过70篇论文、演讲和研讨会,分享跨越 $ ext{AI}$ 推理、医疗研究、自动驾驶 ($ ext{AV}$) 开发及更多领域的创新项目。
这些举措加深了英伟达对开源的承诺——这项努力得到了 $ ext{Artificial Analysis}$(一家独立的人工智能基准测试组织)新发布的开放指数的认可。该指数根据模型许可的许可性、数据透明度和技术细节的可用性,将 $ ext{NVIDIA Nemotron}$ 系列前沿AI开发的开源技术评为 $ ext{AI}$ 生态系统中最开放的技术之一。

NVIDIA DRIVE Alpamayo-R1为自动驾驶研究开辟新前沿
NVIDIA DRIVE Alpamayo-R1 ($ ext{AR1}$) 是全球首个用于 $ ext{AV}$ 研究的开源推理 $ ext{VLA}$ 模型,它将思维链 $ ext{AI}$ 推理与路径规划相结合——路径规划是提升 $ ext{AV}$ 在复杂道路场景中安全性和实现4 级自动驾驶的关键组成部分。
虽然以往的自动驾驶模型在处理细微情况时表现不佳——例如人行道上行人密集的交叉路口、即将到来的车道关闭或自行车道上双排停放的车辆——但推理能力赋予了自动驾驶汽车更像人类的常识。
$ ext{AR1}$ 通过分解场景并逐步进行推理来实现这一点。它会考虑所有可能的轨迹,然后利用上下文数据来选择最佳路线。
例如,通过利用 $ ext{AR1}$ 提供的思维链推理能力,一辆在自行车道旁人行道密集的区域驾驶的自动驾驶汽车可以摄取其路径数据,整合推理痕迹(解释其采取特定行动的原因),并利用这些信息来规划其未来轨迹,例如避开自行车道或因潜在的行人闯红灯而停车。
$ ext{AR1}$ 的开源基础基于 $ ext{NVIDIA Cosmos Reason}$,研究人员可以根据自己的非商业用途案例定制该模型,无论是用于基准测试还是构建实验性的 $ ext{AV}$ 应用。
对于 $ ext{AR1}$ 的后训练,强化学习被证明特别有效——研究人员观察到与预训练模型相比,$ ext{AR1}$ 的推理能力有了显著提升。
$ ext{NVIDIA DRIVE Alpamayo-R1}$ 将在 $ ext{GitHub}$ 和 $ ext{Hugging Face}$ 上发布,用于训练和评估该模型的部分数据集可在 $ ext{NVIDIA Physical AI Open Datasets}$ 中获取。英伟达还发布了开源的 $ ext{AlpaSim}$ 框架来评估 $ ext{AR1}$。
了解更多关于自动驾驶推理 $ ext{VLA}$ 模型的信息。
将NVIDIA Cosmos定制用于任何物理AI用例
开发人员现在可以通过 $ ext{Cosmos Cookbook}$ 学习如何使用和后训练基于 $ ext{Cosmos}$ 的模型,其中包含分步指南、快速入门推理示例和高级后训练工作流程。这是一份面向物理 $ ext{AI}$ 开发人员的综合指南,涵盖了 $ ext{AI}$ 开发的每一个步骤,包括数据策划、合成数据生成和模型评估。
基于 $ ext{Cosmos}$ 的应用具有几乎无限的可能性。英伟达最新的示例包括:
- LidarGen:全球首个可以为 $ ext{AV}$ 仿真生成激光雷达数据的世界模型。
- Omniverse NuRec Fixer:一个用于 $ ext{AV}$ 和机器人仿真的模型,它利用 $ ext{NVIDIA Cosmos Predict}$ 几乎即时修复神经重建数据中的伪影,例如新视角或噪声数据导致的模糊和空洞。
- Cosmos Policy:一个将大型预训练视频模型转化为稳健机器人策略(决定机器人行为的一组规则)的框架。
- ProtoMotions3:一个基于 $ ext{NVIDIA Newton}$ 和 $ ext{Isaac Lab}$ 构建的开源、$ ext{GPU}$ 加速框架,用于训练具有由 $ ext{Cosmos}$ 世界基础模型 ($ ext{WFM}$) 生成的逼真场景的物理模拟数字人类和类人机器人。
策略模型可以在 $ ext{NVIDIA Isaac Lab}$ 和 $ ext{Isaac Sim}$ 中进行训练,然后可以将策略模型生成的数据用于后训练 $ ext{NVIDIA GR00T N}$ 模型以用于机器人技术。
英伟达生态系统的合作伙伴正在使用 $ ext{Cosmos WFM}$ 开发其最新技术。
$ ext{AV}$ 开发商 Voxel51 正在向 $ ext{Cosmos Cookbook}$ 贡献模型食谱。物理 $ ext{AI}$ 开发商 1X、$ ext{Figure AI}$、$ ext{Foretellix}$、$ ext{Gatik}$、$ ext{Oxa}$、$ ext{PlusAI}$ 和 X-Humanoid 正在使用 $ ext{WFM}$ 进行其最新的物理 $ ext{AI}$ 应用。苏黎世联邦理工学院的研究人员正在 $ ext{NeurIPS}$ 上发表一篇论文,重点介绍了如何使用 $ ext{Cosmos}$ 模型进行逼真且连贯的 3D 场景创建。
NVIDIA Nemotron 的新增内容增强了数字 $ ext{AI}$ 开发工具包
英伟达还发布了新的多说话人语音 $ ext{AI}$ 模型、一个具有推理能力的新模型以及用于 $ ext{AI}$ 安全的数据集,以及用于强化学习和特定领域模型定制的高质量合成数据集的开源工具。这些工具包括:
- MultiTalker Parakeet:一种用于流式音频的自动语音识别模型,可以理解多个说话人,即使在重叠或快节奏的对话中也是如此。
- Sortformer:一种最先进的模型,可以实时准确地区分音频流中的多个说话人——这一过程称为说话人分离 ($ ext{diarization}$)。
- Nemotron 内容安全推理:一种基于推理的 $ ext{AI}$ 安全模型,可跨域动态执行自定义策略。
- Nemotron 安全音频数据集:一个合成数据集,有助于训练模型检测不安全音频内容,从而实现在文本和音频模态之间工作的护栏的开发。
- NeMo Gym:一个开源库,可加速和简化用于 $ ext{LLM}$ 训练的强化学习环境的开发。$ ext{NeMo Gym}$ 还包含一个不断增长的即用型训练环境集合,以实现基于可验证奖励的强化学习 ($ ext{RLVR}$)。
- NeMo 数据设计库 (NeMo Data Designer Library):现已在 $ ext{Apache 2.0}$ 下开源,该库提供了一个端到端的工具包,用于生成、验证和精炼用于生成式 $ ext{AI}$ 开发的高质量合成数据集,包括特定领域模型定制和评估。
使用 $ ext{NVIDIA Nemotron}$ 和 $ ext{NeMo}$ 工具构建安全、专业化智能体的 $ ext{NVIDIA}$ 生态系统合作伙伴包括 $ ext{CrowdStrike}$、$ ext{Palantir}$ 和 $ ext{ServiceNow}$。
$ ext{NeurIPS}$ 与会者可以参加今天的 $ ext{Nemotron Summit}$(太平洋时间下午 4-8 点)来探索这些创新,英伟达应用深度学习研究副总裁 $ ext{Bryan Catanzaro}$ 将发表开幕致辞。
英伟达研究进一步推动语言 $ ext{AI}$ 创新
在英伟达撰写的数十篇 $ ext{NeurIPS}$ 研究论文中,以下是一些推动语言模型的亮点:
- Audio Flamingo 3:利用全开源大型音频语言模型推进音频智能:这个大型音频语言模型能够跨语音、声音和音乐进行推理。它可以理解和推理长达 10 分钟的音频片段,在超过 20 个基准测试中取得了最先进的结果。
- Minitron-SSM:通过面向组的 $ ext{SSM}$ 剪枝实现高效混合语言模型压缩:这篇海报介绍了一种能够压缩混合模型的剪枝方法,通过剪枝和蒸馏 $ ext{Nemotron-H 8B}$(从 80 亿参数到 40 亿参数)进行了演示。所得模型超过了同等规模模型的准确性,同时实现了 2 倍更快的推理吞吐量。
- Jet-Nemotron:使用后神经架构搜索的高效语言模型:这项工作介绍了一种用于开发新型高效语言模型架构的低成本后训练流水线,并引入了使用该流水线生产的混合架构模型系列。这些模型在生成吞吐量方面显著提高的同时,其准确性与领先的全注意力基线相当或更高。
- Nemotron-Flash:迈向延迟最优的混合小型语言模型:该项目介绍了一种新的小型语言模型 ($ ext{SLM}$) 架构,它围绕实际延迟而非参数数量重新设计了 $ ext{SLM}$,实现了最先进的速度和准确性。
- ProRL:延长的强化学习扩展了大型语言模型的推理边界:延长的强化学习 ($ ext{ProRL}$) 是一种将模型训练延长至更长时间的技术。在这张 $ ext{NeurIPS}$ 海报中,英伟达研究人员描述了这种方法如何产生在推理方面持续优于基础模型的模型。
查看在 $ ext{NeurIPS}$ 的完整活动列表,该活动将在圣地亚哥持续到 12 月 7 日星期日。
请参阅关于软件产品信息的声明。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区