📢 转载信息
原文链接:https://blogs.nvidia.com/blog/open-models-data-tools-accelerate-ai/
原文作者:Kari Briski
英伟达今天发布了新的开源模型、数据和工具,以推动AI在各个行业的进步,不断扩大开源模型的生态系统。
这些模型涵盖了用于代理式AI的NVIDIA Nemotron系列、用于物理AI的NVIDIA Cosmos平台、用于自主车辆开发的新NVIDIA Alpamayo系列、用于机器人技术的NVIDIA Isaac GR00T以及NVIDIA Clara(用于生物医学)——这些将为公司提供开发现实世界AI系统的工具。
英伟达贡献了开源训练框架以及世界上最大的开放多模态数据集之一,其中包括10万亿个语言训练token、50万个机器人轨迹、45.5万个蛋白质结构和100TB的车辆传感器数据。这是前所未有的多样化开放资源规模,旨在加速语言、机器人、科学研究和自动驾驶领域的创新。
包括博世(Bosch)、CodeRabbit、CrowdStrike、Cohesity、Fortinet、Franka Robotics、Humanoid、Palantir、Salesforce、ServiceNow、日立(Hitachi)和优步(Uber)在内的领先科技公司正在采用并构建在英伟达的开源模型技术之上。
NVIDIA Nemotron为AI代理带来语音、多模态智能和安全性
在最近发布的NVIDIA Nemotron 3系列开源模型和数据的基础上,英伟达正在发布用于语音、多模态检索增强生成(RAG)和安全性的Nemotron模型。
- Nemotron Speech 包含排行榜领先的开源模型,包括一个新的ASR模型,该模型为实时字幕和语音AI应用提供实时的、低延迟的语音识别。每日和模态基准测试显示,该模型的性能比同类其他模型快10倍。(性能提升详情)
- Nemotron RAG 包含新的嵌入(embed)和重排序(rerank)视觉语言模型(VLM),它们提供高度准确的多语言和多模态数据洞察,以增强文档搜索和信息检索。
- Nemotron Safety 模型,用于加强AI应用的安全性与可信赖性,现在包括Nemotron 内容安全(Llama Nemotron Content Safety)模型(具有扩展的语言支持)和Nemotron PII模型,后者能高精度检测敏感数据。
博世(Bosch)正在采用Nemotron Speech,以实现驾驶员与车辆的交互。ServiceNow则在包含Nemotron的开放数据集上训练其Apriel模型家族,以实现高成本效益的多模态性能。
赛灵格(Cadence)和IBM正在试行NVIDIA Nemotron RAG模型,以改进复杂技术文档的搜索和推理能力。
CrowdStrike、Cohesity和Fortinet正在采用NVIDIA Nemotron Safety模型,以加强其AI应用的可信赖性。
Palantir正在将Nemotron模型集成到其本体论(Ontology)框架中,以构建首个、专用于特定AI代理的一体化技术堆栈。CodeRabbit正在使用Nemotron模型来驱动和扩展其AI代码审查,在保持高审查准确性的同时提高了速度和成本效率。
英伟达还向开发人员发布了开源数据集、训练资源和蓝图,包括用于构建Llama Embed Nemotron 8B模型的数据集和训练代码(该模型在MMTEB 排行榜上表现突出)。此外,还有更新的LLM Router,向开发人员展示如何自动将AI请求导向最适合处理任务的模型,以及用于构建新的Nemotron Speech ASR模型的数据集。
面向所有类型物理AI和机器人的新模型
为机器人和自主系统开发物理AI需要大型、多样化的数据集和模型,这些模型能够在复杂的现实环境中感知、推理和行动。在Hugging Face上,机器人技术是增长最快的细分领域,英伟达的开源机器人模型和数据集引领着该平台的下载量。
英伟达发布了NVIDIA Cosmos开源世界基础模型,为加速物理AI的开发和验证带来了类人推理和世界生成能力。
- Cosmos Reason 2 是一个新的、排行榜领先的推理VLM,它能帮助机器人和AI代理在物理世界中以更高的准确性进行观察、理解和交互。
- Cosmos Transfer 2.5 和 Cosmos Predict 2.5 是领先的模型,它们能在各种环境和条件下生成大规模的合成视频。
英伟达还为每种物理AI实体发布了基于Cosmos的开源模型和蓝图:
- Isaac GR00T N1.6 是一个专为人形机器人设计的开源视觉语言动作(VLA)推理模型,它解锁了全身控制,并利用NVIDIA Cosmos Reason来提高推理和上下文理解能力。
- NVIDIA 视频搜索和摘要蓝图(作为NVIDIA Metropolis平台的一部分)是一个参考工作流程,用于构建视觉AI代理,这些代理可以分析大量录制和实时视频,以提高运营效率和公共安全。
Salesforce、Milestone、日立(Hitachi)、优步(Uber)、VAST Data 和 Encord 正在使用 Cosmos Reason 来构建交通和工作场所生产力AI代理。Franka Robotics、Humanoid 和 NEURA Robotics 正在使用 Isaac GR00T 在扩展到生产之前模拟、训练和验证机器人的新行为。
NVIDIA Alpamayo:面向推理的自主车辆
开发安全、可扩展的自动驾驶技术,依赖于能够在复杂现实环境和场景中感知、推理和行动的AI,并需要支持大规模快速训练、测试和改进的开发工作流程。
英伟达正在发布NVIDIA Alpamayo,这是一个新的开源模型、仿真工具和大型数据集系列,用于推进基于推理的自主车辆开发。它包括:
- Alpamayo 1,这是第一个开源的大规模自主车辆(AV)推理VLA模型,使车辆能够理解周围环境并解释其行为。
- AlpaSim,一个开源仿真框架,支持在各种环境和边缘情况下对基于推理的AV模型进行闭环训练和评估。
英伟达还发布了物理AI开放数据集,其中包括在最广泛的地理区域和条件下收集的超过1700小时的驾驶数据,涵盖了推动推理架构所需的罕见和复杂的现实世界边缘案例。
NVIDIA Clara:面向医疗保健和生命科学
为降低成本并更快地交付治疗方案,英伟达正在推出新的Clara AI模型,以弥合数字发现与现实医学之间的鸿沟。
这些模型旨在帮助研究人员设计更安全、更有效、更容易生产的治疗方法,包括:
- La-Proteina 能够设计大型的、原子级精度的蛋白质,用于研究和药物候选物开发,为科学家提供了研究以往认为无法治疗的疾病的新工具。
- ReaSyn v2 通过在发现过程中整合制造蓝图,确保AI设计的药物在合成上是可行的。
- KERMT 通过预测潜在药物与人体的相互作用,在开发早期提供高精度的计算安全测试。
- RNAPro 通过预测复杂的RNA分子3D结构,解锁了个性化医疗的潜力。
此外,一个包含45.5万个合成蛋白质结构的NVIDIA数据集,可帮助AI研究人员构建更准确的AI模型。
开始使用NVIDIA开源模型和技术
英伟达的开源模型、数据和框架现已在GitHub和Hugging Face,以及一系列云、推理和AI基础设施平台以及build.nvidia.com上提供,为开发人员提供了灵活的资源访问。
许多这些模型也以NVIDIA NIM 微服务的形式提供,用于在从边缘到云的任何NVIDIA加速基础设施上进行安全、可扩展的部署。
观看CES 上的 NVIDIA Live 演讲了解更多信息。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区