📢 转载信息
原文作者:Rebecca Szkutak
周一,英伟达(Nvidia)宣布了新的基础设施和AI模型,旨在构建物理AI(Physical AI)的骨干技术,包括那些能够感知和与真实世界互动的机器人和自动驾驶汽车。
这家半导体巨头在加州圣迭戈举行的NeurIPS人工智能会议上,宣布了 Alpamayo-R1,这是一个用于自动驾驶研究的开源推理视觉语言模型。该公司声称,这是第一个专注于自动驾驶的视觉语言行动模型(vision language action model)。视觉语言模型可以同时处理文本和图像,使车辆能够“看到”周围环境,并根据感知到的信息做出决策。
该新模型基于英伟达的 Cosmos-Reason 模型,这是一种在响应前会进行推理决策的模型。英伟达最初于2025年1月发布了Cosmos模型家族,并在同年8月发布了更多模型。
英伟达在一篇博客文章中表示,像Alpamayo-R1这样的技术对于那些寻求达到L4级自动驾驶的公司至关重要,L4级意味着在特定区域和特定情况下实现完全自主驾驶。
英伟达希望这种推理模型能够赋予自动驾驶汽车“常识”,从而像人类一样更好地处理微妙的驾驶决策。
该新模型现已在 GitHub 和 Hugging Face 上可用。
与新的视觉模型一同发布的,还有英伟达上传到GitHub的一系列新的分步指南、推理资源和后训练工作流程,这些内容统称为 Cosmos Cookbook,旨在帮助开发人员更好地为他们的特定用例使用和训练Cosmos模型。该指南涵盖了数据策划、合成数据生成和模型评估等方面。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区