📢 转载信息
原文链接:https://www.wired.com/story/this-open-source-robot-brain-thinks-in-3d/
原文作者:Will Knight
欧洲的机器人专家今天发布了一个强大的开源人工智能模型,它充当工业机器人的“大脑”,帮助它们以新的灵活性抓取和操作物体。
这个新模型,SPEAR-1,由保加利亚计算机科学、人工智能和技术研究所(INSAIT)的研究人员开发。它可能会帮助其他研究人员和初创公司为工厂和仓库构建和试验更智能的硬件。
正如开源语言模型使得研究人员和公司能够试验生成式人工智能一样,INSIAT和苏黎世联邦理工学院的计算机科学家Martin Vechev表示,SPEAR-1应该能帮助机器人专家快速试验和迭代。“开放权重模型对于推进具身人工智能至关重要,”Vechev在发布前告诉WIRED。
SPEAR-1与现有的机器人基础模型不同,因为它将3D数据纳入了其训练组合中。这使模型对物理世界有了更深入的理解,使其更容易理解物体如何在物理空间中移动。
机器人基础模型通常构建在视觉语言模型(VLM)之上,而VLM对物理世界的掌握是广泛但有限的,因为训练往往来自于有标签的2D图像。“我们的方法解决了机器人运行的3D空间与构成机器人基础模型核心的VLM知识之间的不匹配问题,”Vechev说。

根据RoboArena(一个测试模型让机器人完成挤压番茄酱瓶、关抽屉和订书钉等任务的能力的基准测试)的衡量标准,SPEAR-1的性能与商业基础模型相当。
使机器人更智能的竞赛已经吸引了数十亿美元的投入。能够全面运作的机器人的商业潜力催生了像Skild和Generalist这样的高资金初创公司,以及Physical Intelligence。SPEAR-1的性能几乎和Physical Intelligence的Pi-0.5一样好,后者是一家由全明星机器人研究团队创立的十亿美元初创公司。
SPEAR-1表明,构建更智能机器人的探索可能涉及来自OpenAI、谷歌和Anthropic等公司的闭源模型,以及像Llama、DeepSeek和Qwen这样的开源变体。
然而,机器人智能仍处于初级阶段。人们可以训练一个AI模型来操作机器人手臂,使其能够可靠地从桌子上拾取某些物体。但在实践中,如果使用不同类型的机器人手臂,或者如果物体或环境发生变化,该模型就需要从头开始重新训练。
机器人研究人员希望,催生大型语言模型的相同配方——大量的训练数据和计算资源——最终也能产生具有类似通用能力的机器人模型。这意味着机器人将能够非常快速地适应新情况或新任务。最终,由于对世界运作方式的普遍理解,此类模型可能使人形机器人能够在混乱和不熟悉的环境中运作。
Physical Intelligence公司的研究人员Karl Pertsch表示,现在判断3D训练数据对机器人基础模型有多重要还为时过早。但他补充说,SPEAR-1展示了更通用的机器人模型正在以多快的速度发展。“看到学术团体构建出可以在各种环境中开箱即用并实现非平凡性能的相当通用的策略,真是太酷了,”Pertsch说。“这在一年前还不可能实现。”
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区