📢 转载信息
原文作者:Microsoft Research (Yuncong Yang, Reuben Tan, Swadheen Shukla, Jianfeng Gao)
MindJourney:赋能AI在模拟3D世界中探索,提升空间推理能力
发布时间:2025年8月20日

一项全新的研究框架帮助AI智能体探索它们无法直接感知的3D空间。该方法被称为MindJourney,它解决了视觉语言模型(VLMs)的一大局限性,尽管VLMs赋予了AI智能体解释和描述视觉场景的能力。
视觉语言模型(VLMs)虽然擅长识别静态图像中的物体,但它们很难理解2D图像背后的交互式3D世界。这种差距在处理空间问题时尤为明显,例如:“如果我坐在右边的沙发上并面向椅子,厨房会在我的右边还是左边?”——这类任务要求智能体解释自身在空间中的位置和移动。
人类通过在脑海中探索空间、想象移动并整合这些“心理快照”来解决这个挑战。MindJourney采用了相同的流程,让AI智能体在回答空间问题之前,先在虚拟空间中进行“漫游”。
MindJourney如何实现3D空间导航
为了执行这类空间导航任务,MindJourney使用了一个世界模型——在这个案例中,它是一个经过大量视频训练的视频生成系统,这些视频是从单一移动视角(如前进、左转或右转)捕获的,就像一个3D摄影师。通过学习这些数据,世界模型能够预测从不同视角看新场景会是什么样子。
在推理时,该模型可以根据智能体当前位置的可能移动来生成照片级逼真的场景图像。它生成多个可能的场景视图,同时VLM充当过滤器,选择最有可能回答用户问题的已构建视角。
这些有前景的路径会被保留并扩展到下一轮迭代中,而不太有希望的路径则被丢弃。如图1所示,这个过程避免了生成和评估数千种可能的移动序列,而是专注于最有信息量的视角。

为了使模拟空间的搜索既有效又高效,MindJourney使用了一种空间束搜索(spatial beam search)算法,该算法优先考虑最有希望的路径。它在固定的步数内工作,每一步代表一次移动。通过平衡广度与深度,空间束搜索使MindJourney能够收集到有力的支持证据。这一过程在图2中有所说明。

通过在模拟、评估和集成之间迭代,MindJourney可以推理出远超任何单个2D图像所能传达的空间关系,而且无需额外的训练。在空间能力测试(SAT)基准测试中,它将VLM的准确性比基线性能提高了8%。
构建更智能的智能体
MindJourney在多个3D空间推理基准测试中展现了强大的性能,即使是先进的VLMs与它的“想象循环”结合后也得到了改进。这表明世界模型从原始图像中学到的空间模式,结合VLMs的符号能力,为智能体创造了一种更全面的空间能力。它们共同使智能体能够推断出视野之外的内容,并更准确地解释物理世界。
这也证明了预训练的VLMs和可训练的世界模型可以在不重新训练任何一方的情况下协同工作于3D环境中,这为能够解释和在现实环境中执行任务的通用型智能体铺平了道路。这为自动机器人、智能家居技术和为视障人士设计的辅助工具等领域的潜在应用打开了大门。
通过将仅仅描述静态图像的系统转变为能持续评估下一步该看哪里的主动智能体,MindJourney将计算机视觉与规划联系起来。由于探索完全发生在模型潜在空间(即其对场景的内部表征)中,机器人可以在确定下一步动作之前测试多个视角,从而可能减少磨损、能源消耗和碰撞风险。
展望未来,我们计划扩展该框架,使用不仅能预测新视角,还能预测场景如何随时间变化的世界模型。我们设想MindJourney与VLMs协同工作,后者负责解释这些预测并据此规划下一步行动。这种增强将使智能体能够更准确地解释空间关系和物理动态,帮助它们在变化的环境中有效运作。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。
青云聚合API官网https://api.qingyuntop.top
支持全球最新300+模型:https://api.qingyuntop.top/pricing
详细的调用教程及文档:https://api.qingyuntop.top/about
评论区