📢 转载信息
原文作者:Microsoft Research
微软研究突破:MindJourney让AI通过探索模拟3D世界,提升空间理解能力
发布于 2025年8月20日
作者:Yuncong Yang (研究实习生), Reuben Tan (高级研究员), Swadheen Shukla (首席项目经理), Jianfeng Gao (杰出科学家 & 副总裁)

一项新的研究框架帮助AI智能体探索它们无法直接感知的3D空间。这个名为 MindJourney 的方法,解决了视觉语言模型(VLMs)——赋予AI智能体解释和描述视觉场景能力——的一个关键限制。
尽管VLMs非常擅长识别静态图像中的物体,但它们很难理解2D图像背后的交互式3D世界。这种差距体现在空间问题上,例如:“如果我坐在我右边的沙发上,面对椅子,厨房会在我的右边还是左边?”——这些任务要求智能体理解其在空间中的位置和移动。
人类通过在脑海中探索空间、想象移动并结合这些心理快照来解决这个挑战,从而弄清楚物体的位置。MindJourney将相同的过程应用于AI智能体,允许它们在回答空间问题之前“漫游”一个虚拟空间。
MindJourney如何进行3D空间导航
为了执行这种空间导航,MindJourney使用了一个世界模型——在这个案例中,它是一个在大量单点视角捕获的视频上训练的视频生成系统,展示了前进、左转或右转等动作,就像一个3D摄影师一样。通过这些数据,它学会了预测从不同视角看新场景会出现什么。
在推理时,模型可以根据智能体当前位置的可能移动生成照片级真实感的场景图像。它会生成多个可能的场景视图,而VLM则充当过滤器,选择最有可能回答用户问题的构建视角。
这些被保留并扩展到下一迭代,而不太有希望的路径则被丢弃。如图1所示,这个过程避免了生成和评估数千种可能的移动序列,而是只关注最具信息量的视角。

为了使对模拟空间的搜索既有效又高效,MindJourney使用了一种空间束搜索(spatial beam search)——一种优先考虑最有希望路径的算法。它在固定步数内工作,每一步代表一次移动。通过平衡广度和深度,空间束搜索使MindJourney能够收集强有力的支持证据。这一过程如图2所示。

通过在模拟、评估和集成之间进行迭代,MindJourney可以推理出远超任何单个2D图像所能传达的空间关系,而且这一切都不需要额外的训练。在空间能力测试(SAT)基准测试中,它将VLMs的准确性比基线性能提高了8%。
构建更智能的智能体
MindJourney在多个3D空间推理基准测试中显示出强大的性能,并且即使是先进的VLMs与它的“想象循环”配对后也得到了改进。这表明,世界模型从原始图像中学到的空间模式,与VLMs的符号能力相结合,为智能体创造了更完整的空间能力。它们共同使智能体能够推断出可见框架之外的内容,并更准确地解释物理世界。
它还表明,预训练的VLMs和可训练的世界模型可以在没有重新训练的情况下协同工作于3D环境——这为能够解释和在现实环境**中**行动的通用智能体铺平了道路。这为自主机器人、智能家居技术以及为视障人士提供的辅助工具等潜在应用开启了大门。
通过将仅仅描述静态图像的系统转变为持续评估下一步该看哪里的主动智能体,MindJourney将计算机视觉与规划联系起来。由于探索完全发生在模型潜在空间(即其对场景的内部表示)中,机器人可以在确定下一步行动之前测试多个视点,从而潜在地减少磨损、能源消耗和碰撞风险。
展望未来,我们计划扩展该框架,使用不仅能预测新视点,还能预测场景如何随时间变化的世界模型。我们设想MindJourney与解释这些预测并利用它们来规划下一步行动的VLMs协同工作。这种增强可以使智能体更准确地解释空间关系和物理动态,帮助它们在变化的环境中有效运行。
在新标签页中打开🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。
青云聚合API官网https://api.qingyuntop.top
支持全球最新300+模型:https://api.qingyuntop.top/pricing
详细的调用教程及文档:https://api.qingyuntop.top/about
评论区