目 录CONTENT

文章目录

Dreamer 4:仅通过“想象力训练”从离线数据中学习实现目标,Minecraft 智能体无需实战即可采矿

青云TOP
2025-10-07 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://www.infoq.com/news/2025/10/dreamer-4-minecraft-agent/?utm_campaign=infoq_content&utm_source=infoq&utm_medium=feed&utm_term=global

原文作者:Sergio De Simone


Dreamer 4:仅通过“想象力训练”从离线数据中学习实现目标,Minecraft 智能体无需实战即可采矿

谷歌 DeepMind 的研究人员最近介绍了一种全新的方法,让智能体仅通过视频素材(而非直接与环境交互)来学习解决复杂、长期的任务。他们的新智能体 Dreamer 4 仅通过视频训练,就展示出了在玩《我的世界》(Minecraft)时开采钻石的能力,而它从未真正玩过这款游戏。

研究人员将他们的方法称为“想象力训练”,强调智能体完全从离线数据中学习,无需与物理世界进行任何交互。换句话说,训练完全发生在智能体“想象中”,然后再应用于现实场景。研究作者之一 Danijar Hafner 在 X(原 Twitter)上指出,这一特性对于机器人技术等领域尤其重要,因为在这些领域中,直接在线交互往往不切实际。

Dreamer 4 示意图,可能是一个想象中的场景

技术核心:高效的预测模型

在配套的论文中,研究人员详细描述了他们的方法。模型的架构包含两个主要组件:

  1. 分词器(Tokenizer):将每个视频帧压缩成一个连续的表示。
  2. 动态模型(Dynamics Model):根据当前的世界表示和选择的动作,预测下一个世界表示。

为了提高动态模型的效率,研究人员采用了快捷强制(shortcut forcing)技术,训练模型在预测未来帧时可以迈出更大的步子,同时不损失准确性。结果是,Dreamer 4 可以在单张 GPU 上实时生成新的世界表示,并且保持至少每秒 20 帧的运行速度。他们还加入了跨空间和时间的因果注意力机制,以及专门的记忆技术,确保了模型的高效运行。

颠覆性的性能表现

如前所述,Dreamer 4 是第一个仅通过离线数据训练就能成功在《我的世界》中挖掘钻石的智能体。这听起来似乎很简单,但实际上,它需要仅根据原始像素数据,选择超过 20,000 次鼠标和键盘操作的序列。

Dreamer 4 的性能显著优于 OpenAI 的 VPT 离线智能体,而使用的数据量却少了 100 倍。它也超越了基于微调通用视觉语言模型的现代行为克隆方法。

研究人员还强调,Dreamer 4 的性能超越了 Gemma 3,这表明他们的方法不仅可用于构建行为克隆智能体,也可能适用于更通用的决策制定。

Minecraft:一个绝佳的测试平台

当被问及此事时,Hafner 将《我的世界》描述为具身智能体研究的绝佳测试台,并指出虽然挖钻石是一个复杂的任务,但它绝不是《我的世界》中测试智能体的唯一挑战:

我们在《我的世界》上还有大量的通用 AI 进步空间!该智能体距离人类水平的游玩能力还很远,而且在获得钻石之后,还有数百个更难的任务等着它去完成。

作为最后的说明,Dreamer 4 也在真实世界的机器人数据集上进行了测试,展示了执行反事实交互的能力。与通常在物体交互物理模拟方面遇到困难的最先进视频模型相比,Dreamer 4 显示出了很有前景的结果。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。

青云聚合API官网https://api.qingyuntop.top

支持全球最新300+模型:https://api.qingyuntop.top/pricing

详细的调用教程及文档:https://api.qingyuntop.top/about

0

评论区