📢 转载信息
原文作者:Will Douglas Heaven
谷歌 DeepMind 构建了一个名为 SIMA 2 的新视频游戏智能体,它能够在各种 3D 虚拟世界中导航并解决问题。该公司声称,这是向更通用型智能体和更好的现实世界机器人迈出的重要一步。
去年,谷歌 DeepMind 首次展示了 SIMA(“可扩展指令多世界智能体”的缩写)。但 SIMA 2 是基于该公司的旗舰大型语言模型 Gemini 构建的,这极大地提升了该智能体的能力。
研究人员声称,SIMA 2 能够在虚拟世界中执行一系列更复杂的任务,自行找出解决某些挑战的方法,并与用户进行聊天。它还可以通过多次尝试更困难的任务,并通过试错进行自我改进。
谷歌 DeepMind 研究科学家 Joe Marino 在本周的新闻发布会上说:“一段时间以来,游戏一直是智能体研究的驱动力。”他指出,即使是游戏中的一个简单动作,比如点燃一个灯笼,也可能涉及多个步骤:“要取得进展,你需要解决一系列非常复杂的任务。”
最终目标是开发能够遵循指令并在比网络浏览器更复杂的环境中执行开放式任务的下一代智能体。从长远来看,谷歌 DeepMind 希望利用这些智能体来驱动现实世界的机器人。Marino 声称,SIMA 2 学会了导航环境、使用工具以及与人类协作解决问题的技能,这些都是未来机器人伙伴的基本构建模块。
与以往的基于游戏的智能体工作(例如 2016 年击败围棋世界冠军的 AlphaZero,或 2019 年在电子游戏《星际争霸 2》中击败 99.8% 人类排位赛选手的 AlphaStar)不同,SIMA 的理念是训练一个智能体去玩一个没有预设目标的开放式游戏。相反,该智能体会学习执行人们给它的指令。
人类通过文本聊天、对着它大喊,或在游戏屏幕上绘图来控制 SIMA 2。该智能体会逐帧接收视频游戏的像素信息,并计算出为完成任务需要采取哪些行动。
与前身一样,SIMA 2 是通过观看人类玩八款商业视频游戏(包括《无人深空》和《山羊模拟器 3》)以及公司创建的三个虚拟世界的录像进行训练的。该智能体学会了将键盘和鼠标输入与动作相匹配。
研究人员声称,连接到 Gemini 后,SIMA 2 在遵循指令(在进行过程中提问和提供更新)以及自行找出如何执行某些更复杂的任务方面要好得多。
谷歌 DeepMind 在它从未见过的环境中测试了这个智能体。在一组实验中,研究人员要求公司最新的 世界模型 Genie 3 从头开始生成环境,并将 SIMA 2 放入其中。他们发现该智能体能够在其中导航并执行指令。
Git gud
研究人员还使用 Gemini 为 SIMA 2 生成了新任务。如果该智能体一开始失败了,Gemini 就会生成一些提示,SIMA 2 在再次尝试时会采纳这些提示。Marino 说,以这种方式重复任务多次,通常能让 SIMA 2 通过试错得到改进,直到成功为止。
提升能力 (Git gud)
SIMA 2 仍处于实验阶段。对于需要多个步骤和更长时间才能完成的复杂任务,该智能体会遇到困难。它也只记得最近的交互(为了让 SIMA 2 响应更灵敏,团队削减了它的长期记忆)。在用鼠标和键盘与虚拟世界交互方面,它仍然远远不如人类。
纽约大学专门研究创造力和视频游戏的 AI 研究员 Julian Togelius 认为这是一个有趣的结果。他表示,以往训练一个单一系统来玩多种游戏的尝试效果都不太好。这是因为仅通过观察屏幕来训练模型控制多种游戏“难度很大”:“仅凭视觉输入实时玩游戏是‘困难模式’,”他说。
Togelius 特别提到了谷歌 DeepMind 此前的一个系统 GATO,尽管当时备受吹捧,但它无法在大量虚拟环境中转移技能。
尽管如此,他对于 SIMA 2 是否能带来更好的机器人持开放态度。“现实世界比视频游戏更难,也更容易,”他说。更难是因为你不能仅仅按 A 键来开门。但同时,现实世界中的机器人会确切地知道它在任何时候身体的能力和限制。视频游戏则不是这样,因为每个虚拟世界的规则都可能不同。
其他人则持怀疑态度。阿尔伯塔大学的 AI 研究员 Matthew Guzdial 对 SIMA 2 能玩许多不同的电子游戏并不感到惊讶。他指出,大多数游戏都有非常相似的键盘和鼠标控制:学会一个就能学会所有。他说:“如果把它放在一个输入方式很奇怪的游戏前,我认为它将无法很好地执行任务。”
Guzdial 还质疑 SIMA 2 学到的大部分内容在多大程度上能真正迁移到机器人上。“与专为人类玩家设计易于解析视觉效果的游戏相比,理解现实世界中摄像头的视觉信息要困难得多,”他说。
不过,Marino 和他的同事们希望继续与 Genie 3 合作,让该智能体在一个无尽的虚拟训练道场中得到改进,在这个道场中,Genie 会为 SIMA 生成世界,让它通过 Gemini 的反馈指导进行试错学习。他在新闻发布会上说:“我们才刚刚触及了可能性的表面。”
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区