目 录CONTENT

文章目录

谷歌SIMA 2智能体:集成Gemini,可在虚拟世界中进行推理和行动

Administrator
2025-11-14 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://techcrunch.com/2025/11/13/googles-sima-2-agent-uses-gemini-to-reason-and-act-in-virtual-worlds/

原文作者:Rebecca Bellan


谷歌DeepMind于周四分享了其通用AI智能体SIMA的下一代产品SIMA 2的研究预览版。该智能体整合了谷歌大语言模型Gemini的语言和推理能力,使其能够超越简单的指令跟随,转而理解和与环境进行交互。

与AlphaFold等DeepMind的许多项目一样,SIMA的第一个版本是在数百小时的电子游戏数据上训练的,目的是学习像人类一样玩多种3D游戏,甚至包括一些它未曾训练过的游戏。SIMA 1于2024年3月首次亮相,可以在各种虚拟环境中遵循基本指令,但在完成复杂任务时成功率仅为31%,而人类为71%。


“SIMA 2在能力上是比SIMA 1有了质的飞跃和改进,”DeepMind高级研究科学家Joe Marino在新闻发布会上说。“它是一个更通用的智能体。它可以在以前未见过的环境中完成复杂任务。而且它是一个自我改进的智能体。因此,它实际上可以根据自己的经验进行自我改进,这是朝着更通用的机器人和更广泛的AGI系统迈出的一步。”

DeepMind表示SIMA 2的性能是SIMA 1的两倍图片来源:Google DeepMind

SIMA 2由Gemini 2.5 flash-lite模型驱动,AGI指的是人工通用智能,DeepMind将其定义为一种能够执行广泛智力任务,并具有在不同领域学习新技能和泛化知识能力的系统。

DeepMind的研究人员表示,处理所谓的“具身智能体”(embodied agents)对于通用智能至关重要。Marino解释说,具身智能体通过一个“身体”与物理或虚拟世界进行交互——像机器人或人类一样观察输入并采取行动——而非具身智能体则可能与你的日历互动、做笔记或执行代码。

在神经科学领域有背景的DeepMind研究科学家Jane Wang告诉TechCrunch,SIMA 2的用途远不止于游戏玩法。

“我们要求它真正理解正在发生什么,理解用户要求它做什么,然后能够以一种非常困难的常识方式做出回应,”Wang说。

Techcrunch event

Join the Disrupt 2026 Waitlist

Add yourself to the Disrupt 2026 waitlist to be first in line when Early Bird tickets drop. Past Disrupts have brought Google Cloud, Netflix, Microsoft, Box, Phia, a16z, ElevenLabs, Wayve, Hugging Face, Elad Gil, and Vinod Khosla to the stages — part of 250+ industry leaders driving 200+ sessions built to fuel your growth and sharpen your edge. Plus, meet the hundreds of startups innovating across every sector.

Join the Disrupt 2026 Waitlist

Add yourself to the Disrupt 2026 waitlist to be first in line when Early Bird tickets drop. Past Disrupts have brought Google Cloud, Netflix, Microsoft, Box, Phia, a16z, ElevenLabs, Wayve, Hugging Face, Elad Gil, and Vinod Khosla to the stages — part of 250+ industry leaders driving 200+ sessions built to fuel your growth and sharpen your edge. Plus, meet the hundreds of startups innovating across every sector.

San Francisco | October 13-15, 2026

通过集成Gemini,SIMA 2的性能翻倍,将Gemini先进的语言和推理能力与通过训练开发的具身技能结合在一起。

图片来源:Google DeepMind

Marino在《无人深空》(No Man’s Sky)中演示了SIMA 2,智能体描述了其周围环境——一个多岩石的星球表面——并通过识别和与遇难信标互动来决定下一步行动。SIMA 2还使用Gemini进行内部推理。在另一个游戏中,当被要求走到与成熟番茄颜色相同的房子时,该智能体展示了其思考过程——成熟的番茄是红色的,因此我应该去红色的房子——然后找到并靠近了它。

由于由Gemini驱动,SIMA 2也能根据表情符号来遵循指令:“你指示它 🪓🌲,它就会去砍一棵树,”Marino说。


Marino还演示了SIMA 2如何导航由DeepMind的世界模型Genie生成的新的照片级真实世界,正确识别并与长椅、树木和蝴蝶等物体进行交互。

DeepMind表示SIMA 2是一个自我改进的智能体图片来源:Google DeepMind

Marino补充说,Gemini还使得无需大量人类数据就能实现自我改进。SIMA 1完全依赖人类游戏数据训练,而SIMA 2则将其作为基线来提供一个强大的初始模型。当团队将智能体置于新环境中时,它会要求另一个Gemini模型创建新任务,并要求一个单独的奖励模型对智能体的尝试进行评分。利用这些自我生成的经验作为训练数据,智能体从自身的错误中学习,性能逐渐提高,本质上是通过试错(trial and error)进行自我教学,就像人类一样,但受到AI反馈的指导而非人类。

DeepMind将SIMA 2视为解锁更通用机器人的途径之一。

DeepMind高级员工研究工程师Frederic Besse在新闻发布会上表示:“如果我们思考一个系统需要在现实世界中执行任务(比如机器人)需要具备什么,我认为它包含两个组成部分:第一是对现实世界和所需任务的高层次理解以及一定的推理能力。”

如果你让家里的一个仿人机器人去检查橱柜里有多少罐豆子,系统需要理解所有不同的概念——什么是豆子,什么是橱柜——并导航到那个位置。Besse说,SIMA 2更多地关注这种高层次的行为,而不是像控制物理关节和车轮这样的低层次动作。

该团队拒绝透露将SIMA 2应用于物理机器人系统的具体时间表。Besse告诉TechCrunch,DeepMind最近揭晓的机器人基础模型(它们也可以推理物理世界并创建多步计划来完成任务)与SIMA的训练方式不同,是独立训练的。

虽然SIMA 2公开发布的时间表尚不明确,但Wang告诉TechCrunch,目标是向世界展示DeepMind一直在做的工作,并探究可能出现的协作和潜在用途。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区