📢 转载信息
原文作者:Microsoft Research
我们正在迈向一个由智能体(AI Agents)驱动的计算新时代,这些智能体需要执行复杂、多步骤的任务,并在不确定的环境中自主运行。为了实现这一目标,我们需要构建在反馈和评估基础上进行推理的系统,而不仅仅是基于提示(prompts)的反应式系统。
在多模态强化学习(Multimodal Reinforcement Learning, MRL)的背景下,我们引入了代理式验证器(Agentic Verifier)的概念。传统的强化学习(RL)依赖于预定义的奖励信号,这些信号通常是稀疏且难以量化的,尤其是在涉及人类偏好或开放式目标时。代理式验证器通过整合来自不同模态(如视觉、文本、模拟反馈等)的信息,充当一个可学习的、可替代的奖励模型,从而指导智能体的学习过程。
构建可靠的AI智能体:代理式验证器的核心
我们提出的框架旨在解决当前AI智能体部署中的两个核心挑战:
- 奖励稀疏性与设计复杂性:在许多真实世界任务中,为智能体设计一个精确、全面的奖励函数极其困难。
- 可靠性与可解释性:智能体需要能够自我评估其行为的质量,并在必要时进行修正,以确保结果符合预期标准。
代理式验证器(Agentic Verifier)通过扮演一个决策者的角色来克服这些挑战。它不仅仅是一个简单的奖励函数,而是一个可以与智能体进行多轮交互、并能提供结构化反馈的智能组件。我们研究了如何使用多模态信息(如历史观察、行动轨迹和环境状态的组合)来训练这个验证器。
多模态输入在验证中的作用
当智能体执行一项行动后,代理式验证器会接收多模态输入。例如,在一个需要构建3D场景的任务中,验证器可能会接收到:
- 视觉信息:当前场景的渲染图像(来自智能体观察)。
- 文本信息:智能体对下一步行动的内部思考或描述。
- 程序状态:底层模拟器或API返回的结构化数据。
通过对这些异构信息的综合分析,验证器能够生成更具区分度和更细致的评估信号,这极大地加速了智能体的学习效率,并提高了其最终性能。
我们特别关注如何将这些验证信号(可以看作是人工反馈的替代品)整合回策略更新中。这通常涉及使用近端策略优化(PPO)或其他策略梯度方法,但奖励信号来源于代理式验证器的输出,而不是预设的标量值。
超越传统RL:Agentic 循环
这种范式创建了一个Agentic 循环,其中智能体(Agent)执行动作,然后由代理式验证器(Verifier)评估,并提供反馈,智能体据此调整其策略。这个循环比传统的“试错”过程更具目的性。
“代理式验证器将评估过程内化为智能体系统的一部分,使其能够在没有持续人工干预的情况下,持续优化其行为以满足高层次的目标。”
这对于需要长期规划和复杂约束满足的任务至关重要,例如自动驾驶、复杂的软件工程任务,或者如我们在相关研究中探索的,多模态医疗报告生成。
研究意义与未来展望
通过将验证能力从外部环境转移到系统的智能组件内部,我们正在朝着构建更自主、更具可信赖性的AI系统迈进。未来的工作将侧重于如何使验证器本身能够适应不断变化的目标和环境,并探索如何利用大型语言模型(LLMs)的推理能力来增强验证过程的质量。
这项研究是微软研究院在通用人工智能(AGI)领域的一个重要组成部分,旨在确保AI系统的行为不仅强大,而且与人类的意图和价值观保持一致。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区