目 录CONTENT

文章目录

GRASP:面向世界模型的并行随机梯度规划方法

Administrator
2026-05-24 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:http://bair.berkeley.edu/blog/2026/04/20/grasp/

原文作者:BAIR Blog


BallNav demo Push-T demo

GRASP 是一种针对学习型动力学模型(即“世界模型”)的全新梯度规划器。它通过以下三种方式使长程规划变得切实可行:(1) 将轨迹提升至虚拟状态空间,从而实现跨时间的并行优化;(2) 在状态迭代中直接加入随机性以促进探索;(3) 重塑梯度,使动作获得清晰信号的同时,避免深层视觉模型带来的脆弱的“状态-输入”梯度影响。

随着规模的扩大,大型学习型世界模型正变得愈发强大。它们能够在高维视觉空间中预测未来的长序列观测,并以几年前难以想象的方式在跨任务场景中展现泛化能力。当这些模型不断演进,它们正逐渐从特定的预测器演变为通用仿真器。

长程规划的挑战

拥有强大的预测模型并不等同于能够有效地将其用于控制、学习或规划。在实践中,利用现代世界模型进行长程规划依然脆弱:优化过程容易陷入病态,非贪婪结构会导致不良的局部极小值,而高维潜在空间则带来了难以察觉的失效模式。

我们面临的主要挑战在于:

  • 长程展开导致复杂的计算图:通过时间反向传播(BPTT)时,梯度会发生指数级的爆炸或消失,使得优化极度不稳定。
  • 优化景观存在陷阱:随着规划视界(Horizon)的增长,任务要求变得非贪婪(例如绕过障碍物),这大大增加了局部极小值的数量。

GRASP 的核心解决方案

GRASP 的核心思想是将动力学约束作为软约束处理,采用一种类似协同定位(Collocation)的规划方法,在动作和状态序列上同时进行优化。通过将动力学拆分为局部变量,我们能够实现时间上的并行计算,从而大幅加速长程规划。

为了解决深度学习模型中常见的“对抗性鲁棒性”问题,GRASP 引入了以下关键创新:

  • 状态迭代噪声(Exploration):通过在虚拟状态更新中注入高斯噪声,帮助优化过程跳出不良的盆地(Basin),实现更有效的全局探索。
  • 梯度重塑(Stop-Gradient):我们停止了梯度流向世界模型的状态输入,转而仅利用合理的动作梯度进行优化。同时通过“密集目标塑形”来弥补长程信号丢失,从而构建出更稳定的优化目标。
  • 周期性同步:每隔一定迭代次数,GRASP 会通过短期的串行滚回(Rollout)进行细化,确保状态和动作始终趋向于真实的物理轨迹。
Network diagram
GRASP 利用动作梯度而非脆弱的状态梯度,从而保证了规划的稳定性。

结语

实验结果表明,在长程规划任务(如 Push-T)中,GRASP 不仅表现出了更高的成功率,而且收敛速度显著优于传统的 CEM 或 GD 方法。我们认为,随着对世界模型梯度结构的深入理解,GRASP 类规划器有望在未来变得像强化学习一样普及。

如需了解更多细节,请阅读完整论文或访问项目官网




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区