GRASP：面向世界模型的并行随机梯度规划方法-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：http://bair.berkeley.edu/blog/2026/04/20/grasp/

原文作者：BAIR Blog

BallNav demo Push-T demo

GRASP 是一种针对学习型动力学模型（即“世界模型”）的全新梯度规划器。它通过以下三种方式使长程规划变得切实可行：(1) 将轨迹提升至虚拟状态空间，从而实现跨时间的并行优化；(2) 在状态迭代中直接加入随机性以促进探索；(3) 重塑梯度，使动作获得清晰信号的同时，避免深层视觉模型带来的脆弱的“状态-输入”梯度影响。

随着规模的扩大，大型学习型世界模型正变得愈发强大。它们能够在高维视觉空间中预测未来的长序列观测，并以几年前难以想象的方式在跨任务场景中展现泛化能力。当这些模型不断演进，它们正逐渐从特定的预测器演变为通用仿真器。

长程规划的挑战

拥有强大的预测模型并不等同于能够有效地将其用于控制、学习或规划。在实践中，利用现代世界模型进行长程规划依然脆弱：优化过程容易陷入病态，非贪婪结构会导致不良的局部极小值，而高维潜在空间则带来了难以察觉的失效模式。

我们面临的主要挑战在于：

长程展开导致复杂的计算图：通过时间反向传播（BPTT）时，梯度会发生指数级的爆炸或消失，使得优化极度不稳定。
优化景观存在陷阱：随着规划视界（Horizon）的增长，任务要求变得非贪婪（例如绕过障碍物），这大大增加了局部极小值的数量。

GRASP 的核心解决方案

GRASP 的核心思想是将动力学约束作为软约束处理，采用一种类似协同定位（Collocation）的规划方法，在动作和状态序列上同时进行优化。通过将动力学拆分为局部变量，我们能够实现时间上的并行计算，从而大幅加速长程规划。

为了解决深度学习模型中常见的“对抗性鲁棒性”问题，GRASP 引入了以下关键创新：

状态迭代噪声（Exploration）：通过在虚拟状态更新中注入高斯噪声，帮助优化过程跳出不良的盆地（Basin），实现更有效的全局探索。
梯度重塑（Stop-Gradient）：我们停止了梯度流向世界模型的状态输入，转而仅利用合理的动作梯度进行优化。同时通过“密集目标塑形”来弥补长程信号丢失，从而构建出更稳定的优化目标。
周期性同步：每隔一定迭代次数，GRASP 会通过短期的串行滚回（Rollout）进行细化，确保状态和动作始终趋向于真实的物理轨迹。

Network diagram — *GRASP 利用动作梯度而非脆弱的状态梯度，从而保证了规划的稳定性。*

结语

实验结果表明，在长程规划任务（如 Push-T）中，GRASP 不仅表现出了更高的成功率，而且收敛速度显著优于传统的 CEM 或 GD 方法。我们认为，随着对世界模型梯度结构的深入理解，GRASP 类规划器有望在未来变得像强化学习一样普及。

如需了解更多细节，请阅读完整论文或访问项目官网。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

GRASP：面向世界模型的并行随机梯度规划方法

长程规划的挑战

GRASP 的核心解决方案

结语

评论区