超越时序差分学习：强化学习的“分治”新范式-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：http://bair.berkeley.edu/blog/2025/11/01/rl-without-td-learning/

原文作者：Seohong Park (BAIR Blog)

在本文中，我将介绍一种基于“另类”范式的强化学习（RL）算法：分治法（divide and conquer）。与传统方法不同，该算法不依赖于时序差分（TD）学习（后者存在可扩展性挑战），能够很好地扩展到长时程任务中。

我们可以基于分治法而非时序差分（TD）学习来进行强化学习（RL）。

问题背景：离策略强化学习

我们关注的问题是离策略强化学习（off-policy RL）。让我们简要回顾一下它的含义。

在RL中存在两类算法：同策略RL和离策略RL。同策略RL意味着我们只能使用当前策略收集到的最新数据。换句话说，每次更新策略时，我们都必须丢弃旧数据。像PPO和GRPO这类算法通常属于这一类。

离策略RL则没有这种限制：我们可以使用任何类型的数据，包括旧经验、人类演示、互联网数据等。因此，离策略RL比同策略RL更通用、更灵活（当然也更困难！）。Q-learning是最著名的离策略RL算法。在数据收集成本高昂的领域（例如，机器人技术、对话系统、医疗保健等），我们往往别无选择，只能使用离策略RL。这就是它如此重要的原因。

截至2025年，我认为我们已经有了相当成熟的方案来扩展同策略RL（例如PPO、GRPO及其变体）。然而，我们仍然没有找到一种能够很好地扩展到复杂、长时程任务的“可扩展”离策略RL算法。让我简要解释一下原因。

价值学习中的两种范式：时序差分（TD）与蒙特卡洛（MC）

在离策略RL中，我们通常使用时序差分（TD）学习（即Q-learning）来训练价值函数，其贝尔曼更新规则如下：

Q(s, a) <- r + γ * max_a' Q(s', a')

问题在于：下一个价值 Q(s’, a’) 中的误差会通过自举（bootstrapping）传播到当前价值 Q(s, a)，并且这些误差会在整个时程中累积。这基本上就是导致TD学习难以扩展到长时程任务的原因。

为了缓解这个问题，人们将TD学习与蒙特卡洛（MC）回报结合起来。例如，我们可以进行 n 步TD学习（TD-n）：

Q(s_t, a_t) <- Σ_{i=0}^{n-1} (γ^i * r_{t+i}) + γ^n * max_a' Q(s_{t+n}, a')

在这里，我们对前 n 步使用实际的蒙特卡洛回报（来自数据集），然后对剩余的时程使用自举价值。这样，我们可以将贝尔曼递归次数减少 n 倍，从而减少误差累积。在 n=∞ 的极端情况下，我们恢复了纯蒙特卡洛价值学习。

虽然这是一个合理的解决方案（并且通常效果不错），但它非常令人不满。首先，它并没有从根本上解决误差累积问题；它只是将贝尔曼递归次数减少了一个常数因子（n）。其次，随着 n 的增加，我们面临高方差和次优性的困扰。因此，我们不能简单地将 n 设置得很大，必须针对每项任务仔细调整它。

第三种范式：分治法

我的观点是，价值学习中的第三种范式——分治法，可能为离策略RL提供了一种理想的解决方案，能够扩展到任意长时程的任务。

分治法以对数级减少了贝尔曼递归的次数。

分治法的核心思想是将轨迹分为两个等长的片段，并结合它们的价值来更新完整轨迹的价值。通过这种方式，我们（在理论上）可以将贝尔曼递归次数对数级减少（而不是线性减少！）。此外，它不需要像 n 步TD学习那样选择超参数，也不一定遭受高方差或次优性的困扰。

一种实用算法：传递强化学习 (TRL)

在最近的一项工作中，我们朝着实现并扩展这一思想迈出了有意义的一步。具体来说，我们成功地将分治价值学习扩展到了高度复杂的任务中，即目标导向型RL（goal-conditioned RL）。目标导向型RL旨在学习一种能够从任何状态到达任何其他状态的策略。这提供了一种自然的分治结构。

如果我们假设动力学是确定性的，并将两个状态 s 和 g 之间的最短路径距离（“时间距离”）记为 d*(s, g)，那么它满足三角不等式：d*(s, g) ≤ d*(s, w) + d*(w, g)。

这转化为以下“传递性”贝尔曼更新规则：

V(s, g) <- max_w V(s, w) * V(w, g)

直观地说，这意味着我们可以使用两个“较小”的值来更新 V(s, g)：V(s, w) 和 V(w, g)，前提是 w 是最短路径上的最优“中点”（子目标）。这正是我们一直在寻找的分治价值更新规则！

解决方案

我们的核心思想是：将 w 的搜索空间限制在数据集中出现的那些状态上。此外，我们使用期望分位数回归（expectile regression）来计算“软”最大值，从而避免了 max 算子带来的价值高估问题。我们将此算法称为传递强化学习（Transitive RL, TRL）。

实验效果

我们直接在 OGBench 中最具挑战性的任务上评估了 TRL。结果非常令人振奋！TRL 在大多数任务上实现了最佳性能，并且与最佳、单独调优的 TD-n 算法相匹配，而无需手动设置超参数 n。这正是我们从分治范式中所追求的目标。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

超越时序差分学习：强化学习的“分治”新范式