时序差分学习-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

行动起来，活在当下

累计撰写 5584 篇文章
累计创建 1961 个标签
累计收到 0 条评论

目录CONTENT

以下是时序差分学习相关的文章

2026-02-18
超越时序差分学习：基于分而治之的强化学习新范式本文介绍了一种基于“分而治之”范式的强化学习（RL）算法，它不依赖于传统的时间差分（TD）学习，能有效解决TD学习在长序列任务中遇到的可扩展性挑战。作者提出了“分而治之”的价值学习新范式，并介绍了一种名为“可传递强化学习”（TRL）的实用算法，该算法在复杂的、长时序的目标条件RL任务中取得了优异性能，尤其是在无需手动设置超参数$n$的情况下，表现与最优的TD-$n$持平。
- 2026-02-18
- 0
- 0
- 0
- AI基础/开发
- AI工具应用
2026-01-20
无需时序差分学习的强化学习：分而治之本文介绍了一种基于“分而治之”范式的强化学习（RL）算法，它不依赖于存在扩展性挑战的时序差分（TD）学习。该方法通过对轨迹进行递归分割，实现了对长程任务的有效扩展。作者提出了“可迁移强化学习”（TRL）算法，成功将分而治之的值学习扩展到复杂的、以目标为条件的RL问题，并在OGBench等基准测试中取得了优异性能，特别是在无需手动调参n值的情况下匹配了最佳的TD-n性能。
- 2026-01-20
- 0
- 0
- 0
- AI基础/开发
- AI工具应用
2026-01-07
无需TD学习的强化学习：基于分而治之的新范式本文介绍了一种基于“分而治之”范式的强化学习（RL）算法，它不依赖于存在扩展性挑战的时序差分（TD）学习。该方法在处理长程任务时表现出色，通过对轨迹进行对半分割并结合其值来更新整体轨迹的值，理论上可将贝尔曼递归次数降至对数级别。研究者提出了“迁移学习（TRL）”，并成功将其应用于复杂的、基于目标的RL任务，取得了优于多种基线方法的性能。
- 2026-01-07
- 0
- 0
- 0
- AI基础/开发
- AI工具应用
2025-12-18
无需TD学习的强化学习：基于分而治之范式的新进展本文介绍了一种基于“分而治之”范式的新型强化学习（RL）算法，它完全不依赖于传统的时序差分（TD）学习。针对长时序任务中的可扩展性挑战，该算法通过对轨迹进行递归分割，将TD学习中的线性误差累积转化为对数复杂度，展现出在复杂目标条件RL任务中超越现有基线方法的潜力。
- 2025-12-18
- 0
- 0
- 0
- AI基础/开发
- AI工具应用
2025-12-05
无需时序差分学习的强化学习：基于分而治之的范式本文介绍了一种基于“分而治之”范式的强化学习（RL）算法，它不依赖于传统的时序差分（TD）学习，并能有效扩展到长时序任务。文章探讨了从TD学习到蒙特卡洛（MC）方法的局限性，并提出了“分而治之”作为第三种范式。通过在目标条件RL（Goal-conditioned RL）中的成功应用，该新算法“传递性RL（TRL）”展现出解决长期依赖问题的潜力，并在复杂任务上取得了领先性能。
- 2025-12-05
- 0
- 0
- 0
- AI基础/开发
- AI工具应用
2025-11-22
摆脱时序差分学习的强化学习：一种分而治之的新范式本文介绍了一种基于“分而治之”（divide and conquer）范式的强化学习（RL）新算法，它完全不依赖于存在可扩展性挑战的时序差分（TD）学习。该算法通过对轨迹进行分段合并，理论上能将贝尔曼递归次数减少到对数级别，有效解决了长程任务中的误差累积问题。研究团队将其应用于目标条件强化学习，提出了<strong>Transitive RL (TRL)</strong>，并在OGBench等高难度任务上取得了优异表现，无需手动设置TD($n$)中的超参数$n$。
- 2025-11-22
- 0
- 0
- 0
- AI基础/开发