首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台
行动起来,活在当下
累计撰写
3824
篇文章
累计创建
1422
个标签
累计收到
0
条评论
栏目
首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
目 录
CONTENT
以下是
时序差分学习
相关的文章
2026-01-07
无需TD学习的强化学习:基于分而治之的新范式
本文介绍了一种基于“分而治之”范式的强化学习(RL)算法,它不依赖于存在扩展性挑战的时序差分(TD)学习。该方法在处理长程任务时表现出色,通过对轨迹进行对半分割并结合其值来更新整体轨迹的值,理论上可将贝尔曼递归次数降至对数级别。研究者提出了“迁移学习(TRL)”,并成功将其应用于复杂的、基于目标的RL任务,取得了优于多种基线方法的性能。
2026-01-07
0
0
0
AI基础/开发
AI工具应用
2025-12-18
无需TD学习的强化学习:基于分而治之范式的新进展
本文介绍了一种基于“分而治之”范式的新型强化学习(RL)算法,它完全不依赖于传统的时序差分(TD)学习。针对长时序任务中的可扩展性挑战,该算法通过对轨迹进行递归分割,将TD学习中的线性误差累积转化为对数复杂度,展现出在复杂目标条件RL任务中超越现有基线方法的潜力。
2025-12-18
0
0
0
AI基础/开发
AI工具应用
2025-12-05
无需时序差分学习的强化学习:基于分而治之的范式
本文介绍了一种基于“分而治之”范式的强化学习(RL)算法,它不依赖于传统的时序差分(TD)学习,并能有效扩展到长时序任务。文章探讨了从TD学习到蒙特卡洛(MC)方法的局限性,并提出了“分而治之”作为第三种范式。通过在目标条件RL(Goal-conditioned RL)中的成功应用,该新算法“传递性RL(TRL)”展现出解决长期依赖问题的潜力,并在复杂任务上取得了领先性能。
2025-12-05
0
0
0
AI基础/开发
AI工具应用
2025-11-22
摆脱时序差分学习的强化学习:一种分而治之的新范式
本文介绍了一种基于“分而治之”(divide and conquer)范式的强化学习(RL)新算法,它完全不依赖于存在可扩展性挑战的时序差分(TD)学习。该算法通过对轨迹进行分段合并,理论上能将贝尔曼递归次数减少到对数级别,有效解决了长程任务中的误差累积问题。研究团队将其应用于目标条件强化学习,提出了<strong>Transitive RL (TRL)</strong>,并在OGBench等高难度任务上取得了优异表现,无需手动设置TD($n$)中的超参数$n$。
2025-11-22
0
0
0
AI基础/开发