首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台
行动起来,活在当下
累计撰写
3781
篇文章
累计创建
1406
个标签
累计收到
0
条评论
栏目
首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
目 录
CONTENT
以下是
强化学习
相关的文章
2026-01-07
无需TD学习的强化学习:基于分而治之的新范式
本文介绍了一种基于“分而治之”范式的强化学习(RL)算法,它不依赖于存在扩展性挑战的时序差分(TD)学习。该方法在处理长程任务时表现出色,通过对轨迹进行对半分割并结合其值来更新整体轨迹的值,理论上可将贝尔曼递归次数降至对数级别。研究者提出了“迁移学习(TRL)”,并成功将其应用于复杂的、基于目标的RL任务,取得了优于多种基线方法的性能。
2026-01-07
0
0
0
AI基础/开发
AI工具应用
2026-01-05
使用强化学习训练扩散模型
伯克利的研究团队部署了100辆由强化学习(RL)控制的自动驾驶汽车(AVs)到高峰时段的高速公路上,旨在平滑交通拥堵并降低所有人的燃料消耗。本文详细介绍了如何利用数据驱动的仿真和RL训练,实现缓解“走走停停”波动的目标,并分享了大规模实地测试的成果和挑战。
2026-01-05
0
0
0
AI新闻/评测
AI工具应用
AI行业应用
2025-12-25
Agent Lightning:无需重写代码即可为 AI 智能体添加强化学习
本文介绍了 Agent Lightning,一种创新性的方法,允许开发者在不修改现有 AI 智能体代码的情况下,为其注入强化学习能力。这项技术通过添加可学习的控制器来优化智能体行为,显著提升了其性能和决策能力,为构建更强大的智能体开辟了新的途径。
2025-12-25
0
0
0
AI基础/开发
AI工具应用
2025-12-19
评估思维链的可监控性
随着AI系统决策复杂性的增加,理解其内部决策过程变得至关重要。OpenAI介绍了评估AI思维链(Chain-of-Thought, CoT)“可监控性”的框架和13项新评估,以系统性地衡量模型在不同推理计算量、强化学习和预训练规模下的可控性。研究发现,监控CoT远比仅监控最终输出更有效,并探讨了推理计算与模型规模之间的权衡。
2025-12-19
0
0
0
AI新闻/评测
AI基础/开发
2025-12-18
无需TD学习的强化学习:基于分而治之范式的新进展
本文介绍了一种基于“分而治之”范式的新型强化学习(RL)算法,它完全不依赖于传统的时序差分(TD)学习。针对长时序任务中的可扩展性挑战,该算法通过对轨迹进行递归分割,将TD学习中的线性误差累积转化为对数复杂度,展现出在复杂目标条件RL任务中超越现有基线方法的潜力。
2025-12-18
0
0
0
AI基础/开发
AI工具应用
2025-12-17
使用强化学习(RL)控制自动驾驶汽车平滑交通波:百车实地测试
研究团队在高峰时段的I-24高速公路上部署了100辆由强化学习(RL)控制的自动驾驶汽车(AV),旨在通过平滑“走走停停”的交通波来减少拥堵和降低所有人的燃料消耗。该实验是迄今为止规模最大的混合自主交通流平滑测试,结果显示,即使仅有少数RL控制的AV,也能显著提高整体交通效率和燃油经济性,且控制器可部署于大多数配备自适应巡航控制(ACC)的现代车辆。
2025-12-17
0
0
0
AI新闻/评测
AI基础/开发
AI行业应用
2025-12-17
使用强化学习平抑自动驾驶汽车(AV)的拥堵波,实现节能减排
研究团队部署了100辆由强化学习(RL)控制的自动驾驶汽车到高峰时段的高速公路上,旨在平抑拥堵,减少所有人的燃料消耗。文章深入探讨了“走走停停”波的成因、RL控制器的设计(包括奖励函数和动态阈值),以及100车队在真实高速公路上的部署挑战与成果。结果显示,少量智能控制车辆足以显著改善整体交通流量和燃油效率。
2025-12-17
0
0
0
AI新闻/评测
AI工具应用
AI行业应用
2025-12-12
Agent Lightning:无需重写代码即可为 AI 智能体添加强化学习
Microsoft Research 团队推出了 Agent Lightning,一种革命性的方法,可以在不修改现有 AI 智能体代码库的情况下,为其无缝集成强化学习(RL)。该技术通过外部“控制器”来指导智能体的决策过程,提升了自主学习和任务完成能力,为智能体开发开辟了新的可能性。
2025-12-12
0
0
0
AI基础/开发
AI工具应用
2025-12-05
无需时序差分学习的强化学习:基于分而治之的范式
本文介绍了一种基于“分而治之”范式的强化学习(RL)算法,它不依赖于传统的时序差分(TD)学习,并能有效扩展到长时序任务。文章探讨了从TD学习到蒙特卡洛(MC)方法的局限性,并提出了“分而治之”作为第三种范式。通过在目标条件RL(Goal-conditioned RL)中的成功应用,该新算法“传递性RL(TRL)”展现出解决长期依赖问题的潜力,并在复杂任务上取得了领先性能。
2025-12-05
0
0
0
AI基础/开发
AI工具应用
2025-12-04
使用强化学习训练扩散模型(此标题与内容不符,已根据内容修正)
研究团队部署了100辆由强化学习(RL)控制的自动驾驶汽车(AVs)到高峰时段的高速公路上,旨在平抑“走走停停”的交通波,显著减少拥堵和燃油消耗。文章详细介绍了RL控制器的设计、奖励函数优化,以及在真实世界中大规模部署的挑战与成果,展示了仅少量智能汽车就能改善整体交通效率的潜力。
2025-12-04
0
0
0
AI新闻/评测
AI行业应用
2025-12-04
使用强化学习平滑自动驾驶汽车(AV)的“走走停停”波:百车实地测试
研究团队将100辆由强化学习(RL)控制的自动驾驶汽车部署到高峰时段的高速公路上,旨在平滑拥堵并为所有人降低油耗。本文详细介绍了如何训练RL智能体以消除“走走停停”波,并分享了从模拟到实地部署100辆汽车的MegaVanderTest大型实验结果,成功展示了仅需少量RL控制的AV就能显著改善整体交通流量和燃油效率。
2025-12-04
1
0
0
AI新闻/评测
AI工具应用
2025-12-04
使用强化学习训练扩散模型
研究团队在高峰时段的城市高速公路上部署了100辆由强化学习(RL)控制的自动驾驶汽车,旨在平滑交通拥堵并减少所有人的燃料消耗。本文深入探讨了如何利用RL训练高效的流量平滑控制器,以及如何将这些控制器从模拟环境成功部署到真实场景中的挑战和成果,尤其关注消除“走走停停”波。
2025-12-04
0
0
0
AI新闻/评测
AI行业应用
AI基础/开发
2025-11-22
摆脱时序差分学习的强化学习:一种分而治之的新范式
本文介绍了一种基于“分而治之”(divide and conquer)范式的强化学习(RL)新算法,它完全不依赖于存在可扩展性挑战的时序差分(TD)学习。该算法通过对轨迹进行分段合并,理论上能将贝尔曼递归次数减少到对数级别,有效解决了长程任务中的误差累积问题。研究团队将其应用于目标条件强化学习,提出了<strong>Transitive RL (TRL)</strong>,并在OGBench等高难度任务上取得了优异表现,无需手动设置TD($n$)中的超参数$n$。
2025-11-22
0
0
0
AI基础/开发
2025-11-21
使用强化学习来平滑自动驾驶汽车(AV)的行驶,以减少高速公路拥堵和燃料消耗
研究团队部署了100辆由强化学习(RL)控制的自动驾驶汽车(AV)到高峰时段的高速公路交通中,以平滑拥堵并减少所有人的燃料消耗。本文详述了如何利用数据驱动的仿真来训练能有效抑制“走走停停”波浪的控制器,并在现实世界中进行了大规模现场测试,成功实现了高达20%的燃油效率提升。
2025-11-21
0
0
0
AI新闻/评测
AI基础/开发
AI行业应用
2025-11-21
使用强化学习平抑自动驾驶汽车(AV)车流,以减少拥堵和燃料消耗
研究人员部署了100辆由强化学习(RL)控制的自动驾驶汽车(AV)到高峰时段的高速公路上,旨在平抑交通拥堵和减少燃料消耗。本文详细介绍了如何使用RL训练交通流平滑控制器,并分享了从仿真到在实际的100车队实验中部署的挑战和成果,展示了仅少数AV就能显著改善整体交通效率。
2025-11-21
0
0
0
AI新闻/评测
AI工具应用
AI行业应用
2025-11-11
关于大语言模型评估指标你需要了解的一切
2025-11-11
0
0
0
AI基础/开发
AI工具应用
2025-11-10
Doppel AI 防御系统在攻击扩散前实现拦截
Doppel 采用基于 GPT-5 和强化微调 (RFT) 技术的新型社会工程防御系统,能自主检测、分类和消除威胁,将分析员工作量削减 80%,并将威胁处理时间从数小时缩短至数分钟。本文深入解析 Doppel 如何利用 LLM 驱动的流程,在网络钓鱼和冒充攻击扩散前快速有效地进行拦截和防御。
2025-11-10
0
0
0
AI新闻/评测
AI工具应用
2025-11-10
使用强化学习控制自动驾驶汽车平滑高速公路拥堵
研究人员部署了100辆由强化学习(RL)控制的自动驾驶汽车(AV)到高峰时段的高速公路交通中,旨在平滑拥堵和减少所有人的燃料消耗。本文详细介绍了如何利用RL训练交通流平滑控制器,并通过MegaVanderTest现场试验,展示了即使只有少数AV也能显著提高整体交通效率和燃油经济性的潜力。
2025-11-10
0
0
0
AI新闻/评测
AI工具应用
AI行业应用
2025-11-06
认识使用人工智能和工人团队训练机器人的中国初创公司 AgiBot
总部位于上海的人形机器人公司 AgiBot 正在利用人工智能驱动的双臂机器人在生产线上学习制造任务。通过结合远程操作和强化学习,AgiBot 旨在革新中国的物理劳动,使机器具备复杂操作能力,从而提高生产力并应对劳动力结构的变化。
2025-11-06
0
0
0
AI新闻/评测
AI工具应用
AI行业应用
2025-11-02
机器学习从业者微调语言模型的实践指南
本指南专为希望获得实际成果的机器学习从业者设计,深入探讨了微调大型语言模型(LLM)的实用决策框架、工具和方法。文章强调,微调应作为最后选择,优先使用提示工程和检索增强生成(RAG)。指南详细介绍了LoRA、QLoRA和Spectrum等关键的参数高效微调(PEFT)技术,并解释了如何利用DPO简化模型对齐过程。此外,文章还提供了关于数据准备的最佳实践,如高质量数据的五个特征,以及如何通过早期停止、正则化和混合指令集来有效避免过拟合和灾难性遗忘等常见陷阱,助力工程师高效部署专业化AI应用。
2025-11-02
1
0
0
AI基础/开发
AI工具应用
1
2