首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台
行动起来,活在当下
累计撰写
5575
篇文章
累计创建
1954
个标签
累计收到
0
条评论
栏目
首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
目 录
CONTENT
以下是
强化学习
相关的文章
2026-02-21
前DeepMind首席科学家离职创业,获10亿美元种子轮融资:探索绕开大模型的超级智能
前谷歌DeepMind首席科学家、AlphaGo核心负责人席尔瓦已从DeepMind离职,并在伦敦创立了AI初创公司Ineffable Intelligence。该公司正在推进一笔高达10亿美元的种子轮融资,旨在探索一条不同于当前主流大模型(LLM)的发展路径。Ineffable Intelligence明确表示将绕过当前依赖海量文本预训练的既定范式,转而回归强化学习的本质,致力于构建一个能够自主探索新知识、不依赖人类现有知识的智能系统。此次高额融资额度追平了Safe Superintel...
2026-02-21
0
0
0
AI基础/开发
AI新闻/评测
2026-02-21
Agent Lightning:在不改写代码的情况下为AI智能体添加强化学习
微软研究院推出了Agent Lightning,一项创新技术,允许开发者在不修改现有AI智能体代码的情况下,通过强化学习(RL)增强其能力。这项技术将RL模块作为外部“插件”集成,极大地简化了智能体的迭代和优化过程。
2026-02-21
0
0
0
AI基础/开发
AI工具应用
2026-02-18
超越时序差分学习:基于分而治之的强化学习新范式
本文介绍了一种基于“分而治之”范式的强化学习(RL)算法,它不依赖于传统的时间差分(TD)学习,能有效解决TD学习在长序列任务中遇到的可扩展性挑战。作者提出了“分而治之”的价值学习新范式,并介绍了一种名为“可传递强化学习”(TRL)的实用算法,该算法在复杂的、长时序的目标条件RL任务中取得了优异性能,尤其是在无需手动设置超参数$n$的情况下,表现与最优的TD-$n$持平。
2026-02-18
0
0
0
AI基础/开发
AI工具应用
2026-02-18
代理式验证器下的多模态强化学习:构建智能体新范式
微软研究院推出了一种创新的多模态强化学习范式,引入了“代理式验证器”(Agentic Verifier)的概念,旨在提升AI智能体在复杂任务中的可靠性和规划能力。这项工作通过结合视觉、文本等多种模态信息,使智能体能够进行更高级的自我评估和修正,标志着构建更强大、更具责任感的AI系统迈出了重要一步。
2026-02-18
0
0
0
AI基础/开发
AI新闻/评测
2026-02-10
UniR-G:使用多模态强化学习扩展医学成像报告生成
本文介绍了UniR-G,一种利用多模态强化学习技术革新医学成像报告生成的新方法。UniR-G旨在通过结合视觉和文本信息,实现更精确、更全面的报告生成,显著提升医疗诊断效率。
2026-02-10
0
0
0
AI新闻/评测
AI工具应用
AI行业应用
2026-02-08
续航大幅提升!全新腾势D9 EV申报图流出:将搭载340kW高性能电机
全新腾势D9 EV的申报信息曝光,其核心升级点在于换装了峰值功率高达340kW的高性能电机,极大地提升了车辆的性能和续航能力。新车在外观设计上对经典π-Motion钻石切割前脸进行了重新设计,更具层次感和立体感。动力系统提供两驱和四驱版本,其中两驱版电机峰值功率达到340kW。此外,新车还升级了最新的天神之眼5.0系统,依托强化学习大模型优化驾驶体验。现款D9 EV售价区间在31.98万至46.98万,预计新款价格将在此基础上小幅调整。
2026-02-08
3
0
0
AI行业应用
2026-02-06
重新思考预测逆向动力学模型中的模仿学习
本文探讨了模仿学习(Imitation Learning, IL)的新范式,通过预测逆向动力学模型(Predictive Inverse Dynamics Models, PIDMs)来解决传统IL方法的局限性。我们提出了一种方法,该方法通过预测轨迹的未来状态来指导学习过程,从而提高了学习效率和泛化能力,并展示了其在复杂任务中的潜力。
2026-02-06
1
0
0
AI基础/开发
AI工具应用
2026-02-06
为AI智能体添加强化学习,无需重写代码:Agent Lightning
微软研究院推出了Agent Lightning,一种创新的方法,可以在不修改现有AI智能体代码的情况下,为其添加强化学习能力。该技术通过外部验证器和轻量级策略层,实现了效率和安全性的平衡,是AI智能体迈向自主学习的重要一步。
2026-02-06
0
0
0
AI基础/开发
AI工具应用
2026-02-01
无需TD学习的强化学习:基于分而治之的替代范式
本文介绍了一种基于“分而治之”范式的强化学习(RL)算法,它不依赖于传统的时间差分(TD)学习。该算法能有效扩展到长期任务,解决了TD学习在可扩展性方面的挑战。研究人员提出了“迁移学习(TRL)”,通过限制子目标搜索空间和使用期望回归来实现了可扩展的、分而治之的价值学习。
2026-02-01
0
0
0
AI基础/开发
AI工具应用
2026-01-31
用于AI智能体的多模态强化学习与智能体验证器
本文介绍了多模态强化学习与智能体验证器(Agentic Verifier)的创新结合,旨在提升AI智能体的可靠性和安全性。通过引入验证机制,研究人员显著提高了智能体在复杂、多模态环境中的决策准确性和一致性,为构建更健壮的AI系统提供了新思路。
2026-01-31
2
0
0
AI基础/开发
AI工具应用
2026-01-29
使用强化学习训练扩散模型
本文深入探讨了如何利用强化学习(RL)来控制自动驾驶汽车(AV),以平滑高速公路交通拥堵并减少燃料消耗。研究团队在真实交通中部署了100辆受RL控制的汽车,成功验证了即使只有小比例的智能汽车也能显著改善整体交通流。文章详细介绍了应对“幽灵堵车”的挑战、RL在波浪平滑中的应用、奖励函数设计,以及从模拟到实际部署的100车现场测试。
2026-01-29
0
0
0
AI新闻/评测
AI基础/开发
AI工具应用
2026-01-28
UniRG:使用多模态强化学习扩展医学成像报告生成
微软研究院发布了UniRG模型,它利用多模态强化学习(RL)技术,显著提升了医学影像报告生成的效率和准确性。该研究解决了现有模型在处理复杂、长尾病例时的不足,为临床决策支持系统带来了新的突破。
2026-01-28
1
0
0
AI新闻/评测
AI行业应用
AI工具应用
2026-01-24
Agent Lightning:无需重写代码即可为人工智能智能体添加强化学习
微软研究院推出了Agent Lightning,一项开创性的技术,允许开发者在不修改现有代码的情况下,为AI智能体集成强化学习(RL)。该方法通过一个“验证器”来评估智能体的行为,并生成奖励信号,从而实现无需代码重写的RL训练,极大地简化了智能体的优化过程。
2026-01-24
0
0
0
AI基础/开发
AI工具应用
2026-01-22
持续强化 ChatGPT Atlas 以防止提示注入
OpenAI 宣布对 ChatGPT Atlas 的浏览器代理进行安全更新,以应对日益严峻的“提示注入”威胁。本文深入探讨了基于网页的代理如何产生此风险,并介绍了 OpenAI 使用强化学习驱动的自动化红队测试来发现和修补漏洞的快速响应机制,旨在确保代理行为可信赖。
2026-01-22
1
0
0
AI新闻/评测
AI工具应用
2026-01-21
评估思维链的可监控性
本文介绍了OpenAI关于AI思维链(CoT)可监控性的研究框架和评估体系。研究系统性地探讨了思维链的可监控性如何随着推理时间、强化学习规模和预训练力度的变化而演变。核心发现表明,监控思维链通常比仅监控最终输出更有效,并探讨了如何通过后续问题等方式进一步增强可监控性,以实现未来AI系统的可扩展控制。
2026-01-21
0
0
0
AI新闻/评测
AI基础/开发
2026-01-20
无需时序差分学习的强化学习:分而治之
本文介绍了一种基于“分而治之”范式的强化学习(RL)算法,它不依赖于存在扩展性挑战的时序差分(TD)学习。该方法通过对轨迹进行递归分割,实现了对长程任务的有效扩展。作者提出了“可迁移强化学习”(TRL)算法,成功将分而治之的值学习扩展到复杂的、以目标为条件的RL问题,并在OGBench等基准测试中取得了优异性能,特别是在无需手动调参n值的情况下匹配了最佳的TD-n性能。
2026-01-20
0
0
0
AI基础/开发
AI工具应用
2026-01-17
利用强化学习对自动驾驶汽车进行平滑控制,以消除“走走停停”波,减少拥堵和燃料消耗
研究团队部署了100辆由强化学习(RL)控制的自动驾驶汽车(AVs)进入高峰时段的高速公路交通中,旨在平滑拥堵并减少所有人的燃料消耗。本文探讨了如何使用RL训练高效的流量平滑控制器,并详细介绍了从模拟到实际部署100辆汽车的现场测试过程。
2026-01-17
1
0
0
AI新闻/评测
AI基础/开发
AI行业应用
2026-01-17
使用强化学习训练扩散模型
本文介绍了伯克利AI研究团队利用强化学习(RL)控制100辆自动驾驶汽车(AV)部署到高峰时段的高速公路上,旨在平滑交通拥堵并降低所有人的燃料消耗。研究重点是解决“走走停停”波浪现象,并通过与数据驱动的模拟器交互,训练出能够最大化能源效率、保持吞吐量并安全运行的控制器。实验成功展示了少量智能控制车辆对改善整体交通流和燃油效率的显著作用。
2026-01-17
2
0
0
AI基础/开发
AI行业应用
2026-01-13
Agent Lightning:在无需重写代码的情况下为人工智能智能体添加强化学习
微软研究院发布Agent Lightning框架,首次实现了在不修改底层代码的情况下,为现有AI智能体(如LLM驱动的智能体)无缝集成强化学习(RL)能力。该方法通过外部“侧车”机制接收奖励信号,优化策略,为AI系统的快速迭代和适应性部署提供了革命性的解决方案。
2026-01-13
0
0
0
AI基础/开发
AI工具应用
2026-01-10
持续强化 ChatGPT Atlas 以防止提示注入
OpenAI 正在持续加固 ChatGPT Atlas 的浏览器代理,以应对“提示注入”这一新兴安全威胁。通过引入基于强化学习的自动化红队测试,OpenAI 能够主动发现并修补代理漏洞,确保 AI 智能体在执行网页操作时的安全性。本文详细介绍了提示注入的风险、新的防御机制以及快速响应循环的构建,旨在让用户能像信任可靠的同事一样信任 Atlas 代理。
2026-01-10
1
0
0
AI新闻/评测
AI基础/开发
AI工具应用
1
2
3