强化学习-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

行动起来，活在当下

累计撰写 7268 篇文章
累计创建 3256 个标签
累计收到 0 条评论

目录CONTENT

以下是强化学习相关的文章

2026-02-26
使用强化学习训练扩散模型伯克利人工智能研究实验室（BAIR）部署了100辆由强化学习（RL）控制的汽车进入高峰时段的高速公路交通，旨在平顺拥堵并减少燃料消耗。本文详细介绍了如何利用数据驱动的模拟器训练RL智能体，以解决“走走停停”波浪问题，并展示了从仿真到实际部署100辆车的现场测试结果，实现了高达20%的能效提升。
- 2026-02-26
- 2
- 0
- 0
2026-02-25
UniR-G：利用多模态强化学习扩展医学成像报告生成微软研究院发布UniR-G框架，利用多模态强化学习扩展医学成像报告生成能力。该系统克服了传统监督学习在处理高分辨率图像和数据稀疏性方面的挑战，通过集成复杂的奖励函数，显著提升了报告的准确性和临床相关性，有望减轻放射科医生的工作负担。
- 2026-02-25
- 3
- 0
- 0
2026-02-21
前DeepMind首席科学家离职创业，获10亿美元种子轮融资：探索绕开大模型的超级智能前谷歌DeepMind首席科学家、AlphaGo核心负责人席尔瓦已从DeepMind离职，并在伦敦创立了AI初创公司Ineffable Intelligence。该公司正在推进一笔高达10亿美元的种子轮融资，旨在探索一条不同于当前主流大模型（LLM）的发展路径。Ineffable Intelligence明确表示将绕过当前依赖海量文本预训练的既定范式，转而回归强化学习的本质，致力于构建一个能够自主探索新知识、不依赖人类现有知识的智能系统。此次高额融资额度追平了Safe Superintel...
- 2026-02-21
- 2
- 0
- 0
- AI基础/开发
- AI新闻/评测
2026-02-21
Agent Lightning：在不改写代码的情况下为AI智能体添加强化学习微软研究院推出了Agent Lightning，一项创新技术，允许开发者在不修改现有AI智能体代码的情况下，通过强化学习（RL）增强其能力。这项技术将RL模块作为外部“插件”集成，极大地简化了智能体的迭代和优化过程。
- 2026-02-21
- 1
- 0
- 0
- AI基础/开发
- AI工具应用
2026-02-18
超越时序差分学习：基于分而治之的强化学习新范式本文介绍了一种基于“分而治之”范式的强化学习（RL）算法，它不依赖于传统的时间差分（TD）学习，能有效解决TD学习在长序列任务中遇到的可扩展性挑战。作者提出了“分而治之”的价值学习新范式，并介绍了一种名为“可传递强化学习”（TRL）的实用算法，该算法在复杂的、长时序的目标条件RL任务中取得了优异性能，尤其是在无需手动设置超参数$n$的情况下，表现与最优的TD-$n$持平。
- 2026-02-18
- 0
- 0
- 0
- AI基础/开发
- AI工具应用
2026-02-18
代理式验证器下的多模态强化学习：构建智能体新范式微软研究院推出了一种创新的多模态强化学习范式，引入了“代理式验证器”（Agentic Verifier）的概念，旨在提升AI智能体在复杂任务中的可靠性和规划能力。这项工作通过结合视觉、文本等多种模态信息，使智能体能够进行更高级的自我评估和修正，标志着构建更强大、更具责任感的AI系统迈出了重要一步。
- 2026-02-18
- 1
- 0
- 0
- AI基础/开发
- AI新闻/评测
2026-02-10
UniR-G：使用多模态强化学习扩展医学成像报告生成本文介绍了UniR-G，一种利用多模态强化学习技术革新医学成像报告生成的新方法。UniR-G旨在通过结合视觉和文本信息，实现更精确、更全面的报告生成，显著提升医疗诊断效率。
- 2026-02-10
- 2
- 0
- 0
2026-02-08
续航大幅提升！全新腾势D9 EV申报图流出：将搭载340kW高性能电机全新腾势D9 EV的申报信息曝光，其核心升级点在于换装了峰值功率高达340kW的高性能电机，极大地提升了车辆的性能和续航能力。新车在外观设计上对经典π-Motion钻石切割前脸进行了重新设计，更具层次感和立体感。动力系统提供两驱和四驱版本，其中两驱版电机峰值功率达到340kW。此外，新车还升级了最新的天神之眼5.0系统，依托强化学习大模型优化驾驶体验。现款D9 EV售价区间在31.98万至46.98万，预计新款价格将在此基础上小幅调整。
- 2026-02-08
- 4
- 0
- 0
- AI行业应用
2026-02-06
重新思考预测逆向动力学模型中的模仿学习本文探讨了模仿学习（Imitation Learning, IL）的新范式，通过预测逆向动力学模型（Predictive Inverse Dynamics Models, PIDMs）来解决传统IL方法的局限性。我们提出了一种方法，该方法通过预测轨迹的未来状态来指导学习过程，从而提高了学习效率和泛化能力，并展示了其在复杂任务中的潜力。
- 2026-02-06
- 1
- 0
- 0
- AI基础/开发
- AI工具应用
2026-02-06
为AI智能体添加强化学习，无需重写代码：Agent Lightning 微软研究院推出了Agent Lightning，一种创新的方法，可以在不修改现有AI智能体代码的情况下，为其添加强化学习能力。该技术通过外部验证器和轻量级策略层，实现了效率和安全性的平衡，是AI智能体迈向自主学习的重要一步。
- 2026-02-06
- 0
- 0
- 0
- AI基础/开发
- AI工具应用
2026-02-01
无需TD学习的强化学习：基于分而治之的替代范式本文介绍了一种基于“分而治之”范式的强化学习（RL）算法，它不依赖于传统的时间差分（TD）学习。该算法能有效扩展到长期任务，解决了TD学习在可扩展性方面的挑战。研究人员提出了“迁移学习（TRL）”，通过限制子目标搜索空间和使用期望回归来实现了可扩展的、分而治之的价值学习。
- 2026-02-01
- 0
- 0
- 0
- AI基础/开发
- AI工具应用
2026-01-31
用于AI智能体的多模态强化学习与智能体验证器本文介绍了多模态强化学习与智能体验证器（Agentic Verifier）的创新结合，旨在提升AI智能体的可靠性和安全性。通过引入验证机制，研究人员显著提高了智能体在复杂、多模态环境中的决策准确性和一致性，为构建更健壮的AI系统提供了新思路。
- 2026-01-31
- 2
- 0
- 0
- AI基础/开发
- AI工具应用
2026-01-29
使用强化学习训练扩散模型本文深入探讨了如何利用强化学习（RL）来控制自动驾驶汽车（AV），以平滑高速公路交通拥堵并减少燃料消耗。研究团队在真实交通中部署了100辆受RL控制的汽车，成功验证了即使只有小比例的智能汽车也能显著改善整体交通流。文章详细介绍了应对“幽灵堵车”的挑战、RL在波浪平滑中的应用、奖励函数设计，以及从模拟到实际部署的100车现场测试。
- 2026-01-29
- 0
- 0
- 0
2026-01-28
UniRG：使用多模态强化学习扩展医学成像报告生成微软研究院发布了UniRG模型，它利用多模态强化学习（RL）技术，显著提升了医学影像报告生成的效率和准确性。该研究解决了现有模型在处理复杂、长尾病例时的不足，为临床决策支持系统带来了新的突破。
- 2026-01-28
- 1
- 0
- 0
2026-01-24
Agent Lightning：无需重写代码即可为人工智能智能体添加强化学习微软研究院推出了Agent Lightning，一项开创性的技术，允许开发者在不修改现有代码的情况下，为AI智能体集成强化学习（RL）。该方法通过一个“验证器”来评估智能体的行为，并生成奖励信号，从而实现无需代码重写的RL训练，极大地简化了智能体的优化过程。
- 2026-01-24
- 1
- 0
- 0
- AI基础/开发
- AI工具应用
2026-01-22
持续强化 ChatGPT Atlas 以防止提示注入 OpenAI 宣布对 ChatGPT Atlas 的浏览器代理进行安全更新，以应对日益严峻的“提示注入”威胁。本文深入探讨了基于网页的代理如何产生此风险，并介绍了 OpenAI 使用强化学习驱动的自动化红队测试来发现和修补漏洞的快速响应机制，旨在确保代理行为可信赖。
- 2026-01-22
- 1
- 0
- 0
- AI新闻/评测
- AI工具应用
2026-01-21
评估思维链的可监控性本文介绍了OpenAI关于AI思维链（CoT）可监控性的研究框架和评估体系。研究系统性地探讨了思维链的可监控性如何随着推理时间、强化学习规模和预训练力度的变化而演变。核心发现表明，监控思维链通常比仅监控最终输出更有效，并探讨了如何通过后续问题等方式进一步增强可监控性，以实现未来AI系统的可扩展控制。
- 2026-01-21
- 0
- 0
- 0
- AI新闻/评测
- AI基础/开发
2026-01-20
无需时序差分学习的强化学习：分而治之本文介绍了一种基于“分而治之”范式的强化学习（RL）算法，它不依赖于存在扩展性挑战的时序差分（TD）学习。该方法通过对轨迹进行递归分割，实现了对长程任务的有效扩展。作者提出了“可迁移强化学习”（TRL）算法，成功将分而治之的值学习扩展到复杂的、以目标为条件的RL问题，并在OGBench等基准测试中取得了优异性能，特别是在无需手动调参n值的情况下匹配了最佳的TD-n性能。
- 2026-01-20
- 0
- 0
- 0
- AI基础/开发
- AI工具应用
2026-01-17
利用强化学习对自动驾驶汽车进行平滑控制，以消除“走走停停”波，减少拥堵和燃料消耗研究团队部署了100辆由强化学习（RL）控制的自动驾驶汽车（AVs）进入高峰时段的高速公路交通中，旨在平滑拥堵并减少所有人的燃料消耗。本文探讨了如何使用RL训练高效的流量平滑控制器，并详细介绍了从模拟到实际部署100辆汽车的现场测试过程。
- 2026-01-17
- 1
- 0
- 0
2026-01-17
使用强化学习训练扩散模型本文介绍了伯克利AI研究团队利用强化学习（RL）控制100辆自动驾驶汽车（AV）部署到高峰时段的高速公路上，旨在平滑交通拥堵并降低所有人的燃料消耗。研究重点是解决“走走停停”波浪现象，并通过与数据驱动的模拟器交互，训练出能够最大化能源效率、保持吞吐量并安全运行的控制器。实验成功展示了少量智能控制车辆对改善整体交通流和燃油效率的显著作用。
- 2026-01-17
- 2
- 0
- 0
- AI基础/开发
- AI行业应用

1
2
3