利用强化学习训练扩散模型：百辆自动驾驶汽车实战公路交通优化-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：http://bair.berkeley.edu/blog/2025/03/25/rl-av-smoothing/

原文作者：BAIR

我们向高峰时段的高速公路车流中投放了 100 辆由强化学习（RL）控制的自动驾驶汽车，旨在缓解交通拥堵并降低所有车辆的燃油消耗。我们的目标是解决令人沮丧的“走走停停”波（stop-and-go waves），这些现象通常没有明确原因，却会导致严重的交通延误和能源浪费。为了训练高效的流量平滑控制器，我们构建了基于数据驱动的高速仿真环境，RL 智能体在其中学习在保证通行效率与安全性的前提下，最大化能源效率。

总体而言，只需极少比例配置良好的自动驾驶汽车（AV），就足以显著改善道路上所有司机的交通流量和燃油效率。此外，这些训练好的控制器设计为可部署在大多数现代车辆上，以去中心化的方式运行，并依赖标准的雷达传感器。在我们最新的论文中，我们探讨了在 100 辆车的实地实验中，将 RL 控制器从仿真环境扩展到大规模现实部署所面临的挑战。

幻影堵车的挑战

交通波演示

只要你开车，就一定经历过那种“走走停停”带来的挫败感——那些似乎凭空出现又突然消失的交通拥堵。这些波往往是由我们在驾驶行为中的微小波动造成的，并随着车流扩散而放大。我们通常根据前车调整车速；如果间距变大，我们会加速；如果前车刹车，我们也会减速。但由于人类驾驶员非零的反应时间，我们往往刹车比前车更重，后车亦然，导致这种波动不断累积。随着时间推移，最初微不足道的减速演变成了后方交通的完全停滞。这些波在车流中向后传播，由于频繁加速导致巨大的能效损失，并伴随 CO₂ 排放增加和事故风险。

这并非个例！当交通密度超过临界阈值时，这些波在繁忙道路上无处不在。传统方法（如匝道控制和可变限速）需要昂贵的基础设施和集中协调。一种更具扩展性的方法是利用自动驾驶汽车，它们可以实时动态调整驾驶行为。然而，仅仅在人类驾驶员中插入自动驾驶汽车是不够的，它们必须以更聪明的方式驾驶，从而让交通状况对每个人都有所改善，这正是强化学习发挥作用的地方。

交通流基础图

用于平滑波动的强化学习自动驾驶

强化学习是一种强大的控制方法，智能体通过与环境交互学习最大化奖励信号。在我们的案例中，环境是一个混合自主性的交通场景，自动驾驶汽车学习驾驶策略来减弱“走走停停”波，并减少自身及周围车辆的油耗。

我们设计自动驾驶汽车时充分考虑了部署需求，确保它们仅使用关于自身及前方车辆的基础传感器信息即可操作。RL 控制器根据 AV 的速度、前车速度和间距，计算出瞬时加速度或目标速度。这种只依赖局部测量的优势在于，它可以无需额外基础设施直接部署在大多数现代车辆上。

奖励设计

最具挑战性的部分是设计奖励函数，以平衡多个目标：

波平滑：减少走走停停的震荡。
能源效率：降低包括人类驾驶员在内的所有车辆油耗。
安全性：确保合理的跟车距离，避免急刹车。
驾驶舒适度：避免激进的加速和减速。
人类驾驶规范：保持正常的驾驶行为，不让周围司机感到不安。

100 辆自动驾驶汽车现场测试：大规模部署 RL

鉴于仿真结果的优异表现，下一步是从仿真转向高速公路。我们在高峰时段的 I-24 高速公路上部署了 100 辆车。这是有史以来规模最大的混合自主性交通平滑实验，被称为“MegaVanderTest”。

在通过计算机视觉管道提取数百万条车辆轨迹后，我们发现围绕自动驾驶汽车的区域油耗确实有所降低。实验数据显示，能源节省幅度约在 15% 到 20% 之间。这证明了即使只有小比例的智能自动驾驶汽车存在，也能有效减轻交通拥堵中的波动。

总结

这项 100 辆车的实地测试是完全去中心化的，没有任何车辆间的显式协作，证明了在大规模部署下提升公路平滑度和能源效率的可行性。随着配备此类智能平滑控制的车辆增多，我们道路上的拥堵波将越来越少，这意味着更少的污染和为每个人带来的燃油节省。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

利用强化学习训练扩散模型：百辆自动驾驶汽车实战公路交通优化

幻影堵车的挑战

用于平滑波动的强化学习自动驾驶

奖励设计

100 辆自动驾驶汽车现场测试：大规模部署 RL

总结

评论区