📢 转载信息
原文链接:http://bair.berkeley.edu/blog/2025/03/25/rl-av-smoothing/
原文作者:Nathan Lichtlé, Kathy Jang, Eugene Vinitsky, Adit Shah, Jonathan W. Lee, and Alexandre M. Bayen
重磅实践:百辆自动驾驶汽车上高速公路,用强化学习平抑交通拥堵,实现全员节能!
我们已在高峰时段的高速公路上部署了100辆由强化学习(RL)控制的汽车,旨在平抑拥堵并为所有驾驶员降低燃油消耗。 我们的核心目标是解决那些令人沮丧的“走走停停”(stop-and-go)波浪现象。这些波浪通常没有明确的起因,却导致了严重的交通拥堵和巨大的能源浪费。为了训练出高效的流量平顺控制器,我们构建了快速、数据驱动的仿真环境,让RL智能体与之交互,学习如何在确保安全的前提下,最大化能源效率并维持通行能力。
总的来说,只需要一小部分经过良好控制的自动驾驶汽车(AVs),就足以显著改善道路上所有驾驶员的交通流量和燃油效率。此外,我们训练的控制器被设计成可在大多数现代车辆上部署,它们以去中心化的方式运行,仅依赖标准的雷达传感器。在我们最新的论文中,我们详细探讨了将RL控制器从仿真环境部署到实际现场(即这次百车实验)所面临的挑战。
“幽灵堵车”的难题
一个“走走停停”波浪在高速公路上向后传播。
如果你有驾驶经验,一定经历过“走走停停”波浪的烦恼——那些看似毫无缘由地出现,然后又突然消失的交通减速现象。这些波浪通常是由我们驾驶行为中的微小波动(Fluctuations)在交通流中被逐级放大造成的。我们会根据前车的速度来自然调整自己的速度:前车加速,我们也跟着加速;前车刹车,我们也减速。但由于我们的反应时间并非零,我们可能会比前车刹得稍微狠一点。后面的驾驶员也如法炮制,这种“放大效应”持续下去,最初微不足道的减速最终演变成了后车完全停车。这些波浪会向后传播,由于频繁的加减速,导致能源效率大幅下降,同时增加二氧化碳排放和事故风险。
这并非孤立现象!当交通密度超过某个临界阈值时,这些波浪在繁忙道路上无处不在。那么如何解决这个问题呢?传统的匝道控制和可变限速措施试图管理交通流,但往往需要昂贵的基建和集中协调。一个更具可扩展性的方法是使用自动驾驶汽车(AVs),它们可以实时动态调整驾驶行为。然而,仅仅将AVs插入到人类驾驶的车辆中是不够的:它们必须以更智能的方式驾驶,让所有人的交通状况都变好,而这正是强化学习(RL)发挥作用的地方。
交通流基本图。 路上的车辆数量(密度)影响着交通前移的量(流量)。在低密度下,增加车辆会增加流量,因为可以通过更多的车辆。但超过临界阈值后,车辆开始相互阻碍,导致拥堵,此时增加车辆反而会减慢整体移动速度。
面向波浪平顺的强化学习自动驾驶汽车
强化学习(RL)是一种强大的控制方法,智能体通过与环境互动来最大化一个奖励信号。智能体通过试错收集经验,从错误中学习并不断改进。在我们的案例中,环境是一个混合自动驾驶的交通场景,AVs学习驾驶策略以抑制“走走停停”波浪,并为自己和周围的人类驾驶车辆降低油耗。
训练这些RL智能体需要快速的仿真环境,且具备能复制高速公路“走走停停”行为的真实交通动态。为此,我们利用了在美国田纳西州纳什维尔I-24公路上收集的实验数据,建立了仿真环境,让车辆回放高速公路轨迹,从而产生不稳定的交通流,让紧随其后的AVs学习如何平顺化这种波动。
仿真环境回放了一个展示了数个“走走停停”波浪的高速公路轨迹。
我们在设计AVs时充分考虑了部署的实际情况,确保它们仅需关于自身和前车的简单传感器信息即可运行。观测数据包括AV的速度、前车的速度以及它们之间的空间距离。基于这些输入,RL智能体会输出一个瞬时加速度或期望速度。仅使用这些局部测量数据的关键优势在于,RL控制器可以去中心化地部署在大多数现代车辆上,无需额外的基础设施。
奖励函数设计
最具挑战性的部分是设计一个奖励函数,使其最大化后能与我们希望AV实现的所有目标保持一致:
- 波浪平顺性: 减少“走走停停”的振荡。
- 能源效率: 降低所有车辆(不只是AVs)的燃料消耗。
- 安全性: 确保合理的跟车距离,避免急刹车。
- 驾驶舒适性: 避免激进的加速和减速。
- 遵守人类驾驶规范: 确保驾驶行为“正常”,不让周围司机感到不安。
平衡这些目标非常困难,因为必须为每一项找到合适的系数。例如,如果最小化燃料消耗在奖励中占据主导地位,RL控制的AV可能会学会直接在高速公路中间停车,因为这在能源上是最优的。为防止这种情况,我们引入了动态的最小和最大间隙阈值,以确保在优化燃油效率的同时,行为是安全和合理的。我们还惩罚AV后方人类驾驶车辆的油耗,以避免它学习出一种“自私”的行为,即以牺牲周围交通为代价来优化自身的节能效果。总体而言,我们的目标是在节能与保持合理、安全的驾驶行为之间取得平衡。
仿真结果
动态最小和最大间隙阈值的示意图,AV可以在此范围内自由运行,以尽可能高效地平顺交通。
AVs学习到的典型行为是保持比人类驾驶员稍大的跟车间距,这样它们就能更有效地吸收前方可能出现的突然减速。在仿真中,这种方法在最拥堵的情况下,使所有道路使用者节省了高达20%的燃料,而道路上仅有不到5%的AVs。而且这些AVs不需要是特殊车辆!它们可以是配备了智能自适应巡航控制(ACC)的普通消费汽车,这也是我们在规模化测试中采用的模式。
RL AVs的平顺化行为。 红色:数据集中的人类轨迹。蓝色:车队中连续的AV,其中AV 1是紧跟在人类轨迹后方的车辆。通常在AVs之间有20到25辆人类驾驶的汽车。每辆AV减速幅度和加速幅度都比其前车小,导致波浪幅度随时间减小,从而实现节能。
100辆AV现场测试:大规模部署RL


实验周期间,我们的100辆车停在我们运营中心。
鉴于仿真结果令人鼓舞,自然而然的下一步就是弥合从仿真到高速公路的鸿沟。我们将训练好的RL控制器部署在I-24公路上100辆车上,在连续数日的交通高峰时段进行测试。这项被称为“MegaVanderTest”的大规模实验,是有史以来规模最大的混合自主交通平顺实验。
在现场部署RL控制器之前,我们首先在仿真中进行了广泛的训练和评估,并在硬件上进行了验证。部署过程主要包括以下步骤:
- 在数据驱动仿真中训练: 我们使用I-24的高速公路交通数据创建了一个具有真实波浪动态的训练环境,然后在一系列新的交通场景中验证了训练好的智能体的性能和鲁棒性。
- 硬件部署: 在机器人软件中验证后,训练好的控制器被上传到汽车上,能够控制车辆的设定速度。我们通过车辆的车载巡航控制系统进行操作,该系统充当了底层的安全控制器。
- 模块化控制框架: 测试中的一个关键挑战是无法直接获取前车的传感器信息。为克服这一难题,RL控制器被集成到一个分层系统中——MegaController,该系统结合了一个考虑下游交通状况的速度规划器,并将RL控制器作为最终决策者。
- 硬件验证: RL智能体的设计是为在大多数车辆由人类驾驶的环境中运行,因此需要鲁棒的策略来适应不可预测的行为。我们通过在严格的人工监督下在道路上驾驶RL控制的车辆来进行验证,并根据反馈对控制进行调整。


验证完成后,RL控制器被部署到100辆车上,并在早高峰时段在I-24上行驶。周围的交通对实验一无所知,确保了驾驶行为不受影响。实验期间,我们通过沿着高速公路设置的数十个摄像头收集数据,并通过计算机视觉流程提取了数百万条单独的车辆轨迹。对这些轨迹计算出的指标显示,AV周围的燃料消耗呈下降趋势,这与仿真结果和先前较小的验证部署相符。例如,我们可以观察到,人们离我们控制的AV越近,他们平均消耗的燃料似乎就越少(这是使用校准后的能源模型计算得出的):
下游交通中,平均油耗与距离最近的RL控制AV的距离关系图。随着人类驾驶员与AV的距离拉远,他们的平均油耗随之增加。
衡量的另一个影响指标是速度和加速度的方差:方差越低,波浪的幅度应该越小,这与我们在现场测试数据中观察到的相符。总而言之,尽管从大量的摄像头视频数据中获取精确测量很复杂,但我们观察到在我们的控制车辆周围有15%到20%的能源节省趋势。
实验某一天所有车辆在速度-加速度空间中的数据点图。红色线条左侧的簇代表拥堵,右侧的簇代表自由流。我们观察到,当AVs存在时,拥堵簇的面积更小(通过计算软凸包的面积或拟合高斯核来衡量)。
最后的思考
这次百车现场运营测试是去中心化的,AVs之间没有明确的合作或通信,这反映了当前自动驾驶部署的现状,并将我们推向了更平顺、更节能的高速公路又近了一步。然而,仍有巨大的改进潜力。使仿真更快、更准确,并采用更好的人类驾驶模型,对于弥合仿真与现实之间的差距至关重要。为AVs配备额外的交通数据,无论是通过先进传感器还是集中规划,都可以进一步提高控制器的性能。例如,虽然多智能体RL在改进协作控制策略方面很有前景,但启用AV之间通过5G网络进行显式通信能否进一步提高稳定性和缓解“走走停停”波浪,仍然是一个悬而未决的问题。至关重要的是,我们的控制器与现有的自适应巡航控制(ACC)系统无缝集成,使得大规模现场部署成为可能。配备智能交通平顺控制的车辆越多,我们道路上看到的波浪就越少,这意味着每个人都能享受到更少的污染和更低的燃料消耗!
许多贡献者参与了MegaVanderTest的实现!完整的名单可以在CIRCLES项目页面上找到,其中还有更多关于该项目的详细信息。
阅读更多:[论文]
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。
青云聚合API官网https://api.qingyuntop.top
支持全球最新300+模型:https://api.qingyuntop.top/pricing
详细的调用教程及文档:https://api.qingyuntop.top/about
评论区