目 录CONTENT

文章目录

百车实测:利用强化学习(RL)优化高速公路自动驾驶,有效缓解交通拥堵与降低油耗

青云TOP
2025-10-09 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:http://bair.berkeley.edu/blog/2025/03/25/rl-av-smoothing/

原文作者:Nathan Lichtlé, Kathy Jang, Eugene Vinitsky, Adit Shah, Jonathan W. Lee, and Alexandre M. Bayen


我们在高峰时段的高速公路上部署了100辆由强化学习(RL)控制的汽车,旨在平顺交通拥堵并为所有驾驶员降低燃料消耗。我们的目标是解决那些令人沮丧的“走走停停”波(stop-and-go waves),这些波动通常没有明确原因,但会导致交通堵塞和显著的能源浪费。为了训练出高效的交通平顺控制器,我们构建了快速的数据驱动模拟环境,供RL智能体与之交互,学习如何在保障吞吐量和安全的前提下,最大化能源效率地运行,并与人类驾驶员安全共存。

总的来说,少量的、控制良好的自动驾驶汽车(AVs)就足以显著改善道路上所有驾驶员的交通流量和燃油效率。此外,我们训练的控制器设计为可部署在大多数现代车辆上,以去中心化的方式运行,仅依赖标准的雷达传感器。在我们最新的论文中,我们探索了将RL控制器从仿真扩展到实际部署的挑战,并通过这次百车实验进行了验证。

“幽灵拥堵”的挑战


一个“走走停停”波在高速公路交通中向后传播。

如果您有驾驶经验,一定经历过“走走停停”波带来的挫败感——那些看似毫无缘由的交通减速,然后又突然恢复正常。这些波浪通常是由我们驾驶行为中的微小波动被交通流放大引起的。我们会根据前车的状态自然地调整速度。如果前车拉开距离,我们会加速跟上;如果前车刹车,我们也会减速。但由于我们存在反应时间,我们可能会比前车刹得稍重一点。后车又会做同样的事情,这种放大效应持续下去。随着时间的推移,最初微不足道的减速会演变成后方车辆的完全停车。这些波浪会向后传播,由于频繁的加减速,导致能源效率显著下降,同时增加二氧化碳排放和事故风险。

这并非孤立现象!当交通密度超过某个临界阈值时,这些波浪在繁忙的道路上无处不在。那么,我们该如何解决这个问题呢?传统的解决方案,如匝道流量控制和可变限速,试图管理交通流,但它们通常需要昂贵的基建和集中协调。一个更具可扩展性的方法是利用自动驾驶汽车(AVs),它们可以实时动态调整驾驶行为。然而,仅仅将AVs插入到人类驾驶员中是不够的:它们必须以更智能的方式驾驶,使所有人的交通状况都得到改善,而这正是强化学习(RL)发挥作用的地方。


交通流基本图。道路上的车辆数量(密度)会影响交通的前进速度(流量)。在低密度下,增加车辆会增加流量,因为更多的车辆可以通过。但在超过临界阈值后,车辆开始相互阻碍,导致拥堵,此时增加车辆反而会减慢整体移动速度。

用于平顺交通波的强化学习自动驾驶汽车

强化学习(RL)是一种强大的控制方法,智能体通过与环境互动来学习最大化奖励信号。智能体通过试错收集经验,从错误中学习并随着时间的推移而改进。在我们的案例中,环境是一个混合自动驾驶的交通场景,AVs在此学习驾驶策略,以抑制“走走停停”波,并为自身及附近的人工驾驶车辆降低油耗。

训练这些RL智能体需要具备逼真交通动态的快速仿真环境,能够复制高速公路的“走走停停”行为。为实现这一目标,我们利用了在田纳西州纳什维尔I-24采集的实验数据,并用其构建了仿真环境,车辆在其中重演高速公路轨迹,产生不稳定的交通状况,以便后续的AVs学习如何平顺这些波动。


仿真重演了一条展现出多次“走走停停”波的高速公路轨迹。

在设计AVs时,我们充分考虑了部署的实际情况,确保它们仅使用关于自身和前车的传感器信息即可运行。观测数据包括AV的速度、前车的速度以及两者之间的间隙。基于这些输入,RL智能体为AV规定一个瞬时加速度或目标速度。仅使用这些局部测量值的关键优势在于,RL控制器可以去中心化地部署在大多数现代车辆上,而无需额外基础设施。

奖励设计

最具挑战性的部分是设计一个奖励函数,当其被最大化时,能够与我们希望AV实现的不同目标保持一致:

  • 波浪平顺性:减少“走走停停”的振荡。
  • 能源效率:降低所有车辆(不仅是AVs)的燃料消耗。
  • 安全性:确保合理的跟车距离,避免突然刹车。
  • 驾驶舒适性:避免激进的加速和减速。
  • 遵守人类驾驶规范:确保一种“正常”的驾驶行为,不让周围驾驶员感到不适。

平衡这些目标是困难的,因为需要找到每个分项的合适系数。例如,如果最小化燃料消耗在奖励函数中占主导地位,RL AVs可能会学会完全停在高速公路中间,因为这在能源上是最优的。为防止这种情况,我们引入了动态最小和最大间隙阈值,以确保在优化燃油效率的同时保持安全合理的行为。我们还惩罚AV后方的人工驾驶车辆的燃料消耗,以阻止RL学习出一种“自私”的行为,即以牺牲周围交通为代价来优化AV自身的节能效果。总体而言,我们的目标是在节能与保持合理、安全的驾驶行为之间取得平衡。

仿真结果


动态最小和最大间隙阈值的示意图,AV可以在此范围内自由操作,以尽可能高效地平顺交通。

AVs学习到的典型行为是保持比人类驾驶员稍大的跟车间距,这使它们能更有效地吸收前方可能发生的突然交通减速。在仿真中,这种方法在最拥堵的场景中,为所有道路使用者带来了高达20%的显著燃料节省,即使道路上只有不到5%的AVs。而且,这些AVs不需要是特制的车辆!它们可以是配备了智能自适应巡航控制(ACC)的普通消费级汽车,这正是我们在规模化测试中所验证的。

RL AVs的平顺行为。红色:数据集中的一条人类驾驶轨迹。蓝色:队列中连续的AVs,其中AV 1紧随人类轨迹之后。AVs之间通常间隔20到25辆车。每辆AV的减速幅度或加速幅度都小于其前车,从而导致波幅随时间减小,达到节能效果。

100辆AV实地测试:将RL规模化部署

实验周期间,我们的100辆车停在运营中心。

鉴于仿真结果令人鼓舞,自然而然的下一步就是实现从仿真到高速公路的跨越。我们将训练好的RL控制器部署在I-24高速公路上的100辆汽车上,在连续数天的交通高峰时段进行测试。这项被称为“MegaVanderTest”的大规模实验,是有史以来规模最大的混合自动驾驶交通平顺性实验。

在实际部署RL控制器之前,我们在仿真中对它们进行了广泛的训练和评估,并在硬件上进行了验证。总的来说,部署步骤包括:

  • 在数据驱动的仿真中训练:我们使用I-24的高速公路交通数据创建了一个具有逼真波浪动态的训练环境,然后在一系列新的交通场景中验证训练后智能体在性能和鲁棒性。
  • 部署到硬件:在机器人软件中验证后,训练好的控制器被上传到汽车上,能够控制车辆的设定速度。我们通过车辆的车载巡航控制系统进行操作,该系统充当低级别的安全控制器。
  • 模块化控制框架:测试中的一个关键挑战是没有接入前车信息传感器。为解决此问题,我们将RL控制器集成到一个分层系统中,即MegaController,该系统结合了考虑下游交通状况的速度规划器指南,并将RL控制器作为最终决策者。
  • 硬件验证:RL智能体被设计为在大多数车辆由人工驾驶的环境中运行,这要求其策略具有鲁棒性,能够适应不可预测的行为。我们通过在严格的人工监督下在道路上驾驶RL控制的车辆来验证这一点,并根据反馈对控制进行修改。
每辆车都连接到一台Raspberry Pi,RL控制器(一个小型神经网络)部署在上面。
RL控制器直接控制车载自适应巡航控制(ACC)系统,设定其速度和期望的跟车距离。

验证完成后,RL控制器被部署到100辆汽车上,在I-24早高峰时段进行驾驶。周围的交通对实验一无所知,确保了驾驶行为的无偏性。实验期间,我们从沿高速公路设置的数十个高空摄像头收集了数据,通过计算机视觉流程提取了数百万条独立的车辆轨迹。根据这些轨迹计算出的指标显示,AVs周围的燃料消耗有所下降,这与仿真结果和先前较小的验证部署一致。例如,我们可以观察到,人们在我们的AVs后面跟车越近,他们平均消耗的燃料似乎就越少(这是使用校准的能源模型计算得出的):


平均燃料消耗与下游交通中最接近的、启用了RL控制的AV的距离的关系图。随着人工驾驶员与AV的距离拉远,他们的平均燃料消耗有所增加。

衡量影响的另一种方法是测量速度和加速度的方差:方差越低,波动的幅度应该越小,这与我们在现场测试数据中观察到的情况一致。总的来说,尽管从大量摄像头视频数据中获得精确测量很复杂,但我们观察到在受控车辆周围有15%到20%的能源节省趋势。


实验某一天所有高速公路车辆在速度-加速度空间中的数据点。红色虚线左侧的簇代表拥堵,右侧的簇代表自由流。我们观察到,当存在AV时,拥堵簇的面积更小,通过计算软凸包的面积或拟合高斯核来衡量。

总结

这次百车现场操作测试是去中心化的,AV之间没有明确的合作或通信,这反映了当前的自动驾驶部署现状,使我们离更平顺、更节能的高速公路又近了一步。然而,仍有巨大的改进空间。将仿真加速和使其更准确,并建立更好的人类驾驶模型,对于弥合仿真到现实的差距至关重要。为AV配备额外的交通数据,无论是通过先进传感器还是集中式规划,都可以进一步提高控制器的性能。例如,虽然多智能体RL在改进协作控制策略方面前景广阔,但启用AV之间通过5G网络进行明确通信是否能进一步提高稳定性和减轻“走走停停”波,仍然是一个开放性问题。关键在于,我们的控制器与现有的自适应巡航控制(ACC)系统无缝集成,使得大规模现场部署成为可能。配备智能交通平顺控制的车辆越多,我们道路上看到的波动就越少,这意味着更少的污染和所有人的燃料节省!


众多贡献者参与了MegaVanderTest的实现!完整名单可以在CIRCLES项目页面上找到,其中也包含更多项目细节。

阅读更多:[论文]




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。

青云聚合API官网https://api.qingyuntop.top

支持全球最新300+模型:https://api.qingyuntop.top/pricing

详细的调用教程及文档:https://api.qingyuntop.top/about

0

评论区