📢 转载信息
原文链接:http://bair.berkeley.edu/blog/2025/03/25/rl-av-smoothing/
原文作者:BAIR Blog
我们部署了100辆由强化学习(RL)控制的汽车进入高峰时段的高速公路交通,以平滑拥堵并减少所有人的燃油消耗。 我们的目标是解决“走走停停”波,那些通常没有明确原因但会导致拥堵和显著能源浪费的令人沮丧的减速和加速。为了训练高效的流量平滑控制器,我们构建了快速、数据驱动的模拟环境,RL智能体与之交互,学习最大化能源效率,同时保持吞吐量并在人类驾驶员周围安全运行。
总的来说,一小部分精心控制的自动驾驶汽车(AVs)足以显著改善道路上所有驾驶员的交通流量和燃油效率。此外,所训练的控制器被设计为可部署在大多数现代汽车上,以去中心化的方式运行,并依赖于标准的雷达传感器。在我们最新的论文中,我们探讨了将RL控制器大规模部署的挑战,从模拟到现场,在我们进行的100辆汽车实验中。
“幽灵堵车”的挑战
交通流中向后传播的走走停停波。
如果你开车,你肯定经历过走走停停波的沮丧,那些看似无法解释的交通减速,它们凭空出现,然后又突然消失。这些波浪通常是由我们驾驶行为中的微小波动引起的,这些波动在交通流中被放大。我们自然会根据前车的速度调整自己的速度。如果间隙变大,我们会加速以跟上。如果他们刹车,我们也会减速。但由于我们的反应时间不为零,我们可能会比前车刹车更猛。后面的司机也这样做,这会不断放大。随着时间的推移,原本微小的减速变成了更靠后的交通完全停止。这些波浪向后传播,由于频繁的加速导致能源效率显著下降,并伴随着二氧化碳排放增加和事故风险。
这并非孤立现象!在繁忙的道路上,当交通密度超过临界阈值时,这些波浪无处不在。那么我们该如何解决这个问题呢?传统的匝道计量和可变限速等方法试图管理交通流量,但它们通常需要昂贵的基建和集中协调。一种更具可扩展性的方法是使用AVs,它们可以实时动态调整驾驶行为。然而,仅仅将AVs插入到人类驾驶员中是不够的:它们还必须以更智能的方式驾驶,从而让所有人的交通状况变得更好,而这正是RL发挥作用的地方。
交通流量的基本图。 道路上的汽车数量(密度)会影响交通前进的速度(流量)。在低密度下,增加更多汽车可以增加流量,因为有更多车辆可以通过。但超过临界阈值后,汽车开始相互阻碍,导致拥堵,此时增加更多汽车实际上会减慢整体运动。
用于波浪平滑AVs的强化学习
RL是一种强大的控制方法,智能体通过与环境交互来最大化奖励信号。智能体通过试错收集经验,从错误中学习,并随着时间推移而改进。在我们的案例中,环境是一个混合自动驾驶交通场景,AVs在这里学习驾驶策略,以减缓走走停停波并减少自身及附近人驾车辆的燃油消耗。
训练这些RL智能体需要快速的模拟,具有逼真的交通动态,能够复制高速公路的走走停停行为。为了实现这一点,我们利用了在田纳西州纳什维尔附近的24号州际公路(I-24)收集的实验数据,并使用这些数据构建了模拟环境,其中车辆重播高速公路轨迹,产生不稳定的交通,而后面的AVs则学习平滑这些交通。
模拟重播了一个出现多次走走停停波的高速公路轨迹。
我们设计AVs时考虑了部署,确保它们仅使用自身和前车的基本传感器信息即可运行。观察数据包括AV的速度、前车的速度以及它们之间的空间距离。有了这些输入,RL智能体就可以为AV规定瞬时加速度或期望速度。仅使用这些局部测量值的关键优势在于,RL控制器可以以去中心化的方式部署在大多数现代汽车上,而无需额外的基建。
奖励设计
最具挑战性的部分是设计一个奖励函数,当最大化时,它能与我们希望AVs实现的各种目标保持一致:
- 波浪平滑:减少走走停停的振荡。
- 能源效率:降低所有车辆的燃油消耗,而不仅仅是AVs。
- 安全:确保合理的跟车距离并避免急刹车。
- 驾驶舒适性:避免激进的加速和减速。
- 遵守人类驾驶规范:确保“正常”的驾驶行为,不让周围的驾驶员感到不适。
平衡这些目标是困难的,因为必须找到每个项的合适系数。例如,如果最小化燃油消耗在奖励中占主导地位,RL AVs就会学会停在高速公路中间,因为这是能源最优的。为了防止这种情况,我们引入了动态的最小和最大间隙阈值,以确保安全和合理的行为,同时优化燃油效率。我们还惩罚了AV后方人驾车辆的燃油消耗,以阻止它学习以牺牲周围交通为代价来优化AV能源节省的自私行为。总的来说,我们的目标是在节省能源与保持合理和安全的驾驶行为之间取得平衡。
模拟结果
动态最小和最大间隙阈值的说明,AV可以在此范围内自由运行,以尽可能高效地平滑交通。
AVs学习到的典型行为是保持比人类驾驶员稍大的间隙,这使它们能够更有效地吸收即将到来的、可能突然的交通减速。在模拟中,这种方法在最拥堵的情况下,为所有道路使用者带来了高达20%的显著燃油节省,而道路上只有不到5%的AVs。而且这些AVs不必是特殊的车辆!它们可以是配备了智能自适应巡航控制(ACC)的标准消费级汽车,这正是我们在规模上测试的内容。
RL AVs的平滑行为。 红色:数据集中一次人类轨迹。蓝色:车队中连续的AVs,其中AV 1是紧跟在人类轨迹后面的。AVs之间通常有20到25辆人类汽车。每个AV的减速和加速幅度都比其前车小,导致波幅随时间减小,从而节省了能源。
100辆AV现场测试:大规模部署RL
在实验周期间,我们100辆汽车停在我们运营中心。
鉴于有希望的模拟结果,自然而然的下一步是弥合从模拟到高速公路的差距。我们将训练好的RL控制器部署到100辆汽车上,在数天的高峰交通时段在I-24上运行。这项大规模实验,我们称之为MegaVanderTest,是有史以来规模最大的混合自动驾驶交通平滑实验。
在现场部署RL控制器之前,我们在模拟中对其进行了广泛的训练和评估,并在硬件上进行了验证。总的来说,部署步骤包括:
- 在数据驱动的模拟中训练:我们使用了I-24的高速公路交通数据,创建了一个具有真实波浪动态的训练环境,然后在一系列新的交通场景中验证了训练智能体的性能和鲁棒性。
- 硬件部署:在机器人软件中验证后,训练好的控制器被上传到汽车上,并能够控制车辆的设定速度。我们通过车辆的板载巡航控制系统进行操作,该系统充当低级安全控制器。
- 模块化控制框架:测试期间的一个关键挑战是我们无法获取前车的传感器信息。为了克服这一点,RL控制器被集成到一个分层系统中,即MegaController,该系统结合了一个考虑下游交通状况的速度规划器指南,并将RL控制器作为最终决策者。
- 硬件验证:RL智能体被设计为在一个大多数车辆都是人驾的环境中运行,需要鲁棒的策略来适应不可预测的行为。我们通过在严格的人类监督下在道路上驾驶RL控制的车辆来验证这一点,并根据反馈对控制进行更改。
100辆汽车中的每一辆都连接到一个Raspberry Pi,RL控制器(一个小型神经网络)部署在其上。
RL控制器直接控制板载自适应巡航控制(ACC)系统,设定其速度和期望的跟车距离。
验证后,RL控制器被部署到100辆汽车上,并在早高峰时段在I-24上运行。周围的交通对实验不知情,确保了无偏见的驾驶员行为。在实验期间,从沿高速公路布置的数十个摄像头收集了数据,通过计算机视觉管道提取了数百万个单独车辆的轨迹。从这些轨迹计算出的指标表明,AVs周围的燃油消耗有所减少,这与模拟结果和先前较小的验证部署一致。例如,我们可以观察到,人们在离我们的AVs越近的地方行驶,他们平均消耗的燃油就越少(这是使用校准的能源模型计算的):
平均燃油消耗与在最近的接合RL控制的AV后方的距离的关系。随着人类驾驶员离AVs越来越远,他们的平均燃油消耗增加。
衡量的另一种方法是衡量速度和加速度的方差:方差越低,波浪的幅度应该越小,这正是我们在现场测试数据中观察到的。总的来说,尽管从大量的摄像头视频数据中获得精确的测量很复杂,但我们观察到我们的控制车辆周围的能源节省趋势为15%到20%。
实验一天中高速公路上所有车辆在速度-加速度空间中的数据点。红线左侧的簇代表拥堵,右侧的簇代表自由流动。我们观察到,当AVs存在时,拥堵簇会变小,通过计算软凸包的面积或拟合高斯核来衡量。
最后想法
100辆汽车的现场运营测试是去中心化的,AVs之间没有明确的合作或通信,这反映了当前的自动驾驶部署情况,并使我们离更平滑、更节能的高速公路又近了一步。然而,仍有巨大的改进潜力。将模拟扩展到更快、更准确,并具有更好的人类驾驶模型,对于弥合模拟与现实之间的差距至关重要。为AVs配备额外的交通数据,无论是通过先进的传感器还是集中式规划,都可以进一步提高控制器的性能。例如,虽然多智能体RL在改进合作控制策略方面很有前景,但如何通过5G网络实现AVs之间的明确通信能够进一步提高稳定性并进一步缓解走走停停波,仍然是一个悬而未决的问题。最关键的是,我们的控制器与现有的自适应巡航控制(ACC)系统无缝集成,使得大规模现场部署成为可能。配备智能交通平滑控制的车辆越多,我们道路上看到的波浪就越少,这意味着每个人都可以减少污染和节省燃料!
许多贡献者参与了MegaVanderTest的实现!完整的列表可以在CIRCLES项目页面找到,并有关于该项目的更多详细信息。
阅读更多:[论文]
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区