📢 转载信息
原文链接:http://bair.berkeley.edu/blog/2025/03/25/rl-av_smoothing/
原文作者:Berkeley AI Research (BAIR)
我们将100辆由强化学习(RL)控制的自动驾驶汽车(AV)部署到高峰时段的高速公路交通中,旨在为所有人平滑拥堵并减少燃料消耗。我们的目标是解决那些通常没有明确原因但会导致拥堵和大量能源浪费的“走走停停”(stop-and-go)波。为了训练高效的流量平滑控制器,我们构建了快速的、数据驱动的模拟环境,供RL智能体与之交互,学习在保持吞吐量和安全地与人类驾驶员共存的同时,最大化能源效率。
总的来说,少量精心控制的自动驾驶汽车就足以显著改善道路上所有驾驶员的交通流量和燃油效率。此外,所训练的控制器被设计为可以部署在大多数现代车辆上,以分散化的方式运行,并依赖标准的雷达传感器。在我们最新的论文中,我们探讨了将RL控制器从模拟环境部署到现场进行大规模部署所面临的挑战,特别是这次涉及100辆汽车的实验。
幻影堵车的挑战
一个“走走停停”波在高速公路交通中向后移动。
如果你有驾驶经验,你肯定经历过“走走停停”波的烦恼——那些看似莫名其妙的交通减速,它们凭空出现,然后又突然消失。这些波浪通常是由我们驾驶行为中的微小波动引起的,这些波动在交通流中被放大。我们自然会根据前方的车辆调整速度。如果间隙变大,我们会加速以跟上;如果前车刹车,我们也会减速。但由于我们存在非零的反应时间,我们可能会比前车刹得更用力一点。后面的驾驶员也会做同样的事情,这种效应不断放大。随着时间的推移,最初微不足道的减速演变成后方交通的完全停止。这些波浪会向后传播,由于频繁的加速,导致能源效率显著下降,同时增加二氧化碳排放和事故风险。
这并非孤立现象!当交通密度超过某个临界阈值时,这些波浪在繁忙的道路上无处不在。那么我们如何解决这个问题呢?传统的解决方案,如匝道计量和可变限速,试图管理交通流量,但它们通常需要昂贵的基础设施和集中协调。一个更具可扩展性的方法是使用自动驾驶汽车(AV),它们可以实时动态调整驾驶行为。然而,简单地将AVs插入到人类驾驶员中间是不够的:它们还必须以更智能的方式驾驶,从而为所有人改善交通,这就是RL发挥作用的地方。
交通流的基本图。道路上汽车的数量(密度)会影响向前移动的交通量(流量)。在低密度下,增加更多汽车会增加流量,因为可以通过更多的车辆。但超过临界阈值后,汽车开始相互阻碍,导致拥堵,此时增加更多汽车反而会减慢整体移动速度。
用于波浪平滑自动驾驶汽车的强化学习
RL是一种强大的控制方法,智能体通过与环境的交互来学习最大化奖励信号。智能体通过反复试验来收集经验,从错误中学习,并随着时间的推移而改进。在我们的案例中,环境是一个混合自动驾驶的交通场景,AVs在这里学习驾驶策略,以抑制“走走停停”波,并降低自身和附近人类驾驶车辆的燃料消耗。
训练这些RL智能体需要快速的模拟,这些模拟必须具有逼真的交通动力学,能够复制高速公路的“走走停停”行为。为了实现这一点,我们利用了在田纳西州纳什维尔附近的I-24州际公路上收集的实验数据,并用它来构建模拟环境,车辆在其中重放高速公路轨迹,产生不稳定的交通流,后面行驶的AVs则从中学习进行平滑处理。
模拟重放一条表现出数个“走走停停”波的高速公路轨迹。
我们在设计AVs时就考虑到了部署问题,确保它们仅使用关于自身和前方车辆的基本传感器信息即可运行。观察数据包括AV的速度、前车的速度以及它们之间的间隙。根据这些输入,RL智能体为AVs规定瞬时加速度或期望速度。仅使用这些局部测量值的关键优势在于,RL控制器可以以分散化的方式部署在大多数现代车辆上,而无需额外的基础设施。
奖励设计
最具挑战性的部分是设计一个奖励函数,使其最大化后能与我们期望AV实现的不同目标保持一致:
- 波浪平滑: 减少“走走停停”的振荡。
- 能源效率: 降低所有车辆(而不仅仅是AV)的燃料消耗。
- 安全性: 确保合理的跟车距离,避免急刹车。
- 驾驶舒适性: 避免激进的加速和减速。
- 遵守人类驾驶规范: 确保一种“正常”的驾驶行为,不会让周围的司机感到不适。
平衡这些目标很困难,因为必须找到每个项的合适系数。例如,如果最小化燃料消耗在奖励中占主导地位,RL AVs可能会学着在高速公路中间停下来,因为那在能源上是最优的。为了防止这种情况,我们引入了动态最小和最大间隙阈值,以确保安全合理的行为,同时优化燃油效率。我们还对后方人类驾驶车辆的燃料消耗进行了惩罚,以阻止AV学习一种自私的行为,即以牺牲周围交通为代价来优化自身的节能。
模拟结果
动态最小和最大间隙阈值的说明,AV可以在此范围内自由运行,以尽可能高效地平滑交通。
AV们通常学会的行为是维持比人类驾驶员稍大的间隙,这使它们能够更有效地吸收即将到来的、可能突然的交通减速。在模拟中,这种方法在最拥堵的情况下,使所有道路使用者实现了高达20%的显著节油,而道路上仅有不到5%的AVs。而且,这些AVs不一定是特种车辆!它们可以只是配备了智能自适应巡航控制(ACC)的普通消费型汽车,这也是我们进行大规模测试的内容。
RL AVs的平滑行为。红色:数据集中的人类轨迹。蓝色:队列中连续的AVs,其中AV 1是紧跟在人类轨迹后方的。AVs之间通常有20到25辆人类驾驶的汽车。每个AV的减速幅度或加速幅度都小于其前车,从而导致波幅随时间减小,进而实现节能。
100辆AV现场测试:将RL大规模部署

实验周期间,我们100辆车停在我们的操作中心。
鉴于模拟结果令人鼓舞,自然而然的下一步是将差距从模拟环境弥合到高速公路上。我们将训练好的RL控制器部署在I-24上,在连续数日的交通高峰时段,部署了100辆汽车。这次被称为MegaVanderTest的大规模实验,是有史以来规模最大的混合自动驾驶交通平滑实验。
在将RL控制器部署到现场之前,我们对其进行了广泛的模拟训练和评估,并在硬件上进行了验证。总体而言,部署的步骤包括:
- 在数据驱动的模拟中进行训练: 我们使用来自I-24的高速公路交通数据创建了一个具有逼真波浪动力学的训练环境,然后验证训练出的智能体在各种新交通场景中的性能和鲁棒性。
- 部署到硬件上: 在机器人软件中验证后,训练好的控制器被上传到汽车上,可以控制车辆的设定速度。我们通过车辆的板载巡航控制系统进行操作,该系统充当低级别的安全控制器。
- 模块化控制框架: 测试期间的一个关键挑战是无法直接获取前方车辆信息传感器。为了克服这个问题,RL控制器被集成到一个分层系统中,即MegaController,该系统结合了一个考虑下游交通状况的速度规划器指南,并将RL控制器作为最终的决策者。
- 硬件验证: RL智能体被设计为在一个大多数车辆都是人类驾驶的环境中运行,需要能够适应不可预测行为的鲁棒策略。我们通过在严格的人工监督下在道路上驾驶RL控制的车辆来验证这一点,并根据反馈对控制进行修改。
100辆车中的每一辆都连接到一个Raspberry Pi,RL控制器(一个小型神经网络)部署在该设备上。
RL控制器直接控制车载自适应巡航控制(ACC)系统,设置其速度和期望的跟车距离。
验证完成后,RL控制器被部署到100辆汽车上,并在早高峰时段在I-24上行驶。周围的交通参与者对实验不知情,确保了无偏见的驾驶行为。实验期间收集的数据来自沿高速公路设置的数十个高架摄像头,通过计算机视觉流程提取了数百万条单独的车辆轨迹。根据这些轨迹计算出的指标表明,在AV周围的区域燃料消耗有所下降,这与模拟结果和先前较小的验证部署的预期一致。例如,我们可以观察到,人们在我们的AV后面驾驶得越近,他们平均消耗的燃料就越少(这是使用校准的能量模型计算得出的):
平均燃料消耗与在下游交通中最近的接合的RL控制AV的距离的关系。当人类驾驶员离AV越远时,他们的平均燃料消耗就会增加。
衡量影响的另一种方法是衡量速度和加速度的变化率:变化率越低,波的振幅应该越小,这与我们在现场测试数据中观察到的情况一致。总的来说,尽管从大量的摄像机视频数据中获得精确测量很复杂,但我们观察到在受控车辆周围有15%到20%的能源节省趋势。
实验某一天高速公路上所有车辆的数据点,以速度-加速度空间绘制。红色线条左侧的集群代表拥堵,右侧的集群代表自由流动。我们观察到,当存在AV时,拥堵集群变小,测量方法是通过计算软凸包的面积或拟合高斯核。
最后思考
100辆车的现场操作测试是分散化的,AV之间没有明确的协作或通信,这反映了当前自动驾驶的部署现状,并将我们带向更平稳、更节能的高速公路更近一步。然而,仍有巨大的改进潜力。将模拟环境扩展得更快、更准确,并结合更好的人类驾驶模型,对于弥合模拟到现实的差距至关重要。为AV配备额外的交通数据,无论是通过先进的传感器还是集中规划,都可以进一步提高控制器的性能。例如,虽然多智能体RL在改进协作控制策略方面很有前景,但启用AV之间通过5G网络进行显式通信能否进一步提高稳定性和缓解“走走停停”波,仍然是一个悬而未决的问题。最重要的是,我们的控制器与现有的自适应巡航控制(ACC)系统无缝集成,使得大规模现场部署成为可能。配备智能交通平滑控制的车辆越多,我们道路上看到的波浪就越少,这意味着为每个人减少污染和节省燃料!
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区