目 录CONTENT

文章目录

使用强化学习训练扩散模型

Administrator
2025-10-21 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:http://bair.berkeley.edu/blog/2025/03/25/rl-av-smoothing/

原文作者:bair.berkeley.edu


我们向高峰时段的高速公路交通部署了100辆由强化学习(RL)控制的汽车,旨在为所有人平滑拥堵并减少燃料消耗。我们的目标是解决那些通常没有明确原因但会导致拥堵和显著能源浪费的“走走停停”(stop-and-go)波。为了训练高效的流量平滑控制器,我们构建了快速的、数据驱动的模拟环境,供RL智能体与之交互,学习在保持吞吐量和安全地与人类驾驶员协作的同时,最大化能源效率。

总体而言,一小部分控制良好的自动驾驶汽车(AV)就足以显著改善道路上所有驾驶员的交通流量和燃油效率。此外,训练好的控制器旨在部署在大多数现代车辆上,以去中心化的方式运行,并依赖标准的雷达传感器。在我们最新的论文中,我们探讨了将RL控制器从模拟环境扩展到实地部署的挑战,尤其是在这次100辆汽车的实验中。

幽灵堵车的挑战


一个“走走停停”波在高速公路交通中向后移动。

如果你开车,你肯定经历过“走走停停”波带来的沮丧,那些看似莫名其妙的交通减速,它们凭空出现,然后又突然消失。这些波浪通常是由我们驾驶行为中的微小波动引起的,这些波动通过交通流被放大。我们自然会根据前方的车辆调整速度。如果间距变大,我们会加速跟上;如果它们刹车,我们也会减速。但由于我们存在非零的反应时间,我们可能会比前方的车辆刹车更用力一点。后面的司机也会这样做,这种效应会不断放大。随着时间的推移,最初微不足道的减速演变成了交通中更靠后车辆的完全停车。这些波浪向后传播,由于频繁的加速,导致能源效率大幅下降,同时增加了二氧化碳排放和事故风险。

这并非孤立现象!当交通密度超过临界阈值时,这些波浪在繁忙的道路上无处不在。那么我们如何解决这个问题呢?传统的静态方法,如匝道控制和可变限速,试图管理交通流量,但它们通常需要昂贵的基础设施和集中协调。一个更具可扩展性的方法是使用AV,它们可以实时动态调整驾驶行为。然而,仅仅在人类驾驶员中插入AV是不够的:它们还必须以更智能的方式驾驶,从而为每个人改善交通状况,这就是RL发挥作用的地方。


交通流基本图。道路上的汽车数量(密度)会影响向前移动的交通量(流量)。在低密度下,增加汽车会增加流量,因为更多的车辆可以通过。但超过临界阈值后,汽车开始相互阻碍,导致拥堵,此时增加汽车实际上会减慢整体移动速度。

用于波浪平滑的AV强化学习

RL是一种强大的控制方法,智能体通过与环境的交互来学习最大化奖励信号。智能体通过反复试验收集经验,从错误中学习并随着时间的推移而改进。在我们的案例中,环境是一个混合自动驾驶交通场景,AVs学习驾驶策略来抑制“走走停停”波,并降低自身及附近人类驾驶车辆的燃料消耗。

训练这些RL智能体需要具有逼真交通动态的快速模拟,能够复制高速公路的“走走停停”行为。为实现这一目标,我们利用了从田纳西州纳什维尔附近的24号州际公路(I-24)收集的实验数据,并用它来构建模拟环境,其中车辆重放高速公路轨迹,产生不稳定的交通状况,让后面的AV学习如何将其平滑化。


模拟重放显示出多次“走走停停”波的高速公路轨迹。

我们在设计AV时就考虑了部署因素,确保它们仅使用关于自身和前车的基本传感器信息即可运行。观察结果包括AV的速度、前车的速度以及它们之间的距离间隔。根据这些输入,RL智能体为AV指定瞬时加速度或期望速度。仅使用这些局部测量值的关键优势在于,RL控制器可以以去中心化的方式部署在大多数现代车辆上,而无需额外的基础设施。

奖励设计

最具挑战性的部分是设计一个奖励函数,当最大化该函数时,它能与我们希望AV实现的各种目标保持一致:

  • 波浪平滑:减少“走走停停”的振荡。
  • 能源效率:降低所有车辆的燃料消耗,而不仅仅是AV。
  • 安全:确保合理的跟车距离并避免急刹车。
  • 驾驶舒适性:避免激进的加速和减速。
  • 遵守人类驾驶规范:确保“正常”的驾驶行为,不让周围的司机感到不适。

平衡这些目标是困难的,因为必须找到每个项的合适系数。例如,如果最小化燃料消耗在奖励中占主导地位,RL AVs会学会停在高速公路中间,因为那是能源最优的。为防止这种情况,我们引入了动态的最小和最大间隙阈值,以确保安全合理的行为,同时优化燃油效率。我们还对后方人类驾驶车辆的燃料消耗进行了惩罚,以阻止RL学习一种自私的行为,即以牺牲周围交通为代价来优化AV的能源节约。总的来说,我们的目标是在能源节约与合理安全的驾驶行为之间取得平衡。

模拟结果


动态最小和最大间隙阈值的说明,AV可以在其中自由运行,以尽可能高效地平滑交通。

AVs学习到的典型行为是保持比人类驾驶员稍大的跟车间隙,使它们能够更有效地吸收可能到来的、突然的交通减速。在模拟中,这种方法在最拥堵的情况下,使所有道路使用者的燃料节省高达20%,而道路上只有不到5%的AV。而且这些AVs不需要是特殊的车辆!它们可以是装有智能自适应巡航控制(ACC)的标准消费汽车,这也是我们在规模化测试中验证的。

RL AVs的平滑行为。红色:来自数据集的人类轨迹。蓝色:车队中连续的AV,其中AV 1是最靠近人类轨迹的AV。AV之间通常有20到25辆人类驾驶的汽车。每辆AV减速不如其领航车多,加速也不如其领航车快,从而导致随着时间的推移波幅减小,实现节能。

100辆AV实地测试:将RL大规模部署

在实验周期间,我们的100辆汽车停在我们运营中心。

鉴于模拟结果令人鼓舞,下一步自然是从模拟环境过渡到高速公路。我们将训练好的RL控制器部署在I-24上,在连续几天的高峰交通时段,部署了100辆车。这项被称为MegaVanderTest的大规模实验,是有史以来规模最大的混合自动驾驶交通平滑实验。

在实地部署RL控制器之前,我们对其进行了广泛的模拟训练和评估,并在硬件上进行了验证。总的来说,部署的步骤包括:

  • 数据驱动模拟训练:我们使用I-24的高速公路交通数据创建了一个具有逼真波浪动态的训练环境,然后在一系列新的交通场景中验证了训练好的智能体在性能和鲁棒性方面的表现。
  • 硬件部署:在机器人软件中验证后,训练好的控制器被上传到汽车上,能够控制车辆的设定速度。我们通过车辆的机载巡航控制系统进行操作,该系统充当更低层次的安全控制器。
  • 模块化控制框架:测试中的一个关键挑战是无法直接获取前车的传感器信息。为克服这一障碍,RL控制器被集成到一个分层系统中,即MegaController,该系统结合了考虑下游交通状况的速度规划器指南,并将RL控制器作为最终决策者。
  • 硬件验证:RL智能体被设计为在大多数车辆由人类驾驶的环境中运行,这要求具有能够适应不可预测行为的鲁棒策略。我们通过在仔细的人工监督下在道路上驾驶RL控制的车辆来进行验证,并根据反馈对控制进行调整。
100辆汽车中的每一辆都连接到一个树莓派(Raspberry Pi),RL控制器(一个小型神经网络)部署在上面。
RL控制器直接控制车载自适应巡航控制(ACC)系统,设置其速度和期望的跟车距离。

经验证后,RL控制器被部署到100辆汽车上,并在早高峰时段在I-24上行驶。周围的交通对实验不知情,确保了驾驶员行为的无偏性。实验期间收集的数据来自沿着高速公路放置的几十个高空摄像头,通过计算机视觉流程提取了数百万条单独的车辆轨迹。根据这些轨迹计算出的指标表明,AV周围的燃料消耗有所下降,这与模拟结果和先前较小的验证部署相一致。例如,我们可以观察到,人们在我们的AV后面开得越近,他们平均消耗的燃料似乎就越少(这是使用校准的能量模型计算得出的):


平均燃料消耗与下游交通中最近激活的RL控制AV的距离的关系图。随着人类驾驶员在AV后面保持更远的距离,他们的平均燃料消耗会增加。

衡​​量影响的另一种方法是测量速度和加速度的方差:方差越低,波幅应该越小,这正是在实地测试数据中观察到的现象。总体而言,尽管从大量的摄像头视频数据中获取精确测量很复杂,但我们观察到在受控汽车周围有15%到20%的能源节省趋势。


实验一天中高速公路上所有车辆在速度-加速度空间中的数据点。红色线条左侧的集群代表拥堵,右侧的集群对应于自由流。我们观察到,当AV存在时,拥堵集群变小,其衡量方法是计算软凸包的面积或拟合高斯核。

最后的思考

这次100辆汽车的实地操作测试是去中心化的,AV之间没有明确的合作或通信,这反映了当前的自动驾驶部署现状,使我们离更平稳、更节能的高速公路又近了一步。然而,仍有巨大的改进潜力。将模拟扩展得更快、更准确,并使用更好的人类驾驶模型,对于弥合模拟到现实的差距至关重要。为AV配备额外的交通数据,无论是通过先进的传感器还是集中规划,都可以进一步提高控制器的性能。例如,虽然多智能体RL在改进协作控制策略方面前景广阔,但启用AV之间通过5G网络进行显式通信如何进一步提高稳定性和减轻“走走停停”波,仍然是一个悬而未决的问题。最关键的是,我们的控制器与现有的自适应巡航控制(ACC)系统无缝集成,使得大规模实地部署成为可能。配备智能交通平滑控制的车辆越多,我们道路上看到的波浪就越少,这意味着每个人污染更少,燃料消耗更省!


许多贡献者参与了MegaVanderTest的实现!完整的名单可以在CIRCLES项目页面上找到,其中还有更多关于该项目的详细信息。

阅读更多:[论文]




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区