目 录CONTENT

文章目录

使用强化学习训练扩散模型

Administrator
2026-01-29 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:http://bair.berkeley.edu/blog/2025/03/25/rl-av-smoothing/

原文作者:BAIR


我们向拥堵的繁忙时段高速公路交通中部署了 100 辆由强化学习 (RL) 控制的汽车,旨在为所有人平滑拥堵并降低燃料消耗。我们的目标是解决那些通常没有明确原因、但会导致拥堵和显著能源浪费的 “走走停停”波浪 现象。为了训练高效的流量平滑控制器,我们构建了快速、数据驱动的模拟环境,供 RL 智能体与之交互,学习如何在保持吞吐量和在人类驾驶员周围安全操作的同时,最大限度地提高能源效率。


总体而言,一小部分控制良好的自动驾驶汽车 (AV) 就足以显著改善道路上所有驾驶员的交通流量和燃油效率。此外,所训练的控制器被设计为可在大多数现代车辆上部署,以去中心化的方式运行,并依赖于标准的雷达传感器。在我们 最新的论文中,我们探讨了将 RL 控制器从模拟部署到现场的挑战,即在这次 100 辆车实验中进行的部署。


幽灵堵车的挑战


一个“走走停停”的波浪在高速公路交通中向后移动。

如果您开车,您肯定经历过走走停停波浪带来的沮丧感——那些看似莫名其妙的交通减速,它们凭空出现,然后又突然消失。这些波浪通常是由我们驾驶行为中的微小波动引起的,这些波动随着交通流的传播而被放大。我们会根据前方的车辆自然地调整速度。如果间隙打开,我们会加速跟上;如果他们刹车,我们也会减速。但由于我们有非零的反应时间,我们可能会比前车刹车稍微用力一点。后面的下一个驾驶员也会这样做,这种效应会不断放大。随着时间的推移,最初微不足道的减速在交通后部演变成完全停车。这些波浪会向后穿过车流,由于频繁的加速,导致能源效率显著下降,同时增加了二氧化碳排放和事故风险。


这并非孤立现象!当交通密度超过某个临界阈值时,这些波浪在繁忙的道路上无处不在。那么我们如何解决这个问题呢?传统的斜坡计量和可变限速等方法试图管理交通流量,但它们通常需要昂贵的基础设施和集中协调。一种更具可扩展性的方法是使用 AV,它可以实时动态调整驾驶行为。然而,仅仅在人类驾驶员中插入 AV 是不够的:它们还必须以更智能的方式驾驶,让所有人的交通状况都得到改善,这就是 RL 发挥作用的地方。



交通流的基本图。路上的汽车数量(密度)会影响向前移动的交通量(流量)。在低密度下,增加更多的汽车会增加流量,因为可以通过更多的车辆。但超过某个临界阈值后,汽车开始相互阻碍,导致拥堵,此时增加更多的汽车实际上会减慢整体移动速度。

用于波浪平滑 AV 的强化学习

RL 是一种强大的控制方法,智能体通过与环境的交互来学习最大化奖励信号。智能体通过试错收集经验,从错误中学习,并随着时间的推移而改进。在我们的案例中,环境是一个混合自主交通场景,AV 在其中学习驾驶策略,以抑制“走走停停”波浪,并降低自身和附近人工驾驶车辆的燃料消耗。


训练这些 RL 智能体需要具有逼真交通动态的快速模拟,能够复制高速公路的“走走停停”行为。为此,我们利用了在田纳西州纳什维尔附近的 I-24 上收集的实验数据,并用它来构建模拟环境,在其中车辆重放高速公路轨迹,产生 AV 在其后方学习去平滑的不稳定交通。



模拟重放了一条表现出多个“走走停停”波浪的高速公路轨迹。

我们在设计 AV 时考虑了部署因素,确保它们仅使用关于自身和前方车辆的基本传感器信息即可运行。观测结果包括 AV 的速度、前方车辆的速度以及它们之间的间隙。根据这些输入,RL 智能体为 AV 规定瞬时加速度或期望速度。仅使用这些局部测量值的关键优势在于 RL 控制器可以去中心化地部署在大多数现代车辆上,而无需额外的基础设施。


奖励设计

最具挑战性的部分是设计一个奖励函数,当最大化该函数时,它能与我们希望 AV 实现的各种目标保持一致:

  • 波浪平滑: 减少“走走停停”的振荡。
  • 能源效率: 降低所有车辆(而不仅仅是 AV)的燃料消耗。
  • 安全性: 确保合理的跟车距离并避免突然刹车。
  • 驾驶舒适性: 避免激进的加速和减速。
  • 遵守人类驾驶规范: 确保“正常”的驾驶行为,不让周围的驾驶员感到不适。

将这些目标平衡在一起很困难,因为必须找到每个项的合适系数。例如,如果最小化燃料消耗在奖励中占主导地位,RL AV 会学习在高速公路中间停下来,因为那在能源上是最优的。为防止这种情况发生,我们引入了动态最小和最大间隙阈值,以确保安全和合理的行为,同时优化燃油效率。我们还对 AV 后方人工驾驶车辆的燃料消耗进行了惩罚,以阻止 RL 学习一种自私的行为,即以牺牲周围交通为代价来优化 AV 的节能。


总体而言,我们旨在实现能源节约与合理、安全的驾驶行为之间的平衡。


模拟结果


动态最小和最大间隙阈值的说明,AV 可以在该范围内自由运行,以尽可能高效地平滑交通。

AV 学到的典型行为是保持比人类驾驶员稍大的间隙,使它们能够更有效地吸收可能出现的、突然的交通减速。在模拟中,这种方法在最拥堵的情况下,使所有道路使用者节省了高达 20% 的燃料,而道路上仅有不到 5% 的 AV。而且这些 AV 不必是特殊的车辆!它们可以是配备了智能自适应巡航控制 (ACC) 的标准消费汽车,这也是我们在规模化测试中所做的。


RL AV 的平滑行为。红色:来自数据集的人类轨迹。蓝色:排队车队中连续的 AV,其中 AV 1 是最靠近人类轨迹的。通常在 AV 之间有 20 到 25 辆人工驾驶汽车。每个 AV 的减速幅度或加速幅度都不如其前车剧烈,从而随着时间的推移使波幅减小,并实现节能。

100 辆 AV 现场测试:将 RL 扩展到规模化部署

实验周期间,我们 100 辆车停在我们运营中心的样子。

鉴于模拟结果令人鼓舞,自然而然的下一步是从模拟过渡到高速公路。我们将训练好的 RL 控制器部署在了 I-24 上连续数日早高峰时段的 100 辆车上。这次大规模实验(我们称之为 MegaVanderTest)是有史以来最大规模的混合自主交通平滑实验。


在现场部署 RL 控制器之前,我们对其进行了广泛的模拟训练和评估,并在硬件上进行了验证。总的来说,部署步骤包括:

  • 在数据驱动的模拟中训练: 我们使用 I-24 的高速公路交通数据创建了具有逼真波浪动态的训练环境,然后验证了训练好的智能体在各种新交通场景中的性能和鲁棒性。
  • 硬件部署: 在机器人软件中验证后,训练好的控制器被上传到汽车上,能够控制车辆的设定速度。我们通过车辆的车载巡航控制系统进行操作,该系统充当低层安全控制器。
  • 模块化控制框架: 测试中的一个关键挑战是没有获取前方车辆信息传感器。为克服这一障碍,RL 控制器被集成到一个分层系统中,即 MegaController,该系统结合了考虑下游交通状况的速度规划器指南,并将 RL 控制器作为最终决策者。
  • 硬件验证: RL 智能体被设计为在大多数车辆是人工驾驶的环境中运行,这要求策略具有鲁棒性,能够适应不可预测的行为。我们通过在严密的人工监督下在道路上驾驶 RL 控制的车辆来验证这一点,并根据反馈对控制进行修改。
100 辆车中的每一辆都连接到一台 Raspberry Pi,RL 控制器(一个小型神经网络)部署在上面。
RL 控制器直接控制车载自适应巡航控制 (ACC) 系统,设定其速度和期望的跟车距离。

验证完成后,RL 控制器被部署到 100 辆车上,并在早高峰时段在 I-24 上行驶。周围的交通对实验并不知情,确保了驾驶员行为的无偏性。实验期间,数据是从沿高速公路放置的数十个上方摄像头中收集的,这通过计算机视觉流水线提取了数百万个单独的车辆轨迹。在这些轨迹上计算出的指标表明,AV 周围的燃料消耗呈下降趋势,这与模拟结果和先前较小的验证部署的预期一致。例如,我们可以观察到,人们离我们的 AV 越近,他们平均消耗的燃料就越少(这是使用校准的能量模型计算得出的):



平均燃料消耗与下游交通中最近参与的 RL 控制的 AV 距离的关系图。人类驾驶员离 AV 越远,其平均燃料消耗就越高。

衡 [量] 影响的另一种方法是测量速度和加速度的变化幅度:变化幅度越低,波浪的幅度应该越小,这正是我们在现场测试数据中观察到的。总的来说,尽管从大量的摄像头视频数据中获取精确测量很复杂,但我们观察到在受控车辆周围有 15% 到 20% 的能源节省趋势。



实验某一天所有车辆在速度-加速度空间中的数据点。红色线条左侧的集群代表拥堵,右侧的集群代表自由流动。我们观察到,当存在 AV 时,拥堵集群更小,测量方法是计算软凸包的面积或拟合高斯核。

最后的思考

100 辆车的现场操作测试是去中心化的,AV 之间没有明确的合作或通信,这反映了当前的自主部署现状,使我们离更平滑、更节能的高速公路又近了一步。然而,仍有巨大的改进潜力。将模拟扩展得更快、更准确,并使用更好的人类驾驶模型,对于弥合模拟与现实之间的差距至关重要。为 AV 配备额外的数据,无论是通过先进的传感器还是集中规划,都可以进一步提高控制器的性能。例如,虽然多智能体 RL 在改进协作控制策略方面很有前景,但启用 AV 之间通过 5G 网络进行显式通信是否能进一步提高稳定性和缓解走走停停波浪,仍然是一个悬而未决的问题。至关重要的是,我们的控制器与现有的自适应巡航控制 (ACC) 系统无缝集成,使大规模现场部署成为可能。配备智能交通平滑控制的车辆越多,我们道路上看到的波浪就越少,这意味着为每个人减少污染和节省燃料!



许多贡献者参与了 MegaVanderTest 的实现!完整的名单可在 CIRCLES 项目页面上找到,其中还包含有关该项目的更多详细信息。

阅读更多:[论文]




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区