目 录CONTENT

文章目录

通过人类动作预测自我中心视频(PEVA):面向具身智能体的世界模型

Administrator
2025-12-03 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:http://bair.berkeley.edu/blog/2025/07/01/peva/

原文作者:Berkeley AI Research (BAIR)



预测自我中心视频(PEVA):从人类动作出发 (Predicting Ego-centric Video from human Actions (PEVA))。给定过去的视频帧和一个指定3D姿态所需变化的动作,PEVA预测下一个视频帧。我们的结果表明,给定第一帧和一系列动作,我们的模型可以生成原子动作的视频(a),模拟反事实情景(b),并支持长视频生成(c)。

近年来,世界模型(World Models)在学习模拟未来结果以用于规划和控制方面取得了显著进步。从直观物理到多步视频预测,这些模型的功能性和表现力越来越强。但很少有模型是专为真正的具身智能体设计的。为了创建一个具身智能体世界模型,我们需要一个在真实世界中行动的真实具身智能体。真实的具身智能体拥有物理基础的复杂动作空间,而不是抽象的控制信号。它们还必须在多样化的现实场景中行动,并具有自我中心视角,而不是专注于美学场景和固定摄像机。

💡 提示:点击任何图像可查看全分辨率版本。

为什么这很难

  • 动作与视觉高度依赖于上下文。 相同的视图可能导致不同的运动,反之亦然。这是因为人类在复杂的、具身的、以目标为导向的环境中行动。
  • 人类控制是高维且结构化的。 全身运动跨越 48 个以上的自由度,具有分层、时间依赖的动力学。
  • 自我中心视角揭示意图但隐藏身体。 第一人称视觉反映了目标,但没有反映运动执行,模型必须从不可见的物理动作中推断后果。
  • 感知滞后于动作。 视觉反馈通常会延迟几秒钟,这需要长程预测和时间推理。

为了开发具身智能体的世界模型,我们必须将方法建立在满足这些标准的智能体之上。人类通常先看后行动——我们的眼睛锁定目标,大脑对结果进行简短的视觉“模拟”,然后身体才会移动。在每时每刻,我们的自我中心视角既是环境的输入,也反映了下一个动作的意图/目标。当我们考虑身体运动时,我们应该同时考虑脚的动作(移动和导航)和手的动作(操作),或者更一般地,全身控制。

我们做了什么?

我们训练了一个模型来从人类动作中Predict Ego-centric Video (PEVA),实现了全身体姿态条件下的自我中心视频预测。PEVA以身体关节层次结构化的运动学姿态轨迹为条件,学习模拟物理人类动作如何从第一人称视角影响环境。我们在 Nymeria 上训练了一个自回归条件扩散 Transformer,这是一个大型数据集,将真实世界的自我中心视频与身体姿态捕捉配对。我们的分层评估协议测试了日益具有挑战性的任务,为模型的具身预测和控制能力提供了全面的分析。这项工作是对通过人类视角视频预测来模拟复杂现实世界环境和具身智能体行为的初步尝试。

方法

源自运动的结构化动作表示

为了弥合人类运动与自我中心视觉之间的鸿沟,我们将每个动作表示为一个丰富的、高维的向量,它捕获了全身动力学和详细的关节运动。我们没有使用简化的控制,而是根据身体的运动学树对全局平移和相对关节旋转进行编码。运动在 3D 空间中表示,其中根部平移有 3 个自由度,上身关节有 15 个。使用欧拉角表示相对关节旋转,产生一个 48 维的动作空间(3 + 15 × 3 = 48)。运动捕捉数据使用时间戳与视频对齐,然后从全局坐标转换为骨盆为中心的局部坐标系,以实现位置和方向的不变性。所有位置和旋转都经过标准化以确保学习稳定。每个动作都捕获了帧间的运动变化,使模型能够随着时间的推移将物理运动与视觉后果联系起来。

PEVA 的设计:自回归条件扩散 Transformer


虽然“导航世界模型”(Navigation World Models)中的条件扩散 Transformer (CDiT) 使用简单的控制信号(如速度和旋转),但对全身人类运动进行建模提出了更大的挑战。人类动作是高维的、时间上延伸的,并且受到物理约束。为了应对这些挑战,我们在三个方面扩展了 CDiT 方法:

  • 随机时间跳跃 (Random Timeskips):使模型能够学习短期运动动力学和长期活动模式。
  • 序列级训练 (Sequence-Level Training):通过对每个帧前缀应用损失来对整个运动序列进行建模。
  • 动作嵌入 (Action Embeddings):将时间 t 的所有动作连接成一个 1D 张量,以对每个 AdaLN 层进行条件化,以处理高维度的全身运动。

采样和前滚策略

在测试时,我们通过以一组过去的上下文帧为条件来生成未来的帧。我们使用 VAE 编码器将这些帧编码成潜在状态,并向目标帧添加噪声,然后使用我们的扩散模型对其进行逐步去噪。为了加快推理速度,我们限制了注意力机制,其中图像内注意力仅应用于目标帧,上下文交叉注意力仅应用于最后一帧。对于动作条件预测,我们使用自回归前滚策略。从上下文帧开始,我们使用 VAE 编码器对它们进行编码,并附加当前动作。然后模型预测下一帧,将其添加到上下文中,同时丢弃最旧的一帧,并对序列中的每个动作重复此过程。最后,我们使用 VAE 解码器将预测的潜在表示解码成像素空间。

原子动作

我们将复杂的人类运动分解为原子动作——例如手部动作(上、下、左、右)和全身动作(前移、旋转)——以测试模型对特定关节级运动如何影响自我中心视角的理解。我们在这里提供了一些样本:

身体运动动作

向前移动 (Move Forward)
向左旋转 (Rotate Left)
向右旋转 (Rotate Right)

左手动作

左手向上移动 (Move Left Hand Up)
左手向下移动 (Move Left Hand Down)
左手向左移动 (Move Left Hand Left)
左手向右移动 (Move Left Hand Right)

右手动作

右手向上移动 (Move Right Hand Up)
右手向下移动 (Move Right Hand Down)
右手向左移动 (Move Right Hand Left)
右手向右移动 (Move Right Hand Right)

长序列前滚

在这里,您可以看到模型能够在延长的预测范围内保持视觉和语义一致性的能力。我们展示了一些 PEVA 根据全身运动生成连贯的 16 秒前滚的样本。我们在此处包含了一些视频样本和图像样本供您仔细查看:

序列 1
序列 2
序列 3

规划

PEVA 可用于规划,通过模拟多个动作候选并将它们根据其与目标的感知相似性(由 LPIPS 测量)进行评分。


在此示例中,它排除了通往水槽或户外的路径,找到了打开冰箱的正确路径。


在此示例中,它排除了通往抓取附近植物和去厨房的路径,同时找到了通往架子的合理动作序列。

实现视觉规划能力

我们根据“导航世界模型”[arXiv:2412.03572] 中介绍的方法,将规划制定为能量最小化问题,并使用交叉熵法 (CEM) 进行动作优化。具体来说,我们优化左臂或右臂的动作序列,同时保持身体其他部位固定。下面显示了由此产生的计划的代表性示例:


在这种情况下,我们能够预测一个抬起右臂以接触搅拌棒的动作序列。我们看到了我们方法的局限性,因为我们只预测右臂,所以我们没有预测相应地向下移动左臂。


在这种情况下,我们能够预测一个伸手去拿水壶的动作序列,但并未像目标中那样完全抓住它。


在这种情况下,我们能够预测一个向内拉动左臂的动作序列,类似于目标。

定量结果

我们根据多个指标评估 PEVA,以证明其从全身动作生成高质量自我中心视频的有效性。我们的模型在感知质量方面始终优于基线,在较长时间范围内保持一致性,并显示出与模型规模相关的良好扩展特性。

基线感知指标

不同模型下的基线感知指标比较。

原子动作性能

模型在生成原子动作视频方面的比较。

FID 比较

不同模型和时间范围的 FID 比较。

扩展性

PEVA 具有良好的扩展能力。更大的模型带来更好的性能。

未来方向

我们的模型在从全身运动预测自我中心视频方面显示出有希望的结果,但它仍然是迈向具身规划的早期一步。规划仅限于模拟候选手臂动作,缺乏长程规划和完整轨迹优化。将 PEVA 扩展到闭环控制或交互式环境是关键的下一步。该模型目前缺乏对任务意图或语义目标的显式条件。我们的评估使用图像相似性作为代理目标。未来的工作可以利用将 PEVA 与高层目标条件和以物体为中心的表示集成相结合。

致谢

作者感谢 Rithwik Nukala 在原子动作注释方面的帮助。我们感谢 Katerina FragkiadakiPhilipp KrähenbühlBharath HariharanGuanya ShiShubham TulsianiDeva Ramanan 提出的有益建议和反馈,以改进论文;感谢 Jianbo Shi 关于控制理论的讨论;感谢 Yilun Du 在扩散强加(Diffusion Forcing)方面的支持;感谢 Brent Yi 在人类运动相关工作方面的帮助,并感谢 Alexei Efros 关于世界模型的讨论和辩论。这项工作部分得到了 ONR MURI N00014-21-1-2801 的支持。


了解更多详情,请阅读完整论文或访问项目网站




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区