从人类动作预测自我中心视频 (PEVA)-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：http://bair.berkeley.edu/blog/2025/07/01/peva/

原文作者：BAIR Blog

从人类动作预测自我中心视频 (PEVA)。给定过去的视频帧和指定所需3D姿态变化的动作，PEVA会预测下一帧视频。我们的结果表明，给定第一帧和一系列动作，我们的模型可以生成原子动作的视频（a），模拟反事实（b），并支持长视频生成（c）。

近年来，世界模型在学习预测未来结果以进行规划和控制方面取得了显著进展。从直觉物理到多步视频预测，这些模型变得越来越强大和富有表现力。但很少有模型是专为真正的具身智能体设计的。为了创建一个具身智能体的世界模型，我们需要一个在真实世界中进行操作的真实具身智能体。一个真实的具身智能体拥有一个物理上基础的复杂动作空间，而不是抽象的控制信号。它们还必须在多样化的现实场景中进行操作，并具有自我中心视角，而不是美学场景和静止摄像头。

💡 提示：点击任何图像可查看全分辨率版本。

为什么这很困难

动作和视觉高度依赖于上下文。 相同的视图可能导致不同的动作，反之亦然。这是因为人类在复杂、具身、目标导向的环境中进行操作。
人类控制是高维且结构化的。 全身运动跨越48个以上的自由度，具有分层、时间依赖的动力学。
自我中心视角揭示意图但隐藏身体。 第一人称视觉反映了目标，但没有反映动作执行，模型必须从不可见的物理动作中推断出后果。
感知滞后于动作。 视觉反馈通常会延迟几秒钟，需要长视距预测和时间推理。

为了开发一个具身智能体的世界模型，我们必须将方法建立在满足这些标准的智能体上。人类通常先看后动——我们的眼睛锁定目标，大脑对结果进行简短的视觉“模拟”，然后身体才会移动。在每时每刻，我们的自我中心视角既是环境的输入，也反映了下一个动作的意图/目标。当我们考虑身体动作时，我们应该同时考虑脚的动作（步态和导航）和手的动作（操作），或者更笼统地说，全身控制。

我们做了什么？

我们训练了一个模型来为全身条件自我中心视频预测（Whole-Body-Conditioned Egocentric Video Prediction）Predict Ego-centric Video from human Actions (PEVA)。PEVA以身体关节层次结构组织的运动学姿态轨迹为条件，学习从第一人称视角模拟物理人类动作如何影响环境。我们在Nymeria上训练了一个自回归条件扩散Transformer，Nymeria是一个大规模数据集，它将真实世界的自我中心视频与身体姿态捕捉数据配对。我们的分层评估协议测试了越来越具有挑战性的任务，提供了对模型具身预测和控制能力的全面分析。这项工作是对通过人类视角视频预测来模拟复杂现实环境和具身智能体行为的初步尝试。

方法

源自运动的结构化动作表示

为了连接人体运动和自我中心视觉，我们将每个动作表示为一个丰富的、高维的向量，该向量捕获了全身动力学和详细的关节运动。我们没有使用简化的控制，而是根据身体的运动学树对全局平移和相对关节旋转进行编码。运动在3D空间中表示，根部平移有3个自由度，上身有15个关节。使用欧拉角表示相对关节旋转，产生一个48维的动作空间（3 + 15 × 3 = 48）。运动捕捉数据使用时间戳与视频对齐，然后从全局坐标转换为以骨盆为中心的局部坐标系，以实现位置和方向的不变性。所有位置和旋转都经过标准化以确保学习稳定。每个动作都捕获了帧间运动变化，使模型能够随着时间的推移将物理运动与视觉后果联系起来。

PEVA的设计：自回归条件扩散Transformer

虽然导航世界模型（Navigation World Models）中的条件扩散Transformer (CDiT) 使用简单的控制信号（如速度和旋转），但对全身人类运动的建模带来了更大的挑战。人类动作是高维的、时间延长的和物理约束的。为了应对这些挑战，我们在三个方面扩展了CDiT方法：

随机时间跳跃 (Random Timeskips)：使模型能够学习短期运动动力学和长期活动模式。
序列级训练 (Sequence-Level Training)：通过对每个帧前缀应用损失来对整个运动序列进行建模。
动作嵌入 (Action Embeddings)：将时间 t 的所有动作连接成一个1D张量，以条件化每个AdaLN层以处理高维全身运动。

采样和前滚策略

在测试时，我们通过以一组过去的上下文帧为条件来生成未来的帧。我们将这些帧编码到潜在状态中，并向目标帧添加噪声，然后使用我们的扩散模型对其进行逐步去噪。为了加速推理，我们限制了注意力机制，其中图像内注意力仅应用于目标帧，上下文交叉注意力仅应用于最后一帧。对于动作条件预测，我们使用自回归前滚策略。从上下文帧开始，我们使用VAE编码器对它们进行编码，并附加当前动作。然后模型预测下一帧，将其添加到上下文中，同时丢弃最旧的帧，然后对序列中的每个动作重复该过程。最后，我们使用VAE解码器将预测的潜在变量解码到像素空间中。

原子动作

我们将复杂的人体运动分解为原子动作——例如手部动作（上、下、左、右）和全身动作（前移、旋转）——以测试模型对特定关节级运动如何影响自我中心视角的理解。我们在此处包含了一些样本：

身体运动动作

前进 (Move Forward)

左转 (Rotate Left)

右转 (Rotate Right)

左手动作

左手上移 (Move Left Hand Up)

左手下移 (Move Left Hand Down)

左手左移 (Move Left Hand Left)

左手右移 (Move Left Hand Right)

右手动作

右上移 (Move Right Hand Up)

右手下移 (Move Right Hand Down)

右手左移 (Move Right Hand Left)

右手右移 (Move Right Hand Right)

长前滚 (Long Rollout)

在这里，您可以看到模型在扩展的预测视界中保持视觉和语义一致性的能力。我们展示了一些PEVA在以全身动作为条件生成连贯的16秒前滚视频的样本。我们在此处包含了一些视频样本和图像样本供您仔细查看：

序列 1

序列 2

序列 3

规划 (Planning)

PEVA可用于规划，方法是模拟多个动作候选，并根据它们与目标的感知相似度（通过LPIPS测量）对它们进行评分。

在这个例子中，它排除了通往水槽或户外的路径，找到了打开冰箱的正确路径。

在这个例子中，它排除了通往抓取附近植物和去厨房的路径，找到了导致货架的合理动作序列。

实现视觉规划能力

我们将规划表述为一个能量最小化问题，并使用交叉熵方法 (CEM) 进行动作优化，遵循导航世界模型 [arXiv:2412.03572] 中介绍的方法。具体来说，我们优化左臂或右臂的动作序列，同时固定身体其他部位。下面展示了由此产生的计划的代表性示例：

在这个案例中，我们能够预测一个抬起右臂去拿搅拌棒的动作序列。我们看到了我们方法的局限性，因为我们只预测右臂，所以我们没有预测相应地放下左臂。

在这个案例中，我们能够预测一个伸手去拿水壶的动作序列，但没有像目标中那样抓住它。

在这个案例中，我们能够预测一个将左臂收回的动作序列，类似于目标。

定量结果

我们根据多个指标评估了PEVA，以证明其从全身动作生成高质量自我中心视频的有效性。我们的模型在感知质量方面持续优于基线，在长时间范围内保持一致性，并显示出随着模型尺寸增加而具有强大的扩展能力。

基线感知指标

不同模型之间的基线感知指标比较。

原子动作性能

模型在生成原子动作视频方面的比较。

FID比较

不同模型和时间范围的FID比较。

扩展性 (Scaling)

PEVA具有良好的扩展能力。更大的模型带来更好的性能。

未来方向

我们的模型在从全身运动预测自我中心视频方面显示出有希望的结果，但这仍然是迈向具身规划的早期一步。规划仅限于模拟候选手臂动作，缺乏长视野规划和完整的轨迹优化。将PEVA扩展到闭环控制或交互式环境是下一步的关键。该模型目前缺乏对任务意图或语义目标的明确条件。我们的评估使用图像相似度作为代理目标。未来的工作可以利用PEVA与高级目标条件和以对象为中心的表示的集成相结合。

致谢

作者感谢Rithwik Nukala在注释原子动作方面提供的帮助。我们感谢Katerina Fragkiadaki、Philipp Krähenbühl、Bharath Hariharan、Guanya Shi、Shubham Tulsiani 和 Deva Ramanan 提供的有益建议和反馈，以改进论文；感谢Jianbo Shi关于控制理论的讨论；感谢Yilun Du在扩散强迫 (Diffusion Forcing) 方面的支持；感谢Brent Yi在人体运动相关工作方面的帮助，并感谢Alexei Efros关于世界模型的讨论和辩论。这项工作部分得到了ONR MURI N00014-21-1-2801的支持。

欲了解更多详情，请阅读完整论文或访问项目网站。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

从人类动作预测自我中心视频 (PEVA)