目 录CONTENT

文章目录

PEVA:基于人类动作预测第一人称视角视频的具身智能世界模型

Administrator
2026-03-26 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:http://bair.berkeley.edu/blog/2025/07/01/peva/

原文作者:BAIR Blog


PEVA模型预览

Predicting Ego-centric Video from human Actions (PEVA)。给定过去的视频帧和指定3D姿态变化的动作,PEVA能够预测下一帧视频。结果显示,通过初始帧和一系列动作序列,该模型可以生成原子动作视频、模拟反事实场景并支持长视频生成。

近年来,能够模拟未来结果以进行规划和控制的世界模型取得了显著进展。从直观物理到多步视频预测,这些模型的功能越来越强大。但很少有模型专为真正的具身智能体设计。为了创建具身智能体的世界模型,我们需要一个在现实世界中行动的真实具身智能体。与抽象控制信号不同,真实的具身智能体拥有复杂的物理基础动作空间。它们必须在多样的现实场景中行动,并具备第一人称视角(Egocentric view),而非美观的固定相机场景。

PEVA概览

为什么实现起来很难?

  • 动作与视觉高度依赖上下文。 相同的视角可能导致不同的移动,反之亦然。这是因为人类在复杂的、具体的、以目标为导向的环境中行动。
  • 人类控制是高维且结构化的。 全身运动跨越48个以上的自由度,并具有分层、依赖时间的动态特性。
  • 第一人称视角揭示了意图但隐藏了身体。 第一人称视觉反映了目标,但没有反映运动执行,模型必须从不可见的物理动作中推断后果。
  • 感知滞后于动作。 视觉反馈通常会延迟几秒,这要求长期的预测和时间推理。

我们做了什么?

方法论

我们训练了一个名为 PEVA 的模型,用于基于人类动作预测第一人称视频(Whole-Body-Conditioned Egocentric Video Prediction)。PEVA根据由身体关节层级结构组成的运动学姿态轨迹进行条件化,学习模拟人类物理动作如何从第一人称视角塑造环境。我们在 Nymeria 数据集上训练了一个自回归条件扩散Transformer,该数据集配对了现实世界的第一人称视频与身体姿态捕捉数据。

方法论

基于运动的结构化动作表示

为了连接人类运动和第一人称视觉,我们将每个动作表示为一个丰富的、高维向量,捕捉全身动态和详细的关节运动。我们使用3个自由度的根节点平移和15个上身关节来编码运动,形成48维动作空间(3 + 15 × 3 = 48)。

PEVA设计:自回归条件扩散Transformer

模型结构

为了处理高维、时间延长且受物理约束的人类动作,我们对CDiT方法进行了三项改进:随机跳帧(Random Timeskips)序列级训练(Sequence-Level Training)以及动作嵌入(Action Embeddings)

规划能力

PEVA可以通过模拟多个候选动作并根据感知相似度(LPIPS)对目标进行打分来执行规划。它能有效排除导致错误路径的动作(如碰到水槽或走到室外),从而找到通往目标的正确路径。

规划示例

未来方向

虽然PEVA在基于全身运动预测第一人称视频方面取得了进展,但这只是迈向具身规划的早期一步。目前的规划局限于模拟候选手臂动作,且缺乏长期的轨迹优化。将PEVA扩展到闭环控制或交互式环境是下一步的关键。未来的工作可以探索将PEVA与高级目标条件及以对象为中心的表示相结合。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区