目 录CONTENT

文章目录

AI教母李飞飞发布革命性模型RTFM:无需3D建模,实时生成逼真世界,定义AI空间智能新时代

Administrator
2025-10-17 / 0 评论 / 0 点赞 / 1 阅读 / 0 字

📢 转载信息

原文链接:https://www.tmtpost.com/7726181.html

原文作者:TMTPOST


AI教母李飞飞发布颠覆性模型RTFM,重塑AI对物理世界的理解与再现

Fei-Fei Li, Co-founder and CEO of World Labs (Image source: Bloomberg)

斯坦福大学计算机科学教授、被誉为“AI教母”的李飞飞,最近推出了一个突破性的生成模型,有望重新定义人工智能理解和再现物理世界的方式。

李飞飞的初创公司World Labs于10月17日宣布了其实时帧模型(RTFM)的发布。这是一种高效的自回归扩散Transformer模型,通过海量视频数据集端到端训练而成。RTFM的核心创新在于,它仅使用一个或少数输入图像,就能生成逼真的2D图像,而无需依赖传统的3D表示。

“学会渲染”的AI:RTFM如何模拟物理世界?

在业内,RTFM被形容为“学会了渲染的AI”。该系统能够模拟3D几何、反射和阴影等物理现象,甚至可以从有限的照片数据中重建真实世界环境。

据李飞飞介绍,RTFM仅需单个NVIDIA H100 GPU就能实时生成持久且与3D一致的场景,为真实和虚拟空间中的交互体验铺平了道路。

李飞飞的团队在配套文章中写道:“优雅、可扩展的方法最终将在AI领域占据主导地位。生成式世界模型非常适合受益于数十年来推动技术进步的计算成本呈指数级下降的趋势。”

前谷歌资深工程师Rui Diao指出,RTFM的最新突破有效地解决了长期以来阻碍世界模型发展的可扩展性挑战。

空间智能:迈向通用人工智能(AGI)的关键

空间智能指的是人类或机器在三维空间中感知、理解和互动的能力。该概念最初由美国心理学家霍华德·加德纳在其多元智能理论中提出,描述了大脑形成外部空间心智模型并对其进行操作的能力。

空间智能使个体能够进行三维思考,感知内外图像,并对这些图像进行重建、转换或修改。这使用户能够轻松导航环境、随意操作物体,并生成或解释图形信息。

广义上,空间智能不仅包括空间定位,还包括视觉辨别和视觉推理。对于机器而言,它指的是在三维空间中处理视觉数据、做出准确预测并据此行动的能力。这使得AI系统能够在复杂的3D环境中运行和决策,克服了传统2D感知的局限性。

李飞飞强调,视觉能力引发了“寒武纪大爆发”,神经系统的进化带来了智能。“我们想要的是能够行动的AI,而不仅仅是能看和能说的AI。”

随着新一代生成式AI的崛起,空间智能与世界模型的结合已成为通往通用人工智能(AGI)的关键途径。先进的世界模型可以实时重建、生成和模拟持久、交互且物理准确的环境,有望彻底改变从软件到机器人的各个行业。

李飞飞和她的团队认为,空间智能和世界模型是克服AI技术障碍的重要工具。与现有技术相比,他们的目标是在保持世界模型性能的同时,更高效地降低GPU资源需求,并实现实时交互。

RTFM的三大核心优势:效率、可扩展性与持久性

在当前的视频架构下,生成60帧/秒的4K交互流每秒需要超过10万个token——大致相当于《弗兰肯斯坦》或第一部《哈利·波特》小说的长度。维持一小时的流媒体将需要处理超过1亿个上下文token,以今天的计算基础设施来看,这既不现实也不经济。

为解决这个问题,李飞飞与学者Ben Mildenhall、Justin Johnson和Christoph Lassner于2025年3月共同创立了World Labs,并开发了RTFM,它提供了三大核心优势:效率可扩展性持久性

效率体现在单个NVIDIA H100 GPU就能支持交互式、帧速率的推理。可扩展性通过其端到端架构实现,该架构可以随着数据和计算能力的增长而持续优化。持久性则通过姿态感知的帧空间内存和上下文调度来确保,使得世界场景“永不褪色”,从而在模拟环境中实现长期、一致的交互。

融资与未来展望

今年9月,World Labs宣布已完成2.3亿美元融资,由a16z、NEA和Radical Ventures领投。AMD、Adobe、Databricks、Shinrai Investments LLC以及由CEO Jensen Huang领导的NVIDIA Ventures的风险投资部门也参与了本轮融资。

该公司约有24名员工,包括四位联合创始人(其中就有李飞飞),团队中约三分之一具有中国血统。公开数据显示,World Labs成立仅三个月后估值就达到了10亿美元。

展望未来,投资者表示,李飞飞的团队将首先开发一个空间智能大模型LWM,旨在深入理解三维、物理、空间和时间概念。该模型预计将支持增强现实(AR)应用,之后应用于机器人、改进自动驾驶汽车、自动化工厂和人形机器人。

李飞飞表示,团队目标是早在2025年就推出首款产品,同时也承认从商业模式到技术边界仍面临诸多挑战。“我们仍处于非常早期的阶段,”她说,“但我们相信我们的团队将克服这些挑战。”

Behavior 挑战赛:AI理解世界的又一里程碑

与此同时,李飞飞还在开发“行为视觉挑战赛”(Behavior visual challenge competition),旨在复制ImageNet的成功(ImageNet曾催化了深度学习革命和更广泛的AI热潮)。因此,李飞飞被广泛认为是“赋予AI真正理解世界能力”的推动力。

Behavior的灵感来源于机器人学习中的三大挑战:缺乏标准化任务(难以比较研究成果)、缺乏统一的任务框架(许多任务过于简短和受限)以及训练数据短缺。

今年10月,李飞飞正式发布了Behavior 1K,也被称为Behavior 1000挑战赛。这是一个用于具身智能和机器人研究的综合性模拟基准和训练环境,包含1000个在日常家居环境中设置的“长时程任务”——即需要多步骤才能完成的真实世界任务。Behavior提供了一个开源的训练和评估平台,允许全球研究人员在一致的标准下训练算法并比较结果。

李飞飞总结道:“更让我兴奋的是,我们正处于文明的转折点:语言、空间、视觉、具身智能等AI技术正在融合,并开始真正改变人类社会。只要我们始终将以人为本放在心上,这些技术就能成为造福人类的力量。”

李飞飞的团队表示,World Labs将继续增强其模型的动态场景模拟和用户交互能力,预计未来更大规模的模型将带来更强大的性能。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区