📢 转载信息
原文链接:https://www.tmtpost.com/7726181.html
原文作者:TMTPOST
李飞飞,World Labs 联合创始人兼CEO(图片来源:彭博社)
TMTPOST讯——斯坦福大学计算机科学教授、被誉为“AI教母”的李飞飞(Fei-Fei Li),近日推出了一个突破性的生成模型,或将重新定义人工智能理解和再现物理世界的方式。
李飞飞初创公司发布RTFM:AI学会了“渲染”
李飞飞的初创公司World Labs于10月17日宣布推出其实时帧模型(Real-Time Frame Model, RTFM)——这是一种端到端在海量视频数据集上进行训练的高效自回归扩散Transformer模型。该模型的核心创新在于,它仅通过一到几张输入图像,无需依赖传统的3D表示,就能从新的视角生成逼真的2D图像。
在业内,RTFM被描述为“学会了渲染(render)的AI”。该系统能够模拟3D几何、反射和阴影等物理现象,甚至能仅凭有限的图像数据重建真实世界环境。
根据李飞飞的介绍,RTFM只需使用单个NVIDIA H100 GPU,即可实时生成持久、3D一致性的场景,为真实和虚拟空间中的交互体验铺平了道路。
李飞飞的团队在随附的文章中写道:“优雅、可扩展的方法最终将在AI领域胜出。生成式世界模型非常适合受益于数十年来推动技术进步的计算成本的指数级下降。”
空间智能与世界模型的融合:通往AGI的关键路径
前谷歌资深工程师Rui Diao指出,RTFM的最新突破有效地解决了长期困扰世界模型的扩展性挑战。
空间智能(Spatial Intelligence)是指人类或机器在三维空间中感知、理解和交互的能力。这个概念最早由美国心理学家霍华德·加德纳(Howard Gardner)在其多智力理论中提出,描述了大脑对外部空间世界建立心智模型并进行操作的能力。
空间智能使个体能够进行三维思考,感知内外图像,并对这些图像进行重建、转换或修改。这使得人们能够轻松地在环境中导航、随意操作物体,以及生成或解释图形信息。
广义上,空间智能不仅包括空间定向,还包括视觉辨别和视觉推理。对于机器而言,它指的是在三维空间中处理视觉数据、做出准确预测并据此采取行动的能力。这使得AI系统能够在复杂的3D环境中运行和决策,克服了传统2D感知的局限性。
李飞飞强调,视觉能力引发了“寒武纪大爆发”,而神经系统的进化催生了智能。“我们想要的AI是能够行动的,而不仅仅是看和说。”
随着新一代生成式AI的兴起,空间智能与世界模型的结合已成为通往通用人工智能(AGI)的关键路径。先进的世界模型能够实时重建、生成和模拟持久、交互式且物理准确的环境,有望彻底改变从软件到机器人的各个行业。
RTFM的三大核心优势:效率、可扩展性与持久性
李飞飞及其团队认为,空间智能和世界模型是克服AI技术壁垒的关键工具。与现有技术相比,他们的目标是在保持世界模型性能的同时,更高效地降低GPU资源需求并实现实时交互。
在当前的视频架构下,生成一个每秒60帧的4K交互式流媒体,每秒需要超过10万个Token——大致相当于《弗兰肯斯坦》或第一本《哈利·波特》小说的长度。若维持一小时,将需要处理超过1亿个上下文Token,这在当今的基础设施下既不切实际也缺乏经济效益。
为了解决这个问题,李飞飞与学者Ben Mildenhall、Justin Johnson和Christoph Lassner于2025年3月共同创立了World Labs,并开发了RTFM,它提供了三个核心优势:效率(Efficiency)、可扩展性(Scalability)和持久性(Persistence)。
- 效率:单张NVIDIA H100 GPU即可支持交互式的、帧率的推理。
- 可扩展性:通过其端到端架构实现,该架构可以随着数据和计算能力的增长而持续优化。
- 持久性:通过姿态感知帧空间记忆和上下文调度确保,使世界场景“永不褪色”,从而在模拟环境中实现长期、一致的交互。
公司融资与未来展望:构建空间智能大模型LWM
今年9月,World Labs宣布在由a16z、NEA和Radical Ventures领投的融资轮中筹集了2.3亿美元。AMD、Adobe、Databricks、Shinrai Investments LLC以及英伟达(NVIDIA)的风险投资部门(由CEO黄仁勋领导)也参与了本轮投资。
该公司目前约有24名员工,包括四位联合创始人(其中有李飞飞),团队中约三分之一具有华裔血统。据公开报道,World Labs成立仅三个月后估值就达到了10亿美元。
展望未来,投资者表示,李飞飞的团队将首先开发一个空间智能大模型LWM,旨在深入理解三维、物理、空间和时间概念。该模型预计将支持增强现实(AR)应用,随后应用于机器人技术,以改进自动驾驶汽车、自动化工厂和人形机器人。
李飞飞表示,团队目标是在2025年尽早推出首个产品,但也承认从商业模式到技术边界仍面临诸多挑战。“我们仍处于非常早期的阶段,”她说,“但我们相信我们的团队将克服这些挑战。”
Behavior 1K:对标ImageNet的机器人学习新基准
与此同时,李飞飞还在开发“行为”(Behavior)视觉挑战竞赛,旨在复制ImageNet的成功——ImageNet帮助催化了深度学习革命和更广泛的AI热潮。因此,李飞飞被广泛认为是“赋予AI真正理解世界能力”的推动力之一。
Behavior的灵感来源于机器人学习中的三大挑战:缺乏标准化任务,使得研究难以比较;缺乏统一的任务框架,许多任务短期且范围有限;以及训练数据短缺。
今年10月,李飞飞正式发布了Behavior 1K,也被称为“行为1000挑战”(Behavior 1000 Challenge)。这是一个为具身智能和机器人研究设计的综合性模拟基准和训练环境,包含了1000个在日常家庭环境中设置的、需要多步骤完成的长程任务。Behavior提供了一个开源的训练和评估平台,允许全球研究人员在一致的标准下训练算法并比较结果。
李飞飞总结道:“更令我兴奋的是,我们正处于一个文明的转折点:语言、空间、视觉、具身智能及其他AI技术正在融合,并开始真正地改变人类社会。只要我们始终以人为本,这些技术就能成为人类的福祉。”
李飞飞的团队表示,World Labs将继续增强其模型的动态场景模拟和用户交互能力,预计未来更大规模的模型将带来更强大的性能。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区