📢 转载信息
原文作者:Ivan Mehta, Rebecca Bellan
随着AI图像和视频生成公司Runway发布其首个世界模型,加入越来越多的初创公司和科技巨头发布世界模型的竞赛中。该公司称,这款名为GWM-1的模型通过逐帧预测工作,创建了一个理解物理学和世界随时间变化行为的模拟。
世界模型是一种AI系统,它学习世界如何运作的内部模拟,这样它就可以进行推理、规划和行动,而无需对现实生活中每一种可能的情况进行训练。
Runway在本月早些时候发布了Gen 4.5 视频模型,该模型在Video Arena排行榜上超越了谷歌和OpenAI。Runway表示,其GWM-1世界模型比谷歌的Genie-3和其他竞争对手的模型更加“通用”。该公司将其定位为可以为机器人和生命科学等不同领域的智能体创建训练模拟的模型。
该公司首席技术官Anastasis Germanidis在直播中表示:“要构建一个世界模型,我们首先需要构建一个非常出色的视频模型。我们相信,构建世界模型的正确途径是直接教会模型预测像素,这是实现通用模拟的最佳方式。在足够的规模和正确的数据下,你可以构建一个对世界运作方式有足够理解的模型。”
Runway发布了该世界模型(GWM-1)的特定版本,称为GWM-Worlds、GWM-Robotics和GWM-Avatars。
GWM-Worlds是该模型的一个应用程序,可让用户创建交互式项目。用户可以通过提示词或图像参考设置场景,当用户探索空间时,模型会生成具有几何、物理和光照理解的世界。该公司提到,该模拟以24 fps和720p分辨率运行。Runway表示,虽然Worlds可用于游戏,但它也非常适合训练智能体如何在物理世界中导航和表现。
对于GWM-Robotics,该公司旨在利用通过新参数(如变化的恶劣天气条件或障碍物)丰富过的合成数据。Runway表示,这种方法还可以揭示机器人在不同场景下何时以及如何违反政策和指令。
Runway也在通过GWM-Avatars构建逼真的虚拟形象,以模拟人类行为。像D-ID、Synthesia、Soul Machines甚至谷歌等公司都在致力于创建看起来真实并在通信和培训等领域发挥作用的真人虚拟形象。
该公司指出,从技术上讲,Worlds、Robotics和Avatars是独立模型,但最终计划将它们全部合并为一个模型。
除了发布新的世界模型外,该公司还在更新本月早些时候发布的基础模型Gen 4.5。此次更新为该模型带来了原生音频和长篇、多镜头生成功能。该公司表示,使用该模型,用户可以从各种角度生成具有角色一致性、原生对话、背景音频和复杂镜头的一分钟视频。该公司还提到,用户可以编辑现有音频并添加对话,此外,还可以编辑任何长度的多镜头视频。
Gen 4.5的更新使Runway更接近竞争对手Kling的一体化视频套件(Kling也在本月早些时候发布),特别是在原生音频和多镜头叙事方面。这也表明视频生成模型正从原型转向生产就绪的工具。Runway更新后的Gen 4.5模型已对所有付费套餐用户开放。
该公司表示,将通过SDK提供GWM-Robotics。它补充说,目前正与几家机器人公司和企业积极洽谈GWM-Robotics和GWM-Avatars的使用事宜。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区