📢 转载信息
原文作者:Rebecca Bellan
谷歌 DeepMind 从周四开始向美国地区的 Google AI Ultra 订阅用户开放 Project Genie 的访问权限,这是一个可以根据文本提示或图像创建交互式游戏世界的AI工具。
该实验性研究原型由谷歌最新的世界模型 Genie 3、其图像生成模型 Nano Banana Pro 以及 Gemini 共同驱动。
在 Genie 3 研究预览版发布五个月后,此举是 DeepMind 努力收集用户反馈和训练数据的一部分,目的是加速开发出能力更强的世界模型。
世界模型是生成环境内部表征的AI系统,可用于预测未来结果和规划行动。包括 DeepMind 在内的许多AI领导者都认为,世界模型是实现人工通用智能 (AGI) 的关键一步。但在短期内,DeepMind 等实验室设想的上市计划将从视频游戏和其他娱乐形式开始,并扩展到在模拟环境中训练具身智能体(即机器人)。
Project Genie 的发布正值世界模型竞赛升温之际。李飞飞的 World Labs 去年年底发布了其首款商业产品 Marble。AI 视频生成初创公司 Runway 最近也发布了自己的世界模型。前 Meta 首席科学家 Yann LeCun 的初创公司 AMI Labs 也将专注于开发世界模型。
DeepMind 研究总监 Shlomi Fruchter 在接受 TechCrunch 视频采访时表示:“我认为让更多人接触到它并向我们提供反馈,这一点非常令人兴奋。”他在谈到 Project Genie 发布时,脸上洋溢着明显的兴奋之情。
TechCrunch 采访到的 DeepMind 研究人员直言不讳地表示,该工具仍处于实验阶段。它可能不稳定,有时能生成令人印象深刻的可玩世界,但有时也会产生令人困惑、偏离主题的结果。下面是它的工作原理。
您首先需要提供环境和主要角色的文本提示来创建一个“世界草图”(world sketch),之后您可以用第一人称或第三人称视角来操控角色在世界中移动。Nano Banana Pro 会根据提示生成一张图像,理论上您可以在 Genie 使用该图像作为交互式世界的起点之前对其进行修改。修改大多是有效的,但模型偶尔会出现失误,比如要求绿色头发却生成了紫色头发。
您也可以使用真实照片作为模型构建世界的基准,但这同样是好坏参半的结果。(稍后会详述。)
一旦对图像满意,Project Genie 需要几秒钟来创建一个可探索的世界。您还可以通过基于现有世界的提示词进行构建,来混音(remix)现有世界的全新诠释,或者通过图库或随机生成工具探索精选世界以获取灵感。然后,您可以下载您刚刚探索过的世界的视频。
目前,DeepMind 只允许 60 秒的世界生成和导航时间,部分原因是预算和计算资源的限制。由于 Genie 3 是一个自回归模型,它需要大量的专用算力——这给 DeepMind 能够向用户提供的服务设定了严格的上限。
Fruchter 解释说:“我们将其限制在 60 秒的原因是,我们希望将其提供给更多的用户。”他补充说:“基本上,当您使用它时,某个芯片会专门为您当前会话分配资源。”
他补充说,超过 60 秒会削弱测试的增量价值。
“环境很有趣,但由于其交互性水平,环境的动态性在某种程度上是有限的。尽管如此,我们认为这是一个我们将努力改进的局限性。”
奇思妙想可行,写实效果不佳
当我使用该模型时,安全护栏已经启动。我无法生成任何涉及裸露的内容,也无法生成任何与迪士尼或其他受版权保护材料有丝毫关联的世界。(去年 12 月,迪士尼对谷歌发出了停止侵权通知,指控谷歌的 AI 模型通过训练迪士尼的角色和知识产权并生成未经授权的内容等,存在大规模侵犯版权的行为。)我甚至无法让 Genie 生成美人鱼在水下奇幻世界探索或冰雪女王在冬日城堡中的世界。
尽管如此,这次演示还是非常令人印象深刻。我创建的第一个世界是尝试实现一个小小的童年幻想:探索一个由棉花糖构成的云端城堡,城堡周围有巧克力酱河流和糖果树。(是的,我小时候比较胖。)我要求模型以粘土动画风格呈现,它确实呈现了一个充满奇幻色彩的世界,能让童年的我欣喜若狂;城堡的粉彩和白色尖塔看起来蓬松可口,仿佛可以掰下一块浸入巧克力护城河中。(视频见上文。)
话虽如此,Project Genie 仍有一些小问题需要解决。
该模型在根据艺术化的提示词(如水彩、动漫风格或经典卡通美学)创建世界方面表现出色。但当涉及到照片写实或电影感的世界时,它往往会失败,生成的结果更像是视频游戏场景,而不是真实人物在真实环境中的样子。
它对使用真实照片作为输入也不总是反应良好。当我给它一张我的办公室照片并要求它完全根据照片创建一个世界时,它生成了一个具有我办公室部分家具(木桌、植物、灰色沙发)但布局不同的世界。而且它看起来很刻板、很数字化,缺乏生气。
当我向它展示我的办公桌上放着一个毛绒玩具的照片时,Project Genie 动画化了这个玩具在空间中移动的过程,甚至其他物体在它经过时也会偶尔产生反应。
这种交互性是 DeepMind 正在努力改进的地方。有几次,我的角色直接穿过了墙壁或其他固体物体。
当 DeepMind 最初发布 Genie 3 时,研究人员强调了该模型自回归架构使其能够记住它生成的内容,所以我尝试返回它已经生成环境的某些部分,看看是否会保持一致。在大多数情况下,该模型成功了。在一个例子中,我生成了一只猫在探索另一个书桌,只有当我转回到书桌的右侧时,模型才生成了第二个杯子。
我发现最令人沮丧的部分是导航空间的方式:使用箭头键环顾四周,使用空格键跳跃或上升,使用 W-A-S-D 键移动。我不是一个游戏玩家,所以这些操作对我来说并不自然,但按键经常没有反应,或者将我带向错误的方向。试图从房间的一侧走到另一侧的门廊,往往变成了一场混乱的之字形运动,就像试图用一个有缺陷的轮子去推一辆购物车。
Fruchter 向我保证,他的团队已经注意到了这些不足之处,再次提醒我 Project Genie 是一个实验性原型。他表示,未来,该团队希望提高真实感并改善交互能力,包括让用户对动作和环境有更多的控制权。
他说:“我们不认为 [Project Genie] 是人们可以每天回去使用的端到端产品,但我们认为它已经展现出一些有趣、独特且无法以其他方式实现的事物的迹象。”
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区