📢 转载信息
原文作者:Rebecca Bellan
World Labs,这家由AI先驱李飞飞(Fei-Fei Li)创立的初创公司,正在推出其首款商业世界模型产品。这款名为Marble的产品现已通过免费增值(freemium)和付费套餐提供,用户可以使用文本提示、照片、视频、3D布局或全景图将其转化为可编辑、可下载的3D环境。
这款生成式世界模型(于两个月前首次以有限的Beta预览版发布)的推出,正值World Labs在以2.3亿美元融资结束隐秘期一年多后。它使这家初创公司在构建世界模型的竞争对手中处于领先地位。“世界模型”是能够生成环境内部表征的AI系统,可用于预测未来结果和规划行动。
像Decart和Odyssey这样的初创公司已经发布了免费演示,而谷歌的Genie仍处于有限的研究预览阶段。Marble与这些模型(甚至与World Labs自家的实时模型RTFM)的不同之处在于,它创建的是持久的、可下载的3D环境,而不是在用户探索时即时生成世界。公司表示,这减少了变形或不一致的情况,并允许用户将世界导出为高斯斑点(Gaussian splats)、网格(meshes)或视频。
Marble还是首个提供AI原生编辑工具和混合3D编辑器的模型,后者允许用户先勾勒出空间结构,然后由AI填充视觉细节。
World Labs联合创始人Justin Johnson告诉TechCrunch:“这是一种全新的模型类别,正在生成3D世界,而且随着时间的推移,它会变得越来越好。这已经是一个我们改进了许多的东西。”
去年12月,World Labs曾展示其早期模型如何基于单张图片生成交互式3D场景。尽管令人印象深刻,但这些场景有些卡通化,且移动仅限于一个小区域,并存在渲染错误。
在我试用Beta预览版时,我发现Marble仅凭图像提示就能生成令人印象深刻的世界——从类似游戏的场景到我家客厅的写实版本。场景在边缘处有所变形,尽管这据称在今天的正式发布中得到了改进。话虽如此,我之前在Beta版中使用单个提示生成的世界,效果比现在使用相同提示生成的效果更好,也更符合我的预期。
我还没有测试编辑功能,但Johnson表示,这些功能使Marble对近期的游戏、VFX(视觉特效)和虚拟现实(VR)项目具有实用价值。
“我们对Marble的未来发展主题之一是创意控制,”Johnson说。“应该总是有快速生成某物的途径,但你也应该能够深入挖掘,并对你生成的内容获得很大的控制权。你不希望机器完全接管方向盘,把所有的创造力都从你手中夺走。”
Marble对创意控制的理解始于输入灵活性。Beta版只接受单张图像,迫使模型为360度视图“发明”未见到的细节。在正式发布后,用户现在可以上传多张图像或短视频,从不同角度展示一个空间,并让模型生成相当写实的数字孪生体(digital twins)。
然后是Chisel,一个实验性的3D编辑器,允许用户勾勒出粗略的空间布局(想象一下墙壁、盒子或平面),然后添加文本提示来指导视觉风格。Marble生成世界,实现了结构与风格的分离——这类似于HTML提供网站结构而CSS添加颜色。与基于文本的编辑不同,Chisel允许用户直接操作对象。
“我可以直接进入并移动代表沙发的3D块,”Johnson说。
另一个提供更多编辑控制的新功能是扩展世界的能力。
“生成世界后,你可以将其扩展一次,”Johnson说。“当你移动到一个世界开始瓦解的区域时,你可以告诉模型在那里扩展,或者在你当前位置的附近生成更多世界,然后它可以在该区域添加更多细节。”
想要创建极其广阔空间的用户可以将多个世界组合起来,使用“组合模式”(composer mode)。Johnson向我演示了这个功能,他使用了两个已经构建好的世界——一个是由奶酪构成的房间,配有葡萄椅子,另一个是太空中的未来主义会议室。
通往空间智能的路径
Marble有四种订阅级别:免费(文本、图像或全景图生成四次),标准版(每月20美元,12次生成,支持多图像/视频输入和高级编辑),专业版(每月35美元,25次生成,包含场景扩展和商业许可),以及Max版(每月95美元,所有功能和75次生成)。
Johnson认为Marble的初始用例将是游戏、电影视觉特效和虚拟现实。
游戏开发者对这项技术看法不一。最近的游戏开发者大会(GDC)调查显示,三分之一的受访者认为生成式AI对游戏行业有负面影响——比一年前的调查高出12%。知识产权盗窃、能源消耗以及AI生成内容质量下降是人们关注的主要问题。去年,一则Wired调查发现,动视暴雪(Activision Blizzard)等游戏工作室正在利用AI来节省成本和应对人员流失。
在游戏领域,Johnson设想开发人员使用Marble生成背景环境和环境空间,然后将这些资产导入Unity或Unreal Engine等游戏引擎中,添加交互元素、逻辑和代码。
“它不是为了取代整个现有的游戏开发流程,而是为了为你提供可以放入该流程中的资产,”他说。
对于VFX工作,Johnson表示,Marble规避了困扰AI视频生成器的不一致性和糟糕的相机控制问题。他说,其3D资产允许艺术家布景并以帧级精度控制相机运动。
虽然Johnson表示World Labs目前不专注于虚拟现实(VR)应用,但他指出,该行业“急需内容”,并且对此次发布感到“兴奋”(此处)。Marble已经兼容Vision Pro和Quest 3 VR头戴设备,并且所有生成的世界都可以立即在VR中查看。
Marble在机器人技术方面也可能具有潜在用途。Johnson指出,与图像和视频生成不同,机器人技术缺乏大型训练数据集的优势。但有了Marble这样的生成器,模拟训练环境变得更容易。
根据World Labs首席执行官兼联合创始人李飞飞最近的宣言,Marble代表了创建“一个真正具有空间智能的世界模型”的第一步。
李飞飞相信,“下一代世界模型将使机器在全新的层面上实现空间智能。”如果大型语言模型(LLM)可以教会机器读写,那么她希望像Marble这样的系统可以教会它们看和构建。她表示,理解事物在三维空间中的存在和相互作用的能力,最终可以帮助机器在游戏和机器人技术之外,在科学和医学领域取得突破。
李飞飞写道:“我们对真正智能机器的梦想,如果没有空间智能,将无法实现。”
如有敏感消息或机密文件?我们正在报道AI行业的内部运作——从塑造其未来的公司到受其决策影响的人们。请联系Rebecca Bellan,邮箱:rebecca.bellan@techcrunch.com 或Russell Brandom,邮箱:russell.brandom@techcrunch.com。如需安全通讯,您可以通过Signal联系他们,账号分别为 @rebeccabellan.491 和 russellbrandom.49.
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区