📢 转载信息
原文链接:https://www.ifanr.com/1641061?utm_source=rss&utm_medium=rss&utm_campaign=
原文作者:莫崇宇
谷歌Veo 3.1重磅升级:AI视频生成进入音频和精细化编辑新纪元
在OpenAI推出Sora 2模型后不久,谷歌迅速跟进,对其AI视频生成模型Veo进行了重大升级,发布了Veo 3.1版本。这次升级涵盖了功能、音频和模型性能的全面提升,旨在让AI视频创作流程更加完整和可控。
音频支持整合:让动态画面拥有声色
Veo 3.1最关键的进步之一,是首次为核心功能注入了音频支持,将声音纳入了创作流程:
- 素材转视频 (Ingredients to Video)
- 帧转视频 (Frames to Video)
- 延展 (Extend)
这意味着用户在通过素材或关键帧生成视频时,也能同步生成匹配的音频,打造出更具沉浸感的完整场景。
模型能力进化:更流畅的视觉体验
在模型层面,Veo 3.1在提示词理解能力和视听质量方面均有显著进步,使得从静态图像到动态视频的转化过程更加自然流畅。
强化编辑能力:更精准的创作掌控
Veo 3.1在继承了Veo 3强大的编辑能力(如角色一致性、首尾帧填充、视频延展)的基础上,进一步增强了用户的细节控制力:
- 素材转视频:用户可用多张参考图定义角色、物体和风格,生成最终场景。
- 帧转视频:提供起始和结束画面,生成无缝过渡,特别适用于需要艺术性转场的项目。
- 延展:可生成超过一分钟的长视频,保持故事连贯性。
此外,Veo 3.1 解决了此前仅支持 720p 横屏输出的限制,现在可以同时生成符合主流消费习惯的16:9横屏和竖屏视频。
Flow 应用中的新增编辑工具
基于Flow应用中超过2.75亿次的视频创作反馈,谷歌还推出了两个重要的编辑功能:
- 插入新元素:允许用户在任意时间点添加内容,系统会自动处理光影,使其自然融入画面。
- 移除对象(即将上线):可删除画面中不需要的元素,系统自动重建背景并保持一致性。
实测对比:商业化视觉更胜一筹
通过对比Sora 2和Veo 3.1的演示,我们可以看到各自的侧重点:
- 细节刻画:在生成玻璃柠檬的例子中,Veo 3.1对“融化闪粉”等细节的刻画更为精准。
- 商业广告:在智能手表广告生成中,Sora 2虽然提供了中文语音解说(理解力更强),但Veo 3.1的画面质量和视觉呈现更具商业感和高级感。
- 特定风格:在吉卜力工作室风格的动漫生成测试中,Veo 3.1的表现相对一般,例如出现角色丢失等穿帮现象,显示出其在特定风格还原上的训练数据仍需加强。
例如,X网友分享的威尔·史密斯吃面测试,Veo 3.1在动作流畅度、光影细节和面部表情的稳定上,质感得到了大幅提升。
▲由 Veo 3 生成的玻璃柠檬示例
结论与展望
总体而言,Veo 3.1在照片级和商业级内容的生成上已达到高度可用水平,细节理解能力显著增强。尽管在高度风格化的领域仍有提升空间,但AI视频模型的迭代速度已超乎想象。
随着这类工具的普及,未来社交媒体和新闻源中的内容,将越来越难以分辨是真实拍摄还是AI生成,这也要求用户对信息来源保持更高的警惕性。
▲由 Sora 2 生成的电商广告示例(使用了中文语音解说)
▲由 Veo 3.1 生成的电商广告(画面质量更高级)
▲由 Sora 2 生成的吉卜力风格动画
▲由 Veo 3.1 生成的动画
目前,Veo 3.1已通过Gemini API向开发者开放,企业用户可在Vertex AI中访问,普通用户也可在Gemini应用内体验。
(文章内视频链接:https://mp.weixin.qq.com/s/qBOkoWaGF5k7oPCR_H5aqA)
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区