目 录CONTENT

文章目录

谷歌发布重磅更新!Veo 3.1重塑AI视频生成,功能、音频与编辑能力全面升级

Administrator
2025-10-17 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://www.ifanr.com/1641061?utm_source=rss&utm_medium=rss&utm_campaign=

原文作者:莫崇宇


谷歌Veo 3.1重磅升级:AI视频生成进入音频和精细化编辑新纪元

在OpenAI推出Sora 2模型后不久,谷歌迅速跟进,对其AI视频生成模型Veo进行了重大升级,发布了Veo 3.1版本。这次升级涵盖了功能、音频和模型性能的全面提升,旨在让AI视频创作流程更加完整和可控。

音频支持整合:让动态画面拥有声色

Veo 3.1最关键的进步之一,是首次为核心功能注入了音频支持,将声音纳入了创作流程:

  • 素材转视频 (Ingredients to Video)
  • 帧转视频 (Frames to Video)
  • 延展 (Extend)

这意味着用户在通过素材或关键帧生成视频时,也能同步生成匹配的音频,打造出更具沉浸感的完整场景。

模型能力进化:更流畅的视觉体验

在模型层面,Veo 3.1在提示词理解能力视听质量方面均有显著进步,使得从静态图像到动态视频的转化过程更加自然流畅。

Veo 3.1更新的示例图片

强化编辑能力:更精准的创作掌控

Veo 3.1在继承了Veo 3强大的编辑能力(如角色一致性、首尾帧填充、视频延展)的基础上,进一步增强了用户的细节控制力:

  1. 素材转视频:用户可用多张参考图定义角色、物体和风格,生成最终场景。

素材转视频功能演示

  1. 帧转视频:提供起始和结束画面,生成无缝过渡,特别适用于需要艺术性转场的项目。

帧转视频功能演示

  1. 延展:可生成超过一分钟的长视频,保持故事连贯性。

视频延展功能演示

此外,Veo 3.1 解决了此前仅支持 720p 横屏输出的限制,现在可以同时生成符合主流消费习惯的16:9横屏和竖屏视频。

Flow 应用中的新增编辑工具

基于Flow应用中超过2.75亿次的视频创作反馈,谷歌还推出了两个重要的编辑功能:

  • 插入新元素:允许用户在任意时间点添加内容,系统会自动处理光影,使其自然融入画面。
  • 移除对象(即将上线):可删除画面中不需要的元素,系统自动重建背景并保持一致性。

Flow新增编辑功能示意图

实测对比:商业化视觉更胜一筹

通过对比Sora 2和Veo 3.1的演示,我们可以看到各自的侧重点:

  • 细节刻画:在生成玻璃柠檬的例子中,Veo 3.1对“融化闪粉”等细节的刻画更为精准。
  • 商业广告:在智能手表广告生成中,Sora 2虽然提供了中文语音解说(理解力更强),但Veo 3.1的画面质量和视觉呈现更具商业感和高级感。
  • 特定风格:在吉卜力工作室风格的动漫生成测试中,Veo 3.1的表现相对一般,例如出现角色丢失等穿帮现象,显示出其在特定风格还原上的训练数据仍需加强。

Veo 3.1生成对比图

例如,X网友分享的威尔·史密斯吃面测试,Veo 3.1在动作流畅度、光影细节和面部表情的稳定上,质感得到了大幅提升。

威尔·史密斯吃面测试

▲由 Veo 3 生成的玻璃柠檬示例

结论与展望

总体而言,Veo 3.1在照片级和商业级内容的生成上已达到高度可用水平,细节理解能力显著增强。尽管在高度风格化的领域仍有提升空间,但AI视频模型的迭代速度已超乎想象。

随着这类工具的普及,未来社交媒体和新闻源中的内容,将越来越难以分辨是真实拍摄还是AI生成,这也要求用户对信息来源保持更高的警惕性。

电商广告对比图

▲由 Sora 2 生成的电商广告示例(使用了中文语音解说)

Veo 3.1生成的电商广告

▲由 Veo 3.1 生成的电商广告(画面质量更高级)

动漫生成对比图

▲由 Sora 2 生成的吉卜力风格动画

Veo 3.1生成的动画(风格还原度一般)

▲由 Veo 3.1 生成的动画

目前,Veo 3.1已通过Gemini API向开发者开放,企业用户可在Vertex AI中访问,普通用户也可在Gemini应用内体验。

Veo 3.1应用界面

(文章内视频链接:https://mp.weixin.qq.com/s/qBOkoWaGF5k7oPCR_H5aqA




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区