📢 转载信息

原文链接：https://www.ifanr.com/1641061?utm_source=rss&utm_medium=rss&utm_campaign=

原文作者：莫崇宇

谷歌Veo 3.1重磅升级：AI视频生成进入音频和精细化编辑新纪元

在OpenAI推出Sora 2模型后不久，谷歌迅速跟进，对其AI视频生成模型Veo进行了重大升级，发布了Veo 3.1版本。这次升级涵盖了功能、音频和模型性能的全面提升，旨在让AI视频创作流程更加完整和可控。

音频支持整合：让动态画面拥有声色

Veo 3.1最关键的进步之一，是首次为核心功能注入了音频支持，将声音纳入了创作流程：

这意味着用户在通过素材或关键帧生成视频时，也能同步生成匹配的音频，打造出更具沉浸感的完整场景。

在模型层面，Veo 3.1在提示词理解能力和视听质量方面均有显著进步，使得从静态图像到动态视频的转化过程更加自然流畅。

Veo 3.1在继承了Veo 3强大的编辑能力（如角色一致性、首尾帧填充、视频延展）的基础上，进一步增强了用户的细节控制力：

此外，Veo 3.1 解决了此前仅支持 720p 横屏输出的限制，现在可以同时生成符合主流消费习惯的16:9横屏和竖屏视频。

基于Flow应用中超过2.75亿次的视频创作反馈，谷歌还推出了两个重要的编辑功能：

通过对比Sora 2和Veo 3.1的演示，我们可以看到各自的侧重点：

例如，X网友分享的威尔·史密斯吃面测试，Veo 3.1在动作流畅度、光影细节和面部表情的稳定上，质感得到了大幅提升。

▲由 Veo 3 生成的玻璃柠檬示例

总体而言，Veo 3.1在照片级和商业级内容的生成上已达到高度可用水平，细节理解能力显著增强。尽管在高度风格化的领域仍有提升空间，但AI视频模型的迭代速度已超乎想象。

随着这类工具的普及，未来社交媒体和新闻源中的内容，将越来越难以分辨是真实拍摄还是AI生成，这也要求用户对信息来源保持更高的警惕性。

▲由 Sora 2 生成的电商广告示例（使用了中文语音解说）

▲由 Veo 3.1 生成的电商广告（画面质量更高级）

▲由 Sora 2 生成的吉卜力风格动画

▲由 Veo 3.1 生成的动画

目前，Veo 3.1已通过Gemini API向开发者开放，企业用户可在Vertex AI中访问，普通用户也可在Gemini应用内体验。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。