重磅升级！谷歌Veo 3.1发布，首次支持音频，编辑功能更强，与Sora 2展开激烈竞争-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://www.ifanr.com/1641061?utm_source=rss&utm_medium=rss&utm_campaign=

原文作者：莫崇宇

# 谷歌发布Veo 3.1：全面升级，首次集成音频，视频生成进入新纪元 OpenAI 前不久刚推出了 Sora 2 视频生成模型，声势浩大。紧随其后，谷歌也对其视频生成模型 Veo 进行了重大升级，发布了 Veo 3.1 版本，带来了多项关键改进。 ## 功能层面：音频融入创作流程 Veo 3.1 的升级主要体现在两个方面：功能完善和模型进步。首先，在功能层面，视频编辑能力得到了显著强化。用户现在可以对视频片段进行更精细的调整，从而对最终画面拥有更精准的掌控力。

更重要的是，谷歌首次为「素材转视频（Ingredients to Video）」、「帧转视频（Frames to Video）」和「延展（Extend）」这些功能加入了音频支持，使得音频元素正式融入到创作流程中，帮助用户打造更具沉浸感的完整场景。 ## 模型进步：视听质量与理解力提升在模型层面，Veo 3.1 在提示词理解和视听质量这两项关键指标上都有了明显提升，使得从图像到视频的转化过程更加自然流畅。 Veo 3 原本就具备强大的编辑能力，例如通过参考图像指导角色生成、用首尾两帧填充中间内容、以及基于视频末尾继续延展等操作。 Veo 3.1 在这些功能基础上全面加入了音频支持。谷歌表示，这些新功能目前仍处于实验阶段，并将根据用户反馈持续优化迭代。

**Veo 3.1 的核心应用场景包括：** 1. **素材定义角色风格：** 使用多张参考图像定义角色、物体和风格，生成最终场景。

2. **无缝转场填充：** 提供起始和结束画面，让「帧转视频」功能在中间生成平滑过渡，尤其适用于需要艺术性转场的项目。

3. **生成超长视频：** 「延展」功能可生成超过一分钟的内容，基于前一段继续生成，确保故事的连贯性。

此外，针对当前互联网主流的内容消费习惯，Veo 3.1 不再局限于 720p 横屏输出，**现在也可同时生成符合 16:9 比例的横屏和竖屏视频**。 ## Flow 应用中的精细化编辑工具自今年 5 月推出以来，用户已在 Flow 应用中创作了超过 2.75 亿个视频。基于用户反馈，Flow 新增了两个强大的编辑功能： * **「插入新元素」**：用户可以随时添加内容，Flow 会自动处理阴影和光线，使新增部分自然融入原有画面。 * **「移除对象」**（即将上线）：可以删除不需要的元素，Flow 会自动重建背景以保持一致性。这两个工具的组合极大地增强了视频编辑的灵活性。

目前，Veo 3.1 模型已上线，开发者可通过 Gemini API 使用，企业用户可在 Vertex AI 访问，普通用户也可在 Gemini 应用内体验。

## 实际体验对比：视觉质量胜出，风格还原有待提高我们体验了 Veo 的几个实用应用场景，例如之前爆火的 ASMR 切水果、夜视监控等视频，都是基于 Veo 3 生成的。

**测试一：玻璃柠檬** 在生成玻璃柠檬的例子中，提示词要求表现“融化的闪粉”。Veo 3 的输出已经可用，而 **Veo 3.1 对“融化闪粉”的细节刻画更为精准**。

**测试二：电商广告** 我们让模型生成一段智能手表 X2 的电商广告。Sora 2 表现出色的理解力，使用了中文语音解说商品信息。而 Veo 3.1 仅简单配乐，但在**视觉呈现上，Veo 3.1 显得更高级、更具商业感**。

**测试三：动漫风格** 在动漫生成方面，Veo 3.1 的表现相对一般。在模仿吉卜力工作室风格时，不仅与精致动画风格存在差距，还出现了对象（如狗）莫名消失的穿帮现象，显示其在风格化训练数据上仍有不足。

X 网友分享的威尔·史密斯吃面测试 Demo 显示，Veo 3.1 在动作流畅度和光影细节上有了明显提升，表情也更加丰富，没有出现模型崩坏的情况。

**总结** 综合来看，Veo 3.1 在照片级、商业级的内容生成上已经达到了可用水平，细节理解能力显著增强。然而，在需要高度风格约束的领域（如动漫、插画），仍有较大的优化空间。从 Veo 3 到 Veo 3.1，以及 Sora 到 Sora 2，AI 视频生成模型的迭代速度令人瞩目。随着这些工具的普及，未来我们在社交媒体、短视频平台乃至新闻源中接触到的内容，很可能都将由 AI 驱动。这意味着，用户未来需要对每一条信息都多加确认：它究竟是真实拍摄，还是 AI 产物。

文章内视频链接：https://mp.weixin.qq.com/s/qBOkoWaGF5k7oPCR_H5aqA

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

重磅升级！谷歌Veo 3.1发布，首次支持音频，编辑功能更强，与Sora 2展开激烈竞争

评论区