目 录CONTENT

文章目录

重磅升级!谷歌Veo 3.1发布,首次支持音频,编辑功能更强,与Sora 2展开激烈竞争

Administrator
2025-10-17 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://www.ifanr.com/1641061?utm_source=rss&utm_medium=rss&utm_campaign=

原文作者:莫崇宇


# 谷歌发布Veo 3.1:全面升级,首次集成音频,视频生成进入新纪元 OpenAI 前不久刚推出了 Sora 2 视频生成模型,声势浩大。紧随其后,谷歌也对其视频生成模型 Veo 进行了重大升级,发布了 Veo 3.1 版本,带来了多项关键改进。 ## 功能层面:音频融入创作流程 Veo 3.1 的升级主要体现在两个方面:功能完善和模型进步。 首先,在功能层面,视频编辑能力得到了显著强化。用户现在可以对视频片段进行更精细的调整,从而对最终画面拥有更精准的掌控力。 更重要的是,谷歌首次为「素材转视频(Ingredients to Video)」、「帧转视频(Frames to Video)」和「延展(Extend)」这些功能加入了音频支持,使得音频元素正式融入到创作流程中,帮助用户打造更具沉浸感的完整场景。 ## 模型进步:视听质量与理解力提升 在模型层面,Veo 3.1 在提示词理解和视听质量这两项关键指标上都有了明显提升,使得从图像到视频的转化过程更加自然流畅。 Veo 3 原本就具备强大的编辑能力,例如通过参考图像指导角色生成、用首尾两帧填充中间内容、以及基于视频末尾继续延展等操作。 Veo 3.1 在这些功能基础上全面加入了音频支持。谷歌表示,这些新功能目前仍处于实验阶段,并将根据用户反馈持续优化迭代。 **Veo 3.1 的核心应用场景包括:** 1. **素材定义角色风格:** 使用多张参考图像定义角色、物体和风格,生成最终场景。 2. **无缝转场填充:** 提供起始和结束画面,让「帧转视频」功能在中间生成平滑过渡,尤其适用于需要艺术性转场的项目。 3. **生成超长视频:** 「延展」功能可生成超过一分钟的内容,基于前一段继续生成,确保故事的连贯性。 此外,针对当前互联网主流的内容消费习惯,Veo 3.1 不再局限于 720p 横屏输出,**现在也可同时生成符合 16:9 比例的横屏和竖屏视频**。 ## Flow 应用中的精细化编辑工具 自今年 5 月推出以来,用户已在 Flow 应用中创作了超过 2.75 亿个视频。基于用户反馈,Flow 新增了两个强大的编辑功能: * **「插入新元素」**:用户可以随时添加内容,Flow 会自动处理阴影和光线,使新增部分自然融入原有画面。 * **「移除对象」**(即将上线):可以删除不需要的元素,Flow 会自动重建背景以保持一致性。 这两个工具的组合极大地增强了视频编辑的灵活性。 目前,Veo 3.1 模型已上线,开发者可通过 Gemini API 使用,企业用户可在 Vertex AI 访问,普通用户也可在 Gemini 应用内体验。 ## 实际体验对比:视觉质量胜出,风格还原有待提高 我们体验了 Veo 的几个实用应用场景,例如之前爆火的 ASMR 切水果、夜视监控等视频,都是基于 Veo 3 生成的。 **测试一:玻璃柠檬** 在生成玻璃柠檬的例子中,提示词要求表现“融化的闪粉”。Veo 3 的输出已经可用,而 **Veo 3.1 对“融化闪粉”的细节刻画更为精准**。 **测试二:电商广告** 我们让模型生成一段智能手表 X2 的电商广告。Sora 2 表现出色的理解力,使用了中文语音解说商品信息。而 Veo 3.1 仅简单配乐,但在**视觉呈现上,Veo 3.1 显得更高级、更具商业感**。 **测试三:动漫风格** 在动漫生成方面,Veo 3.1 的表现相对一般。在模仿吉卜力工作室风格时,不仅与精致动画风格存在差距,还出现了对象(如狗)莫名消失的穿帮现象,显示其在风格化训练数据上仍有不足。 X 网友分享的威尔·史密斯吃面测试 Demo 显示,Veo 3.1 在动作流畅度和光影细节上有了明显提升,表情也更加丰富,没有出现模型崩坏的情况。 **总结** 综合来看,Veo 3.1 在照片级、商业级的内容生成上已经达到了可用水平,细节理解能力显著增强。然而,在需要高度风格约束的领域(如动漫、插画),仍有较大的优化空间。 从 Veo 3 到 Veo 3.1,以及 Sora 到 Sora 2,AI 视频生成模型的迭代速度令人瞩目。随着这些工具的普及,未来我们在社交媒体、短视频平台乃至新闻源中接触到的内容,很可能都将由 AI 驱动。这意味着,用户未来需要对每一条信息都多加确认:它究竟是真实拍摄,还是 AI 产物。

文章内视频链接:https://mp.weixin.qq.com/s/qBOkoWaGF5k7oPCR_H5aqA




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区