目 录CONTENT

文章目录

Sora 2还在纠结5秒?字节AI视频生成技术实现4分钟“起飞”,画面流畅不崩坏!

青云TOP
2025-10-06 / 0 评论 / 0 点赞 / 1 阅读 / 0 字

📢 转载信息

原文链接:https://www.qbitai.com/2025/10/339556.html

原文作者:量子位


Sora 2还在纠结5秒?字节AI视频生成技术实现4分钟“起飞”,画面流畅不崩坏!

从5秒到4分钟,Sora2望尘莫及的分钟级长视频生成,字节AI做到了!

先来看一个前方潜水员拍摄的“真实”海底世界Vlog:

Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

视频链接:https://mp.weixin.qq.com/s/DL8JfT36xwbcs8FnKGttdQ

朋友们,看出来了吗?不同于常见的AI生成视频只有短短几秒钟……这个片子全程1分40秒,全部都是AI生成

这就是字节和UCLA联合提出的新方法——Self-Forcing++,它无需更换模型架构或重新收集长视频数据集,就能轻松生成分钟级长视频,并且不会出现后期画质突然变模糊或画面卡住的“AI感”。

通过利用教师知识和自生成视频片段指导自回归生成,最长生成视频可达4分15秒,而且质量上乘,目前已经开源。

话不多说,再看几个视频效果尝尝鲜。

长达3分钟的无人机视角下的海岸线,效果如下:

Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

视频链接:https://mp.weixin.qq.com/s/DL8JfT36xwbcs8FnKGttdQ

将时长拉到极致,4分15秒跟随大象的脚步纵览草原美景。

Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

视频链接:https://mp.weixin.qq.com/s/DL8JfT36xwbcs8FnKGttdQ

而相同时长下,此前的长视频生成SOTA模型SkyReels做出的效果是这样的:(仿佛开启了“重生之我成为一只蚂蚁”模式)

Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

视频链接:https://mp.weixin.qq.com/s/DL8JfT36xwbcs8FnKGttdQ

Self-Forcing++在短时长上继承了Self-Forcing的高质量画面效果,长时长生成也能实现性能指标全面超越(All kill),视觉稳定性大幅领先CausVid等方法。

或许,AI电影时代离我们已不再遥远……下面我们来深入了解一下。

从5秒到4分15秒:如何实现超长视频生成?

先一起来思考下这个问题:为什么现在的AI视频质量虽然很高,但还是很容易被发现是AI生成的?

其实关键的“漏洞”就在于视频长度

无论是Sora2、字节Wan,还是腾讯混元、谷歌Veo,生成的视频长度通常只有5到10秒

即使勉强做出长视频,往往也只有前几秒能看,后面画面便会全面崩坏。

原因在于,传统的扩散视频生成模型依赖Transformer结构,即使通过双向教师模型将知识蒸馏给学生模型,由于模型本身生成长视频的内在限制,误差也会不断累积。

为此,字节提出了Self-Forcing++方法来抑制后期质量下降,它不再完全依赖长视频教师模型训练,而是让模型在自己的错误中成长,进行自我修正。

Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

首先在视频长度优化上,该方法从噪声初始化、蒸馏方式、缓存机制三方面优化了训练过程:

  • 反向噪声初始化:让学生模型生成远超5秒(实验中使用了100秒)的干净帧序列,再按扩散噪声调度向序列中重新注入噪声。
  • 扩展分布匹配蒸馏:在帧序列生成后,从中随机抽取5秒连续窗口,计算学生与教师模型在窗口内的分布差异(KL散度),然后通过最小化该差异完成训练。
  • 滚动KV缓存训练:在训练与推理阶段均采用滚动KV缓存,训练时用该缓存生成远超教师监督时长的序列,用于扩展DMD(Distribution Matching Distillation)计算。

简单来说,就是让LLM(大型语言模型)在犯错-修正-再犯错的循环中,逐渐学会长时间的稳定生成。

Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

另外,由于自回归模型在使用滑动窗口或稀疏注意力生成长序列时,容易出现长时记忆丢失的情况,还需要引入组相对策略优化(GRPO)来改善视频的平滑性。

该方法通过计算每一步的重要性权重,结合当前自回归生成的对数概率总和,衡量生成策略的合理性,再将相邻帧光流的相对大小作为运动连续性代理指标,引导模型优化,最终可有效减少画面突变和异常。

Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

研究人员同时发现,现有长视频评估所使用的VBench基准并不完全准确,一些过亮的“坏视频”也会被误判为好。

为此,他们将Gemini-2.5-Pro作为评委,让模型按照过曝光、误差积累等维度以0-100分评分,从而能更精准地衡量视觉稳定性(Visual Stability)。

这一点在后续的实验结果中也得到了验证。

兼顾时长与质量的完美平衡

研究人员主要设计了两类场景评估,分别对比该方法与基准模型(包括自回归模型与双向模型)在短时长视频质量长时长生成上的效果。

其中短时长场景(5秒)仍然采用VBench基准,根据946个提示词从16个维度评估生成质量。

Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

结果显示,Self-Forcing++在语义得分(80.37)和总得分(83.11)上均超过NOVA、SkyReels-V2、CausVid等模型,只略低于Wan2.1的总得分84.67。

这表明Self-Forcing++虽然没有专门针对短视频进行训练,但其在短时长场景中仍能保持高视觉质量与语义一致性。

Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

在50秒生成时,视觉稳定性得分为90.94,远超CausVid(40.47)和Self-Forcing(40.12),动态程度更是Self-Forcing得分的1.6倍,文本对齐得分(26.37)也高于多数基准,证明了其在中长时长场景的稳定性。

Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

而在75秒到100秒生成中,文本对齐得分可达26.04、动态程度为54.12,相比CausVid分别提升6.67%和56.4%,相比Self-Forcing则提升18.36%和104.9%。

视觉稳定性得分(84.22)为Self-Forcing(32.03)的2.6倍,且帧级别质量(framewise quality)(60.66)与基准模型相当,说明其在极长时长下仍能保持高保真度和一致性。

Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

长视频生成通常存在的失效模式,如运动停滞、保真度退化,Self-Forcing++均未出现类似情况,视频全程保持连贯运动和稳定亮度及质量。

最终实验验证得出,Self-Forcing++可最长生成4分15秒的视频,比原先的5秒提升近50倍,且在保真度和一致性上优于基线方法

参考链接:
[1]https://self-forcing-plus-plus.github.io/
[2]https://arxiv.org/abs/2510.02283




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。

青云聚合API官网https://api.qingyuntop.top

支持全球最新300+模型:https://api.qingyuntop.top/pricing

详细的调用教程及文档:https://api.qingyuntop.top/about

0

评论区