📢 转载信息
原文链接:https://www.qbitai.com/2025/10/342093.html
原文作者:衡宇
Sora 2不够香了?国产AI视频模型实现“边看边生成”,快人一步的实时互动体验已到来
还在用Sora 2制作恶搞视频或表情包?是时候醒醒了!国内AI视频领域的玩家已经实现了弯道超车——我们迎来了实时流式生成!
这意味着模型推理到哪里,画面就生成到哪里;如果想修改剧情,可以直接暂停,修改指令,视频即可转向新的方向。
换句话说,Sora 2能做到的,它能做;Sora 2做不到的,它也能实现。这才是与AI视频一起“创作”的未来形态答卷——它来自百度蒸汽机(文心专精版)。
百度蒸汽机自5月份问世以来,便以黑马之姿闯入AI生视频赛道,初登场便拿下VBench-I2V全球榜首,成为全球首个实现中文音视频一体化的视频生成模型,并首次实现多人有声视频生成。
这一次的升级,代表着百度对AI视频生成领域的重新定义。当同行还在努力实现“生成10秒稳定、连续的视频画面”时,百度已经率先实现了“生成迅速、实时交互、无限续写”三件套:
- 只需一张图+一个Prompt,生成过程更加流畅自然,在短时间、低成本下仍能保持高质量。
- 支持实时交互,可随时打断视频生成,在任意位置进行提示词的改写。
- 打破了视频生成时长限制,上传任意视频即可续写成长篇影视级大作,并支持实时预览视频内容。
此外,在百度蒸汽机中,用户可以告别以往单向输出的数字人,定制1对1专属数字人,获得沉浸式分身互动体验;它还能任意生成和创造全场景的开放世界,无论是开拓新的游戏地图,还是畅玩全球旅游景点,百度这次,全部实现了。
正如蒸汽机曾经带来的技术革命,百度蒸汽机模型的此次更新,也将标志着AI视频正式从短片段走向长篇叙事,从创意工具走向创意伙伴。
从“图生视频”到“边看边生”:行业首次实现流式生成交互体验
当前主流的AI视频生成模型仍停留在Level 1阶段,即便是风头正盛的Sora 2,通常也只能生成5~10秒的片段。
更重要的是,等待生成结果需要花费时间,短则30秒长则几分钟的等待期内,用户对生成效果一无所知。一旦生成完成,无论是细节修改还是整体风格调整,都无法实时介入,只能选择重来一遍,缺乏“交互感”。
这个过程不仅耗时长,且成本高昂,实时交互修改几乎不可能实现。
这对于短视频尚能应付,但对于长视频则远远不够。即使采用首尾帧拼接技术来拉长时长,视频质量也往往不佳、细节粗糙、缺乏连贯性。

百度蒸汽机的出现,恰好填补了这一空白,让AI视频提前进入了边看边生、实时共创的全新阶段。它不仅在生成速度上领先,生成质量的迭代速度也同样惊人。
首先在生成模式上,它同时支持I2V(图生视频)和V2V(视频生视频)双线发力。
图生视频:一张图+简单指令,生成长视频
图生视频功能将操作门槛降到最低,摒弃了传统的多图+多指令模式,仅需最基础的一张图和一个简单指令,即可生成长视频。
例如,在百度绘想平台选择“长视频”入口,上传一张爱因斯坦的形象照,输入Prompt:
爱因斯坦在舞台上说物理学脱口秀,同时镜头跟随人物变化。
当视频开始生成后,用户可以在旁边的任务结果区实时看到当前生成进展。
一旦发现不满意,可以立即点击“续改”按钮中断生成,将视频帧拖至目标位置,重新下达新的指令,例如让爱因斯坦的动作更丰富,增加手势比划。
一个小知识点:每12秒,生成任务会自动暂停一次,此时需要用户选择继续生成还是结束。
请欣赏以下新鲜出炉的爱因斯坦默剧版脱口秀片段:
视频链接:https://mp.weixin.qq.com/s/s-L7EslLvuN31GT9Olt7sg
如果你不想要无声短片,可以选择蒸汽机2.0有声版,但最长时长会相应缩短到5~10秒。
视频生视频:无限续写,纵享丝滑
百度蒸汽机在视频生视频方面也带来了全新玩法:上传一个2秒到60秒的视频,即可进行内容续写和修改,同样可以实时查看或修改视频内容。
视频链接:https://mp.weixin.qq.com/s/s-L7EslLvuN31GT9Olt7sg
最终续写下来的效果非常丝滑流畅:
视频链接:https://mp.weixin.qq.com/s/s-L7EslLvuN31GT9Olt7sg
此外,蒸汽机在开放世界生成方面表现优异。例如,生成一段月球漫步场景:
视频链接:https://mp.weixin.qq.com/s/s-L7EslLvuN31GT9Olt7sg
用户还可以通过WASD+鼠标控制视角,在月球上自由探索。
“边生成边互动”的AI视频体验,如何实现技术飞跃?
当前,包括Sora 2在内的AI视频工具都在追求更长、更稳定、更真实、更清晰的画面。
然而,大多数玩家似乎忽略了一个关键点:目前的“生成→等待→反馈”流程,始终停留在AI单向输出的阶段。
这主要归因于行业主流方案采用基于Transformer架构的扩散模型。由于Transformer架构的二次计算复杂度,主流AI视频生成模型的计算开销随生成时长呈平方级增长。视频越长,对GPU显存和计算效率的要求就越高,直接导致成本飙升,推理效率难以达到实时水平。
迭代后的百度蒸汽机,实现了从“用户被动接收”到“AI与用户共同创造”的转变。
在蒸汽机中,AI视频生成过程是开放的——视频不是一口气生成完毕,而是流式呈现。模型推理到什么进度,用户就能看到对应时长的画面。
生成过程可以随时打断。生成中途,用户如果灵感突发想修改,一句新的Prompt即可实时生效。
对前一段内容不满意?还可以拉回修改,重新接上。
视频链接:https://mp.weixin.qq.com/s/s-L7EslLvuN31GT9Olt7sg
简单来说,百度蒸汽机已经进入能配合你“反悔”的Next Level,一切不必从头再来。整个过程如同创作者在电脑前观摩AI导演一支短片,随时可以喊卡、调整细节、修改剧本。
从这个角度看,百度蒸汽机不仅突破了长视频生成的技术瓶颈,更是重新定义了AI视频的创作范式——AI视频生成,终于进入“你说我做,随时可改”的时代。
技术重构是关键:自回归扩散模型与流式推理
为了实现边输出边协作,百度蒸汽机在模型架构到底层推理流程进行了彻底重构。
1. 模型架构层面:百度蒸汽机引入了自回归扩散模型(Autoregressive Diffusion Models),采用基于流式滑窗的自回归扩散架构,从而实现低成本无限外推和实时生成。它包含阶梯独立噪声构造和动态缓冲区管理,能同时处理模糊草图、半完成帧及高精度画面,最终实现“边生成边调整”的实时交互流程。
2. 误差控制机制:为了解决训练和推理过程中累积误差和衰减问题,百度蒸汽机引入了噪声重注入和历史帧扰动增强机制,使其不仅能听懂指令,还能应对突发调整。
3. 画面一致性保障:在生成画面的一致性方面,蒸汽机在引入锚点帧引导保障全局记忆的同时,也引入了历史参考帧保障连续生成。
4. 流式推理性能优化:基于自回归扩散架构,百度蒸汽机突破了高压缩比生成技术,大幅提升了扩散模型流式推理性能,实现了效果与效率的极致平衡。通过窗口attention优化和模型蒸馏,用户在使用时推理延迟被压缩到接近实时,几乎没有等待感。
技术落地与生态生长:AI内容创作迈入共创时代
像百度蒸汽机这样,全流程可控、可打断、可改写的实时共创模式,极大地增强了AI视频生成的参与感,为AI内容创作开辟了新的可能性。
核心问题随之升维:拥有实时生成能力后,AI视频模型能否真正走进创作现场、嵌入真实生产流程?因为对于AI创作工具而言,真正的考验在于创作场景和生产链条的适配性。
回顾百度蒸汽机的迭代路径,清晰可见其演进节奏:从底层技术突破、产品形态重构,到全链条生态落地:
- 5月:百度视频生成模型以总分89.38%的成绩,登上VBench-I2V图生视频榜全球第一,技术力得到权威验证;
- 7月:发布自研音视频一体化模型MuseSteamer(百度蒸汽机背后模型),首创中文音画协同生成能力,突破了“画完再配音”的AI短片分离流程;
- 8月:音视频一体化模型升级,业内首次实现多人有声视频生成,并全面开放Turbo、Pro、Lite等版本,打通C端与B端应用通道;
- 9月:发布“通用AI长视频生成”功能;
- 10月:百度蒸汽机让AI视频正式进入实时交互时代,生成不再是一次性产物。
短短5个月内,百度蒸汽机实现了从图生视频到音画一体生成,再到实时互动与无限流式生成的演进。
这种底层能力重构,首先改变了C端普通用户的创作方式。无需专业剪辑经验,只需上传图片和输入一句Prompt,用户就能生成可实时预览、随时修改、随时续写的AI视频,真正实现了“0门槛”使用,最大程度避免了重复尝试的烦恼。
同时,迭代后的新技术也推动AI视频能力快速向导购、直播、教育、影视制作等商业和应用场景延伸。
这一切,让百度蒸汽机不再仅仅是一个模型产品,而是新型创作平台与交互接口的起点。
所以,请不要再沉迷于用Sora 2制作Meme和表情包了!
真正让AI视频迈入下一阶段的技术和应用,正在中国发生。
作为国产AI视频工具的代表,百度蒸汽机不仅在技术架构、生成质量上持续演进,更在实时性与交互性这两个决定未来创作形态的关键点上,率先迈出了关键一步。
这不仅是AI视频从片段式生成迈向连续叙事的标志性时刻,也是AI内容创作从独演走向共创的重要起点。
现在,AI视频的下一阶段,追求的不再只是高清或更长的时长,而是实时、可交互、效果出众且人人可用。
百度蒸汽机,已经率先抵达了新阶段的竞赛场。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。
青云聚合API官网https://api.qingyuntop.top
支持全球最新300+模型:https://api.qingyuntop.top/pricing
详细的调用教程及文档:https://api.qingyuntop.top/about
评论区