📢 转载信息

原文链接：https://www.qbitai.com/2025/10/342093.html

原文作者：衡宇

Sora 2不够香了？国产AI视频模型实现“边看边生成”，快人一步的实时互动体验已到来

还在用Sora 2制作恶搞视频或表情包？是时候醒醒了！国内AI视频领域的玩家已经实现了弯道超车——我们迎来了实时流式生成！

这意味着模型推理到哪里，画面就生成到哪里；如果想修改剧情，可以直接暂停，修改指令，视频即可转向新的方向。

换句话说，Sora 2能做到的，它能做；Sora 2做不到的，它也能实现。这才是与AI视频一起“创作”的未来形态答卷——它来自百度蒸汽机（文心专精版）。

百度蒸汽机自5月份问世以来，便以黑马之姿闯入AI生视频赛道，初登场便拿下VBench-I2V全球榜首，成为全球首个实现中文音视频一体化的视频生成模型，并首次实现多人有声视频生成。

这一次的升级，代表着百度对AI视频生成领域的重新定义。当同行还在努力实现“生成10秒稳定、连续的视频画面”时，百度已经率先实现了“生成迅速、实时交互、无限续写”三件套：

只需一张图+一个Prompt，生成过程更加流畅自然，在短时间、低成本下仍能保持高质量。
支持实时交互，可随时打断视频生成，在任意位置进行提示词的改写。
打破了视频生成时长限制，上传任意视频即可续写成长篇影视级大作，并支持实时预览视频内容。

此外，在百度蒸汽机中，用户可以告别以往单向输出的数字人，定制1对1专属数字人，获得沉浸式分身互动体验；它还能任意生成和创造全场景的开放世界，无论是开拓新的游戏地图，还是畅玩全球旅游景点，百度这次，全部实现了。

正如蒸汽机曾经带来的技术革命，百度蒸汽机模型的此次更新，也将标志着AI视频正式从短片段走向长篇叙事，从创意工具走向创意伙伴。

从“图生视频”到“边看边生”：行业首次实现流式生成交互体验

当前主流的AI视频生成模型仍停留在Level 1阶段，即便是风头正盛的Sora 2，通常也只能生成5～10秒的片段。

更重要的是，等待生成结果需要花费时间，短则30秒长则几分钟的等待期内，用户对生成效果一无所知。一旦生成完成，无论是细节修改还是整体风格调整，都无法实时介入，只能选择重来一遍，缺乏“交互感”。

这个过程不仅耗时长，且成本高昂，实时交互修改几乎不可能实现。

这对于短视频尚能应付，但对于长视频则远远不够。即使采用首尾帧拼接技术来拉长时长，视频质量也往往不佳、细节粗糙、缺乏连贯性。

百度蒸汽机的出现，恰好填补了这一空白，让AI视频提前进入了边看边生、实时共创的全新阶段。它不仅在生成速度上领先，生成质量的迭代速度也同样惊人。

首先在生成模式上，它同时支持I2V（图生视频）和V2V（视频生视频）双线发力。

图生视频：一张图+简单指令，生成长视频

图生视频功能将操作门槛降到最低，摒弃了传统的多图+多指令模式，仅需最基础的一张图和一个简单指令，即可生成长视频。

例如，在百度绘想平台选择“长视频”入口，上传一张爱因斯坦的形象照，输入Prompt：

爱因斯坦在舞台上说物理学脱口秀，同时镜头跟随人物变化。

当视频开始生成后，用户可以在旁边的任务结果区实时看到当前生成进展。

一旦发现不满意，可以立即点击“续改”按钮中断生成，将视频帧拖至目标位置，重新下达新的指令，例如让爱因斯坦的动作更丰富，增加手势比划。

一个小知识点：每12秒，生成任务会自动暂停一次，此时需要用户选择继续生成还是结束。

请欣赏以下新鲜出炉的爱因斯坦默剧版脱口秀片段：

视频链接：https://mp.weixin.qq.com/s/s-L7EslLvuN31GT9Olt7sg

如果你不想要无声短片，可以选择蒸汽机2.0有声版，但最长时长会相应缩短到5～10秒。

视频生视频：无限续写，纵享丝滑

百度蒸汽机在视频生视频方面也带来了全新玩法：上传一个2秒到60秒的视频，即可进行内容续写和修改，同样可以实时查看或修改视频内容。

视频链接：https://mp.weixin.qq.com/s/s-L7EslLvuN31GT9Olt7sg

最终续写下来的效果非常丝滑流畅：

视频链接：https://mp.weixin.qq.com/s/s-L7EslLvuN31GT9Olt7sg

此外，蒸汽机在开放世界生成方面表现优异。例如，生成一段月球漫步场景：

视频链接：https://mp.weixin.qq.com/s/s-L7EslLvuN31GT9Olt7sg

用户还可以通过WASD+鼠标控制视角，在月球上自由探索。

“边生成边互动”的AI视频体验，如何实现技术飞跃？

当前，包括Sora 2在内的AI视频工具都在追求更长、更稳定、更真实、更清晰的画面。

然而，大多数玩家似乎忽略了一个关键点：目前的“生成→等待→反馈”流程，始终停留在AI单向输出的阶段。

这主要归因于行业主流方案采用基于Transformer架构的扩散模型。由于Transformer架构的二次计算复杂度，主流AI视频生成模型的计算开销随生成时长呈平方级增长。视频越长，对GPU显存和计算效率的要求就越高，直接导致成本飙升，推理效率难以达到实时水平。

迭代后的百度蒸汽机，实现了从“用户被动接收”到“AI与用户共同创造”的转变。

在蒸汽机中，AI视频生成过程是开放的——视频不是一口气生成完毕，而是流式呈现。模型推理到什么进度，用户就能看到对应时长的画面。

生成过程可以随时打断。生成中途，用户如果灵感突发想修改，一句新的Prompt即可实时生效。

对前一段内容不满意？还可以拉回修改，重新接上。

视频链接：https://mp.weixin.qq.com/s/s-L7EslLvuN31GT9Olt7sg

简单来说，百度蒸汽机已经进入能配合你“反悔”的Next Level，一切不必从头再来。整个过程如同创作者在电脑前观摩AI导演一支短片，随时可以喊卡、调整细节、修改剧本。

从这个角度看，百度蒸汽机不仅突破了长视频生成的技术瓶颈，更是重新定义了AI视频的创作范式——AI视频生成，终于进入“你说我做，随时可改”的时代。

技术重构是关键：自回归扩散模型与流式推理

为了实现边输出边协作，百度蒸汽机在模型架构到底层推理流程进行了彻底重构。

1. 模型架构层面：百度蒸汽机引入了自回归扩散模型（Autoregressive Diffusion Models），采用基于流式滑窗的自回归扩散架构，从而实现低成本无限外推和实时生成。它包含阶梯独立噪声构造和动态缓冲区管理，能同时处理模糊草图、半完成帧及高精度画面，最终实现“边生成边调整”的实时交互流程。

2. 误差控制机制：为了解决训练和推理过程中累积误差和衰减问题，百度蒸汽机引入了噪声重注入和历史帧扰动增强机制，使其不仅能听懂指令，还能应对突发调整。

3. 画面一致性保障：在生成画面的一致性方面，蒸汽机在引入锚点帧引导保障全局记忆的同时，也引入了历史参考帧保障连续生成。

4. 流式推理性能优化：基于自回归扩散架构，百度蒸汽机突破了高压缩比生成技术，大幅提升了扩散模型流式推理性能，实现了效果与效率的极致平衡。通过窗口attention优化和模型蒸馏，用户在使用时推理延迟被压缩到接近实时，几乎没有等待感。

技术落地与生态生长：AI内容创作迈入共创时代

像百度蒸汽机这样，全流程可控、可打断、可改写的实时共创模式，极大地增强了AI视频生成的参与感，为AI内容创作开辟了新的可能性。

核心问题随之升维：拥有实时生成能力后，AI视频模型能否真正走进创作现场、嵌入真实生产流程？因为对于AI创作工具而言，真正的考验在于创作场景和生产链条的适配性。

回顾百度蒸汽机的迭代路径，清晰可见其演进节奏：从底层技术突破、产品形态重构，到全链条生态落地：

5月：百度视频生成模型以总分89.38%的成绩，登上VBench-I2V图生视频榜全球第一，技术力得到权威验证；
7月：发布自研音视频一体化模型MuseSteamer（百度蒸汽机背后模型），首创中文音画协同生成能力，突破了“画完再配音”的AI短片分离流程；
8月：音视频一体化模型升级，业内首次实现多人有声视频生成，并全面开放Turbo、Pro、Lite等版本，打通C端与B端应用通道；
9月：发布“通用AI长视频生成”功能；
10月：百度蒸汽机让AI视频正式进入实时交互时代，生成不再是一次性产物。

短短5个月内，百度蒸汽机实现了从图生视频到音画一体生成，再到实时互动与无限流式生成的演进。

这种底层能力重构，首先改变了C端普通用户的创作方式。无需专业剪辑经验，只需上传图片和输入一句Prompt，用户就能生成可实时预览、随时修改、随时续写的AI视频，真正实现了“0门槛”使用，最大程度避免了重复尝试的烦恼。

同时，迭代后的新技术也推动AI视频能力快速向导购、直播、教育、影视制作等商业和应用场景延伸。

这一切，让百度蒸汽机不再仅仅是一个模型产品，而是新型创作平台与交互接口的起点。

所以，请不要再沉迷于用Sora 2制作Meme和表情包了！

真正让AI视频迈入下一阶段的技术和应用，正在中国发生。

作为国产AI视频工具的代表，百度蒸汽机不仅在技术架构、生成质量上持续演进，更在实时性与交互性这两个决定未来创作形态的关键点上，率先迈出了关键一步。

这不仅是AI视频从片段式生成迈向连续叙事的标志性时刻，也是AI内容创作从独演走向共创的重要起点。

现在，AI视频的下一阶段，追求的不再只是高清或更长的时长，而是实时、可交互、效果出众且人人可用。

百度蒸汽机，已经率先抵达了新阶段的竞赛场。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，小白也可以简单操作。

青云聚合API官网https://api.qingyuntop.top

支持全球最新300+模型：https://api.qingyuntop.top/pricing

详细的调用教程及文档：https://api.qingyuntop.top/about

目录CONTENT

Sora 2或已过时？百度“蒸汽机”模型实现AI视频流式实时生成，交互体验大幅超越

Sora 2不够香了？国产AI视频模型实现“边看边生成”，快人一步的实时互动体验已到来

从“图生视频”到“边看边生”：行业首次实现流式生成交互体验

图生视频：一张图+简单指令，生成长视频

视频生视频：无限续写，纵享丝滑

“边生成边互动”的AI视频体验，如何实现技术飞跃？

技术重构是关键：自回归扩散模型与流式推理

技术落地与生态生长：AI内容创作迈入共创时代

评论区