📢 转载信息
原文链接:https://www.kdnuggets.com/top-5-open-source-video-generation-models
原文作者:Abid Ali Awan
Image by Author
# 灯光、摄像机……
随着 Veo 和 Sora 的发布,视频生成达到了新的高度。创作者们正在广泛试验,团队也在将这些工具整合到他们的营销工作流程中。然而,也存在一个缺点:大多数闭源系统会收集你的数据,并应用可见或不可见的数字水印来标记输出内容为AI生成。如果你重视隐私、控制和设备端工作流程,开源模型是你的最佳选择,而且现在有几款模型在效果上已经可以与Veo相媲美。
在本文中,我们将回顾排名前五的视频生成模型,提供技术知识和演示视频,以帮助你评估它们的视频生成能力。每个模型都可以在 Hugging Face 上找到,并且可以通过 ComfyUI 或你首选的桌面AI应用程序在本地运行。
# 1. Wan 2.2 A14B
Wan 2.2 升级了其扩散骨干网络,采用了专家混合(MoE)架构,将去噪过程按时间步拆分给不同的专业专家处理,从而在不增加计算成本的情况下提升了有效容量。该团队还整理了美学标签(例如灯光、构图、对比度、色调),以使“电影感”效果更具可控性。与Wan 2.1相比,训练规模大幅扩大(图像增加+65.6%,视频增加+83.2%),提升了运动、语义和美学效果。
Wan 2.2 在开源和闭源系统中都报告了顶级的性能。你可以在 Hugging Face 上探索其文生视频和图生视频 A14B 仓库:Wan-AI/Wan2.2-T2V-A14B 和 Wan-AI/Wan2.2-I2V-A14B
# 2. Hunyuan Video
HunyuanVideo 是一个拥有130亿参数的开源视频基础模型,通过因果3D变分自编码器(VAE)在时空潜在空间中进行训练。其Transformer采用了“双流到单流”的设计:文本和视频Token首先使用完全注意力机制独立处理,然后融合,同时解码器仅有的多模态LLM充当文本编码器,以提高指令遵循能力和细节捕捉。
开源生态系统包括代码、权重、单/多GPU推理(xDiT)、FP8权重、Gradio 演示以及Penguin Video Benchmark基准测试,并集成了Diffusers 和 ComfyUI。
# 3. Mochi 1
Mochi 1 是一个从零开始训练的100亿参数非对称扩散Transformer(AsymmDiT),根据Apache 2.0许可发布。它与一个非对称VAE配对,该VAE在空间上8x8、时间上6x压缩视频到12通道的潜在空间,在仅使用单个T5-XXL编码器的情况下优先考虑视觉容量而非文本。
在初步评估中,Genmo团队将Mochi 1定位为具有高保真运动和强大提示词遵循能力的尖端开源模型,旨在缩小与闭源系统的差距。
# 4. LTX Video
LTX-Video 是一个基于DiT(扩散Transformer)的图生视频生成器,专为速度而设计:它能以高于实时的速度生成1216x704分辨率的30 fps视频,并在大型、多样化的数据集上进行训练,以平衡运动和视觉质量。
该系列包含多个变体:130亿参数的开发版、130亿参数的蒸馏版、20亿参数的蒸馏版以及FP8量化版本,此外还提供了空间和时间上采样器以及即用型的ComfyUI工作流程。如果你正在优化从单个图像或短序列条件输入中快速迭代并获得清晰运动的效果,LTX是一个引人注目的选择。
# 5. CogVideoX-5B
CogVideoX-5B 是20亿参数基线的更高保真度的版本,使用bfloat16训练,建议也以bfloat16运行。它能以720x480的固定分辨率生成8 fps的6秒剪辑,支持最多226个Token的英文提示词。
该模型的文档展示了单GPU和多GPU推理所需的预计视频随机存取内存(VRAM),典型运行时间(例如,单H100上50步大约90秒),以及Diffusers优化(如CPU卸载和VAE分块/切片)如何影响内存和速度。
选择视频生成模型
以下是一些高层次的要点,可帮助你根据自身需求选择合适的视频生成模型。
- 如果你想要电影般的外观,并且可以在单块4090上实现720p/24帧:选择 Wan 2.2(核心任务使用 A14B;高效的720p/24帧使用50亿参数的混合TI2V模型)。
- 如果你需要一个大型、通用的T2V/I2V基础模型,具有强大的运动能力和完整的开源软件(OSS)工具链:选择 HunyuanVideo(130亿参数,xDiT并行,FP8权重,支持Diffusers/ComfyUI)。
- 如果你想要一个许可宽松、易于修改的尖端(SOTA)预览版,具有现代运动和清晰的研究路线图:选择 Mochi 1(100亿参数 AsymmDiT + AsymmVAE,Apache 2.0)。
- 如果你关心实时I2V和可编辑性,并使用上采样器和ComfyUI工作流程:选择 LTX-Video(30 fps @ 1216x704,多个130亿/20亿参数和FP8变体)。
- 如果你需要高效的6秒720x480 T2V,良好的Diffusers支持,以及可量化到小VRAM的模型:选择 CogVideoX-5B。
Abid Ali Awan (@1abidaliawan) 是一位认证的数据科学家专业人士,热爱构建机器学习模型。目前,他专注于内容创作和撰写关于机器学习和数据科学技术的博客文章。Abid拥有技术管理硕士学位和电信工程学士学位。他的愿景是构建一个使用图神经网络帮助受心理健康困扰学生的AI产品。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区