目 录CONTENT

文章目录

NVIDIA RTX 加速 4K AI 视频生成:LTX-2 与 ComfyUI 迎来重大升级

Administrator
2026-01-06 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://blogs.nvidia.com/blog/rtx-ai-garage-ces-2026-open-models-video-generation/

原文作者:Gerardo Delgado


2025 年是 PC 上 AI 开发的突破之年。

PC 级别的小型语言模型(SLM)的准确性比 2024 年提高了近 2 倍,显著缩小了与云端前沿大型语言模型(LLM)的差距。包括 Ollama、ComfyUI、llama.cpp 和 Unsloth 在内的 AI PC 开发工具日趋成熟,其受欢迎程度每年翻一番,下载 PC 级模型的用户数量比 2024 年增长了十倍。

这些发展正在为生成式 AI 今年在普通 PC 创作者、游戏玩家和生产力用户中获得广泛采用铺平道路。

在本周的 CES 上,NVIDIA 宣布了一系列针对 GeForce RTX、NVIDIA RTX PRO 和 NVIDIA DGX Spark 设备的 AI 升级,这些升级释放了开发人员在 PC 上部署生成式 AI 所需的性能和内存,包括:

  • 通过 PyTorch-CUDA 优化和 ComfyUI 中对原生 NVFP4/FP8 精度的支持,视频和图像生成式 AI 的性能提升高达 3 倍,VRAM 减少 60%。
  • RTX 视频超级分辨率集成到 ComfyUI 中,加速 4K 视频生成。
  • NVIDIA NVFP8 优化,用于 Lightricks 最先进的 LTX-2 音视频生成模型的开放权重发布。
  • 一个新的视频生成流程,用于使用 Blender 中的 3D 场景生成 4K AI 视频,以精确控制输出。
  • 通过 Ollama 和 llama.cpp,SLM 的推理性能提升高达 35%。
  • RTX 加速 Nexa.ai 的 Hyperlink 新视频搜索功能。

这些进步将使用户能够利用本地 RTX AI PC 提供的隐私、安全性和低延迟,无缝运行先进的视频、图像和语言 AI 工作流程。

在 RTX PC 上生成视频速度提升 3 倍并支持 4K

生成式 AI 可以制作出令人惊叹的视频,但仅靠提示词很难控制在线工具。而且尝试生成 4K 视频几乎是不可能的,因为大多数模型都太大,无法装入 PC 的 VRAM 中。

今天,NVIDIA 推出了一种由 RTX 驱动的视频生成流程,使艺术家能够在获得对生成内容精确控制的同时,将视频生成速度提高 3 倍,并将其升频至 4K——仅使用一小部分 VRAM。

此视频流程允许新兴艺术家创建故事板,将其转化为照片级写实关键帧,然后将这些关键帧转化为高质量的 4K 视频。该流程分为三个蓝图,艺术家可以混合搭配或根据自己的需求进行修改:

  • 一个创建场景资产的 3D 对象生成器。
  • 一个 3D 引导的图像生成器,允许用户在 Blender 中设置场景并从中生成照片级写实关键帧。
  • 一个视频生成器,遵循用户的起始和结束关键帧来动画化其视频,并使用 NVIDIA RTX 视频技术将其升频至 4K。

此流程得益于 Lightricks 今天发布的突破性的新 LTX-2 模型的开源。

作为本地 AI 视频创作的一个重要里程碑,LTX-2 提供的效果可与领先的云端模型相媲美,同时能以令人印象深刻的视觉保真度生成长达 20 秒的 4K 视频。该模型具有内置音频、多关键帧支持以及通过低秩适应(low-rank adaptations)增强的高级条件设置能力——为创作者提供了影院级的质量和控制力,而无需依赖云端。

在底层,该流程由 ComfyUI 驱动。在过去的几个月里,NVIDIA 与 ComfyUI 紧密合作,将性能在 NVIDIA GPU 上的提升了 40%,最新的更新增加了对 NVFP4 和 NVFP8 数据格式的支持。总而言之,使用 RTX 50 系列的 NVFP4 格式,性能提高了 3 倍,VRAM 减少了 60%;使用 NVFP8,性能提高了 2 倍,VRAM 减少了 40%。

NVFP4 和 NVFP8 检查点现已直接在 ComfyUI 中提供给一些顶级模型。这些模型包括 Lightricks 的 LTX-2、Black Forest Labs 的 FLUX.1 和 FLUX.2,以及阿里巴巴的 Qwen-Image 和 Z-Image。可以直接在 ComfyUI 中下载它们,更多模型支持即将推出。

一旦生成了视频片段,使用 ComfyUI 中新的 RTX 视频节点,视频只需几秒钟即可升频到 4K。这个升频器实时工作,锐化边缘并清理压缩伪影,以获得清晰的最终图像。RTX 视频将在下个月在 ComfyUI 中提供。

为了帮助用户突破 GPU 内存的限制,NVIDIA 与 ComfyUI 合作改进了其内存卸载功能,称为“权重流式传输”(weight streaming)。启用权重流式传输后,当 VRAM 不足时,ComfyUI 可以使用系统 RAM,从而在中端 RTX GPU 上运行更大的模型和更复杂的多阶段节点图。

该视频生成工作流程将于下个月提供下载,而新发布的 LTX-2 视频模型的开放权重和 ComfyUI RTX 更新现已可用。

一种在 PC 文件和视频中搜索的新方式

几十年来,PC 上的文件搜索方式基本没有改变。它仍然主要依赖于文件名和零星的元数据,这使得查找去年那份文档比预期的要困难得多。

Hyperlink — Nexa.ai 的本地搜索代理 — 将 RTX PC 变成一个可搜索的知识库,可以提供带内联引用的自然语言回答。它可以扫描和索引文档、幻灯片、PDF 和图像,因此搜索可以由想法和内容驱动,而不是文件名猜测。所有数据都在本地处理并保留在用户的 PC 上,以确保隐私和安全。此外,它是 RTX 加速的,在 RTX 5090 GPU 上,索引文本和图像文件需要 30 秒/GB,响应时间为 3 秒,而使用 CPU 索引文件需要 1 小时/GB,响应时间为 90 秒。

在 CES 上,Nexa.ai 推出了 Hyperlink 的新 Beta 版本,增加了对视频内容的支持,使用户能够搜索视频中的物体、动作和语音。这对于从寻找 B-Roll 的视频艺术家到希望找到他们赢得大逃杀比赛的瞬间与朋友分享的游戏玩家都非常理想。

有兴趣试用 Hyperlink 私人 Beta 版的用户,请在此网页上注册访问。访问权限将从本月开始推出。

小型语言模型速度提升 35%

NVIDIA 与开源社区合作,在 RTX GPU 和 NVIDIA DGX Spark 桌面超级计算机上,使用 Llama.cpp 和 Ollama 实现了 SLM 的重大性能提升。最新的更改对专家混合模型(mixture-of-experts models)尤其有利,其中包括新的 NVIDIA Nemotron 3 系列开放模型

在过去的四个月里,llama.cpp 和 Ollama 的 SLM 推理性能分别提高了 35% 和 30%。这些更新现已可用,llama.cpp 的一项便捷性升级也加快了 LLM 的加载时间。

这些加速将在下一版 LM Studio 中提供,并即将登陆 MSI AI Robot 应用等代理应用。MSI AI Robot 应用也利用了 Llama.cpp 的优化,允许用户控制 MSI 设备设置,并将在即将发布的版本中纳入最新的更新。

NVIDIA Broadcast 2.1 为更多 PC 用户带来虚拟补光

NVIDIA Broadcast 应用通过 AI 效果提升了用户 PC 麦克风和网络摄像头的质量,非常适合直播和视频会议。

2.1 版本更新了虚拟补光(Virtual Key Light)效果以提高性能——使其可用于 RTX 3060 桌面 GPU 及更高版本——更好地处理更多光照条件,提供更广泛的色温控制,并使用更新的 HDRi 基础图来实现专业直播中常见的双点光源效果。立即下载 NVIDIA Broadcast 更新。

使用 DGX Spark 将家庭创意工作室转变为 AI 动力中心

随着每月都有新的、功能日益强大的 AI 模型登陆 PC,开发人员对更强大、更灵活的本地 AI 设置的兴趣持续增长。DGX Spark——这款紧凑型 AI 超级计算机可以放在用户的桌面上,并与主要的台式机或笔记本电脑无缝配对——使用户能够在现有 PC 旁进行实验、原型设计和运行高级 AI 工作负载。

Spark 非常适合有兴趣测试 LLM 或原型设计代理工作流程的人,或者希望在工作流程旁生成资产的艺术家,这样他们的主 PC 仍然可用于编辑。

在 CES 上,NVIDIA 宣布了 Spark 的重大 AI 性能更新,自其近三个月前发布以来,性能提升了高达 2.6 倍。


新的 DGX Spark 剧本(playbooks)也已发布,其中一个用于推测解码,另一个用于使用两个 DGX Spark 模块对模型进行微调。

FacebookInstagramTikTokX 上连接到 NVIDIA AI PC——并通过订阅 RTX AI PC 新闻通讯 保持了解。在 LinkedInX 上关注 NVIDIA Workstation。

请参阅有关软件产品信息的声明




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区