目 录CONTENT

文章目录

谢赛宁重磅革新:告别VAE,迎接RAE——扩散模型编码器迎来新纪元

Administrator
2025-10-15 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://www.qbitai.com/2025/10/341609.html

原文作者:量子位


谢赛宁团队的最新研究成果,似乎正在为生成式AI领域一个长期存在的组件——变分自编码器(VAE)——画上句号。他们提出了RAE(Representation Autoencoders,表征自编码器),主张在扩散Transformer(DiT)的训练中,RAE将取代传统的VAE。

VAE的时代终结?RAE接棒前行

昔日风光无限的VAE,如今似乎面临“退役”的命运。谢赛宁团队的最新研究给出了肯定的答案:VAE的时代结束了,RAE将接力前行。

谢赛宁新作:VAE退役,RAE当立

RAE的核心创新在于,它采用预训练的表征编码器(如DINO、SigLIP、MAE等)与一个训练后的轻量级解码器配对,以此替代传统扩散模型中依赖的VAE。

这种新结构不仅能生成高质量的重建图像,更关键的是,它拥有一个语义丰富的潜空间,并且完美兼容可扩展的基于Transformer的架构。

更令人振奋的是,RAE方法在不需要额外对齐损失的情况下,实现了更快的收敛速度。研究团队采用配备了轻量级宽型DDT(Diffusion Decoder Transformer)头部的DiT变体,在ImageNet上取得了令人瞩目的生成效果:

  • 256×256分辨率下,无引导(no guidance)FID 达到 1.51;
  • 256×256和512×512分辨率下,有引导(with guidance)FID 低至 1.13。
谢赛宁新作:VAE退役,RAE当立

下面我们深入探究其缘由。

为何要告别SD-VAE?三大核心痛点

尽管Diffusion Transformer(DiT)取得了长足进步,但大多数模型仍然沿用了2021年发布的旧版SD-VAE来构建潜空间,这带来了以下几个核心问题:

1、过时的骨干网络导致架构复杂:SD-VAE的计算量高达约450 GFLOPs,相比之下,一个简单的ViT-B编码器仅需22 GFLOPs,效率低下。

2、潜空间过度压缩限制容量:SD-VAE的潜空间仅有4个通道,严重限制了信息的承载能力。研究表明,这种VAE式的压缩效果甚微,其信息容量与原始的3通道像素几乎没有区别。

3、表征能力薄弱:仅依赖重建训练的VAE,学到的特征质量不高(线性探测精度仅约8%),这最终拖慢了模型的收敛速度并损害了生成质量。现有研究已证实,表征质量直接决定生成效果,而SD-VAE的设计初衷并未充分考虑这一点。

谢赛宁新作:VAE退役,RAE当立

谢赛宁坦言,他曾一度认为语义编码器主要捕获高层次抽象表征,会舍弃细粒度的视觉细节,但他承认自己错了。

谢赛宁新作:VAE退役,RAE当立

RAE:简洁高效的替代方案

针对上述弊端,研究团队提出RAE方案:直接采用基于标准化ViT架构的预训练表征编码器(如DINO、SigLIP和MAE),并结合训练好的解码器。

最引人注目的是,RAE的实现非常“纯粹”——它不需要额外的训练或对齐阶段,不使用辅助损失函数,也不引入重新压缩的适配层。

具体操作是:获取预训练的语义编码器,然后仅使用L1+LPIPS+GAN损失来训练解码器即可。

尽管架构如此简洁,RAE在重建质量上却能超越SD-VAE。

谢赛宁新作:VAE退役,RAE当立

谢赛宁还提到,他曾以为扩散模型在高维空间中难以高效去噪,但他再次承认自己错了。

谢赛宁新作:VAE退役,RAE当立

由于RAE的潜空间本质上是高维的,扩散Transformer确实需要一些适配,但仅需三个简单的调整,模型表现就达到了惊人的高度:

  1. 宽DiT设计:为确保扩散过程正常进行,变换器宽度 $d$ 必须至少等于潜表征维度 $n$。否则,模型甚至无法过拟合单个样本。
谢赛宁新作:VAE退役,RAE当立
  1. 噪声调度优化:针对高分辨率图像生成中已有的依赖分辨率的噪声调度调整,应用于扩散模型,使其平滑适应增加的输入通道维度。
  2. 噪声解码器增强:为了提高解码器对潜空间中微小扩散误差的鲁棒性,在解码器训练中注入了微量噪声,使解码器能更优雅地处理重建表征中的细微瑕疵。

通过这些简单的调整,团队训练的DiT-XL模型超越了REPA,且无需任何辅助损失或额外的训练阶段。采用RAE时,收敛速度比基于SD-VAE的REPA快达16倍。

谢赛宁新作:VAE退役,RAE当立

DiTDH:提升扩展效率的新架构

虽然模型确实需要足够的宽度,但单纯暴力扩展DiT的宽度很快会变得低效且不切实际。

因此,团队引入了一个简单而有效的技巧,以在RAE框架内提升DiT的可扩展性。这个思路与解耦扩散训练(DDT)有松散关联,但出发点截然不同。

在新架构中,原始DiT作为条件化骨干网络,驱动一个极宽但极浅的扩散头部(DiTDH)。该头部以含噪潜变量 $x_t$ 为输入,直接预测速度向量。

谢赛宁新作:VAE退役,RAE当立

借助RAE潜变量,DiTDH在训练计算量和模型大小方面的扩展效率,均优于基于RAE的标准DiT以及基于VAE的传统方法。

谢赛宁新作:VAE退役,RAE当立

论文链接:https://t.co/FGOAP3Eg5m
参考链接:https://x.com/sainingxie/status/1977936742763094289




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。

青云聚合API官网https://api.qingyuntop.top

支持全球最新300+模型:https://api.qingyuntop.top/pricing

详细的调用教程及文档:https://api.qingyuntop.top/about

0

评论区