📢 转载信息
原文链接:https://www.qbitai.com/2025/10/341609.html
原文作者:量子位
谢赛宁团队的最新研究成果,似乎正在为生成式AI领域一个长期存在的组件——变分自编码器(VAE)——画上句号。他们提出了RAE(Representation Autoencoders,表征自编码器),主张在扩散Transformer(DiT)的训练中,RAE将取代传统的VAE。
VAE的时代终结?RAE接棒前行
昔日风光无限的VAE,如今似乎面临“退役”的命运。谢赛宁团队的最新研究给出了肯定的答案:VAE的时代结束了,RAE将接力前行。

RAE的核心创新在于,它采用预训练的表征编码器(如DINO、SigLIP、MAE等)与一个训练后的轻量级解码器配对,以此替代传统扩散模型中依赖的VAE。
这种新结构不仅能生成高质量的重建图像,更关键的是,它拥有一个语义丰富的潜空间,并且完美兼容可扩展的基于Transformer的架构。
更令人振奋的是,RAE方法在不需要额外对齐损失的情况下,实现了更快的收敛速度。研究团队采用配备了轻量级宽型DDT(Diffusion Decoder Transformer)头部的DiT变体,在ImageNet上取得了令人瞩目的生成效果:
- 256×256分辨率下,无引导(no guidance)FID 达到 1.51;
- 256×256和512×512分辨率下,有引导(with guidance)FID 低至 1.13。

下面我们深入探究其缘由。
为何要告别SD-VAE?三大核心痛点
尽管Diffusion Transformer(DiT)取得了长足进步,但大多数模型仍然沿用了2021年发布的旧版SD-VAE来构建潜空间,这带来了以下几个核心问题:
1、过时的骨干网络导致架构复杂:SD-VAE的计算量高达约450 GFLOPs,相比之下,一个简单的ViT-B编码器仅需22 GFLOPs,效率低下。
2、潜空间过度压缩限制容量:SD-VAE的潜空间仅有4个通道,严重限制了信息的承载能力。研究表明,这种VAE式的压缩效果甚微,其信息容量与原始的3通道像素几乎没有区别。
3、表征能力薄弱:仅依赖重建训练的VAE,学到的特征质量不高(线性探测精度仅约8%),这最终拖慢了模型的收敛速度并损害了生成质量。现有研究已证实,表征质量直接决定生成效果,而SD-VAE的设计初衷并未充分考虑这一点。

谢赛宁坦言,他曾一度认为语义编码器主要捕获高层次抽象表征,会舍弃细粒度的视觉细节,但他承认自己错了。

RAE:简洁高效的替代方案
针对上述弊端,研究团队提出RAE方案:直接采用基于标准化ViT架构的预训练表征编码器(如DINO、SigLIP和MAE),并结合训练好的解码器。
最引人注目的是,RAE的实现非常“纯粹”——它不需要额外的训练或对齐阶段,不使用辅助损失函数,也不引入重新压缩的适配层。
具体操作是:获取预训练的语义编码器,然后仅使用L1+LPIPS+GAN损失来训练解码器即可。
尽管架构如此简洁,RAE在重建质量上却能超越SD-VAE。

谢赛宁还提到,他曾以为扩散模型在高维空间中难以高效去噪,但他再次承认自己错了。

由于RAE的潜空间本质上是高维的,扩散Transformer确实需要一些适配,但仅需三个简单的调整,模型表现就达到了惊人的高度:
- 宽DiT设计:为确保扩散过程正常进行,变换器宽度 $d$ 必须至少等于潜表征维度 $n$。否则,模型甚至无法过拟合单个样本。

- 噪声调度优化:针对高分辨率图像生成中已有的依赖分辨率的噪声调度调整,应用于扩散模型,使其平滑适应增加的输入通道维度。
- 噪声解码器增强:为了提高解码器对潜空间中微小扩散误差的鲁棒性,在解码器训练中注入了微量噪声,使解码器能更优雅地处理重建表征中的细微瑕疵。
通过这些简单的调整,团队训练的DiT-XL模型超越了REPA,且无需任何辅助损失或额外的训练阶段。采用RAE时,收敛速度比基于SD-VAE的REPA快达16倍。

DiTDH:提升扩展效率的新架构
虽然模型确实需要足够的宽度,但单纯暴力扩展DiT的宽度很快会变得低效且不切实际。
因此,团队引入了一个简单而有效的技巧,以在RAE框架内提升DiT的可扩展性。这个思路与解耦扩散训练(DDT)有松散关联,但出发点截然不同。
在新架构中,原始DiT作为条件化骨干网络,驱动一个极宽但极浅的扩散头部(DiTDH)。该头部以含噪潜变量 $x_t$ 为输入,直接预测速度向量。

借助RAE潜变量,DiTDH在训练计算量和模型大小方面的扩展效率,均优于基于RAE的标准DiT以及基于VAE的传统方法。

论文链接:https://t.co/FGOAP3Eg5m
参考链接:https://x.com/sainingxie/status/1977936742763094289
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。
青云聚合API官网https://api.qingyuntop.top
支持全球最新300+模型:https://api.qingyuntop.top/pricing
详细的调用教程及文档:https://api.qingyuntop.top/about
评论区