目 录CONTENT

文章目录

清华生数科技重磅发布:AudioLBM引领音频超分新范式,实现192kHz母带级音质生成

Administrator
2025-10-12 / 0 评论 / 0 点赞 / 1 阅读 / 0 字

📢 转载信息

原文链接:https://www.qbitai.com/2025/10/340698.html

原文作者:量子位


清华、生数科技联合发力:引领音频超分辨率(Audio SR)新范式

音频超分辨率(Audio Super-Resolution, Audio SR),即从低采样率音频中恢复出高采样率版本,是提升语音清晰度、音乐细节和沉浸式音频体验的关键技术。它在老旧录音修复、语音通信增强、音乐制作以及多模态生成等领域具有重要价值。

然而,这一任务面临巨大挑战,尤其是高频细节在低采样率信号中会严重丢失。近期,OpenAI的Sora 2已经展示了生成高达96 kHz采样率音频的能力,为高保真音频设定了新标杆。但当前学术界的音频超分模型大多仍局限于48 kHz以内,缺乏通用的高采样率支持框架。

在此背景下,清华大学与生数科技(Shengshu AI)团队聚焦桥类生成模型与音频超分任务,连续在顶级会议ICASSP 2025NeurIPS 2025上发表了两项重要成果:

  • Bridge-SR:一个轻量级的语音波形超分模型。
  • AudioLBM:一个面向高达192 kHz母带级音频的多功能超分框架。

AudioLBM 覆盖语音、音效与音乐,展现出通用高分辨率音频生成的巨大潜力。

从波形空间到隐空间:Bridge-SR的轻量化探索

2025年发表于ICASSP的Bridge-SR首次将薛定谔桥(Schrödinger Bridge)模型引入语音超分任务,开创了“数据到数据”的生成范式,建立了低分辨率波形与高分辨率波形之间的可解桥接过程。

与扩散模型的“噪声到数据”方式不同,Bridge-SR直接利用低分辨率波形作为生成先验,使模型(仅1.7M参数)就能高效、高保真地实现语音超分。在VCTK语音测试集上,它超越了多项主流方法。

清华大学生数科技:从波形到隐空间,AudioLBM引领音频超分新范式

△图一:波形空间的轻量化桥类超分模块设计

Bridge-SR通过非对称噪声调度、频域辅助监督以及一阶PF-ODE采样,在仅1.7M网络的规模下,实现了语音超分的质量突破。

清华大学生数科技:从波形到隐空间,AudioLBM引领音频超分新范式

△图二:VCTK Benchmark测试集的语音超分质量对比

AudioLBM:实现音频超分的统一与高保真突破

团队随后深入研究,开发了针对语音、音效、音乐全音频信号的通用超分模型AudioLBM,该模型已发表于NeurIPS 2025。AudioLBM实现了音频超分新范式,并成功将采样率上限提升至192 kHz,让母带级音质触手可及。

从波形域到隐空间建模

AudioLBM 实现了从“波形域生成”到“隐空间建模”的转变。它首次在波形连续隐空间中构建了低分辨率到高分辨率的隐变量桥接生成过程

研究团队使用变分自编码器(VAE)将波形压缩为连续隐空间表征,并在该空间中学习概率生成映射。这既保留了输入波形的结构化先验信息,又提升了模型的泛化建模能力。

清华大学生数科技:从波形到隐空间,AudioLBM引领音频超分新范式

对比: 音频超分任务(上)、传统在频谱隐空间的扩散模型(中)、和波形隐空间桥类模型(下)。

突破高采样率限制:Any-to-Any与级联设计

为应对高分辨率数据稀缺和提升训练效率,AudioLBM提出了频率感知机制(frequency-aware LBM),使模型能学习“任意采样率到任意采样率”(any-to-any)的超分过程。

为了突破采样率上限,团队设计了级联桥类模型(cascaded LBM),将模型能力从48 kHz扩展至96 kHz和192 kHz,首次探索了音频超分研究中的192 kHz工业级采样率。

通过先验增强(prior augmentation)和潜空间模糊(latent blurring)策略,模型在多阶段生成中保持了高频细节和能量的一致性。低分辨率模型作为高分辨率模型的强大先验被有效利用。

清华大学生数科技:从波形到隐空间,AudioLBM引领音频超分新范式

△图四:级联桥类模型设计

多域通用性与SOTA表现

在跨语音、音效与音乐的多域评测中,AudioLBM 在Any-to-48kHz超分任务上取得了新的SOTA(state-of-the-art)表现:

清华大学生数科技:从波形到隐空间,AudioLBM引领音频超分新范式

△图五:通用音频超分的质量对比

相较于基线模型AudioSR和FlowHigh,AudioLBM在对数谱距离(LSD)上均明显下降,并在96 kHz与192 kHz任务中保持稳定性能,实现了从语音到音乐的统一高保真生成。

清华大学生数科技:从波形到隐空间,AudioLBM引领音频超分新范式

△图六:音频超分结果的频谱展示

消融实验表明,对于通用音频超分任务,波形隐空间取得了最佳效果。

清华大学生数科技:从波形到隐空间,AudioLBM引领音频超分新范式

△图七:音频波形空间、谱空间、波形隐空间超分结果与真值的频谱展示

核心贡献者介绍

这两项成果的第一作者均为李畅陈泽华

李畅是中国科学技术大学少年班学院的本科生,专注于语音、音频生成建模与表征学习,已有多篇音频相关学术研究发表于CCF-A/B类会议。

清华大学生数科技:从波形到隐空间,AudioLBM引领音频超分新范式

陈泽华是清华大学计算机系水木学者博士后,毕业于英国帝国理工学院,主要研究方向为概率生成模型及其在语音、音效、生物电信号合成等方面的应用。

清华大学生数科技:从波形到隐空间,AudioLBM引领音频超分新范式

【Bridge-SR】
论文地址:https://arxiv.org/pdf/2501.07897
样本展示:https://bridge-sr.github.io/

【AudioLBM】
论文地址:https://arxiv.org/pdf/2509.17609
样本展示:https://audiolbm.github.io/




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。

青云聚合API官网https://api.qingyuntop.top

支持全球最新300+模型:https://api.qingyuntop.top/pricing

详细的调用教程及文档:https://api.qingyuntop.top/about

0

评论区