📢 转载信息
原文链接:https://www.kdnuggets.com/top-5-text-to-speech-open-source-models
原文作者:Abid Ali Awan
Image by Author
# 引言
文本转语音(TTS)技术取得了显著进步,使许多创作者(包括笔者)能够轻松地为演示文稿和演示制作音频。我经常将视觉效果与 ElevenLabs 等工具结合起来,创建听起来自然、可媲美录音室质量的旁白。最妙的是,开源模型正迅速与专有产品达到同等水平,它们提供了高质量的真实感、情感深度、音效,甚至能够生成类似播客的长篇、多说话人音频。
在本文中,我们将比较当前可用的领先开源 TTS 模型,讨论它们的技术规格、速度、语言支持以及具体优势。
# 1. VibeVoice
VibeVoice 是一款先进的文本转语音(TTS)模型,旨在直接从文本生成富有表现力的长篇、多说话人对话音频,例如播客。它解决了 TTS 领域长期存在的挑战,包括可扩展性、说话人一致性和自然的轮流对话。这是通过将大型语言模型(LLM)与仅以 7.5 Hz 运行的超高效连续语音分词器相结合来实现的。
该模型使用两个配对的分词器,一个用于声学处理,另一个用于语义处理,这有助于在保持音频保真度的同时,高效处理极长的序列。
一种下一代扩散方法使 LLM(在此版本中为 Qwen2.5)能够引导对话的流程和上下文,而一个轻量级的扩散头则负责生成高质量的声学细节。该系统能够合成长达约 90 分钟的语音,最多包含四个不同的说话人,超越了以往模型通常限制在 1 到 2 个说话人的局限。
# 2. Orpheus
Orpheus TTS 是一款尖端的 Llama 基础语音 LLM,专为高质量和富有同情心的文本转语音应用而设计。它经过微调,可提供具有卓越清晰度和表现力的人类般语音,使其适用于实时流媒体用例。
在实际应用中,Orpheus 专注于低延迟、交互式应用,这些应用受益于流式 TTS,同时保持其表达的自然性。它已在 GitHub 上开源,供研究人员和开发人员使用,并提供了使用说明和示例。此外,它还可以通过多个托管演示和 API(如 DeepInfra、Replicate 和 fal.ai)以及 Hugging Face 平台进行访问,以便快速实验。
# 3. Kokoro
Kokoro 是一款开源的 8200 万参数文本转语音(TTS)模型,其质量可与规模大得多的系统相媲美,同时在速度和成本效率方面也具有显著优势。其 Apache 许可证允许灵活部署,使其适用于商业和个人爱好项目。
对于开发人员来说,Kokoro 提供了一个简单的 Python API (KPipeline),用于快速推理和 24 kHz 音频生成。此外,还有一个官方的 JavaScript (npm) 包可用于浏览器和 Node.js 环境中的流式传输场景,并提供精选的样本和声音,以评估质量和音色多样性。如果您更喜欢托管推理,Kokoro 可通过 DeepInfra 和 Replicate 等提供商访问,这些提供商提供简单的 HTTP API,便于集成到生产系统中。
# 4. OpenAudio
OpenAudio S1 是一款领先的多语言文本转语音(TTS)模型,使用超过 200 万小时的音频进行训练。它旨在以广泛的语言生成高度富有表现力和逼真的语音。
OpenAudio S1 允许对语音交付进行细粒度控制,整合了各种情感语调和特殊标记(例如,生气/兴奋、耳语/喊叫,以及笑/哭)。这使得模型能够实现富有细微差别的表现力的“演员式”性能。
# 5. XTTS-v2
XTTS-v2 是一款多功能且可投入生产的语音生成模型,它通过大约六秒的参考片段,实现了零样本语音克隆。这种创新方法无需大量的训练数据。该模型支持跨语言语音克隆和多语言语音生成,允许用户在以不同语言生成语音的同时,保留说话者的音色。
XTTS-v2 属于为 Coqui Studio 和 Coqui API 提供支持的同一核心模型家族。它建立在 Tortoise 模型的基础上,并进行了特定增强,使多语言和跨语言克隆变得简单。
# 总结
选择正确的文本转语音(TTS)解决方案取决于您的具体侧重点。以下是部分选项的分类介绍:
- VibeVoice:非常适合长篇、多说话人对话,利用 LLM 引导对话轮次。
- Orpheus TTS:强调富有同情心的表达,并支持实时流媒体。
- Kokoro:提供基于 Apache 许可证的、具有成本效益的解决方案,可快速部署,在特定规模下提供强大的质量。
- OpenAudio S1:提供广泛的多语言支持以及丰富的情感和音调控制。
- XTTS-v2:允许仅用 6 秒的样本进行快速的零样本跨语言语音克隆。
可以根据运行时长、许可、延迟、语言覆盖范围或表现力等因素对每种解决方案进行优化。
Abid Ali Awan (@1abidaliawan) 是一位认证的数据科学家专业人士,热衷于构建机器学习模型。目前,他专注于内容创作和撰写有关机器学习和数据科学技术的技术博客。Abid 拥有技术管理硕士学位和电信工程学士学位。他的愿景是利用图神经网络为有心理健康问题的学生构建 AI 产品。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区