📢 转载信息
原文链接:https://techcrunch.com/2026/03/26/mistral-releases-a-new-open-source-model-for-speech-generation/
原文作者:Ivan Mehta
法国 AI 公司 Mistral 周四发布了一款全新的开源文本转语音(TTS)模型,旨在为语音 AI 助手及客服等企业应用场景提供支持。该模型允许企业构建用于销售和客户互动的语音代理,使其直接与 ElevenLabs、Deepgram 以及 OpenAI 等行业领头羊展开竞争。
这款名为 Voxtral TTS 的新模型支持九种语言,包括英语、法语、德语、西班牙语、荷兰语、葡萄牙语、意大利语、印地语和阿拉伯语。
“我们的客户一直要求提供语音模型。因此,我们构建了一个小型语音模型,它可以适配智能手表、智能手机、笔记本电脑或其他边缘设备。它的成本仅为市场上同类产品的一小部分,却提供了最先进的性能,” Mistral AI 科学运营副总裁 Pierre Stock 在接受 TechCrunch 电话采访时表示。
Mistral 表示,该新模型仅需不到 5 秒的语音样本即可适配定制音色,并能捕捉包括细微口音、语调变化、重音以及语音流中的不规律性等特征。该模型基于 Ministral 3B 构建,能够在不同语言间流畅切换,且不会丢失音色的固有特征,这对于配音或实时翻译等应用场景非常有用。Stock 指出,公司致力于让该模型的发音听起来像真人,而非机械的机器人。
据该公司称,该模型是专为实时性能而构建的。其“首音频时间”(TTFA,即接收输入后模型开始“说话”的时间)在 500 个字符、10 秒样本的情况下仅为 90 毫秒。该模型还具备 6 倍的实时因子(RTF),这意味着它能在约 1.6 秒内渲染出一段 10 秒的音频片段。
今年早些时候,Mistral 还推出了两款转录模型,分别用于大型批量处理和低延迟的实时应用场景。随着这款新语音模型的发布,该公司旨在为企业提供一套完整的语音产品套件。
“我们计划打造一个端到端的平台,能够处理包括音频、文本和图像在内的多模态输入输出。其核心优势在于,通过支持音频输入输出的端到端智能体系统,你可以获取更多信息,” Stock 补充道。
Mistral 的市场定位是利用其开源和高度可定制化的优势,帮助企业在竞争对手的产品中优先选择其语音模型,因为企业可以根据自身需求进行微调。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区