Mistral 发布全新的开源语音生成模型 Voxtral TTS-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://techcrunch.com/2026/03/26/mistral-releases-a-new-open-source-model-for-speech-generation/

原文作者：Ivan Mehta

法国 AI 公司 Mistral 周四发布了一款全新的开源文本转语音（TTS）模型，旨在为语音 AI 助手及客服等企业应用场景提供支持。该模型允许企业构建用于销售和客户互动的语音代理，使其直接与 ElevenLabs、Deepgram 以及 OpenAI 等行业领头羊展开竞争。

这款名为 Voxtral TTS 的新模型支持九种语言，包括英语、法语、德语、西班牙语、荷兰语、葡萄牙语、意大利语、印地语和阿拉伯语。

“我们的客户一直要求提供语音模型。因此，我们构建了一个小型语音模型，它可以适配智能手表、智能手机、笔记本电脑或其他边缘设备。它的成本仅为市场上同类产品的一小部分，却提供了最先进的性能，” Mistral AI 科学运营副总裁 Pierre Stock 在接受 TechCrunch 电话采访时表示。

Mistral 表示，该新模型仅需不到 5 秒的语音样本即可适配定制音色，并能捕捉包括细微口音、语调变化、重音以及语音流中的不规律性等特征。该模型基于 Ministral 3B 构建，能够在不同语言间流畅切换，且不会丢失音色的固有特征，这对于配音或实时翻译等应用场景非常有用。Stock 指出，公司致力于让该模型的发音听起来像真人，而非机械的机器人。

据该公司称，该模型是专为实时性能而构建的。其“首音频时间”（TTFA，即接收输入后模型开始“说话”的时间）在 500 个字符、10 秒样本的情况下仅为 90 毫秒。该模型还具备 6 倍的实时因子（RTF），这意味着它能在约 1.6 秒内渲染出一段 10 秒的音频片段。

今年早些时候，Mistral 还推出了两款转录模型，分别用于大型批量处理和低延迟的实时应用场景。随着这款新语音模型的发布，该公司旨在为企业提供一套完整的语音产品套件。

“我们计划打造一个端到端的平台，能够处理包括音频、文本和图像在内的多模态输入输出。其核心优势在于，通过支持音频输入输出的端到端智能体系统，你可以获取更多信息，” Stock 补充道。

Mistral 的市场定位是利用其开源和高度可定制化的优势，帮助企业在竞争对手的产品中优先选择其语音模型，因为企业可以根据自身需求进行微调。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

Mistral 发布全新的开源语音生成模型 Voxtral TTS

评论区