Amazon Polly 推出双向流式传输 API：为对话式 AI 实现实时语音合成-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://aws.amazon.com/blogs/machine-learning/introducing-amazon-polly-bidirectional-streaming-real-time-speech-synthesis-for-conversational-ai/

原文作者：Praveen Gadi, Damian Pukaluk, Scott Mishra, and Paul Wu

构建自然的对话体验需要语音合成技术与实时交互保持同步。今天，我们很高兴地宣布为 Amazon Polly 推出全新的双向流式传输 API（Bidirectional Streaming API），它实现了简化的实时文本转语音（TTS）合成，允许用户在发送文本的同时接收音频。

该 API 专为增量生成文本或音频的对话式 AI 应用而设计，例如大语言模型（LLM）的回复，这类场景中用户必须在完整文本可用之前就开始合成音频。Amazon Polly 此前已支持向用户流式传输合成音频，而新的 API 更进一步，利用 HTTP/2 协议实现双向通信，从而大幅提升速度、降低延迟并简化使用流程。

传统文本转语音面临的挑战

传统的文本转语音 API 遵循“请求-响应”模式，这意味着您必须在发送合成请求之前收集完所有文本。虽然 Amazon Polly 在接收到请求后可以增量流式传输音频，但瓶颈在于输入端——在文本完全可用之前，您无法开始发送。在由 LLM 驱动的对话应用中，文本是按 token（标记）逐个生成的，这意味着必须等待整个响应生成完毕后才能开始合成。

以 LLM 驱动的虚拟助手为例，模型会在数秒内逐个生成 token。使用传统 TTS，用户必须等待：

LLM 完成整个回复的生成
TTS 服务完成对全部文本的合成
音频下载完成后才能开始播放

新的 Amazon Polly 双向流式传输 API 正是为了解决这些瓶颈而设计的。

什么是双向流式传输

StartSpeechSynthesisStream API 引入了一种根本性的不同方法：

增量发送文本：在文本可用时即时流式传输给 Amazon Polly，无需等待完整的句子或段落。
即时接收音频：在音频生成的过程中实时获得合成的音频片段。
控制合成时机：利用 flush（刷新）配置来触发缓冲文本的立即合成。
真正的双工通信：在单个连接上同时发送和接收数据。

性能对比

为了衡量实际影响，我们针对 7,045 个字符的散文（约 970 字）对比了传统 SynthesizeSpeech API 和新的双向 StartSpeechSynthesisStream API。测试结果显示，总处理时间缩短了 39%，API 调用次数减少了 27 倍。

(上图：传统 TTS 架构)

(上图：双向流式传输架构)

结论

Amazon Polly 的新双向流式传输 API 代表了实时语音合成技术的重大进步。通过支持真正的双向流式传输，它消除了长期以来困扰对话式 AI 应用的延迟瓶颈。无论您是在构建虚拟助手、辅助功能工具还是任何需要高响应性的应用，该 API 都为您提供了打造真正对话体验的基石。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

Amazon Polly 推出双向流式传输 API：为对话式 AI 实现实时语音合成

传统文本转语音面临的挑战

什么是双向流式传输

性能对比

结论

评论区