目 录CONTENT

文章目录

Amazon Polly 推出双向流式传输 API:为对话式 AI 实现实时语音合成

Administrator
2026-03-27 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://aws.amazon.com/blogs/machine-learning/introducing-amazon-polly-bidirectional-streaming-real-time-speech-synthesis-for-conversational-ai/

原文作者:Praveen Gadi, Damian Pukaluk, Scott Mishra, and Paul Wu


构建自然的对话体验需要语音合成技术与实时交互保持同步。今天,我们很高兴地宣布为 Amazon Polly 推出全新的双向流式传输 API(Bidirectional Streaming API),它实现了简化的实时文本转语音(TTS)合成,允许用户在发送文本的同时接收音频。

该 API 专为增量生成文本或音频的对话式 AI 应用而设计,例如大语言模型(LLM)的回复,这类场景中用户必须在完整文本可用之前就开始合成音频。Amazon Polly 此前已支持向用户流式传输合成音频,而新的 API 更进一步,利用 HTTP/2 协议实现双向通信,从而大幅提升速度、降低延迟并简化使用流程。

传统文本转语音面临的挑战

传统的文本转语音 API 遵循“请求-响应”模式,这意味着您必须在发送合成请求之前收集完所有文本。虽然 Amazon Polly 在接收到请求后可以增量流式传输音频,但瓶颈在于输入端——在文本完全可用之前,您无法开始发送。在由 LLM 驱动的对话应用中,文本是按 token(标记)逐个生成的,这意味着必须等待整个响应生成完毕后才能开始合成。

以 LLM 驱动的虚拟助手为例,模型会在数秒内逐个生成 token。使用传统 TTS,用户必须等待:

  1. LLM 完成整个回复的生成
  2. TTS 服务完成对全部文本的合成
  3. 音频下载完成后才能开始播放

新的 Amazon Polly 双向流式传输 API 正是为了解决这些瓶颈而设计的。

什么是双向流式传输

StartSpeechSynthesisStream API 引入了一种根本性的不同方法:

  • 增量发送文本:在文本可用时即时流式传输给 Amazon Polly,无需等待完整的句子或段落。
  • 即时接收音频:在音频生成的过程中实时获得合成的音频片段。
  • 控制合成时机:利用 flush(刷新)配置来触发缓冲文本的立即合成。
  • 真正的双工通信:在单个连接上同时发送和接收数据。

性能对比

为了衡量实际影响,我们针对 7,045 个字符的散文(约 970 字)对比了传统 SynthesizeSpeech API 和新的双向 StartSpeechSynthesisStream API。测试结果显示,总处理时间缩短了 39%,API 调用次数减少了 27 倍

传统系统架构

(上图:传统 TTS 架构)

双向流式传输架构

(上图:双向流式传输架构)

结论

Amazon Polly 的新双向流式传输 API 代表了实时语音合成技术的重大进步。通过支持真正的双向流式传输,它消除了长期以来困扰对话式 AI 应用的延迟瓶颈。无论您是在构建虚拟助手、辅助功能工具还是任何需要高响应性的应用,该 API 都为您提供了打造真正对话体验的基石。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区