目 录CONTENT

文章目录

构建AI驱动的语音应用:Amazon Nova Sonic电话集成指南

Administrator
2025-11-27 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://aws.amazon.com/blogs/machine-learning/building-ai-powered-voice-applications-amazon-nova-sonic-telephony-integration-guide/

原文作者:Reilly Manton, Dexter Doyle, Madhavi Evana, and Kalindi Vijay Parekh


组织越来越多地寻求通过其电话系统中的自然、响应迅速的语音交互来提升客户体验。Amazon Nova Sonic 正是为满足这一需求而生的语音到语音生成式AI模型,它能提供具有低延迟和自然轮次转换的实时语音对话。它能够理解不同口音和说话风格的语音,用富有表现力的多种语言语音进行回应,并能优雅地处理中断。Nova Sonic可通过Amazon Bedrock的双向流式API使用,它可以连接到您的业务数据和外部工具,并可直接集成到电话系统中。

语音媒介使Amazon Nova Sonic天然适合那些需要保留对话细微差别并最小化延迟的电话应用场景。Nova Sonic非常适合自动化呼叫中心(需要类人交互)、主动电话外呼活动以及AI接待员等用例。

要将Amazon Nova Sonic与您的电话架构集成,您需要一个应用程序服务器来连接并维护与Nova Sonic的持久双向流式连接。本文将介绍最常见电话场景的示例实现:与传统电话基础设施的直接会话发起协议(SIP)集成,与VonageTwilioGenesys等电话服务提供商的直接集成,以及用于构建电话应用的开源框架,如PipecatLiveKit。这些方法涵盖了从遗留PBX系统到现代云通信的整个范围,为您提供了将Nova Sonic连接到电话网络的多种路径。

常见 Amazon Nova Sonic 电话用例

Nova Sonic可用于以下常见电话用例:

  • 呼叫中心运营:Amazon Nova Sonic可以通过自然对话处理客户服务呼叫、技术支持咨询和日常交易,作为入站呼叫的主要座席。它还可以替代传统的IVR系统,使客户能够描述他们的问题而不是浏览电话菜单。在呼叫量大的时期,它可以管理溢出呼叫,并以完整的对话摘要向上级人工座席升级复杂问题。
  • 接待和外呼职能:Amazon Nova Sonic可以连接到CRM和日历等公司系统,以处理日程安排、回答公司问题以及根据对话内容路由呼叫。对于外呼用例,它可以进行带改期功能的预约提醒、收集反馈的后续跟进电话以及调查活动。语音到语音的设计在访问实时数据以根据客户历史记录个性化交互的同时,保持了自然的对话流程。

Amazon Nova Sonic SIP 集成

将Amazon Nova Sonic与会话发起协议(SIP)基础设施集成需要一个应用程序服务器作为中间层。该服务器管理SIP信令和实时传输协议(RTP)媒体流,同时维护与Nova Sonic双向流式API的连接。该服务器将您现有的电话基础设施与Nova Sonic桥接,以处理呼叫会话管理和两个系统之间的音频路由。

SIP Gateway Architecture Diagram

有两种示例实现:一个使用mjSIP堆栈和AWS SDK for Java的Java-based SIP gateway,以及一个使用Node.js与SIP.js和AWS SDK for JavaScript的JavaScript SIP server。这两个示例都展示了具有特定语言实现的相同核心架构。

核心组件包括用于呼叫控制信令的SIP堆栈、用于音频流处理的RTP处理程序,以及与Amazon Bedrock保持持久连接的Amazon Nova Sonic客户端。当有入站呼叫到达时,SIP服务器通过SIP应答,建立RTP媒体会话,并创建一个相应的Sonic流式会话。音频双向流动:

  • 来自呼叫方的RTP数据包被解码、转换为适当的音频格式,并流式传输到Nova Sonic
  • Nova Sonic的音频响应被编码并通过RTP传回

对于部署,您可以将SIP服务器运行在Amazon Elastic Compute Cloud (Amazon EC2) 实例上,配置适当的安全组以用于SIP信令(5060端口)和RTP媒体流(通常是10000-20000端口),或者使用Amazon Elastic Container Service (Amazon ECS) 部署容器化应用,并使用主机网络模式来访问所需的UDP端口范围。这两种方法:

  • 需要IAM权限才能访问Amazon Bedrock以及适当的凭证管理。
  • 当您配置现有电话基础设施将呼叫路由到网关的公共端点时,支持与PBX系统、VoIP提供商(如Vonage)或传统电话网络的无缝集成。

与电话服务提供商的集成

像Vonage、Twilio、Genesys和Amazon Connect这样的云电话服务提供商提供托管语音服务,它们通过简单的API处理传统电话基础设施的复杂性。与直接SIP集成不同,这些提供商抽象了底层协议,并提供诸如全球电话号码配置、自动故障转移、呼叫分析和合规性功能等特性。

Cloud Telephony Provider Integration Diagram

Vonage

Vonage是一个云通信平台,为企业提供语音、消息和视频API。Amazon Nova Sonic与Vonage的集成于2025年7月宣布,为通过Vonage Voice API将电话呼叫连接到对话式AI提供了直接途径。通过这种集成,企业无需管理复杂的电话基础设施即可在电话渠道上部署实时语音座席,因为Vonage负责呼叫路由、音频流和协议转换。该集成通过配置在接听或发起呼叫时触发的Vonage Webhook来工作。您的应用程序服务器接收到这些Webhook事件,建立一个Nova Sonic流式会话,并在Vonage呼叫和Nova Sonic之间创建一个双向音频桥梁。Vonage管理电话复杂性,包括编解码器转换和网络传输,而您的服务器则处理AI对话流程并连接到您的业务系统和数据源。

有关详细实施指南,请参阅Deploy conversational agents with Vonage and Amazon Nova Sonic博客文章和aws-samples GitHub仓库中的示例实现

Twilio

Twilio是一个云化的客户互动平台,提供语音、SMS、电子邮件和视频功能。它为开发人员提供API和SDK,用于构建自定义通信解决方案、自动化消息传递和实施实时通知。该平台是企业高效创建和管理客户通信的基础。Twilio与AWS集成,将通信专业知识与云基础设施和AI能力相结合。集成通过基于Webhook的事件处理、通过WebSocket连接的实时媒体流来实现。当接听或发起呼叫时,Twilio Webhook会触发事件,客户的应用程序服务器会接收这些事件。服务器然后建立一个Amazon Nova Sonic流式会话,并为Twilio呼叫和应用程序服务器之间的实时音频处理创建一个媒体流连接。Twilio处理编解码器转换和网络传输等通信复杂性,而Sonic则处理自然语言对话。该集成使企业能够部署AI驱动的语音座席、实施预测分析,并利用Twilio和AWS的综合客户数据来创建个性化的客户体验。

有关详细实施指南,请参阅Deploy conversational agents with Vonage and Amazon Nova Sonic博客文章和aws-samples GitHub仓库中的示例实现

Genesys

Genesys是一个基于云的客户体验编排平台,提供联络中心和客户参与解决方案,包括全渠道路由、劳动力优化和AI驱动的分析。Genesys通过Genesys Cloud平台API和Genesys AppFoundry上的Amazon Bedrock集成与Amazon Nova Sonic集成,其中入站呼叫触发路由决策,可以将对话引导至由Sonic驱动的虚拟座席。您的应用程序服务器从Genesys Cloud接收呼叫事件,建立一个Nova Sonic流式会话,并在Genesys呼叫和Nova Sonic之间创建一个双向音频桥梁。Genesys处理联络中心复杂性,包括呼叫路由、队列管理和座席编排,而您的服务器管理AI对话流程并连接到业务系统,同时保持完整的对话上下文和通过Genesys报告仪表板的完全可见性,可以无缝转接到实时座席。

有关详细实施指南,请参阅Genesys AppFoundry上的Amazon Nova Sonic Connector

与开源框架的集成

像Pipecat和LiveKit这样的开源框架为开发人员提供了强大的、社区支持的工具,当与Amazon Nova Sonic集成时,可以显著加速对话式AI应用的开发。这些框架提供了预构建的组件、标准化的接口和抽象层,处理了构建语音启用体验所涉及的许多技术复杂性。通过使用这些集成,团队可以专注于创建独特的对话体验,而不是重新发明基本的基础设施组件。

Pipecat

Pipecat是一个开源Python框架,旨在简化跨各种渠道(包括语音和文本)创建智能对话座席的过程。它解决了开发AI驱动通信系统的复杂性,为开发人员提供了统一的框架来设计和管理对话体验。Pipecat支持灵活的管道架构,代表了数据流和处理步骤,将用户输入转换为智能响应。它还提供与先进语音到语音模型的无缝集成,以实现高质量的语音交互,包括与Amazon Nova Sonic的集成。Sonic-Pipecat集成建立了一个双向音频流通道,处理所有基于语音的交互方面。当呼叫到达时,Pipecat将音频直接流式传输到Nova Sonic,Nova Sonic处理语音并实时生成语音响应。Pipecat管理音频传输、缓冲和连接处理,而Nova Sonic负责语音智能。技术复杂性在后台自动发生,使开发人员能够专注于设计出色的对话,而不是管理基础设施。

有关详细指南,请参阅Building intelligent AI voice agents with Pipecat and Amazon Bedrock博客文章的第1部分第2部分

LiveKit

LiveKit是一个用于构建实时音视频应用的开源平台,它为开发人员提供了WebRTC基础设施和API,用于创建交互式通信体验,具有可扩展、低延迟的媒体流功能。通过Amazon Nova Sonic和LiveKit的集成,开发人员可以构建复杂的对话式AI应用,其中LiveKit管理实时音频流和参与者连接,而Sonic处理AI驱动的对话处理。这种组合支持无缝的语音交互,其中LiveKit将音频流式传输到Nova Sonic进行处理,接收AI生成的响应,并以最小的延迟将其交付回给参与者。该集成支持多方对话,并且可以扩展以处理并发语音会话,使其适用于虚拟会议(带有AI助手)和呼叫中心用例等应用。

有关详细实施指南,请参阅Build real-time conversational AI experiences using Amazon Nova Sonic and LiveKit博客文章。

清理

为避免在实施Amazon Nova Sonic电话解决方案后产生持续费用,请记住删除所有创建的资源:

  • 终止用于托管SIP服务器或应用程序服务器的任何EC2实例
  • 如果部署了容器化应用,则删除ECS任务和服务
  • 删除专门为此集成创建的IAM权限
  • 从电话服务提供商(Vonage、Twilio、Genesys)处删除测试电话号码和配置
  • 清理aws-samples GitHub仓库中部署的所有示例应用程序

需要清理的具体资源将取决于您选择的集成方法。请始终通过您的AWS计费控制台验证是否已成功删除所有可计费资源。

结论

Amazon Nova Sonic的语音到语音功能为跨各种电话架构构建自然、响应迅速的语音应用开辟了新的可能性。无论您是处理遗留SIP基础设施、现代云电话服务提供商,还是开源框架,本指南中介绍的集成路径都提供了灵活的选项,以匹配您的技术要求和组织约束。直接SIP集成方法为您提供了最大的控制权,并与现有PBX系统和传统电话网络无缝协作。像Vonage、Twilio、Genesys和Amazon Connect这样的云电话服务提供商提供了托管服务,可以抽象化基础设施的复杂性,同时提供企业级的可靠性和全球覆盖。像Pipecat和LiveKit这样的开源框架通过为对话式AI应用提供预构建的组件和标准化接口,加速了开发。每种集成方法都有其优势:SIP集成用于直接控制和遗留兼容性,云提供商用于托管基础设施和快速部署,开源框架用于开发速度和社区支持。通过了解这些选项,您可以选择最符合您用例、现有基础设施和团队能力的方法。要开始使用,请探索本指南中链接的示例实现,试验适合您需求的集成方法,并利用Amazon Nova Sonic的低延迟、多语言功能来创建感觉真正自然的语音体验。在构建过程中,请记住,这些集成模式可以组合和定制,以满足您的特定要求。供您参考,以下是帮助您开始使用Amazon Nova Sonic的关键资源:


作者简介

Reilly MantonReilly Manton 是 AWS 电信领域的一名解决方案架构师,专注于人工智能和机器学习。他为客户构建创新的 AI 解决方案,特别关注语音到语音生成式AI,以实现更自然直观的人机交互。

Dexter DoyleDexter Doyle 是亚马逊网络服务(AWS)的高级解决方案架构师,负责指导客户设计安全、高效和高质量的云架构。作为一名终生的音乐爱好者,他热衷于帮助客户利用 AWS 服务解锁新的可能性,尤其关注音频工作流程。

Madhavi EvanaMadhavi Evana 是亚马逊网络服务(AWS)的解决方案架构师,负责引导企业客户完成云转型之旅。她专注于人工智能和机器学习,重点关注语音到语音翻译和合成以及自然语言处理(NLP)技术。

Kalindi Vijesh ParekhKalindi Vijesh Parekh 是亚马逊网络服务的解决方案架构师。作为一名解决方案架构师,她将自己在分析和数据流方面的专业知识与帮助客户实现其AWS潜力的承诺相结合。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区