目 录CONTENT

文章目录

使用多提供商生成式AI网关参考架构简化AI运维

Administrator
2025-11-22 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://aws.amazon.com/blogs/machine-learning/streamline-ai-operations-with-the-multi-provider-generative-ai-gateway-reference-architecture/

原文作者:Dan Ferguson, Bobby Lindsey, Nick McCarthy, Chaitra Mathur, and Sreedevi Velagala


随着组织在其应用程序中越来越多地采用AI功能,对AI模型访问的集中管理、安全性和成本控制,已成为扩展AI解决方案所需的关键步骤。AWS 上的生成式AI网关指南通过提供一个支持多个AI提供商的统一网关,并提供全面的治理和监控功能,来解决这些挑战。

生成式AI网关是一个参考架构,适用于那些希望以自托管方式实现集成端到端生成式AI解决方案的企业,这些解决方案包含多个模型、数据丰富后的响应以及智能体功能。此指南结合了Amazon Bedrock广泛的模型访问能力、Amazon SageMaker AI统一的开发者体验,以及LiteLLM强大的管理功能,同时以更安全可靠的方式支持客户访问外部模型提供商的模型。

LiteLLM 是一个开源项目,旨在解决客户在部署生成式AI工作负载时面临的常见挑战。LiteLLM 简化了多提供商模型访问,同时标准化了生产运维要求,包括成本跟踪、可观测性、提示管理等。在本文中,我们将介绍多提供商生成式AI网关参考架构如何提供关于在AWS环境中部署LiteLLM以进行生产级生成式AI工作负载管理和治理的指导。

管理多提供商AI基础设施的挑战

随着AI计划的扩展,构建生成式AI的组织面临着若干复杂的挑战:

  • 提供商碎片化:团队通常需要访问来自不同提供商(Amazon BedrockAmazon SageMaker AI、OpenAI、Anthropic 等)的不同AI模型,每个模型都有不同的API、身份验证方法和计费模式。
  • 分散式治理模型:如果没有统一的访问点,组织很难在不同的AI服务之间实施一致的安全策略、使用情况监控和成本控制。
  • 操作复杂性:管理多种访问范式——从AWS 身份和访问管理角色到API密钥、特定模型的速率限制以及跨提供商的故障转移策略——会产生运营开销并增加服务中断的风险。
  • 成本管理:随着使用量的扩展,跨多个提供商和团队理解和控制AI支出的难度越来越大。
  • 安全与合规:在不同的AI提供商之间促进一致的安全策略和审计跟踪,对企业治理构成了重大挑战。

多提供商生成式AI网关参考架构

本指南通过提供一个集中式网关来解决这些常见客户挑战,该网关在单一、托管的接口背后抽象了多个AI提供商的复杂性。

multi-provider-solution-reference-architecture

该解决方案基于AWS服务并使用开源的LiteLLM项目,组织可以利用它来集成AI提供商,同时保持集中控制、安全性和可观测性。

multi-provider-chat-interface

AWS 上的灵活部署选项

多提供商生成式AI网关支持多种部署模式,以满足不同的组织需求:

Amazon ECS 部署
对于倾向于使用容器化应用程序和托管基础设施的团队,ECS 部署提供了无服务器容器编排,具有自动扩展和集成的负载均衡功能。

Amazon EKS 部署
拥有现有 Kubernetes 专业知识的组织可以使用 EKS 部署选项,该选项在受益于托管式 Kubernetes 控制平面时,提供了对容器编排的完全控制。客户可以部署新集群或利用现有集群进行部署。

这些部署选项提供的参考架构需根据您组织的特定安全要求进行额外的安全测试。在将任何内容部署到生产环境之前,请根据需要进行额外的安全测试和审查。

网络架构选项

多提供商生成式AI网关支持多种网络架构选项:

全球公共面向部署
对于拥有全球用户群的AI服务,将网关与Amazon CloudFront (CloudFront) 和Amazon Route 53 结合使用。此配置提供了:

  • 通过AWS Shield DDoS 防护增强的安全性
  • 使用 Amazon CloudFront 默认证书简化 HTTPS 管理
  • 用于改进延迟的全球边缘缓存
  • 跨区域的智能流量路由

区域直接访问
对于优先考虑低延迟和成本优化的单区域部署,直接访问应用程序负载均衡器 (ALB) 消除了 CloudFront 层,同时通过正确配置的安全组和网络 ACL 维护安全性。

私有内部访问
需要完全隔离的组织可以在私有 VPC 中部署网关,而无需暴露于互联网。此配置确保 AI 模型访问保留在您的安全网络边界内,ALB 安全组将流量限制在授权的私有子网 CIDR 内。

全面的AI治理和管理

多提供商生成式AI网关旨在通过一个简单的管理界面实现稳健的AI治理标准。除了基于策略的配置和访问管理外,用户还可以配置高级功能,如负载均衡和提示缓存。

集中式管理界面

生成式AI网关包含 LiteLLM 中的一个基于 Web 的管理界面,支持对组织内 LLM 使用情况的全面管理。

关键功能包括:

用户和团队管理:从单个用户到整个团队,配置细粒度的访问控制,采用与组织结构保持一致的基于角色的权限。

API 密钥管理:集中管理和轮换连接的AI提供商的API密钥,同时维护密钥使用和访问模式的审计跟踪。

预算控制和警报:为提供商、团队和单个用户设置支出限制,并在接近或超过阈值时自动发出警报。

全面的成本控制:成本受 AWS 基础设施和 LLM 提供商的影响。虽然配置此解决方案以满足成本要求是客户的责任,但客户可以查看现有成本设置以获取更多指导。

支持多种模型提供商:兼容 Boto3、OpenAI 和 LangGraph SDK,允许客户无论提供商如何,都能为工作负载使用最佳模型。

支持 Amazon Bedrock 护栏:客户可以利用在Amazon Bedrock 护栏上创建的护栏,为他们的生成式AI工作负载提供服务,无论模型提供商如何。

智能路由和弹性

模型部署的常见考虑因素包括模型和提示的弹性。在响应提示或访问数据存储时如何处理故障,考虑这些因素很重要。

负载均衡和故障转移:网关实现了复杂的路由逻辑,可在多个模型部署之间分配请求,并在检测到问题时自动故障转移到备份提供商。

重试逻辑:内置的带指数退避的重试机制,即使单个提供商出现瞬态问题,也能促进可靠的服务交付。

提示缓存:智能缓存通过避免对昂贵的AI模型进行重复请求,同时保持响应准确性,有助于降低成本。

高级策略管理

模型部署架构可以从简单到高度复杂。多提供商生成式AI网关具备保持强大治理态势所需的高级策略管理工具。

速率限制:配置复杂的速率限制策略,这些策略可能因用户、API 密钥、模型类型或一天中的时间而异,以促进公平的资源分配并帮助防止滥用。

模型访问控制:根据用户角色限制对特定AI模型的访问,确保只有授权人员才能访问敏感或昂贵的模型。

自定义路由规则:根据请求类型、用户位置或成本优化要求等标准,实施业务逻辑将请求路由到特定的提供商。

监控和可观测性

随着AI工作负载的增长并包含更多组件,可观测性需求也随之增加。多提供商生成式AI网关架构与Amazon CloudWatch集成。这种集成使用户能够配置无数的监控和可观测性解决方案,包括Langfuse等开源工具。

全面的日志记录和分析

网关交互会自动记录到 CloudWatch,提供有关以下方面的详细信息:

  • 跨提供商和团队的请求模式和使用趋势
  • 性能指标,包括延迟、错误率和吞吐量
  • 按用户、团队和模型类型划分的成本分配和支出模式
  • 用于合规性报告的安全事件和访问模式

内置故障排除

管理界面提供了实时日志查看功能,因此管理员无需直接访问 CloudWatch 即可快速诊断和解决使用问题。

multi-provider-gateway-observability

Amazon SageMaker 集成,扩展模型访问

Amazon SageMaker 通过提供一个与网关架构无缝集成的全面机器学习系统,增强了多提供商生成式AI网关的指导。通过使用 Amazon SageMaker 托管的基础设施进行模型训练、部署和托管,组织可以开发自定义基础模型或微调现有模型,然后通过网关与来自其他提供商的模型一起访问。此集成消除了单独管理基础设施的需要,同时促进了跨自定义模型和第三方模型的一致治理。SageMaker AI 模型托管功能将网关的模型访问扩展到包括自托管模型,以及 Amazon Bedrock、OpenAI 和其他提供商提供的模型。

我们的开源贡献

此参考架构建立在我们对 LiteLLM 开源项目的贡献之上,增强了其在 AWS 上进行企业部署的能力。我们的增强功能包括改进的错误处理、增强的安全功能以及针对云原生部署的优化性能。

入门

多提供商生成式AI网关参考架构现已通过我们的GitHub 仓库提供,其中包含:

代码存储库描述了数种灵活的部署选项供您开始使用。

具有全局 CloudFront 分配的公共网关

使用 CloudFront 为您的生成式AI服务提供一个全球分布的、低延迟的访问点。CloudFront 边缘位置快速向全球用户交付内容,而 AWS Shield Standard 有助于防御 DDoS 攻击。对于拥有全球用户群的面向公众的 AI 服务,这是推荐的配置。

带有 CloudFront 的自定义域名

为了获得更具品牌性的体验,您可以配置网关以使用您自己的自定义域名,同时仍然受益于 CloudFront 的性能和安全特性。如果您希望与公司的在线形象保持一致,此选项是理想的选择。

通过公共应用程序负载均衡器直接访问

优先考虑低延迟而非全球分发的客户可以选择直接到 ALB 的部署,而无需 CloudFront 层。这种简化的架构可以节省成本,但需要额外考虑 Web 应用程序防火墙保护。

仅限私有 VPC 访问

为了获得高水平的安全性,您可以将网关完全部署在私有 VPC 中,与公共互联网隔离。此配置非常适合处理敏感数据或部署面向内部的生成式AI服务。访问仅限于受信任的网络,如 VPN、Direct Connect、VPC 对等连接或AWS Transit Gateway

了解更多并立即部署

准备好简化您的多提供商AI基础设施了吗?访问完整的解决方案包,探索交互式学习体验,其中包含描述部署和管理过程每一步的分步指南。

结论

多提供商生成式AI网关是一个解决方案指南,旨在帮助客户以良好架构的方式开始使用生成式AI解决方案,同时利用AWS服务环境和互补的开源包。客户可以处理来自 Amazon Bedrock、Amazon SageMaker JumpStart 或第三方模型提供商的模型。工作负载的操作和管理通过 LiteLLM 管理界面进行,客户可以根据自己的偏好选择托管在 ECS 或 EKS 上。

此外,我们发布了一个 示例,它将网关集成到智能体式客户服务应用程序中。该智能体系统使用 LangGraph 进行编排,并部署在 Amazon Bedrock AgentCore 上。LLM 调用通过网关路由,从而可以灵活地使用不同模型(无论托管在 AWS 还是其他提供商)来测试智能体。

此指南仅是 AWS 上成熟的生成式AI基础的一部分。如需深入了解 AWS 上生成式AI系统的组件,请参阅在 AWS 上构建成熟的生成式AI基础架构,其中描述了生成式AI系统的其他组件。


关于作者

frgudDan Ferguson 是 AWS 的高级解决方案架构师,常驻美国纽约。作为机器学习服务专家,Dan 致力于支持客户高效、有效、可持续地整合机器学习工作流程。

Bobby Lindsey 是亚马逊网络服务(AWS)的机器学习专家。他在技术领域拥有十多年的经验,涵盖了各种技术和多个角色。他目前专注于结合他在软件工程、DevOps 和机器学习方面的背景,帮助客户扩展机器学习工作负载的交付能力。在业余时间,他喜欢阅读、研究、徒步、骑自行车和越野跑。

Nick McCarthy 是 AWS 的生成式AI专家。他曾与AWS客户在医疗保健、金融、体育、电信和能源等各个行业合作,利用AI/ML加速其业务成果。工作之余,他喜欢旅行、尝试新美食以及阅读科学和技术方面的书籍。Nick拥有天体物理学学士学位和机器学习硕士学位。

Chaitra Mathur 是 AWS 的 GenAI 专家解决方案架构师。她与各行业的客户合作,构建可扩展的生成式AI平台并将其投入运营。在其职业生涯中,她曾在多个会议上分享专业知识,并在机器学习和生成式AI领域撰写了多篇博客。

Sreedevi Velagala 是亚马逊网络服务(AWS)全球专家组织技术解决方案团队的一名解决方案架构师,常驻新泽西州。她专注于提供与多样化客户的独特需求保持一致的定制化解决方案和指导,涵盖 AI/ML、计算、存储、网络和分析领域。她积极帮助客户了解 AWS 如何使用 Graviton、Inferentia 和 Trainium 降低机器学习工作负载的计算成本。她利用深厚的技术知识和行业专业知识,提供符合每个客户独特业务需求和要求的定制化解决方案。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区