目 录CONTENT

文章目录

使用 Amazon Bedrock 运营生成式 AI 工作负载并扩展到数百个用例 – 第 1 部分:GenAIOps

Administrator
2025-12-16 / 0 评论 / 0 点赞 / 1 阅读 / 0 字

📢 转载信息

原文链接:https://aws.amazon.com/blogs/machine-learning/operationalize-generative-ai-workloads-and-scale-to-hundreds-of-use-cases-with-amazon-bedrock-part-1-genaiops/

原文作者:Anastasia Tzeveleka, Anna Grüebler, Antonio Rodriguez, and Aris Tsakpinis


企业组织正迅速从生成式AI实验阶段转向生产部署和复杂的智能体AI解决方案,面临着在规模化、安全性、治理和运营效率方面的新挑战。本博文系列将介绍生成式AI运维 (GenAIOps),即将DevOps原则应用于生成式AI解决方案,并演示如何针对由Amazon Bedrock(一项全托管服务,提供业界领先的基础模型 (FM) 选择以及构建生成式AI应用所需的一整套功能)驱动的应用来实现GenAIOps。

在我们的两部分系列文章的第一部分中,您将学习如何为生成式AI工作负载演进现有的DevOps架构并实施GenAIOps实践。我们将展示针对不同生成式AI采用级别的实用实施策略,重点关注基础模型的消费。有关基础模型训练模型微调模型蒸馏的信息,请参阅我们的单独资源。第二部分将涵盖AgentOps和用于在生产环境中扩展智能体AI应用的先进模式。

从DevOps到GenAIOps

多年来,企业成功地将DevOps实践嵌入到其应用程序生命周期中,简化了传统软件解决方案的持续集成、交付和部署。当它们在生成式AI采用级别上不断前进时,它们很快就会发现,传统的DevOps实践不足以大规模管理生成式AI工作负载。传统的DevOps强调开发和运维团队之间的无缝协作,并处理具有可预测输出的确定性系统,而AI输出的非确定性、概率性特性要求组织改变管理其生成式AI驱动解决方案生命周期的方法。GenAIOps可以帮助您实现以下目标:

  • 可靠性和风险缓解 – 通过护栏、评估管道和自动化监控,防范幻觉、处理非确定性并支持安全的模型升级。
  • 规模和性能 – 在保持低响应延迟和高效成本消耗的同时,扩展到数百个应用程序。
  • 持续改进和卓越运营 – 构建一致的环境,重用和版本控制生成式AI资产,管理上下文和模型生命周期,并通过自动化评估、微调和人机协作来改进生成式AI系统。
  • 安全和合规性 – 在不同级别(模型、数据、组件、应用和端点)实现强大的安全性和合规性。常见问题包括提示注入攻击、模型响应中的数据泄露以及未经授权的模型和工具访问。
  • 治理控制 – 建立清晰的政策和问责制,以保护敏感数据和知识产权 (IP),同时确保您的解决方案符合监管要求。
  • 成本优化 – 优化资源利用率并管理超支风险。

从宏观上看,GenAIOps生命周期与DevOps相似,但在涉及生成式AI应用时,每个生命周期步骤都有额外的考虑因素。下表描述了每个阶段的DevOps实践以及GenAIOps的扩展。

阶段 DevOps 实践 GenAIOps 扩展
规划 (Plan)
  • 在跨职能团队中规划和协作。
  • 定义需求和产品待办事项列表。
  • 确定工作优先级和估算工作量。
  • 定义业务目标和关键绩效指标 (KPI)。
  • 原型设计以评估生成式AI对用例的适用性。
  • 评估用例、模型和使用数据的风险。
  • 审查合规性或法律风险并获得批准。
  • 建立性能、延迟和成本指标。
  • 评估伦理考虑和合规性要求。
开发 (Develop)
  • 根据规范开发代码,并进行版本控制。
  • 编写和执行单元和集成测试、静态代码分析和本地冒烟测试。
  • 选择底层数据存储。
  • 标准化集成开发环境 (IDE) 以确保一致性。
  • 数据准备:根据数据分类选择生成式AI数据的存储解决方案。在不同环境中提供数据可用性。为检索增强生成 (RAG) 建立数据存储。使用数据版本控制工具。为数据访问构建模型内容协议 (MCP) 服务器。
  • 开发:试验并选择最佳候选模型。使用 RAG 或提示工程技术增强模型,同时对提示、RAG 数据、评估数据进行版本控制。试验分块策略和嵌入模型。使用模型评估工具运行自动化评估测试,跟踪实验,保存结果。开发新工具或集成具有版本控制的现有工具。使用护栏限制幻觉和有害输出。规划容量。调查智能体跟踪。
构建 (Build)
  • 提交触发构建过程,创建可部署的工件。
  • 执行单元测试、集成测试和安全扫描。
  • 测试失败会触发拉取请求拒绝和开发人员通知。
  • 对选择大型语言模型 (LLM)、提示、RAG 和智能体运行单元和集成测试。
测试 (Test)
  • 将成功的构建部署到反映生产环境的预生产环境。
  • 执行功能测试(集成、回归、用户验收测试)、非功能性测试(负载、压力、峰值测试)、安全测试(渗透测试、DAST 和 IAST)。
  • 可用性测试。
  • 用于端到端功能的冒烟测试。
  • 在生产账户中启用 Amazon Bedrock FM 和功能。
  • 执行附加测试:
    • 质量测试:根据用例的预定义指标评估响应质量(准确性、相关性)
    • 安全测试:红队测试和对抗性测试
    • 人工评估测试
    • 生成式AI性能测试
    • 端到端 RAG 或智能体测试
发布 (Release)
  • 构建清除后部署,触发带有手动或自动化审批工作流的发布管理流程。创建发布说明和文档,并安排发布。
  • 发布说明应包括提示、数据集、提示流、智能体配置、LLM 配置和所用模型的版本。此外还包括响应质量阈值和负责任的AI文档。
部署 (Deploy)
  • 使用配置管理和容器化工具将已发布的构建部署到生产环境,以在不同环境中实现一致性,并提供蓝绿部署等策略选项。
  • 在生产账户中启用 Amazon Bedrock FM 和功能。
维护 (Maintain)
  • 生产管理,使用基础设施编排和自动扩展来满足需求。
  • 维护知识库。
监控 (Monitor)
  • 应用程序和基础设施性能指标的自动化收集。
  • 问题识别和补救。
  • 来自应用程序监控和用户行为的反馈流回规划阶段。
  • 监控响应质量和护栏干预。
  • 跟踪模型延迟、吞吐量和错误(如限流)。
  • 跟踪使用情况分析、Token数和成本。
  • 收集和分析用户反馈。
  • 收集输入/输出以供将来改进。
  • 生成式AI安全监控。
  • 数据流回规划阶段以供将来改进。

下图说明了每个阶段的GenAIOps关键活动。

Comprehensive DevOps lifecycle diagram for generative AI projects, from planning and development through deployment and monitoring

图 1:带有 GenAIOps 关键活动的 DevOps 阶段

GenAIOps 中的人员和流程

在探索GenAIOps实施模式之前,我们先研究一下GenAIOps如何扩展角色和流程,以解决与生成式AI相关的独特挑战。以下是生成式AI应用生命周期的关键角色和支柱:

  • 产品所有者和领域专家 定义和确定用例的优先级,创建黄金提示数据集,建立成功指标,并通过快速原型设计验证生成式AI的适用性。
  • GenAIOps 和平台团队 标准化账户基础设施,并为模型服务、消费和定制、嵌入存储和组件编排提供环境,他们负责使用基础设施即代码 (IaC)、生产监控和可观测性来设置持续集成和持续交付 (CI/CD) 管道。
  • 安全团队 通过访问控制、加密协议和护栏实施纵深防御,同时持续监控新兴威胁和潜在的数据泄露。
  • 风险、法律、治理和伦理专家 建立全面的负责任的AI框架,进行系统的风险评估,实施偏见最小化策略,并实现监管一致性。
  • 数据团队 为构建、更新和评估生成式AI应用程序提供、准备和维护高质量数据集。
  • AI工程师和数据科学家 开发应用程序代码,集成生成式AI功能,实施提示工程技术,构建可重用组件库,管理版本控制系统,使用定制技术并设计人机循环工作流程。
  • 质量保证 (QA) 工程师 测试特定于AI的关注点,包括提示鲁棒性、输出质量和护栏有效性,并对新模型版本执行回归测试。

下图说明了这些角色。

graphic showing key stakeholders for GenAI projects and their responsibilities across platform lifecycle phases

图 2:GenAIOps 中的人员和流程

GenAIOps 采用之旅

GenAIOps的实施会因生成式AI在企业中的渗透程度而异。以下是生成式AI采用的三个主要阶段:

  • 阶段 1:探索 (Exploration) – 对生成式AI不熟悉的企业,从小型的概念验证 (POC) 开始,以证明对业务的价值。他们的生成式AI资源有限,通常由一小部分早期采用者领导探索。
  • 阶段 2:生产 (Production) – 企业已在某些生产用例中证明了生成式AI的价值,并打算扩展到多个用例。他们将其视为业务差异化因素。多个团队使用生成式AI并出现规模化挑战。他们使用 FM、工具和 RAG 等设计模式,并可能开始试验智能体工作流程。此阶段的企业开始为构建者正规化培训计划并建立生成式AI卓越中心。
  • 阶段 3:再造 (Reinvention) – 生成式AI已成为企业战略的一部分。企业希望投资于生成式AI资源,并向所有人提供生成式AI构建工具。他们使用复杂的智能体AI解决方案。

随着他们在采用之旅中取得进展,企业会扩展其现有的DevOps工作流以实现GenAIOps。接下来的部分将介绍使用 Amazon Bedrock 功能按阶段划分的 GenAIOps 实施模式。Amazon Bedrock 提供对模型的按需访问、预训练的管理基础设施和内置的安全功能,从而支持快速的生成式AI部署,同时帮助维护企业合规性。

探索 (Exploration)

在探索阶段,组织通常依赖于由早期AI采用者组成的小型跨职能“猛虎小组”,他们身兼数职。数据科学家可能兼任提示工程师,开发人员负责自己的模型评估,合规性审查则通过与法律团队的即兴会议进行。治理流程在很大程度上仍是手动和非正式的,产品所有者直接与技术团队协作以建立成功指标,而平台工程师则专注于基本的环境设置,而不是复杂的 CI/CD 自动化。

DevOps 基础

在将生成式AI功能集成到您的应用程序和工作流程之前,我们需要一个支持您解决方案的基线DevOps架构。如下所示,您有一个共享账户,用于管理 CI/CD 管道并控制跨开发、预生产和生产账户的部署。您还为开发、预生产、数据治理和数据生产者设置了单独的 AWS 账户,以实现环境隔离、安全控制和按环境进行成本跟踪。此设置中的每个资源都定义为代码,这意味着您可以像部署应用程序代码一样无缝地对整个基础设施进行版本控制、测试和部署。

Baseline Multi-Account DevOps diagram showing shared resources, CI/CD pipeline, environments, monitoring, and data management services

图 3:DevOps 基线架构

了解了 DevOps 基础知识后,我们将向您展示如何使用 Amazon Bedrock 功能增强它,并分四个关键步骤开始构建您的 GenAIOps 基础。

步骤 1:管理生成式 AI 应用的数据

数据在生成式AI中起着三个关键作用:为 RAG 系统提供动力以增强上下文响应、为模型评估和验证提供事实依据,以及通过提供训练数据来支持 AI 模型的初始训练和后续微调。在大多数情况下,需要访问控制以防止未经授权的访问。在 RAG 中,数据用于通过提供来自数据源的相关上下文信息来改进 LLM 响应并以事实为依据。在标准的 RAG 工作流程中,您需要:

  1. 通过查询从知识库中检索相关内容。
  2. 通过用检索到的上下文信息丰富提示来增强提示。
  3. 将包含原始输入和上下文的增强提示传递给 LLM 以生成最终响应。

使用 Amazon Bedrock 时,您可以查询向量数据库(如Amazon OpenSearch Service)或使用 API 查询从数据存储中获取数据,以在将用户查询发送到 FM 之前对其进行丰富。如果您有实时数据源,则需要实施连接器以启用数据同步和与各种数据源的集成,以帮助维护数据完整性和新鲜度。您还需要配置护栏,以便正确阻止或屏蔽不应发送到模型或成为输出一部分的数据,例如个人身份信息 (PII)

您还可以使用Amazon Bedrock 知识库,这是一项全托管功能,可帮助您实施完整的 RAG 工作流程,而无需构建到数据源的自定义集成或管理数据流。

您的数据在评估中提供了事实来源。在应用程序开发开始之前,生成式AI开发人员应建立一个全面的黄金数据集,该数据集源自现实世界的交互或领域专家输入。稳健的评估数据集应根据您的评估策略,由准确反映现实世界使用场景并全面覆盖预期生产查询的提示或提示-响应对组成。数据工程师将此数据集提供在开发环境中,并对敏感数据进行必要的修改。然后,提示输出,或提示输出与预期答案一起,可供人工评估者或LLM-作为裁判评估者(例如,Amazon Bedrock 模型评估中的 LLM-作为裁判)用来评估应用程序响应的质量。

模型提供商使用广泛的数据集来开发基础AI模型,而最终用户则使用特定领域的数据来微调这些模型,以用于专业应用和目标用例。

在大多数情况下,您需要实施数据治理策略,以便用户在整个系统管道中只能访问授权数据。您还需要控制评估数据集的版本,并跟踪 RAG 知识库中文档和生成的嵌入的变化,以用于评估和审计目的。

总而言之,拥有一个强大的数据基础对生成式AI应用程序非常重要。

步骤 2:建立开发环境

在开发环境中,通过 Amazon Bedrock,您可以使用由AWS PrivateLink驱动的 Amazon Bedrock 虚拟私有云 (VPC) 端点直接访问 FM 和其他生成式AI功能,并在您账户的 VPC 与 Amazon Bedrock 服务账户之间建立私有连接。

您可以使用Amazon Bedrock 提示管理为 FM 创建、测试、管理和优化提示,并使用Amazon Bedrock Flows处理多步骤工作流程,例如需要顺序 LLM 调用的文档分析管道。您还可以配置和应用护栏,并使用Amazon Bedrock 护栏为 FM 交互纳入安全控制。在许多用例中,您希望使用 RAG 为这些模型提供来自公司数据源的上下文信息。您可以实施自管理方法,也可以使用 Amazon Bedrock 知识库,这是一项具有内置会话上下文管理和源归因的全托管功能。

下图显示了从 FM、知识库、智能体和智能提示路由开始的模型消费者的关键 Amazon Bedrock 功能。紧随其后的是护栏、Flows、提示工程,最后是提示缓存。

Graphic showing Bedrock basic features

图 4:Amazon Bedrock 关键组件(面向模型消费者)

评估性能

集成 FM 和生成式AI组件到您的应用程序后,您需要评估它们的性能。此时,您创建测试用例,编写测试配置以测试不同的提示、模型、向量存储和分块策略,并将它们保存在您的应用程序代码或其他选择的工具中,并计算评估指标。Amazon Bedrock 提供评估工具,帮助您加速生成式AI应用的采用。借助Amazon Bedrock 评估,您可以使用自动评估(程序化或使用 LLM-作为裁判)和设置人机循环评估工作流程来评估、比较和选择最适合您用例的 FM。您还可以引入自己的 (BYO) 推理响应,并评估模型、RAG 实现和完整的构建应用程序。

下图总结了这种方法,其中您将使用一个AWS Lambda函数来读取推理提示-响应对,将它们路由到 Amazon Bedrock 评估,并将结果存储在Amazon Simple Storage Service (Amazon S3) 存储桶中。

Graphic showing evaluation pipeline

图 5:开发过程中的评估

如果出现问题,由于生成式AI组件的概率性,您需要系统地对错误进行分类以识别模式,然后才能采取行动,而不是以孤立的方式修复问题。我们建议在标准应用程序测试之外进行以下测试:

  • 质量测试 – 生成式AI输出可能会有所不同,可能在一瞬间产生出色的响应,下一刻就出现幻觉。您的 GenAIOps 解决方案应能够根据准确性和完整性等质量指标快速测试输出,并且可以包括自动化测试以及人机循环。
  • 安全测试 – 检查不需要的行为。
  • 组件级测试 – 这对于评估每个元素并评估输出和推理逻辑非常重要,此外还要测试端到端解决方案。
  • 自动化评估 – 自动化使得可以在几秒钟内运行数百个测试,使用程序化验证来验证事实准确性,并使用 Amazon Bedrock 的模型评估功能作为 LLM-作为裁判。
  • 人工审查 – 在任务关键场景中,人工监督很重要。
  • 统计验证 – 运行具有统计意义的样本量,通常超过数百个测试用例,以实现高置信区间。
  • 性价比测试 – 您可能希望针对成本、延迟和吞吐量优化生成式AI应用程序。Amazon Bedrock 提供功能和消耗选项来帮助您实现目标。例如,您可以使用Amazon Bedrock 提示缓存Amazon Bedrock 智能提示路由来降低延迟和成本,使用Amazon Bedrock 批量推理处理非实时用例,以及使用预置吞吐量以固定成本获得更高水平的模型吞吐量。这个开源基准测试解决方案有助于基准测试性能。有关定价信息,请参阅Amazon Bedrock 定价页面
  • 延迟 – 根据用例的不同,保持低延迟可能是必要的。生成式AI应用需要考虑独特的延迟维度,如每秒 Token 数 (TPS)、首次 Token 时间 (TTFT) 和最后 Token 时间 (TTLT)。

在优化应用程序时,构建者必须记住,在一个维度上优化可能会导致在其他维度上出现权衡。质量、成本和延迟密切相关,优化其中一个会影响其他维度。

在规模化运行测试时,您需要一种方法来跟踪实验。一种方法是使用Amazon SageMaker AI的全托管功能——Amazon SageMaker AI 上的 MLflow,它允许您创建、管理、分析和比较您的机器学习 (ML) 实验。

步骤 3:将生成式 AI 测试添加到 CI/CD 管道

在确定了用例的最佳模型、提示、推理参数和其他配置后,将这些工件提交到您的应用程序存储库以触发 CI/CD 管道。此管道应执行您预定义的评估测试,为您的生成式AI应用程序创建重要的质量门。当测试通过准确性、安全性和性能阈值时,您的管道部署到 p... [内容被截断]




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区