使用 Amazon Bedrock 运维生成式 AI 工作负载并扩展到数百个用例 – 第 1 部分：GenAIOps-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://aws.amazon.com/blogs/machine-learning/operationalize-generative-ai-workloads-and-scale-to-hundreds-of-use-cases-with-amazon-bedrock-part-1-genaiops/

原文作者：Anastasia Tzeveleka, Anna Grüebler, Antonio Rodriguez, and Aris Tsakpinis

企业组织正在迅速从生成式 AI 实验转向生产部署和复杂的智能体式 AI 解决方案，在扩展、安全、治理和运营效率方面面临新的挑战。本博客系列将介绍生成式 AI 运营 (GenAIOps)，即在生成式 AI 解决方案中应用 DevOps 原则，并演示如何为由 Amazon Bedrock（一项完全托管的服务，提供业界领先的基础模型 (FM) 选择以及构建生成式 AI 应用所需的一系列功能）驱动的应用程序实现这一目标。

在我们两部分系列的这第一部分中，您将学习如何为生成式 AI 工作负载演进现有的 DevOps 架构并实施 GenAIOps 实践。我们将展示针对不同生成式 AI 采用水平的实用实施策略，重点关注基础模型的消费。有关基础模型训练、模型微调和模型蒸馏的信息，请参阅我们的其他资源。第二部分将介绍用于在生产环境中扩展智能体式 AI 应用程序的 AgentOps 和高级模式。

从 DevOps 到 GenAIOps

多年来，企业已成功将 DevOps 实践嵌入其应用程序生命周期中，简化了传统软件解决方案的持续集成、交付和部署。当它们在生成式 AI 采用级别上取得进展时，它们很快就会发现，传统的 DevOps 实践不足以大规模管理生成式 AI 工作负载。传统 DevOps 强调开发和运营团队之间的无缝协作，并处理具有可预测输出的确定性系统，而 AI 输出的非确定性、概率性性质要求组织改变管理生成式 AI 驱动的解决方案生命周期的方法。GenAIOps 可以帮助您实现以下目标：

可靠性和风险缓解——通过护栏、评估管道和自动化监控，防御幻觉、处理非确定性并实现安全的模型升级。
规模和性能——扩展到数百个应用程序，同时保持低响应延迟和高效的消费成本。
持续改进和卓越运营——构建一致的环境，重用和版本化生成式 AI 资产，管理上下文和模型生命周期，并通过自动化评估、微调和人机协作来改进生成式 AI 系统。
安全性和合规性——在不同级别（模型、数据、组件、应用程序和端点）启用强大的安全性和合规性。常见问题包括提示注入攻击、模型响应中的数据泄露以及未经授权的模型和工具访问。
治理控制——为敏感数据和知识产权 (IP) 建立明确的策略和问责制，同时确保您的解决方案符合监管要求。
成本优化——优化资源利用率并管理超支风险。

从高层次上看，GenAIOps 生命周期与 DevOps 相似，但在涉及生成式 AI 应用程序时，每个生命周期步骤都有额外的考虑因素。下表描述了每个阶段的 DevOps 实践和 GenAIOps 扩展。

阶段	DevOps 实践	GenAIOps 扩展
规划 (Plan)	在跨职能团队中进行规划和协作。定义需求和产品积压。确定工作优先级并估算工作量。定义业务目标和关键绩效指标 (KPI)。	原型设计以评估生成式 AI 是否适合用例。评估用例、模型和使用数据的风险。审查合规性或法律风险并获得批准。确定性能、延迟和成本指标。评估道德考量和合规性要求。
开发 (Develop)	根据规范开发代码，并进行版本控制。编写和执行单元测试和集成测试、静态代码分析和本地冒烟测试。选择底层数据存储。标准化集成开发环境 (IDE) 以确保一致性。	数据准备：根据数据分类选择生成式 AI 数据的存储解决方案。在不同环境之间提供数据可用性。为检索增强生成 (RAG) 构建数据存储。使用数据版本控制工具。构建模型内容协议 (MCP) 服务器以进行数据访问。开发：试验并选择最佳候选模型。使用 RAG 或提示工程技术增强模型，同时对提示、RAG 数据、评估数据进行版本控制。试验分块策略和嵌入模型。使用模型评估工具运行自动化评估测试，跟踪实验，保存结果。开发新工具或与现有工具集成并进行版本控制。使用护栏限制幻觉和有害输出。规划容量。调查智能体跟踪。
构建 (Build)	提交触发构建过程，该过程创建可部署的工件。执行单元测试、集成测试和安全扫描。测试失败会触发拉取请求拒绝和开发人员通知。	对选择大型语言模型 (LLM)、提示、RAG 和智能体运行单元测试和集成测试。
测试 (Test)	将成功的构建部署到镜像生产环境的预生产环境。执行功能测试（集成、回归、用户验收测试）、非功能测试（负载、压力、峰值测试）、安全测试（渗透测试、DAST 和 IAST）。可用性测试。用于端到端功能的冒烟测试。	在生产账户中启用 Amazon Bedrock FM 和功能。执行附加测试：质量测试：根据用例的预定义指标评估响应质量（准确性、相关性）安全测试：红队测试和对抗性测试人工评估测试生成式 AI 性能测试端到端 RAG 或智能体测试
发布 (Release)	构建被批准部署，触发带有手动或自动审批工作流程的发布管理流程。创建发布说明和文档，并安排发布时间。	发布说明应包括提示、数据集、提示流、智能体配置、LLM 配置和所用模型的版本。还应包括响应质量阈值和负责任的 AI 文档。
部署 (Deploy)	使用配置管理和容器化工具将发布的构建部署到生产环境，以在不同环境之间实现一致性，并可以选择蓝绿部署等策略。	在生产账户中启用 Amazon Bedrock FM 和功能。
维护 (Maintain)	生产管理，包括基础设施编排和自动扩展以满足需求。	维护知识库。
监控 (Monitor)	应用程序和基础设施性能指标的自动化收集。问题识别和补救。来自应用程序监控和用户行为的反馈流回规划阶段。	监控响应质量和护栏干预。跟踪模型延迟、吞吐量和错误（如限制）。跟踪使用情况分析、Token 和成本。收集和分析用户反馈。收集输入/输出用于未来的改进。生成式 AI 安全监控。数据流回规划阶段以供将来改进。

下图说明了每个阶段的 GenAIOps 关键活动。

Comprehensive DevOps lifecycle diagram for generative AI projects, from planning and development through deployment and monitoring

图 1：带有 GenAIOps 关键活动的 DevOps 阶段

GenAIOps 中的人员和流程

在探索 GenAIOps 实施模式之前，我们先研究 GenAIOps 如何扩展角色和流程，以解决与生成式 AI 相关的独特挑战。以下是生成式 AI 应用程序生命周期的关键角色和支柱：

产品所有者和领域专家定义和确定用例的优先级，创建黄金提示数据集，建立成功指标，并通过快速原型设计验证生成式 AI 的适用性。
GenAIOps 和平台团队标准化账户基础设施，并为模型服务、消费和定制、嵌入式存储和组件编排配置环境。他们负责使用基础设施即代码 (IaC) 建立持续集成和持续交付 (CI/CD) 管道、生产监控和可观测性。
安全团队通过访问控制、加密协议和护栏实施纵深防御，同时持续监控新兴威胁和潜在的数据泄露。
风险、法律、治理和伦理专家建立全面的负责任 AI 框架，进行系统的风险评估，实施偏见最小化策略，并实现监管一致性。
数据团队为构建、更新和评估生成式 AI 应用程序提供和维护高质量数据集。
AI 工程师和数据科学家开发应用程序代码，集成生成式 AI 功能，实施提示工程技术，构建可重用组件库，管理版本控制系统，使用定制技术并设计人机循环工作流程。
质量保证 (QA) 工程师测试特定于 AI 的问题，包括提示的鲁棒性、输出质量和护栏的有效性，并对新模型版本进行回归测试。

下图说明了这些角色。

graphic showing key stakeholders for GenAI projects and their responsibilities across platform lifecycle phases

图 2：GenAIOps 中的人员和流程

GenAIOps 采用之旅

GenAIOps 的实施可能因生成式 AI 在企业中的渗透程度而异。以下是生成式 AI 采用的三个主要阶段：

第 1 阶段：探索 (Exploration)——对生成式 AI 新接触的组织，从几个概念验证 (POC) 开始，以证明对业务的价值。他们的生成式 AI 资源有限，通常由一小组早期采用者领导探索。
第 2 阶段：生产 (Production)——组织已在某些生产用例中证明了通过生成式 AI 创造的价值，并打算扩展到多个用例。他们将其视为业务差异化因素。多个团队使用生成式 AI，并出现扩展挑战。他们使用 FM、工具和 RAG 等设计模式，并可能开始试验智能体式工作流程。处于此阶段的组织开始正规化构建人员的培训计划并建立生成式 AI 卓越中心。
第 3 阶段：重塑 (Reinvention)——生成式 AI 已成为企业战略的一部分。组织希望投资于生成式 AI 资源，并向所有人提供生成式 AI 构建工具。他们使用复杂的智能体式 AI 解决方案。

随着他们在采用旅程中不断前进，企业将现有的 DevOps 工作流程扩展到 GenAIOps。以下部分使用 Amazon Bedrock 功能描述了每个阶段的 GenAIOps 实施模式。通过按需访问模型、预训练的管理基础设施和内置的安全功能，Amazon Bedrock 能够快速部署生成式 AI，同时帮助维护企业合规性。

探索 (Exploration)

在探索阶段，组织通常依赖由早期 AI 采用者组成的精干的跨职能团队，这些人员身兼多职。数据科学家可能兼任提示工程师，开发人员处理自己的模型评估，合规性审查是通过与法律团队的临时会议进行的。治理流程在很大程度上保持手动和非正式，产品所有者直接与技术团队合作确定成功指标，而平台工程师则专注于基本的环境设置，而不是复杂的 CI/CD 自动化。

DevOps 基础

在将生成式 AI 功能集成到您的应用程序和工作流程之前，我们需要一个支持您解决方案的基线 DevOps 架构。如下面的图所示，您有一个共享账户，用于管理 CI/CD 管道并控制跨开发、预生产和生产账户的部署。您还拥有用于开发、预生产、数据治理和数据提供者的独立 AWS 账户，以实现环境隔离、安全控制和按环境进行成本跟踪。此设置中的每个资源都定义为代码，这意味着您可以像部署应用程序代码一样无缝地对整个基础设施进行版本控制、测试和部署。

Baseline Multi-Account DevOps diagram showing shared resources, CI/CD pipeline, environments, monitoring, and data management services

图 3：DevOps 基线架构

了解了 DevOps 基础知识后，我们将向您展示如何使用 Amazon Bedrock 功能增强它，并通过四个关键步骤开始构建您的 GenAIOps 基础。

第 1 步：管理生成式 AI 应用程序的数据

数据在生成式 AI 中起着三个关键作用：为 RAG 系统提供支持以增强上下文响应、为模型评估和验证提供事实依据，以及通过提供训练数据来支持 AI 模型的初始训练和后续微调。在大多数情况下，需要访问控制以帮助防止未经授权的访问。在 RAG 中，数据用于通过提供来自数据源的相关上下文信息来改进 LLM 响应并以事实为依据。在标准的 RAG 工作流程中，您需要：

通过查询从知识库中检索相关内容。
通过检索到的上下文信息丰富提示来增强提示。
将包含原始输入和上下文的增强提示传递给 LLM 以生成最终响应。

当使用 Amazon Bedrock 时，您可以查询向量数据库，例如 Amazon OpenSearch Service，或使用 API 查询从数据存储中获取数据，以在将用户查询发送到 FM 之前对其进行丰富。如果您有实时数据源，则需要实施连接器以启用数据同步和与各种数据源的集成，以帮助保持数据完整性和新鲜度。您还需要配置护栏，以便正确阻止或屏蔽不应发送到模型或成为输出一部分的数据，例如个人身份信息 (PII)。

您还可以使用 Amazon Bedrock 知识库，这是一项完全托管的功能，可帮助您实施整个 RAG 工作流程，而无需构建到数据源的自定义集成或管理数据流。

您的数据在评估中提供了事实来源。在应用程序开发开始之前，生成式 AI 开发人员应建立一个全面的黄金数据集，该数据集源自真实交互或领域专家输入。强大的评估数据集应根据您的评估策略，由准确反映真实使用场景并提供预期生产查询全面覆盖的提示或提示-响应对组成。数据工程师在开发环境中提供此数据集，并应用必要的修改来处理敏感数据。提示输出，或提示输出与预期答案一起，随后可由人工评估者或 LLM 即判官评估者（例如，Amazon Bedrock 上的 LLM 即判官模型评估）用于评估应用程序响应的质量。

模型提供商使用大量数据集来开发基础 AI 模型，而最终用户则使用特定领域的数据来为特定应用程序和目标用例微调这些模型。

在大多数情况下，您需要实施生成式 AI 时代的数据治理策略，以便用户在整个系统管道中只能访问授权数据。您还需要控制评估数据集的版本，并跟踪 RAG 知识库中文档和生成嵌入的变化，以用于评估和审计目的。

总而言之，拥有一个强大的数据基础对于生成式 AI 应用程序非常重要。

第 2 步：建立开发环境

在开发环境中进行原型设计时，开始将 FM 和其他生成式 AI 功能集成到您的应用程序中。在 Amazon Bedrock 中，您可以使用AWS PrivateLink 驱动的 Amazon Bedrock 虚拟私有云 (VPC) 端点直接访问模型，并在您的 VPC 与 Amazon Bedrock 服务账户之间建立私有连接。

您可以使用 Amazon Bedrock 提示管理为 FM 创建、测试、管理和优化提示，并使用 Amazon Bedrock Flows 进行多步骤工作流程，例如需要顺序 LLM 调用的文档分析管道。您还可以使用 Amazon Bedrock 护栏配置和应用护栏，并纳入 FM 交互的安全控制。在许多用例中，您希望使用 RAG 为这些模型提供来自公司数据源的上下文信息。您可以实施自我管理的方法，也可以使用 Amazon Bedrock 知识库，这是一个具有内置会话上下文管理和来源归因的完全托管功能。

下图显示了从 FM、知识库、智能体和智能提示路由开始的模型消费者的关键 Amazon Bedrock 功能。接着是护栏、流程、提示工程，最后是提示缓存。

图 4：模型消费者的 Amazon Bedrock 关键组件

评估性能

在将 FM 和生成式 AI 组件集成到您的应用程序后，您需要评估它们的性能。此时，您将创建测试用例，编写测试配置以测试不同的提示、模型、向量存储和分块策略（将其保存在其应用程序代码或其他选定工具中），并计算评估指标。Amazon Bedrock 提供评估工具，可帮助您加速采用生成式 AI 应用程序。借助 Amazon Bedrock 评估，您可以使用自动评估（程序化或使用 LLM 即判官）和设置人机循环评估工作流程来评估、比较和选择最适合您用例的 FM。您还可以自带 (BYO) 推理响应，评估模型、RAG 实现和完全构建的应用程序。

下图总结了方法：您将使用 AWS Lambda 函数读取推理提示-响应对，将它们路由到 Amazon Bedrock 评估，并将结果存储在 Amazon Simple Storage Service (Amazon S3) 存储桶中。

图 5：开发期间的评估

如果出现问题，由于生成式 AI 组件的概率特性，您需要系统地对错误进行分类以识别模式，然后再采取行动，而不是以孤立的方式修复问题。除了标准的应用程序测试外，我们推荐以下测试：

质量测试——生成式 AI 输出可能会有所不同，有时会产生很好的响应，有时会产生幻觉。您的 GenAIOps 解决方案应能够快速测试输出的质量指标，如正确性和完整性，并且可以包括自动化测试以及人机循环。
安全测试——检查不需要的行为。
组件级测试——这对于评估每个元素以及评估输出和推理逻辑很重要，除了测试端到端解决方案之外。
自动化评估——自动化使得能够在几秒钟内运行数百个测试，使用程序化验证来验证事实准确性以及 Amazon Bedrock 作为 LLM 即判官的模型评估功能。
人工审查——在任务关键型场景中，人工监督很重要。
统计验证——运行具有统计显著性的样本量，通常超过数百个测试用例，以实现高置信区间。
价格性能测试——您可能希望优化生成式 AI 应用程序的成本、延迟和吞吐量。Amazon Bedrock 提供功能和消费选项来帮助您实现目标。例如，您可以使用 Amazon Bedrock 提示缓存或 Amazon Bedrock 智能提示路由来降低延迟和成本，使用 Amazon Bedrock 批量推理处理非实时用例，并使用预置吞吐量以固定成本获得更高水平的模型吞吐量。这个开源基准测试解决方案有助于基准测试性能。有关定价信息，请参阅Amazon Bedrock 定价页面。
延迟——根据用例的不同，保持低延迟可能是必要的。生成式 AI 应用程序中需要考虑独特的延迟维度，例如每秒 Token 数 (TPS)、首次 Token 时间 (TTFT) 和最后 Token 时间 (TTLT)。

在优化应用程序时，构建人员必须记住，在一个维度上优化可能会在其他维度上造成权衡。质量、成本和延迟密切相关，优化其中一个会影响其他维度。

在规模化运行测试时，您需要一种方法来跟踪实验。一种方法是使用 Amazon SageMaker AI with MLflow，这是 Amazon SageMaker AI 的完全托管功能，它允许您创建、管理、分析和比较您的机器学习 (ML) 实验。

第 3 步：将生成式 AI 测试添加到 CI/CD 管道

在确定了用例的最佳模型、提示、推理参数和其他配置后，将这些工件提交到您的应用程序存储库，以触发您的 CI/CD 管道。该管道应执行您预定义的评估测试，为您的生成式 AI 应用程序创建关键的质量门。当测试通过准确性、安全性和性能阈值时，您的管道会部署到 p...

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

使用 Amazon Bedrock 运维生成式 AI 工作负载并扩展到数百个用例 – 第 1 部分：GenAIOps