📢 转载信息
原文作者:Anastasia Tzeveleka, Anna Grüebler, Antonio Rodriguez, and Aris Tsakpinis
企业组织正迅速从生成式AI实验阶段转向生产部署和复杂的智能体AI解决方案,面临着在规模化、安全性、治理和运营效率方面的新挑战。本博文系列将介绍生成式AI运维 (GenAIOps),即将DevOps原则应用于生成式AI解决方案,并演示如何针对由Amazon Bedrock(一项全托管服务,提供业界领先的基础模型 (FM) 选择以及构建生成式AI应用所需的一整套功能)驱动的应用来实现GenAIOps。
在我们的两部分系列文章的第一部分中,您将学习如何为生成式AI工作负载演进现有的DevOps架构并实施GenAIOps实践。我们将展示针对不同生成式AI采用级别的实用实施策略,重点关注基础模型的消费。有关基础模型训练、模型微调和模型蒸馏的信息,请参阅我们的单独资源。第二部分将涵盖AgentOps和用于在生产环境中扩展智能体AI应用的先进模式。
从DevOps到GenAIOps
多年来,企业成功地将DevOps实践嵌入到其应用程序生命周期中,简化了传统软件解决方案的持续集成、交付和部署。当它们在生成式AI采用级别上不断前进时,它们很快就会发现,传统的DevOps实践不足以大规模管理生成式AI工作负载。传统的DevOps强调开发和运维团队之间的无缝协作,并处理具有可预测输出的确定性系统,而AI输出的非确定性、概率性特性要求组织改变管理其生成式AI驱动解决方案生命周期的方法。GenAIOps可以帮助您实现以下目标:
- 可靠性和风险缓解 – 通过护栏、评估管道和自动化监控,防范幻觉、处理非确定性并支持安全的模型升级。
- 规模和性能 – 在保持低响应延迟和高效成本消耗的同时,扩展到数百个应用程序。
- 持续改进和卓越运营 – 构建一致的环境,重用和版本控制生成式AI资产,管理上下文和模型生命周期,并通过自动化评估、微调和人机协作来改进生成式AI系统。
- 安全和合规性 – 在不同级别(模型、数据、组件、应用和端点)实现强大的安全性和合规性。常见问题包括提示注入攻击、模型响应中的数据泄露以及未经授权的模型和工具访问。
- 治理控制 – 建立清晰的政策和问责制,以保护敏感数据和知识产权 (IP),同时确保您的解决方案符合监管要求。
- 成本优化 – 优化资源利用率并管理超支风险。
从宏观上看,GenAIOps生命周期与DevOps相似,但在涉及生成式AI应用时,每个生命周期步骤都有额外的考虑因素。下表描述了每个阶段的DevOps实践以及GenAIOps的扩展。
| 阶段 | DevOps 实践 | GenAIOps 扩展 |
|---|---|---|
| 规划 (Plan) |
|
|
| 开发 (Develop) |
|
|
| 构建 (Build) |
|
|
| 测试 (Test) |
|
|
| 发布 (Release) |
|
|
| 部署 (Deploy) |
|
|
| 维护 (Maintain) |
|
|
| 监控 (Monitor) |
|
|
下图说明了每个阶段的GenAIOps关键活动。
图 1:带有 GenAIOps 关键活动的 DevOps 阶段
GenAIOps 中的人员和流程
在探索GenAIOps实施模式之前,我们先研究一下GenAIOps如何扩展角色和流程,以解决与生成式AI相关的独特挑战。以下是生成式AI应用生命周期的关键角色和支柱:
- 产品所有者和领域专家 定义和确定用例的优先级,创建黄金提示数据集,建立成功指标,并通过快速原型设计验证生成式AI的适用性。
- GenAIOps 和平台团队 标准化账户基础设施,并为模型服务、消费和定制、嵌入存储和组件编排提供环境,他们负责使用基础设施即代码 (IaC)、生产监控和可观测性来设置持续集成和持续交付 (CI/CD) 管道。
- 安全团队 通过访问控制、加密协议和护栏实施纵深防御,同时持续监控新兴威胁和潜在的数据泄露。
- 风险、法律、治理和伦理专家 建立全面的负责任的AI框架,进行系统的风险评估,实施偏见最小化策略,并实现监管一致性。
- 数据团队 为构建、更新和评估生成式AI应用程序提供、准备和维护高质量数据集。
- AI工程师和数据科学家 开发应用程序代码,集成生成式AI功能,实施提示工程技术,构建可重用组件库,管理版本控制系统,使用定制技术并设计人机循环工作流程。
- 质量保证 (QA) 工程师 测试特定于AI的关注点,包括提示鲁棒性、输出质量和护栏有效性,并对新模型版本执行回归测试。
下图说明了这些角色。
图 2:GenAIOps 中的人员和流程
GenAIOps 采用之旅
GenAIOps的实施会因生成式AI在企业中的渗透程度而异。以下是生成式AI采用的三个主要阶段:
- 阶段 1:探索 (Exploration) – 对生成式AI不熟悉的企业,从小型的概念验证 (POC) 开始,以证明对业务的价值。他们的生成式AI资源有限,通常由一小部分早期采用者领导探索。
- 阶段 2:生产 (Production) – 企业已在某些生产用例中证明了生成式AI的价值,并打算扩展到多个用例。他们将其视为业务差异化因素。多个团队使用生成式AI并出现规模化挑战。他们使用 FM、工具和 RAG 等设计模式,并可能开始试验智能体工作流程。此阶段的企业开始为构建者正规化培训计划并建立生成式AI卓越中心。
- 阶段 3:再造 (Reinvention) – 生成式AI已成为企业战略的一部分。企业希望投资于生成式AI资源,并向所有人提供生成式AI构建工具。他们使用复杂的智能体AI解决方案。
随着他们在采用之旅中取得进展,企业会扩展其现有的DevOps工作流以实现GenAIOps。接下来的部分将介绍使用 Amazon Bedrock 功能按阶段划分的 GenAIOps 实施模式。Amazon Bedrock 提供对模型的按需访问、预训练的管理基础设施和内置的安全功能,从而支持快速的生成式AI部署,同时帮助维护企业合规性。
探索 (Exploration)
在探索阶段,组织通常依赖于由早期AI采用者组成的小型跨职能“猛虎小组”,他们身兼数职。数据科学家可能兼任提示工程师,开发人员负责自己的模型评估,合规性审查则通过与法律团队的即兴会议进行。治理流程在很大程度上仍是手动和非正式的,产品所有者直接与技术团队协作以建立成功指标,而平台工程师则专注于基本的环境设置,而不是复杂的 CI/CD 自动化。
DevOps 基础
在将生成式AI功能集成到您的应用程序和工作流程之前,我们需要一个支持您解决方案的基线DevOps架构。如下所示,您有一个共享账户,用于管理 CI/CD 管道并控制跨开发、预生产和生产账户的部署。您还为开发、预生产、数据治理和数据生产者设置了单独的 AWS 账户,以实现环境隔离、安全控制和按环境进行成本跟踪。此设置中的每个资源都定义为代码,这意味着您可以像部署应用程序代码一样无缝地对整个基础设施进行版本控制、测试和部署。
图 3:DevOps 基线架构
了解了 DevOps 基础知识后,我们将向您展示如何使用 Amazon Bedrock 功能增强它,并分四个关键步骤开始构建您的 GenAIOps 基础。
步骤 1:管理生成式 AI 应用的数据
数据在生成式AI中起着三个关键作用:为 RAG 系统提供动力以增强上下文响应、为模型评估和验证提供事实依据,以及通过提供训练数据来支持 AI 模型的初始训练和后续微调。在大多数情况下,需要访问控制以防止未经授权的访问。在 RAG 中,数据用于通过提供来自数据源的相关上下文信息来改进 LLM 响应并以事实为依据。在标准的 RAG 工作流程中,您需要:
- 通过查询从知识库中检索相关内容。
- 通过用检索到的上下文信息丰富提示来增强提示。
- 将包含原始输入和上下文的增强提示传递给 LLM 以生成最终响应。
使用 Amazon Bedrock 时,您可以查询向量数据库(如Amazon OpenSearch Service)或使用 API 查询从数据存储中获取数据,以在将用户查询发送到 FM 之前对其进行丰富。如果您有实时数据源,则需要实施连接器以启用数据同步和与各种数据源的集成,以帮助维护数据完整性和新鲜度。您还需要配置护栏,以便正确阻止或屏蔽不应发送到模型或成为输出一部分的数据,例如个人身份信息 (PII)。
您还可以使用Amazon Bedrock 知识库,这是一项全托管功能,可帮助您实施完整的 RAG 工作流程,而无需构建到数据源的自定义集成或管理数据流。
您的数据在评估中提供了事实来源。在应用程序开发开始之前,生成式AI开发人员应建立一个全面的黄金数据集,该数据集源自现实世界的交互或领域专家输入。稳健的评估数据集应根据您的评估策略,由准确反映现实世界使用场景并全面覆盖预期生产查询的提示或提示-响应对组成。数据工程师将此数据集提供在开发环境中,并对敏感数据进行必要的修改。然后,提示输出,或提示输出与预期答案一起,可供人工评估者或LLM-作为裁判评估者(例如,Amazon Bedrock 模型评估中的 LLM-作为裁判)用来评估应用程序响应的质量。
模型提供商使用广泛的数据集来开发基础AI模型,而最终用户则使用特定领域的数据来微调这些模型,以用于专业应用和目标用例。
在大多数情况下,您需要实施数据治理策略,以便用户在整个系统管道中只能访问授权数据。您还需要控制评估数据集的版本,并跟踪 RAG 知识库中文档和生成的嵌入的变化,以用于评估和审计目的。
总而言之,拥有一个强大的数据基础对生成式AI应用程序非常重要。
步骤 2:建立开发环境
在开发环境中,通过 Amazon Bedrock,您可以使用由AWS PrivateLink驱动的 Amazon Bedrock 虚拟私有云 (VPC) 端点直接访问 FM 和其他生成式AI功能,并在您账户的 VPC 与 Amazon Bedrock 服务账户之间建立私有连接。
您可以使用Amazon Bedrock 提示管理为 FM 创建、测试、管理和优化提示,并使用Amazon Bedrock Flows处理多步骤工作流程,例如需要顺序 LLM 调用的文档分析管道。您还可以配置和应用护栏,并使用Amazon Bedrock 护栏为 FM 交互纳入安全控制。在许多用例中,您希望使用 RAG 为这些模型提供来自公司数据源的上下文信息。您可以实施自管理方法,也可以使用 Amazon Bedrock 知识库,这是一项具有内置会话上下文管理和源归因的全托管功能。
下图显示了从 FM、知识库、智能体和智能提示路由开始的模型消费者的关键 Amazon Bedrock 功能。紧随其后的是护栏、Flows、提示工程,最后是提示缓存。
图 4:Amazon Bedrock 关键组件(面向模型消费者)
评估性能
集成 FM 和生成式AI组件到您的应用程序后,您需要评估它们的性能。此时,您创建测试用例,编写测试配置以测试不同的提示、模型、向量存储和分块策略,并将它们保存在您的应用程序代码或其他选择的工具中,并计算评估指标。Amazon Bedrock 提供评估工具,帮助您加速生成式AI应用的采用。借助Amazon Bedrock 评估,您可以使用自动评估(程序化或使用 LLM-作为裁判)和设置人机循环评估工作流程来评估、比较和选择最适合您用例的 FM。您还可以引入自己的 (BYO) 推理响应,并评估模型、RAG 实现和完整的构建应用程序。
下图总结了这种方法,其中您将使用一个AWS Lambda函数来读取推理提示-响应对,将它们路由到 Amazon Bedrock 评估,并将结果存储在Amazon Simple Storage Service (Amazon S3) 存储桶中。
图 5:开发过程中的评估
如果出现问题,由于生成式AI组件的概率性,您需要系统地对错误进行分类以识别模式,然后才能采取行动,而不是以孤立的方式修复问题。我们建议在标准应用程序测试之外进行以下测试:
- 质量测试 – 生成式AI输出可能会有所不同,可能在一瞬间产生出色的响应,下一刻就出现幻觉。您的 GenAIOps 解决方案应能够根据准确性和完整性等质量指标快速测试输出,并且可以包括自动化测试以及人机循环。
- 安全测试 – 检查不需要的行为。
- 组件级测试 – 这对于评估每个元素并评估输出和推理逻辑非常重要,此外还要测试端到端解决方案。
- 自动化评估 – 自动化使得可以在几秒钟内运行数百个测试,使用程序化验证来验证事实准确性,并使用 Amazon Bedrock 的模型评估功能作为 LLM-作为裁判。
- 人工审查 – 在任务关键场景中,人工监督很重要。
- 统计验证 – 运行具有统计意义的样本量,通常超过数百个测试用例,以实现高置信区间。
- 性价比测试 – 您可能希望针对成本、延迟和吞吐量优化生成式AI应用程序。Amazon Bedrock 提供功能和消耗选项来帮助您实现目标。例如,您可以使用Amazon Bedrock 提示缓存或Amazon Bedrock 智能提示路由来降低延迟和成本,使用Amazon Bedrock 批量推理处理非实时用例,以及使用预置吞吐量以固定成本获得更高水平的模型吞吐量。这个开源基准测试解决方案有助于基准测试性能。有关定价信息,请参阅Amazon Bedrock 定价页面。
- 延迟 – 根据用例的不同,保持低延迟可能是必要的。生成式AI应用需要考虑独特的延迟维度,如每秒 Token 数 (TPS)、首次 Token 时间 (TTFT) 和最后 Token 时间 (TTLT)。
在优化应用程序时,构建者必须记住,在一个维度上优化可能会导致在其他维度上出现权衡。质量、成本和延迟密切相关,优化其中一个会影响其他维度。
在规模化运行测试时,您需要一种方法来跟踪实验。一种方法是使用Amazon SageMaker AI的全托管功能——Amazon SageMaker AI 上的 MLflow,它允许您创建、管理、分析和比较您的机器学习 (ML) 实验。
步骤 3:将生成式 AI 测试添加到 CI/CD 管道
在确定了用例的最佳模型、提示、推理参数和其他配置后,将这些工件提交到您的应用程序存储库以触发 CI/CD 管道。此管道应执行您预定义的评估测试,为您的生成式AI应用程序创建重要的质量门。当测试通过准确性、安全性和性能阈值时,您的管道部署到 p... [内容被截断]
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区