📢 转载信息
原文作者:Anastasia Tzeveleka, Anna Grüebler, Antonio Rodriguez, and Aris Tsakpinis
企业组织正在迅速地从生成式AI实验转向生产部署和复杂的代理式AI解决方案,面临着在规模化、安全性、治理和运营效率方面的新挑战。本博客系列介绍了生成式AI操作(GenAIOps),即将DevOps原则应用于生成式AI解决方案,并演示了如何为由Amazon Bedrock(一项全托管服务,提供业内领先的基础模型(FM)选择以及构建生成式AI应用所需的一整套功能)驱动的应用程序实施GenAIOps。
在本两部分系列文章的第一部分中,您将学习如何为生成式AI工作负载演进现有的DevOps架构并实施GenAIOps实践。我们将展示针对不同生成式AI采用级别的实用实施策略,重点是消费基础模型。有关基础模型训练、模型微调和模型蒸馏的信息,请参阅我们的独立资源。第二部分将涵盖AgentOps和用于在生产环境中扩展代理式AI应用程序的高级模式。
从 DevOps 到 GenAIOps
多年来,企业成功地将DevOps实践嵌入到其应用程序生命周期中,简化了传统软件解决方案的持续集成、交付和部署。当它们在生成式AI采用级别上不断前进时,它们很快就会发现,传统的DevOps实践不足以大规模管理生成式AI工作负载。传统的DevOps强调开发和运营团队之间的无缝协作,并处理具有可预测输出的确定性系统,而AI输出的非确定性、概率性特性要求组织改变管理其生成式AI驱动解决方案生命周期的方法。GenAIOps可以帮助您实现以下目标:
- 可靠性和风险缓解——通过护栏、评估流水线和自动化监控,防御幻觉,处理非确定性,并启用安全的模型升级。
- 规模和性能——扩展到数百个应用程序,同时保持低响应延迟和高效的消费成本。
- 持续改进和卓越运营——构建一致的环境,重用和版本控制生成式AI资产,管理上下文和模型生命周期,并通过自动化评估、微调和人机协作来改进生成式AI系统。
- 安全与合规——在不同级别(模型、数据、组件、应用程序和端点)实现强大的安全和合规性。常见问题包括提示注入攻击、模型响应中的数据泄露以及未经授权的模型和工具访问。
- 治理控制——在确保解决方案符合监管要求的同时,为敏感数据和知识产权(IP)建立明确的策略和问责制。
- 成本优化——优化资源利用率并管理超支风险。
从高层次上看,GenAIOps生命周期与DevOps类似,但在涉及生成式AI应用程序时,每个生命周期步骤都有额外的考虑因素。下表描述了每个阶段的DevOps实践和GenAIOps扩展。
| 阶段 | DevOps 实践 | GenAIOps 扩展 |
|---|---|---|
| 规划 (Plan) |
|
|
| 开发 (Develop) |
|
|
| 构建 (Build) |
|
|
| 测试 (Test) |
|
|
| 发布 (Release) |
|
|
| 部署 (Deploy) |
|
|
| 维护 (Maintain) |
|
|
| 监控 (Monitor) |
|
|
下图说明了每个阶段的GenAIOps关键活动。
图 1:具有 GenAIOps 关键活动的 DevOps 阶段
GenAIOps 中的人员与流程
在探索GenAIOps实施模式之前,我们先研究GenAIOps如何扩展角色和流程,以应对与生成式AI相关的独特挑战。以下是生成式AI应用程序生命周期的关键角色和支柱:
- 产品所有者和领域专家定义和优先处理用例,创建黄金提示数据集,建立成功指标,并通过快速原型设计验证生成式AI的适用性。
- GenAIOps和平台团队标准化账户基础设施,并为模型服务、消费和定制、嵌入存储以及组件编排配置环境。他们负责使用基础设施即代码(IaC)设置持续集成和持续交付(CI/CD)流水线、生产监控和可观测性。
- 安全团队通过访问控制、加密协议和护栏实施深度防御,同时持续监控新兴威胁和潜在的数据暴露。
- 风险、法律、治理和道德专家建立全面的负责任AI框架,进行系统性风险评估,实施偏见最小化策略,并实现监管一致性。
- 数据团队为构建、更新和评估生成式AI应用程序提供、准备和维护高质量数据集。
- AI工程师和数据科学家开发应用程序代码,集成生成式AI功能,实施提示工程技术,构建可重用组件库,管理版本控制系统,使用定制技术并设计人机循环工作流。
- 质量保证(QA)工程师测试特定于AI的关注点,包括提示鲁棒性、输出质量和护栏有效性,并对新模型版本执行回归测试。
下图说明了这些角色。
图 2:GenAIOps 中的人员与流程
GenAIOps 采用之旅
GenAIOps的实施可能因生成式AI在企业中的渗透程度而异。以下是生成式AI采用的三个主要阶段:
- 阶段 1:探索(Exploration)——对生成式AI不熟悉,组织通常从几个概念验证(POC)开始,以证明其对业务的价值。他们的生成式AI资源有限,通常由一小组早期采用者领导探索。
- 阶段 2:生产(Production)——组织已经在某些生产用例中证明了生成式AI的价值,并打算扩展到多个用例。他们将其视为业务差异化因素。多个团队使用生成式AI并出现规模化挑战。他们使用FM、工具和RAG等设计模式,并可能开始试验代理式工作流。处于此阶段的组织开始正式化构建者的培训计划并建立生成式AI卓越中心。
- 阶段 3:再造(Reinvention)——生成式AI已成为企业战略的一部分。组织希望投资于生成式AI资源,并向所有人提供生成式AI构建工具。他们使用复杂的代理式AI解决方案。
随着他们在采用旅程中取得进展,企业会扩展其现有的DevOps工作流以实现GenAIOps。接下来的几节将介绍使用 Amazon Bedrock 功能按阶段划分的GenAIOps实施模式。通过按需访问模型、预训练的托管基础设施和内置安全功能,Amazon Bedrock 能够快速部署生成式AI,同时帮助维护企业合规性。
探索阶段 (Exploration)
在探索阶段,组织通常依赖于小型、跨职能的“猛虎小组”,这些小组由早期AI采用者组成,他们身兼数职。数据科学家可能兼任提示工程师,开发人员处理自己的模型评估,合规性审查通过与法律团队的临时会议进行。治理流程在很大程度上仍然是手动和非正式的,产品所有者直接与技术团队协作以建立成功指标,而平台工程师则专注于基本的环境设置,而不是复杂的 CI/CD 自动化。
DevOps 基础
在将生成式AI功能集成到您的应用程序和工作流中之前,我们需要一个支持您解决方案的基线DevOps架构。如下所示的图中,您有一个共享账户,用于管理 CI/CD 流水线并在开发、预生产和生产账户中控制部署。您还为开发、预生产、数据治理和数据生产者设置了单独的 AWS 账户,以实现环境隔离、安全控制和按环境跟踪成本。此设置中的每个资源都定义为代码,这意味着您可以像部署应用程序代码一样无缝地对整个基础设施进行版本控制、测试和部署。
图 3:DevOps 基线架构
了解了DevOps基础后,我们将向您展示如何使用 Amazon Bedrock 功能来增强它,并开始构建您的 GenAIOps 基础,共分为四个关键步骤。
步骤 1:管理生成式AI应用程序的数据
数据在生成式AI中起着三个关键作用:为RAG系统提供动力以增强上下文响应、为模型评估和验证提供真实依据,以及通过提供训练数据来支持AI模型的初始训练和后续微调。在大多数情况下,需要访问控制来帮助防止未经授权的访问。在RAG中,数据用于通过提供来自数据源的相关上下文信息来改进LLM响应并使其基于事实。在标准的RAG工作流中,您需要:
- 通过查询从知识库中检索相关内容。
- 通过用检索到的上下文信息丰富提示来增强提示。
- 将包含原始输入和上下文的增强提示传递给LLM以生成最终响应。
当使用 Amazon Bedrock 时,您可以查询向量数据库(如Amazon OpenSearch Service)或使用 API 查询从数据存储中获取数据,以在用户查询发送到 FM 之前对其进行丰富。如果您有实时数据源,则需要实施连接器以启用数据同步和与各种数据源的集成,以帮助保持数据完整性和新鲜度。您还需要配置护栏,以便正确阻止或屏蔽不应发送给模型或成为输出一部分的数据,例如个人身份信息(PII)。
您也可以使用Amazon Bedrock Knowledge Bases,这是一个全托管功能,可帮助您实施整个RAG工作流,而无需构建到数据源的自定义集成或管理数据流。
您的数据在评估中提供了一个事实来源。在应用程序开发开始之前,生成式AI开发人员应建立一个全面的黄金数据集,该数据集源自现实世界的交互或领域专家输入。强大的评估数据集应根据您的评估策略,由准确反映现实世界使用场景并提供预期生产查询全面覆盖的提示或提示-响应对组成。数据工程师将此数据集在开发环境中提供,并应用必要的修改来处理敏感数据。然后,提示输出,或提示输出与预期答案一起,可供人工评估者或 LLM-as-a-judge 评估者(例如Amazon Bedrock 上的 LLM-as-a-judge 模型评估)用来评估应用程序响应的质量。
模型提供商使用广泛的数据集来开发基础AI模型,而最终用户使用特定于领域的数据来微调这些模型以实现专业应用和目标用例。
在大多数情况下,您需要实施数据治理策略,以便用户只能在整个系统流水线中访问授权数据。您还需要控制评估数据集的版本,并跟踪RAG知识库中文档和生成嵌入的变化,以用于评估和审计目的。
总体而言,拥有一个强大的数据基础对生成式AI应用程序很重要。
步骤 2:建立开发环境
在开发环境中,通过将 FM 和其他生成式AI功能集成到您的应用程序中来开始原型设计。在 Amazon Bedrock 中,您可以使用由AWS PrivateLink支持的 Amazon Bedrock 虚拟私有云(VPC)端点直接访问模型,并在您账户中的 VPC 与 Amazon Bedrock 服务账户之间建立私有连接。
您可以使用Amazon Bedrock Prompt Management为 FM 创建、测试、管理和优化提示,并使用Amazon Bedrock Flows来处理多步骤工作流,例如需要顺序 LLM 调用的文档分析流水线。您还可以使用Amazon Bedrock Guardrails配置和应用护栏,并为 FM 交互中嵌入安全控制。在许多用例中,您希望使用RAG从公司的数据源向这些模型提供上下文信息。您可以实施自我管理方法,也可以使用 Amazon Bedrock Knowledge Bases,这是一个具有内置会话上下文管理和源归因的全托管功能。
下图显示了从 FM、知识库、代理和智能提示路由开始的模型消费者关键 Amazon Bedrock 功能。紧接着是护栏、流程、提示工程,最后是提示缓存。
图 4:Amazon Bedrock 模型消费者的关键组件
评估性能
在将 FM 和生成式AI组件集成到应用程序后,您需要评估它们的性能。此时,您创建测试用例,编写测试配置以测试不同的提示、模型、向量存储和分块策略,并将它们保存在应用程序代码或其他选定的工具中,并计算评估指标。Amazon Bedrock 提供了评估工具,可帮助您加速采用生成式AI应用程序。使用Amazon Bedrock Evaluations,您可以使用自动评估(程序化或使用 LLM-as-a-Judge)和设置人工干预的评估工作流来评估、比较和选择最适合您用例的 FM。您还可以自带(BYO)推理响应,评估模型、RAG 实现和完全构建的应用程序。
下图总结了这种方法:您将使用AWS Lambda函数读取推理提示-响应对,将它们路由到 Amazon Bedrock Evaluations,并将结果存储在Amazon Simple Storage Service (Amazon S3) 存储桶中。
图 5:开发期间的评估
如果出现问题,由于生成式AI组件的概率特性,您需要系统地对错误进行分类以识别模式,然后再采取行动,而不是孤立地修复问题。我们建议在标准应用程序测试之外进行以下测试:
- 质量测试——生成式AI输出可能会有所不同,一瞬间产生出色的响应,下一刻就产生幻觉。您的 GenAIOps 解决方案应支持根据质量指标(如正确性和完整性)快速测试输出,也可以包括自动化测试以及人工干预。
- 安全测试——检查不希望出现的行为。
- 组件级测试——这对于评估每个元素并评估输出和推理逻辑很重要,而不仅仅是测试端到端解决方案。
- 自动化评估——自动化使得能够使用程序化验证事实准确性和 Amazon Bedrock 的模型评估功能(作为 LLM-as-judge)在几秒钟内运行数百个测试。
- 人工审查——在任务关键型场景中,人工监督很重要。
- 统计验证——运行具有统计显著性的样本大小,通常超过数百个测试用例,以实现高置信区间。
- 价格性能测试——您可能希望为成本、延迟和吞吐量优化生成式AI应用程序。Amazon Bedrock 提供功能和消费选项来帮助您实现目标。例如,您可以使用Amazon Bedrock 提示缓存或Amazon Bedrock 智能提示路由来降低延迟和成本,使用Amazon Bedrock 批量推理来处理不实时进行的用例,以及使用预置吞吐量以固定的成本实现每种模型的更高吞吐量。这个开源基准测试解决方案有助于基准测试性能。有关定价信息,请参阅Amazon Bedrock 定价页面。
- 延迟——根据用例的不同,保持低延迟可能是必要的。生成式AI应用程序中需要考虑独特的延迟维度,例如每秒 Token 数(TPS)、首次 Token 时间(TTFT)和最后 Token 时间(TTLT)。
在优化应用程序时,构建者必须记住,在一个维度上优化可能会在其他维度上造成权衡。质量、成本和延迟密切相关,优化其中一个会影响其他方面。
在规模化运行时测试,您需要一种方法来跟踪实验。一种方法是使用Amazon SageMaker AI with MLflow,它是Amazon SageMaker AI的一个全托管功能,允许您创建、管理、分析和比较机器学习(ML)实验。
步骤 3:将生成式AI测试添加到 CI/CD 流水线
在为您的用例确定了最佳模型、提示、推理参数和其他配置后,将这些工件提交到您的应用程序存储库,以触发您的 CI/CD 流水线。该流水线应执行您预定义的评估测试,为您的生成式AI应用程序创建至关重要的质量门。当测试通过准确性、安全性和性能阈值时,您的流水线将部署到预生产环境... [内容被截断]
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区