📢 转载信息
原文作者:Thong Seng Foo and Kamlesh Bhatt
在过去两年里,我与许多利用生成式AI改变其组织面貌的客户合作。大多数公司都停滞在实验阶段,因为在交付可证明的价值之前,成本就会堆积,时间线也会延长。2023年AWS MIT首席数据官(CDO)论坛的一项调查证实了这一点,报告称,虽然71%的首席数据官正在试验生成式AI,但只有6%成功将其部署到生产环境。
成功的采用者通过构建可复用的组件来避免这种陷阱,这些组件可以加速开发并控制成本。在本文中,我将阐述如何将平台工程原则应用于生成式AI,从而实现更快的价值实现时间、成本控制和可扩展的创新。
为什么选择平台工程?
平台工程并非一个新概念。在传统软件开发中,团队很早就投资于构建功能性工具来加速应用开发。这种方法不仅节省了时间和金钱,还通过隔离关注点,使开发团队能够专注于提高应用程序质量。一个专门的平台工程团队负责创建和增强这些工具,提供扩展的功能、易用性和持续改进。
如以下图表所示,不仅新的大型语言模型(LLM)发布得越来越频繁,而且它们在2025年初的基准分数改进速度是2024年的两倍。这种加速的创新步伐使得平台工程尤为重要,它使组织能够快速采用更新、更有能力的模型,集成最新的进展,并持续增强其应用程序。
此外,平台工程方法通过可复用组件和标准化框架实现了可扩展性和效率,从而能够快速部署多个AI模型和应用程序。标准化的流程和工具有助于确保一致性和高质量的输出。通过在整个平台上统一实施,可以增强安全性、合规性和道德标准。AI开发人员可以将精力集中在创新解决方案而非基础设施上,从而加速创新。通过减少工作重复和资源浪费,成本管理得到改善,使得生成式AI更经济实惠。一个共享平台促进了协作,打破了孤岛,形成了更具凝聚力的AI解决方案。最后,直观、用户友好的工具降低了学习曲线,提高了开发人员的生产力。
生成式AI应用的解剖结构
想象生成式AI应用的外观时,一个好的起点是参考我们对现有大多数应用的了解。在前生成式AI时代,应用主要以某种形式处理数据,通常包含三个层次:表示层(或前端层)、应用逻辑层和数据层,如下图所示。

每一层都有明确定义的角色——表示层捕获用户指令和输入数据;应用层通过从数据层检索数据(对于READ操作)或在写入数据层之前处理输入来支持该指令;数据层接收来自应用层的指令并为数据提供持久性。
生成式AI应用由相同的基本设置组成;然而,应用不再仅仅处理数据的CRUD(创建、读取、更新、删除)操作——生成式AI技术用生成层取代了数据层。数据现在是更广泛的中间层的一部分,并为生成层提供支持功能,如下图所示。

生成式AI的平台工程蓝图
有了这个生成式AI应用的思维模型,您就可以开始考虑根据为什么选择平台工程?中描述的合理平台工程原则,可以构建哪些可复用的组件。下图是本节所述组件的概述。

前端组件
所有应用都需要一个出色的表示层,特别是对于生成式AI,您需要一个能够涵盖几个关键功能的表示层。如果您正在构建一个交互式应用,您可能需要会话管理功能,以便应用能够记住与用户的交互,并随着时间的推移重复使用这些数据作为上下文来指导未来的响应。由于此类交互是私有的,因此您需要足够的身份验证和授权控制,以确保个人访问安全。这些功能可以打包到许多微前端组件之一中,这些组件可跨所有应用复用,从而节省开发时间,并为应用增添一致的组织风格。最后,交互式前端只是与应用交互的一种渠道;在其他情况下,通过RESTful或Websocket API暴露它们可能更有意义,这样您就可以嵌入到网站或内部消息应用中。因此,通过构建一个定义明确的连接器层,您可以标准化所有相关方面(如安全性、监控和日志记录以及文档),并支持独立实验。
数据
为了释放最大的业务价值,您需要通过构建合适的数据基础设施,将组织数据纳入您的生成式AI用例中,以便能够安全、大规模地访问这些数据。数据可以归类为非结构化数据(存储在内网站点、维基百科、内容和知识管理系统中)和结构化数据(存储在事务性数据库、数据仓库和外部软件即服务(SaaS)中)。使每种类型的数据广泛可用需要不同的处理方式。 对于非结构化数据,构建一个元数据索引层使其可搜索。其中一种方法是使用向量化,它利用嵌入模型将非结构化数据转换为向量表示并将其存储在向量数据库中。通过向量搜索功能,您可以为不同的组织领域(如人力资源、金融和营销)构建知识库。这些向量数据库会随着新技术、分块策略和嵌入模型的出现,为提高搜索和检索的准确性和相关性而逐步发展。
对于结构化数据,虽然LLM可以通过编写自己的SQL查询并通过预配置的JDBC或ODBC连接进行查询,但构建专为生成式AI用途设计的专用接口更具可扩展性和安全性。这些可以是定义明确的数据API,旨在利用只读副本处理更大的查询,这有助于隔离主要事务系统,使其免受来自生成式AI应用的读取请求激增的影响。虽然RESTful API因其低复杂性和快速部署而是一个不错的选择,但您也可以探索GraphQL API,后者功能更强大,尤其是在通过通用接口查询多个数据存储时。GraphQL通过不同的数据解析器来接口不同的数据库来实现这一点,即使这些数据库操作着不同的底层技术(SQL或NoSQL)。生成式AI应用可以记住相同的GraphQL API端点和API调用,但随着更多解析器的添加,可以访问更多的数据源。在AWS上,您可以使用Amazon API Gateway和Amazon AppSync分别实现RESTful和GraphQL API。
随着越来越多数据可供生成式AI应用使用,建立强大的数据治理变得至关重要,用于跟踪、监控和保护数据访问。您应该在数据级别应用细粒度权限,以确保每个生成式AI应用只能访问其(或其用户)被允许访问的数据。为了大规模实施这一点,您可以使用AWS Lake Formation来定义和强制在Amazon Simple Storage Service (Amazon S3)中存储的数据上进行细粒度访问控制,而无需手动管理单个AWS Identity and Access Management (IAM)策略。它支持表级和列级权限,与AWS CloudTrail集成进行审计,并为共享同一数据湖的AI工作负载启用集中式、细粒度的治理。
控制
您可以构建一个统一的输出控制层,该层适用于组织内所有生成的AI应用。通过这样做,无论使用哪种语言模型,您都可以对所有输出应用一套一致的质量和安全策略。输出控制可分为两大类。第一类是安全控制,侧重于确保响应无毒性(toxicity)、避免敏感主题或关键词(过滤)以及限制个人身份信息(PII)的暴露(屏蔽)。第二类是质量控制,有助于确保响应的准确性,包括忠实度、正确性和对原始提示的相关性等方面。为了在所有生成式AI应用中统一强制执行这些控制,您可以实施标准化的执行层。该层应包括一个经过微调的语言模型,用于在输出提供给用户之前对其进行清理和评估。
可观测性
可观测性对于维护生成式AI应用的健康和性能至关重要。它涉及监控、记录和评估模型的行为、用户交互和系统性能,以确保生成式AI应用顺利运行并及时检测到问题。监控包括捕获用户交互和记录响应时间的反馈机制,确保系统满足性能预期。容量监控确保系统能够在不同负载下适当扩展。日志记录涉及捕获详细的交互日志,有助于诊断问题和了解用户行为。通过基准测试和对抗性测试进行的评估和测试有助于评估AI模型的稳健性和准确性。通过实施全面的可观测性实践,您可以维护所有生成式AI应用的高标准性能和可靠性。AWS可观测性服务,包括Amazon CloudWatch、AWS X-Ray和Amazon OpenSearch Service,提供了全面的监控、日志记录和分析能力。
编排
随着生成式AI应用的日益复杂,它们通常会超越单次提示交互,转向协调多个步骤和服务的工作流。这就是编排变得至关重要的原因。复杂任务可能涉及经典的AI组件,如光学字符识别(OCR)、提示分解,或使用专业语言模型处理子任务。为了管理这些工作流,AWS Step Functions提供了无服务器、事件驱动的编排,用于序列化任务、处理重试和维护状态,构成了AI逻辑的骨干。这方面的关键部分是提示管理——一种跨执行跟踪、版本控制和持久化提示模板、子提示和中间结果的能力。Amazon DynamoDB通过提供可扩展、低延迟的存储来支持这一点,从而可以实时访问提示元数据和智能体状态,确保工作流行为的一致性和可追溯性。
可复用的逻辑或API调用可以使用AWS Lambda嵌入,允许在链中灵活执行函数。随着应用采用智能体工作流(其中LLM充当具有定义角色的模块化智能体),Step Functions协调智能体交互,而DynamoDB则作为持久的上下文记忆。
总之,这些组件支持结构化链接、可靠的提示管理和可扩展的智能体工作流,为复杂的生成式AI系统提供了模块化、有弹性且智能的编排。
大型语言模型
大型语言模型部署在应用的生成层中。我们可以选择各种在性能和成本上有所不同的模型,这些模型可分为预训练模型、微调模型和定制模型。每种类型根据应用的特定要求服务于不同的目的并提供独特的优势。
预训练模型是许多生成式AI应用的基础。这些模型在海量多样化数据上进行训练,可以根据输入提示生成连贯且上下文相关的文本。预训练模型非常适合不需要广泛领域特定定制的通用任务。Amazon Bedrock上提供的预训练模型示例包括Anthropic的Claude模型和Meta的Llama模型。组织可以使用Amazon Comprehend和Amazon Polly等AWS服务,将这些预训练模型用于自然语言理解和文本转语音转换等任务。这些模型提供了一个强大的基线,可以快速部署以执行各种功能,从而节省时间和资源。
虽然预训练模型用途广泛,但微调模型为特定任务提供了更高的特异性和准确性。微调涉及采用预训练模型,并在较小的、特定领域的数据集上对其进行进一步训练。此过程允许模型适应特定行业或应用的细微差别和复杂性。例如,可以对LLM进行微调,以理解医疗应用的医疗术语或法律解决方案的法律术语。Amazon SageMaker提供了端到端的功能,用于大规模构建、训练和部署机器学习模型,组织可以利用这些功能高效地对预训练模型进行微调,以实现领域特定的精度。
定制模型从头开始构建,以满足高度专业化的需求。这些模型完全基于代表应用特定需求和上下文的精选数据集进行训练。定制模型最适合现有预训练或微调模型因数据或任务复杂性的独特性而不足以满足的场景。开发定制模型需要大量的专业知识和资源,但它们提供了无与伦比的准确性和相关性。AWS通过SageMaker提供了广泛的工具和框架,数据科学家和机器学习工程师可以利用这些工具来构建、训练和部署完全符合其精确规格的定制模型。
结论
LLM的持续发展,加上针对特定任务性能优于通用模型的专业模型的兴起,凸显了对灵活的平台工程方法的需要。这种方法简化了新模型的评估、集成和操作化,使组织能够持续增强其生成式AI应用。至关重要的是,它有助于多模型工作流的编排,将来自不同专业模型的输**出串联起来,以最大化整体能力。通过采纳这种以平台为中心的策略,公司可以为其生成式AI计划实现面向未来的准备,快速实现创新,同时保持可扩展性、一致性和负责任的做法。要进一步探索在生成式AI应用中实施平台工程,请参考以下AWS资源:
- 在AWS上构建生成式AI应用的最佳实践:这篇博客文章深入探讨了开发生成式AI应用的各种方法,包括提示工程、检索增强生成(RAG)和模型定制。
- 使用Amazon Bedrock构建良好架构的生成式AI解决方案,实现卓越的运营表现:本文讨论了在规模化部署生成式AI的同时保持卓越运营的策略,强调了良好架构方法的重要性。
- 选择AWS上的生成式AI服务:这个AWS文档指南可帮助您根据组织需求选择最合适的AWS生成式AI服务和工具。
- AWS上的生成式AI应用构建器:此解决方案通过整合您的业务数据、比较LLM的性能、通过AI智能体运行多步骤任务、快速构建可扩展的应用以及以企业级架构进行部署,来加速您的AI开发。
关于作者
Thong Seng Foo是亚马逊网络服务(AWS)驻新加坡的首席解决方案架构师,专注于公共部门数字化转型和大规模AI平台设计。他就构建安全的云基础、数字公共基础设施和国家AI能力向亚太地区的政府提供建议。
Kamlesh Bhatt是AWS专业服务部门驻新加坡的高级专业服务架构师。他拥有十年云和数据经验,重点关注人工智能、机器学习和生成式AI。他专注于构建机器学习平台和生成式AI产品,帮助组织利用云计算和先进AI技术的强大功能。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区