目 录CONTENT

文章目录

定制化智能:打造符合企业DNA的人工智能

Administrator
2025-11-01 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://aws.amazon.com/blogs/machine-learning/custom-intelligence-building-ai-that-matches-your-business-dna/

原文作者:Hannah Marlowe, Alexandra Fedorova, Sri Elaprolu, and Rohit Thekkanal


在2024年,我们在AWS生成式AI创新中心内推出了定制模型计划,旨在为模型定制和优化的每个阶段提供全面支持。在过去两年中,该计划通过与法律、金融服务、医疗保健和生命科学、软件开发、电信和制造等不同行业的全球企业和初创公司合作,取得了卓越的成果。这些合作伙伴关系创建了定制化的AI解决方案,捕捉了每个组织的独特数据专长、品牌声音和专业业务需求。与现成的替代方案相比,这些定制方案运行效率更高,在推理操作上实现了显著的成本节约,并提高了与业务的契合度和相关性。

随着组织超越概念验证项目和基本聊天机器人,我们看到除了提示工程和检索增强生成(RAG)之外,先进的个性化和优化策略正在被越来越多地采用。我们的方法包括为特定任务和品牌一致性创建专业模型,将大型模型提炼成更小、更快、更具成本效益的版本,通过中途训练修改实施更深层次的适配,以及优化硬件和加速器以提高吞吐量同时降低成本。

战略性的前期投资在模型的整个生产生命周期中都能带来回报,正如 Cosine AI 的结果所证明的那样。Cosine AI 是一家AI开发者平台和软件工程代理的开发者,旨在无缝集成到其用户的 [工作流程] 中。他们与创新中心合作,使用Amazon SageMaker AI 对其AI工程助手Genie进行微调,该助手基于Amazon Nova 基础模型。他们取得了惊人的成果,包括 A/B 测试能力提高 5 倍,开发者迭代速度提高 10 倍,以及整体项目速度提高 4 倍。当公司转向代理系统和工作流程时,投资回报率变得更具吸引力,因为在这些复杂的流程中,延迟、任务特异性、性能和深度都至关重要并会累积。

在本文中,我们将分享关键经验和可操作策略,旨在帮助领导者通过定制化实现最大化投资回报率,同时避免常见的实施陷阱。

最大化训练和微调生成式AI模型的五大价值技巧

创新中心建议以下五大技巧,以最大限度地提高训练和微调AI模型的价值:

1. 不要从技术方法入手;要从业务目标反推

这听起来可能很明显,但在与一千多位客户合作后,我们发现,从业务目标反推是创新中心支持的项目实现 65% 的生产成功率(部分项目在 45 天内上线)的关键因素。我们将此策略应用于每个定制项目,首先确定和优先考虑技术解决方案将推动的有形业务成果。成功必须是可衡量的,并能为组织带来真正的业务价值,从而避免那些最终束之高阁而非产生结果的花哨实验。在定制模型计划中,许多客户最初向我们寻求特定的技术解决方案——例如直接进行模型预训练或持续预训练——而没有定义下游用例、数据策略或评估计划。通过首先从明确的业务目标开始,我们确保技术决策与战略目标保持一致,并为组织创造有意义的影响。

2. 选择正确的定制方法

从基线定制方法开始,并在深入研究深度模型定制之前,先尝试更简单的方法。我们向寻求定制模型开发的客户提出的第一个问题是:“你们已经尝试了什么?” 我们建议先用提示工程和 RAG 建立这个基线,然后再探索更复杂的技术。虽然有一系列模型优化方法可以实现更高的性能,但有时最简单的解决方案就是最有效的。建立基线后,确定剩余的差距和机会,以判断是否应该推进到下一个级别,这是否具有战略意义。

定制选项的范围从监督式微调等轻量级方法到从头开始的模型开发。我们通常建议从需要较少数据和计算资源的轻量级解决方案开始,只有在特定用例或剩余差距证明有投资价值时,才转向更复杂的技术:

  • 监督式微调:针对特定用例来优化模型的焦点,例如提供一致的客户服务响应或适应组织偏好的措辞、结构和推理模式。作为全球最大的汽车制造商之一,大众汽车取得了“AI驱动的品牌一致性检查的改进,将识别品牌一致性图像的准确率从 55% 提高到 70%”,大众汽车集团技术负责人 Philip Trempler 博士指出。
  • 模型效率和部署调优:支持像Robin AI 这样的组织——一家AI法律合同技术的领导者——创建定制模型以加快人工验证。组织还可以使用量化、剪枝和系统优化等技术来提高模型性能并降低基础设施成本。
  • 强化学习:使用奖励函数或偏好数据来使模型与首选行为保持一致。这种方法通常与监督式微调相结合,以便像 Cosine AI 这样的组织可以调整模型的决策,以匹配组织偏好。
  • 持续预训练:允许像希腊领先的研究中心Athena RC 这样的组织构建以希腊语为先导的基础模型,从而将语言能力扩展到英语之外。通过在海量希腊数据上持续预训练大型语言模型,Athena RC 增强了模型对希腊语言、文化和用法的核心理解——而不仅仅是其领域知识。他们的 Meltemi-7BLlama-Krikri-8B 模型展示了持续预训练和指令调优如何为研究、教育、工业和社会等领域的应用创建高质量的开放式希腊模型。
  • 领域特定基础模型开发:使TGS(一家领先的能源数据、洞察和技术提供商)等组织能够从头开始构建定制AI模型,这对于具有高度专业化要求和大量专有数据的组织来说是理想选择。TGS 通过解决理解地表之下存在的某些行业中最严峻的挑战,帮助能源公司做出更明智的勘探和开发决策。TGS 增强了其地震基础模型(SFM),使其能够更可靠地检测指示潜在油气藏的地下地质结构(如断层和储层)。其益处很明确:运营商可以减少不确定性,降低勘探成本,并更快地做出投资决策。

数据质量和可访问性将是决定每种定制技术可行性的一个主要考虑因素。高质量的清洁数据对于模型改进和衡量进展都至关重要。虽然一些创新中心客户通过在指令调优的基础模型上使用相对较少量的微调训练对(training pairs)就能实现性能提升,但持续预训练等方法通常需要大量的训练 Token。这印证了从简单开始的重要性——在测试轻量级模型调优时,您可以并行收集和处理更大批次的数据,以备后续阶段使用。

3. 定义“良好”的衡量标准

无论选择哪种技术方法,成功都必须是可衡量的。建立清晰的方法来衡量总体业务成果和技术解决方案的性能至关重要。在模型或应用层面,团队通常会在相关性、延迟和成本的某种组合上进行优化。然而,生产应用的指标不会是通用的排行榜指标——它们必须对您的业务至关重要。

开发内容生成系统的客户会优先考虑相关性、清晰度、风格和语调等指标。请看大众汽车集团的这个例子:大众汽车集团的 Trempler 博士表示:“我们使用营销专家的知识在 SageMaker AI 中微调了 Nova Pro。这提高了模型识别品牌一致性图像的能力,实现了与大众品牌指南更强的对齐。” “我们正在基于这些结果,利用生成式AI在世界各地多元化的汽车市场中推广高质量、品牌合规的内容创建。” 开发一个自动评估流程对于支持迭代解决方案改进至关重要。

对于定性用例,将自动评估与人类专家(特别是在专业领域)保持一致至关重要。一个常见的解决方案是使用 LLM 作为裁判来审查另一个模型或系统的响应。例如,当为 RAG 应用微调生成模型时,您可以使用 LLM 裁判来比较微调模型的响应与您现有的基线。然而,LLM 裁判带有内在的偏见,可能与您内部团队的人类偏好或领域专业知识不一致。Robin AI 与创新中心合作开发了 Legal LLM-as-Judge(法律大语言模型即裁判),这是一个用于法律合同审查的 AI 模型。通过采用专家方法并使用微调技术创建“一组训练有素的裁判员小组”,他们获得了更小、更快的模型,这些模型在审查从保密协议到并购协议等各种文件时仍能保持准确性。该解决方案使合同审查流程加快了 80%,使律师能够专注于战略工作,而 AI 则处理详细分析。

4. 考虑训练和推理的硬件级优化

如果您使用的是像Amazon Bedrock 这样的托管服务,您可以开箱即用地利用内置优化。但是,如果您有一个更定制的解决方案或在技术栈的更低级别上运行,则有几个领域需要考虑优化和效率提升。例如,TGS 的 SFM 处理着巨大的 3D 地震图像(本质上是地球的巨大 CAT 扫描),覆盖范围可达数万平方公里。每个数据集的度量单位都是 PB 级,远远超出了传统手动甚至半自动解释方法可以处理的范围。通过在 AWS 的高性能 GPU 训练基础设施上重建其 AI 模型,TGS 实现了近乎线性的扩展,这意味着增加更多的计算能力几乎可以带来相应的速度提升,同时保持 >90% 的 GPU 效率。因此,TGS 现在可以在几天而不是几周内向客户提供可操作的地下见解,例如识别钻探目标或降低勘探区域的风险。

在模型的整个生命周期中,资源需求通常由推理请求驱动,您在效率上取得的任何提升都会在生产阶段带来红利。减少推理需求的一种方法是通过模型蒸馏来减小模型本身的大小,但在某些情况下,通过深入研究基础设施可以获得额外的收益。一个近期的例子是领先的视频生成平台Synthesia 的创建者,该平台允许用户无需麦克风、摄像头或演员即可创建专业视频。Synthesia 正在不断寻找提高用户体验的方法,包括缩短内容生成时间。他们与创新中心合作,优化了其高效视频生成管道中变分自编码器(Variational Autoencoder)解码器的性能。对其模型因果卷积层进行战略优化,释放了强大的编译器性能增益,而异步视频块写入则消除了 GPU 空闲时间——两者共同实现了端到端延迟的大幅降低和解码吞吐量 29% 的提升。

5. 没有一种尺寸适合所有人

“一种尺寸不适合所有人”的原则适用于模型大小和模型系列。有些模型在特定任务(如代码生成、工具使用、文档处理或摘要)上表现出色。随着创新的快速发展,今天最适合特定用例的基础模型很可能在明天就不再是最佳选择。模型大小对应于参数数量,通常决定了其完成广泛通用任务和能力的能力。然而,大型模型在推理时需要更多的计算资源,在生产规模运行时成本高昂。许多应用不需要在所有方面都表现出色的模型,而只需要一个在更有限的任务集或领域特定能力上表现卓越的模型。

即使在单个应用程序中,根据具体任务、复杂程度和延迟要求,优化可能需要使用多个模型提供商。在代理应用程序中,您可能会为专门的代理任务使用轻量级模型,同时要求一个更强大的通才模型来协调和监督这些代理。构建模块化且能抵御模型提供商或版本变化的解决方案,可以帮助您快速适应并利用改进。像 Amazon Bedrock 这样的服务通过在广泛的模型系列(包括许多模型的定制版本)中提供统一的 API 体验,促进了这种方法。

创新中心如何提供帮助

创新中心的定制模型计划提供从模型选择到定制、实现性能改进以及缩短上市时间和价值实现的全程专家支持。我们的流程从客户的业务需求、战略和目标反推而来,从经验丰富的生成式AI战略家进行的用例和生成式AI能力审查开始。专业的一线应用科学家和工程师会嵌入到客户团队中,为客户训练和调优模型,并将其集成到应用程序中,而数据无需离开客户的 VPC。这种端到端支持已帮助各行业组织成功地将他们的 AI 愿景转化为切实的业务成果。

想了解更多信息? 请联系您的客户经理,了解有关创新中心的更多信息,或前往 re:Invent 在 Expo 的 AWS 展位参观我们。


作者简介

Sri Elaprolu 担任 AWS 生成式 AI 创新中心的总监,他利用近三十年的技术领导经验来推动人工智能和机器学习创新。在此职位上,他领导着一个由机器学习科学家和工程师组成的全球团队,他们为面临复杂业务挑战的企业和政府组织开发和部署先进的生成式和代理式 AI 解决方案。在 AWS 近 13 年的任职期间,Sri 担任了多个高级职位,包括领导与 NFL、Cerner 和 NASA 等知名组织合作的机器学习科学团队。这些合作使 AWS 客户能够利用 AI 和 ML 技术实现变革性的业务和运营成果。在加入 AWS 之前,他在诺斯罗普·格鲁曼公司(Northrop Grumman)工作了 14 年,成功管理了产品开发和软件工程团队。Sri 拥有工程科学硕士学位和专注于一般管理的 MBA 学位,这使他具备了当前领导职位所需的专业技术深度和商业敏锐度。

Hannah Marlowe 领导 AWS 生成式 AI 创新中心的模型定制和优化计划。她由战略家、专业科学家和工程师组成的全球团队直接嵌入到 AWS 客户中,开发针对相关性、延迟和成本进行优化的定制模型解决方案,以推动业务成果并实现投资回报。她在亚马逊的前几份工作包括高级计算实践经理以及计算机视觉和遥感首席专家。Marlowe 博士在爱荷华大学完成了物理学博士学位,研究领域是 X 射线源的建模和模拟以及卫星有效载荷的仪器开发。

Rohit Thekkanal 担任 AWS 生成式 AI 创新中心模型定制领域的机器学习工程经理,领导专注于模型优化的可扩展生成式 AI 应用的开发工作。在亚马逊近十年的时间里,他为对亚马逊零售目录产生重大影响的机器学习计划做出了贡献。Rohit 拥有芝加哥大学布斯商学院的 MBA 学位以及卡内基梅隆大学的硕士学位。

Alexandra Fedorova 领导 AWS 生成式 AI 创新中心模型定制和优化计划的增长工作。她在亚马逊的前几份工作包括 AWS 生成式 AI 创新中心的全球 GenAI 初创企业实践负责人,以及初创企业战略计划和增长的全球负责人。Alexandra 拥有南卫理公会大学的 MBA 学位,以及俄罗斯古布金国立石油和天然气大学的经济学和石油工程学士学位。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区