目 录CONTENT

文章目录

AWS AI League:Atos 精细调整 AI 教育方法

Administrator
2026-03-18 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://aws.amazon.com/blogs/machine-learning/aws-ai-league-atos-fine-tunes-approach-to-ai-education/

原文作者:Nick McCarthy and Mark Ross


本文与 Atos 的 Mark Ross 合作撰写。

致力于 AI 转型的组织可能会面临一个共同的挑战:如何大规模地提升员工技能,从而改变团队构建、部署和使用 AI 的方式。传统的 AI 培训方法——在线课程、认证计划和课堂教学——虽然必要,但常常不足。它们可以建立基础知识,但许多组织在参与度低、实践机会有限以及理论理解与实际应用之间存在差距等方面挣扎。因此,团队可能在获得认证后,仍缺乏将 AI 有效应用于业务问题的信心或经验。

通过 Atos 与 AWS 的合作,我们早已认识到实践学习是有效 AI 赋能中缺失的一环。当与结构化的在线学习和认证路径相结合时,体验式学习有助于将知识转化为影响力。如今,Atos 员工拥有超过 5800 项 AWS 认证和 11 个 Golden Jackets,这反映了我们在云和 AI 技能方面的坚实基础。但为了实现到 2026 年实现 100% AI 普及率的目标,我们需要一种能够扩大参与度、加速实践技能并激励工程师将 AI 应用于现实场景的学习模式。

为解决这一问题,Atos 与 AWS 合作,通过 AWS AI League 提供了一种实践性、游戏化的学习体验——旨在超越被动学习,让参与者沉浸在真实的 AI 挑战中。在本文中,我们将探讨 Atos 如何利用 AWS AI League 帮助 400 多名参与者加速 AI 教育,强调游戏化、体验式学习的有形优势,并分享您可以应用于自身 AI 赋能计划的可行见解。

通过 AWS AI League 进行 AI 赋能

虽然在线课程和认证是基本基础,但许多组织难以将这些知识转化为实践经验、持续的参与度和实际的业务影响力——尤其是在大规模的情况下。

AWS AI League 的设计旨在弥合这一差距。该计划不只关注概念学习,而是将实践实验与结构化竞赛相结合,使构建者能够直接与实际环境中使用的大型生成式 AI 工具协同工作。对 Atos 而言,这种方法提供了一种在保持参与度、协作和可衡量结果的同时,加速全组织应用 AI 技能的方式。

AWS AI League 通过抽象化深层基础设施的复杂性,同时保留模型定制和评估的核心机制,帮助构建者提升其 AI 技能。参与者使用 Amazon SageMakerAmazon SageMaker JumpStart 来微调大型语言模型(LLM),从而获得与企业 AI 采用日益相关的技术的实践经验。

为什么微调对业务用例很重要

微调大型语言模型是一种迁移学习的形式——一种机器学习技术,其中预训练模型使用较小的、领域特定的数据集进行调整,而不是从头开始训练。对于业务团队来说,这种方法提供了一种务实的定制途径:它有助于减少训练时间和计算成本,同时允许模型反映专业知识、术语和决策逻辑。

实际上,使用微调的组织可以将通用模型适应于特定的领域,在这些领域中,准确性、推理和可解释性至关重要。对 Atos 而言,这意味着将模型定制到保险承保领域,在该领域,理解风险状况、保单条款、除外责任和保费计算,需要的不只是通用的语言流畅性。AWS AI League 表明,通过正确的结构和工具,各角色的团队——包括解决方案架构师、开发人员、顾问和业务分析师——无需深入的机器学习专业知识即可微调和部署模型。这使得微调成为专注于提供客户就绪的 AI 解决方案的合作伙伴组织的一项实用能力。

AWS AI League 的工作原理

AWS AI League 遵循一个三阶段的结构,旨在培养实践性的、面向生产的 AI 技能,同时保持势头和参与度。该计划以一次沉浸式研讨会开始,介绍使用 SageMaker JumpStart 进行微调的基础知识。SageMaker JumpStart 通过引导式界面提供对预训练基础模型的访问,使参与者能够专注于模型行为和结果,而不是基础设施设置。然后,参与者进入密集的模型开发阶段。在此阶段,团队会迭代多种微调策略,实验数据集构成、增强技术和超参数设置。模型提交结果在一个由基于 AI 的评估系统驱动的动态排行榜上进行评估,该系统以一套一致的标准对性能进行基准测试。这种结构鼓励快速实验,使进展可见,让团队能够将其定制模型与更大的基线模型进行比较。该计划最终以一场现场互动决赛结束。表现最佳的团队通过实时挑战展示他们的模型,并使用多维度评分系统评估输出。技术评委评估深度和正确性,AI 基准测试衡量客观性能,观众投票引入了实际的、面向用户的视角。这些维度共同强化了该联盟的目标:将实践学习转化为在现实场景中表现良好的模型。

Atos 的用例 – 智能保险承保员

在此基础上,Atos 选择了一个贴近真实客户需求的用例:智能保险承保员。该方案通过 AWS AI League 活动开发,目标是微调一个大型语言模型,使其能够分析复杂的保险场景并提供专家级的承保指导。该模型旨在评估风险、推荐适当的保单条款或免赔额、建议保费调整,并清晰解释每个决策的理由——同时符合专业的行业标准。选择此用例并非作为理论练习,而是作为生成式 AI 如何通过提高保险产品线的稳定性和效率来支持承保专业人员的现实示例。该解决方案基于经济高效的、微调过的开源模型,并由 Amazon SageMaker、SageMaker Unified Studio 和 Amazon S3 提供支持,集成了知识库以及基于专有承保数据训练的推理和推荐模块。其结果是一个经济实惠的、定制化的助手,它提高了团队生产力,提高了风险评估的准确性,并与承保人已依赖的真实行业专业知识无缝集成。

使用 Amazon SageMaker Studio 和 Amazon SageMaker JumpStart 进行微调

AWS AI League 参与者在 Amazon SageMaker Studio 内进行模型微调——这是一个完全集成、基于 Web 的机器学习开发环境。SageMaker Studio 提供了一个低代码/无代码(LCNC)界面,用于端到端地构建、微调、部署和监控生成式 AI 模型。通过遵循此方法,Atos 参与者可以专注于实验和创新,而不是基础设施管理,从而加速价值实现。AI League 现在还通过 基于 Amazon Bedrock AgentCore 构建的无服务器 SageMaker 模型定制和智能体挑战 提供 Amazon Nova 模型的定制。

用户在 Amazon SageMaker Studio 中遵循一系列简化的步骤:

  1. 选择模型 – SageMaker JumpStart 提供了一个预训练的、公开可用的基础模型目录,用于文本生成、摘要和图像创建等任务。参与者可以无缝地浏览和选择领先提供商的模型,这些模型已预先集成以进行定制。在此次竞赛中,参与者需要微调 Meta Llama 3.2 3B Instruct 模型,这可以通过使用 Amazon SageMaker Jumpstart 的无代码方式实现。
  1. 提供训练数据集 – 存储在 Amazon Simple Storage Service (Amazon S3) 中的数据集直接连接到 SageMaker,利用其近乎无限的存储容量进行微调任务。
  1. 执行微调 – 用户可以在启动微调作业之前配置超参数,例如学习率、训练轮数和批量大小。SageMaker 然后管理训练过程,包括配置计算资源和记录进度。
  1. 部署模型 – 训练完成后,参与者可以直接从 SageMaker Studio 部署其模型进行推理,或将其导入 Amazon Bedrock,后者提供了一个完全托管的环境,用于可扩展的生产部署。
  1. 评估和迭代 – 在 AWS AI League 期间,评估是通过 LLM-as-a-Judge 进行的,这是一个内部评判系统,可自动根据质量、准确性和响应能力对模型进行评分。

如上图所示的简化工作流程,展示了 AWS AI League 的模型开发生命周期,以及它如何帮助降低开发和运营专用 AI 模型的复杂性,同时保持性能、透明度和成本效益。对 Atos 而言,这个实践过程为将生成式 AI 功能扩展到面向客户的解决方案提供了一个实用、生产就绪的基础。参与者需要以 JSON Lines (JSONL) 格式生成保险用例数据集。每条记录包含两个字段:

  • Instruction – 提示或问题,供智能保险承保员考虑。
  • Response – 一个理想答案的示例,微调后的模型应能生成该答案。

这些数据集构成了模型微调阶段的基础。

为简化数据集创建,参与者可以使用一个 AWS 提供的 PartyRock 应用程序,该应用程序提供了一个易于使用的界面来生成和导出数据。完成后,数据集会上传到 Amazon Simple Storage Service (Amazon S3),并作为模型微调的输入。

在微调过程中,参与者可以调整一系列超参数来影响微调结果,包括但不限于以下几项:

  • Epochs – 微调过程将遍历数据集的次数。
  • Learning rate – 模型每次遍历数据时应用的更新权重。

微调完成后,参与者在 Amazon SageMaker 中部署了他们定制的语言模型,并使用端点进行推理。这使他们能够观察微调后的模型如何响应样本保险查询,并评估其输出的质量。

结果因参与者而异。一些微调模型提供了强大、符合上下文的答案,而另一些则显示出过拟合的迹象——模型过于精确地学习训练数据,导致在遇到新输入时产生重复或不相关的响应。例如,过度训练的模型倾向于重复数据集中的短语,而不是泛化到未见过的情况。有了这些见解,参与者评估了他们的模型性能,并确定了要提交给 AWS AI League 排行榜的版本,以及要优化或放弃的版本。这个迭代过程强调了实验、数据质量和参数调整是实现高性能生成式 AI 模型成功的关键因素。

游戏化激发参与

实践实验室和研讨会是提供实践学习机会的好方法,但提供游戏化的方法,让你与其他人竞争,可以将其提升到另一个水平。Atos 在 AWS AI League 中看到了这一点。在初步启动研讨会之后,Atos 参与者创建并提交了初步模型,然后在一周的虚拟联赛中,他们通过迭代创建或改进数据集并调整超参数来最大化他们在排行榜上的分数。在虚拟回合完成后,Atos 达到了游戏化竞赛的最佳参与水平,排行榜上有 409 名参与者,创建了超过 4100 个微调模型。

尽管比赛具有游戏化的性质,但沟通渠道和办公时间里,人们在分享信息的同时,也小心翼翼地不泄露所有信息。这是一种很好的平衡,确保了那些想要参与和改进的人得到足够的支持,同时又需要自己解决一些问题。这种友好的竞争异常激烈,要想进入前五名,参与者的微调模型必须至少能以 93% 的胜率战胜一个规模大得多的模型的答案,这表明了微调对于领域特定知识的力量。竞赛的虚拟阶段是完全自动化的,一个 Llama 3.2 90B LLM 作为评判者提供评分。虚拟回合结束后,排名前五的参与者进入一场现场游戏决赛,争夺在 12 月 AWS re:Invent 拉斯维加斯大会上进入 AWS 总决赛的席位。

为了对前五名进行排名,现场决赛引入了额外的评分方法,并为决赛选手提供了影响模型输出的机会。决赛评分分为三个部分:LLM-as-a-Judge 占 40%,Atos 的五位人类专家评委占 40%,观众投票占 20%。五轮提问提供了充足的机会来检查模型的性能,在每轮提问中,决赛选手都可以通过一些系统提示和推理超参数调整(温度和 top p,以控制答案的随机性和创造性)来影响模型输出。决赛选手只有 90 秒的时间来调整推理并提交最终答案,因此这是一场紧张而激烈的比赛。

微调成功的秘诀

微调竞赛的关键在于两点——参与者生成关于竞赛主题的良好数据集的能力,以及找到最佳超参数用于使用该数据集进行微调的能力。

虽然 AWS 提供了一个 PartyRock 应用程序来生成数据集,但一些 Atos 参与者受到了该应用程序的启发,并修改了自己的版本。这个应用程序的目的是 a) 生成更多数据,b) 生成多样化且独特的数据,这两方面都优于 AWS 提供的应用程序。一些参与者选择使用他们能够访问的其他生成式 AI 工具来生成自己的响应,但这需要他们创建系统提示,而 PartyRock 应用程序负责验证数据是否以正确的格式提供,例如。

更大的数据集并不一定能带来更好的结果,因此还需要审查生成的数据集,并找出改进它们的方法。成功的参与者也使用了生成式 AI 来做到这一点,提供了关于如何改进的通用建议(例如,对于 Atos 的用例,可能在数据集中缺少保险领域),以及更具体的建议和对数据集采取的行动,例如删除数据集中过于相似的项目。这促成了一个 新的 PartyRock 应用程序 的创建,并在参与者之间共享,以提供改进技巧。

参与者可以控制几个关键的超参数,这些超参数显著影响了微调结果。训练轮数决定了训练过程遍历整个数据集的次数——训练轮数太少会导致欠拟合,模型学习不足;而训练轮数太多可能导致过拟合,模型记忆了训练数据而不是泛化。学习率控制着模型在每个训练步骤中更新的幅度;高学习率可以加快训练速度,但有过度到最优值的风险;而低学习率可以进行更精确的调整,但需要更长的训练时间。

其他参数包括 batch size,它影响训练的稳定性和内存使用;以及低秩自适应(LoRA)参数,如 lora_rlora_alpha,它们控制微调过程的效率。成功的参与者系统地进行了超参数调整,一次更改单个值以隔离其影响,或同时调整相关参数,同时仔细记录结果以识别模式。

理解模型性能和过拟合

这种差异突显了模型行为的一个重要方面。在微调过程中,模型会逐渐擅长回答源自训练和评估数据集的问题,这些数据集是同一底层数据的子集。然而,排行榜使用 87 个未见过的、未包含在训练数据中的问题来评估每个模型。

在微调过程中,参与者还可以监控诸如评估损失(eval-loss)和困惑度(ppl)等指标,这些指标有助于表明模型与训练数据的匹配程度。较低的评估损失和困惑度通常表明模型有效地学习了数据集,而训练和评估指标之间的大差距可能预示着过拟合和泛化能力下降。评估损失是在训练期间在验证或评估数据集上计算的损失值。它衡量模型在当前步骤中对其未直接训练的示例预测正确下一个 token 的程度。困惑度是语言模型常用的一个指标,表示模型对评估数据的“惊讶”程度。较低的困惑度表明模型更能预测正确的下一个 token,表明它更有效地学习了数据集中的底层模式。

结果,一些模型出现了过拟合,这意味着它们在看到的数据上表现极佳,但在泛化到新问题时遇到了困难。可以通过将模型部署到推理端点并直接与之交互来观察这种模式:过拟合的模型通常会产生不相关或重复的响应,这清楚地表明它们记住了训练集中的模式,而不是进行更广泛的推理。

提升技能的雄心壮志得以实现

通过 AWS AI League,Atos 的目标是将生成式 AI 技术交给参与者手中,让他们在活动后更自信地谈论和使用它,同时还能获得乐趣和团队建设。参与者了解到,一个较小的 30 亿参数模型(Llama 3.2 3B Instruct)通过与相关领域知识进行微调,可以优于一个规模大得多的 900 亿参数模型,成为一个真正的数字保险承保助理,能够提供关于风险领域和适当免赔额的适当反馈来回答复杂案例等。随着生成式 AI 和智能体 AI 的发展,我们看到了更多针对 AI 代理特定知识的应用场景。微调模型以提供这种特定知识可以产生更小的模型,从而以比大型模型更低的成本提供更快的推理,这在我们进入智能体 AI 时代时至关重要。当您转向智能体 AI 架构,其中多个专用 AI 代理协作解决复杂问题时,具有成本效益的、特定领域的模型变得至关重要。微调模型可以在更大的智能体系统中充当专用代理,每个代理处理特定领域,同时保持快速的响应时间和可控的成本。

结论

随着您继续探索生成式 AI 的实现,高效地构建、定制和部署专用模型的能力变得越来越重要。AWS AI League 为 Atos 等合作伙伴提供了一条结构化的途径,以深化其 AI 能力——无论是增强现有产品还是创建全新的、由 AI 驱动的服务,以满足现实世界的客户需求。AWS AI League 项目展示了游戏化学习如何能够加速合作伙伴的 AI 创新,同时驱动可衡量的业务成果。AWS AI League 为 Atos 带来了超越参与度的可衡量成果。该项目表明,微调的 3B 参数模型在特定领域的任务上可以实现超过 93% 的胜率,优于规模大得多的 90B 参数模型,证明了专用模型开发的成本效益。从资源角度来看,微调模型所需的计算基础设施更少——使用 ml.g5.4xlarge 实例,而大型基础模型需要 ml.g5.48xlarge 实例——这在规模化推理时转化为成本节省。缩短的学习时间尤其有价值,参与者能够在短短两周内掌握通常需要数月传统培训才能获得的实用 AI 技能。活动期间的 409 名活跃参与者和创建的 4100 多个微调模型,代表了 Atos 在实现 2026 年全员 AI 普及目标方面的加速进展。活动后调查显示,85% 的参与者对与客户讨论和实施生成式 AI 解决方案感到更有信心,直接支持了 Atos 的业务目标。

如果您有兴趣通过实践性的游戏化学习来构建 AI 能力,可以访问 官方网站 了解更多关于主办自己的 AWS AI League 活动的信息。

要了解更多关于实施 AI 解决方案的信息:

您还可以访问 AWS 人工智能博客,获取更多关于合作伙伴和客户在各行业实施生成式 AI 解决方案的故事。


关于作者

Nick McCarthy

Nick McCarthy 是 Amazon Bedrock 团队的高级生成式 AI 解决方案架构师,常驻 AWS 纽约办公室。他帮助客户在 AWS 上定制他们的 GenAI 模型。他曾与医疗、金融、体育、电信和能源等多个行业的客户合作,帮助他们通过人工智能和机器学习加速业务成果。他拥有伦敦大学学院物理学学士学位和机器学习硕士学位。

Mark Ross

Mark 是 Atos 云与现代基础设施工程部门的 AWS 首席架构师,自 2017 年以来一直与 AWS 合作。Mark 在金融服务、快速消费品、政府、健康、公用事业和媒体等多个行业拥有二十多年的技术经验。Mark 热衷于帮助客户构建、迁移和利用 AWS 技术,他是一名 AWS 大使、AWS 社区建设者,并且自 2021 年以来一直持有备受追捧的 AWS Golden Jacket。工作之余,Mark 热爱旅行和橄榄球。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区