目 录CONTENT

文章目录

亚马逊目录团队如何利用 Amazon Bedrock 构建可自学习的生成式AI系统

Administrator
2026-01-24 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://aws.amazon.com/blogs/machine-learning/how-the-amazon-com-catalog-team-built-self-learning-generative-ai-at-scale-with-amazon-bedrock/

原文作者:Tarik Arici, Amin Banitalebi, Erdinc Basci, Mey Meenakshisundaram, Puneet Sahni, and Sameer Thombare


Amazon.com 目录是每位客户购物体验的基础——它是产品信息的权威来源,其属性驱动着搜索、推荐和发现。当卖家发布新产品时,目录系统必须提取结构化属性(如尺寸、材料、兼容性和技术规格),同时生成符合客户搜索习惯的标题。标题并非简单的颜色或尺寸的枚举,它必须平衡卖家的意图、客户的搜索行为和可发现性。这种复杂性乘以每天数百万次的提交,使得目录丰富化成为自学习人工智能的理想试验场。

在本文中,我们将展示亚马逊目录团队如何使用 Amazon Bedrock 构建一个在规模上持续提高准确性并降低成本的自学习系统。

挑战

在生成式AI部署环境中,提高模型性能需要持续关注。由于模型处理数百万种产品,它们不可避免地会遇到边缘案例、不断发展的术语和特定领域的模式,这些都可能导致准确性下降。传统方法——应用科学家分析故障、更新提示词、测试变更和重新部署——虽然有效,但资源消耗大,并且难以跟上现实世界的体量和多样性。挑战不在于我们能否改进这些系统,而在于如何使改进可扩展自动化,而不是依赖于手动干预。在亚马逊目录团队,我们正视了这一挑战:权衡似乎是不可能的——大型模型能提供准确性,但无法高效地扩展到我们的体量;而小型模型则难以处理卖家最需要帮助的复杂、模糊的案例。

解决方案概述

我们的突破源于一次非传统的实验。我们没有选择单一模型,而是部署了多个小型模型来处理相同的产品。当这些模型在属性提取上达成一致时,我们可以相信结果。但当它们出现分歧时——无论是由于真正的模糊性、缺少上下文,还是其中一个模型出错——我们发现了深刻的道理。这些分歧不一定都是错误,但几乎总是复杂性的指示器。这促使我们设计了一个重新构想生成式AI扩展方式的自学习系统。多个小型模型通过共识处理常规案例,仅在出现分歧时才调用更大型的模型。大型模型被实现为一个主管代理(supervisor agent),它可以使用专门的工具进行更深入的调查和分析。但主管不仅是解决争议,它还会生成可重用的学习经验,存储在动态知识库中,以帮助避免未来出现同类分歧。系统仅在推理时检测到高学习价值时才调用更强大的模型,同时纠正输出。结果是一个自学习系统,其成本随时间降低,质量随时间提高——因为系统学会了处理先前需要主管调用的边缘案例。错误率持续下降,不是通过重新训练,而是通过将解决分歧积累的学习经验注入到小型模型的提示词中。下图展示了这个自学习系统的架构。

在自学习架构中,产品数据流经生成器-评估器工作线程(generator-evaluator workers),分歧被路由到主管进行调查。推理后,系统还会捕获来自卖家(如列表更新和申诉)和客户(如退货和负面评论)的反馈信号。来自这些来源的学习经验被存储在分层知识库中,并被注入回工作线程的提示词中,从而形成一个持续改进的循环。

下图描述了一个简化的参考架构,展示了如何使用 AWS 服务构建这种自学习模式。虽然我们的生产系统具有额外的复杂性,但该示例说明了核心组件和数据流。

该系统可以使用 Amazon Bedrock 构建,它为多模型架构提供了必要的底层支持。Amazon Bedrock 访问各种基础模型的能力使团队能够部署像 Amazon Nova Lite 这样的小型高效模型作为工作线程,并部署像 Anthropic Claude Sonnet 这样功能更强大的模型作为主管——从而优化了成本和性能。为了在规模上实现更高的成本效益,团队还可以将开源小型模型部署在 Amazon Elastic Compute Cloud (Amazon EC2) GPU 实例上,从而完全控制工作线程模型的选择和批量吞吐量的优化。要将主管代理及其专用工具和动态知识库投入生产,Bedrock AgentCore 提供了运行时可扩展性、内存管理和可观测性,以可靠地大规模部署自学习系统。

我们的主管代理与亚马逊广泛的 Selection and Catalog Systems 集成。上图是简化视图,展示了代理的关键特性以及使其成为可能的一些 AWS 服务。产品数据流经生成器-评估器工作线程(Amazon EC2 和 Amazon Bedrock Runtime),共识结果直接存储,分歧被路由到主管代理(Bedrock AgentCore)。学习聚合器和内存管理器使用 Amazon DynamoDB 存储知识库,学习经验被注入回工作线程的提示词中。人工审核(Amazon Simple Queue Service (Amazon SQS))和可观测性(Amazon CloudWatch)完善了架构。生产部署可能需要额外的组件来实现规模、可靠性以及与现有系统的集成。

但我们是如何得出这个架构的?关键的洞察来自于一个意想不到的地方。

洞察:将分歧转化为机遇

在一次调试过程中,我们的观点发生了转变。当多个小型模型(如 Nova Lite)对产品属性产生分歧时——它们根据对技术术语的理解以不同的方式解释相同的规格——我们最初将其视为故障。但数据讲述了另一个故事:我们的模型出现分歧的产品,与需要更多人工审核和澄清的案例相关联。当模型出现分歧时,那正是需要额外调查的产品。这些分歧暴露了学习机会,但我们无法让工程师和科学家对每一个案例进行深入研究。主管代理会自动且大规模地完成这项工作。至关重要的是,目标不仅仅是判断哪个模型是正确的——而是提取有助于防止未来出现类似分歧的学习经验。这是高效扩展的关键。分歧不仅来自推理时的人工智能工作线程。推理后,卖家通过列表更新和申诉表达分歧——这些信号表明我们最初的提取可能遗漏了重要的上下文。客户通过退货和负面评论表示分歧,这通常表明产品信息不符合预期。这些推理后的人工信号输入到同一个学习管道中,主管代理调查模式并生成有助于防止未来产品出现类似问题的学习经验。我们找到了一个最佳点(sweet spot):AI工作线程分歧率适中的属性产生了最丰富的学习经验——高到足以浮现出有意义的模式,低到足以表明是可解决的模糊性。当分歧率过低时,通常反映的是噪声或根本性的模型限制,而不是可学习的模式——对于这些情况,我们考虑使用功能更强大的工作线程。当分歧率过高时,则表明工作线程模型或提示词尚不成熟,触发了过多的主管调用,从而破坏了架构的效率提升。这些阈值因任务和领域而异;关键在于识别出分歧代表着值得调查的真正复杂性,而不是工作线程能力的基本差距或随机噪声的最佳点

深入探究:工作原理

我们系统的核心是多个轻量级工作线程模型并行运行——有些作为提取属性的生成器,有些作为评估提取结果的评估器。这些工作线程可以以非代理(non-agentic)方式实现,输入固定,使其适合批量处理和扩展。生成器-评估器模式创造了一种建设性的张力(productive tension),概念上类似于生成对抗网络(GANs)中的建设性张力,尽管我们的方法是通过提示词而非训练在推理时操作。我们明确提示评估器要保持批判性,指示它们仔细审查提取内容,以发现模糊性、缺少上下文或潜在的误解。这种对抗性动态浮现了代表真正复杂性的分歧,而不是让模糊案例在未被发现的情况下通过。当生成器和评估器达成一致时,我们对结果有很高的信心,并以最低的计算成本处理它。这种共识路径处理了大多数产品属性。当它们出现分歧时,我们就确定了一个值得调查的案例——触发主管来解决争议并提取可重用的学习经验。

我们的架构将分歧视为普适的学习信号。在推理时,工作线程之间的分歧会捕获模糊性。推理后,卖家反馈捕获与意图的错位,客户反馈捕获与预期的错位。这三个渠道都输入到主管,主管提取学习经验以全面提高准确性。当工作线程出现分歧时,我们会调用主管代理——一个能力更强的模型,它会解决争议并调查发生的原因。主管确定了工作线程缺乏哪些上下文或推理过程,这些见解就成为未来案例的可重用学习经验。例如,当工作线程根据某些技术术语对产品的使用分类产生分歧时,主管调查并澄清了仅凭这些术语是不够的——还需要将视觉上下文和其他指标结合考虑。主管生成了一个关于如何正确权衡该产品类别的不同信号的学习经验。该学习经验立即更新了我们的知识库,并注入到类似产品的工​​作线程提示词中后,有助于避免未来数千个项目出现分歧。虽然工作线程在理论上可以与主管使用相同的模型,但使用小型模型对于大规模效率至关重要。架构优势源于这种不对称性:轻量级工作线程通过共识处理常规案例,而能力更强的主管仅在分歧浮现高价值学习机会时才被调用。随着系统积累学习经验和分歧率下降,主管调用自然会减少——效率提升直接内置于架构中。这种工作线程与主管的异构性还支持更丰富的调查。由于主管是选择性调用的,它们可以承担拉取额外信号的成本——客户评论、退货原因、卖家历史记录——这些信号对于每个产品都检索是不切实际的,但在解决复杂分歧时能提供关键的上下文。当这些信号产生关于客户希望如何展示产品信息的普遍见解时——哪些属性需要突出,哪种术语能引起共鸣,如何构建规格说明——由此产生的学习经验可以使未来对类似产品的推理受益,而无需再次检索这些资源密集型的信号。随着时间的推移,这会形成一个反馈循环:更好的产品信息导致更少的退货和负面评论,这反过来又反映了客户满意度的提高。

知识库:使学习经验可扩展

主管在单个产品级别调查分歧。面对数百万个项目需要处理,我们需要一种可扩展的方式将这些特定于产品的见解转化为可重用的学习经验。我们的聚合策略适应上下文:高容量模式被合成为更广泛的学习经验,而独特或关键的案例则单独保留。我们使用一种分层结构,其中基于大型语言模型(LLM)的内存管理器导航知识树,以放置每个学习经验。从根节点开始,它遍历类别和子类别,在每个级别决定是沿着现有路径继续向下,创建新的分支,与现有知识合并,还是替换过时的信息。这种动态组织允许知识库随新模式发展,同时保持逻辑结构。在推理过程中,工作线程根据产品类别从其提示词中接收相关的学习经验,自动整合过去的冲突的领域知识。知识库还引入了可追溯性——当提取结果似乎不正确时,我们可以精确定位是哪个学习经验影响了它。这使得审计从一项不可扩展的任务转变为一项实用的任务:无需查看数百万个输出的样本——其中人工工作量与规模成正比——团队可以审计知识库本身,无论推理量多大,其大小都相对固定。领域专家可以通过添加或修改条目直接贡献,无需重新训练。一个精心设计的学习经验可以立即提高数千个产品的准确性。知识库弥合了人类专业知识和人工智能能力之间的鸿沟,自动化学习经验和人类见解协同工作。

经验教训和最佳实践

此自学习架构最适用场景:

  • 高容量推理,其中输入多样性推动了复合学习
  • 质量关键型应用,其中共识提供了自然的质量保证
  • 不断发展的领域,其中不断出现新模式和新术语

它不太适用于低容量场景(学习所需的分歧不足)或规则固定不变的使用案例。

成功的关键因素:

  • 定义分歧:使用生成器-评估器对时,当评估器标记提取内容需要改进时,就会发生分歧。对于多个工作线程,相应地调整规模阈值。关键在于在工作线程之间保持建设性的张力。如果分歧率超出了生产范围(过低或过高),请考虑使用能力更强的工作线程或改进的提示词。
  • 跟踪学习有效性:分歧率必须随时间下降——这是您的主要健康指标。如果费率保持不变,请检查知识检索、提示注入或评估器的批判性。
  • 知识组织:将学习经验分层组织并使其可操作。抽象的指导没有帮助;具体、明确的学习经验直接改进未来的推理。

常见陷阱

  • 重成本而轻智能:降低成本是副产品,而不是目标
  • 评估器“橡皮图章”:仅仅批准生成器输出的评估器不会产生有意义的分歧——提示它们积极挑战和批判提取内容
  • 糟糕的学习经验提取:主管必须识别可概括的模式,而不仅仅是修复单个案例
  • 知识腐烂:没有组织,学习经验将变得不可搜索和不可用

关键见解是:将不断下降的分歧率视为您的北极星指标——它们表明系统正在真正学习。

部署策略:两种方法

  • 先学习后部署(Learn-then-deploy):从基本提示词开始,让系统在预生产环境中积极学习。领域专家然后审计知识库——而不是单个输出——以确保学习到的模式与期望的结果一致。批准后,使用经过验证的学习经验进行部署。这最适合您尚不清楚“好”是什么样子的新用例——分歧有助于发现正确的模式,知识库审计允许您在生产之前塑造它们。
  • 部署后学习(Deploy-and-learn):从经过完善的提示词和良好的初始质量开始,然后在生产中通过持续学习不断改进。这最适用于您可以在开始时定义质量,但仍希望随着时间推移捕获特定领域细微差别的用例。

这两种方法都使用相同的架构——选择哪种取决于您是在探索新领域还是优化熟悉的基础。

结论

从目录丰富化的实验开始,揭示了一个基本真理:AI系统不必一成不变。通过将分歧视为学习信号而非故障,我们构建了一个架构,该架构通过实际使用积累领域知识。我们目睹了系统从通用理解演变为特定领域的专业知识。它学习了特定行业的术语。它发现了跨类别变化的上下文规则。它适应了任何预训练模型都不会遇到的要求——所有这些都无需重新训练,而是通过存储在知识库中并注入回工作线程提示词中的学习经验实现。对于操作类似架构的团队来说,Amazon Bedrock AgentCore 提供了专用的功能:

  • AgentCore 运行时处理例行案例的快速共识决策,同时在主管调查复杂分歧时支持扩展推理
  • AgentCore 可观测性提供对驱动影响的学习经验的可视性,帮助团队在规模上完善知识传播并维护可靠性

影响超出了目录管理范围。高容量的 AI 应用程序都可以从这一过程中受益——而 Amazon Bedrock 访问各种模型的能力使这种架构易于实现。这里的关键见解是:我们已经从问“我们应该使用哪个模型?”转变为问“我们如何构建能够学习我们特定模式的系统?”无论您是为新用例进行先学习后部署,还是为既有案例进行部署后学习,实现都很简单:从适合您任务的工作线程开始,选择一个主管,然后让分歧驱动学习。有了正确的架构,每一次推理都可以成为捕获领域知识的机会。这不仅仅是扩展——这是将机构知识构建到您的 AI 系统中。

鸣谢
这项工作离不开Ankur Datta(日常必需品商店科学负责人首席专家科学家)、Zhu Cheng(应用科学家)、Xuan Tang(软件工程师)、Mohammad Ghasemi(应用科学家)的贡献和支持。我们衷心感谢他们在设计、实施、多次富有成效的头脑风暴会议以及所有富有洞察力的想法和建议中所做的贡献。


作者简介

Tarik Arici 是亚马逊 Selection and Catalog Systems (ASCS) 的首席科学家,他在那里开创了用于目录质量增强的自学习生成式AI系统的设计。他的工作重点是构建能够通过生产使用自动积累领域知识的 AI 系统——从客户评论和退货、卖家反馈和模型分歧中学习,以在降低成本的同时提高质量。Tarik 拥有佐治亚理工学院电气与计算机工程博士学位。

Sameer Thombare 是亚马逊的高级产品经理,在产品管理、类别/损益管理方面拥有十多年的经验,跨越重型工程、电信、金融和电子商务等多个行业。Sameer 热衷于开发持续改进的闭环系统,并在 Amazon Selection and Catalog Systems (ASCS) 中领导战略举措,以构建复杂的自学习闭环系统,合成来自客户、卖家和供应链运营的信号以优化结果。Sameer 拥有印度管理学院班加罗尔分校的 MBA 学位和孟买大学的工程学学位。

Amin Banitalebi 于 2014 年在加拿大不列颠哥伦比亚大学 (UBC) 获得数字媒体博士学位。从那时起,他担任过各种应用科学职务,涵盖计算机视觉、自然语言处理、推荐系统、经典机器学习和生成式AI等领域。Amin 共同撰写了 90 多篇出版物和专利。他目前是亚马逊日常必需品应用科学经理。

Puneet Sahni 是亚马逊 Selection and Catalog Systems (ASCS) 的首席工程师,他在那里花了 8 年多的时间来提高目录数据的完整性、一致性和正确性。他专注于目录数据建模及其在增强卖家和客户体验方面的应用,同时利用机器学习/深度学习和基于 LLM 的丰富化来推动目录数据质量的改进。

Erdinc Basci 于 2015 年加入亚马逊,拥有超过 23 年的技术行业经验。在亚马逊,他领导了目录系统架构的演变——包括摄取管道、优先级处理和流量整形——以及目录数据架构的改进,如分段报价、按需制造产品的产品规格和目录数据实验。Erdinc 在亚马逊服务中倡导了一种注重实践的性能工程文化,在核心商店服务中实现了超过 10 亿美元的年化成本节省和 20% 以上的延迟提升。他目前专注于提高亚马逊生成式 AI 应用的性能和 GPU 效率。Erdinc 拥有土耳其 Bilkent 大学计算机科学学士学位和美国西雅图大学 MBA 学位。

Mey Meenakshisundaram 是亚马逊 Selection and Catalog Systems 的总监,他领导创新性的生成式 AI 解决方案,旨在将亚马逊的全球目录打造成一流的产品信息来源。他的团队开创了先进的机器学习技术,包括多代理系统和大语言模型,以自动丰富产品属性并大规模提高目录质量。目录中高质量的产品信息对于取悦客户找到正确的产品、赋能卖家有效地列出其产品以及使亚马逊运营能够减少人工努力至关重要。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区