📢 转载信息
原文作者:Randy DeFauw
在过去的两年里,公司越来越需要为生成式AI制定项目优先级排序方法论。可以考虑的生成式AI用例不胜枚举。相反,公司希望对大量的潜在生成式AI项目评估其业务价值与成本、工作量以及其他方面的考量。与其它领域相比,生成式AI有一个新的关注点,即需要考虑幻觉、生成式AI代理做出不正确决策并随后通过工具调用影响下游系统,以及应对快速变化的监管环境等问题。在本文中,我们将介绍如何将负责任的AI实践纳入优先级排序方法中,以系统地解决这些类型的顾虑。
负责任的AI概述
《AWS 架构完善框架》将负责任的AI定义为“旨在最大化效益和最小化风险的AI技术的设计、开发和使用实践”。AWS 负责任的AI框架首先定义了负责任AI的八个维度:公平性、可解释性、隐私与安全、安全性、可控性、真实性与鲁棒性、治理和透明度。在开发生命周期的关键节点,生成式AI团队应该考虑每个维度可能带来的危害或风险(固有风险和残余风险),实施风险缓解措施,并持续监控风险。负责任的AI贯穿整个开发生命周期,应在初始项目优先级排序阶段就予以考虑。对于生成式AI项目而言,这一点尤其重要,因为其中存在新型风险需要考虑,且缓解措施可能尚未被充分理解或研究。提前考虑负责任的AI可以更准确地了解项目风险和缓解措施的工作量,减少因后期发现风险而导致代价高昂的返工。
生成式AI的优先级排序
虽然大多数公司都有自己的优先级排序方法,但在这里我们将演示如何使用 Scaled Agile 系统中的加权最短工作优先(WSJF)方法。WSJF 使用以下公式分配优先级:
优先级 = (延迟成本) / (工作量)
延迟成本衡量业务价值。它包括直接价值(例如,额外的收入或成本节约)、时效性(例如,现在发布此项目比一年后发布更有价值吗)和相邻机会(例如,交付此项目是否会为未来开启其他机会)。
工作量是您考虑交付项目所需工作量的地方。这通常包括直接开发成本以及所需的基础设施或软件费用。工作量是您可以纳入初始负责任AI风险评估和预期缓解措施结果的地方。例如,如果初始评估发现需要缓解三个风险,则应将这些缓解措施的开发成本计入工作量。您还可以定性评估,一个有十个高优先级风险的项目比只有一个高优先级风险的项目更复杂。
示例场景
现在,让我们通过一个比较两个生成式AI项目的优先级排序练习。第一个项目使用大型语言模型(LLM)生成产品描述。营销团队将使用此应用程序自动创建输入到在线产品目录网站的产品描述。第二个项目使用文生图模型为广告活动和产品目录生成新视觉素材。营销团队将使用此应用程序来更快地创建定制化的品牌资产。
第一轮优先级排序
首先,我们将在不考虑负责任AI的情况下进行优先级排序方法的演示,为WSJF公式的每个部分分配1到5的分数。具体分数因组织而异。有些公司倾向于使用T恤尺寸(S、M、L和XL),有些倾向于1到5的分数,还有些则使用更精细的分数。1到5的分数是一种常见且直接的入门方式。例如,直接价值分数可以计算如下:
1 = 无直接价值
2 = 关键绩效指标(KPI)提高20%(高质量描述的创建时间)
3 = 关键绩效指标提高40%
4 = 关键绩效指标提高80%
5 = 关键绩效指标提高100%或更多
| 项目 1:自动化产品描述(按 1-5 评分) | 项目 2:创建视觉品牌资产(按 1-5 评分) | |
| 直接价值 | 3:帮助营销团队更快地创建更高质量的描述 | 3:帮助营销团队更快地创建更高质量的资产 |
| 时效性 | 2:不是很紧急 | 4:本季度计划了新的广告活动;如果没有这个项目,团队无法在不雇佣新机构来补充人手的情况下创建足够的品牌资产 |
| 相邻机会 | 2:可能可用于类似场景的复用 | 3:图像生成经验将为未来项目积累能力 |
| 工作量 | 2:基础、众所周知的模式 | 2:基础、众所周知的模式 |
| 得分 | (3+2+2)/2 = 3.5 | (3+4+3)/2 = 5 |
乍一看,项目2似乎更具吸引力。从直觉上看,这是合理的——创建高质量视觉素材比创建文本产品描述花费的时间要长得多。
风险评估
现在让我们对每个项目进行风险评估。下表列出了根据AWS负责任AI的各个维度进行的风险评估的简要概述,以及一个T恤尺寸(S、M、L和XL)的严重程度级别。表格还包括建议的缓解措施。
| 项目 1:自动化产品描述 | 项目 2:创建视觉品牌资产 | |
| 公平性 | L:描述在性别和人口统计学方面是否适当?使用护栏进行缓解。 | L:图像不得以带有偏见的方式描绘特定人群。使用人工和自动化检查进行缓解。 |
| 可解释性 | 未发现风险。 | 未发现风险。 |
| 隐私与安全 | L:部分产品信息是专有的,不能列在公共网站上。使用数据治理进行缓解。 | L:模型不得以包含专有信息图像进行训练。使用数据治理进行缓解。 |
| 安全性 | M:语言必须适合年龄,不得涉及冒犯性主题。使用护栏进行缓解。 | L:图像不得包含成人内容或毒品、酒精或武器的图像。使用护栏进行缓解。 |
| 可控性 | S:需要跟踪客户对描述的反馈。使用客户反馈收集进行缓解。 | L:图像是否符合我们的品牌指南?使用人工和自动化检查进行缓解。 |
| 真实性与鲁棒性 | M:系统是否会产生幻觉并暗示不存在的产品功能?使用护栏进行缓解。 | L:图像是否足够逼真,以避免恐怖谷效应?使用人工和自动化检查进行缓解。 |
| 治理 | M:倾向于提供版权赔偿的LLM提供商。使用LLM提供商选择进行缓解。 | L:要求版权赔偿和图像来源归属。使用模型提供商选择进行缓解。 |
| 透明度 | S:披露描述是AI生成的。 | S:披露描述是AI生成的。 |
风险和缓解措施是特定于用例的。上表仅供说明之用。
第二轮优先级排序
风险评估如何影响优先级排序?
| 项目 1:自动化产品描述(按 1-5 评分) | 项目 2:创建视觉品牌资产(按 1-5 评分) | |
| 工作量 | 3:基础、众所周知的模式;需要相当标准的护栏、治理和反馈收集。 | 5:基础、众所周知的模式。需要带有人工监督的高级图像护栏和更昂贵的商业模型。需要进行研究性探索。 |
| 得分 | (3+2+2)/3 = 2.3 | (3+4+3)/5 = 2 |
现在看起来项目1是更值得先启动的项目。考虑负责任的AI后,这在直觉上也是合理的。制作不当或带有攻击性的图像比措辞不佳的产品描述更引人注目,影响也更大。而且,用于维护图像安全性的护栏技术不如文本的相应护栏成熟,特别是在品牌指南一致性等模糊情况下。事实上,图像护栏系统可能需要训练一个监控模型或使用人员对一定比例的输出进行抽查。您可能需要专门成立一个小型科学团队来首先研究这个问题。
结论
在本文中,您了解了如何在生成式AI项目优先级排序方法中纳入负责任的AI考量。您了解到,在初始优先级排序阶段进行负责任的AI风险评估如何通过发现大量缓解工作来改变结果。未来,您应该制定自己的负责任AI政策,并开始对生成式AI项目采用负责任的AI实践。您可以在 将负责任的AI从理论付诸实践 找到更多详细信息和资源。
关于作者
Randy DeFauw 是AWS的首席解决方案架构师。他在技术领域拥有超过20年的经验,始于大学期间对自动驾驶汽车的研究。他曾与从初创公司到财富50强的客户合作,推出大数据和机器学习应用。他拥有MSEE和MBA学位,担任K-12 STEM教育计划的董事会顾问,并在Strata和GlueCon等顶级会议上发表演讲。他是《SageMaker Best Practices》和《Generative AI Cloud Solutions》两本书的合著者。Randy目前担任AWS北美地区技术总监的技术顾问。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区