📢 转载信息
原文链接:https://openai.com/index/evals-drive-next-chapter-of-ai
原文作者:OpenAI
2025年11月19日
全球有超过一百万家企业正在利用人工智能来驱动更高的效率和价值创造。但一些组织在期望的结果方面遇到了困难。造成这种差距的原因是什么?
在OpenAI,我们正在内部利用人工智能来实现我们的宏伟目标。我们使用的一套关键工具就是评估框架(evals),这些方法用于衡量和改进人工智能系统满足期望的能力。
与产品需求文档类似,评估框架(evals)可以将模糊的目标和抽象的想法具体化和明确化。战略性地使用评估框架,可以使面向客户的产品或内部工具在规模化时更可靠,减少高严重性错误,防范下行风险,并为组织提供一条可衡量的、通往更高投资回报率的路径。
在OpenAI,我们的模型就是我们的产品,因此我们的研究人员使用严格的前沿评估(frontier evals)1来衡量模型在不同领域的表现。虽然前沿评估有助于我们更快地发布更好的模型,但它们无法揭示确保模型在特定业务环境中的特定工作流程中表现所需的所有细微差别。这就是为什么内部团队还创建了几十个情境评估(contextual evals),专门用于评估特定产品或内部工作流程中的性能。这也是为什么商业领袖应该学习如何创建针对其组织需求和运营环境的情境评估。
这是为希望在其组织中应用评估框架的商业领袖提供的入门指南。情境评估,每个都是针对特定组织的工作流程或产品量身定制的,是当前一个活跃的发展领域,明确的流程尚未出现。因此,本文提供了一个我们在许多情况下都行之有效的广泛框架。我们预计这个领域将不断发展,并出现更多解决特定业务背景和目标的框架。例如,针对尖端、人工智能赋能的消费性产品的优秀评估,可能需要与基于标准操作程序的内部自动化评估采用不同的流程。我们相信,下文提出的框架将作为这两种情况下的最佳实践集合,并在您构建满足组织需求的评估框架时提供有益的指导。
如何运作评估框架:明确 → 衡量 → 改进
1. 明确:定义“卓越”的含义
从一个精干、授权的小团队开始,他们可以用简单的术语写下您人工智能系统的目的,例如:“在保持品牌一致性的同时,将合格的入站电子邮件转化为已安排的演示会议。”
这个团队应该由具备技术专长和领域知识的个人组成(在上述示例中,您需要销售专家加入团队)。他们应该能够说明需要衡量的最重要结果,概述端到端的工作流程,并确定您的AI系统将遇到的每一个重要决策点。对于工作流程中的每一步,团队都应定义成功是什么样子的,以及应避免什么。这个过程将创建从数十个示例输入(例如入站电子邮件)到希望系统产生的输出的映射。由此产生的“黄金数据集”(golden set)应该是您最熟练专家的判断和对“卓越”的看法的鲜活、权威的参考。
不要因为启动困难或试图一次性解决所有问题而感到不知所措。这个过程是迭代且不完美的。早期原型设计可以提供极大的帮助。审查早期版本系统中50到100个输出将揭示系统在何处以及何时出现故障。这种“错误分析”将产生一个不同错误类别的分类法(及其频率),以便在系统改进时进行跟踪。
这个过程并非纯粹的技术性——它是跨职能的,并且以定义业务目标和所需流程为中心。不应孤立地要求技术团队判断什么最能满足客户或其他团队(如产品、销售或人力资源)的需求。因此,领域专家、技术负责人和其他关键利益相关者应共同承担责任。
2. 衡量:在真实世界条件下进行测试
下一步是衡量。测量的目标是可靠地发现系统出现故障的具体示例。要做到这一点,请创建一个密切模仿真实世界条件的专用测试环境——不仅仅是演示或提示词游乐场。根据您的黄金数据集和错误分析,在系统实际面临的相同压力和边缘情况下评估性能。
评分标准(Rubrics)可以帮助使判断系统输出的结果具体化,但可能会过度强调表面化的项目而牺牲了总体目标。此外,有些质量难以衡量或无法衡量。在某些情况下,传统的业务指标将很重要。在其他情况下,您需要创建新的指标。在整个过程中让您的主题专家参与进来,并使流程与您的核心目标紧密对齐。
为了实际测试系统,应尽可能使用来自真实世界情况的示例,并包含或发明那些罕见但处理不当会造成高昂代价的边缘案例。
一些评估可以通过使用“大型语言模型评分器”(LLM grader)——一种以专家方式对输出进行评分的人工智能模型——来实现规模化;然而,让人工参与进来仍然很重要。您的领域专家需要定期审计LLM评分器的准确性,还应直接审查系统行为的日志。
评估可以帮助您决定系统何时准备好发布,但它们并不会在发布后停止。您应该持续衡量系统使用真实输入生成的真实输出的质量。与任何产品一样,来自最终用户(无论是外部还是内部)的信号尤其重要,应该纳入您的评估框架中。
3. 改进:从错误中学习
最后一步是建立一个持续改进的流程。解决评估框架发现的问题可以有多种形式:改进提示词、调整数据访问、更新评估框架本身以更好地反映您的目标等等。当您发现新的错误类型时,将它们添加到您的错误分析中并加以解决。每一次迭代都会累加:新的标准和对系统行为更清晰的期望有助于揭示新的边缘案例和细微、顽固的问题以供纠正。
为了支持这种迭代,请构建一个数据飞轮。记录输入、输出和结果;按计划对这些日志进行抽样,并将模糊或高成本的案例自动路由给专家审查。将这些专家判断添加到您的评估框架和错误分析中,然后使用它们来更新提示词、工具或模型。通过这个循环,您将更清晰地定义对系统的期望,使系统更紧密地对齐这些期望,并识别出需要跟踪的其他相关输出和结果。将此流程规模化部署,将产生一个庞大、有差异化、特定于上下文的数据集,这很难被复制——这是您的组织在构建市场上最好的产品或流程时可以利用的宝贵资产。
虽然评估框架为改进AI系统提供了一种系统化的方法,但可能会出现新的故障模式。在实践中,随着模型、数据和业务目标的演变,评估框架也必须持续维护、扩展和压力测试。
对于面向外部的部署,评估框架不能取代更传统的A/B测试和产品实验。它们是对传统实验的补充,可以帮助指导彼此,并提供可见性,了解您所做的更改如何影响真实世界的性能。
评估框架对商业领袖意味着什么
每一次重大的技术转变都会重塑运营效率和竞争优势。像OKR和KPI这样的框架已经帮助组织在大数据分析时代围绕“衡量重要的事情”进行定位。评估框架是衡量方法在大数据时代的自然延伸。
处理概率性系统需要新的衡量标准,以及对权衡的更深入的考虑。领导者必须决定何时精度是必不可少的,何时可以更加灵活,以及如何平衡速度与可靠性。
评估框架之所以难以实施,与构建卓越产品之所以困难是同一个原因:它们需要严谨、远见和品味。如果做得好,评估框架将成为独特的差异化因素。在一个信息在全球范围内自由获取、专业知识普及化的世界里,您的优势取决于您的系统在您的上下文内部执行得有多好。强大的评估框架会随着系统性能的提升而创造出复利优势和制度性知识。
从本质上讲,评估框架关乎对业务背景和目标的深入理解。如果您无法为您的用例定义“卓越”的含义,那么您就不太可能实现它。从这个意义上说,评估框架凸显了人工智能时代的一个关键经验教训:管理技能就是人工智能技能。清晰的目标、直接的反馈、审慎的判断,以及对您的价值主张、战略和流程的清晰理解仍然很重要,甚至可能比以往任何时候都更重要。
随着更多最佳实践和框架的出现,我们将继续分享。与此同时,我们鼓励您尝试使用评估框架,发现最适合您需求的流程。要开始,请确定要解决的问题和您的领域专家,召集您的小团队,如果您正在我们的API上进行构建,请查阅我们的平台文档。
不要只寄希望于“卓越”。明确地定义它,衡量它,并朝着它改进。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区