📢 转载信息
原文链接:https://openai.com/index/evals-drive-next-chapter-of-ai
原文作者:OpenAI
2025年11月19日
评估框架(Evals)如何驱动企业AI的下一个篇章
本入门指南旨在教导企业领导者,评估框架(“evals”)如何将业务目标转化为一致的成果。
全球有超过 一百万家企业 正在利用人工智能来提高效率和创造价值。但有些组织在获取预期成果方面遇到了困难。造成这种差距的原因是什么?
在OpenAI,我们利用人工智能实现我们宏伟的目标。我们使用的一套关键工具就是 evals,即衡量和改进人工智能系统满足期望能力的方法。
与产品需求文档(PRD)类似,evals将模糊的目标和抽象的想法具体化、明确化。战略性地使用evals可以使面向客户的产品或内部工具在大规模应用中更可靠,减少高严重性错误,防范下行风险,并为组织提供一条可衡量的、通往更高投资回报率(ROI)的路径。
在OpenAI,我们的模型就是我们的产品,因此我们的研究人员使用严格的 前沿评估(frontier evals) 来衡量模型在不同领域内的表现。虽然前沿评估有助于我们更快地发布更好的模型,但它们无法揭示确保模型在特定业务场景的特定工作流程中表现所需的所有细微差别。因此,内部团队也创建了数十个 情境评估(contextual evals),专门用于评估特定产品或内部工作流程中的性能。这也是企业领导者应该学习如何创建针对其组织需求和操作环境的专属情境评估的原因。
这是为希望在其组织中应用evals的企业领导者准备的入门指南。每项情境评估都是为特定组织的工作流程或产品量身定制的,目前仍是一个活跃的发展领域,尚未出现明确的流程。因此,本文提供了一个我们在许多情况下行之有效的广泛框架。我们预计这一领域将不断发展,并会出现更多解决特定业务情境和目标的框架。例如,一个针对尖端AI赋能消费产品的优秀评估,可能需要与一个基于标准操作程序的内部自动化评估采用不同的流程。我们相信,下文介绍的框架将作为两种情况下的最佳实践集合,并在您构建符合组织需求的评估时提供有用的指导。
评估框架如何运作:明确 → 衡量 → 改进
1. 明确:定义“卓越”的含义
首先,组建一个小型、授权的团队,能够用简单的术语写下AI系统的目的,例如:“在保持品牌一致性的同时,将合格的入站电子邮件转化为已安排的演示会议。”
这个团队应该由具备技术和领域专业知识的人员组成(在上述示例中,您需要销售专家加入团队)。他们应该能够说明需要衡量的最重要的结果,概述端到端的工作流程,并确定您的AI系统将遇到的每一个重要决策点。对于工作流程中的每一步,团队都应该定义什么是成功,以及需要避免什么。这个过程将创建从数十个示例输入(例如入站电子邮件)到希望系统产生的输出的映射。由此产生的 黄金数据集(golden set) 应该是您最熟练专家的判断和品味中关于“卓越”的活的、权威的参考。
不要被“冷启动”或试图一次性解决所有问题所压倒。这个过程是迭代且不完善的。早期原型制作会有极大的帮助。审查系统早期版本的50到100个输出将揭示系统在哪些地方以及何时出错。这种“错误分析”将产生一个错误分类系统(及其频率),以便在系统改进时进行跟踪。
这个过程并非纯粹的技术性——它是跨职能的,并围绕定义业务目标和期望流程而展开。不应孤立地要求技术团队判断什么最能满足客户或其他团队(如产品、销售或人力资源)的需求。因此,领域专家、技术负责人和其他关键利益相关者应共同承担责任。
2. 衡量:在真实世界条件下进行测试
下一步是衡量。测量的目标是可靠地发现系统在何种情况下何种程度出错的具体实例。为此,请创建一个密切模仿真实世界条件的专用测试环境——而不仅仅是一个演示或提示游乐场。根据您的黄金数据集和错误分析,在系统实际面临的相同压力和边缘情况下评估性能。
评分标准(Rubrics)可以帮助将输出判断具体化,但可能会过分强调表面化的项目而牺牲了整体目标。此外,有些品质难以或不可能衡量。在某些情况下,传统的业务指标将很重要。在其他情况下,您需要发明新的指标。让您的主题专家始终参与其中,并将流程与您的核心目标紧密对齐。
为了实际测试系统,请尽可能使用源自真实世界情况的示例,并包含或发明那些罕见但处理不当会造成高昂代价的边缘案例。
一些评估可以通过使用 LLM 评分器(LLM grader) 来扩展,即以专家相同的方式对输出进行评分的人工智能模型;然而,让人类参与进来仍然很重要。您的领域专家需要定期审计 LLM 评分器的准确性,还应直接审查系统行为的日志。
Evals可以帮助您决定系统何时可以启动,但它们并非在启动后就停止工作。您应该持续衡量系统从真实输入生成的真实输出的质量。与任何产品一样,来自终端用户(无论是外部还是内部)的信号尤为重要,应将其纳入您的评估中。
3. 改进:从错误中学习
最后一步是建立一个持续改进的流程。解决评估中发现的问题可以采取多种形式:完善提示、调整数据访问权限、更新评估本身以更好地反映您的目标等等。当您发现新型错误时,将其添加到您的错误分析中并加以解决。每一次迭代都会累积:新的标准和对系统行为更清晰的期望有助于揭示新的边缘案例和微妙的、顽固的问题,以供纠正。
为了支持这种迭代,请构建一个数据飞轮。记录输入、输出和结果;按计划对这些日志进行抽样,并将模糊或成本高昂的案例自动路由给专家审查。将这些专家判断添加到您的评估和错误分析中,然后使用它们来更新提示、工具或模型。通过这个循环,您将更清晰地定义对系统的期望,使系统与这些期望更紧密地对齐,并确定要跟踪的其他相关输出和结果。将此流程规模化部署,将产生一个庞大、差异化、特定于情境的数据集,这很难复制——这是您的组织在构建市场上最好的产品或流程时可以利用的宝贵资产。
虽然评估为改进 AI 系统创建了一种系统化的方法,但新的故障模式可能会出现。在实践中,随着模型、数据和业务目标的演变,评估也必须持续维护、扩展和压力测试。
对于面向外部的部署,evals不能取代更传统的 A/B 测试和产品实验。它们是传统实验的补充,可以相互指导,并提供对所做更改如何影响真实世界性能的可见性。
Evals对企业领导者的意义
每一次重大的技术变革都会重塑运营卓越性和竞争优势。像 OKR 和 KPI 这样的框架帮助组织在人工智能分析时代围绕“衡量重要事物”来定位自己。Evals 是衡量方法在人工智能时代的自然延伸。
与概率系统合作需要新的衡量标准,以及对权衡的更深入的考虑。领导者必须决定在何种程度上需要精确性,在何种程度上可以更加灵活,以及如何平衡速度与可靠性。
实施评估框架之所以困难,与构建优秀产品之所以困难是同一个原因:它们需要严谨性、远见和品味。如果做得好,评估将成为独特的差异化因素。在一个信息在全球范围内自由获取、专业知识民主化的世界里,您的优势取决于您的系统在您的情境内部执行得有多好。 稳健的评估在系统改进时会带来复利优势和制度知识。
其核心在于,evals关乎对业务背景和目标的深刻理解。如果您无法为您的用例定义“卓越”的含义,那么您就不太可能实现它。从这个意义上讲,evals凸显了AI时代的一个关键经验教训:管理技能就是AI技能。清晰的目标、直接的反馈、审慎的判断,以及对您的价值主张、战略和流程的清晰理解仍然很重要,也许比以往任何时候都更重要。
随着更多最佳实践和框架的出现,我们将继续分享。在此期间,我们鼓励您尝试 eval 并发现最适合您需求的流程。要开始,请确定要解决的问题和领域专家,召集您的小团队,如果您正在我们的 API 上构建,请查阅我们的 平台文档。
不要寄希望于“卓越”。明确地定义它,衡量它,并朝着它改进。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区