目 录CONTENT

文章目录

OpenAI发布GDPval评估标准:衡量模型在真实世界经济活动中的表现

Administrator
2025-10-13 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://openai.com/index/gdpval

原文作者:OpenAI


OpenAI 推出 GDPval 评估标准:量化模型在真实世界经济任务中的表现

OpenAI 推出了一项名为 GDPval 的新评估标准,旨在透明地衡量其模型及其他模型在具有经济价值的现实世界任务中的表现,涵盖 44 种职业。

我们的使命是确保通用人工智能(AGI)造福全人类。为此,我们希望透明地沟通 AI 模型在现实世界中如何帮助人们的进展。因此,我们推出了 GDPval:一项旨在帮助我们跟踪模型在具有经济价值的现实世界任务上表现的新评估。我们将其命名为 GDPval,是因为我们最初的概念来源于国内生产总值(GDP)这一关键经济指标,并从对 GDP 贡献最大的行业的关键职业中提取了任务。

人们经常推测 AI 对社会的广泛影响,但理解其潜力最清晰的方式是看模型已经能够做什么。历史表明,从互联网到智能手机等重大技术,从发明到广泛应用都花费了十多年的时间。像 GDPval 这样的评估有助于将关于未来 AI 改进的讨论建立在证据而非猜测之上,并可以帮助我们随着时间的推移跟踪模型的改进。

以往的 AI 评估,如具有挑战性的学术测试和竞争性编码挑战,在推动模型推理能力的边界方面至关重要,但它们往往无法涵盖许多人在日常工作中处理的任务。

为了弥合这一差距,我们一直在开发越来越能衡量现实和经济相关能力的评估。这一进展已经从经典的学术基准(如 MMLU,跨学科的考试风格问题)发展到更侧重应用的评估,如 SWE-Bench(软件工程错误修复任务)、MLE-Bench(模型训练和分析等机器学习工程任务),以及 Paper-Bench(对研究论文的科学推理和批判),最近更进一步发展到基于市场的评估,如 SWE-Lancer(基于真实报酬的自由职业软件工程项目)。

GDPval 是这一进展的下一步。它衡量了模型在直接来自经验丰富的专业人员在广泛职业和行业中的现实世界知识工作任务上的表现,从而更清晰地展现模型在具有经济价值的任务上的表现。对模型在真实职业任务上的评估有助于我们理解它们不仅在实验室中的表现如何,而且它们可能如何支持人们日常所做的工作。 

GDPval 衡量什么

GDPval 作为该评估的第一版,涵盖了美国 GDP 贡献最大的 9 个行业中选出的 44 个职业。GDPval 完整数据集包含 1,320 个专业任务(黄金开源集中包含 220 个),每个任务都由平均拥有 14 年经验的领域经验丰富的专业人员精心设计和验证。每个任务都基于真实的工作产品,例如法律简报、工程蓝图、客户支持对话或护理计划。

GDPval 的独特性在于其任务的现实性和多样性。与其他关注特定领域的经济价值评估(如 SWE-Lancer)不同,GDPval 涵盖了许多任务和职业。与涉及以学术考试或测试风格合成创建任务的基准(如 Humanity’s Last Exam 或 MMLU)不同,GDPval 专注于基于当前已存在或类似构建的工作产品或实际工作成果的任务。 

与传统基准不同,GDPval 任务并非简单的文本提示。它们附带参考文件和上下文,预期的交付成果涵盖文档、幻灯片、图表、电子表格和多媒体。这种现实性使 GDPval 成为衡量模型如何支持专业人员的更真实测试。

GDPval 只是早期的一步,尚未反映许多经济任务的全部细微差别。虽然它涵盖了 44 个职业和数百个知识工作任务,但它仅限于单次评估(one-shot evaluations),因此无法捕捉模型需要建立上下文或通过多轮修改才能改进的情况。未来版本将扩展到更具交互性的工作流程和更丰富的上下文任务,以更好地反映真实世界知识工作的复杂性(下文“局限性”部分有更多介绍)。 

我们如何选择职业

GDPval 涵盖了 9 个行业和 44 个职业的任务,未来版本将继续扩大覆盖范围。最初选择的 9 个行业是根据美国圣路易斯联邦储备银行的数据,选择对美国 GDP 贡献超过 5% 的行业。然后,我们使用来自 2024 年 5 月美国劳工统计局 (BLS) 职业就业报告⁠(opens in a new window) 的工资和就业数据,在每个行业中选择了对总工资和报酬贡献最大且主要从事知识工作的 5 个职业。为了确定职业是否主要属于知识工作,我们使用了由美国劳工部赞助的美国职业信息数据库 O*NET⁠(opens in a new window) 的任务数据。我们对 O*NET 中每个职业的每个任务进行了分类,判断其是知识工作还是体力劳动/手工劳动(需要对物理世界采取行动)。如果一个职业至少 60% 的组成任务被分类为不涉及体力劳动或手工劳动,则该职业总体上被归类为“主要知识工作”。我们选择 60% 的阈值作为 GDPval 第一版的起点,重点关注 AI 可能对现实世界生产力产生最大影响的职业。 

该过程确定了 44 个包含的职业。

房地产和租赁

  • 礼宾员 (Concierges)

  • 物业、房地产和社区协会经理

  • 房地产销售代理

  • 房地产经纪人

  • 柜台和租赁职员

政府

  • 娱乐工作者

  • 合规官员

  • 警察和侦探的一线主管

  • 行政服务经理

  • 儿童、家庭和学校社会工作者

制造业

  • 机械工程师

  • 工业工程师

  • 采购代理

  • 运输、接收和库存文员

  • 生产和运营工人的一线主管

专业、科学和技术服务

  • 软件开发人员

  • 律师

  • 会计师和审计师

  • 计算机和信息系统经理

  • 项目管理专家

医疗保健和社会援助

  • 注册护士

  • 执业护士

  • 医疗和健康服务经理

  • 办公室和行政支持工人的一线主管

  • 医疗秘书和行政助理

金融和保险

  • 客户服务代表

  • 金融和投资分析师

  • 财务经理

  • 个人理财顾问

  • 证券、商品和金融服务销售代理

零售贸易

  • 药剂师

  • 零售销售人员的一线主管

  • 总经理和运营经理

  • 私人侦探和调查员

批发贸易

  • 销售经理

  • 订单文员

  • 非零售销售人员的一线主管

  • 批发和制造销售代表,不包括技术和科学产品

  • 批发和制造销售代表,技术和科学产品

信息业

  • 音视频技术员

  • 制片人和导演

  • 新闻分析师、记者和撰稿人

  • 影视剪辑师

  • 编辑

GDPval 涵盖了 9 个行业中 44 个知识工作职业,从软件开发人员和律师到注册护士和机械工程师。选择这些职业是基于它们的经济重要性,它们代表了 AI 可以有意义地协助专业人员的日常工作类型。

我们如何构建数据集

对于每个职业,我们与经验丰富的专业人员合作,创建了反映他们日常工作的代表性任务。这些专业人员平均拥有 14 年经验,并有良好的晋升记录。我们特意招募了广泛的专家——例如来自不同业务领域和不同规模公司的律师——以最大限度地提高代表性。

每项任务都经过多步审查流程,以确保它代表真实工作,对另一位专业人员来说是可行的,并且对评估来说是清晰的。平均而言,每项任务都经过了 5 轮专家审查,包括来自其他任务编写者、其他职业审查员以及基于模型的验证。 

最终的数据集包含每个职业的 30 个完全审查过的任务(完整集),其中 5 个任务在我们的开源黄金集中,为评估模型在真实知识工作上的表现提供了坚实的基础。

GDPval 任务示例

制造工程师

提示 + 任务背景

这是 2025 年 6 月,您是一名汽车装配线上的制造工程师。产品是用于地下采矿作业的电缆卷绕卡车,您正在审查最后的测试步骤。在最后一步测试中,需要将大卷电缆卷入和卷出 2 次,以确保电缆卷绕功能符合要求。当前操作需要 2 人协同工作。第一人需要将电缆盘带到测试单元附近并定位,第二人将电缆盘的开口端连接到测试单元并开始卷绕步骤。当电缆完全卷绕到卡车上时,下一步需要反向操作,将电缆从卡车上卷出并重新绕回其自身的卷盘上。此测试再执行一次以确保功能正常。此任务复杂,存在相关风险,劳动强度大,且使工作区域杂乱。您的经理要求您开发一个夹具/固定装置,以简化电缆卷盘的卷入和卷出过程,从而可以由一个人完成测试。此请求附带一份信息文件,其中提供了电缆卷盘尺寸的基本详细信息、设计电缆卷绕夹具的信息以及交付成果的结构。此任务的交付成果将仅为初步概念设计。将单独执行计算设计基础的任务,例如应力、强度、成本效益分析等。使用 3D 建模软件设计一个夹具,并使用 Microsoft PowerPoint 创建演示文稿。作为交付成果的一部分,仅上传一个 PDF 文档,其中包含设计摘要,使用创建的 3D 设计的快照。提交时不需要 3D 设计文件。
Cable reel project requirements.pdf

经验丰富的人类交付成果

Exploded view of a design for a cable reel

GDPval 中的每项任务都由经验丰富的专业人员设计,并反映了他们职业的真实知识工作。提示是领域专家创建的现实工作任务,黄金交付成果是专家自己的解决方案。

我们如何评级模型性能

为了评估模型在 GDPval 任务上的表现,我们依靠经验丰富的“评分员”——一组来自数据集中所代表的相同职业的经验丰富的专业人员。这些评分员盲目地将模型生成的交付成果与任务编写者制作的成果进行比较(不知道哪个是 AI 生成的,哪个是人类生成的),并提供评论和排名。然后,评分员对人类和 AI 的交付成果进行排名,并将每份 AI 交付成果分类为“更好”、“与…一样好”或“比…差”。

任务编写者还为其职业创建了详细的评分标准,这为评分过程增加了一致性和透明度。我们还构建了一个“自动化评分器”,这是一个经过训练的 AI 系统,用于估计人类专家将如何判断给定的交付成果。换句话说,与每次都运行完整的专家审查相比,自动化评分器可以快速预测人们可能更喜欢哪个输出。我们通过 evals.openai.com 发布此工具作为实验性研究服务,但它尚不如专家评分员可靠,因此我们不使用它来取代他们。 

早期结果

我们发现今天的最佳前沿模型在质量上已经接近行业专家的工作水平。为了测试这一点,我们进行了盲评估,行业专家将几款领先模型——GPT‑4o、o4-mini、OpenAI o3、GPT‑5、Claude Opus 4.1、Gemini 2.5 Pro 和 Grok 4——的交付成果与人类生产的成果进行比较。在 GDPval 黄金集中 220 个任务中,我们记录了模型输出被评为优于(“获胜”)或与(“平局”)行业专家交付成果的情况,如下图表所示。Claude Opus 4.1 是该集中表现最好的模型,在美学方面(例如,文档格式、幻灯片布局)尤其出色,而 GPT‑5 在准确性方面(例如,查找领域特定知识)尤其出色。我们还看到了这些任务上随着时间的明显进展。从 GPT‑4o(2024 年春季发布)到 GPT‑5(2025 年夏季发布),性能增加了一倍多,呈现出清晰的线性趋势。

此外,我们发现前沿模型完成 GDPval 任务的速度和成本大约比行业专家快和便宜 100 倍。然而,这些数字反映的是纯粹的模型推理时间和 API 计费费率,因此没有捕捉到在真实工作场所环境中使用我们的模型所需的任何人工监督、迭代和集成步骤。尽管如此,尤其是在模型特别擅长的任务子集上,我们预计先将任务交给模型而不是人类,可以节省时间和金钱。

专家评分员将领先模型的交付成果与人类专家的交付成果进行了比较。今天的尖端模型在质量上已经接近行业专家的工作水平。Claude Opus 4.1 在不到一半的任务中产生了与人类相当或更好的输出。

从 GPT‑4o 到 GPT‑5,GDPval 任务的性能在一年内增长了一倍多。

最后,我们对 GPT‑5 的一个内部实验版本进行了增量训练,以评估我们是否可以提高 GDPval 的性能。我们发现这个过程提高了性能,为进一步的潜在改进开辟了道路。其他受控实验也支持了这一点:增加模型大小、鼓励更多的推理步骤以及提供更丰富的任务上下文都带来了可衡量的收益。

您可以在我们的论文中阅读完整的结果。我们还发布了 GDPval 任务的黄金子集和一个公共评分服务,以便其他研究人员可以在这项工作的基础上继续努力。

工作和 AI 的未来 

随着 AI 能力的增强,它可能会引起就业市场的变化。早期的 GDPval 结果表明,模型已经可以比专家更快、成本更低地承担一些重复的、明确定义好的任务。然而,大多数工作不仅仅是一堆可以写下来的任务。GDPval 突出了 AI 可以处理哪些常规任务,以便人们可以将更多时间花在工作中的创造性、判断力强的部分。当 AI 以这种方式补充工人时,它可以转化为显著的经济增长。我们的目标是通过普及对这些工具的访问、支持变革中的工人以及构建奖励广泛贡献的系统,让每个人都处于 AI 的“上升电梯”上。 

局限性与下一步

GDPval 是一个早期的步骤。虽然它涵盖了 44 个职业和数百个任务,但我们仍在不断完善我们的方法,以扩大测试范围并使结果更有意义。该评估的当前版本也是单次评估,因此无法捕捉模型需要建立上下文或通过多轮修改才能改进的情况——例如,在收到客户反馈后修改法律简报或在发现异常后迭代数据分析。此外,在现实世界中,任务并不总是用提示和参考文件清晰定义的;例如,律师可能需要处理模糊性并与客户交谈,然后才能确定创建法律简报是帮助他们的正确方法。我们计划将 GDPval 扩展到包括更多的职业、行业和任务类型,增加交互性,并增加涉及处理模糊性的任务,以期更好地衡量我们在多样化知识工作方面的进展。

参与进来

社区参与至关重要——我们期待与研究人员、从业者和组织共同构建 GDPval,他们与我们有着相同的目标:让 AGI 在工作场所对人们更有用。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。

青云聚合API官网https://api.qingyuntop.top

支持全球最新300+模型:https://api.qingyuntop.top/pricing

详细的调用教程及文档:https://api.qingyuntop.top/about

0

评论区