📢 转载信息
原文链接:https://openai.com/index/gdpval
原文作者:OpenAI
衡量AI模型在真实世界经济价值任务中的表现:OpenAI发布GDPval新评估体系
我们使命的核心是确保通用人工智能(AGI)的进步能够惠及全人类。为此,我们需要透明地传达AI模型在现实世界中如何帮助人们的具体进展。正因如此,我们推出了GDPval:一个旨在帮助我们跟踪包括OpenAI模型在内的各类模型在具有经济价值的真实世界任务中表现如何的新评估体系。我们之所以命名为GDPval,是因为我们借鉴了国内生产总值(GDP)这一关键经济指标的概念,并从对GDP贡献最大的行业的关键职业中提取了任务。
人们经常对AI对社会的广泛影响进行推测,但理解其潜力最清晰的方式是观察模型当前已经能够做什么。历史表明,从互联网到智能手机等重大技术的发明到广泛应用,都花了十多年的时间。像GDPval这样的评估体系有助于将关于未来AI改进的讨论建立在证据而非猜测之上,并帮助我们跟踪模型随时间推移的进步。
以往的AI评估,如高难度的学术测试和竞赛性编程挑战,在推动模型推理能力方面至关重要,但它们往往无法涵盖许多人在日常工作中处理的任务类型。
为了弥合这一差距,我们一直在开发衡量日益现实和具有经济相关性的能力的评估体系。这一进展轨迹已从经典的学术基准(如MMLU,涵盖数十个学科的考试式问题),转向更具应用性的评估,例如SWE-Bench(软件工程bug修复任务)、MLE-Bench(模型训练和分析等机器学习工程任务),以及Paper-Bench(对研究论文的科学推理和批判),最近更进一步发展到基于市场的评估,如SWE-Lancer(基于真实报酬的自由职业软件工程项目)。
GDPval是这一进展的下一步。它衡量模型在直接源自经验丰富的专业人员跨领域广泛职业的现实世界知识工作中的任务表现,从而更清晰地描绘出模型在具有经济价值的任务上的表现。根据现实职业任务评估模型,有助于我们了解它们不仅在实验室中的表现如何,而且它们将如何在人们日常工作中提供支持。
一、GDPval衡量什么?
GDPval作为该评估体系的第一版,涵盖了从占美国GDP贡献最大的9个行业中挑选出的44种职业。GDPval全套评估包含1,320个专业任务(在黄金开源集中包含220个任务),每个任务都由来自这些领域的、平均拥有14年经验的资深专业人员精心设计和验证。每个任务都基于真实的工作产出,例如法律摘要、工程蓝图、客户支持对话或护理计划。
GDPval的独特性在于其评估任务的真实性和多样性。与其他关注经济价值的评估(如SWE-Lancer)不同,GDPval涵盖了许多任务和职业。与涉及以学术考试或测试风格合成创建任务的基准测试(如Humanity’s Last Exam或MMLU)不同,GDPval侧重于基于目前已存在或类似构建的工作产品或交付物的任务。
与传统基准测试不同,GDPval的任务不仅仅是简单的文本提示。它们附带参考文件和上下文,预期的交付物涵盖文档、幻灯片、图表、电子表格和多媒体。这种真实性使GDPval成为测试模型如何支持专业人员的更逼真方式。
GDPval是一个早期步骤,尚未反映许多经济任务的全部细微差别。尽管它涵盖了44种职业和数百项知识工作任务,但它仅限于一次性评估(one-shot evaluations),因此未能捕捉到模型需要通过多轮草稿来建立上下文或改进的情况。未来版本将扩展到更具交互性的工作流程和更依赖上下文的任务,以更好地反映真实世界知识工作的复杂性(详见下文的局限性部分)。
二、我们如何选择职业?
GDPval涵盖了9个行业和44种职业的任务,未来版本将继续扩大覆盖范围。最初的9个行业是根据圣路易斯联邦储备银行的数据,选取占美国GDP贡献超过5%的行业来确定的。然后,我们使用来自2024年5月美国劳工统计局(BLS)职业就业报告的工资和就业数据,在每个行业中选择了对总工资和薪酬贡献最大且主要为知识工作职业的5个职业。为了确定职业是否主要为知识工作,我们使用了美国劳工部赞助的美国职业信息数据库O*NET的任务数据。我们对O*NET中每个职业的每个任务进行了分类,判断其是知识工作还是体力劳动(需要在物理世界中采取行动)。如果一个职业至少60%的组成任务被分类为不涉及体力劳动,则该职业总体上符合“主要知识工作”的标准。我们选择60%的阈值作为GDPval第一版的起点,重点关注AI可能对现实世界生产力产生最大影响的职业。
此过程确定了44个纳入评估的职业:
房地产和租赁业
- 礼宾员
- 物业、房地产和社区协会经理
- 房地产销售代理
- 房地产经纪人
- 柜台和租赁文员
政府
- 娱乐工作者
- 合规专员
- 警察和侦探的一线主管
- 行政服务经理
- 儿童、家庭和学校社会工作者
制造业
- 机械工程师
- 工业工程师
- 采购员和采购代理
- 运输、接收和库存文员
- 生产和运营工人的一线主管
专业、科学和技术服务
- 软件开发人员
- 律师
- 会计师和审计师
- 计算机和信息系统经理
- 项目管理专家
医疗保健和社会援助
- 注册护士
- 执业护士
- 医疗和健康服务经理
- 办公室和行政支持人员的一线主管
- 医疗秘书和行政助理
金融和保险
- 客户服务代表
- 金融和投资分析师
- 财务经理
- 个人理财顾问
- 证券、商品和金融服务销售代理
零售贸易
- 药剂师
- 零售销售人员的一线主管
- 一般和运营经理
- 私人侦探和调查员
批发贸易
- 销售经理
- 订单文员
- 非零售销售人员的一线主管
- 批发和制造销售代表(技术和科学产品除外)
- 批发和制造销售代表(技术和科学产品)
信息业
- 音视频技术人员
- 制片人和导演
- 新闻分析师、记者和记者
- 影片和视频编辑
- 编辑
GDPval涵盖了横跨9个行业的44种知识工作职业,从软件开发人员和律师到注册护士和机械工程师。选择这些职业是基于其经济重要性,并且它们代表了AI可以为专业人士提供有意义帮助的日常工作类型。
三、我们如何构建数据集?
对于每种职业,我们与经验丰富的专业人士合作,创建了反映他们日常工作的代表性任务。这些专业人员平均拥有14年的经验,并有良好的晋升记录。我们特意招募了广泛的专家——例如来自不同执业领域和不同规模公司的律师——以最大化代表性。
每个任务都经过多步骤的审查过程,以确保它代表真实工作、对其他专业人员来说是可行的,并且对评估是清晰的。平均而言,每个任务都收到了5轮专家评审,包括其他任务撰写者、其他职业评审员以及基于模型的验证。
最终的数据集包括每种职业的30个完全审查过的任务(全集),其中每种职业有5个任务包含在我们开源的黄金集中,为评估模型在真实世界知识工作中的表现提供了坚实的基础。
GDPval任务示例
每个GDPval任务都由经验丰富的专业人员设计,反映了他们职业中的真实知识工作。提示是一个现实的工作分配,由领域专家创建,黄金交付物是专家自己的解决方案。
提示 + 任务背景
现在是2025年6月,你是一名制造业工程师,在一家汽车装配线上工作。产品是用于地下采矿作业的电缆卷绕卡车。你正在审查最后的测试步骤。在最后测试步骤中,需要将一卷大电缆卷入并卷出2次,以确保电缆卷绕符合要求。当前操作需要2人进行此测试。第一个人需要将线轴带到测试单元附近并定位,第二个人将电缆的开放端连接到测试单元并开始卷绕步骤。在电缆从线轴卸下并卷到卡车上的同时,第一个人需要旋转线轴以方便卸载。当电缆完全卷到卡车上后,下一步是按相反的顺序执行操作,以便电缆从卡车上卷出并回到其自身的卷轴上。此测试再进行一次以确保功能正常。此任务复杂,伴随风险,需要大量劳动力,并使工作区域混乱。你的经理要求你开发一个夹具/固定装置来简化电缆卷轴的卷入和卷出,以便测试可以由一个人完成。随此请求附有一份信息文件,其中提供了有关电缆卷轴尺寸的基本详细信息,以及设计电缆卷绕夹具和构建交付物所需的信息。此任务的交付物将仅为初步概念设计。将单独的任务来计算设计基础,如应力、强度、成本效益分析等。使用3D建模软件设计一个夹具,并使用Microsoft PowerPoint创建演示文稿。作为交付物的一部分,仅上传一个PDF文档,其中包含使用3D设计快照总结的设计。
经验丰富的人类交付物

四、我们如何评级模型性能?
为了评估模型在GDPval任务上的表现,我们依靠经验丰富的“评级员”——一组来自数据集所代表的相同职业的专业人士。这些评级员在盲测中比较模型生成的交付物与任务撰写者(不知道哪个是AI生成,哪个是人类生成)的交付物,并提供评论和排名。评级员随后对人类和AI的交付物进行排名,并将每个AI交付物分类为“更好”、“与...一样好”或“比...差”。
任务撰写者还为他们的职业创建了详细的评分标准,这为评级过程增加了一致性和透明度。我们还构建了一个“自动化评级器”,这是一个AI系统,旨在估算人类专家将如何判断给定的交付物。换句话说,自动化评级器不需要每次都进行完整的专家审查,可以快速预测人们可能更倾向于哪个输出。我们通过evals.openai.com以实验性研究服务的形式发布此工具,但它目前不如专家评级员可靠,因此我们不将其用于替代专家评级。
五、初步结果
我们发现,当今最前沿的模型在质量上已经接近行业专家的工作水平。为了检验这一点,我们进行了盲测评估,行业专家将几款领先模型(GPT‑4o、o4-mini、OpenAI o3、GPT‑5、Claude Opus 4.1、Gemini 2.5 Pro和Grok 4)的交付物与人类生产的工作成果进行比较。在GDPval黄金集中220个任务中,我们记录了模型输出被评为优于(“获胜”)或与(“平局”)行业专家交付物相当的情况,如下柱状图所示。Claude Opus 4.1 在该集中表现最佳,特别是在美学方面(例如文档格式、幻灯片布局)表现出色,而GPT‑5 在准确性方面表现突出(例如查找特定领域知识)。我们还看到了这些任务上随着时间推移的明显进步。从GPT‑4o(2024年春季发布)到GPT‑5(2025年夏季发布),性能增加了一倍多,呈现出清晰的线性趋势。
此外,我们发现前沿模型完成GDPval任务的速度比行业专家快大约100倍,成本也低100倍。然而,这些数字仅反映了纯粹的模型推理时间和API计费费率,因此并未捕捉到在真实工作环境中需要的人工监督、迭代和集成步骤。尽管如此,特别是在模型特别擅长的任务子集上,我们预计先将任务交给模型而不是先尝试人工处理,可以节省时间和金钱。
专家评级员将领先模型的交付物与人类专家的交付物进行了比较。当今最前沿的模型在质量上已经接近行业专家的工作水平。Claude Opus 4.1 在近一半的任务中产生了被评为与人类相当或更好的输出。
从GPT‑4o到GPT‑5,GDPval任务的性能在一年内增加了两倍多。
最后,我们对GPT‑5的一个内部实验版本进行了增量训练,以评估我们是否能提高在GDPval上的性能。我们发现这个过程提高了性能,为进一步的潜在改进开辟了道路。其他受控实验也证实了这一点:增加模型规模、鼓励更多的推理步骤以及提供更丰富的任务上下文都带来了可衡量的收益。
您可以在我们的论文中阅读完整的成果。我们还将发布GDPval任务的黄金子集和一个公开的评级服务,以便其他研究人员可以在这项工作的基础上继续研究。
六、工作与AI的未来
随着AI能力的增强,它可能会引起就业市场的变化。早期的GDPval结果表明,模型已经可以比专家更快、更低成本地承担一些重复的、明确界定的任务。然而,大多数工作不仅仅是一堆可以写下来的任务集合。GDPval凸显了AI可以在哪里处理常规任务,从而使人们能够将更多时间投入到工作中需要判断和创造力的部分。当AI以这种方式补充工人时,可以转化为显著的经济增长。我们的目标是通过普及对这些工具的访问、支持变革中的工人以及构建奖励广泛贡献的系统,让每个人都登上AI的“电梯”。
七、局限性与后续工作
GDPval是一个初步的步骤。虽然它涵盖了44种职业和数百个任务,但我们仍在不断完善我们的方法,以扩大测试范围并使结果更具意义。当前版本的评估也是一次性的(one-shot),因此未能捕捉到模型需要通过多轮草稿来建立上下文或改进的情况——例如,在收到客户反馈后修改法律摘要或在发现异常后迭代数据分析。此外,在现实世界中,任务并非总是以提示和参考文件的形式明确定义;例如,律师可能需要在与客户沟通并处理模糊性后,才能决定创建法律摘要是帮助他们的正确方法。我们计划将GDPval扩展到包括更多的职业、行业和任务类型,增加交互性,并包含更多涉及处理模糊性的任务,以期长期更好地衡量在多样化知识工作方面的进展。
八、参与进来
社区参与至关重要——我们期待与所有致力于使AGI在工作场所对人们更有用的研究人员、从业者和组织共同构建GDPval。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。
青云聚合API官网https://api.qingyuntop.top
支持全球最新300+模型:https://api.qingyuntop.top/pricing
详细的调用教程及文档:https://api.qingyuntop.top/about
评论区