📢 转载信息
原文链接:https://openai.com/index/gdpval
原文作者:OpenAI
OpenAI重磅发布GDPval评估框架:量化AI模型在真实经济价值任务中的表现
我们的使命是确保通用人工智能(AGI)的进步能够惠及全人类。为此,OpenAI正在透明地沟通AI模型在现实世界中如何帮助人类的进展。我们推出GDPval:一个全新的评估体系,旨在帮助我们追踪和衡量我们及其他机构的模型在具有经济价值的真实世界任务中的表现。之所以命名为GDPval,是因为我们以国内生产总值(GDP)这一关键经济指标为概念起点,从对GDP贡献最大的行业中的关键职业中提取任务。
人们常常对AI对社会的广泛影响进行推测,但理解其潜力的最清晰途径是观察模型当前已经能够完成哪些工作。历史表明,重大技术(从互联网到智能手机)从发明到广泛应用往往需要十多年的时间。像GDPval这样的评估有助于将关于未来AI改进的讨论建立在证据之上,而不是猜测,并能帮助我们追踪模型随时间推移的改进情况。
以往的AI评估,如具有挑战性的学术测试和竞技性编程挑战,在推动模型推理能力的边界方面发挥了重要作用,但它们往往无法涵盖许多人在日常工作中处理的任务类型。
为弥合这一差距,我们一直在开发越来越贴近现实且与经济相关的能力评估。这一进展线索从经典的学术基准测试(如MMLU,涉及数十个学科的考试题)转向了更具应用性的评估,例如SWE-Bench(软件工程Bug修复任务)、MLE-Bench(模型训练和分析等机器学习工程任务),以及Paper-Bench(对研究论文的科学推理和批判),最近还扩展到基于市场的评估,如SWE-Lancer(基于实际报酬的自由职业软件工程项目)。
GDPval是这一发展进程中的下一步。它衡量模型在直接源自经验丰富的专业人员跨广泛职业和部门的现实世界知识工作任务上的表现,从而更清晰地描绘出模型在具有经济价值任务上的表现。在现实职业任务上评估模型有助于我们理解它们不仅在实验室中的表现如何,而且可能如何在人们日常工作中提供支持。
💡 GDPval衡量什么?
作为该评估的第一版,GDPval涵盖了从美国GDP前9大行业中选出的44个职业。GDPval完整数据集包含1,320个专业任务(其中220个包含在开源黄金标准集中),每个任务都由来自这些领域的、平均拥有14年经验的资深专业人员精心设计和审查。每个任务都基于真实的工作成果,例如法律简报、工程蓝图、客户支持对话或护理计划。
GDPval的独特性在于其任务的真实性和多样性。与其他侧重于特定领域的经济价值评估(如SWE-Lancer)不同,GDPval涵盖了许多任务和职业。与涉及模仿学术考试或测试风格的人工创建任务的基准测试(如Humanity’s Last Exam或MMLU)不同,GDPval侧重于基于实际工作成果或现有产品,或与之相似的工作成果的任务。
与传统基准测试不同,GDPval任务不是简单的文本提示。它们附带参考文件和上下文,预期的可交付成果涵盖文档、幻灯片、图表、电子表格和多媒体。这种真实性使GDPval成为对模型如何支持专业人员的更现实的检验。
GDPval是一个初步步骤,并未反映许多经济任务的全部细微差别。虽然它涵盖了44个职业和数百个知识工作任务,但它仅限于“单次”评估(one-shot evaluations),因此未能捕捉到模型需要通过多轮草稿来建立上下文或改进的情况。未来的版本将扩展到更具交互性的工作流程和富含上下文的任务,以更好地反映真实世界知识工作的复杂性(详见下文“局限性”部分)。
🔍 如何选择职业?
GDPval涵盖了9个行业和44个职业的任务,未来版本将继续扩大覆盖范围。最初的9个行业是根据圣路易斯联邦储备银行的数据,选择那些对美国GDP贡献超过5%的行业。然后,我们使用美国劳工统计局(BLS)2024年5月《职业就业报告》中的工资和就业数据,在每个行业中选择了对总工资和薪酬贡献最大且主要是知识工作的5个职业。为了确定职业是否主要为知识工作,我们使用了美国劳工部赞助的职业信息数据库O*NET的任务数据。我们将O*NET中每个职业的每个任务分类为知识工作还是体力劳动/手工劳动(需要在物理世界中执行的操作)。如果一个职业至少60%的组成任务被归类为不涉及体力劳动或手工劳动,则总体上被认定为“主要知识工作”。我们选择60%的阈值作为GDPval第一版的起点,重点关注AI可能对现实生产力产生最大影响的职业。
此过程最终确定了44个纳入的职业。
房地产和租赁
礼宾员
物业、房地产和社区协会经理
房地产销售代理
房地产经纪人
柜台和租赁文员
政府
娱乐工作者
合规官员
警察和侦探的一线主管
行政服务经理
儿童、家庭和学校社会工作者
制造业
机械工程师
工业工程师
采购代理
装运、接收和库存文员
生产和运营工人的一线主管
专业、科学和技术服务
软件开发人员
律师
会计师和审计师
计算机和信息系统经理
项目管理专家
医疗保健和社会援助
注册护士
执业护士
医疗和卫生服务经理
办公室和行政支持人员的一线主管
医疗秘书和行政助理
金融和保险
客户服务代表
金融和投资分析师
财务经理
个人理财顾问
证券、商品和金融服务销售代理
零售贸易
药剂师
零售销售工人的一线主管
总经理和运营经理
私人侦探和调查员
批发贸易
销售经理
订单文员
非零售销售工人的一线主管
批发和制造销售代表(不含技术和科学产品)
批发和制造销售代表(技术和科学产品)
信息
音视频技术人员
制片人和导演
新闻分析师、记者和记者
影片和视频编辑
编辑
GDPval涵盖了9个行业的44个知识工作职业,从软件开发人员和律师到注册护士和机械工程师。这些职业因其经济重要性而被选中,代表了AI可以有意义地协助专业人员的日常工作类型。
🛠️ 如何构建数据集?
对于每个职业,我们与经验丰富的专业人士合作,创建反映其日常工作的代表性任务。这些专业人员平均拥有14年经验,并拥有出色的晋升记录。我们特意招募了广泛的专家——例如来自不同执业领域和不同规模公司的律师——以最大限度地提高代表性。
每个任务都经过了多步审查过程,以确保它能代表真实工作,对于另一位专业人员来说是可行的,并且对评估是清晰的。平均而言,每个任务都收到了5轮专家审查,包括来自其他任务编写者、其他职业审查员以及模型验证的检查。
最终的数据集包括每个职业的30个完全审查的任务(完整集),其中我们的开源黄金集中包含每个职业的5个任务,为评估模型在真实世界知识工作上的表现提供了坚实的基础。
🌟 GDPval任务示例
提示 + 任务背景
现在是2025年6月,您是一名在汽车装配线上的制造工程师。产品是用于地下采矿作业的电缆卷绕卡车,您正在审查最后的测试步骤。在最后一步测试中,需要将一卷大电缆卷入和卷出2次,以确保电缆卷绕功能符合要求。当前操作需要2人协同完成此测试。第一人需要将卷盘带到测试单元附近并定位好,第二人将电缆的自由端连接到测试单元并开始卷入步骤。在电缆从卷盘放出的同时,第一人需要转动卷盘以协助放线操作。当电缆完全卷到卡车上后,下一步是反向操作,将电缆从卡车上放出并重新卷回其自身的卷盘上。此测试会重复一次以确保功能正常。此任务复杂,有相关风险,需要大量人力,并使工作区域显得杂乱。您的经理要求您开发一个夹具/固定装置,以简化电缆卷盘的卷入和卷出过程,使测试可以由一个人完成。随此请求附带一份信息文件,其中提供了电缆卷筒尺寸的基本细节、设计电缆卷绕夹具的信息以及交付物的结构。此任务的交付物仅为初步概念设计。单独的任务将用于计算设计基础,如应力、强度、成本效益分析等。请使用3D建模软件设计一个夹具,并使用Microsoft PowerPoint制作一个演示文稿。作为交付物的一部分,只上传一个PDF文档,该文档使用3D设计快照来总结设计。提交时不需要3D设计文件。
经验丰富的人类交付物

GDPval中的每个任务都是由经验丰富的专业人员设计的,反映了他们职业中的真实知识工作。提示是领域专家创建的现实工作任务,黄金交付物是专家自己的解决方案。
📊 如何评定模型性能?
为了评估模型在GDPval任务上的表现,我们依靠经验丰富的“评分员”——一组来自数据集所代表的相同职业的经验丰富的专业人员。这些评分员会盲审模型生成的交付物与任务编写者(不知道哪个是AI生成,哪个是人类生成)的交付物,并提供评论和排名。然后,评分员对人类和AI的交付物进行排序,并将每个AI交付物分类为“更好”、“与人类一样好”或“比人类差”。
任务编写者还为其职业创建了详细的评分标准,为评分过程增加了一致性和透明度。我们还构建了一个“自动化评分器”,这是一个AI系统,经过训练,可以估计人类专家将如何判断给定的交付物。换句话说,与每次都进行完整的专家审查相比,自动化评分器可以快速预测人们可能偏好的输出。我们通过evals.openai.com作为一个实验性研究服务发布了这个工具,但它尚不如专家评分员可靠,因此我们不使用它来取代专家。
🚀 早期结果
我们发现,当今最前沿的模型在工作质量上已经接近行业专家的水平。为了检验这一点,我们进行了盲测评估,行业专家将来自几款领先模型——GPT‑4o、o4-mini、OpenAI o3、GPT‑5、Claude Opus 4.1、Gemini 2.5 Pro和Grok 4——的交付物与人类生产的工作成果进行了比较。在GDPval黄金数据集的220个任务中,我们记录了模型输出被评为“优于”(wins)或“与……相当”(ties)于行业专家的交付物的情况,如下柱状图所示。Claude Opus 4.1在该集合中表现最佳,尤其在美学方面表现出色(例如,文档格式、幻灯片布局),而GPT‑5在准确性方面表现突出(例如,查找领域特定知识)。我们还看到了这些任务上随着时间推移的明显进步。从GPT‑4o(2024年春季发布)到GPT‑5(2025年夏季发布),性能提高了两倍以上,呈现出清晰的线性趋势。
此外,我们发现前沿模型完成GDPval任务的速度和成本大约是行业专家的100倍。然而,这些数字仅反映纯模型推理时间和API计费费率,因此并未捕捉到在真实工作环境中为使用我们的模型所需的人为监督、迭代和集成步骤。尽管如此,尤其是在模型特别擅长的任务子集上,我们预计先将任务交给模型而不是先与人合作,可以节省时间和金钱。
专家评分员将领先模型的交付物与人类专家的交付物进行了比较。当今最前沿的模型在工作质量上已经接近行业专家的水平。Claude Opus 4.1 在略低于一半的任务中产生了与人类评分相当或更好的输出。
从GPT‑4o到GPT‑5,GDPval任务的性能在一年内增长了三倍以上。
最后,我们对GPT‑5的一个内部实验版本进行了增量训练,以评估我们是否可以提高其在GDPval上的性能。我们发现这个过程提高了性能,为进一步的潜在改进开辟了道路。其他受控实验也证实了这一点:增加模型规模、鼓励更多推理步骤以及提供更丰富的任务上下文都带来了可衡量的提升。
您可以在我们的论文中阅读完整的结果。我们还发布了GDPval任务的黄金子集和一个公共评分服务,以便其他研究人员可以在此工作基础上进行构建。
🔮 工作与AI的未来
随着AI能力的增强,它可能会导致就业市场发生变化。早期的GDPval结果表明,模型已经可以比专家更快、更低成本地处理一些重复的、定义明确的任务。然而,大多数工作不仅仅是一堆可以写下来的任务集合。GDPval强调了AI可以在哪些方面处理常规任务,从而使人们可以将更多时间投入到工作中需要判断和创造力的部分。当AI以这种方式补充工人时,可以转化为显著的经济增长。我们的目标是通过普及这些工具、支持工人度过变革,并建立奖励广泛贡献的体系,让每个人都处于AI的“电梯向上”的趋势中。
⚠️ 局限性与后续步骤
GDPval是一个初步的步骤。虽然它涵盖了44个职业和数百个任务,但我们仍在不断完善方法,以扩大测试范围并使结果更有意义。当前版本的评估也是“单次”的,因此它没有捕捉到模型需要通过多轮草稿来建立上下文或改进的情况——例如,在收到客户反馈后修改法律简报或在发现异常后迭代数据分析。此外,在现实世界中,任务并不总是用提示和参考文件清晰定义的;例如,律师可能需要在决定创建法律简报是帮助客户的最佳方法之前,先与客户沟通以应对模糊性。我们计划将GDPval扩展到包括更多的职业、行业和任务类型,增加交互性,并增加涉及应对模糊性的任务,以期更好地衡量在多样化知识工作方面的进展。
🤝 参与进来
社区参与至关重要——我们热切期待与那些与我们拥有共同目标的研究人员、从业者和组织一起构建GDPval,让AGI在工作中对人们更有用。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。
青云聚合API官网https://api.qingyuntop.top
支持全球最新300+模型:https://api.qingyuntop.top/pricing
详细的调用教程及文档:https://api.qingyuntop.top/about
评论区