目 录CONTENT

文章目录

介绍 GPT-5.2

Administrator
2025-12-12 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://openai.com/index/introducing-gpt-5-2

原文作者:OpenAI


我们正在推出 GPT‑5.2,这是迄今为止在专业知识工作方面能力最强的模型系列。

现阶段,ChatGPT 企业版用户的平均反馈是,AI 每天为他们节省了 40–60 分钟,重度用户表示每周节省了超过 10 小时。我们设计 GPT‑5.2 旨在为人们解锁更多的经济价值;它在创建电子表格、制作演示文稿、编写代码、感知图像、理解长文本、使用工具以及处理复杂的多步骤项目方面表现更佳。

GPT‑5.2 在许多基准测试中都设定了新的最先进水平,其中包括 GDPval 基准测试,在该测试中,它在跨越 44 个职业的明确定义的知识工作任务中,表现超越了行业专业人士。


GPT‑5.2 思考 (Thinking) 

GPT‑5.1 思考 (Thinking)

GDPval (获胜或平局)知识工作任务

70.9%

38.8% (GPT‑5)

SWE-Bench Pro (公开)软件工程

55.6%

50.8%

SWE-bench Verified软件工程

80.0%

76.3%

GPQA Diamond (不使用工具)科学问题

92.4%

88.1%

CharXiv Reasoning (使用 Python)科学图表问题

88.7%

80.3%

AIME 2025 (不使用工具)竞赛数学

100.0%

94.0%

FrontierMath (Tier 1–3)高级数学

40.3%

31.0%

FrontierMath (Tier 4)高级数学

14.6%

12.5%

ARC-AGI-1 (已验证)抽象推理

86.2%

72.8%

ARC-AGI-2 (已验证)抽象推理

52.9%

17.6%

Notion(在新窗口中打开), Box(在新窗口中打开), Shopify(在新窗口中打开), Harvey(在新窗口中打开) 和 Zoom(在新窗口中打开) 观察到 GPT‑5.2 在长程推理和工具调用方面表现出色。Databricks(在新窗口中打开), Hex(在新窗口中打开) 和 Triple Whale(在新窗口中打开) 发现 GPT‑5.2 在智能体式数据科学和文档分析任务中表现卓越。Cognition(在新窗口中打开), Warp(在新窗口中打开), Charlie Labs(在新窗口中打开), JetBrains(在新窗口中打开) 和 Augment Code(在新窗口中打开) 表示 GPT‑5.2 提供了最先进的智能体式编码性能,在交互式编码、代码审查和错误查找等领域有明显的改进。

在 ChatGPT 中,GPT‑5.2 InstantThinkingPro 版本将从今天开始向付费用户推出。API 版本现已对所有开发者开放。

总体而言,GPT‑5.2 在通用智能、长文本理解、智能体工具调用和视觉方面带来了显著改进——使其在端到端执行复杂、现实任务方面比以往任何模型都更出色。

模型性能

经济上有价值的任务

GPT‑5.2 Thinking 是迄今为止最适合现实世界专业用途的模型。在 GDPval 上,这是一个衡量跨越 44 个职业的明确知识工作任务的评估基准,GPT‑5.2 Thinking 设定了新的最先进分数,也是我们第一个在人类专家水平上达到或超过该水平的模型。具体来说,根据专家级人工裁判的评估,GPT‑5.2 ThinkingGDPval 知识工作任务的比较中,击败或与顶级行业专业人士打平的比例达到了 70.9%。这些任务包括制作演示文稿、电子表格和其他工件。据估计,GPT‑5.2 Thinking 生成 GDPval 任务输出的速度比专家专业人士快 11 倍以上,成本不到 1%,这表明当与人工监督相结合时,GPT‑5.2 可以帮助完成专业工作。速度和成本估计基于历史指标;ChatGPT 中的速度可能会有所不同。

在 GDPval 中,模型尝试跨越占美国 GDP 贡献最大的 9 个行业,涵盖 44 个职业的明确知识工作。任务要求实际工作产品,例如销售演示文稿、会计电子表格、急诊安排、制造图表或短视频。在 ChatGPT 中,GPT‑5.2 Thinking 拥有 GPT‑5 Thinking 所不具备的新工具。

在审查一个特别出色的输出时,一位 GDPval 评审员评论道:“这是输出质量上一次令人兴奋且显著的飞跃……[它]看起来像是专业公司雇用员工完成的,并且对于两个交付成果,它都有一个设计精良的布局和建议,尽管其中一个我们仍然需要纠正一些小错误。”

此外,在我们针对初级投资银行分析师电子表格建模任务的内部基准测试中(例如,为《财富 500 强》公司创建具有适当格式和引用的三张表模型,或为私有化构建杠杆收购模型),GPT 5.2 Thinking 的平均每项任务得分比 GPT‑5.1 高出 9.3%,从 59.1% 上升到 68.4%。

并排比较显示了 GPT‑5.2 Thinking 生成的电子表格和幻灯片在复杂性和格式化方面的改进:

Side by side example of spreadsheet outputs from GPT-5.1 vs GPT-5.2

提示: 创建一个劳动力规划模型:包括人员配置、招聘计划、人员流失和预算影响。请包含工程、市场、法务和销售部门。

要在 ChatGPT 中使用新的电子表格和演示文稿功能,您必须是 Plus、Pro、Business 或 Enterprise 订阅用户,并选择 GPT‑5.2 ThinkingPro。复杂的生成过程可能需要几分钟时间。

编码

GPT‑5.2 Thinking 在 SWE-Bench Pro 上达到了 55.6% 的新 SOTA(最先进水平),这是一个对真实世界软件工程的严格评估。与仅测试 Python 的 SWE-bench Verified 不同,SWE-Bench Pro 测试四种语言,旨在更具抗污染性、挑战性、多样性和工业相关性。

SWE-Bench Pro(在新窗口中打开) 中,模型会获得一个代码仓库,并必须生成一个补丁来解决一个真实的软件工程任务。

在 SWE-bench Verified 上(未在图中显示),GPT‑5.2 Thinking 获得了我们新的最高分 80%。

对于日常专业用途,这意味着模型可以更可靠地调试生产代码、实现功能请求、重构大型代码库,并以更少的干预端到端地交付修复。

GPT‑5.2 Thinking 在前端软件工程方面也优于 GPT‑5.1 Thinking。早期测试人员发现它在前端开发以及复杂或非常规的 UI 工作(特别是涉及 3D 元素时)方面明显更强大——使其成为全栈工程师的强大日常伙伴。以下是它能根据单个提示生成内容的示例:

提示: 创建一个包含以下要求的单页应用程序(在单个 HTML 文件中):
- 名称:海洋波浪模拟
- 目标:显示逼真的动画波浪。
- 特点:更改风速、波高、光照。
- UI 应该平静且逼真。

早期测试人员分享了他们对 GPT‑5.2 编码能力的反馈:

"GPT-5.2 代表了自 GPT-5 以来 GPT 模型在智能体编码方面最大的飞跃,是其价位上的 SOTA 编码模型。版本号低估了智能的飞跃。我们很高兴将其设为 Windsurf 和多个核心 Devin 工作负载的默认设置。"
Jeff Wang, CEO, Windsurf

事实准确性

GPT‑5.2 Thinking 的幻觉(胡编乱造)少于 GPT‑5.1 Thinking。在一组来自 ChatGPT 的去身份信息查询中,出现错误的响应减少了 30%rel。对于专业人士来说,这意味着在使用模型进行研究、写作、分析和决策支持时错误更少——使模型在日常知识工作中的可靠性更高。

推理努力被设置为最大可用值,并启用了搜索工具。错误由其他模型检测到,这些模型本身也可能出错。声明级别的错误率远低于响应级别的错误率,因为大多数响应包含许多声明。

与所有模型一样,GPT‑5.2 Thinking 并不完美。对于任何关键信息,请仔细检查其答案。

长文本

GPT‑5.2 Thinking 在长文本推理方面设定了新的最先进水平,在 OpenAI MRCRv2 评估中取得了领先性能——该评估测试模型整合跨长文档分散信息的能力。在需要跨越数十万个 token 的相关信息的深度文档分析等现实任务中,GPT‑5.2 ThinkingGPT‑5.1 Thinking 明显更准确。特别是,它是我们见过的第一个在 4-needle MRCR 变体(长达 256k tokens)上实现接近 100% 准确率的模型。

在实际应用中,这使得专业人士能够使用 GPT‑5.2 处理长文档(如报告、合同、研究论文、会议记录和多文件项目),同时在数十万个 token 中保持连贯性和准确性。这使得 GPT‑5.2 特别适合深度分析、综合和复杂的多源工作流程。

OpenAI-MRCR v2(多轮指代消解)中,多个相同的“针”(needle)用户请求被插入到长长的“干草堆”(haystack)中,包含相似的请求和响应,然后要求模型再现第 n 个“针”的响应。评估的第 2 版修复了约 5% 的具有不正确真实值(ground truth)的任务。平均匹配率衡量模型响应与正确答案之间的平均字符串匹配率。在 256k 最大输入 token 时的点数是 128k–256k 输入 token 平均值的平均值,以此类推。这里的 256k 代表 256 * 1,024 = 262,114 个 token。推理努力被设置为最大可用值。

对于需要超越最大上下文窗口进行思考的任务,GPT‑5.2 Thinking 与我们新的 Responses /compact 端点兼容,该端点扩展了模型的有效上下文窗口。这使得 GPT‑5.2 Thinking 能够处理更多受上下文长度限制的、更依赖工具的长运行工作流程。请在我们的 API 文档(在新窗口中打开) 中了解更多信息。

视觉 (Vision)

GPT‑5.2 Thinking 是我们迄今为止最强大的视觉模型,在图表推理和软件界面理解方面的错误率降低了大约一半。

对于日常专业用途,这意味着模型可以更准确地解释仪表板、产品屏幕截图、技术图表和视觉报告——支持金融、运营、工程、设计和客户支持等领域的工作流程,在这些领域视觉信息至关重要。

CharXiv Reasoning(在新窗口中打开) 中,模型回答有关科学论文中视觉图表的问题。启用了 Python 工具,推理努力设置为最大值。

ScreenSpot-Pro(在新窗口中打开) 中,模型必须推理各种专业环境下的高分辨率图形用户界面屏幕截图。启用了 Python 工具,推理努力设置为最大值。如果没有 Python 工具,分数会低得多。我们建议在执行此类视觉任务时启用 Python 工具。

与以前的模型相比,GPT‑5.2 Thinking 对图像中元素的定位有更强的把握,这在相对布局在解决问题中起关键作用的任务上有所帮助。在下面的示例中,我们要求模型识别图像输入(本例中为一块主板)中的组件,并返回带有近似边界框的标签。即使在低质量图像上,GPT‑5.2 也能识别主要区域并放置与其各个组件真实位置有时匹配的框,而 GPT‑5.1 只标记了少数部分,并且对其空间排列的理解要弱得多。两个模型都有明显的错误,但 GPT‑5.2 表现出对图像更好的理解。

GPT-5.1
Example output of GPT-5.1 identifying components in an image
GPT-5.2
Example output of GPT-5.2 identifying components in an image

工具调用 (Tool calling)

GPT‑5.2 Thinking 在 Tau2-bench Telecom 上达到了 98.7% 的新 SOTA,证明了它在长期的多轮任务中可靠地使用工具的能力。

对于延迟敏感的用例,GPT‑5.2 Thinkingreasoning.effort='none' 的情况下表现也更好,大大优于 GPT‑5.1GPT‑4.1

τ2-bench(在新窗口中打开) 中,模型使用工具与模拟用户进行多轮交互以完成客户支持任务。对于电信领域,我们包含在系统提示中一个简短的、通常有帮助的指令以提高性能。我们排除了航空子集,因为其真实值评分质量较低。

对于专业人士来说,这意味着更强大的端到端工作流程——例如解决客户支持案例、从多个系统中提取数据、运行分析以及生成最终输出,而各个步骤之间的中断更少。

例如,当提出一个需要多步解决的复杂客户服务问题时,模型可以更有效地协调跨多个智能体的完整工作流程。在下面的案例中,一位旅客报告了航班延误、错过了转机、在纽约过夜以及医疗座位要求。GPT‑5.2 管理了整个任务链——重新预订、特殊协助座位和赔偿——提供了比 GPT‑5.1 更完整的解决方案。

我从巴黎飞往纽约的航班延误了,我错过了飞往奥斯汀的转机。我的托运行李也不见了,我需要在纽约过夜。此外,由于医疗原因,我需要一个前排座位。你能帮我吗?

GPT-5.1
Example of tool calling output in GPT-5.1
GPT-5.2
Example of tool calling output in GPT-5.2

科学与数学

我们对人工智能的希望之一是它将加速科学研究,造福于所有人。为此,我们一直在与科学家合作并听取他们的意见,以了解 AI 如何能加快他们的工作速度,上个月我们在这里分享了一些早期的合作实验。

我们相信 GPT‑5.2 ProGPT‑5.2 Thinking 是世界上协助和加速科学家的最佳模型。在 GPQA Diamond 上,一个研究生级别的抗 Google 问答基准测试中,GPT‑5.2 Pro 达到了 93.2%,紧随其后的是 GPT‑5.2 Thinking 的 92.4%。

GPQA Diamond(在新窗口中打开) 中,模型回答有关物理、化学和生物学的多项选择题。未启用任何工具,推理努力设置为最大值。

在 FrontierMath(Tier 1–3)上,一个评估专家级数学水平的测试,GPT‑5.2 Thinking 设定了新的 SOTA,解决了 40.3% 的问题。

FrontierMath(在新窗口中打开) 中,模型解决专家级的数学问题。启用了 Python 工具,推理努力设置为最大值。

我们开始看到 AI 模型在数学和科学方面取得有意义的加速进展。例如,在与 GPT‑5.2 Pro 的最新合作研究中,研究人员探索了统计学习理论中的一个开放性问题。在一个狭窄、定义明确的环境中,模型提出了一个被作者随后验证并通过外部专家审查的证明,说明了前沿模型如何在密切的人工监督下协助数学研究。

ARC-AGI 2

在 ARC-AGI-1(已验证)上,这是一个旨在衡量通用推理能力的基准测试,GPT‑5.2 Pro 是第一个突破 90% 门槛的模型,比去年 o3-preview 的 87% 有所提高,同时将达到该性能的成本降低了约 390 倍。

在 ARC-AGI-2(已验证)上,该测试提高了难度并更好地隔离了流体推理能力,GPT‑5.2 Thinking 实现了链式思维模型的新的 SOTA,得分为 52.9%。GPT‑5.2 Pro 的表现更高,达到 54.2%,进一步扩展了模型推理新颖、抽象问题的能力。

这些评估的改进反映了 GPT‑5.2 在多步推理、更高的定量准确性以及复杂技术任务中更可靠的问题解决能力。

以下是我们的早期测试人员对 GPT‑5.2 的评价:

"GPT-5.2 为我们实现了一次完整的架构转变。我们将一个脆弱的多智能体系统整合为一个具有 20 多个工具的单一超级智能体。最棒的是,它就是能用。这个超级智能体更快、更智能,而且维护起来也简单 100 倍。我们正在看到延迟急剧降低,工具调用能力大大增强,而且我们不再需要冗长的系统提示,因为 5.2 可以仅根据一个简单的单行提示干净地执行任务。这感觉就像纯粹的魔法。"
AJ Orbach, CEO, Triple Whale

ChatGPT 中的 GPT‑5.2

在 ChatGPT 中,用户应该会注意到 GPT‑5.2 日常使用起来感觉更好——结构更清晰,更可靠,而且交流起来仍然令人愉快。

GPT‑5.2 Instant 是日常工作和学习的快速、高效主力模型,在信息查询、操作指南和技术写作、翻译方面有明显的改进,并在此基础上继承了 GPT‑5.1 Instant 引入的更温暖的对话风格。早期测试人员特别提到了更清晰的解释,能够立即突出关键信息。

GPT‑5.2 Thinking 专为更深入的工作设计,帮助用户以更高的水准处理更复杂的任务——尤其是在编码、总结长文档、回答关于上传文件的问题、逐步解决数学和逻辑问题,以及通过更清晰的结构和更有用的细节来支持规划和决策方面。

GPT‑5.2 Pro 是我们最智能、最值得信赖的选择,适用于那些需要等待更高质量答案的困难问题,早期测试显示其在复杂领域(如编程)中的重大错误更少,性能更强。

安全性

GPT‑5.2 构建于我们随 GPT‑5 引入的 安全补全(在新窗口中打开) 研究之上,该研究教导模型在保持安全边界的同时给出最有帮助的答案。

通过本次发布,我们继续致力于 加强模型在敏感对话中的响应(在新窗口中打开),在如何响应表明有自杀或自残迹象、心理健康困扰或对模型的过度依赖的提示方面取得了实质性改进。这些有针对性的干预措施使得 GPT‑5.2 InstantGPT‑5.2 Thinking 在与 GPT‑5.1 InstantThinking 模型相比时,产生不良响应的次数更少。更多详细信息可在 系统卡片(在新窗口中打开) 中找到。

我们正在开始推出我们的 年龄预测模型(在新窗口中打开),以便我们能够自动应用内容保护措施,限制 18 岁以下用户访问敏感内容。这建立在我们现有针对已知未满 18 岁用户的做法和我们的家长控制措施之上。

GPT‑5.2 是持续改进过程中的一步,我们远未完成。虽然本次发布在智能和生产力方面带来了有意义的提升,但我们也知道人们在某些方面还希望获得更多。在 ChatGPT 中,我们正在努力解决已知的过度拒绝等问题,同时继续提高整体的安全性和可靠性标准。这些更改很复杂,我们专注于把它们做好。

心理健康评估


GPT‑5.2
Instant

GPT‑5.1
Instant

GPT‑5.2
Thinking

GPT‑5.1
Thinking

心理健康

0.995

0.883

0.915

0.684

情感依赖

0.938

0.945

0.955

0.785

自残

0.938

0.925

0.963

0.937

可用性和定价

在 ChatGPT 中,我们今天开始向付费计划(Plus、Pro、Go、Business、Enterprise)推出 GPT‑5.2(Instant、Thinking 和 Pro)。我们逐步部署 GPT‑5.2 以保持 ChatGPT 尽可能流畅和可靠;如果您一开始没有看到它,请稍后再试。在 ChatGPT 中,付费用户仍可在接下来的三个月内使用 GPT‑5.1 作为遗留模型,之后我们将弃用 GPT‑5.1

ChatGPT 和 API 之间的模型命名

ChatGPT




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区