📢 转载信息
原文链接:https://openai.com/index/introducing-gpt-5-2
原文作者:OpenAI
2025年12月11日
隆重推出 GPT-5.2
领先的前沿模型,为专业工作和持久运行的智能体而打造。
我们推出了 GPT‑5.2,这是 OpenAI 迄今为止最强大的模型系列,为专业知识型工作而打造。
AI 正在改变人们的工作方式、团队的协作方式,以及企业的构建方式。如今,75% 的员工表示,AI 大幅提升了他们的工作速度或体验。许多人每天节省 40–60 分钟,而深度使用者每周甚至能节省超过 10 小时。
我们打造了 GPT‑5.2,旨在为人们带来更多经济价值。该模型在制作电子表格、设计演示文稿、编写代码、识别图像、理解长文本上下文、使用工具以及处理复杂的多步骤项目方面表现更佳。这些能力结合在一起,使 GPT‑5.2 Thinking 成为我们首个在 GDPval 评测中达到专家级表现的模型。GDPval 是我们衡量真实且明确的知识型工作任务的基准,涵盖 44 个职业。同时,该模型也在行业 AI 基准测试中树立了新的标杆,包括 SWE-Bench Pro(软件)、GQPA Diamond(科学)和 Frontier Math(数学)。
在 ChatGPT 中,GPT‑5.2 Instant、Thinking 和 Pro 将从今天开始陆续上线,首先面向付费套餐用户开放。在 API 中,它们现已向所有开发者开放。
总体而言,GPT‑5.2 在通用智能、长上下文理解、智能体工具调用以及视觉方面都有显著提升,使其在端到端执行复杂的真实任务时,比以往任何模型都更为出色。
|
|
GPT‑5.2 Thinking |
GPT‑5.1 Thinking |
|
GDPval(胜出或持平)知识型工作任务 |
70.9% |
38.8% (GPT‑5) |
|
SWE-Bench Pro(公开版)
|
55.6% |
50.8% |
|
SWE-bench Verified软件工程 |
80.0% |
76.3% |
|
GPQA Diamond(无工具)科学问题 |
92.4% |
88.1% |
|
CharXiv 推理(使用 Python)科学图表类问题 |
88.7% |
80.3% |
|
HMMT(2025 年 2 月)数学竞赛 |
99.4% |
96.3% |
|
FrontierMath(Tier 1–3)高等数学 |
40.3% |
31.0% |
|
ARC-AGI-1 (Verified)抽象推理 |
86.2% |
72.8% |
|
ARC-AGI-2 (Verified)抽象推理 |
52.9% |
17.6% |
在 ChatGPT 中,GPT‑5.2 模型在工作和学习方面更聪明、更实用,同时延续了 GPT‑5.1 Instant 所带来的温暖、自然的对话风格。
- GPT‑5.2 Thinking 是我们迄今为止最适合专业人士的模型,它能更高效、更精细地完成复杂的工作任务,尤其在电子表格格式化、财务建模以及演示文稿制作方面表现突出。早期测试显示,它在编程、长文档总结、回答上传文件相关问题、逐步解析复杂数学与逻辑,以及在规划与决策等任务中,提供更清晰的结构和更周到的细节。
- GPT‑5.2 Instant 是一款高效而强大的日常工作与学习“主力模型”,在信息查询、操作指南、步骤讲解、技术写作以及翻译方面都有显著提升。此外,早期测试者指出,它的准确性相比之前的模型更高。同时,它能够助力学习与技能提升,并为职业发展提供更清晰的指导。
- GPT‑5.2 Pro 是我们迄今最智能、最可靠的模型,专为那些值得等待高质量答案的复杂问题而打造。早期测试显示,它的准确性更高,重大错误更少,在编程等复杂领域表现更出色。
对于 API 开发者,GPT‑5.2 Thinking 是我们目前最出色的前沿模型。它能够更稳定地处理长时间运行的任务,并行调用多种工具而不迷失方向,还能理解海量文档与数据。模型会根据任务的复杂度自动调整思考强度,而开发者也可以在五种推理等级中自由选择:none、low、medium、high,以及专为最复杂任务设计的全新 xhigh。Box、Shopify、Zoom、Hex、Triple Whale 等客户认为, X、Y、Z。Cursor、Windsurf、JetBrains、Azad、Cline、Charlie Labs、Kilo Code 等公司也对其 X、Y、Z 印象深刻。在 API 中,GPT‑5.2 Thinking 是 gpt-5.2,GPT‑5.2 Instant 是 gpt-5.2-chat-latest,而 GPT‑5.2 Pro 则是 gpt-5.2-pro。虽然 ChatGPT 的订阅价格保持不变,但在 API 中, GPT‑5.2 的 Token 单价高于 GPT‑5.1,因为它的能力更强。不过,它的价格仍低于其他前沿模型,让大家依然能在日常工作和核心应用中加以充分利用。
模型性能
具备经济效益的任务
GPT‑5.2 Thinking 是我们迄今为止最适合真实场景与专业工作的模型。 GDPval 评测是一项覆盖 44 个职业、用于衡量明确知识型工作任务的评估。在该评测中,GPT‑5.2 Thinking 成为我们首个达到人类专家水平的模型。具体而言,根据人类专家评审的结果,GPT‑5.2 Thinking 在 70.7% 的高难度知识型工作任务上,表现优于行业顶尖专家,或与其持平。这些任务包括制作演示文稿、电子表格以及其他专业产出。GPT‑5.2 Thinking 完成任务的速度大约是专家的 3 倍,而成本只有大约 1%。
在 GDPval 测试中,模型尝试完成定义明确的知识型工作,内容涵盖美国 GDP 贡献度最高的 9 个行业中的 44 种职业。任务要求生成真实的工作成果,例如销售演示文稿、会计表格、急诊排班表、制造业图表或短视频。在 ChatGPT 中,GPT‑5.2 Thinking 拥有 GPT‑5 Thinking 所不具备的新工具。
在评审某个特别出色的输出结果时,一位 GDPval 评委这样评价:“这是一次令人兴奋的质量飞跃……它看起来就像是由一家拥有专业团队的公司完成的,布局设计颇为惊艳,对两个交付物的建议也非常到位,只是其中一个仍有一些小错误需要修正。”
此外,在我们针对初级投行分析师的内部电子表格建模基准测试中(例如,为一家财富 500 强企业制作格式规范、引用完整的三表模型,或为私有化交易构建杠杆收购模型),GPT‑5.2 Thinking 取得了 68.4% 的成绩,相比 GPT‑5.1 Thinking 的 59.1% 有明显提升,是我们目前在这类任务上表现最佳的模型。
并排对比显示,GPT‑5.2 Thinking 在电子表格和幻灯片排版方面均有大幅提升:

提示:创建一份人力规划模型,涵盖人员编制、招聘计划、流失率以及预算影响,并包括工程、市场、法务和销售部门。
编码
GPT‑5.2 Thinking 在 SWE-Bench Pro 测试取得了 55.6% 的新成绩。SWE-Bench Pro 是一项严格评估真实软件工程能力的基准测试。与只测试 Python 的 SWE-bench Verified 不同,SWE-Bench Pro 涵盖四种语言,旨在更具抗污染性、更具挑战性、更具多样性,也更贴近真实工业场景。
SWE-Bench Pro 为模型提供一个代码仓库,要求其生成补丁以完成真实的软件工程任务。
在 SWEvbench Verified 测试中(未绘制在图表中),GPT‑5.2 Thinking 取得了我们全新的最高成绩:80%。
在日常专业应用中,这意味着该模型能够更可靠地调试生产环境代码、实现功能需求、重构大型代码库,并以更少的人工干预完成端到端的修复交付。
GPT‑5.2 Thinking 在前端软件工程方面也优于 GPT‑5.1 Thinking。早期测试者发现,它在前端开发以及复杂或非传统的 UI 工作上表现更强(尤其是涉及 3D 元素的场景),这让它成为工程师在全栈工作中的强大日常伙伴。下面示例展示了它仅凭一个提示就能生成的内容:
提示:创建一个单页应用(单个 HTML 文件),满足以下要求:
- 名称:海浪模拟
- 目标:展示逼真的海浪动画效果。
- 功能:可调整风速、浪高和光照。
- 界面:应呈现宁静且逼真的效果。
Cursor、Windsurf、JetBrains、Azad、Cline、Charlie Labs、Kilo Code 等公司都对该模型的编码能力印象深刻:
<quotes>事实性
GPT‑5.2 Thinking 的幻觉率低于 GPT‑5.1 Thinking。在一组来自 ChatGPT、已去标识化的查询中,含有错误的回答出现频率相对减少了 38%。对专业人士来说,这意味着在研究、写作、分析和决策支持等任务中,模型犯错更少,从而在日常知识型工作中更加可靠。
推理强度设置为可用的最高级别,并启用了搜索工具。错误由其他模型检测,但这些模型本身也可能出错。由于多数回复包含多个论断,论断层面的错误率显著低于回复层面的错误率。
像所有模型一样,GPT‑5.2 Thinking 并不完美。对于任何关键任务,请务必再次核查它的回答。
长上下文
GPT‑5.2 Thinking 在长上下文推理方面树立了新的技术标杆。OpenAI MRCRv2 是一项用于测试模型整合长文档中分散信息能力的评估,GPT‑5.2 Thinking 在该评估中表现领先。在真实任务中,例如深度文档分析(需要跨数十万 Token 关联信息),GPT‑5.2 Thinking 的准确性显著高于 GPT‑5.1 Thinking。值得一提的是,这是我们首次看到某个模型在 4-needle MRCR 评测变体(最长可达 256k Token)中实现接近 100% 的准确率。
在实际应用中,这让专业人士能够使用 GPT‑5.2 处理长文档,例如报告、合同、研究论文、会议记录和多文件项目,同时在数十万 Token 的范围内保持连贯性和准确性。因此,GPT‑5.2 尤其适合深度分析、信息综合以及复杂的多来源工作流程。
在 OpenAI-MRCR v2(多轮共指解析)测试中,评测会将多个完全相同的“针”(needle) 式用户请求插入到由大量相似请求与回复组成的“草堆”(haystack) 中,并要求模型复现第 n 个针对应的回复。第二版评测修正了约 5% 原本具有错误参考答案的任务。平均匹配率 (Mean match ratio) 衡量模型响应与正确答案之间的平均字符串匹配度。256k 最大输入 Token 的点表示在 128k–256k 输入 Token 区间的平均值,依此类推。这里的 256k 指 256 × 1,024 = 262,144 个 Token。推理强度设置为可用的最高级别。
A、B、C 等公司都赞赏该模型在处理海量信息时的推理能力:
<pull quotes>对于那些需要在最大上下文窗口之外继续推理的任务,GPT‑5.2 Thinking 可与我们全新的 Responses /compact 端点配合使用,从而扩展模型的有效上下文窗口。这使得 GPT‑5.2 Thinking 能够处理更多依赖工具的长时工作流程,而这些流程在过去会受到上下文长度的限制。详情请参阅我们的 API 文档(在新窗口中打开)。
视觉
GPT‑5.2 Thinking 是我们迄今最强大的视觉模型,在图表推理和软件界面理解方面将错误率大幅降低,约减少了一半。
在日常专业场景中,这意味着模型能够更准确地理解控制面板、产品截图、技术图示和可视化报告,从而支持金融、运营、工程、设计和客户支持等以视觉信息为核心的工作流程。
在 CharXiv Reasoning 测试中,模型需要回答关于科研论文中可视化图表的问题。测试中启用了 Python 工具,并将推理强度设置为最高。
在 ScreenSpot-Pro 测试中,模型需要对来自多种专业场景的高分辨率 GUI 截图进行推理。测试中启用了 Python 工具,并将推理强度设置为最高。若不启用 Python 工具,得分会显著下降。因此我们建议在此类视觉任务中启用 Python 工具。
GPT-5.1
GPT-5.2
A、B、C 等公司更欣赏 GPT‑5.2 的视觉能力:
<pull quotes>工具调用
GPT‑5.2 Thinking 在 Tau2 bench Telecom 测试中取得了 98.7% 的全新优异成绩,展示了它在长程、多轮任务中可靠使用工具的能力。
对于重视速度的使用场景,GPT‑5.2 Thinking 在 reasoning.effort='none' 模式下也有显著提升,性能大幅领先 GPT‑5.1 和 GPT‑4.1。
在 τ2-bench 测试中,模型会在与模拟用户的多轮对话中使用工具完成客服任务。在电信 (Telecom) 领域中,我们在系统提示中加入了一段简短且普适有效的指令,以提升模型表现。由于航空 (Airline) 子集的参考答案与评分体系的可靠性较低,我们将其排除在评测之外。
对于专业人士而言,这意味着端到端的工作流程将更加稳健,例如处理客户支持案例、从多个系统提取数据、执行分析以及生成最终结果,各步骤之间出现中断的情况也会更少。
例如,当用户提出一个需要多步骤解决的复杂客服问题时,模型能够更有效地在多个代理之间协调完整的工作流程。在下面的案例中,一位旅客报告航班延误、错过转机、在纽约过夜以及需要医疗座位安排。GPT‑5.2 能够处理整个任务链,包括改签、座位安排的特殊协助和补偿,最终结果比 GPT‑5.1 更完整。
My flight from Paris to New York was delayed, and I missed my connection to Austin. My checked bag is also missing, and I need to spend the night in New York. I also require a special front-row seat for medical reasons. Can you help me?
GPT-5.1
GPT-5.2
A、B、C 等公司测试了 GPT‑5.2 的工具调用能力,并分享了他们的反馈:
<pull quotes>科学与数学
我们对人工智能的期望之一,是它能够有效推进科学研究,从而惠及全人类。为此,我们一直与科学家合作并听取他们的意见,探索人工智能如何可提升他们的科研效率。上个月,我们在这里分享了一些早期的合作实验。
我们深信,GPT‑5.2 Pro 和 GPT‑5.2 Thinking 是目前最能支持并加快科研进展的模型。在研究生级防 Google 问答基准测试 GPQA Diamond 中,GPT‑5.2 Pro 取得了 93.2% 的成绩,GPT‑5.2 Thinking 紧随其后,达到 92.4%。
在 GPQA Diamond 测试中,模型需要回答物理、化学和生物领域的多项选择题。测试未启用任何工具,推理强度设置为最高。
在专家级数学评测 FrontierMath (Tier 1–3) 中,GPT‑5.2 Pro 和 GPT‑5.2 Thinking 树立了新的技术标杆,分别解决了 X% 和 40% 的问题。
在 FrontierMath 测试中,模型需要解决专家级数学问题。测试中启用了 Python 工具,并将推理强度设置为最高。
我们已经开始看到,人工智能模型在数学和科学领域以切实可见的方式有效推进研究进展。例如,借助 GPT‑5.2,研究人员解决了一个开放问题:学习系统(即通过数据学习而不断改进的计算模型)在看到更多样本时是否一定会变得更好。这一观点长期以来都是普遍认可的假设,但从未得到正式证明。通过在基础层面确立这一保证,GPT‑5.2 进一步夯实了现代人工智能系统的数学根基,使其构建方式与可信性都有了更坚实的理论支撑。
ARC-AGI 2
GPT‑5.2 在 ARC-AGI 2 测试中表现优异 ([X%]),体现了其在通用抽象推理方面的实质性进步。
这些在科学和数学测试中的提升,让模型在多步骤推理、数值准确性和复杂技术问题处理上都更出色可靠。
安全
GPT‑5.2 延续了我们随 GPT‑5 提出的安全补全研究,让模型在不越过安全界限的情况下,也能提供最有帮助的答案。
在此版本中,我们继续推进增强模型在敏感对话中的回应能力这项工作,让它在面对自杀、自残、心理困扰或对模型产生情绪依赖等相关提示时,能够做出更恰当、更稳妥的回应。这些有针对性的改进让 GPT‑5.2 Instant 和 GPT‑5.2 Thinking 的不理想回复显著减少,相较于 GPT‑5.1 以及 GPT‑5 Instant 和 Thinking 模型都有明显提升。详情请参阅系统卡。
我们也开始小规模推出年龄预测模型,以便自动为未满 18 岁的用户应用内容保护措施,从而限制其接触敏感内容。这项工作是我们现有的未成年人识别机制和家长控制功能的延伸。
MH/R 结果
|
|
GPT‑5.2
|
GPT‑5.1
|
GPT‑5.2
|
GPT‑5.1
|
|
心理健康 |
0.995 |
0.883 |
0.915 |
0.684 |
|
情感依赖 |
0.938 |
0.945 |
0.955 |
0.785 |
|
自残 |
0.938 |
0.925 |
0.963 |
0.937 |
可用性与定价
在 ChatGPT 中,我们将从今天起陆续推出 GPT‑5.2(Instant、Thinking 和 Pro),首先面向付费套餐(Plus、Pro、Business 和 Enterprise)用户。为了确保 ChatGPT 的稳定与流畅,我们会采取逐步上线的方式;如果你暂时还没看到更新,请稍后再试。在 ChatGPT 中,GPT‑5.1 仍会以传统模型的形式向付费用户提供三个月,之后我们将正式停止支持 GPT‑5.1。
在我们的 API 平台中,GPT‑5.2 今日已在 Responses API 中以 gpt-5.2 的形式提供。GPT‑5.2 Instant 可通过 gpt-5.2-chat-latest 使用,而 GPT‑5.2 Pro 则可通过 gpt-5.2-pro 使用。GPT‑5.2 的价格为每百万输入 Token 1.75 美元、每百万输出 Token 14 美元,缓存输入可享受 90% 的优惠。
每百万 Token 的价格
|
模型 |
输入 |
缓存的输入 |
输出 |
|
gpt-5.2 /
|
$1.75 |
$0.175 |
$14 |
|
gpt-5.2-pro |
$21 |
- |
$168 |
|
gpt-5.1 /
|
$1.25 |
$0.125 |
$10 |
|
gpt-5-pro |
$15 |
- |
$120 |
目前尚无套餐在 API 中停用 GPT‑5.1、GPT‑5 或 GPT‑4.1,如未来有相关安排,我们会提前充分通知开发者。虽然 GPT‑5.2 已能在 Codex 中直接运行,我们预计将在未来数周推出专为 Codex 优化的 GPT‑5.2 版本。
ChatGPT 与 API 的模型命名方式
|
ChatGPT |
API |
|
ChatGPT‑5.2 Instant |
GPT‑5.2-chat-latest |
|
ChatGPT‑5.2 Thinking |
GPT‑5.2 |
|
ChatGPT‑5.2 Pro |
GPT‑5.2 Pro |
下一步发展
GPT‑5.2 体现了我们与 NVIDIA 和 Microsoft 长期合作的深厚实力。Azure 数据中心与 NVIDIA 的 H100、H200、GB200-NVL72 等 GPU 构成了 OpenAI 大规模训练的核心基础设施,为模型智能带来了显著提升。正是这种合作,使我们能够更有信心地扩展算力,并更快速地将新模型推向市场。
GPT‑5.2 是持续改进过程中的又一步,我们的工作远未结束。尽管这一版本在智能与效率方面实现大幅提升,我们深知用户仍期待更多。我们正着手解决 ChatGPT 中的已知问题,例如过度拒答,同时继续全面提升其安全性与可靠性。这些改动本身相当复杂,我们正全力以赴,确保一切落实到位。
附录
详细基准
专业
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| GDPval (ties allowed, wins or ties) | 70.9% | 74.1% | 38.8% (GPT-5) |
| GDPval (ties allowed, clear wins) | 49.8% | 60.0% | 35.5% (GPT-5) |
| GDPval (no ties) | 61.0% | 67.6% | 37.1% (GPT-5) |
| Investment banking spreadsheet tasks (internal) | 68.4% | 71.7% | 59.1% |
编码
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| SWE-Bench Pro, Public | 55.6% | - | 50.8% |
| SWE-bench Verified | 80.0% | - | 76.3% |
| SWE-Lancer, IC Diamond* | 74.6% | - | 69.7% |
事实性
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| ChatGPT answers without errors (w/ search) | 93.9% | - | 91.2% |
| ChatGPT answers without errors (no search) | 88.0% | - | 87.3% |
长上下文
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| OpenAI MRCRv2, 8 needles, 4k–8k | 98.2% | - | 65.3% |
| OpenAI MRCRv2, 8 needles, 8k–16k | 89.3% | - | 47.8% |
| OpenAI MRCRv2, 8 needles, 16k–32k | 95.3% | - | 44.0% |
| OpenAI MRCRv2, 8 needles, 32k–64k | 92.0% | - | 37.8% |
| OpenAI MRCRv2, 8 needles, 64k–128k | 85.6% | - | 36.0% |
| OpenAI MRCRv2, 8 needles, 128k–256k | 77.0% | - | 29.6% |
| BrowseComp Long Context 128k | 92.0% | - | 90.0% |
| BrowseComp Long Context 256k | 89.8% | - | 89.5% |
| GraphWalks bfs <128k | 94.0% | - | 76.8% |
| Graphwalks parents <128k | 89.0% | - | 71.5% |
视觉
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| CharXiv reasoning (no tools) | 82.1% | - | 67.0% |
| CharXiv reasoning (w/ Python) | 88.7% | - | 80.3% |
| MMMU Pro (no tools) | 79.5% | - | - |
| MMMU Pro (w/ Python) | 80.4% | - | 79.0% |
| Video MMMU (no tools) | 85.9% | - | 82.9% |
| Screenspot Pro (w/ Python) | 86.3% | - | 64.2% |
工具使用
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| Tau2-bench Telecom | 98.7% | - | 95.6% |
| Tau2-bench Retail | 82.0% | - | 77.9% |
| BrowseComp | 65.8% | 77.9% | 50.8% |
| Scale MCP-Atlas | 60.6% | - | 44.5% |
| Toolathlon | 46.3% | - | 36.1% |
学术
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| GPQA Diamond (no tools) | 92.4% | 93.2% | 88.1% |
| HLE (no tools) | 34.5% | 36.6% | 25.7% |
| HLE (w/ search, Python) | 45.5% | 50.0% | 42.7% |
| MMMLU | 89.6% | - | 89.5% |
| HMMT, Feb 2025 (no tools) | 99.4% | 100.0% | 96.3% |
| AIME 2025 (no tools) | 100.0% | 100.0% | 94.0% |
| FrontierMath Tier 1–3 (w/ Python) | 40.3% | - | 31.0% |
| FrontierMath Tier 4 (w/ Python) | 14.6% | - | 12.5% |
抽象推理
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| ARC-AGI-1 (Verified) | 86.2% | 90.5% | 72.8% |
| ARC-AGI-2 (Verified) | 52.9% | 54.2% (high) | 17.6% |
* 在 GDPval 测试中,GPT‑5.2 的推理强度设置为 high 到 xhigh。
** 在 SWE-Lancer 测试中,我们排除了 40 个无法在当前基础设施上运行的题目(共 237 个题目)。
*** 在 Scale MCP-Atlas 测试中,GPT‑5.2 的推理强度设置为 high。
作者
OpenAI继续阅读
产品
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区