目 录CONTENT

文章目录

GPT‑5.4 震撼登场:为专业工作而打造

Administrator
2026-03-10 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://openai.com/index/introducing-gpt-5-4

原文作者:OpenAI


今天,我们将在 ChatGPT(以 GPT‑5.4 Thinking 模式)、API 及 Codex 中发布 GPT‑5.4。它是我们目前针对专业化工作负载能力最强、效率最高的前沿模型。同时,我们也将在 ChatGPT 及 API 中发布 GPT‑5.4 Pro,该模型专为在复杂任务中追求极致性能的用户而设计。

GPT‑5.4 将我们近期在推理、编程及智能体工作流领域的顶尖性能集于一身。它整合了 GPT‑5.3‑Codex 行业领先的编程能力,同时优化了模型在各类工具、软件环境以及专业任务(电子表格、演示文稿和文档等)中的表现。因此,该模型能够准确高效地完成复杂的实际工作:无需大量往复沟通,即可交付你所要求的结果。

在 ChatGPT 中,GPT‑5.4 Thinking 现可预先提供其思考计划,让你能在模型运行的中途调整方向,从而无需额外轮次的沟通,即可获得更契合需求的结果。此外,GPT‑5.4 Thinking 还提升了深度网页搜索能力,尤其擅长处理极具针对性的查询,并能更好地维持长时思考任务中的上下文关联。综合来看,这些改进意味着回答质量更高、响应速度更快,且能始终紧扣当前任务。

在 Codex 与 API 中,GPT‑5.4 是我们发布的第一个具备原生且顶尖计算机使用能力的通用模型,让智能体能够操作计算机,并跨应用程序执行复杂的工作流程。该模型支持高达 1M Token 的上下文,允许智能体在长周期内进行任务规划、执行与验证。此外,GPT‑5.4 通过工具搜索功能优化了模型在庞大的工具与连接器生态中的运作方式,帮助智能体在不牺牲智能的前提下,更高效地发现并使用正确工具。最后,GPT‑5.4 是我们迄今为止效率最高的推理模型,与 GPT‑5.2 相比,解决相同问题所需的 Token 数量显著减少 — 这直接转化为更低的 Token 消耗和更快的响应速度。

GPT‑5.4 在通用推理、编程和专业知识工作方面都有全面提升,因此能支持更可靠的智能体、更高效的开发流程,并在 ChatGPT、API 和 Codex 中带来更高质量的输出。


GPT-5.4 GPT-5.3-Codex GPT-5.2
GDPval(胜出或持平) 83.0% 70.9% 70.9%
SWE-Bench Pro (Public) 57.7% 56.8% 55.6%
OSWorld-Verified 75.0% 74.0%*  47.3%
Toolathlon 54.6% 51.9% 46.3%
BrowseComp 82.7% 77.3% 65.8%

*此前报告的数据为 64.7%。GPT‑5.3‑Codex 现已达到 74.0% — 通过引入一个能够保留原始图像分辨率的新 API 参数。

知识型工作

基于 GPT‑5.2 的通用推理能力,GPT‑5.4 在专业人士关注的实际任务中,能够提供更加稳定且精炼的输出。

GDPval(一项评估智能体在 44 个职业中产出明确知识工作能力的测试)中,GPT‑5.4 刷新纪录。在与行业专业人士的横向评测中,GPT‑5.4 在 83.0% 的案例里达到了持平或更优的水准(GPT‑5.2 为 71.0%)。

在 GDPval 测试中,模型尝试完成定义明确的知识型工作,内容涵盖美国 GDP 贡献度最高的 9 个行业中的 44 种职业。任务要求生成真实的工作成果,例如销售演示文稿、会计表格、急诊排班表、制造业图表或短视频。GPT‑5.4 的推理强度设置为 xhigh,GPT‑5.2 的推理强度设置为 heavy(在 ChatGPT 中可用的较低强度)。

我们重点提升了 GPT‑5.4 创建和编辑表格、演示文稿及文档的能力。在针对初级投行分析师水平的电子表格建模任务内部基准测试中,GPT‑5.4 的平均得分达到 87.5%,而 GPT‑5.2 为 68.4%。在演示文稿评估测试中,人工评分者在 68.0% 的情况下更偏好 GPT‑5.4 而非 GPT‑5.2 生成的作品,主要原因在于其更强的审美水平、更丰富的视觉元素,以及对图像生成功能更有效的运用。

GPT-5.2 与 GPT-5.4 电子表格输出效果对照示例

文档是在推理强度设置为 xhigh 的情况下生成的

你可以在 ChatGPT 中使用 GPT‑5.4 Thinking 或 Pro 模型体验这些功能。如果你是 Enterprise 客户,建议使用新发布的 ChatGPT Excel 和 Google Sheets 插件,这是今天同步推出的 OpenAI 金融服务(OpenAI for Financial Services) 套件的一部分。同时,我们也更新了 Codex 和 API 中的电子表格及演示文稿技能。

为了提升 GPT‑5.4 在实际工作中的表现,我们持续致力于降低幻觉与错误率。GPT‑5.4 是我们迄今为止准确率最高的模型:在用户标记了事实错误的一组去标识化提示词测试中,与 GPT‑5.2 相比,GPT‑5.4 的单项陈述错误率降低了 33%(相对),完整回复包含错误的概率降低了 18%(相对)。

“GPT-5.4 是我们测试过的最强模型。它目前位居 APEX-Agents 基准测试榜首,该测试专门衡量模型在专业服务领域的工作表现。它极擅长处理长程交付任务,如演示文稿、财务模型和法律分析。在保持顶尖性能的同时,其运行速度更快,且成本低于其他竞争对手的前沿模型。”
— Brendan Foody,Mercor 首席执行官

计算机使用与视觉

GPT‑5.4 是我们首款原生支持计算机使用能力的通用模型,这标志着在开发与智能体领域向前迈出了重要一步。如果你正在构建跨网页和软件系统执行任务的智能体,GPT‑5.4 是目前市面上的最佳选择。

我们设计 GPT‑5.4 的初衷,是让其在各种“计算机使用”负载中都能表现出色。它擅长通过 Playwright 等库编写代码来操作计算机,也能根据屏幕截图直接下达鼠标和键盘指令。开发者可以通过“开发者消息”引导模型行为,从而灵活调整其表现以适配特定场景。你甚至可以根据不同的风险承受能力,通过指定自定义确认策略来配置模型的安全行为。

模型的性能与灵活性,在针对不同场景下“计算机使用”能力的基准测试中得到充分体现。在 OSWorld-Verified 测试(该测试通过屏幕截图以及键盘/鼠标操作,来评估模型导航桌面环境的能力)中,GPT‑5.4 达到了 75.0% 的成功率,刷新了纪录。这一成绩远超 GPT‑5.2 的 47.3%,并超越了人类 72.4% 的平均表现。1

在评估浏览器使用能力的 WebArena-Verified 基准测试中,GPT‑5.4 在同时结合 DOM 和屏幕截图驱动的交互方式下,达到了领先的 67.3% 成功率(GPT‑5.2 为 65.4%)。而在同样评估浏览器使用能力的 Online-Mind2Web 测试中,仅凭基于屏幕截图的观察,GPT‑5.4 就能达到 92.8% 的成功率,其可靠性远超 ChatGPT Atlas 智能体模式等较早系统,后者的成功率为 84.0%

一次工具产出 (Tool Yield) 是指助手等待工具响应的过程。例如,如果模型并行调用了 3 个工具,随后又并行调用了另外 3 个工具,则产出数计为 2 次。相比于工具调用数,工具产出数能更好地反映并行化的优势,因此是衡量延迟更准确的指标。

GPT‑5.4 在“计算机使用”方面的提升,源于模型更强的通用视觉感知能力。在评估视觉理解与推理能力的 MMMU-Pro 测试中,GPT‑5.4 在不使用工具的情况下达到了 81.2% 的成功率(GPT‑5.2 为 79.5%);值得注意的是,GPT‑5.4 仅需极少的思考 Token 便在该基准测试中超越了 GPT‑5.2 的表现。此外,视觉感知的提升也转化为更强的文档解析能力:在 OmniDocBench 测试中,GPT‑5.4 的平均误差(通过模型预测值与标准答案之间的归一化编辑距离衡量)降至 0.109,较 GPT‑5.2 的 0.140 有显著提升。

MMMUPro 在测试时将推理强度设置为 xhigh。OmniDocBench 在测试时将推理强度设置为 none,以反映低成本、低延迟的性能表现。

我们同时提升了对高细节、高分辨率图像的视觉理解能力,这对于要求全保真度的场景至关重要。从 GPT‑5.4 起,我们推出了原始 (original) 图像输入精度(在新窗口中打开),支持最高 1000 万总像素或 6K 分辨率(以较低者为准)的全保真感知;同时,高 (high) 图像输入精度现在也原生支持最高 256 万总像素或 2048 像素的最大边长(以较低者为准)。在与 API 用户进行的早期测试中,我们观察到在使用“原始”或“高”精度模式时,模型的定位能力、图像理解以及点击准确度均有显著提升。

在 API 中,开发者可以通过更新后的计算机工具来使用这些功能。请参考我们更新后的文档(在新窗口中打开),以获取最佳实践建议。

编码

GPT‑5.4 结合了 GPT‑5.3‑Codex 的编程优势,以及领先的知识型工作与“计算机使用”能力。这对于长时间运行的任务至关重要。在这些任务中,模型可以自主使用工具、进行迭代并推进工作,从而减少人工干预。在 SWE-Bench Pro 测试中,GPT‑5.4 的表现超越了 GPT‑5.3‑Codex 或与其持平,同时在各项推理任务中拥有更低的延迟。

我们通过观察模型的生产环境行为并进行离线模拟来估算延迟。延迟估算涵盖了工具调用耗时(代码执行时间)、采样 Token 以及输入 Token。实际延迟可能会有显著差异,并取决于诸多我们的模拟中未涵盖的因素。推理强度已从 none 调整为 xhigh。

开启 Codex 中的 /fast 模式后,包括 GPT‑5.4 在内的所有受支持模型均可获得高达 1.8 倍的性能提升。模型本身及其智能水平完全一致,只是速度更快。这意味着用户在处理编码任务、迭代和调试时,能够始终保持专注顺畅的状态。通过使用优先处理服务(在新窗口中打开),开发者也可以在 API 中以同样的高速访问 GPT‑5.4。

在评估和内部测试中,我们发现 GPT‑5.4 擅长处理复杂的垂直前端任务。与我们此前发布的任何模型相比,其产出的结果在审美水平和功能性上都有显著提升。

为了展示模型在“计算机使用”与编程能力上的双重进化,我们还将发布一个名为“Playwright (Interactive)”的实验性 Codex 技能(在新窗口中打开)。它允许 Codex 对网页和 Electron 应用进行可视化调试;甚至在构建应用的过程中,它就能同步对该应用进行实时测试。

工具使用

在 GPT‑5.4 中,我们显著优化了模型与外部工具的协作方式。现在,智能体能够在更庞大的工具生态中进行操作,更可靠地筛选匹配工具,并以更低的成本和延迟完成多步骤的工作流程。

工具搜索

在 API 层面,GPT‑5.4 引入了工具搜索功能。这使得模型在面对海量工具选项时,依然能够保持高效运作。

在此之前,当模型调用工具时,所有的工具定义都必须预先包含在提示词中。对于拥有大量工具的系统,这会导致每次请求都额外增加数千甚至数万个 Token,不仅推高了成本、减慢了响应速度,还让上下文中充斥着模型可能永远用不到的冗余信息。

通过工具搜索,GPT‑5.4 不再需要预加载完整定义,而是接收一份精简的可选工具列表及工具搜索能力。当模型需要调用特定工具时,它会即时查找该工具的定义,并将其添加到当前的对话上下文。

这种方法大幅减少了重度工具调用工作流程所需的 Token 数量,并有效保留了缓存,使请求变得更快、成本更低。它还让智能体能够可靠地与更庞大的工具生态协同工作。对于那些工具定义可能包含数万个 Token 的 MCP 服务器而言,效率提升尤为显著。

为了展示效率提升的实际效果,我们对 Scale MCP Atlas(在新窗口中打开)基准测试中的 250 个任务进行了评估。在开启全部 36 个 MCP 服务器的情况下,我们对比了两种模式:(1) 将每个 MCP 函数直接暴露在模型上下文中;(2) 将所有 MCP 服务器置于“工具搜索”之后。结果显示,在保持同等准确率的前提下,“工具搜索”配置将总 Token 使用量降低了 47%。

[token 节省图表]

请在此处查看我们的“工具搜索”API 文档。

智能体工具调用

GPT‑5.4 同样优化了工具调用能力,使其在推理过程中能更准确、更高效地判断调用工具的时机与方式,这在 API 环境下尤为突出。相比 GPT‑5.2,它在 Toolathlon 基准测试中能以更少的轮次达到更高的准确率。该测试旨在评估 AI 智能体利用真实世界工具和 API 完成多步任务的能力 — 例如,智能体需要读取邮件、提取作业附件、上传并评分,最后将结果记录到电子表格中。

一次工具产出 (Tool Yield) 是指助手等待工具响应的过程。例如,如果模型并行调用了 3 个工具,随后又并行调用了另外 3 个工具,则产出数计为 2 次。相比于工具调用数,工具产出数能更好地反映并行化的优势,因此是衡量延迟更准确的指标。

针对那些对延迟极度敏感、且倾向于将推理强度设为“无 (None)”的使用场景,GPT‑5.4 相比前代产品有显著提升。

τ2-bench(在新窗口中打开)测试中,模型必须利用工具来完成某项客服任务;该场景下可能包含一名模拟用户,此用户能够进行交流并针对环境状态执行操作。在测试中,推理强度设为 None。

更强大的联网搜索能力

GPT‑5.4 在智能体联网搜索方面表现更佳。在 BrowseComp 基准测试(衡量 AI 智能体通过持续浏览网页获取难寻信息的能力)中,GPT‑5.4 相比 GPT‑5.2 提升了 17 个百分点;而 GPT‑5.4 Pro 更是创下了 89.3% 的纪录。

在实际应用中,这意味着 GPT‑5.4 Thinking 能够更强有力地解答那些需要整合全网多方信息的复杂问题。它能以更强的持久性进行多轮搜索,从而锁定最相关的信源 — 尤其是在处理“大海捞针”式的问题时,它能高效提炼核心信息,并给出逻辑清晰、论证严密的回答。

在 BrowseComp 测试中,我们使用了搜索黑名单,剔除了包含测试答案的网站,以防止数据污染并确保性能评估的公正性。由于 GPT‑5.4 的测试时间晚于 GPT‑5.2,其得分反映了模型能力、搜索系统优化以及互联网实时状态的综合变化。此外,GPT‑5.4 采用了范围更广、经过更新的黑名单进行测试。测试模型统一调用 ChatGPT 搜索工具,该工具与 API 搜索可能存在细微差异。

可控性

与 Codex 开始工作时会概述思路类似,ChatGPT 中的 GPT‑5.4 Thinking 现在也会在处理更长、更复杂的查询时,通过“前言 (preamble)”来简述其工作方案。此外,你还可以在模型生成过程中实时添加指令或调整其方向。这让你能更轻松地引导模型达成预期的结果,而无需推倒重来,或通过多轮额外对话进行补救。该功能目前已在 chatgpt.com(在新窗口中打开) 和 Android 应用上线,iOS 应用也将于近期推出。

该模型在处理困难任务时能够进行更深入的思考,同时对会话早期的步骤保持更强的记忆。这使其能够应对更长的工作流和更复杂的提示词,并确保整个过程中给出的回答始终连贯且高度切题。

此视频已加速,仅用于演示说明。

安全

在筹备 GPT‑5.4 部署的近几个月里,我们持续完善了自 GPT‑5.3‑Codex 以来引入的安全防护措施。与 GPT‑5.3‑Codex 类似,根据我们的《准备框架》(Preparedness Framework),我们将 GPT‑5.4 评定为具有“高网络安全能力”级别。因此,我们已按照系统卡中的记录,为其配置了相应的安全防护进行部署。这些措施包括:高级网络安全防护栈、监控系统、受信访问控制,以及针对特定客户高风险请求的路由分发或拦截机制;与此同时,我们也针对更广泛的安全生态系统持续投入资源。

由于网络安全能力本质上具有“双重用途 (dual-use)”,我们在部署时保持审慎态度,并持续优化策略与分类器。针对特定客户,请求级拦截仍是我们网络风险缓解栈的一部分;鉴于分类器仍在迭代中,在我们持续完善这些防护措施的过程中,可能会出现一些误报。这些更新旨在优化防护措施的实际运行效果,包括减少不必要的拒答和过度生硬的免责声明,同时确保对滥用行为的强力防御。

我们持续开展关于思维链 (CoT) 可监测性的安全研究,以更深入地理解模型的推理逻辑,并协助检测潜在的违规行为。作为该项工作的一部分,我们推出了全新的开源评估指标 — CoT 可控性,用于衡量模型是否能故意混淆其推理过程以规避监控。研究发现,GPT‑5.4 Thinking 控制其 CoT 的能力较低。从安全性角度来看,这是一个积极的特性,表明该模型尚不具备隐藏其真实推理逻辑的能力,也证明了 CoT 监控依然是一项有效的安全手段。

可用性与定价

GPT‑5.4 自今日起将在 ChatGPT 和 Codex 中逐步推出。在 API 方面,GPT‑5.4 已正式上线,模型名称为 gpt-5.4。此外,针对在极复杂任务中追求极致性能的开发者,GPT‑5.4 Pro 也已通过 API 提供,模型名称为 gpt-5.4-pro。

在 ChatGPT 中,GPT‑5.4 Thinking 自今日起面向 ChatGPT Plus、Team 以及 Pro 用户开放。使用 Enterprise 和 Edu 套餐的用户可以通过管理员设置开启早期访问权限。此外,GPT‑5.4 Pro 版本将专门提供给 Pro 和 Enterprise 用户。

GPT‑5.4 是我们首款整合了 gpt-5.3-codex 顶尖编程能力的常规推理模型,目前正在 ChatGPT、API 及 Codex 中同步推出。我们将其命名为 GPT‑5.4,旨在体现这一跨越式提升,并简化用户在使用 Codex 时对模型的选择。未来,我们的 Instant 模型和 Thinking 模型将以不同的迭代速度持续进化。

在 API 方面,为了体现能力的提升,GPT‑5.4 的单 Token 价格高于 GPT‑5.2;但凭借更出色的 Token 效率,它在处理许多任务时能显著减少所需的总 Token 数。此外,Batch 和 Flex 的价格仅为标准 API 费率的一半,而 Priority(优先)处理的费率为标准 API 费率的两倍。

API 模型 输入价格 缓存输入价格 输出价格
gpt-5.2 $1.75 / 百万 token $0.175 / 百万 token $14 / 百万 token
gpt-5.4 $2.50 / 百万 token $0.25 / 百万 token $15 / 百万 token
gpt-5.2-pro $21 / 百万 token - $168 / 百万 token
gpt-5.4-pro $30 / 百万 token - $180 / 百万 token

评估

所有评估均在推理强度设为 xhigh 的情况下运行(GPT‑5.2 在 GDPval 测试中除外)。所有基准测试均在研究环境中完成,因此在某些情况下,结果可能会与正式上线的 ChatGPT 输出略有不同。

[表格]

作者

OpenAI

脚注

1 人类表现数据引用自 OSWorld:在真实计算机环境中对开放式任务进行多模态智能体基准测试(在新窗口中打开)。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区