推出 GPT‑5.4 mini 和 nano：专为编码和子代理优化的快速高效模型-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://openai.com/index/introducing-gpt-5-4-mini-and-nano

原文作者：OpenAI

今天，我们发布了 GPT‑5.4 mini 和 nano，这是我们迄今为止能力最强的小型模型。它们将 GPT‑5.4 的许多优势带到了更快速、更高效的模型中，这些模型专为高吞吐量工作负载而设计。

GPT‑5.4 mini 在编码、推理、多模态理解和工具使用方面比 GPT‑5 mini 有了显著的改进，同时运行速度提高 2 倍以上。在 SWE-Bench Pro 和 OSWorld-Verified 等多项评估中，它的表现也接近更大的 GPT‑5.4 模型。

GPT‑5.4 nano 是 GPT‑5.4 中最小、最便宜的版本，适用于速度和成本至关重要的任务。它也比 GPT‑5 nano 有了显著的升级。我们推荐它用于分类、数据提取、排名以及处理更简单支持任务的编码子代理。

这些模型专为延迟直接影响产品体验的工作负载而构建：需要响应迅速的编码助手、快速完成支持任务的子代理、能够捕获和解释屏幕截图的计算机使用系统，以及能够实时推理图像的多模态应用程序。在这些场景中，最好的模型通常不是最大的模型，而是能够快速响应、可靠地使用工具，并且在复杂专业任务上仍能表现良好的模型。

GPT-5.4 (xhigh)	GPT-5.4 mini (xhigh)	GPT-5.4 nano (xhigh)	GPT-5 mini (high¹)
SWE-Bench Pro (Public)	57.7%	54.4%	52.4%	45.7%
Terminal-Bench 2.0	75.1%	60.0%	46.3%	38.2%
Toolathlon	54.6%	42.9%	35.5%	26.9%
GPQA Diamond	93.0%	88.0%	82.8%	81.6%
OSWorld-Verified	75.0%	72.1%	39.0%	42.0%

^{1 GPT‑5 mini 可用的最高推理努力是 'high'。}

在测试 GPT‑5.4 mini 和 nano 在工作流中的应用后，我们的客户如是说：

"GPT-5.4 mini 在同类模型中提供了强大的端到端性能。在我们的评估中，它在多项输出任务和引文召回率方面与竞争模型相当或表现更优，而成本却低得多。它在端到端通过率和来源归属方面的表现也优于更大的 GPT‑5.4 模型。"

— Aabhas Sharma, Hebbia CTO

编码

GPT‑5.4 mini 和 nano 在受益于快速迭代的编码工作流中尤其有效。这些模型以低延迟处理定向编辑、代码库导航、前端生成和调试循环，非常适合需要以更快的速度和更低的成本完成的编码任务。

在基准测试中，GPT‑5.4 mini 在相似的延迟下始终优于 GPT‑5 mini，并且在运行速度快得多的情况下接近 GPT‑5.4 级别的通过率，为编码工作流提供了最强的每延迟性能权衡之一。

我们通过观察模型在生产环境中的行为并离线模拟来估算延迟。延迟估算考虑了工具调用持续时间（代码执行时间）、采样 token 和输入 token。实际延迟可能差异很大，并取决于我们模拟中未捕获的许多因素。同样，成本是根据撰写本文时这些模型的 API 定价估算的。未来成本可能会发生变化。推理努力从 low 扫描到 xhigh。

子代理

GPT‑5.4 mini 也非常适合结合不同模型大小的系统。例如，在 Codex 中，像 GPT‑5.4 这样的大型模型可以处理规划、协调和最终判断，同时将狭窄的子任务（如搜索代码库、审查大文件或处理支持文档）委托给 GPT‑5.4 mini 子代理并行处理。在文档⁠(opens in a new window) 中了解子代理在 Codex 中的工作原理。

随着小型模型变得越来越快速和强大，这种模式变得更加有用。开发人员不必使用一个模型来处理所有事情，而是可以组合系统，其中大型模型决定做什么，小型模型则快速地大规模执行。GPT‑5.4 mini 是我们迄今为止在此类工作流中最强大的 mini 模型。

计算机使用

GPT‑5.4 mini 在多模态任务，尤其是与计算机使用相关的任务上也表现出色。该模型可以快速解释密集用户界面的屏幕截图，以速度完成计算机使用任务。在 OSWorld-Verified 上，GPT‑5.4 mini 的表现接近 GPT‑5.4，同时显著优于 GPT‑5 mini。

可用性和定价

GPT‑5.4 mini 今天已在 API、Codex 和 ChatGPT 中提供。

在 API 中，GPT‑5.4 mini 支持文本和图像输入、工具使用、函数调用、网络搜索、文件搜索、计算机使用和技能。它具有 400k 的上下文窗口，输入 token 每 100 万个收费 0.75 美元，输出 token 每 100 万个收费 4.50 美元。

在 Codex 中，GPT‑5.4 mini 可通过 Codex 应用、CLI、IDE 扩展和 Web 使用。它仅使用 GPT‑5.4 配额的 30%，使开发人员能够以约三分之一的成本在 Codex 中快速处理更简单的编码任务。Codex 还可以委托给 GPT‑5.4 mini 子代理，以便将推理强度较低的工作运行在更便宜的模型上。

在 ChatGPT 中，GPT‑5.4 mini 可通过 + 菜单中的“Thinking”功能供 Free 和 Go 用户使用。对于所有其他用户，GPT‑5.4 mini 可作为 GPT‑5.4 Thinking 的速率限制回退。

GPT‑5.4 nano 仅在 API 中提供，输入 token 每 100 万个收费 0.20 美元，输出 token 每 100 万个收费 1.25 美元。

有关模型安全措施的更多信息，请查看我们部署安全中心⁠(opens in a new window) 上的系统卡附加文件。

编码

GPT-5.4 (xhigh)	GPT-5.4 mini (xhigh)	GPT-5.4 nano (xhigh)	GPT-5 mini (high¹)
SWE-bench Pro (Public)	57.7%	54.4%	52.4%	45.7%
Terminal-Bench 2.0	75.1%	60.0%	46.3%	38.2%

工具调用

GPT-5.4 (xhigh)	GPT-5.4 mini (xhigh)	GPT-5.4 nano (xhigh)	GPT-5 mini (high¹)
MCP Atlas	67.2%	57.7%	56.1%	47.6%
Toolathlon	54.6%	42.9%	35.5%	26.9%
τ2-bench (telecom)	98.9%	93.4%	92.5%	74.1%

智能

GPT-5.4 (xhigh)	GPT-5.4 mini (xhigh)	GPT-5.4 nano (xhigh)	GPT-5 mini (high¹)
GPQA Diamond	93.0%	88.0%	82.8%	81.6%
HLE w/ tool	52.1%	41.5%	37.7%	31.6%
HLE w/o tools	39.8%	28.2%	24.3%	18.3%

MM / Vision / CUA

GPT-5.4 (xhigh)	GPT-5.4 mini (xhigh)	GPT-5.4 nano (xhigh)	GPT-5 mini (high¹)
OSWorld-Verified	75.0%	72.1%	39.0%	42.0%
MMMUPro w/ Python	81.5%	78.0%	69.5%	74.1%
MMMUPro	81.2%	76.6%	66.1%	67.5%
OmniDocBench 1.5 (no tools)² — lower is better	0.109	0.1263	0.2419	0.1791

长上下文

GPT-5.4 (xhigh)	GPT-5.4 mini (xhigh)	GPT-5.4 nano (xhigh)	GPT-5 mini (high¹)
OpenAI MRCR v2 8-needle 64K–128K	86.0%	47.7%	44.2%	35.1%
OpenAI MRCR v2 8-needle 128K–256K	79.3%	33.6%	33.1%	19.4%
Graphwalks BFS 0K–128K	93.1%	76.3%	73.4%	73.4%
Graphwalks parents 0–128K (accuracy)	89.8%	71.5%	50.8%	64.3%

^{1 GPT‑5 mini 可用的最高推理努力是 'high'。}

^{2 Overall Edit Distance。OmniDocBench 在推理努力设置为 'none' 的情况下运行，以反映低成本、低延迟的性能。}

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

推出 GPT‑5.4 mini 和 nano：专为编码和子代理优化的快速高效模型

编码

子代理

计算机使用

可用性和定价

编码

工具调用

智能

MM / Vision / CUA

长上下文

评论区