📢 转载信息
原文链接:https://openai.com/index/introducing-gpt-5-4-mini-and-nano
原文作者:OpenAI
今天,我们发布了 GPT‑5.4 mini 和 nano,这是我们迄今为止能力最强的小型模型。它们将 GPT‑5.4 的许多优势带到了更快速、更高效的模型中,这些模型专为高吞吐量工作负载而设计。
GPT‑5.4 mini 在编码、推理、多模态理解和工具使用方面比 GPT‑5 mini 有了显著的改进,同时运行速度提高 2 倍以上。在 SWE-Bench Pro 和 OSWorld-Verified 等多项评估中,它的表现也接近更大的 GPT‑5.4 模型。
GPT‑5.4 nano 是 GPT‑5.4 中最小、最便宜的版本,适用于速度和成本至关重要的任务。它也比 GPT‑5 nano 有了显著的升级。我们推荐它用于分类、数据提取、排名以及处理更简单支持任务的编码子代理。
这些模型专为延迟直接影响产品体验的工作负载而构建:需要响应迅速的编码助手、快速完成支持任务的子代理、能够捕获和解释屏幕截图的计算机使用系统,以及能够实时推理图像的多模态应用程序。在这些场景中,最好的模型通常不是最大的模型,而是能够快速响应、可靠地使用工具,并且在复杂专业任务上仍能表现良好的模型。
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-Bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
1 GPT‑5 mini 可用的最高推理努力是 'high'。
在测试 GPT‑5.4 mini 和 nano 在工作流中的应用后,我们的客户如是说:
"GPT-5.4 mini 在同类模型中提供了强大的端到端性能。在我们的评估中,它在多项输出任务和引文召回率方面与竞争模型相当或表现更优,而成本却低得多。它在端到端通过率和来源归属方面的表现也优于更大的 GPT‑5.4 模型。"
编码
GPT‑5.4 mini 和 nano 在受益于快速迭代的编码工作流中尤其有效。这些模型以低延迟处理定向编辑、代码库导航、前端生成和调试循环,非常适合需要以更快的速度和更低的成本完成的编码任务。
在基准测试中,GPT‑5.4 mini 在相似的延迟下始终优于 GPT‑5 mini,并且在运行速度快得多的情况下接近 GPT‑5.4 级别的通过率,为编码工作流提供了最强的每延迟性能权衡之一。
我们通过观察模型在生产环境中的行为并离线模拟来估算延迟。延迟估算考虑了工具调用持续时间(代码执行时间)、采样 token 和输入 token。实际延迟可能差异很大,并取决于我们模拟中未捕获的许多因素。同样,成本是根据撰写本文时这些模型的 API 定价估算的。未来成本可能会发生变化。推理努力从 low 扫描到 xhigh。
子代理
GPT‑5.4 mini 也非常适合结合不同模型大小的系统。例如,在 Codex 中,像 GPT‑5.4 这样的大型模型可以处理规划、协调和最终判断,同时将狭窄的子任务(如搜索代码库、审查大文件或处理支持文档)委托给 GPT‑5.4 mini 子代理并行处理。在 文档(opens in a new window) 中了解子代理在 Codex 中的工作原理。
随着小型模型变得越来越快速和强大,这种模式变得更加有用。开发人员不必使用一个模型来处理所有事情,而是可以组合系统,其中大型模型决定做什么,小型模型则快速地大规模执行。GPT‑5.4 mini 是我们迄今为止在此类工作流中最强大的 mini 模型。
计算机使用
GPT‑5.4 mini 在多模态任务,尤其是与计算机使用相关的任务上也表现出色。该模型可以快速解释密集用户界面的屏幕截图,以速度完成计算机使用任务。在 OSWorld-Verified 上,GPT‑5.4 mini 的表现接近 GPT‑5.4,同时显著优于 GPT‑5 mini。
可用性和定价
GPT‑5.4 mini 今天已在 API、Codex 和 ChatGPT 中提供。
在 API 中,GPT‑5.4 mini 支持文本和图像输入、工具使用、函数调用、网络搜索、文件搜索、计算机使用和技能。它具有 400k 的上下文窗口,输入 token 每 100 万个收费 0.75 美元,输出 token 每 100 万个收费 4.50 美元。
在 Codex 中,GPT‑5.4 mini 可通过 Codex 应用、CLI、IDE 扩展和 Web 使用。它仅使用 GPT‑5.4 配额的 30%,使开发人员能够以约三分之一的成本在 Codex 中快速处理更简单的编码任务。Codex 还可以委托给 GPT‑5.4 mini 子代理,以便将推理强度较低的工作运行在更便宜的模型上。
在 ChatGPT 中,GPT‑5.4 mini 可通过 + 菜单中的“Thinking”功能供 Free 和 Go 用户使用。对于所有其他用户,GPT‑5.4 mini 可作为 GPT‑5.4 Thinking 的速率限制回退。
GPT‑5.4 nano 仅在 API 中提供,输入 token 每 100 万个收费 0.20 美元,输出 token 每 100 万个收费 1.25 美元。
有关模型安全措施的更多信息,请查看我们 部署安全中心(opens in a new window) 上的系统卡附加文件。
编码
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
工具调用
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| MCP Atlas | 67.2% | 57.7% | 56.1% | 47.6% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| τ2-bench (telecom) | 98.9% | 93.4% | 92.5% | 74.1% |
智能
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| HLE w/ tool | 52.1% | 41.5% | 37.7% | 31.6% |
| HLE w/o tools | 39.8% | 28.2% | 24.3% | 18.3% |
MM / Vision / CUA
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
| MMMUPro w/ Python | 81.5% | 78.0% | 69.5% | 74.1% |
| MMMUPro | 81.2% | 76.6% | 66.1% | 67.5% |
| OmniDocBench 1.5 (no tools)² — lower is better | 0.109 | 0.1263 | 0.2419 | 0.1791 |
长上下文
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OpenAI MRCR v2 8-needle 64K–128K | 86.0% | 47.7% | 44.2% | 35.1% |
| OpenAI MRCR v2 8-needle 128K–256K | 79.3% | 33.6% | 33.1% | 19.4% |
| Graphwalks BFS 0K–128K | 93.1% | 76.3% | 73.4% | 73.4% |
| Graphwalks parents 0–128K (accuracy) | 89.8% | 71.5% | 50.8% | 64.3% |
1 GPT‑5 mini 可用的最高推理努力是 'high'。
2 Overall Edit Distance。OmniDocBench 在推理努力设置为 'none' 的情况下运行,以反映低成本、低延迟的性能。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区