目 录CONTENT

文章目录

为开发者推出的 GPT-5.1

Administrator
2025-11-26 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://openai.com/index/gpt-5-1-for-developers

原文作者:OpenAI


今天,我们在 API 平台上发布了 GPT‑5.1。这是 GPT‑5 系列中的下一代模型,在智能与速度之间实现平衡,适用于广泛的智能体与编码任务。GPT‑5.1 会根据任务复杂度动态调整思考时间,让模型在处理日常简单任务时实现显著提速,并且在令牌 (Token) 使用上更高效。该模型还提供了“无推理”模式,用于在无需深度思考的任务中实现更快速的响应,同时保持 GPT‑5.1 的前沿智能。

为了让 GPT‑5.1 更加高效,我们推出了高级提示 (Prompt) 缓存功能,最长可保留 24 小时,从而在后续问题中以更低成本提供更快的响应。此外,我们的优先处理客户将可畅享相较 GPT‑5 实现大幅提速的 GPT‑5.1 性能。

在编码方面,我们与 Cursor、Cognition、Augment Code、Factory 和 Warp 等初创公司紧密合作,升级了 GPT‑5.1 的编码个性、可控性和代码质量。总体而言,使用 GPT‑5.1 编码更直观,而且在完成任务时用户可看到更清晰的更新。

最后,我们在 GPT‑5.1 中推出了两项新工具:一是 apply_patch 工具,助力更可靠地编辑代码;二是 shell 工具,使模型能够运行 Shell 命令。

GPT‑5.1 标志着 GPT‑5 系列的又一次跃进,我们计划继续投资于更智能、更强大的模型,帮助开发者构建可靠的智能体工作流。


在不同任务中进行高效推理

自适应推理

为了让 GPT‑5.1 速度更快,我们全面改进了训练方式,使其具备更灵活的思考机制。在简单任务中,GPT‑5.1 使用更少的 Token 进行推理,从而带来更流畅的产品体验并降低 Token 成本。在需要额外思考的复杂任务中,GPT‑5.1 保持持久性,探索不同选项并自我检查,以有效提升可靠性。

Balyasny Asset Management表示,GPT‑5.1“在完整动态评估套件中表现优于 GPT‑4.1 和 GPT‑5,同时运行速度比 GPT‑5 快 2-3 倍。”他们还指出,在工具密集型推理任务中,GPT‑5.1“始终只使用领先竞争对手约一半的 Token,却能保持相同或更高的质量。”同样,AI 保险 BPO Pace也测试了该模型,并表示他们的智能体在 GPT‑5.1 上运行速度“快了 50%,同时在准确性上超过了 GPT‑5 和其他领先模型的评估结果。”

GPT‑5.1 在思考时间上的动态变化比 GPT‑5 更灵活。在具有代表性的 ChatGPT 任务分布中,GPT‑5.1 在较简单的任务上速度更快,即使在高推理投入的情况下也是如此。

GPT‑5.1 在思考时间上的动态变化比 GPT‑5 更灵活。在具有代表性的 ChatGPT 任务分布中,GPT‑5.1 在较简单的任务上速度更快,即使在高推理投入的情况下也是如此。

例如,当被问到“展示一个 npm 命令以列出全局安装的软件包”时,GPT‑5.1 在 2 秒内完成回答,而不是 10 秒。

GPT-5(中等)消耗约 250 个 Token(约 10 秒)

show an npm command to list globally installed packages

npm list -g --depth=0

GPT-5.1(中等)消耗约 50 个 Token(约 2 秒)

show an npm command to list globally installed packages

You can list globally installed npm packages with:

  1. Just package names: npm ls -g --depth=0
  2. Including their install paths: npm ls -g

The first one is usually what you want.

全新“无推理”模式

开发者现在可以通过将 reasoning_effort 设置为 'none' 来使用 GPT‑5.1 的无推理模式。这使模型在延迟敏感的场景中表现得像一个非推理模型,同时仍具备 GPT‑5.1 的高智能,并额外支持高性能的工具调用。与 GPT‑5 的 'minimal' 推理相比,GPT‑5.1 的无推理模式在并行工具调用(可提升端到端任务完成速度)、编码任务、指令遵循以及搜索工具使用方面表现更佳,并且在我们的 API 平台中支持网络搜索Sierra(在新窗口中打开) 分享了他们的真实评估结果,显示 GPT‑5.1 在“无推理”模式下的低延迟工具调用性能相比 GPT‑5 最低推理提升了 20%。

随着 'none' 作为 reasoning_effort 的新取值被引入,开发者在速度、成本与智能之间拥有了更大的灵活性与控制力。GPT‑5.1 默认使用 'none',非常适合延迟敏感的工作负载。我们建议开发者在更复杂的任务中选择 'low' 或 'medium',而在智能与可靠性比速度更重要的场景中选择 'high'。

高级提示缓存

高级缓存功能让提示在缓存中保持最长 24 小时(而非目前仅支持的几分钟),提升了推理效率。更长的保留窗口让更多后续请求能够利用缓存上下文,从而在多轮对话、编码会话或知识检索等长时间交互中实现更低延迟和成本,以及更流畅的性能。

提示缓存的定价保持不变:缓存的输入 Token 比未缓存的便宜 90%,且缓存写入或存储不收取额外费用。要在 GPT‑5.1 中使用高级缓存功能,只需在 Responses 或 Chat Completions API 中添加参数“prompt_cache_retention='24h'”。详情请参阅提示缓存文档


编码

GPT‑5.1 在 GPT‑5 的编码能力基础上进一步提升,具备更可控的编码个性、更少的过度思考、更高的代码质量、更贴近用户的更新消息(前言提示)以及更实用的前端设计 — 在低推理投入的场景中表现尤为突出。

在简单的编码任务中,例如快速代码编辑,GPT‑5.1 的更高速度让迭代往返变得轻松。GPT‑5.1 在简单任务上的加速并不会降低其在复杂任务中的表现。在 SWE-bench Verified 测试中,GPT‑5.1 的持续工作时间甚至超过 GPT‑5,并达到了 76.3%。

SWE-bench Verified 为模型提供一个代码库和问题描述,模型并必须生成补丁来解决该问题。标签用于指示推理投入。准确性是所有 500 个问题的平均值。所有模型都使用了一个包含基于 JSON 的 apply_patch 工具的框架。

SWE-bench Verified⁠ 为模型提供一个代码库和问题描述,模型并必须生成补丁来解决该问题。标签用于指示推理投入。准确性是所有 500 个问题的平均值。所有模型都使用了一个包含基于 JSON 的 apply_patch 工具的框架。

我们收到来自多家编码公司关于 GPT‑5.1 的早期反馈。以下是他们的印象:

  • Augment Code表示,GPT‑5.1 “更为审慎,减少了无效操作,推理更高效,任务聚焦更好”,他们看到的效果是“更准确的代码修改、更顺畅的拉取请求 (Pull Request),以及在多文件项目中更快速的迭代”。
  • Cline分享道,在他们的评估中,“GPT‑5.1 在 diff 编辑基准测试中达到了 SOTA,并提升了 7%,展现出在复杂编码任务中的卓越可靠性。”
  • CodeRabbit称 GPT‑5.1 是他们“进行 PR 审查的首选模型”。
  • Cognition表示,GPT‑5.1 “在理解用户需求并协作完成任务方面有显著提升”。
  • Factory指出,“GPT‑5.1 的响应明显更快,并能根据任务调整推理深度,减少过度思考,提升整体开发者体验。”
  • Warp正在将 GPT‑5.1 设为新用户的默认模型,并表示它“在 GPT‑5 系列令人印象深刻的智能提升基础上更具响应性。”
“GPT-5.1 不只是另一种大语言模型。它是真正的智能体,是我测试过的最自然自主的模型。它像人类一样书写、编码,能够轻松遵循复杂指令,并在前端任务中表现出色,能够无缝融入你现有的代码库。你可以在 Responses API 中真正释放它的全部潜力,我们也很高兴能在我们的 IDE 中提供该工具。”
— Denis Shiryaev,JetBrains AI 开发工具生态负责人

GPT‑5.1 新增工具

我们在 GPT‑5.1 中推出了两项新工具,帮助开发者在 Responses API 中更好地发挥模型的能力:自由形式的 apply_patch 工具,让代码编辑更加可靠,无需进行 JSON 转义;shell工具,允许模型编写命令并在本地机器上运行。

Apply_patch 工具

自由形式的 apply_patch 工具让 GPT‑5.1 能够在代码库中通过结构化 diff 来创建、更新并删除文件。与仅仅提出编辑建议不同,模型会生成补丁操作,由应用程序执行并反馈结果,从而支持逐步迭代且多步骤的代码编辑工作流。

在 Responses API 中使用 apply_patch 工具时 ,可以在工具数组中包含 "tools": [{“type”: “apply_patch”}] ,并在输入中提供文件内容,或为模型提供与文件系统交互的工具。模型会生成 apply_patch_call 项,用于创建、更新或删除文件,这些文件包含需要在文件系统中应用的 diff。要了解更多关于如何集成 apply_patch 工具的信息,请参阅开发者文档⁠(在新窗口中打开)。

Shell 工具

Shell 工具允许模型通过受控的命令行接口与本地计算机交互。模型会提出 shell 命令,由开发者的集成执行并返回输出。这形成了一个简单的“计划 — 执行”循环,使模型能够检查系统、运行工具并收集数据,直到完成任务。

在 Responses API 中使用 shell 工具时,开发者可以在工具数组中包含 "tools": [{“type”: “shell”}]。API 会生成 "shell_call" 项,其中包含要执行的 shell 命令。开发者在本地环境中执行这些命令,并在下一次 API 请求中通过 "shell_call_output" 项传回执行结果。详情请参阅我们的开发者文档⁠(在新窗口中打开)。

定价和可用性

GPT‑5.1 和 gpt-5.1-chat-latest 已在 API 的所有付费层级向开发者开放。定价和速率限制⁠(在新窗口中打开)与 GPT‑5 保持一致。我们还在 API 中发布了 gpt-5.1-codex 以及 gpt-5.1-codex-mini。虽然 GPT‑5.1 在大多数编码任务中表现出色,但 GPT‑5.1-codex 系列模型针对 Codex 或类似 Codex 的运行环境中具备代理能力的长期编码任务进行了优化。

开发者可以通过我们的 GPT‑5.1 开发者文档⁠(在新窗口中打开)和模型提示指南⁠(在新窗口中打开)开始构建。目前我们尚无在 API 中弃用 GPT‑5 的计划,如果未来决定这样做,会提前通知开发者。

下一步发展

我们致力于持续迭代上线强大可靠的模型,用于真实的智能体与编码工作。这些模型能够高效思考、快速迭代、处理复杂任务,同时为开发者打造流畅的工作体验。通过自适应推理、更强的编码性能、更清晰的用户更新提示,以及 apply_patchshell 等新工具,GPT‑5.1 旨在帮助你更轻松地完成构建。此外, 我们在这一领域持续加大投入。在未来的数周和数月中,你可以看到更强大的智能体与编码模型不断推出。

附录:模型评估

评估

GPT‑5.1(高)

GPT‑5(高)

SWE-bench Verified
(全部 500 个问题)

76.3%

72.8%

GPQA Diamond
(无工具)

88.1%

85.7%

AIME 2025
(无工具)

94.0%

94.6%

FrontierMath
(使用 Python 工具)

26.7%

26.3%

MMMU

85.4%

84.2%

Tau2-bench Airline

67.0%

62.6%

Tau2-bench Telecom*

95.6%

96.7%

Tau2-bench Retail

77.9%

81.1%

BrowseComp Long Context 128k

90.0%

90.0%

* 在 Tau2-bench Telecom 测试中,我们为 GPT‑5.1 提供了一个简短、通用的提示,以提升其性能。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区