目 录CONTENT

文章目录

面向开发者的 GPT-5.1 发布

Administrator
2025-11-14 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://openai.com/index/gpt-5-1-for-developers

原文作者:OpenAI


今天,我们在API平台发布了 GPT‑5.1,它是GPT‑5系列中的最新模型,在智能速度之间实现了广泛的智能体和编码任务的平衡。该模型会根据任务的复杂性动态调整其思考时间,使得模型在处理更简单的日常任务时显著更快、更具Token效率。此外,该模型还具备一个“无推理”(no reasoning)模式,可在不需要深度思考的任务中更快响应,同时保持 GPT‑5.1 的前沿智能水平。

为了使 GPT‑5.1 更高效,我们发布了扩展的提示缓存功能,缓存保留时间最长可达24小时,从而以更低的成本实现对后续问题的更快响应。我们的优先处理(Priority Processing)客户在使用 GPT‑5.1 时,也将体验到比 GPT‑5 明显更快的性能。

在编码方面,我们与 Cursor、Cognition、Augment Code、Factory 和 Warp 等初创公司紧密合作,以提高 GPT‑5.1 的编码个性可控性代码质量。总的来说,GPT‑5.1 在编码使用中感觉更直观,并且在完成任务时,与用户的沟通更新更具交流性。

最后,我们随 GPT‑5.1 引入了两项新工具:一个旨在更可靠地编辑代码的 apply_patch 工具,以及一个允许模型运行 Shell 命令的 shell 工具。

GPT‑5.1 是 GPT‑5 系列的又一次进步,我们将继续投资于更智能、更强大的模型,以帮助开发人员构建可靠的智能体工作流程。



高效的跨任务推理

自适应推理

为了加快 GPT‑5.1 的速度,我们彻底改革了它的思考训练方式。对于直截了当的任务,GPT‑5.1 会花费更少的 Token 进行思考,从而带来更灵敏的产品体验和更低的 Token 费用。对于需要额外思考的困难任务,GPT‑5.1 依然保持耐心,探索选项并检查其工作,以最大限度地提高可靠性。

Balyasny Asset Management 表示,GPT‑5.1 在“我们的完整动态评估套件中,性能超越了 GPT‑4.1 和 GPT‑5,同时运行速度比 GPT‑5 快 2-3 倍。”他们还表示,在其工具繁多的推理任务中,GPT‑5.1“在相似或更好的质量下,持续使用的 Token 数量仅为领先竞争对手的一半左右。” 同样,人工智能保险 BPO Pace 也测试了该模型,并表示其代理在 GPT‑5.1 上的运行速度“快了 50%,同时在我们的评估中,准确性超过了 GPT‑5 和其他领先模型。”

GPT‑5.1 比 GPT‑5 更动态地变化其思考时间。在 ChatGPT 任务的代表性分布中,即使在高推理需求下,GPT‑5.1 在较简单的任务上也快得多。

例如,当被问及“展示一个用于列出全局安装的 npm 包的命令”时,GPT‑5.1 在 2 秒内(而不是 10 秒)给出了答案。

GPT-5 (Medium) 耗时约 250 个 Token(约 10 秒)

show an npm command to list globally installed packages

npm list -g --depth=0

GPT-5.1 (Medium) 耗时约 50 个 Token(约 2 秒)

show an npm command to list globally installed packages

You can list globally installed npm packages with:

  • Just package names: npm ls -g --depth=0
  • Including their install paths: npm ls -g

The first one is usually what you want.

新的“无推理”模式

现在,开发者可以通过将 reasoning_effort 设置为 'none' 来使用 GPT‑5.1 而无需推理。这使得模型在对延迟敏感的使用场景中表现得像一个非推理模型,同时兼具 GPT‑5.1 的高智能和执行工具调用的额外性能优势。与使用 'minimal' 推理的 GPT‑5 相比,使用无推理的 GPT‑5.1 在并行工具调用(这本身就能提高端到端任务完成速度)、编码任务、遵循指令和使用搜索工具方面表现更佳——并且支持我们在 API 平台中的网页搜索Sierra 分享说,在他们的实际评估中,GPT‑5.1 在“无推理”模式下的“低延迟工具调用性能比 GPT‑5 的最小推理提高了 20%”。

随着 'none' 作为 reasoning_effort 的一个值被引入,开发者在速度、成本和智能之间的平衡方面获得了更大的灵活性和控制权。GPT‑5.1 默认设置为 'none',这非常适合延迟敏感的工作负载。我们建议开发者对复杂度较高的任务选择 'low''medium',而在智能性和可靠性比速度更重要时选择 'high'

扩展提示缓存

扩展缓存通过允许提示在缓存中保持活动状态长达24小时(而不是目前支持的几分钟)来提高推理效率。通过更长的保留窗口,更多的后续请求可以利用缓存的上下文——从而降低延迟、减少成本,并为多轮聊天、编码会话或知识检索工作流等长期交互带来更流畅的性能。

提示缓存定价保持不变,缓存的输入 Token 比未缓存的 Token 便宜 90%,并且对缓存写入或存储不收取额外费用。要将扩展缓存与 GPT‑5.1 结合使用,请在“Responses”或“Chat Completions”API 调用中添加参数 “prompt_cache_retention='24h'”。有关更多详细信息,请参阅我们的提示缓存文档



编码

GPT‑5.1 基于 GPT‑5 的编码能力,具有更强的可控编码个性、更少的过度思考、改进的代码质量、在工具调用序列中更优的用户面向更新信息(前言),以及更实用的前端设计——尤其是在低推理强度下。

在像快速代码编辑这样的简单编码任务上,GPT‑5.1 更快的速度使其更容易来回迭代。GPT‑5.1 在简单任务上的速度提升并不会降低在困难任务上的性能。在 SWE-bench Verified 测试中,GPT‑5.1 的工作时间比 GPT‑5 更长,达到了 76.3%。

SWE-bench Verified测试中,模型会获得一个代码仓库和问题描述,并必须生成一个补丁来解决该问题。标签指示推理强度。准确性是根据所有 500 个问题的平均值计算的。所有模型都使用了一个带有基于 JSON 的 apply_patch 工具的框架。

我们从一些编码公司那里获得了关于 GPT‑5.1 的早期反馈。以下是他们的印象:

  • Augment Code 称 GPT‑5.1 “在更少的无效操作中表现得更审慎,推理更高效,任务焦点更集中”,他们正在看到“在多文件项目中出现更准确的更改、更流畅的拉取请求和更快的迭代。”
  • Cline 分享说,在他们的评估中,“GPT‑5.1 在我们的差异编辑基准测试中取得了 SOTA 成绩,提高了 7%,证明了其在复杂编码任务中的卓越可靠性。”
  • CodeRabbit 称 GPT‑5.1 是其“进行 PR 审查的首选模型。”
  • Cognition 表示 GPT‑5.1 “在理解你的要求并与你合作完成任务方面明显更好。”
  • Factory 表示“GPT‑5.1 提供了明显更灵敏的响应,并根据任务调整其推理深度,减少了过度思考,改善了整体开发人员体验。”
  • Warp 正将 GPT‑5.1 设置为新用户的默认选项,称其“建立在 GPT‑5 系列带来的令人印象深刻的智能提升之上,同时是一个响应速度远超以往的模型。”
"GPT 5.1 不仅仅是另一个 LLM——它确实是面向智能体的,是我测试过的最自然自主的模型。它写得像你,像你一样编码,毫不费力地遵循复杂的指令,并在前端任务中表现出色,可以很好地融入你现有的代码库。你可以在 Responses API 中真正释放它的全部潜力,我们很高兴能在我们的 IDE 中提供它。"
—Denis Shiryaev, Head of AI DevTools Ecosystem, JetBrains

GPT‑5.1 中的新工具

我们随 GPT‑5.1 引入了两项新工具,以帮助开发人员在 Responses API 中充分利用该模型:一个用于更可靠地进行代码编辑的自由格式 apply_patch 工具,无需 JSON 转义;以及一个 shell 工具,允许模型在你的本地机器上编写命令来运行。

Apply_patch 工具

自由格式的 apply_patch 工具允许 GPT‑5.1 使用结构化差异(diffs)来创建、更新和删除代码库中的文件。模型不是简单地建议编辑,而是发出应用程序将应用并报告结果的补丁操作,从而实现迭代的、多步骤的代码编辑工作流程。

要在 Responses API 中使用 apply_patch 工具,请将其包含在工具数组中,配置为 “tools”: [{“type”: “apply_patch”}],并在输入中包含文件内容或为模型提供与文件系统交互的工具。模型将生成 apply_patch_call 条目,其中包含您在文件系统上应用的差异,用于创建、更新或删除文件。有关如何与 apply_patch 工具集成的更多信息,请查阅我们的开发者文档

Shell 工具

Shell 工具允许模型通过受控的命令行界面与本地计算机进行交互。模型提出 Shell 命令;开发者的集成执行这些命令并将输出返回。这创建了一个简单的计划-执行循环,允许模型检查系统、运行实用程序和收集数据,直到它们可以完成任务。

要在 Responses API 中使用 Shell 工具,开发者可以在工具数组中包含它,配置为 “tools”: [{“type”: “shell”}]。API 将生成 “shell_call” 条目,其中包含要执行的 Shell 命令。开发者在本地环境中执行这些命令,并将执行结果作为 “shell_call_output” 条目传递回下一次 API 请求中。请在我们的开发者文档中了解更多信息。



定价和可用性

GPT‑5.1 和 gpt-5.1-chat-latest 对所有付费层级的 API 开发者均已开放。 定价和速率限制与 GPT‑5 相同。我们还在 API 中发布了 gpt-5.1-codexgpt-5.1-codex-mini。虽然 GPT‑5.1 在大多数编码任务中表现出色,但 gpt-5.1-codex 模型针对 Codex 或类似 Codex 的框架中长时间运行的智能体编码任务进行了优化。

开发者可以开始使用我们的 GPT‑5.1 开发者文档模型提示指南进行构建。我们目前不打算在 API 中弃用 GPT‑5,如果决定这样做,我们将提前通知开发者。



后续计划

我们致力于迭代部署最强大、最可靠的模型,用于真正的智能体和编码工作——这些模型可以高效思考、快速迭代并处理复杂任务,同时让开发人员保持流畅的工作状态。凭借自适应推理、更强的编码性能、更清晰的用户面向更新,以及 apply_patchshell 等新工具,GPT‑5.1 旨在帮助您以更少的摩擦进行构建。我们将继续在此领域进行大量投资:在接下来的几周和几个月内,您将看到更强大的智能体和编码模型推出。



附录:模型评估

评估

GPT‑5.1 (high)

GPT‑5 (high)

SWE-bench Verified
(所有 500 个问题)

76.3%

72.8%

GPQA Diamond
(无工具)

88.1%

85.7%

AIME 2025
(无工具)

94.0%

94.6%

FrontierMath
(带 Python 工具)

26.7%

26.3%

MMMU

85.4%

84.2%

Tau2-bench Airline

67.0%

62.6%

Tau2-bench Telecom*

95.6%

96.7%

Tau2-bench Retail

77.9%

81.1%

BrowseComp Long Context 128k

90.0%

90.0%

* 对于 Tau2-bench Telecom,我们为 GPT‑5.1 提供了一个简短的、通用的、有帮助的提示,以提高其性能。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区