面向开发者的 GPT-5.1 发布-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://openai.com/index/gpt-5-1-for-developers

原文作者：OpenAI

今天，我们在API平台发布了 GPT‑5.1，它是GPT‑5系列中的最新模型，在智能和速度之间实现了广泛的智能体和编码任务的平衡。该模型会根据任务的复杂性动态调整其思考时间，使得模型在处理更简单的日常任务时显著更快、更具Token效率。此外，该模型还具备一个“无推理”（no reasoning）模式，可在不需要深度思考的任务中更快响应，同时保持 GPT‑5.1 的前沿智能水平。

为了使 GPT‑5.1 更高效，我们发布了扩展的提示缓存功能，缓存保留时间最长可达24小时，从而以更低的成本实现对后续问题的更快响应。我们的优先处理（Priority Processing）客户在使用 GPT‑5.1 时，也将体验到比 GPT‑5 明显更快的性能。

在编码方面，我们与 Cursor、Cognition、Augment Code、Factory 和 Warp 等初创公司紧密合作，以提高 GPT‑5.1 的编码个性、可控性和代码质量。总的来说，GPT‑5.1 在编码使用中感觉更直观，并且在完成任务时，与用户的沟通更新更具交流性。

最后，我们随 GPT‑5.1 引入了两项新工具：一个旨在更可靠地编辑代码的 apply_patch 工具，以及一个允许模型运行 Shell 命令的 shell 工具。

GPT‑5.1 是 GPT‑5 系列的又一次进步，我们将继续投资于更智能、更强大的模型，以帮助开发人员构建可靠的智能体工作流程。

高效的跨任务推理

自适应推理

为了加快 GPT‑5.1 的速度，我们彻底改革了它的思考训练方式。对于直截了当的任务，GPT‑5.1 会花费更少的 Token 进行思考，从而带来更灵敏的产品体验和更低的 Token 费用。对于需要额外思考的困难任务，GPT‑5.1 依然保持耐心，探索选项并检查其工作，以最大限度地提高可靠性。

Balyasny Asset Management 表示，GPT‑5.1 在“我们的完整动态评估套件中，性能超越了 GPT‑4.1 和 GPT‑5，同时运行速度比 GPT‑5 快 2-3 倍。”他们还表示，在其工具繁多的推理任务中，GPT‑5.1“在相似或更好的质量下，持续使用的 Token 数量仅为领先竞争对手的一半左右。” 同样，人工智能保险 BPO Pace 也测试了该模型，并表示其代理在 GPT‑5.1 上的运行速度“快了 50%，同时在我们的评估中，准确性超过了 GPT‑5 和其他领先模型。”

GPT‑5.1 比 GPT‑5 更动态地变化其思考时间。在 ChatGPT 任务的代表性分布中，即使在高推理需求下，GPT‑5.1 在较简单的任务上也快得多。

例如，当被问及“展示一个用于列出全局安装的 npm 包的命令”时，GPT‑5.1 在 2 秒内（而不是 10 秒）给出了答案。

GPT-5 (Medium) 耗时约 250 个 Token（约 10 秒）

show an npm command to list globally installed packages

npm list -g --depth=0

GPT-5.1 (Medium) 耗时约 50 个 Token（约 2 秒）

show an npm command to list globally installed packages

You can list globally installed npm packages with:

Just package names: npm ls -g --depth=0
Including their install paths: npm ls -g

The first one is usually what you want.

新的“无推理”模式

现在，开发者可以通过将 reasoning_effort 设置为 'none' 来使用 GPT‑5.1 而无需推理。这使得模型在对延迟敏感的使用场景中表现得像一个非推理模型，同时兼具 GPT‑5.1 的高智能和执行工具调用的额外性能优势。与使用 'minimal' 推理的 GPT‑5 相比，使用无推理的 GPT‑5.1 在并行工具调用（这本身就能提高端到端任务完成速度）、编码任务、遵循指令和使用搜索工具方面表现更佳——并且支持我们在 API 平台中的网页搜索。 Sierra 分享说，在他们的实际评估中，GPT‑5.1 在“无推理”模式下的“低延迟工具调用性能比 GPT‑5 的最小推理提高了 20%”。

随着 'none' 作为 reasoning_effort 的一个值被引入，开发者在速度、成本和智能之间的平衡方面获得了更大的灵活性和控制权。GPT‑5.1 默认设置为 'none'，这非常适合延迟敏感的工作负载。我们建议开发者对复杂度较高的任务选择 'low' 或 'medium'，而在智能性和可靠性比速度更重要时选择 'high'。

扩展提示缓存

扩展缓存通过允许提示在缓存中保持活动状态长达24小时（而不是目前支持的几分钟）来提高推理效率。通过更长的保留窗口，更多的后续请求可以利用缓存的上下文——从而降低延迟、减少成本，并为多轮聊天、编码会话或知识检索工作流等长期交互带来更流畅的性能。

提示缓存定价保持不变，缓存的输入 Token 比未缓存的 Token 便宜 90%，并且对缓存写入或存储不收取额外费用。要将扩展缓存与 GPT‑5.1 结合使用，请在“Responses”或“Chat Completions”API 调用中添加参数 “prompt_cache_retention='24h'”。有关更多详细信息，请参阅我们的提示缓存文档。

编码

GPT‑5.1 基于 GPT‑5 的编码能力，具有更强的可控编码个性、更少的过度思考、改进的代码质量、在工具调用序列中更优的用户面向更新信息（前言），以及更实用的前端设计——尤其是在低推理强度下。

在像快速代码编辑这样的简单编码任务上，GPT‑5.1 更快的速度使其更容易来回迭代。GPT‑5.1 在简单任务上的速度提升并不会降低在困难任务上的性能。在 SWE-bench Verified 测试中，GPT‑5.1 的工作时间比 GPT‑5 更长，达到了 76.3%。

在 SWE-bench Verified⁠测试中，模型会获得一个代码仓库和问题描述，并必须生成一个补丁来解决该问题。标签指示推理强度。准确性是根据所有 500 个问题的平均值计算的。所有模型都使用了一个带有基于 JSON 的 apply_patch 工具的框架。

我们从一些编码公司那里获得了关于 GPT‑5.1 的早期反馈。以下是他们的印象：

Augment Code 称 GPT‑5.1 “在更少的无效操作中表现得更审慎，推理更高效，任务焦点更集中”，他们正在看到“在多文件项目中出现更准确的更改、更流畅的拉取请求和更快的迭代。”
Cline 分享说，在他们的评估中，“GPT‑5.1 在我们的差异编辑基准测试中取得了 SOTA 成绩，提高了 7%，证明了其在复杂编码任务中的卓越可靠性。”
CodeRabbit 称 GPT‑5.1 是其“进行 PR 审查的首选模型。”
Cognition 表示 GPT‑5.1 “在理解你的要求并与你合作完成任务方面明显更好。”
Factory 表示“GPT‑5.1 提供了明显更灵敏的响应，并根据任务调整其推理深度，减少了过度思考，改善了整体开发人员体验。”
Warp 正将 GPT‑5.1 设置为新用户的默认选项，称其“建立在 GPT‑5 系列带来的令人印象深刻的智能提升之上，同时是一个响应速度远超以往的模型。”

"GPT 5.1 不仅仅是另一个 LLM——它确实是面向智能体的，是我测试过的最自然自主的模型。它写得像你，像你一样编码，毫不费力地遵循复杂的指令，并在前端任务中表现出色，可以很好地融入你现有的代码库。你可以在 Responses API 中真正释放它的全部潜力，我们很高兴能在我们的 IDE 中提供它。"
—Denis Shiryaev, Head of AI DevTools Ecosystem, JetBrains

GPT‑5.1 中的新工具

我们随 GPT‑5.1 引入了两项新工具，以帮助开发人员在 Responses API 中充分利用该模型：一个用于更可靠地进行代码编辑的自由格式 apply_patch 工具，无需 JSON 转义；以及一个 shell 工具，允许模型在你的本地机器上编写命令来运行。

Apply_patch 工具

自由格式的 apply_patch 工具允许 GPT‑5.1 使用结构化差异（diffs）来创建、更新和删除代码库中的文件。模型不是简单地建议编辑，而是发出应用程序将应用并报告结果的补丁操作，从而实现迭代的、多步骤的代码编辑工作流程。

要在 Responses API 中使用 apply_patch 工具，请将其包含在工具数组中，配置为 “tools”: [{“type”: “apply_patch”}]，并在输入中包含文件内容或为模型提供与文件系统交互的工具。模型将生成 apply_patch_call 条目，其中包含您在文件系统上应用的差异，用于创建、更新或删除文件。有关如何与 apply_patch 工具集成的更多信息，请查阅我们的开发者文档。

Shell 工具

Shell 工具允许模型通过受控的命令行界面与本地计算机进行交互。模型提出 Shell 命令；开发者的集成执行这些命令并将输出返回。这创建了一个简单的计划-执行循环，允许模型检查系统、运行实用程序和收集数据，直到它们可以完成任务。

要在 Responses API 中使用 Shell 工具，开发者可以在工具数组中包含它，配置为 “tools”: [{“type”: “shell”}]。API 将生成 “shell_call” 条目，其中包含要执行的 Shell 命令。开发者在本地环境中执行这些命令，并将执行结果作为 “shell_call_output” 条目传递回下一次 API 请求中。请在我们的开发者文档中了解更多信息。

定价和可用性

GPT‑5.1 和 gpt-5.1-chat-latest 对所有付费层级的 API 开发者均已开放。定价和速率限制与 GPT‑5 相同。我们还在 API 中发布了 gpt-5.1-codex 和 gpt-5.1-codex-mini。虽然 GPT‑5.1 在大多数编码任务中表现出色，但 gpt-5.1-codex 模型针对 Codex 或类似 Codex 的框架中长时间运行的智能体编码任务进行了优化。

开发者可以开始使用我们的 GPT‑5.1 开发者文档和模型提示指南进行构建。我们目前不打算在 API 中弃用 GPT‑5，如果决定这样做，我们将提前通知开发者。

后续计划

我们致力于迭代部署最强大、最可靠的模型，用于真正的智能体和编码工作——这些模型可以高效思考、快速迭代并处理复杂任务，同时让开发人员保持流畅的工作状态。凭借自适应推理、更强的编码性能、更清晰的用户面向更新，以及 apply_patch 和 shell 等新工具，GPT‑5.1 旨在帮助您以更少的摩擦进行构建。我们将继续在此领域进行大量投资：在接下来的几周和几个月内，您将看到更强大的智能体和编码模型推出。

附录：模型评估

评估	GPT‑5.1 (high)	GPT‑5 (high)
SWE-bench Verified ^{(所有 500 个问题)}	76.3%	72.8%
GPQA Diamond ^(无工具)	88.1%	85.7%
AIME 2025 ^(无工具)	94.0%	94.6%
FrontierMath ^{(带 Python 工具)}	26.7%	26.3%
MMMU	85.4%	84.2%
Tau²-bench Airline	67.0%	62.6%
Tau²-bench Telecom*	95.6%	96.7%
Tau²-bench Retail	77.9%	81.1%
BrowseComp Long Context 128k	90.0%	90.0%

* 对于 Tau²-bench Telecom，我们为 GPT‑5.1 提供了一个简短的、通用的、有帮助的提示，以提高其性能。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

面向开发者的 GPT-5.1 发布