隆重推出 AgentKit

用于构建、部署和优化智能体的新工具。

今日我们正式发布 AgentKit，这是一套为开发人员和企业打造的完整工具集，用于构建、部署和优化智能体。过去，构建智能体往往意味着需要协调一堆零散工具：复杂的流程编排却缺乏版本控制、定制化连接器、手动评估流程、提示词调优，以及上线前长达数周的前端开发。借助 AgentKit，开发人员现在能够可视化设计工作流程，并利用全新构建模块快速嵌入智能体界面，例如：

Agent Builder：用于创建和版本控制多智能体工作流程的可视化画布
Connector Registry：为管理员提供统一管理 OpenAI 产品数据与工具连接配置的核心平台
ChatKit：用于在产品中嵌入可定制对话式智能体体验的开发工具包

我们还通过多项新功能扩展评估能力，包括数据集、追踪评分、自动提示优化以及第三方模型支持，以衡量和提升智能体性能。

自 3 月份发布 Responses API 和 Agents SDK⁠以来，我们看到开发人员和企业构建出多个端到端智能体工作流程，用于深度研究、客户支持等。Klarna 构建的客服智能体⁠可处理三分之二的工单量；Clay 则通过销售智能体实现了 10 倍增长⁠。AgentKit 基于 Responses API 构建，旨在帮助开发人员更高效、更可靠地构建智能体。

使用 Agent Builder 设计工作流程

随着智能体工作流程日益复杂，开发人员需要更清晰地掌握其运行方式。Agent Builder⁠（在新窗口中打开）提供可视化画布，可通过拖拽节点组合逻辑、连接工具并配置自定义防护机制。该平台支持预览运行、内联评估配置和完整版本控制，是快速迭代的理想解决方案。

可视化构建者工具中的客户服务自动化流程的界面视图。画布显示标记为“开始”、“越狱护栏”、“分类智能体”、“If/else”、“返回智能体”、“保留智能体”、“信息智能体”、“幻觉护栏”和“结束”的连接节点。左侧边栏列出了可用节点类型，例如智能体、注释、文件搜索、护栏、MCP 和用户批准。顶部控件包括“评估”、“写代码”、“预览”和“发布”选项。

构建者可以从空白画布起步，或直接使用预制模板。

在 Ramp，公司团队仅用数小时就从零开始打造出一款采购智能体。

Agent Builder 将原本需要数月时间完成的复杂编排、自定义编码与人工优化流程，压缩至短短数小时。可视化画布确保产品、法务与工程团队协同一致，迭代周期缩短 70%，智能体上线时间从两个季度缩减至两个冲刺周期。”
— Ramp

无独有偶，日本领先的科技与互联网服务企业 LY Corporation 使用 Agent Builder 在不足两小时内便成功构建出一款工作助手智能体。

“Agent Builder 让我们以全新方式编排智能体，实现工程师与领域专家在统一界面协同工作。我们仅用不到两小时就构建并运行了首个多智能体工作流程，极大缩短了智能体创建与部署周期。”
— LY Corporation

我们还推出 Connector Registry，助力企业管理和维护跨多个工作空间和组织的数据。Connector Registry⁠（在新窗口中打开）将 ChatGPT 与 API 的数据源整合至统一管理员面板。该注册表包含所有预置连接器，例如 Dropbox、Google Drive、Sharepoint 和 Microsoft Teams，以及第三方 MCP。

开发人员现可在 Agent Builder 中启用 Guardrails⁠（在新窗口中打开），这是一个开源模块化安全层，能有效防御智能体遭遇意外或恶意行为。Guardrails 可以屏蔽或标记 PII、检测越狱并应用其他保护措施，从而更轻松地构建和部署安全可靠的智能体。Guardrails 可独立部署，也可通过 Python⁠（在新窗口中打开）和 JavaScript⁠（在新窗口中打开）的防护栏库进行部署。

使用 ChatKit 嵌入智能对话体验

为智能体部署聊天界面的复杂程度往往超乎想象——需要处理流式响应、管理对话线程、展示模型思考过程，并设计生动的对话交互。ChatKit 让您能够轻松嵌入基于聊天的智能体，使其在您的产品中看起来原生自然。它可以嵌入到应用程序或网站中，并可根据您的主题或品牌进行自定义。

“借助 ChatKit，我们为 Canva 开发人员社区构建支持助手时节省超过两周时间，并在一小时内完成集成。该支持助手将彻底改变开发人员与文档互动的方式，将其转变为一种对话式体验，从而简化在 Canva 上构建应用和集成的过程。”
— Canva

ChatKit 已经为多种使用场景提供支持，从内部知识助手、入职引导到客户支持和研究型智能体都有应用。HubSpot⁠（在新窗口中打开）的客户支持智能体就是一个例子：

Ramp 平台的控制面板视图，展示费用管理界面。主面板向用户 Daniel 致意，并列出了诸如“ChatGPT Business 申请”（待审核）和“HubSpot 申请”（草稿）等请求，以及近期的航空公司、拼车和软件费用。右侧是 ChatGPT Business 的软件申请表，其中详细列出了 5 个席位，每月费用为 125 美元，有效期为 2025 年 10 月 1 日至 2026 年 10 月 1 日，并带有一个黄色的“提交申请”按钮。

使用新的 Evals 功能衡量智能体性能

构建可靠且可立即投入生产的智能体需要严格的性能评估。去年，我们推出了 Evals⁠（在新窗口中打开），以帮助开发人员测试提示并衡量模型行为。现在，我们新增了四项功能，让构建评估更为便捷：

数据集–快速从零开始构建智能体评估，并通过自动评分器和人工注释逐步扩展。
追踪评分–对智能工作流程进行端到端评估，并自动评分以找出不足之处。
自动提示优化–根据人工注释和评分器输出生成改进的提示。
第三方模型支持–在 OpenAI Evals 平台内评估其他供应商的模型。

我们已经从使用 Evals 的客户那里看到显著的性能提升。

“该评估平台将我们多智能体尽职调查框架的开发周期缩短了 50% 以上，并将智能体准确率提升了 30%。”
— Carlyle

界面显示一个数据集表，其中包含“评分”、“语气”、“反馈”和“准确度”等列。行显示带有“赞”或“踩”图标的条目，语气标签（例如“专业”、“友好”、“粗鲁”和“糟糕”），准确度结果标记为“通过”或“未通过”，分数为 3.5。顶部工具栏包含“上传”、“列”、“评分”、“生成输出”和“保存”等选项。

强化微调助力智能体性能提升

强化微调⁠（在新窗口中打开） (RFT) 赋予开发人员自定义推理模型的能力。该功能已在 OpenAI o4-mini 上正式发布，并在 GPT‑5 上提供内测版本。我们正与数十家客户紧密合作，在广泛发布前进一步完善 GPT‑5 的 RFT 功能。

今日我们为 RFT 测试版推出两项新功能，旨在进一步提升智能体性能：

自定义工具调用–训练模型在恰当时机精准调用工具以优化推理
自定义评分器–根据应用场景的核心需求设置自定义评估标准

定价和可用性

自今日起，ChatKit 和全新 Evals 功能正式向所有开发人员开放。Agent Builder 现已推出测试版，Connector Registry 也即将面向部分 API、ChatGPT Enterprise 和 Edu 客户推出测试版，这些客户将配备全局管理控制台⁠（全局所有者可在其中管理域、单点登录和多个 API 组织）。全局管理控制台是⁠（在新窗口中打开）启用 Connector Registry 的先决条件。所有这些工具都包含在标准 API 模型定价中。

我们计划很快为 ChatGPT 新增独立工作流 API 和智能体部署选项。

我们期待见证您的构建成果。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

隆重推出 AgentKit：用于构建、部署和优化智能体的新工具集