📢 转载信息
原文链接:https://openai.com/index/introducing-agentkit
原文作者:OpenAI
2025年10月6日
推出 AgentKit
用于构建、部署和优化智能体的新工具集。
今天,我们发布了 AgentKit,这是一个为开发者和企业构建、部署和优化智能体的全套工具。直到现在,构建智能体意味着需要处理零散的工具——复杂的编排但缺乏版本控制、自定义连接器、手动评估流程、提示词调优,以及在启动前需要数周的前端工作。有了 AgentKit,开发者现在可以利用新的构建模块(如以下内容)可视化地设计工作流程并更快地嵌入智能体用户界面:
- Agent Builder: 一个用于创建和版本化多智能体工作流程的可视化画布
- Connector Registry: 管理员管理OpenAI产品间数据和工具连接的中心位置
- ChatKit: 一个工具包,用于将可定制的基于聊天的智能体体验嵌入到您的产品中
我们还通过新的功能(如数据集、追踪评分、自动化提示词优化和第三方模型支持)扩展了评估能力,以衡量和改进智能体性能。
自今年三月发布 Responses API 和 Agents SDK 以来,我们看到开发者和企业为深度研究、客户支持等场景构建了端到端的智能体工作流程。Klarna 构建了一个支持智能体,处理了三分之二的工单,Clay 则通过销售智能体实现了 10倍的增长。AgentKit建立在Responses API的基础上,旨在帮助开发者更高效、更可靠地构建智能体。
使用 Agent Builder 设计工作流程
随着智能体工作流程变得越来越复杂,开发者需要对它们的工作方式有更清晰的可见性。Agent Builder(在新窗口中打开)提供了一个可视化画布,用于使用拖放节点来组合逻辑,连接工具并配置自定义的护栏(Guardrails)。它支持预览运行、内联评估配置和完整的版本控制——非常适合快速迭代。

构建者可以从空白画布或预构建模板开始。
在Ramp,团队仅用几个小时就从一个空白画布构建出了一个购买智能体:
Agent Builder 将原本需要数月复杂编排、自定义代码和手动优化工作,缩短到仅仅几个小时。这个可视化画布让产品、法务和工程团队保持在同一页面上,将迭代周期缩短了70%,并在两个冲刺周期内而不是两个季度内上线了一个智能体。
— Ramp
同样,日本领先的技术和互联网服务公司LY Corporation,在不到两个小时内使用Agent Builder构建了一个工作助手智能体。
"Agent Builder 以全新的方式使我们能够编排智能体,工程师和主题专家都在一个界面中协作。我们在不到两个小时内构建并运行了第一个多智能体工作流程,极大地加快了创建和部署智能体的时间。"
— LY Corporation
我们还为企业推出了Connector Registry,用于治理和维护跨多个工作区和组织的的数据。Connector Registry(在新窗口中打开)将ChatGPT和API中的数据源整合到一个管理员面板中。该注册表包含所有预构建的连接器,如Dropbox、Google Drive、Sharepoint和Microsoft Teams,以及第三方MCP。
开发者还可以在Agent Builder中启用Guardrails(在新窗口中打开)——一个开源的、模块化的安全层,有助于保护智能体免受意外或恶意行为的影响。Guardrails可以屏蔽或标记PII(个人身份信息),检测越狱(jailbreaks),并应用其他安全措施,从而更容易构建和部署可靠、安全的智能体。Guardrails可以独立部署,也可以通过Python(在新窗口中打开)和JavaScript(在新窗口中打开)的护栏库进行部署。
使用 ChatKit 嵌入智能体聊天体验
为智能体部署聊天用户界面可能会非常复杂——需要处理流式响应、管理线程、展示模型的思考过程以及设计引人入胜的聊天内体验。ChatKit(在新窗口中打开)使嵌入与您的产品原生集成的聊天式智能体变得简单。它可以嵌入到应用程序或网站中,并可定制以匹配您的主题或品牌。
"我们使用ChatKit为Canva开发者社区构建支持智能体节省了超过两周的时间,并在不到一小时内完成了集成。这个支持智能体将通过将我们的文档转化为对话式体验,改变开发者与我们文档互动的方式,使在Canva上构建应用和集成变得更容易。"
— Canva
ChatKit已经支持了一系列用例,从内部知识助手和入职指南到客户支持和研究智能体。HubSpot(在新窗口中打开)的客户支持智能体就是一个例子:

使用新的Evals功能衡量智能体性能
构建可靠、可投入生产的智能体需要严格的性能评估。去年,我们推出了Evals(在新窗口中打开)来帮助开发者测试提示词和衡量模型行为。我们现在正在添加四项新功能,使构建评估变得更加容易:
- 数据集 (Datasets) – 从头开始快速构建智能体评估,并通过自动化评分和人工标注随时间扩展它们。
- 追踪评分 (Trace grading) – 对智能体工作流程进行端到端评估,并自动化评分以找出不足之处。
- 自动化提示词优化 (Automated prompt optimization) – 根据人工标注和评分结果生成改进后的提示词。
- 第三方模型支持 (Third-party model support) – 在OpenAI Evals平台内评估其他提供商的模型。
我们已经看到客户在使用Evals后取得了重大的性能提升。
"评估平台将我们多智能尽职调查框架的开发时间缩短了50%以上,并将智能体准确性提高了30%。"
— Carlyle

通过强化微调推动智能体性能
强化微调 (Reinforcement fine-tuning) (RFT)(在新窗口中打开)允许开发者定制我们的推理模型。它目前在OpenAI o4-mini上普遍可用,并在GPT‑5的私有测试版中。我们正与数十个客户密切合作,在更广泛发布之前完善GPT‑5的RFT。
今天,我们正在RFT测试版中引入两项新功能,旨在进一步提升智能体性能:
- 自定义工具调用 (Custom tool calls) – 训练模型在正确的时间调用正确的工具,以获得更好的推理能力
- 自定义评分器 (Custom graders) – 为您的用例中最重要的事情设定自定义评估标准
定价与可用性
从今天开始,ChatKit和新的Evals功能对所有开发者普遍可用。Agent Builder处于测试版,Connector Registry正开始向部分API、ChatGPT Enterprise和Edu客户进行测试版推广,这些客户拥有全球管理员控制台(在新窗口中打开)(Global Owners可以在此管理域名、SSO、多个API组织)。全球管理员控制台是启用Connector Registry的先决条件。所有这些工具都包含在标准的API模型定价中。
我们计划很快为ChatGPT添加一个独立的Workflows API和智能体部署选项。
我们非常期待看到您的构建成果。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区