📢 转载信息
原文链接:https://openai.com/index/introducing-agentkit
原文作者:OpenAI
重磅发布 AgentKit:简化 AI 智能体开发的全栈工具包
OpenAI 今日正式推出了 AgentKit,这是一套为开发者和企业量身打造的完整工具集,旨在简化 AI 智能体的构建、部署和优化流程。在此之前,开发智能体往往需要应对工具分散、编排复杂、缺乏版本控制、手动评估流程、提示词调优以及漫长的前端开发等诸多挑战。
AgentKit 的推出,通过集成一系列新的构建模块,让开发者能够更直观地设计工作流,并使用户界面(UI)快速嵌入智能体体验。核心新功能包括:
- Agent Builder (智能体构建器):一个可视化的画布,用于创建和版本化多智能体工作流。
- Connector Registry (连接器注册表):一个集中式管理平台,供管理员控制数据和工具在 OpenAI 产品间的连接方式。
- ChatKit:一个工具包,用于将可定制的、基于聊天的智能体体验嵌入到您的产品中。
此外,我们还增强了评估能力,新增了数据集(Datasets)、追踪评分(Trace grading)、自动化提示词优化(Automated prompt optimization)以及第三方模型支持,以帮助用户衡量和提升智能体的性能。
自三月份发布 Responses API 和 Agents SDK 以来,我们看到开发者和企业利用这些工具构建了用于深度研究和客户支持的端到端智能体工作流。例如,Klarna 构建了一个支持智能体,能够处理三分之二的客户工单;Clay 则通过销售智能体实现了 10 倍的增长。AgentKit 在 Responses API 的基础上,致力于让开发者更高效、更可靠地构建智能体。
一、直观设计工作流:Agent Builder
随着智能体工作流日益复杂,开发者需要更清晰地了解其运行机制。Agent Builder(opens in a new window) 提供了一个可视化的画布,允许用户通过拖放节点来组合逻辑,连接工具,并配置自定义的护栏(Guardrails)。它支持预览运行、内联评估配置和完整的版本控制,非常适合快速迭代。

构建者可以从空白画布开始,也可以使用预构建的模板。
Ramp 团队仅用几小时就从零开始构建了一个采购智能体:
Agent Builder 将过去需要数月复杂的编排、自定义代码和手动优化工作,缩短到了仅仅几个小时。这个可视化画布让产品、法务和工程团队保持步调一致,将迭代周期缩短了 70%,并使智能体在两个冲刺周期内上线,而非两个季度。
同样,日本领先的科技和互联网服务公司 LY Corporation 也在不到两小时内使用 Agent Builder 构建了一个工作助手智能体。
"Agent Builder 让我们以全新的方式编排智能体,工程师和主题专家可以在同一个界面中协作。我们在不到两小时内构建并运行了第一个多智能体工作流,极大地加快了创建和部署智能体的时间。"
我们还为企业推出了 Connector Registry(连接器注册表),用于在多个工作区和组织中治理和维护数据。它将 Dropbox、Google Drive、Sharepoint 和 Microsoft Teams 等所有预构建的连接器,以及第三方 MCPs,整合到一个统一的管理员面板中,方便管理跨 ChatGPT 和 API 的数据源。
开发者还可以在 Agent Builder 中启用 Guardrails(护栏)——这是一个开源的模块化安全层,有助于保护智能体免受意外或恶意行为的影响。护栏可以屏蔽或标记 PII(个人身份信息)、检测越狱攻击,并应用其他安全措施,从而更容易构建和部署可靠、安全的智能体。护栏可以独立部署,也可以通过 Python 或 JavaScript 库进行部署。
二、快速嵌入智能体聊天体验:ChatKit
为智能体部署聊天界面(UI)的过程可能会出乎意料地复杂,需要处理流式响应、管理对话线程、展示模型的思考过程,并设计引人入胜的聊天内体验。ChatKit 使嵌入基于聊天的智能体变得简单,使其感觉像是您产品原生的一部分。它可以嵌入到应用程序或网站中,并可根据您的主题或品牌进行定制。
"使用 ChatKit,我们为 Canva 开发者社区构建支持智能体节省了超过两周的时间,并在不到一小时内完成了集成。这个支持智能体将通过对话体验彻底改变开发者与我们文档的互动方式,使他们更容易在 Canva 上构建应用和集成。"
ChatKit 已支持多种用例,从内部知识助手和入职指南到客户支持和研究智能体。HubSpot 的客户支持智能体就是一个很好的例子:

三、利用新的 Evals 功能衡量智能体性能
构建可靠、可投入生产的智能体需要严格的性能评估。去年,我们推出了 Evals(opens in a new window) 来帮助开发者测试提示词和衡量模型行为。现在,我们增加了四项新功能,使构建评估(Evals)更加容易:
- 数据集 (Datasets):通过自动化评分器和人工标注,快速从零开始构建智能体评估,并随着时间推移进行扩展。
- 追踪评分 (Trace grading):对端到端的智能体工作流进行评估,并通过自动化评分来精确定位不足之处。
- 自动化提示词优化 (Automated prompt optimization):根据人工标注和评分器输出,生成更优化的提示词。
- 第三方模型支持 (Third-party model support):在 OpenAI Evals 平台上评估来自其他提供商的模型。
我们已经看到使用 Evals 的客户取得了显著的性能提升。
"评估平台将我们多智能尽职调查框架的开发时间缩短了 50% 以上,并将智能体准确率提高了 30%。"

四、通过强化微调推动智能体性能提升
强化微调 (Reinforcement fine-tuning, RFT)(opens in a new window) 允许开发者定制我们的推理模型。它已在 OpenAI o4-mini 上全面可用,并对 GPT‑5 处于私有测试阶段。我们正与数十家客户紧密合作,在更广泛发布前完善 GPT‑5 的 RFT 功能。
今天,我们在 RFT 测试版中推出了两项旨在进一步提升智能体性能的新功能:
- 自定义工具调用 (Custom tool calls):训练模型在恰当的时间调用正确的工具,以实现更好的推理能力。
- 自定义评分器 (Custom graders):设置自定义评估标准,以衡量对您的用例最重要的事情。
五、定价与可用性
从即日起,ChatKit 和新的 Evals 功能 对所有开发者全面开放。Agent Builder 现已进入 Beta 测试阶段,而 Connector Registry 也开始向部分 API、ChatGPT Enterprise 和 Edu 客户进行 Beta 阶段的推广(需要具备 Global Admin Console(opens in a new window),即全局所有者可在此管理域、SSO、多个 API 组织)。全局管理控制台是启用 Connector Registry 的先决条件。所有这些工具都包含在标准的 API 模型定价中。
我们计划很快向 ChatGPT 中添加一个独立的 Workflows API 和智能体部署选项。
我们非常期待看到大家的创新成果。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。
青云聚合API官网https://api.qingyuntop.top
支持全球最新300+模型:https://api.qingyuntop.top/pricing
详细的调用教程及文档:https://api.qingyuntop.top/about
评论区