📢 转载信息
原文链接:https://openai.com/index/introducing-agentkit
原文作者:OpenAI
# 隆重推出 AgentKit:打造、部署和优化智能体的完整工具集 今天,我们正式推出了 **AgentKit**,这是一套面向开发者和企业的完整工具集,旨在帮助他们更高效地构建、部署和优化智能体(Agents)。 在此之前,构建智能体往往意味着需要处理一系列零散的工具:复杂的编排、不完善的版本控制、定制化的连接器、手动评估流程、繁琐的提示词调优,以及在上线前耗费数周的前端开发工作。AgentKit 改变了这一现状,它让开发者能够通过新的构建模块,如可视化的工作流设计和快速嵌入智能体 UI 的能力,大大简化开发流程。 AgentKit 包含以下核心组件: * **Agent Builder(智能体构建器):** 一个用于创建和版本化多智能体工作流的视觉化画布。 * **Connector Registry(连接器注册中心):** 一个管理员可以集中管理数据和工具如何跨 OpenAI 产品进行连接的中心场所。 * **ChatKit:** 一套工具包,用于将可定制的、基于聊天的智能体体验快速嵌入到您的产品中。 此外,我们还增强了评估能力,新增了数据集、追踪评分、自动提示优化以及第三方模型支持等功能,以帮助客户衡量和提升智能体的性能。 自三月份发布 **Responses API 和 Agents SDK** 以来,我们看到开发者和企业正在使用这些工具为深度研究、客户支持等场景构建端到端智能体工作流。例如,Klarna 构建了一个支持代理,处理了三分之二的工单;Clay 借助销售代理实现了 10 倍的业务增长。AgentKit 在 Responses API 的基础上,致力于让开发者构建智能体时更高效、更可靠。 --- ## 一、通过 Agent Builder 实现工作流的可视化设计 随着智能体工作流变得日益复杂,开发者需要更清晰地了解其运行机制。**Agent Builder** 提供了一个可视化的画布,允许用户通过拖放节点来组合逻辑、连接工具并配置自定义的护栏(Guardrails)。它支持预览运行、内联评估配置和完整的版本控制功能,非常适合快速迭代。
构建者可以从空白画布或预构建模板开始。
Ramp 团队仅用了几个小时就完成了从空白画布到买家代理的构建: > “Agent Builder 将过去需要数月时间的复杂编排、定制代码和手动优化,缩短到短短几个小时。这个可视化画布让产品、法务和工程团队保持步调一致,迭代周期缩短了 70%,使智能体能够在两个冲刺(sprints)内上线,而不是两个季度。” > — Ramp 同样,日本领先的科技和互联网服务公司 LY Corporation 也在不到两个小时内利用 Agent Builder 构建了一个工作助手代理。 > “Agent Builder 以一种全新的方式使我们能够编排智能体,工程师和领域专家都在一个界面中协同工作。我们在不到两个小时内构建并运行了第一个多智能体工作流,极大地加快了智能体的创建和部署速度。” > — LY Corporation 我们还为企业推出了 **Connector Registry**,用于治理和维护跨多个工作区和组织的数据。Connector Registry 在 ChatGPT 和 API 中整合了数据源到一个统一的管理面板。该注册中心包含了所有预构建的连接器,如 Dropbox、Google Drive、Sharepoint 和 Microsoft Teams,以及第三方 MCPs。 开发者还可以在 Agent Builder 中启用 **Guardrails**——这是一个开源的、模块化的安全层,有助于保护智能体免受意外或恶意行为的影响。Guardrails 可以屏蔽或标记 PII(个人身份信息)、检测越狱行为并应用其他安全措施,从而更容易构建和部署可靠、安全的智能体。Guardrails 可以独立部署,也可以通过 Python 和 JavaScript 的 guardrails 库进行部署。 --- ## 二、使用 ChatKit 嵌入智能体聊天体验 部署智能体的聊天 UI 往往出乎意料地复杂——需要处理流式响应、管理线程、展示模型的思考过程,以及设计引人入胜的聊天内体验。**ChatKit** 简化了这一过程,可以轻松嵌入感觉与您的产品原生集成的基于聊天的智能体。它可以嵌入到应用或网站中,并可根据您的主题或品牌进行定制。
“使用 ChatKit,我们为 Canva 开发者社区构建支持代理节省了两周多的时间,并且在一小时内就完成了集成。这个支持代理将通过对话体验彻底改变开发者查阅我们文档的方式,使在 Canva 上构建应用和集成变得更加容易。”
— Canva
ChatKit 已经支持多种用例,从内部知识助手和入职指南到客户支持和研究代理。HubSpot 的客户支持代理就是一个很好的例子:
--- ## 三、通过新的 Evals 能力衡量智能体性能 构建可靠、可投入生产的智能体需要严格的性能评估。去年,我们推出了 **Evals**,旨在帮助开发者测试提示词和衡量模型行为。现在,我们增加了四项新功能,使构建评估(Evals)更加容易: * **数据集(Datasets):** 利用自动化评分器和人工标注,快速从零开始构建智能体评估,并随着时间推移不断扩展。 * **追踪评分(Trace grading):** 对智能体工作流进行端到端评估,并通过自动化评分来精确定位不足之处。 * **自动提示优化(Automated prompt optimization):** 根据人工标注和评分器输出生成更优的提示词。 * **第三方模型支持:** 在 OpenAI Evals 平台内评估其他提供商的模型。 我们已经看到客户在使用 Evals 实现了显著的性能提升。
“评估平台将我们多智能尽职调查框架的开发时间缩短了 50% 以上,并将智能体准确性提高了 30%。”
— Carlyle
--- ## 四、通过强化微调(RFT)推动智能体性能 **强化微调 (Reinforcement fine-tuning, RFT)** 允许开发者定制我们的推理模型。目前,它已在 OpenAI o4-mini 上全面可用,并处于 GPT‑5 的私有测试阶段。我们正与数十家客户紧密合作,在 GPT‑5 广泛发布前完善 RFT。 今天,我们将在 RFT 测试版中引入两项新功能,旨在进一步提升智能体性能: * **自定义工具调用(Custom tool calls):** 训练模型在恰当的时机调用正确的工具,以实现更好的推理能力。 * **自定义评分器(Custom graders):** 为您的用例设置最关键的评估标准。 --- ## 定价与可用性 从即日起,ChatKit 和新的 Evals 功能已对所有开发者**全面可用**。Agent Builder 处于测试阶段,Connector Registry 也开始向部分 API、ChatGPT Enterprise 和 Edu 客户进行**测试版**推广,前提是他们拥有**全局管理员控制台**(Global Admin Console)(全局管理员可以在其中管理域、SSO、多个 API 组织)。全局管理员控制台是启用 Connector Registry 的先决条件。所有这些工具都包含在标准的 API 模型定价中。 我们计划很快将独立的 **Workflows API** 和智能体部署选项添加到 ChatGPT 中。 我们非常期待看到大家将构建出什么新成果!
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。
青云聚合API官网https://api.qingyuntop.top
支持全球最新300+模型:https://api.qingyuntop.top/pricing
详细的调用教程及文档:https://api.qingyuntop.top/about
评论区