Netomi 关于将智能体系统扩展到企业级的经验总结-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://openai.com/index/netomi

原文作者：OpenAI

企业期望 AI 智能体能够可靠地处理复杂的业务流程，默认遵守策略，在重负载下保持运行，并能展示其工作过程。

Netomi ⁠构建的系统能够达到这一高标准，为联合航空（United Airlines）和 DraftKings 等财富 500 强客户提供服务。其平台将低延迟、可靠的工具使用能力交给 GPT‑4.1，同时利用 GPT‑5.2 进行更深入的多步骤规划，所有操作都在一个受治理的执行层内运行，旨在确保模型驱动的操作在真实的生产条件下保持可预测性。

在如此大规模下运行智能体系统，为 Netomi 提供了在企业内部部署成功的蓝图。

Lesson 1: Build for real-world complexity, not idealized flows

单个企业请求很少只映射到一个 API。真实的业务流程通常跨越预订引擎、忠诚度数据库、CRM 系统、策略逻辑、支付和知识源。数据往往不完整、相互矛盾或有时效性。依赖于脆弱流程的系统在这种可变性面前会崩溃。

Netomi 设计其智能体操作系统（Agentic OS）时，让 OpenAI 模型处于一个为这种程度的模糊性而构建的、受治理的编排管道中心。该平台使用 GPT‑4.1 进行快速、可靠的推理和工具调用——这对实时工作流至关重要——并在需要多步规划或更深层次推理时使用 GPT‑5.2。

“我们的目标是，将人类客服通常需要同时应对的多个系统编排在一起，并实现机器般的安全高效运转。”
—Puneet Mehta，Netomi 首席执行官

为确保在长期、复杂的任务中代理行为的一致性，Netomi 遵循了 OpenAI 推荐的智能体提示模式：

Persistence reminders：帮助 GPT‑5.2 在长期的多步工作流中延续推理过程
Explicit tool-use expectations：通过引导 GPT‑4.1 在交易操作期间调用工具获取权威信息，来抑制幻觉式回答
Structured planning：利用 GPT‑5.2 更深的推理能力来概述和执行多步任务
Agent-driven rich media decisions：依靠 GPT‑5.2 来检测并发出信号，表明工具调用何时应返回图像、视频、表单或其他丰富的多模态元素

这些模式共同帮助模型可靠地将非结构化请求映射到多步工作流，并在不连续的交互中保持状态。

很少有行业能像航空业那样清晰地体现出对多步推理的需求，因为一个交互通常跨越多个系统和策略层。一个简单的问题可能需要检查票价规则、重新计算忠诚度福利、启动机票更改，并与航班运营协调。

Mehta 说：“在航空业，情境每分钟都在变化。AI 必须推理客户所处的场景——而不仅仅是执行一个孤立的任务。这就是为什么情境感知比单纯的工作流重要得多，也是为什么面向情境的集成架构至关重要。”

有了 GPT‑4.1 和 GPT‑5.2，Netomi 可以不断地将这些模式扩展到更丰富的多步自动化中——不仅将模型用于回答问题，还用于规划任务、序列化动作以及协调主要航空公司所依赖的后端系统。

Lesson 2: Parallelize everything to meet enterprise latency expectations

在压力时刻——风暴期间的重新预订、解决账单问题，或应对突发的流量高峰——用户会放弃任何犹豫不决的系统。延迟决定了信任。

大多数 AI 系统之所以失败，是因为它们按顺序执行任务：分类 → 检索 → 验证 → 调用工具 → 生成输出。Netomi 转而设计了并发架构，利用了 GPT‑4.1 的低延迟流式传输和可靠的工具调用能力。

展示企业 AI 客服工作流的流程图。客户关于改签已取消航班的咨询通过多个渠道（社交、聊天、短信、邮件、搜索、语音）进入。系统将请求识别为改签场景，应用安全护栏，编排工具调用来检索替代方案并应用票价规则和会员权益规则，在预订和 CRM 系统中执行操作，并组装已验证的回复。最终向客户输出个性化的改签选项和会员权益补偿。

GPT‑4.1 提供了快速的首个 Token 时间和可预测的工具调用行为，这使得该架构能够在规模上可行；而 GPT‑5.2 在需要时提供更深入的多步推理路径。Netomi 的并发框架确保了 整个系统，而不仅仅是模型，保持在关键延迟阈值之下。

这些并发需求并非航空业独有。任何暴露于突发、极端流量激增的系统都需要同样的架构纪律。例如，DraftKings 定期对该模型进行压力测试，在重大体育赛事期间，每秒的并发客户请求量会飙升至超过 40,000 次。

在这些事件中，Netomi 即使在工作流涉及账户、支付、知识查找和监管检查时，也能保持低于三秒的响应速度，意图分类准确率达到 98%。

DraftKings 联合创始人兼运营总裁 Paul Liberman 表示：“AI 在我们于关键时刻为客户提供支持的方式中是核心且至关重要的。Netomi 的平台帮助我们在活动量激增时，以敏捷性和精确性进行处理。”

在规模化应用中，Netomi 的并发模型依赖于 GPT‑4.1 快速、可预测的工具调用能力，这使得多步工作流在极端负载下依然保持响应速度。

Lesson 3: Make governance an intrinsic part of the runtime

企业级 AI 必须是设计上可信赖的，治理机制必须直接编织到运行时中——而不是作为外部层添加。

当意图置信度降至阈值以下，或请求无法以高确定性分类时，Netomi 的治理机制就会启动，以确定如何处理请求，确保系统从自由形式生成回退到受控的执行路径。

在技术层面上，治理层处理以下事务：

Schema validation：在执行前验证每次工具调用是否符合预期的参数和 OpenAPI 合同
Policy enforcement：在推理和工具使用过程中，内联应用主题过滤器、品牌限制和合规性检查
PII protection：作为预处理和响应处理的一部分，检测并屏蔽敏感数据
Deterministic fallback：当意图、数据或工具调用存在歧义时，路由回已知的安全行为
Runtime observability：暴露 Token 跟踪、推理步骤和工具链日志，以供实时检查和调试

在牙科保险等高度管制的领域，这类治理是不可或缺的。一家 Netomi 的保险业客户每年处理近 200 万条提供商请求，涵盖所有 50 个州，包括资格检查、福利查询和索赔状态查询，其中任何一个错误响应都可能带来下游的监管或服务风险。

在公开注册期间，当审查和工作量达到峰值时，该公司需要 AI 能够在运行时本身强制执行策略。Netomi 的架构能够应对这一复杂要求。

Mehta 说：“我们构建系统的目的是，如果智能体遇到不确定性，它确切地知道如何安全地后退。治理不是附加的——它就是运行时的一部分。”

A blueprint for building agentic systems that work for the enterprise

Netomi 的发展之路展示了赢得企业信任所需的要素：为复杂性而构建、通过并行化满足延迟需求，并将治理机制嵌入到每个工作流中。OpenAI 模型构成了推理的骨干，而 Netomi 的系统工程则确保了智能在操作上是安全、可审计的，并且为财富 500 强的环境做好了准备。

这些原则帮助 Netomi 扩展到一些世界上要求最苛刻的行业——并为任何希望将智能体 AI 转化为生产级基础设施的初创公司提供了蓝图。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

Netomi 关于将智能体系统扩展到企业级的经验总结

Lesson 1: Build for real-world complexity, not idealized flows

Lesson 2: Parallelize everything to meet enterprise latency expectations

Lesson 3: Make governance an intrinsic part of the runtime

A blueprint for building agentic systems that work for the enterprise

评论区