📢 转载信息
原文链接:https://openai.com/index/netomi
原文作者:OpenAI
企业期望 AI 智能体能够可靠地处理复杂的业务流程,默认遵守策略,在重负载下保持运行,并能展示其工作过程。
Netomi 构建的系统能够达到这一高标准,为联合航空(United Airlines)和 DraftKings 等财富 500 强客户提供服务。其平台将低延迟、可靠的工具使用能力交给 GPT‑4.1,同时利用 GPT‑5.2 进行更深入的多步骤规划,所有操作都在一个受治理的执行层内运行,旨在确保模型驱动的操作在真实的生产条件下保持可预测性。
在如此大规模下运行智能体系统,为 Netomi 提供了在企业内部部署成功的蓝图。
Lesson 1: Build for real-world complexity, not idealized flows
单个企业请求很少只映射到一个 API。真实的业务流程通常跨越预订引擎、忠诚度数据库、CRM 系统、策略逻辑、支付和知识源。数据往往不完整、相互矛盾或有时效性。依赖于脆弱流程的系统在这种可变性面前会崩溃。
Netomi 设计其智能体操作系统(Agentic OS)时,让 OpenAI 模型处于一个为这种程度的模糊性而构建的、受治理的编排管道中心。该平台使用 GPT‑4.1 进行快速、可靠的推理和工具调用——这对实时工作流至关重要——并在需要多步规划或更深层次推理时使用 GPT‑5.2。
“我们的目标是,将人类客服通常需要同时应对的多个系统编排在一起,并实现机器般的安全高效运转。”—Puneet Mehta,Netomi 首席执行官
为确保在长期、复杂的任务中代理行为的一致性,Netomi 遵循了 OpenAI 推荐的智能体提示模式:
- Persistence reminders:帮助 GPT‑5.2 在长期的多步工作流中延续推理过程
- Explicit tool-use expectations:通过引导 GPT‑4.1 在交易操作期间调用工具获取权威信息,来抑制幻觉式回答
- Structured planning:利用 GPT‑5.2 更深的推理能力来概述和执行多步任务
- Agent-driven rich media decisions:依靠 GPT‑5.2 来检测并发出信号,表明工具调用何时应返回图像、视频、表单或其他丰富的多模态元素
这些模式共同帮助模型可靠地将非结构化请求映射到多步工作流,并在不连续的交互中保持状态。
很少有行业能像航空业那样清晰地体现出对多步推理的需求,因为一个交互通常跨越多个系统和策略层。一个简单的问题可能需要检查票价规则、重新计算忠诚度福利、启动机票更改,并与航班运营协调。
Mehta 说:“在航空业,情境每分钟都在变化。AI 必须推理客户所处的场景——而不仅仅是执行一个孤立的任务。这就是为什么情境感知比单纯的工作流重要得多,也是为什么面向情境的集成架构至关重要。”
有了 GPT‑4.1 和 GPT‑5.2,Netomi 可以不断地将这些模式扩展到更丰富的多步自动化中——不仅将模型用于回答问题,还用于规划任务、序列化动作以及协调主要航空公司所依赖的后端系统。
Lesson 2: Parallelize everything to meet enterprise latency expectations
在压力时刻——风暴期间的重新预订、解决账单问题,或应对突发的流量高峰——用户会放弃任何犹豫不决的系统。延迟决定了信任。
大多数 AI 系统之所以失败,是因为它们按顺序执行任务:分类 → 检索 → 验证 → 调用工具 → 生成输出。Netomi 转而设计了并发架构,利用了 GPT‑4.1 的低延迟流式传输和可靠的工具调用能力。

GPT‑4.1 提供了快速的首个 Token 时间和可预测的工具调用行为,这使得该架构能够在规模上可行;而 GPT‑5.2 在需要时提供更深入的多步推理路径。Netomi 的并发框架确保了 整个系统,而不仅仅是模型,保持在关键延迟阈值之下。
这些并发需求并非航空业独有。任何暴露于突发、极端流量激增的系统都需要同样的架构纪律。例如,DraftKings 定期对该模型进行压力测试,在重大体育赛事期间,每秒的并发客户请求量会飙升至超过 40,000 次。
在这些事件中,Netomi 即使在工作流涉及账户、支付、知识查找和监管检查时,也能保持低于三秒的响应速度,意图分类准确率达到 98%。
DraftKings 联合创始人兼运营总裁 Paul Liberman 表示:“AI 在我们于关键时刻为客户提供支持的方式中是核心且至关重要的。Netomi 的平台帮助我们在活动量激增时,以敏捷性和精确性进行处理。”
在规模化应用中,Netomi 的并发模型依赖于 GPT‑4.1 快速、可预测的工具调用能力,这使得多步工作流在极端负载下依然保持响应速度。
Lesson 3: Make governance an intrinsic part of the runtime
企业级 AI 必须是设计上可信赖的,治理机制必须直接编织到运行时中——而不是作为外部层添加。
当意图置信度降至阈值以下,或请求无法以高确定性分类时,Netomi 的治理机制就会启动,以确定如何处理请求,确保系统从自由形式生成回退到受控的执行路径。
在技术层面上,治理层处理以下事务:
- Schema validation:在执行前验证每次工具调用是否符合预期的参数和 OpenAPI 合同
- Policy enforcement:在推理和工具使用过程中,内联应用主题过滤器、品牌限制和合规性检查
- PII protection:作为预处理和响应处理的一部分,检测并屏蔽敏感数据
- Deterministic fallback:当意图、数据或工具调用存在歧义时,路由回已知的安全行为
- Runtime observability:暴露 Token 跟踪、推理步骤和工具链日志,以供实时检查和调试
在牙科保险等高度管制的领域,这类治理是不可或缺的。一家 Netomi 的保险业客户每年处理近 200 万条提供商请求,涵盖所有 50 个州,包括资格检查、福利查询和索赔状态查询,其中任何一个错误响应都可能带来下游的监管或服务风险。
在公开注册期间,当审查和工作量达到峰值时,该公司需要 AI 能够在运行时本身强制执行策略。Netomi 的架构能够应对这一复杂要求。
Mehta 说:“我们构建系统的目的是,如果智能体遇到不确定性,它确切地知道如何安全地后退。治理不是附加的——它就是运行时的一部分。”
A blueprint for building agentic systems that work for the enterprise
Netomi 的发展之路展示了赢得企业信任所需的要素:为复杂性而构建、通过并行化满足延迟需求,并将治理机制嵌入到每个工作流中。OpenAI 模型构成了推理的骨干,而 Netomi 的系统工程则确保了智能在操作上是安全、可审计的,并且为财富 500 强的环境做好了准备。
这些原则帮助 Netomi 扩展到一些世界上要求最苛刻的行业——并为任何希望将智能体 AI 转化为生产级基础设施的初创公司提供了蓝图。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区