Databricks 将 GPT-5.5 引入企业智能体工作流-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://openai.com/index/databricks

原文作者：OpenAI

Databricks 宣布将 GPT-5.5 模型应用于客户智能体（Agent）工作流。该模型在 OfficeQA Pro 测试中创下了新的行业标杆，这是该公司专门针对复杂企业文档任务所设立的基准测试。

OfficeQA Pro 主要评估模型在处理扫描 PDF、遗留文件及长上下文文档等场景下的解析、检索和逻辑推理能力——这些环节往往是生产级智能体系统的“痛点”。

在智能体测试环境下，GPT-5.5 的错误率相比 GPT-5.4 降低了 46%，并成为首个在 OfficeQA Pro 基准测试中准确率超过 50% 的模型。

“搭载 5.5 版本的 Codex 目前在所有智能体和模型中处于最前沿水平。” —— Arnav Singhvi，研究工程师

在 OfficeQA Pro 上实现 SOTA 性能

OfficeQA Pro 涵盖了大量扫描件或遗留企业文档。在解析过程中，哪怕是细小的提取错误都可能在后续流程中引发连锁反应。Singhvi 解释道：“一旦你无法准确提取出某个数字，这就会改变智能体后续工作的整个走向。”

Databricks 在这些对解析要求极高的工作流中从 GPT-5.5 身上获得了最显著的收益。Singhvi 表示：“像 5.4 这样的早期模型无法完全正确地解析所有数字，但 5.5 版本在解析旧文档和扫描件方面有着质的飞跃。”

此外，该团队还观察到模型在处理多步骤任务的编排能力上有所提升。Singhvi 提到：“我们在 5.4 版本中发现，模型有时会进行不必要的搜索尝试，导致路径极其低效，而 5.5 版本表现更好。”

相比早期模型，GPT-5.5 在检索相关上下文和在无需额外人工干预的情况下完成复杂工作流方面表现得更加可靠。

目前，Databricks 已通过 AI Unity Gateway 提供 GPT-5.5。客户可以在基于 AgentBricks 和 Agent Supervisor API 构建的工作流中使用该模型。在这些系统中，GPT-5.5 负责编排跨专业智能体的解析、检索和执行任务。

“我们预计会有大量客户使用 AgentBricks 和 Agent Supervisor API 来定制化智能体工作流，”Singhvi 说道，“由 GPT-5.5 来监督这些工作流令人非常兴奋。”

“GPT-5.5 在知识提升方面非常出色。它在处理知识密集型工作方面带来了质的飞跃。” —— Arnav Singhvi，研究工程师

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。