目 录CONTENT

文章目录

Notion 重建其智能体系统以实现自主工作流:GPT-5 如何发挥关键作用

Administrator
2025-11-08 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://openai.com/index/notion

原文作者:OpenAI


早在 2022 年底,在获得 GPT‑4 访问权后的几周内,Notion 就已经推出了写作助手,面向全工作区推出了问答功能,并将 OpenAI 模型深度集成到其搜索、内容和规划工具中。


但随着模型的进步——以及用户开始要求智能体完成整个工作流——Notion 团队看到了其系统架构的局限性。过去那种提示模型执行孤立任务的模式,限制了其平台能力的上限。智能体需要做出决策、协调工具并解决模糊性问题,而这种转变需要的不仅仅是提示工程。


“感觉系统中注入了新的活力。AI 让更多人能够放飞更远大的梦想。”
Notion 联合创始人 Akshay Kothari

为推理模型重建,而非围绕它们进行修补

Notion 没有修补他们现有的技术栈,而是进行了重建。他们用一个协调模块化子智能体的中央推理模型,取代了特定任务的提示链。这些子智能体可以搜索 Notion、Slack 或网络;向数据库添加或编辑内容;并使用任务所需的任何工具来综合响应。


随着他们推出 Notion 3.0⁠(在新窗口中打开),AI 不仅仅是嵌入到工作流中;它现在可以运行工作流了。用户分配一个广泛的任务——例如,汇总利益相关者的反馈——然后他们的智能体会进行规划、执行并报告结果。向选择工作方式的智能体转变,意味着从一开始就必须为模型的自主性进行设计。


A group of nine people sit and smile around a conference table in a bright office meeting room, some holding laptops and making peace signs. A large screen on the right shows a video call with three remote participants. Everyone looks relaxed and happy, suggesting a collaborative hybrid team meeting.

使用 GPT‑5 针对真实产品工作负载进行测试

为了验证架构的转变,Notion 使用实际的用户任务,针对最先进的模型评估了 GPT‑5。


评估以 Notion 已经标记为高优先级的反馈为基础,包括在研究模式(Research Mode)中出现的问题、需要多步骤推理的长篇任务,以及模型判断很重要的模糊或过时内容。


该团队结合使用了 LLM 评分(LLM-as-judge)、结构化测试夹具和人工标记的反馈。


关键结果如下:


  • 与真实用户反馈一致的输出结果比现有最先进模型提升了 7.6%
  • 在困难的研究模式问题上性能提升了 15%
  • 在多步骤、结构化任务(如截止日期更新和竞争对手研究)上提升了 100% 以上
  • 唯一一个在输入存在冲突或过时信息的情况下仍能完全达到基准的模型

这些评估帮助 Notion 确定了 GPT‑5 增加价值的领域——例如,在推理、模糊处理、研究方面——以及哪些方面需要针对特定环境进行调整以提高结果。


Sachs 说:“我们没有挑拣任务。这些是我们产品中具有高信号的工作流。这才是模型差异真正显现的地方。”


为结果而设计,而不仅仅是速度

有些任务需要快速响应;有些则不需要。通过试验 GPT‑5 的不同推理级别,Notion 能够根据任务要求,定制其智能体的智能水平,并在响应质量和延迟之间找到完美的平衡。


Notion 设计的智能体运行时间根据工作量的不同,从几秒到几分钟不等。对于直接查找任务,会优先考虑短延迟。长达 20 分钟的智能体用于后台工作流,例如总结内容或更新数据库。


对该团队来说,最重要的是用户能节省多少时间,而不是模型响应的速度有多快。这一理念驱动着其在用户界面中设置协调和期望的方式。


使用 Notion 来构建 Notion AI

每个 Notion 团队都在使用 Notion AI。日常使用会产生结构化的反馈,如果出现问题,用户会直接进行注释。如果用户给某个结果点“不赞成”(thumbs down),它就会进入一个进行追踪级调试的流程。


但仅靠内部使用是不够的。该团队还与设计合作伙伴——拥有早期智能体功能访问权限的技术客户——合作,以发掘边缘案例并发现盲点。


这种由外而内的测试有助于塑造产品的就绪状态,调整协调行为,并验证 GPT‑5 确实在哪里带来了显著的改进。OpenAI 也使用 Notion 来协调项目和知识,Notion AI 被嵌入到日常工作流中,以加快审核速度并闭合反馈循环。这种相互使用创造了一种独特的动态:两支团队都使用对方的产品进行构建,从而不断提供反馈并了解工作在实践中的表现。


为使用 GPT‑5 的团队提供的经验教训

Notion 的重建不仅仅是为了推出 Notion 3.0。它是为了设计一个能够支持新的模型能力,并在模型变得更聪明时能够适应的系统。他们的方法为其他在生产环境中部署智能体 AI 的团队提供了一个清晰的路线图:


  • 评估重要的内容。 使用用户实际执行的任务,而不是合成的基准测试。
  • 测试困难的部分。 当信息模糊、过时或涉及多步骤时,GPT‑5 表现出色。
  • 为自主性构建架构。 如果智能体正在做决策,你的系统必须为它们提供推理的空间和行动的工具。
  • 清晰度驱动性能。 即使是顶级的模型,如果没有干净的工具描述和良好的界面设计也会表现不佳。
  • 重建优于打补丁。 如果你的系统是为完成模型构建的,那么它可能无法扩展到智能体。

Sachs 说:“我们已经看到了重建带来的回报。如果下一代模型能解锁新的功能,我们会不惜一切代价去支持它。”





🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区