📢 转载信息
原文链接:https://openai.com/index/notion
原文作者:OpenAI
2025年11月7日
在 2022 年底,Notion 在获得 GPT-4 访问权限的几周内,就已经推出了写作助手,并在整个工作区推出了问答功能,并将 OpenAI 模型深度集成到其搜索、内容和规划工具中。
但随着模型不断发展——用户开始要求智能体完成整个工作流——Notion 团队在其系统架构中看到了局限性。让模型执行隔离任务的旧模式限制了其平台能力的上限。智能体需要做出决策、编排工具并处理模糊性,而这种转变需要的不仅仅是提示词工程。
“感觉系统中注入了新的活力。AI 让更多人能够放飞更远大的梦想。”
Notion 联合创始人 Akshay Kothari
为推理模型重建,而不是围绕它们进行修补
Notion 没有修补其现有堆栈,而是对其进行了重建。他们用一个协调模块化子智能体的中央推理模型取代了特定任务的提示词链。这些智能体可以搜索 Notion、Slack 或网络;添加或编辑数据库;并使用任务所需的任何工具来综合响应。
随着 Notion 3.0 的发布,AI 不再仅仅嵌入到工作流中;它现在可以运行工作流了。用户分配一个广泛的任务——例如,汇编利益相关者的反馈——然后其智能体会进行规划、执行并报告结果。这种转向让智能体自主选择工作方式的转变,意味着从一开始就需要为模型自主性进行设计。
使用 GPT-5 测试真实的产品工作负载
为了验证架构的转变,Notion 使用实际的用户任务对 GPT-5 与其他最先进的模型进行了评估。
评估基于 Notion 已经标记为高优先级的反馈,包括在 Research Mode 中出现的问题、需要多步推理的长篇任务,以及模型判断至关重要的模糊或过时内容。
该团队结合使用了 LLM-as-judge(以语言模型为裁判)评分、结构化测试夹具和人工标记的反馈。
主要结果:
- 在与真实用户反馈一致的输出方面,比最先进的模型提高了 7.6%
- 在困难的 Research Mode 问题上,性能提高了 15%
- 在多步结构化任务(如截止日期更新和竞争对手研究)上,性能提高了 100% 以上
- 是唯一一个在存在冲突或过时输入时,仍能完全满足基准测试的模型
这些评估帮助 Notion 确定了 GPT-5 增加价值的地方——例如,在推理、模糊处理、研究方面——以及在哪里进行特定于环境的调整可以改善结果。
“我们没有挑挑拣拣任务。这些都是我们产品中高信号的工作流,”Sachs 说。“这正是模型差异真正显现的地方。”
为结果设计,而不仅仅是速度设计
有些任务需要快速响应;有些则不需要。通过试验 GPT-5 的不同推理级别,Notion 能够根据任务要求定制其智能体的智能水平,并在响应质量和延迟之间找到完美的平衡点。
Notion 设计的智能体根据工作内容运行几秒钟到几分钟不等。对于直接查找,会优先考虑短延迟。长达 20 分钟的智能体用于后台工作流,如总结内容或更新数据库。
对该团队来说,最重要的是用户能节省多少时间,而不是模型响应的速度有多快。这种理念指导着用户界面中编排和期望的设置方式。
使用 Notion 来构建 Notion AI
每个 Notion 团队都在使用 Notion AI。日常使用会产生结构化反馈和来自人工的直接注释,以在出现问题时进行干预。如果用户给某个结果点“踩”,它就会进入一个用于追踪级调试的流程。
但仅靠内部使用是不够的。该团队还与设计合作伙伴——拥有早期访问权限的技术客户——合作,以发现边缘案例并发现盲点。
这种由外而内的测试有助于塑造产品就绪性、调整编排行为,并验证 GPT-5 真正带来了怎样的改变。OpenAI 也使用 Notion 来协调项目和知识,Notion AI 嵌入到日常工作流程中,以加快审查速度并完成反馈闭环。这种相互使用创造了一种独特的动态:两个团队都使用对方的产品进行构建,提供了持续的反馈和对实际工作效果的可见性。
为使用 GPT-5 构建的团队提供的经验教训
Notion 的重建不仅仅是为了发布 Notion 3.0。它是为了设计一个能够支持新模型能力并随着模型变得更智能而不断适应的系统。他们的方法为其他在生产环境中部署智能体式 AI 的团队提供了一个清晰的路线图:
- 评估重要指标。 使用用户实际执行的任务,而不是合成基准测试。
- 测试难题。 当信息模糊、过时或需要多步操作时,GPT-5 才能大放异彩。
- 为自主性设计架构。 如果智能体正在做决策,你的系统必须为它们提供推理的空间和执行任务的工具。
- 清晰度驱动性能。 即使是顶级的模型,如果没有清晰的工具描述和良好的界面设计,也会表现不佳。
- 重建优于修补。 如果你的系统是为完成模型构建的,那么它可能无法扩展到智能体。
“我们已经看到了重建带来的回报,”Sachs 说。“如果下一代模型解锁了新的功能,我们将竭尽全力去支持它。”
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区