📢 转载信息
原文链接:https://openai.com/index/consensus
原文作者:OpenAI
每年,都有数百万篇新的科学论文发表——其数量远超任何一个人可以阅读的范围。
对于科学家来说,挑战不在于知识的获取,而在于寻找、解释和连接这些知识的压倒性任务。突破发生在已知知识的边缘,但研究人员却把大部分时间花在了寻找这些边缘上,而不是突破它们。
Consensus(在新窗口中打开),一个被超过 800 万人使用的研究助手,旨在改变这一现状。该公司由 Christian Salem 和 Eric Olson 创立,其平台可以搜索、阅读和综合跨越超过 2.2 亿篇同行评审文献的内容。其最新的功能 Scholar Agent(学者智能体)是一个基于 GPT‑5 和 Responses API 构建的多智能体系统。它模仿了研究人员的实际工作方式,帮助他们在几分钟而不是几周内从问题得出结论。
但目标不仅仅是更快的研究——而是更快的发现之路。Salem 表示:“科学的进步在于其可及性更高。我们的工作是让世界各地的研究人员都能够找到、信任并根据证据采取行动。”
从搜索引擎到智能体式助手
第一版 Consensus 就像一个科学领域的垂直搜索引擎:它索引学术论文,检索相关结果,并生成以引用为依据的摘要。但仅靠搜索是不够的。
Salem 说:“研究不仅仅是找到论文。它还包括解释结果、比较发现和连接思想。科学家花在搜索、阅读和解释过去知识以找到正确研究上的时间越多,他们用于发现和进行真正研究的时间就越少。”
因此,团队开始围绕一个新概念重新构建 Consensus:一个名为“学者智能体”(Scholar Agent)的多智能体系统,其工作方式类似于人类研究人员。
该系统基于 GPT‑5 和 Responses API 构建,现在运行着一个由智能体协调的工作流程:
- 规划智能体 (Planning Agent):分解用户的问题并决定下一步要采取哪些行动
- 搜索智能体 (Search Agent):梳理 Consensus 的论文索引、用户的私有库以及引文图谱
- 阅读智能体 (Reading Agent):单独或批量解释论文
- 分析智能体 (Analysis Agent):综合结果、确定结构和视觉效果,并撰述最终输出
每个智能体的范围都很窄,这使得推理保持精确并最大程度地减少了幻觉。该架构还允许 Consensus 决定何时 不 回答;如果没有任何相关研究达到其质量阈值,助手会直接说明情况。
Salem 表示:“通过将工作流程划分给不同的智能体,我们减少了错误,并使系统更加有条理。没有哪个智能体承担了过多的责任,事实证明这对可靠性至关重要。”

团队称这种方法为 上下文工程 (context engineering):在生成开始之前组装正确的证据。每个答案都附带一个“研究上下文包”——一个结构化的文件包,其中包含可追溯到原始研究的论文、元数据和关键发现。
Salem 说:“我们不希望研究人员浪费时间去反复核实每一个声明。如果系统无法根据真实证据来证明答案,它就不会凭空捏造。”
使用 Responses API 构建
Consensus 从 Chat Completions 迁移到了 Responses API,以支持其多智能体路由。这次切换同时提高了可靠性和成本效益,让团队对子智能体调用拥有了更精细的控制。有了 GPT‑5 的长上下文推理能力和可靠的工具调用能力,选择是明确的。
初步评估证实了这一选择:在工具调用准确性和规划稳定性方面,GPT‑5 的表现优于 GPT‑4.1、Sonnet 4 和 Gemini 2.5 Pro。这使得 Consensus 团队可以将更少的精力花在提示工程上,而将更多的精力花在构建直接映射到研究工作流程的智能体行为上。

机构世界中的消费者押注
从一开始,Consensus 就采取了与预期不同的市场策略。该团队没有通过机构销售,而是专注于那些当下就需要答案的研究人员本身:学生、教职员工和临床医生。这种直接面向研究人员的重点塑造了产品的设计和快速增长。
Salem 说:“所有人都说学术界不能做直接面向消费者(D2C),但人工智能改变了这一点。人们不再等待批准——他们会使用有效的东西。”
这一决定影响了产品的语调和增长曲线。Consensus 更像一个现代消费者应用程序,而不是一个传统的学术工具:快速上手、直观的设计、对话式界面。采用通过校园和实验室的口碑传播开来。
研究生和博士候选人成为第一批重度用户,随后是教职员工和私人研究人员。接着是临床医生,他们开始使用 Consensus 来获取其领域内最新证据。
Salem 说:“我们最初的目标不是为医生构建产品。但他们需要与研究人员相同的东西:快速获取可靠的证据。”
该公司最近与梅奥诊所的医学图书馆签约,并刚刚推出了“医疗模式”(Medical Mode),这是一项专为寻求临床证据的从业人员设计的新功能。
与科学同步扩展
在过去的一年里,Consensus 迅速扩张,全球研究用户超过 800 万,收入增长了 8 倍。
这种增长并未改变产品的优先事项。每项功能仍然围绕着可验证、低幻觉的答案。该团队在评估流程上投入了大量资金,以测试智能体在准确性、引用可追溯性和风格一致性方面的表现。
Consensus 的架构有意设计成模块化的,以便随着模型的扩展和改进,可以插入新的智能体——例如,可以复制实验、生成图表或运行统计分析的智能体。
Salem 总结道:“我们正在快速变化的世界中构建研究人员真正需要的助手。模型不断改进,系统随之成长,科学发展得更快了。”
OpenAI <3 初创公司。来与我们一起构建。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区