📢 转载信息
原文链接:https://openai.com/index/consensus
原文作者:OpenAI
每年有数百万篇新科学论文发表,远超个人所能阅读的极限。
对科研人员而言,挑战不在于获取知识,而在于寻找、解读和整合知识的艰巨任务。突破往往诞生于已知领域的边缘,而研究人员却将大量时间耗费在寻找边界之上,而非突破边界。
Consensus(在新窗口中打开) 这款拥有超 800 万用户的研究助手应运而生,旨在改变这一现状。该平台由 Christian Salem 和 Eric Olson 共同创建,能够检索、阅读并整合来自逾 2.2 亿篇经同行评审文献的内容。其最新功能 Scholar Agent 是基于 GPT‑5 和 Responses API 构建的多代理系统。该系统模拟研究人员的真实工作模式,帮助他们在数分钟内完成从提出问题到得出结论的全过程,将原本需要数周的工作大幅压缩。
但其目标不仅仅是加速研究进程,更在于加快科学发现之路。Salem 表示:“当科学更易于获取时,才能推动进步。我们的使命是让全球研究人员都能够发现、信任并运用证据。”
从搜索引擎到代理助手
Consensus 的初始版本如同科学领域的垂直搜索引擎:收录学术论文索引,检索相关结果,并生成带有引证依据的摘要。但仅有搜索功能还远远不够。
Salem 指出:“研究不仅仅是查找文献,还包括解读数据、对比发现、建立观点关联。科研人员花在搜索、阅读和解读过往知识以开展合适研究的时间越多,他们真正用于发现和开展原创研究的时间就越少。”
因此,团队开始围绕新理念重构 Consensus:打造名为 Scholar Agent 的多代理系统,其工作方式完全模拟人类研究员。
该系统基于 GPT‑5 和 Responses API 构建,现可协调运行多个代理工作流程:
- Planning Agent:可解析用户问题并决定后续执行步骤
- Search Agent:可梳理 Consensus 论文索引、用户私有文献库及引文图谱
- Reading Agent:可对单篇或批量论文进行智能解读
- Analysis Agent:可综合研究结果,确定框架与可视化方案,并生成最终结论
每个代理仅承担有限职责,这种设计既能保持推理精准度,又能最大程度减少幻觉现象。该架构还赋予 Consensus 自主判断何时不予回复的能力:如果没有相关研究达到其质量阈值,助手会直接告知。
Salem 表示:“通过将工作流程分配至不同代理,我们既降低了错误率,又让系统变得更为规范。单个代理无需承担过多责任,这被证实是确保可靠性的关键所在。”

这种方法被团队称为“背景信息工程”,其核心在于生成回复之前先收集合理证据。每个回复都配有“背景信息包”,这是一个结构化资料集,包含原始研究的论文、元数据及关键发现。
Salem 说道:“我们不希望研究人员把时间耗费在反复核实每个论断上。如果系统无法用真实证据支撑结论,它绝不会凭空捏造。”
使用 Responses API 构建应用
Consensus 从 Chat Completions 接口迁移至 Responses API,以支持其多代理路由架构。这一转变既提升了系统可靠性又优化了成本效益,使团队能更精细地控制子代理调用。凭借 GPT‑5 的长背景信息推理能力和可靠的工具调用功能,这一选择显得顺理成章。
初期评估验证了这一决策的正确性:GPT‑5 在工具调用准确性和规划稳定性方面均优于 GPT‑4.1、Sonnet 4 及 Gemini 2.5 Pro。这使得 Consensus 团队能够减少对提示词技巧的关注,转而专注于构建直接映射研究流程的代理行为。

学术界的破局者
自创建之初,Consensus 便以出乎意料的方式进入市场。团队没有通过机构进行营销,而是直接聚焦真正有研究需求的人群:需要即时答案的学生、教师和临床医生。这种直达研究人员的定位塑造了产品设计理念并推动了快速增长。
Salem 表示:“人人都说直接面向消费者这一模式在学术界行不通,但 AI 改变了这一切。人们不再等待层层审批,而是直接采用行之有效的方法。”
这一决策塑造了产品基调与增长曲线。Consensus 不像传统学术工具,反而更像现代消费级应用:快速上手、直观设计、对话式界面。它通过校园和实验室的口碑传播迅速普及。
研究生和博士生成为首批核心用户,随后是教师和私营机构研究人员。接着临床医生也开始使用 Consensus,以获取其领域的最新证据。
Salem 坦言:“我们最初并非将医生作为目标群体,但他们与研究人员有着相同的需求:快速获取可靠证据。”
该公司近期已与 Mayo Clinic 的医学图书馆达成合作,并刚刚推出专为临床证据检索设计的“医学模式”新功能。
与科学同步扩展
过去一年间,Consensus 实现迅猛扩张,全球研究人员用户突破 800 万,营收增长达八倍。
这种增长并未改变产品的核心追求,所有功能仍围绕可验证、低幻觉的回复展开。团队重资投入评估流程,用于检测各代理之间的准确性、引文可追溯性及风格一致性。
Consensus 的架构有意采用模块化设计,只为在扩展或升级模型时,能够接入可复现实验、生成图表或运行统计分析的新代理。
Salem 表示:“我们正在打造研究人员在快节奏时代真正需要的助手。模型不断改进,系统也随之发展,科学探索的步伐也因此加速。”
评论区