目 录CONTENT

文章目录

Consensus 使用 GPT-5 和 Responses API 在几分钟内完成数周的研究

Administrator
2025-10-24 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://openai.com/index/consensus

原文作者:OpenAI


2025年10月23日

每年都有数百万篇新的科学论文发表——其数量远超任何个人能够阅读的范围。 

对于科学家而言,挑战不在于知识的获取,而在于查找、解释和连接这些知识的庞大任务。突破往往发生在已知知识的边缘,但研究人员却将大部分时间花在了寻找这些边缘上,而不是推动它们向前发展。

Consensus⁠,一个被超过800万人使用的研究助手,其创立的宗旨就是改变这一现状。该平台由Christian Salem和Eric Olson创立,可以搜索、阅读和综合超过2.2亿篇同行评审文献的内容。其最新的功能“学者代理”(Scholar Agent)是一个基于GPT‑5和Responses API构建的多代理系统。它模仿了人类研究人员的工作方式,帮助他们在几分钟而非几周内就能从问题得出结论。

但目标不仅仅是加速研究——而是加速发现的路径。Salem表示:“科学的进步在于它更具可及性。我们的工作是赋予全球研究人员查找、信任和利用证据的能力。”

从搜索引擎到代理式助手

Consensus的第一版功能类似于科学领域的垂直搜索引擎:它对学术论文进行索引,检索相关结果,并生成以引文为依据的摘要。但仅靠搜索是不够的。 

Salem说:“研究不仅仅是查找论文。它还包括解释结果、比较发现和连接想法。科学家们花在搜索、阅读和解释过去知识以找到正确研究上的时间越多,他们用于发现和进行真正研究的时间就越少。”

因此,团队开始围绕一个新概念重新构建Consensus:一个名为“学者代理”的多代理系统,它的工作方式类似于人类研究人员。

该系统基于GPT‑5和Responses API构建,现在运行着一个协调一致的代理工作流程:

  • 规划代理 (Planning Agent) 拆解用户的问题并决定下一步要采取哪些行动
  • 搜索代理 (Search Agent) 梳理Consensus的论文索引、用户的私有库和引文图谱
  • 阅读代理 (Reading Agent) 独立或分批次地解释论文
  • 分析代理 (Analysis Agent) 综合结果,确定结构和可视化,并撰写最终输出

每个代理都有一个明确的范围,这有助于保持推理的精确性并最大限度地减少幻觉。该架构还允许Consensus决定何时 回答;如果没有任何相关研究达到其质量门槛,助手会直接告知用户。

Salem说:“通过将工作流程划分为不同的代理,我们减少了错误,并使系统更加严谨。没有一个代理承担过多的责任,这被证明是可靠性的关键。”

Agent flow diagram showing how a user query is processed through planning, parallel search, reading, and analysis agents to generate a research-based output.

团队称这种方法为 上下文工程 (context engineering):在生成之前组装正确的证据。每一个答案都附带一个“研究上下文包”(research context pack)——一个结构化的论文、元数据和关键发现的捆绑包,所有内容都可以追溯到原始研究。

Salem说:“我们不希望研究人员浪费时间去核实每一个说法。如果系统无法以真实证据为基础来回答问题,它就不会凭空捏造一个。”

使用 Responses API 构建

Consensus从“聊天补全”(Chat Completions)迁移到了 Responses API,以支持其多代理路由功能。这次转换同时提高了可靠性和成本效益,让团队能够更精细地控制子代理的调用。结合GPT‑5的长上下文推理能力和可靠的工具调用功能,这是一个明确的选择。

早期评估证实了这一决定:在工具调用准确性和规划稳定性方面,GPT‑5的表现优于GPT‑4.1、Sonnet 4和Gemini 2.5 Pro。这使得Consensus团队可以减少在提示词技巧上花费的精力,而将更多精力放在构建直接映射到研究工作流程的代理行为上。

Table comparing GPT-5 Research Agent metrics for OAI, Anthropic, and Google models across accuracy, precision, structure, and latency.

在一个机构主导的世界中,押注于消费者市场

从一开始,Consensus在进入市场的方式上就与预期不同。该团队没有通过机构销售,而是专注于那些需要立即获得答案的研究人员本身:学生、教职员工和临床医生。这种直接面向研究人员的重点塑造了产品的设计及其快速增长。

Salem说:“所有人都说你不能在学术界做直面消费者(D2C)的业务,但AI改变了这一点。人们不再等待批准——他们会使用有效的东西。”

这个决定影响了产品的基调和增长曲线。Consensus给人的感觉更像是一个现代消费应用,而不是传统的学术工具:快速上手、直观的设计、对话式的界面。采用率在校园和实验室中通过口碑传播开来。

研究生和博士候选人成为第一批重度用户,随后是教职员工和私营研究人员。然后是临床医生,他们开始使用Consensus来获取其领域内最新的证据。

Salem说:“我们最初的目的不是为医生构建工具。但他们需要和研究人员一样的东西:快速获取可靠证据的途径。”

该公司最近与梅奥诊所(Mayo Clinic)的医学图书馆签约,并刚刚推出了“医疗模式”(Medical Mode),这是一项专为查找临床证据的从业者设计的新功能。

与科学同步扩展

在过去的一年里,Consensus迅速扩张,全球研究人员用户超过800万,收入增长了8倍。

这种增长并未改变产品的核心优先级。每一项功能仍然围绕着可验证、低幻觉的答案。该团队在评估流程方面投入了大量资源,以测试代理在准确性、引文可追溯性和风格一致性方面的表现。

Consensus的架构是故意模块化的,旨在随着模型的扩展和改进,可以轻松插入新的代理——这些代理可以复制实验、生成图表或运行统计分析。

Salem总结道:“我们正在为研究人员在一个快速变化的世界中真正需要的助手奠定基础。模型在不断进步,系统随之成长,科学也在加速前进。”

OpenAI <3 初创公司。来和我们一起构建吧。

继续阅读

查看全部



🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区