目 录CONTENT

文章目录

使用检索增强型语言模型合成科学文献

Administrator
2026-02-05 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://www.nature.com/articles/s41586-025-10072-4

原文作者:Akari Asai 等


摘要

科学进步有赖于研究人员综合日益增长的文献的能力。大型语言模型(LLM)能否在这项任务中协助科学家?在此,我们介绍 OpenScholar,一个专门的检索增强型语言模型(LM)1,它通过识别 4500 万篇开放获取论文中的相关段落并合成带有引文支持的回复来回答科学查询。为了评估 OpenScholar,我们开发了 ScholarQABench,这是第一个用于文献检索的大规模多领域基准,包含了计算机科学、物理学、神经科学和生物医学中 2,967 个专家编写的查询和 208 个长篇回答。尽管 OpenScholar-8B 是一个较小的开源模型,但在具有挑战性的多篇论文综合任务上,其在正确性方面比 GPT-4o 高出 6.1%,比 PaperQA2 高出 5.5%。尽管 GPT-4o 有 78–90% 的时间会产生虚假引文,但 OpenScholar 的引文准确率与人类专家不相上下。OpenScholar 的数据存储、检索器和自反馈推理循环改进了现成的 LM:例如,OpenScholar-GPT-4o 将 GPT-4o 的正确性提高了 12%。在人类评估中,专家更倾向于选择 OpenScholar-8B 和 OpenScholar-GPT-4o 的回复而不是专家撰写的回复,其选择率分别为 51% 和 70%,而 GPT-4o 的选择率为 32%。我们开源了所有产物,包括我们的代码、模型、数据存储、数据集以及一个公共演示。

正文

从科学文献中综合知识对于发现新方向、完善方法论和支持循证决策至关重要,然而出版物的快速增长使得研究人员越来越难以随时了解最新情况。有效的综合需要精确的检索、准确的归因以及对最新文献的访问。LLM 可以提供帮助,但它们存在“幻觉”2,3、预训练数据过时4和归因有限等问题。

在我们的实验中,GPT-4o 在被要求引用计算机科学和生物医学等领域的最新文献时,在 78%–90% 的情况下编造了引文。

检索增强型 LM5,6,7 通过在推理时整合外部知识来缓解其中一些问题,并已促进了文献检索和综合系统8,9,10 的发展。然而,大多数系统依赖于黑箱应用程序编程接口(API)或通用 LM,并且缺乏为科学领域量身定制的开放、特定领域的检索数据存储(具有检索索引的已处理语料库)。文献综合的评估也有限,通常侧重于狭窄的、单学科研究8,9 或简化任务,例如多项选择题问答10

为解决准确、全面和透明的科学文献综合的挑战,我们引入了 OpenScholar(图 1,顶部),据我们所知,这是第一个专为科学研究任务设计的完全开放的检索增强型 LM。OpenScholar 集成了一个领域专业化数据存储(OpenScholar DataStore, OSDS)、自适应检索模块和一个新的自反馈指导生成机制,该机制能够对长篇输出来进行迭代改进。OSDS 是一个完全开放、最新的包含 4500 万篇科学论文和 2.36 亿个段落嵌入的语料库,为训练和推理提供了可复现的基础。OpenScholar 使用训练好的检索器和重排序器从 OSDS 中检索,生成带有引文的回复,并通过自反馈循环对其进行迭代改进,以提高事实性、覆盖面和引文准确性。我们使用相同的流程来生成高质量的合成数据,从而能够在不依赖专有 LM 的情况下训练一个紧凑的 8B 模型(OpenScholar-8B)和检索器。

图 1:OpenScholar、ScholarQABench 和评估结果概述。
figure 1

顶部是 OpenScholar 的概述。OpenScholar 由专业化的数据存储(OSDS)、检索器和 LM 组成,并通过带有检索的自反馈进行迭代改进回复。中间是 ScholarQABench 的概述。ScholarQABench 包含多个科学学科的 2,200 个专家编写的问题,我们为 ScholarQABench 引入了自动和人工评估协议。底部是自动和人工评估结果:ScholarQABench 计算机科学子集(Scholar-CS,100 个问题)的实验结果表明,使用我们训练好的 8B 模型或 GPT-4o 的 OpenScholar 在自动评估中大幅优于其他系统,并且在人工评估中超过 50% 的时间受到专家的青睐。我们的专家评估由 16 名拥有博士学位的专家对 Scholar-Multi 的 108 个问题进行。

为了评估 OpenScholar,我们引入了 ScholarQABench(图 1,中间),据我们所知,这是第一个用于开放式科学综合的多学科基准。与以往侧重于短期输出、多项选择格式或领域推理任务的基准不同10,11,12,ScholarQABench 要求基于最新文献提供长篇回复,涉及多篇论文。它包含跨计算机科学、物理学、生物医学和神经科学的 3,000 个研究问题和 250 个专家撰写的答案,由经验丰富的博士生和博士后撰写,以反映现实世界的文献综述实践。为克服评估长篇、全面回复的困难13,14,15,16,ScholarQABench 引入了一个严格的评估协议,将自动指标(例如,引文准确性)与基于人工评分标准的评估(评估覆盖面、连贯性、写作质量和事实正确性)相结合,以便对 LM 的详细长篇回复进行可靠评估。我们的专家分析表明,所提出的多方面评估流程与专家判断高度一致,能够可靠地捕捉长篇科学回复中的覆盖面、连贯性、写作质量和事实正确性。

我们根据 ScholarQABench 评估了专有和开源模型(例如,GPT-4o、Llama 3.1 8B 和 70B),包括有无检索能力的情况,以及 PaperQA2(参考文献 10)等专业系统。尽管 GPT-4o 表现出强大的通用性能,但在引文准确性和覆盖面方面存在不足,经常产生不准确或不存在的引文。

OpenScholar 在仅使用 LM 和检索增强型流程方面均超越了专有和开源系统。值得注意的是,使用完全开源的检查点,OpenScholar-8B 在正确性方面超过了基于专有 LM 构建的 PaperQA2 和 Perplexity Pro 等生产系统,分别提高了 6% 和 10%。此外,OpenScholar 使用高效的检索器,大大降低了成本。OpenScholar 流程还可以增强现成的 LM。例如,当使用 GPT-4o 作为底层模型时,OpenScholar-GPT-4o 在正确性方面比单独使用 GPT-4o 提高了 12%。此外,尽管专家的人工性能超过了 GPT-4o 和其他有竞争力的基线,但在答案正确性和引文准确性方面,OpenScholar 系统与人类专家相当或超越了他们。我们广泛的评估证明了 OpenScholar 核心组件(包括重排序、自反馈和验证)的重要性,以及结合多样化检索流程和训练领域专业化检索系统的价值。

除了对 ScholarQABench 进行自动评估外,我们还与 16 位来自计算机科学、物理学和生物医学等领域的科学家进行了详细的专家评估。这些专家对 OpenScholar 在 ScholarQABench 中 108 个文献综合查询的回复与专家撰写的回复进行了成对和细粒度的评估。OpenScholar 与 GPT-4o 结合以及使用我们训练的 8B 模型时,其结果持续优于专家撰写的回复,获胜率分别为 70% 和 51%。相比之下,纯粹的 GPT-4o(即没有检索功能)在信息覆盖面方面表现不佳,被认为不如人类专家有帮助,对人类回复的获胜率仅为 31%。总的来说,这些发现表明 OpenScholar 可以产生高质量的输出,这些输出不仅与专家撰写的答案相当,在某些情况下甚至更优,尤其是在覆盖面和组织方面。我们还发布了第一个由 OpenScholar-8B 驱动的科学文献综合公共演示。自发布以来,该演示已被 30,000 多名用户使用,并收集了跨不同科学领域的近 90,000 个用户查询。

OpenScholar 在 ScholarQABench 上的性能

我们首先概述了 OpenScholar 在我们新创建的专家注释基准 ScholarQABench 上的关键结果。表 1 显示了主要基线的几个方面的得分。

表 1 ScholarQABench 的结果

基线模型

我们比较了三种设置。(1)参数化 LM(无检索):Llama 3.1 8B/70B(参考文献 17)和 GPT-4o(gpt-4o-2024-05-13(参考文献 18))生成答案和论文标题列表。我们验证这些标题是否存在,如果存在,则获取其摘要作为引文。(2)检索增强生成(RAG)基线:使用我们的 OSDS(RAGOSDS),我们检索前 N 个段落并将它们与输入串联起来,遵循标准的 RAG 流程2,18。(3)我们的方法(OpenScholar):一个定制的推理流程,使用训练好的 8B 模型(OpenScholar-8B)以及 Llama 3.1 70B 和 GPT-4o 作为后端生成器 LM(OpenScholar-70B, OpenScholar-GPT-4o)。对于多篇论文任务,我们还测试了 Perplexity Pro。我们使用付费订阅版本;由于没有 API,我们通过 selenium 收集最终预测,无法提取引文,以及 PaperQA2(参考文献 10)。由于 PaperQA2 的数据存储未公开,我们使用 OSDS 作为其检索源。

主要结果

在单篇论文任务上,OpenScholar 一致地优于其他模型。在最终准确性和引文准确性方面,OpenScholar-8B 和 OpenScholar-70B 优于 Llama 3.1 8B 和 70B(有或没有检索增强)(表 1)。OpenScholar-70B 甚至在 PubMedQA 和 QASA 上与 GPT-4o 相当或超越了它。我们还发现,与标准 RAG 基线(RAGOSDS)相比,OpenScholar 模型在引文准确性方面始终显示出实质性改进。

在多篇论文任务中,我们报告 Scholar-CS 评分标准得分——模型回复满足的专家注释回复评分标准的数量(参见方法了解评分详情)——作为我们的主要正确性衡量指标。我们还使用 LLM 裁判(“LLM”)评估 Scholar-Multi 的总体写作质量,并跟踪所有数据集的引文准确性。OpenScholar-8B、OpenScholar-70B 和 OpenScholar-GPT-4o 使用 OpenScholar 流程以及我们微调的基于 Llama 3.1 8B 的 LM 和现成的 Llama 3.1 70B 和 GPT-4o 作为生成器 LM,分别表现出强劲性能。具体来说,OpenScholar-GPT-4o 在 Scholar-CS 评分标准得分上比单独使用 GPT-4o 提高了 12.7 分,比标准 RAG 提高了 5.3 分。当与训练好的 OpenScholar-8B 结合使用时,OpenScholar 在使用现成 Llama 3.1 8B 的流程方面取得了巨大进步,展示了领域特定训练的好处。此外,OpenScholar-8B 在评分标准表现上比使用 GPT-4o 模型进行段落重排序、总结和答案生成的专有系统(如 GPT-4o、Perplexity Pro 或 PaperQA2)具有明显优势。虽然我们发现 PaperQA2 在引文准确性方面与 OpenScholar 相当甚至超越,但其回复通常仅依赖于一两篇论文,单独总结每个检索到的片段。这导致覆盖面有限,并导致其在 Scholar-CS 评分标准和 LLM 裁判得分上表现较低。这些发现凸显了在有效文献综合中平衡精确性和召回率的重要性。值得注意的是,通过利用带有轻量级双编码器、交叉编码器和内部模型的有效检索流程,OpenScholar-8B 和 OpenScholar-GPT-4o 的成本要低得多——比 PaperQA2 便宜几个数量级——同时保持高性能。

参数化 LM 的局限性

在单篇论文和多篇论文任务上,我们观察到未经检索增强的基线模型表现不佳——检索几乎总是有助于提高性能——并且没有使用任何检索的模型通常难以生成正确的引文,并且在多篇论文任务上的覆盖面有限。表 2 报告了四种模型输出中引文论文的统计数据。我们通过使用 Semantic Scholar API 验证引文标题是否存在来报告完全捏造的引文数量(“幻觉引用数”)。在所有模型中,实际存在的被引用论文的比例非常低:尽管参考列表看起来合理,但 78–98% 的标题是捏造的,其中生物医学领域的比例最高。这与以往的发现一致,即 LLM 在长尾、代表性不足的知识上产生幻觉2,19,我们认为这种影响在开放网络上覆盖不足的科学领域中被放大了。对 2025 年 8 月发布的 GPT-5 重复此分析,将标题级别的幻觉降低到 39%,但捏造的引文仍然很常见。模型回复的示例,以及论文标题列表,可在补充表 19 和 20 中找到。我们还注意到,即使引文指的是真实论文,其中大部分也不被相应摘要证实,导致引文准确率接近于零。

表 2 计算机科学和生物医学领域的幻觉论文统计

我们还观察到这些模型生成的回复覆盖面有限。在 Scholar-Multi 上,无检索模型(Llama 3.1 8B、70B 和 GPT-4o)的平均得分始终远低于检索增强模型。这种差异主要由覆盖面得分的大幅降低驱动;例如,Llama 3.1 8B 的覆盖面得分为 3.45,而 Llama 3.1 8B + OSDS(标准 RAG 基线)将覆盖面得分提高到 4.01。这些结果表明,仅依赖模型的参数化知识在科学领域非常困难,尤其对于较小的 LM 而言。

人类在 ScholarQABench 上的表现

我们还分析了人类专家在此项具有挑战性的文献综合任务上的表现。具体来说,我们评估了人类撰写的答案在 ScholarQABench 的两个具有长篇人工注释的子集:Scholar-CS 和 Scholar-Multi 上的表现。对于两者,我们应用了与模型生成回复相同的评估流程,以评估评分标准和引文准确性。对于 Scholar-Multi,评分标准评估不可用,但我们对人类和模型回复进行了专家评估,并在下一节中比较了结果。表 3 将人类性能与 OpenScholar-GPT-4o、OpenScholar-8B、PaperQA2 和 GPT-4o(无检索)进行了比较。我们的分析表明,人类撰写的答案在质量和相关性方面仍然是强有力的基线。在基于评分标准的评估中,人类回复比没有检索的 GPT-4o 高出 9.6 分,比 OpenScholar-8B 高出 2.9 分。PaperQA2 显示出很高的引文准确性,但其在评分标准、组织、覆盖面和相关性方面的得分较低。相比之下,OpenScholar-GPT-4o 实现了比人类专家更高的评分标准得分,而 OpenScholar-8B 在引文准确性方面与专家水平相当。我们发现 OpenScholar 倾向于产生比人类或其他基线系统更全面的回复,引用了更多的论文,这反映在答案长度和引文数量上。在补充信息第 6 节中,我们对模型撰写和人类撰写的答案进行了详细的人工分析,并进一步探讨了改进科学文献综合的关键因素。

表 3 专家撰写的答案统计

消融实验和分析

推理组件的消融

我们通过移除以下组件来进行推理组件的消融实验:(1)重排序(仅使用前 N 个 OSDS 结果);(2)反馈(生成一次后进行归因);(3)引文验证(省略最终检查)。对于 OpenScholar-8B,我们还通过用现成的 Llama 3.1 8B 替换(如 OpenScholar-GPT-4o 中所示)来消融训练。扩展数据表 2 显示,所有移除操作都导致正确性和引文准确性出现明显下降,其中移除重排序的损失最大。移除反馈对 GPT-4o 的影响比对我们训练的 8B 模型更大(可能是因为后者在训练期间学习了反馈模式),而跳过事后归因会降低引文准确性和最终正确性。训练有素的 OpenScholar-8B 与普通 OpenScholar-8B 之间的差距突显了领域特定训练的价值。

检索的消融

我们还比较了仅使用 OSDS(密集检索)、仅使用 S2(Semantic Scholar API)、仅使用 Web(You.com)及其组合。为了分离检索效果,我们使用我们的 8B LM,不使用自反馈或引文验证,并使用 OpenScholar 重排序器将其重排序到前 15 名。在 Scholar-CS 上(扩展数据表 2),仅 Web 的性能最差(正确性 45.9,引文 F1 12.6),仅 S2 在引文方面有所改善(47.9/39.1),而组合流程最佳(49.6/47.6)。定制的、以文献为中心的检索(密集+API+重排序)产生了最强的事实性和归因性。

我们分析了检索段落的数量(前 N 个)如何影响性能。我们使用我们的 8B 训练模型和 Llama 3.1 8B 比较了标准 RAG 和 OpenScholar,评估了 Scholar-CS 上的生成和引文准确性。扩展数据图 3 和 4 总结了结果。尽管 Llama 3.1 经过训练可以接受多达 128,000 个 token,但其性能在超过一定上下文大小时会下降:将前 N 从 5 增加到 10 会提高正确性,但更大的 N 会损害正确性和引文准确性。这表明,尽管具有长上下文容量,但在没有专门训练的情况下,较小的 LM 可能难以有效利用许多段落。相比之下,我们训练的 8B 模型在 N = 20 之前保持强劲性能,而更大的模型(例如 Llama 3.1 70B)对更长的上下文更具鲁棒性。

专家对 OpenScholar 有效性的评估

为了补充自动指标并检验 OpenScholar 的优势和局限性,我们进行了专家评估,比较了人类撰写的答案与由 LLM 系统生成的答案。这项研究涉及 100 多个文献综述问题和 15 名以上的参与者,包括具有相关领域专业知识的博士生、研究科学家和大学教授。总而言之,我们为专家和模型答案策划了 400 多个细粒度的专家评估。

评估设计

我们使用了来自 Scholar-Multi 的 108 个问答(QA)对,由专家(专家作者)撰写。我们针对这些问题评估了三种设置:GPT-4o(无外部检索)、使用 GPT-4o 作为生成器的 OpenScholar(OpenScholar-GPT-4o)以及使用我们训练的 8B 模型的 OpenScholar(OpenScholar-8B),每种设置都生成带有引文的答案。然后,我们招募了独立的博士级别领域专家来对模型生成的答案与专家撰写的答案进行评分。

具体来说,每次评估都涉及展示一个问题、一个模型生成的答案和一个人类撰写的答案。然后,专家评分者对每个答案进行细致的评估,并提供两者之间的成对偏好判断。对于细粒度评估,我们使用方法中描述的五级评估标准(覆盖面、相关性和组织性),注释者使用相同的评分标准对模型和人类答案进行评分。详细的提示信息见补充信息第 6 节。对于有用性,注释者在 1 到 5 的范围内打分,我们将其转换为三个类别:无用(1、2)、中性(3)和有用(4、5)。然后我们计算落入有用类别的答案的百分比。对于成对偏好,注释者选择其中一个答案或标记为“平局”,如果他们认为两个答案的质量相同。专家可以选择性地提供解释说明为什么一个答案比另一个更好。

专家作者详情

我们用于问题和答案撰写的专家作者是来自美国各地研究机构的 12 名博士生和博士后研究员,他们都在各自领域拥有至少三年的研究经验,并在期刊或会议上发表了多篇论文。我们专家的研究领域包括计算机科学(自然语言处理、计算机视觉、人机交互)、物理学(天体物理学、光子学/光学)和生物医学(神经科学、生物成像),我们将专家注释者分配到他们专业领域的问题上。平均而言,我们向每人支付了 35–40 美元。

专家评分者详情

来自这三个领域的 16 名专家评分者参与了我们的评估,其中 12 人也参与了答案生成。所有专家评分者都具备与撰写答案的专家相同的资历。为最大限度地减少潜在偏见,我们确保评分者不会评估他们自己问题的回复,而是将评估任务分配给不同的专家组。每个实例由一到三名专家评分者进行审查,具体取决于可用性。使用成对比较并包含平局时,注释者间一致性为 0.68,使用更宽松的方法(合并平局)时为 0.70。平均而言,每位专家评分者花费五分钟评估一个实例,获得的报酬在 25 到 35 美元之间。

专家评估结果

总体结果

表 4 提供了每个评估方面的平均得分,以及相对于人类回复的相对获胜率。扩展数据图 5 说明了人类、GPT-4o 以及使用 Llama 3.1 8B 和 GPT-4o 的 OpenScholar 的得分分布。值得注意的是,OpenScholar-GPT-4o 和我们的 OpenScholar-8B 版本在超过 50% 的情况下优于人类答案,它们的优势主要归功于它们提供更广泛和更深入信息(覆盖面)的能力。相比之下,缺乏检索功能的 GPT-4o 表现出大大受限的覆盖面,获胜率很低... [内容被截断]




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区