📢 转载信息
原文作者:Ananya
AI模型依赖已撤稿的科研文献,可靠性引发担忧
根据近期研究发现,一些人工智能聊天机器人依靠已被撤稿的科学论文中的错误信息来回答问题。《麻省理工科技评论》(MIT Technology Review)的确认进一步证实了这一发现。这引发了人们对AI工具评估科学研究的可靠性、以及各国和各行业在为科学家投资AI工具方面所做努力的潜在复杂性。
AI搜索工具和聊天机器人本身就以编造链接和引用而闻名。但如果它们引用的实际论文已被撤稿,那么基于这些材料的答案也会产生误导。田纳西大学孟菲斯分校的医学研究员、近期一项研究的作者之一Weikuan Gu表示:“聊天机器人正在使用真实的论文、真实的内容来告诉你一些事情。”但他指出,如果人们只看答案内容而不点击链接查看论文已被撤稿,那将是一个大问题。
Gu和他的团队向使用GPT-4o模型的OpenAI ChatGPT询问了关于医学影像学21篇已撤稿论文的信息。聊天机器人在五种情况下引用了被撤稿的论文,但只在三种情况下建议谨慎。尽管它引用了其他问题的非撤稿论文,但作者们指出,它可能没有识别出这些文章的撤稿状态。在八月份的一项研究中,另一组研究人员使用ChatGPT-4o mini评估了来自不同科学领域的217篇被撤稿和低质量论文的质量;他们发现聊天机器人的所有回复中都没有提及撤稿或其他问题。(八月发布的GPT-5目前还没有类似研究。)
公众使用AI聊天机器人来获取医疗建议和诊断健康状况。学生和科学家也越来越多地使用以科学为重点的AI工具来回顾现有科学文献和总结论文。这种使用很可能会增加。例如,美国国家科学基金会今年八月投资了7500万美元用于构建科学研究的AI模型。
伊利诺伊大学厄巴纳-香槟分校的信息科学研究员Yuanxi Fu表示:“如果(某个工具)是面向公众的,那么使用撤稿信息作为质量指标就非常重要。”她指出,“有一种共识认为,被撤稿的论文已经从科学记录中被划掉了,而科学界之外的人——应该被警告这些论文已被撤稿。”OpenAI未对要求置评的请求作出回应。
这个问题不仅仅局限于ChatGPT。六月份,《麻省理工科技评论》使用Gu研究中基于21篇被撤稿论文的问题,测试了专门为研究工作宣传的AI工具,如Elicit、Ai2 ScholarQA(现为Allen Institute for Artificial Intelligence的Asta工具的一部分)、Perplexity和Consensus。Elicit在回复中引用了五篇被撤稿论文,而Ai2 ScholarQA引用了17篇,Perplexity引用了11篇,Consensus引用了18篇——所有这些都没有提及撤稿情况。
一些公司此后已采取措施纠正这个问题。Consensus的联合创始人Christian Salem说:“直到最近,我们的搜索引擎中还没有很好的撤稿数据。”他的公司现在开始从多个来源获取撤稿数据,包括出版商和数据聚合商、独立的网络抓取以及Retraction Watch(该网站手动策划和维护着一个撤稿数据库)。在八月对相同论文进行的测试中,Consensus只引用了五篇被撤稿的论文。
Elicit告诉《麻省理工科技评论》,它会从其数据库中删除被学术研究目录OpenAlex标记的被撤稿论文,并且“仍在努力整合撤稿来源”。Ai2告诉我们,其工具目前不会自动检测或删除被撤稿的论文。Perplexity表示,它“从不声称100%准确”。
然而,仅依赖撤稿数据库可能还不够。Retraction Watch的联合创始人Ivan Oransky谨慎地表示,不能将其描述为一个全面的数据库,他说创建一个这样的数据库需要比任何人都拥有的更多资源:“之所以资源密集,是因为如果你想确保准确性,就必须由人工来完成所有工作。”
使问题更加复杂的是,出版商在撤稿通知方面没有统一的方法。加拿大里贾纳大学从事研究和发现工具研究的专家Caitlin Bakker说:“在论文被撤稿的地方,它们可能以非常不同的方式被标记。”出版商可能会在研究论文上添加“更正”(Correction)、“关切声明”(Expression of Concern)、“勘误”(Erratum)和“撤稿”(Retracted)等标签——而添加这些标签的原因有很多,包括对内容、方法和数据的担忧,或存在利益冲突。
一些研究人员将他们的论文分发到预印本服务器、论文存储库和其他网站上,导致副本散布在整个网络中。此外,用于训练AI模型的数据可能不是最新的。Fu说,如果一篇论文在模型的训练截止日期之后被撤稿,其回复可能无法立即反映最新情况。新加坡管理大学的图书馆员Aaron Tay表示,大多数学术搜索引擎不会实时检查撤稿数据,因此你的结果准确性取决于其语料库的准确性。
Oransky和其他专家提倡为模型提供更多可用信息,以便在生成回复时使用。这可能意味着要发布已存在的信息,如期刊委托的同行评审和评论网站PubPeer的批评,与已发表的论文一起发布。
许多出版商,如《自然》(Nature)和《英国医学杂志》(BMJ),将撤稿声明作为独立文章发布,链接到原始论文,且不设付费墙。Fu认为,公司需要有效地利用这些信息,以及训练数据中提及论文撤稿的新闻文章。
AI工具的用户和创建者需要尽职调查。Tay总结道:“我们正处于非常非常早期的阶段,本质上你必须保持怀疑态度。”
Ananya 是一位在印度班加罗尔的自由科学和技术记者。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。
评论区