📢 转载信息
原文作者:Ananya (MIT Technology Review)
AI模型正在使用已被撤回的科研论文内容
一些公司正在努力解决这个问题。
根据近期研究显示,一些人工智能聊天机器人依赖于已被撤回的科学论文中的错误信息来回答问题。《麻省理工科技评论》(MIT Technology Review)的调查证实了这些发现,这引发了关于AI工具评估科学研究可靠性的疑问,并可能给各国和各行业投资AI科研工具的努力带来复杂性。
人们已经知道,AI搜索工具和聊天机器人会编造链接和参考文献。但如果这些论文已被撤回,那么基于实际论文材料的回答同样具有误导性。田纳西大学孟菲斯分校的医学研究员、近期一项研究的作者之一Weikuan Gu说,聊天机器人“使用了真实的论文、真实的内容来告诉你某些信息”。但他指出,如果人们只看答案内容而不点击链接查看论文已被撤回,那将是一个大问题。
Gu和他的团队向运行GPT-4o模型的OpenAI ChatGPT提出了基于21篇关于医学影像的已被撤回论文的问题。聊天机器人在五个案例中引用了已被撤回的论文,但仅在三个案例中建议谨慎。尽管它引用了其他问题的非撤回论文,但作者指出,它可能没有识别出这些文章已被撤回的状态。在另一项八月份的研究中,另一组研究人员使用ChatGPT-4o mini评估了来自不同科学领域的217篇已被撤回和低质量论文;他们发现聊天机器人的所有回答中都没有提及撤稿或其它顾虑。(关于八月发布的GPT-5,目前尚未有类似研究。)
公众使用AI聊天机器人获取医疗建议和诊断健康状况。学生和科学家越来越多地使用专注于科学的AI工具来回顾现有科学文献和总结论文。这种使用很可能会增加。例如,美国国家科学基金会(NSF)在今年八月投资了7500万美元用于构建科学研究AI模型。
“如果一个工具面向公众,那么将撤稿作为一种质量指标就非常重要,”伊利诺伊大学厄巴纳-香槟分校的信息科学研究员Yuanxi Fu说。她表示,“有一种共识,即已被撤回的论文已从科学记录中删除”,而“科学界之外的人应该被警告这些是已被撤回的论文。” OpenAI未对记者的评论请求作出回应。
这个问题并非仅限于ChatGPT。今年六月,《麻省理工科技评论》使用Gu研究中的21篇已被撤回论文的问题,测试了专门针对研究工作宣传的AI工具,如Elicit、Ai2 ScholarQA(现为艾伦人工智能研究所Asta工具的一部分)、Perplexity和Consensus。Elicit在其回答中引用了五篇已被撤回的论文,而Ai2 ScholarQA引用了17篇,Perplexity 11篇,Consensus 18篇——所有这些都没有提及撤稿情况。
此后,一些公司已开始采取措施纠正这一问题。Consensus的联合创始人Christian Salem说:“直到最近,我们的搜索引擎中还没有很好的撤稿数据。”他的公司现在已经开始使用来自出版商、数据聚合商、独立网页爬取以及手动策划和维护撤稿数据库的Retraction Watch等多种来源的撤稿数据。在八月份对相同论文的测试中,Consensus仅引用了五篇已被撤回的论文。
Elicit告诉《麻省理工科技评论》,它已从其数据库中删除了被学术研究目录OpenAlex标记为已撤稿的论文,并且“仍在努力整合撤稿来源。”Ai2告知我们,其工具目前不会自动检测或删除已被撤稿的论文。Perplexity表示,它“[从不声称]拥有100%的准确性。”
然而,仅仅依赖撤稿数据库可能还不够。Retraction Watch的联合创始人Ivan Oransky谨慎地表示,它不能被描述为一个全面的数据库,因为要创建一个这样的数据库需要比任何人都更多的资源:“之所以资源密集,是因为如果你想保证准确性,就必须有人手工完成所有工作。”
使情况更加复杂的是,出版商在撤稿通知方面没有统一的方法。加拿大里贾纳大学研究和发现工具专家Caitlin Bakker说,“论文被撤回的地方,它们可能以非常不同的方式被标记。”出版商可能会在研究论文上添加“更正”(Correction)、“关切表达”(Expression of Concern)、“勘误表”(Erratum)和“撤稿”(Retracted)等标签——这些标签可能出于多种原因添加,包括对内容、方法和数据的担忧,或存在利益冲突。
一些研究人员将论文分发在预印本服务器、论文存储库和其它网站上,导致副本散布在网络上。此外,用于训练AI模型的数据可能不是最新的。Fu说,如果一篇论文在模型的训练截止日期之后被撤稿,其响应可能不会立即反映最新情况。新加坡管理大学的图书馆员Aaron Tay说,大多数学术搜索引擎不会实时检查撤稿数据,因此你只能依赖其语料库的准确性。
Oransky和其他专家提倡提供更多背景信息供模型在生成响应时使用。这可能意味着与已发表的论文一起发布已经存在的信息,例如期刊委托的同行评审和来自审阅网站PubPeer的批评意见。
许多出版商,如《自然》和《英国医学杂志》(BMJ),将撤稿通知作为独立文章发布,并链接到原论文,且不受付费墙限制。Fu认为,公司需要有效地利用这些信息,以及模型训练数据中提及论文撤稿的新闻文章。
AI工具的用户和创建者需要尽到自己的审慎责任。Tay说:“我们正处于非常非常早期的阶段,本质上你必须保持怀疑态度。”
Ananya 是一位驻班加罗尔的自由撰稿人,专注于科学和技术报道。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。
评论区