📢 转载信息
原文链接:https://www.nature.com/articles/d41586-025-04032-1
原文作者:Dalmeet Singh Chawla
根据一项测试AI检测工具的研究,几乎不可能知道一篇同行评审报告是否由人工智能生成。研究人员警告说,这个问题只会越来越严重。
检测AI工具在同行评审中使用的难度正成为一个棘手的问题。来源:BrianAJackson/iStock via Getty
一个基于中国的研究团队使用Anthropic公司(一家位于加利福尼亚州旧金山的人工智能公司)开发的Claude 2.0大型语言模型(LLM)来生成20篇已发表的癌症生物学论文的同行评审报告和其他类型的文件。该期刊的出版商将论文作为“已评审预印本”免费在线发布,并与它们的审稿报告和最初未经编辑的手稿一同出版。
作者将原始手稿输入Claude模型,并提示它生成审稿报告。然后,该团队将这些AI生成的报告与eLife期刊上发布的真实报告进行了比较。
该研究的合著者、来自中国连云港南方医科大学的肿瘤学家Lingxuan Zhu说,AI撰写的评审报告“看起来很专业,但缺乏具体、深入的反馈”。“这让我们意识到存在一个严重的问题。”
研究发现,Claude能够撰写看似合理的引用请求(建议作者可以在参考文献列表中添加哪些论文)以及令人信服的拒稿建议(当审稿人认为期刊应该拒绝一篇投稿时的建议)。朱表示,后者增加了期刊拒绝优秀论文的风险。“编辑不可能精通所有领域。如果他们收到一份写得非常有说服力的AI负面评审意见,很容易影响他们的决定。”
该研究还发现,大多数AI生成的报告都骗过了检测工具:ZeroGPT错误地将60%的报告归类为人写的,而GPTzero对超过80%的报告得出了相同结论。
不同的观点
期刊面临的一个日益严峻的挑战是,LLM可用于多种方式来生成审稿报告。对于AI的使用范围,“可接受”的界定也因人而异。《自然》今年早些时候对约5000名研究人员进行的一项调查显示,66%的受访者认为使用生成式AI从头开始创建审稿报告是不合适的。但有57%的受访者认为,通过让AI回答关于论文的问题来辅助同行评审是可接受的。
尽管AI检测工具正在不断改进,但它们在确定文档中有多少内容是由AI生成的方面仍存在困难。《自然》去年发表的一项分析报告估计,提交给四次计算机科学会议的审稿报告中,有17%经过了聊天机器人的大幅修改2。但目前尚不清楚审稿人是使用AI来改进报告,还是完全由AI代写。
Nature Index 2025 Research Leaders
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区