目 录CONTENT

文章目录

过多的社交媒体内容导致人工智能聊天机器人出现“脑部腐烂”

Administrator
2025-11-01 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://www.nature.com/articles/d41586-025-03542-2

原文作者:Rachel Fieldhouse


Someone looking the page of Llama 3 on a phone, in a background the blurry logo of Meta AI.

科技公司Meta拥有的Llama 3是一个大型语言模型。图片来源:MauriceNorbert/Alamy

一项10月15日发布在arXiv上的预印本研究发现,人工智能(AI)聊天机器人如果用大量低质量内容(尤其是社交媒体上流行的内容)进行训练,其检索准确信息和进行推理的能力会变差1

奥斯汀得克萨斯大学(University of Texas at Austin)生成式AI研究员、合著者张扬王(Zhangyang Wang)说,在数据科学中,高质量数据需要满足某些标准,例如语法正确且易于理解。但他表示,这些标准未能捕捉到内容质量的差异。

王和他的同事们想研究用低质量数据——被定义为简短、流行的社交媒体帖子,或包含肤浅或耸人听闻内容的数据——训练大型语言模型(LLM)会产生什么影响。他们考察了这些数据如何影响模型的推理能力、从长输入中检索信息的能力、回复的伦理考量以及模型的个性特征。

该团队报告称,接受了低质量数据训练的模型会跳过其推理过程中的步骤——或者根本不使用推理——结果是模型就某个主题提供错误信息,或者当研究人员提出一个多项选择题时,模型会选错答案。在包含垃圾数据和高质量数据混合的数据集中,垃圾数据的比例越高,对推理的负面影响就越大。这项工作尚未经过同行评审。

西澳大利亚大学(University of Western Australia)的AI研究员Mehwish Nasim表示,这些发现支持了AI领域一个长期存在的信条:数据质量的重要性。她补充说:“即使在人们开始研究大型语言模型之前,我们也常说,如果你给AI模型垃圾数据,它就会产生垃圾。”



“垃圾进,垃圾出”

王和他的同事们使用了一个来自现有数据库的百万条来自社交媒体平台X的公开帖子,来训练开源模型:来自加州门洛帕克科技公司Meta的LLM Llama 3,以及中国杭州阿里巴巴开发的三个版本的QwenQwen是一个推理模型,类似于DeepSeek的R1模型和OpenAI的o1模型,这意味着它被设计用来产生推理步骤以回答用户的查询。然而,Llama是一个指令调优的语言模型,其推理能力不太先进。

为了确定模型的个性特征,该团队使用了心理学问卷。作者说,在用垃圾数据训练之前,Llama表现出宜人性、外向性、尽责性、开放性以及一点点自恋。但随着Llama被输入更多的垃圾数据,其负面特质被放大,并且根据其中一份问卷的结果,出现了精神病态(psychopathy)的特征。

为了随着时间的推移调整和改进模型,研究人员可以调整提示指令。当该团队尝试对一个专门用垃圾数据训练的Llama模型这样做时,他们发现性能只得到了部分改善,增加用于训练的非垃圾数据量也只带来了部分改善。当该团队试图鼓励模型反思和修正其推理错误时,模型仍然继续跳过步骤,这表明可能需要不同的方法来减轻垃圾数据的影响。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区