📢 转载信息
原文链接:https://www.technologyreview.com/2025/09/25/1124005/ai-wikipedia-vulnerable-languages-doom-spiral/
原文作者:Jacob Judah
当AI和维基百科联手,弱势语言正坠入“毁灭性螺旋”
机器翻译技术让创建充斥着错误的冷门语言维基百科条目变得前所未有的容易。如果AI模型开始学习这些垃圾页面,将会发生什么?
四年前,当肯尼思·维尔(Kenneth Wehr)开始管理格陵兰语版本的维基百科时,他的第一件事就是删除了几乎所有内容。他认为,如果这个版本想要生存下去,就必须这样做。
26岁的维尔并非格陵兰人——他在德国长大。但自从十几岁时到访格陵兰岛(一个丹麦自治领土)后,他就对这个地方着了迷。他花了数年时间,用他的母语为关于格陵兰的一切编写了许多冷门条目。他最终甚至搬到哥本哈根学习格陵兰语,这是一种大约有57,000名主要为因纽特原住民使用的语言,他们分散在数十个遥远的北极村庄里。
格陵兰语版维基百科大约在2003年(即网站以英语启动几年后)被添加。当维尔在近20年后接管它时,数百名维基百科贡献者已经为之努力,共同撰写了大约1500个条目,总计超过数万字。这似乎是对众包方法的一次有力证明,该方法使维基百科成为在线信息的首选来源,表明即使在最意想不到的地方,它也能奏效。
但只有一个问题:格陵兰语维基百科是一个海市蜃楼。
几乎所有的条目都是由那些实际上不会说这种语言的人发布的。维尔现在在丹麦教授格陵兰语,他推测可能只有一两个格陵兰人真正贡献过内容。但更让他担心的是另一件事:随着时间的推移,他注意到越来越多的条目似乎是人们使用机器翻译工具复制粘贴到维基百科上的。这些条目充满了基本的错误——从语法错误到无意义的词语,再到更重大的不准确之处,比如一个声称加拿大只有41名居民的词条。其他页面有时包含机器无法找到合适的格陵兰语词汇来表达自己而产生的随机字母串。
“这对[作者]来说可能看起来像格陵兰语,但他们无法知道,”维尔抱怨道。
“句子完全不通顺,或者有明显的错误,”他补充说。“AI翻译在格陵兰语方面真的很糟糕。”
维尔所描述的并非格陵兰语版独有的现象。
维基百科是继《圣经》之后最宏大的多语言项目:它有超过340种语言的版本,还有另外400种更为冷门的语言正在开发和测试中。随着AI的普及,许多这些较小的版本被自动翻译的内容淹没。例如,负责四种非洲语言的志愿者估计,在他们的维基百科版本中,有40%到60%的条目是未经校对的机器翻译内容。《麻省理工科技评论》在审计了与格陵兰语相近的加拿大原住民语言伊努克提图特语(Inuktitut)的维基百科版本后估计,超过三分之二包含多句话的页面都存在部分内容是这样创建的。
这开始引发一个棘手的问题。从谷歌翻译到ChatGPT等AI系统,它们通过抓取互联网上的海量文本来学习“说”新语言。对于使用人数较少的语言来说,维基百科有时是最大的在线语言数据来源——因此这些页面上的任何错误,无论是语法上的还是其他的,都可能污染AI模型预计要从中汲取的“水井”。这可能导致模型对这些语言的翻译特别容易出错,从而形成一种语言上的“毁灭性循环”:人们继续使用这些工具添加越来越多翻译得很差的维基百科页面,而AI模型也继续从这些翻译得很差的页面中进行训练。这是一个复杂的问题,但归结为一个简单的概念:“垃圾进,垃圾出”。
圣路易斯大学计算机科学前教授凯文·斯坎内尔(Kevin Scannell)曾为濒危语言定制计算机软件,他说:“这些模型建立在原始数据之上。它们会试图从头开始学习一种语言的所有知识。没有其他输入。没有语法书。没有词典。除了输入的文本之外,什么都没有。”
关于这个问题的规模没有完美的数据,特别是考虑到许多AI训练数据是保密的,而且该领域仍在快速发展。但早在2020年,就有估计表明,维基百科占了输入到AI模型中的训练数据的一半以上,用于翻译非洲的一些语言,如马达加斯加语、约鲁巴语和绍纳语,这些语言有数百万人使用。2022年,一个德国研究团队在研究在线抓取可获取的数据时发现,对于27种资源不足的语言来说,维基百科是唯一容易获得的在线语言数据来源。
这可能在维基百科编写不佳的情况下产生重大影响——可能会将地球上最脆弱的语言推向悬崖边缘,因为后代开始远离它们。
挪威特罗姆瑟大学的计算语言学家特隆德·特罗斯特鲁德(Trond Trosterud)多年来一直在警告运行不善的维基百科版本可能带来的有害后果。他说:“维基百科将被反映在这些语言的AI模型中。我很难想象这不会产生后果。当然,维基百科的地位越占主导,情况就越糟。”
负责任地使用
自动化自维基百科诞生之初就已融入其中。机器人维护着平台的运行:它们修复损坏的链接、修正错误的格式,甚至纠正拼写错误。这些重复性和单调的任务可以被轻易地自动化。甚至还有一支机器人队伍在不断生成关于河流、城市或动物的简短文章,将它们的名字填入公式化的短语中。总的来说,它们使平台变得更好。
但AI不同。任何人都可以通过几次点击就利用它造成巨大的破坏。
维基百科在应对AI时代方面做得比许多其他网站要好。它没有像社交媒体那样被AI机器人或虚假信息淹没。它在很大程度上保留了早期互联网时代的纯真。维基百科开放且免费供任何人使用、编辑和借鉴,它由它服务的社区运营。它透明且易于使用。但由社区运行的平台兴衰取决于其社区的大小。英语取得了胜利,而格陵兰语则在沉沦。
监督开设或关闭维基百科版本请求的志愿者“语言委员会”成员阿米尔·阿哈罗尼(Amir Aharoni)说:“我们需要好的维基百科人。这是人们认为理所当然的事情。它不是魔法。”他补充说,“如果你负责任地使用机器翻译,它会很高效和有用。不幸的是,你不能指望所有人都负责任地使用它。”
特罗斯特鲁德研究了小型维基百科版本上用户的行为,他表示AI赋能了一群他称之为“维基百科劫持者”的用户。这些用户范围很广——从创建关于他们家乡或最喜欢的YouTuber页面的天真青少年,到认为通过创建少数民族语言的文章就是在“帮助”这些社区的善意维基百科人。
“他们现在的问题是,他们手持谷歌翻译,”特罗斯特鲁德说,并补充说,这使得他们能够生成比以往任何时候都更长、看起来更可信的内容:“以前他们只携带词典。”
这有效地将破坏行为工业化了——这对弱势语言影响最大,因为AI翻译对它们来说通常可靠性要低得多。原因可能有很多,但一个重要部分是网上可用的源文本相对较少。有时模型会因为一种语言与其他语言相似而难以识别,或者因为一些语言(包括格陵兰语和大多数美洲原住民语言)的结构使其不太适合大多数机器翻译系统的工作方式。(维尔指出,在格陵兰语中,大多数单词是黏着语,这意味着它们是通过向词干添加前缀和后缀构成的。因此,许多词语的意义高度依赖于上下文,可以表达在其他语言中需要一整句话才能表达的意思。)
谷歌在三年前对其Google翻译进行重大扩展之前所做的研究发现,资源较少语言的翻译系统的质量通常低于资源较丰富的语言。研究人员发现,例如,他们的模型经常会错误地翻译基本的名词,包括动物和颜色的名称。(谷歌在给《麻省理工科技评论》的一份声明中表示,它“致力于为支持的所有249种语言提供高质量标准”,方法是“严格测试和改进[其]系统,特别是对于网络上可能只有有限公开文本资源的语言。”)
维基百科本身提供了一个名为“内容翻译”(Content Translate)的内置编辑工具,它允许用户将文章从一种语言自动翻译成另一种语言——其理念是保存原文的引用和复杂的格式以节省时间。但它依赖于外部机器翻译系统,因此它在很大程度上受困于与其他机器翻译相同的弱点——维基媒体基金会表示这是一个难以解决的问题。是否允许使用此工具取决于每个版本的社区,有些社区已决定禁止使用。(值得注意的是,英语维基百科在很大程度上禁止了其使用,声称使用“内容翻译”创建的大约95%的条目在没有大量额外工作的情况下未能达到可接受的标准。)但至少很容易看出程序何时被使用;内容翻译会在维基百科后端添加一个标签。
其他AI程序则更难监控。不过,许多我交谈过的维基百科编辑者表示,一旦他们的语言被添加到主要的在线翻译工具中,他们就会注意到使用不良机器翻译页面创建的频率相应激增。
一些使用AI翻译内容的维基百科人偶尔会承认他们不懂目标语言。他们可能将自己视为向较小社区提供粗略的文章,供讲母语的人进行修正——本质上遵循了在更活跃的维基百科版本中行之有效的模式。
例如,谷歌翻译说“Fulfulde”语中“一月”的意思是“六月”,而ChatGPT则说是“八月”或“九月”。这些程序还暗示“丰收”的“Fulfulde”语词可能意味着“发烧”或“幸福感”等其他含义。
但一旦用错误内容填充了小语言的页面,通常没有一个知识渊博的母语人士大军随时准备改进它们。这些版本的读者很少,有时甚至没有一个常驻编辑。
加拿大教师余文李(Yuet Man Lee,20多岁)说,他使用谷歌翻译和ChatGPT的混合工具,将自己为英语维基百科撰写的一些文章翻译成伊努克提图特语,心想为较小的维基百科社区做点贡献也不错。他说他给其中一篇添加了一个注释,说明这只是一个粗略的翻译。“我没想到会有人注意到[这篇文章],”他解释道。“如果你把一些东西放在较小的维基百科上——大多数时候没有人会去管。”
但与此同时,他说,他仍然认为“可能会有人看到它并将其修改过来”——他补充说,他曾想知道AI系统生成的伊努克提图特语翻译是否在语法上是正确的。自从他创建这篇文章以来,没有人动过它。
在温哥华教授社会科学,十年前开始编辑英语维基百科条目的李先生说,熟悉更活跃维基百科的用户可能会陷入这种心态,他称之为“大维基百科傲慢”:当他们试图为较小的维基百科版本做贡献时,他们假设别人会来修正他们的错误。有时这确实有效。李先生说,他以前曾为使用人数达数百万的鞑靼语(主要在俄罗斯使用)维基百科贡献过几篇文章,其中至少有一篇最终得到了修正。但相比之下,伊努克提图特语维基百科是一个“贫瘠的荒原”。
他强调他的初衷是好的:他想为加拿大原住民维基百科增加更多文章。“我现在认为这可能是一个错误的主意。我没有考虑到我可能在助长一个递归循环,”他说。“这是关于将内容推出去,出于好奇和娱乐,而没有充分考虑后果。”
“完全没有未来”
维基百科是一项由乐观精神驱动的工程。编辑工作可能吃力不讨好,涉及与陌生、化名的人争论数周,但狂热的奉献者们因为对崇高事业的承诺而投入了无偿的劳动。正是这种承诺驱动着我交谈过的小语种的许多常驻编辑。他们都担心如果垃圾内容继续出现在他们的页面上会发生什么。
阿卜杜勒卡迪尔·阿卜杜勒卡迪尔(Abdulkadir Abdulkadir),一位26岁的农业规划师,他通过一条来自尼日利亚北部繁忙路边的模糊电话与我交谈,他说他每天花三个小时整理他母语“Fulfulde”的条目,这是一种主要在萨赫勒地区牧民和农民使用的语言。“但工作量太大了,”他说。
阿卜杜勒卡迪尔认为“Fulfulde”维基百科必须正常运作,这一点非常紧迫。他一直将其推荐为偏远村庄农民的在线资源之一,可以提供关于哪些种子或作物最适合他们用本族语言理解的田地的信息。阿卜杜勒卡迪尔告诉我,如果你给他们一篇机器翻译的文章,那么“很容易伤害到他们”,因为信息很可能没有被正确翻译成“Fulfulde”。
例如,谷歌翻译说“Fulfulde”语中“一月”的意思是“六月”,而ChatGPT则说是“八月”或“九月”。这些程序还暗示“丰收”的“Fulfulde”语词可能意味着“发烧”或“幸福感”等其他含义。
阿卜杜勒卡迪尔说,他最近不得不更正一篇关于豇豆(Cowpea,非洲大部分地区的基础经济作物)的文章,因为他发现它基本上是不可读的。如果有人想在“Fulfulde”维基百科上创建页面,阿卜杜勒卡迪尔说,他们应该手动翻译。否则,“任何阅读你文章的人都无法获得基本知识,”他告诉这些维基百科人。尽管如此,他估计仍有大约60%的文章是未经校对的机器翻译。阿卜杜勒卡迪尔告诉我,除非AI系统的学习和部署方式发生重大变化,否则“Fulfulde”语的前景看起来很黯淡。“说实话,情况会很糟糕,”他说。“完全没有未来。”
与阿卜杜勒卡迪尔在同一个国家,露西·伊瓦拉(Lucy Iwuala)为尼日利亚东南部数百万人使用的伊博语(Igbo)维基百科做贡献。“伤害已经造成了,”她告诉我,她打开了最近创建的两篇文章。这两篇都是通过维基百科的“内容翻译”工具自动翻译的,充满了如此多的错误,以至于她觉得继续阅读都会头痛。“有些术语甚至没有被翻译,它们仍然是英语,”她指出。她认出了创建这些页面的用户名是一个惯犯。“这个人甚至包含伊博语中不使用的字母,”她说。
三年前,伊瓦拉开始定期为维基百科做贡献,是因为担心伊博语被英语取代。这是许多活跃在较小维基百科版本上的编辑所共有的担忧。“这是我的文化。这就是我,”她说。“这一切的本质就是确保你不会被抹去。”
伊瓦拉现在是一名专业的英语和伊博语翻译,她说,造成最大伤害的用户是缺乏经验的,他们将AI翻译视为快速提升伊博语维基百科影响力的方式。她经常发现自己不得不在她组织的在线编辑马拉松或通过电子邮件向各种容易出错的编辑解释,结果可能会适得其反,将用户推开:“你会感到沮丧,你将不再想访问这个地方。你只会放弃它,回到英语维基百科。”
夏威夷大学夏威夷语助理教授诺亚·哈阿利利奥·所罗门(Noah Ha‘alilio Solomon)也表达了同样的担忧。他报告说,夏威夷语维基百科上一些页面的约35%的词语是无法理解的。“如果这就是将要存在的夏威夷语,那它将造成比任何其他事情都更大的伤害,”他说。
夏威夷语几十年前曾濒临灭绝,但在原住民活动家和学者的领导下正在经历复苏。看到如此普遍使用的维基百科上有如此糟糕的夏威夷语内容,让哈阿利利奥·所罗门感到心痛。
“这很痛苦,因为它让人们想起了我们的文化和语言被挪用的所有时刻,”他说。“我们在语言复兴的艰难攀登中付出了艰苦的努力。那一点都不容易,这可能会增加额外的障碍。人们会认为这是夏威夷语的准确表述。”
所有这些维基百科错误的后果可以迅速显现出来。那些毫无疑问地吸收了这些页面的AI翻译器现在正在协助制作针对学习各种语言(如加拿大原住民语言伊努克提图特语和克里语,以及马恩岛的曼克斯语等凯尔特语族语言)的错误百出的AI生成书籍。其中许多书籍已在亚马逊上出售。蒙特利尔魁北克大学语言学家理查德·康普顿(Richard Compton)在审查一本声称是伊努克提图特语入门短语手册时说:“那完全是胡说八道。”
AI没有让少数民族语言更容易普及,反而为学习这些语言的学生和使用者制造了一个不断扩大的雷区。“这是一种侮辱,”康普顿说。他担心加拿大年轻一代,他们在社区中为保护其传承而艰苦抗争,可能会转向ChatGPT等在线工具或亚马逊上的短语手册,结果却让情况变得更糟。“这是欺诈,”他说。
与时间赛跑
根据联合国教科文组织的数据,每两周就有一种语言被宣布灭绝。但维基百科的运营方维基媒体基金会是否有义务对待其平台上使用的语言,还是一个悬而未决的问题。当我与基金会的高级总监鲁娜·巴塔查里吉(Runa Bhattacharjee)交谈时,她说,关于什么内容应该存在于其维基百科上的决定权在于各个社区。“最终,责任真的在于社区,要确保不存在任何通过机器翻译或其他方式造成的破坏或不必要的活动,”她说。巴塔查里吉补充说,通常只有在出现特定投诉时,才会考虑关闭某个版本。
但是,如果没有活跃的社区,一个版本如何才能得到修复,甚至提出投诉呢?
巴塔查里吉解释说,维基媒体基金会在这种情况下所扮演的角色是维护维基百科平台,以防有人来复兴它:“我们为他们提供成长的空间和发展的地方。这就是我们的立场。”
在芬兰北部一个偏远社区使用的因纳里萨米语(Inari Saami)是人们如何能充分利用维基百科的一个典范。四十年前,这种语言正走向灭绝;只有四个孩子说这种语言。他们的父母创建了“因纳里萨米语协会”,试图做最后的努力来维持它。这些努力奏效了。现在有几百名使用者,使用因纳里萨米语作为教学媒介的学校,以及6400篇该语言的维基百科文章,每一篇都经过了流利使用者的校对。
这一成功凸显了维基百科如何能为规模虽小但坚定的社区提供独特的工具来促进其语言的保存。“我们不关心数量。我们关心质量,”因纳里萨米语协会成员法布里奇奥·布雷恰罗利(Fabrizio Brecciaroli)说。“我们计划将维基百科用作书面语言的存储库。我们需要为年轻一代提供可用的工具。他们能够使用因纳里萨米语进行数字化交流非常重要。”
相关报道
面向耳机的全新AI翻译系统可同时克隆多种声音
空间语音翻译系统解决了自动翻译面临的最大挑战之一:多人同时说话。
布雷恰罗利补充说,维基百科的成功已融入到因纳里萨米语学校的课程中。他接到老师的电话,请他撰写关于龙卷风或萨米民间传说等简单主题的页面。维基百科甚至提供了一种将新词汇引入因纳里萨米语的方式。“我们必须不断创造新词,”布雷恰罗利说。“年轻人需要它们来谈论体育、政治和电子游戏。如果他们不确定如何表达某事,他们现在就会查阅维基百科。”
维基百科是一项巨大的智力实验。因纳里萨米语的经验表明,只要付出最大的努力,它就可以在较小的语言中发挥作用。“最终目标是确保因纳里萨米语得以生存,”布雷恰罗利说。“可能没有针对因纳里萨米语的谷歌翻译,反而是一件好事。”
这可能是真的——尽管像ChatGPT这样的大型语言模型可以被要求将短语翻译成传统机器翻译工具不提供的语言。布雷恰罗利告诉我,ChatGPT在因纳里萨米语方面表现不佳,但质量因你要求它做什么而有很大不同;如果你用该语言提问,那么答案将充满芬兰语单词,甚至是它编造的单词。但如果你用英语、芬兰语或意大利语提问,然后要求它用因纳里萨米语回答,它的表现会更好。
鉴于所有这些,尽可能多地创建高质量的在线内容成为一场与时间的赛跑。“ChatGPT只需要大量的词汇,”布雷恰罗利说。“如果我们不断地输入好的材料,那么迟早我们会得到一些东西。这就是希望所在。”这是多位语言学家与我交谈时支持的一个观点——有可能结束“垃圾进,垃圾出”的循环。(ChatGPT的运营方OpenAI未回应置评请求。)
然而,总体问题可能会越来越严重,因为许多语言不像因纳里萨米语那样幸运——而它们的AI翻译很可能会被训练在越来越多的AI“垃圾”上。不幸的是,维尔对他的挚爱格陵兰语的未来似乎不太乐观。
自从删除了大部分格陵兰语维基百科以来,他花了数年时间试图招募使用者来帮助他复兴它。他出现在格陵兰媒体上,并在社交媒体上发布了呼吁。但他没有得到什么回应;他说这很令人灰心。
“格陵兰没有人对此感兴趣,或者想做出贡献,”他说。“这完全没有意义,所以它应该被关闭。”去年年底,他开始了一个请求关闭格陵兰语维基百科版本的流程。几十位维基百科管理人员之间随后进行了数月的激烈辩论;有些人似乎对一个表面上看起来健康的版本竟有如此多的问题感到惊讶。
然后,在本月早些时候,维尔的提议被接受了:格陵兰语维基百科将被关闭,任何剩余的文章都将移至维基百科“孵化器”(Wikipedia Incubator),在那里测试和建立新的语言版本。语言委员会引用的原因之一是AI工具的使用,“这些工具经常产生可能误导该语言的无意义内容。”
然而,可能为时已晚——格陵兰语中的错误似乎已经嵌入到机器翻译中。如果你提示谷歌翻译或ChatGPT做一些简单的事情,比如用正确的格陵兰语数到10,这两个程序都无法做到。
雅各布·犹大(Jacob Judah)是一位常驻伦敦的调查记者。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。
青云聚合API官网https://api.qingyuntop.top
支持全球最新300+模型:https://api.qingyuntop.top/pricing
详细的调用教程及文档:https://api.qingyuntop.top/about
评论区