📢 转载信息
原文链接:https://www.technologyreview.com/2025/09/25/1124005/ai-wikipedia-vulnerable-languages-doom-spiral/
原文作者:MIT Technology Review
AI与维基百科:弱势语言陷入“数据螺旋式衰退”的危机
机器翻译的普及使得创建充斥着错误的冷门语言维基百科条目变得前所未有的容易。如果AI模型继续以这些低质量页面为训练数据,将会发生什么?
四年前,当肯尼斯·维尔(Kenneth Wehr)开始管理格陵兰语版本的维基百科时,他的第一件事就是删除了几乎所有内容。他认为,如果这个版本想要生存下去,就必须这么做。
26岁的维尔并非格陵兰人——他成长于德国。但在十几岁时访问该岛屿后,他对这个丹麦自治领地产生了浓厚的兴趣。多年来,他一直用母语撰写关于格陵兰岛几乎所有事物的冷门维基百科条目。他甚至最终搬到了哥本哈根,学习格陵兰语,这是一种大约有57,000名主要为因纽特原住民的居民分散在北极地区各个偏远村庄使用的语言。
格陵兰语版维基百科在网站推出英文版几年后的2003年左右被创建。当维尔在近20年后接管它时,数百名维基人做出了贡献,共同撰写了约1500篇文章,总计数万字。这似乎是对众包方法的巨大肯定,这种方法使维基百科成为在线信息的首选来源,证明它即使在最不可能的地方也能发挥作用。
然而,只有一个问题:格陵兰语维基百科是一个海市蜃楼。

几乎所有文章都是由实际上不会说这种语言的人发布的。维尔现在在丹麦教授格陵兰语,他推测可能只有一两个格陵兰人做出过贡献。但最让他担心的是另一件事:随着时间的推移,他注意到越来越多的文章似乎是人们使用机器翻译复制粘贴到维基百科上的。这些文章充满了基本的错误——从语法错误到毫无意义的词语,再到更严重的失实信息,例如一个条目声称加拿大只有41名居民。其他页面有时包含机器生成的随机字母串,因为机器无法找到合适的格陵兰语词汇来表达自己。
“对[作者们]来说,这看起来像是格陵兰语,但他们无从得知,”维尔抱怨道。
“句子完全不通顺,或者有明显的错误,”他补充说。“AI翻译对格陵兰语来说非常糟糕。”
维尔描述的情况并非格陵兰语版的特例。
维基百科是继《圣经》之后规模最宏大的多语言项目:它有超过340种语言的版本,还有另外400种更稀有的语言正在开发和测试中。随着人工智能的普及,许多规模较小的版本已经被自动翻译的内容淹没。例如,在四种非洲语言上工作的志愿者估计,在他们的维基百科版本中,有40%到60%的文章是未经校对的机器翻译。在对因纽特语(一种与格陵兰语相近的加拿大原住民语言)维基百科版本进行审计后,MIT Technology Review估计,超过三分之二的包含几句话以上的页面,其部分内容是以这种方式创建的。
这开始造成一个棘手的问题。从谷歌翻译到ChatGPT的AI系统,通过抓取互联网上大量的文本来学习“说”新的语言。对于使用人数很少的语言,维基百科有时是最大的在线语言数据来源——因此,这些页面上的任何错误(无论是语法上的还是其他方面的)都会污染AI模型期望汲取的“水源”。这可能导致模型对这些语言的翻译特别容易出错,从而产生一种语言的“螺旋式衰退”:人们继续使用这些工具添加越来越多翻译糟糕的维基百科页面,而AI模型则继续从这些翻译糟糕的页面中训练。这是一个复杂的问题,但归结为一个简单的概念:“垃圾进,垃圾出”(Garbage in, garbage out)。
“这些模型是建立在原始数据之上的,”凯文·斯坎内尔(Kevin Scannell)说,他曾是圣路易斯大学的计算机科学教授,现在为濒危语言定制计算机软件。“它们将尝试从头开始学习一种语言的一切。没有其他输入。没有语法书。没有词典。除了输入的文本外,什么都没有。”
关于这个问题规模的准确数据并不存在,特别是因为许多AI训练数据是保密的,而且该领域仍在快速发展。但早在2020年,据估计,维基百科占输入到AI模型中用于翻译一些拥有数百万使用者的非洲语言(包括马达加斯加语、约鲁巴语和约鲁巴语)的训练数据的50%以上。2022年,一个来自德国的研究团队在研究通过在线抓取可获得的数据时发现,对于27种资源匮乏的语言,维基百科是唯一易于获取的在线语言数据来源。
“饮鸩止渴”的后果
这可能在维基百科编写不佳的情况下产生重大影响——可能会将地球上最脆弱的语言推向悬崖边缘,因为后代开始远离它们。
挪威特罗姆瑟大学的计算语言学家特隆德·特罗斯特鲁德(Trond Trosterud)多年来一直对运行不善的维基百科版本可能带来的有害后果发出警告,他说:“维基百科将反映在这些语言的AI模型中。” “我很难想象这不会产生后果。当然,维基百科的地位越是占主导,情况就越糟糕。”
负责任地使用
自动化自维基百科诞生之初就已内置其中。机器人维护着平台的运行:它们修复损坏的链接、修正错误的格式,甚至纠正拼写错误。这些重复性和单调的任务可以被轻松地自动化掉。甚至还有一支机器人军队在生成关于河流、城市或动物的简短条目,通过将它们的名称插入公式化的短语中。它们通常使平台变得更好。
但AI是不同的。任何人都可以通过几次点击使用它造成巨大的破坏。
维基百科在AI时代的到来应对方面比许多其他网站做得更好。它没有像社交媒体那样被AI机器人或虚假信息淹没。它在很大程度上保留了早期互联网时代的纯真。维基百科是开放和免费的,任何人都可以使用、编辑和从中提取内容,它由它所服务的社区管理。它透明且易于使用。但社区运营的平台依靠其社区的规模来生存或消亡。英语取得了胜利,而格陵兰语则在沉沦。
“我们需要好的维基人。这是人们想当然的事情。这不是魔法,”负责监督开设或关闭维基百科版本的志愿者语言委员会成员阿米尔·阿哈罗尼(Amir Aharoni)说。“如果你负责任地使用机器翻译,它可以是高效且有用的。不幸的是,你不能指望所有人都负责任地使用它。”
特罗斯特鲁德研究了小型维基百科版本上用户的行为,他说AI赋予了一小部分被称为“维基百科劫持者”的用户权力。这些用户范围很广——从创建关于他们家乡或最喜欢的YouTuber页面的天真青少年,到那些认为通过创建少数民族语言的文章来“帮助”这些社区的、善意的维基人。
特罗斯特鲁德说:“他们现在的问题是,他们手持谷歌翻译,”他补充说,这使他们能够创建比以往任何时候都更长、看起来更可信的内容:“以前他们只拿着词典。”
这实际上使破坏行为工业化了——这种行为主要影响弱势语言,因为AI翻译对它们来说通常可靠性要低得多。这可能有许多不同的原因,但一个重要的问题是网络上可用的源文本相对较少。有时模型会因为一种语言与另一种语言相似而难以识别,或者因为一些语言(包括格陵兰语和大多数美洲原住民语言)的结构使其不太适合大多数机器翻译系统的工作方式而出现问题。(维尔指出,在格陵兰语中,大多数词是粘着语,这意味着它们是通过将前缀和后缀附加到词干上构建的。因此,许多词都具有极强的上下文特异性,可以表达在其他语言中需要一整句话才能表达的意思。)
谷歌在三年前推出谷歌翻译重大更新之前发布的研究发现,低资源语言的翻译系统的质量通常低于资源更丰富的语言。研究人员发现,例如,他们的模型经常会在语言之间错误地翻译基本名词,包括动物和颜色的名称。(在对MIT Technology Review的回应中,谷歌表示,它致力于为其支持的所有249种语言“达到高标准的质量”,方法是“严格测试和改进[其]系统,特别是对于网络上可能缺乏文本资源的语言。”)
维基百科本身提供了一个名为“内容翻译”(Content Translate)的内置编辑工具,允许用户将文章从一种语言自动翻译到另一种语言——其理念是保存原始文章的引用和繁琐的格式,从而节省时间。但它依赖于外部机器翻译系统,因此它基本上受困于与其他机器翻译相同的弱点——维基媒体基金会表示这是一个难以解决的问题。是否允许使用此工具取决于每个版本的社区,有些社区已决定禁止使用。(值得注意的是,英语维基百科在很大程度上禁止使用它,声称使用内容翻译创建的文章中约有95%在没有大量额外工作的情况下未能达到可接受的标准。)但至少可以轻松判断程序何时被使用;内容翻译会在维基百科的后端添加一个标签。
其他AI程序则更难监控。尽管如此,许多我交谈过的维基百科编辑表示,一旦他们的语言被添加到主要的在线翻译工具中,他们就注意到使用可能机器翻译的、质量差的页面的创建频率相应激增。
一些使用AI翻译内容的维基百科编辑偶尔会承认他们并不懂目标语言。他们可能认为自己是在为较小的社区提供粗略的文章草稿,供说该语言的人修复——基本上遵循了对更活跃的维基百科版本有效的相同模式。
例如,谷歌翻译说“Fulfulde”(富拉尼语)中“一月”的词意是“六月”,而ChatGPT则说是“八月”或“九月”。这些程序还建议“收获”的“Fulfulde”词意是“发烧”或“幸福”等。
但一旦在小型语言中生成了充满错误的页面,通常没有一个知识渊博的、说这些语言的人手随时准备改进它们。这些版本的读者很少,有时甚至没有一个固定的编辑。
加拿大教师余曼·李(Yuet Man Lee,20多岁)说,他使用谷歌翻译和ChatGPT的组合,将他为英语维基百科写的一些文章翻译成因纽特语,他认为为较小的维基百科社区做点贡献会很好。他提到自己在其中一篇文章中留下了一条注释,说明这只是一个粗略的翻译。“我没觉得会有人注意到[这篇文章],”他解释说。“如果你把一些东西放在较小的维基百科上——大多数时候没有人会看。”
但与此同时,他说,他仍然希望“有人能看到它并进行修复”——他补充说,他曾想知道AI系统生成的因纽特语翻译在语法上是否正确。自他创建这篇文章以来,没有人动过它。
在温哥华教授社会科学,十年前开始编辑英语维基百科词条的李先生说,熟悉更活跃的维基百科的用户可能会陷入这种心态,他称之为“更大的维基百科傲慢”:当他们试图为较小的维基百科版本做贡献时,他们假设其他人会来纠正他们的错误。有时这确实有效。李先生说,他以前为使用数百万人的俄罗斯鞑靼语维基百科做出了几篇文章贡献,其中至少有一篇最终得到了更正。但相比之下,因纽特语维基百科是一个“荒芜的荒原”。
他强调自己的初衷是好的:他想为加拿大原住民的维基百科增加更多文章。“我现在在想,这可能是一个坏主意。我没有考虑到我可能会助长一个递归循环,”他说。“这是关于努力将内容推向世界,出于好奇心和乐趣,而没有充分考虑后果。”
“完全没有未来”
维基百科是一个由天真乐观驱动的项目。编辑工作可能吃力不讨好,涉及与面目模糊、使用化名的对象争论数周,但奉献者们投入了无偿劳动,因为他们致力于一个更高的目标。正是这种奉献精神驱动着许多小型语言的固定编辑者,我与之交谈过的那些人。他们都担心如果垃圾内容继续出现在他们的页面上会发生什么。
26岁的农业规划师阿卜杜勒卡迪尔·阿卜杜勒卡迪尔(Abdulkadir Abdulkadir)在尼日利亚北部一个繁忙的路边通过嘈杂的电话与我交谈,他说他每天花三个小时在母语“富拉尼语”的词条上修修补补。这种语言主要被萨赫勒地区(Sahel)的牧民和农民使用。“但工作太多了,”他说。
阿卜杜勒卡迪尔认为富拉尼语维基百科正常运行至关重要。他一直推荐它作为为偏远村庄农民提供的少数在线资源之一,有可能以他们能理解的语言提供有关哪些种子或作物可能最适合他们田地的信息。他告诉我,如果你给他们一篇机器翻译的文章,那么信息可能没有被正确地翻译成富拉尼语,这可能会“轻易伤害他们”。
例如,谷歌翻译说富拉尼语中“一月”的词意是“六月”,而ChatGPT则说是“八月”或“九月”。这些程序还建议“收获”的富拉尼语词意是“发烧”或“幸福”等。
阿卜杜勒卡迪尔说,他最近不得不更正一篇关于牛豆(cowpeas)的文章,这是一种横跨非洲大部分地区的基础现金作物,因为他发现它大部分内容是无法辨认的。如果有人想在富拉尼语维基百科上创建页面,阿卜杜勒卡迪尔说,他们应该手动翻译。否则,“任何阅读你文章的人甚至连基本知识都得不到,”他告诉这些维基人。尽管如此,他估计仍有大约60%的文章是未经校对的机器翻译。阿卜杜勒卡迪尔告诉我,除非AI系统的学习和部署方式发生重大变化,否则富拉尼语的前景堪忧。“说实话,情况会很糟糕,”他说。“完全没有未来。”
与阿卜杜勒卡迪尔在尼日利亚不同地区的露西·伊瓦拉(Lucy Iwuala)为居住在尼日利亚东南部,有数百万人使用的伊博语(Igbo)维基百科做出贡献。她告诉我:“伤害已经造成了,”她打开了最近创建的两个条目。两者都是通过维基百科的内容翻译自动翻译的,其中包含的错误太多,以至于她觉得读下去会头疼。“有些术语甚至没有被翻译出来。它们仍然是英语,”她指出。她认出创建这些页面的用户名是一个惯犯。“这个甚至包含伊博语中不使用的字母,”她说。
三年前,伊瓦拉开始定期为维基百科做贡献,是出于对伊博语被英语取代的担忧。这是许多活跃在较小维基百科版本中的人的共同担忧。“这是我的文化。这就是我,”她告诉我。“这一切的精髓在于:确保你不会被抹去。”
伊瓦拉现在是一名专业的英语和伊博语翻译,她说造成最大伤害的用户经验不足,他们将AI翻译视为快速提高伊博语维基百科知名度的方式。她经常在自己组织的在线编辑活动或通过电子邮件向各种容易出错的编辑解释,结果可能恰恰相反,会劝退用户:“你会感到气馁,你将不再想访问这个地方。你只会放弃它,回到英语维基百科。”
夏威夷大学夏威夷语助理教授诺亚·哈阿利利奥·所罗门(Noah Ha‘alilio Solomon)也表达了同样的担忧。他报告说,夏威夷语维基百科某些页面上大约35%的词是无法理解的。“如果这就是在线存在的夏威夷语,那它造成的伤害将比其他任何事情都大,”他说。
夏威夷语几十年前曾濒临灭绝,近年来在原住民活动家和学者的带领下正在复苏。看到如此低劣的夏威夷语出现在像维基百科这样广泛使用的平台上,让哈阿利利奥·所罗门感到不安。
“这很痛苦,因为它让我想起了我们的文化和语言被挪用的所有时刻,”他说。“我们在语言复兴的艰难跋涉中付出了艰苦的努力。这绝不轻松,这可能会增加额外的障碍。人们会认为这是对夏威夷语的准确描述。”
所有这些维基百科错误的后果会很快显现出来。那些毫无疑问地吸收了这些页面的AI翻译器现在正协助制作充斥着错误的AI生成的书籍,目标用户是学习各种语言的人,例如因纽特语和克里语(Cree)——加拿大原住民语言,以及马恩岛语(Manx)——一种在马恩岛使用的凯尔特语。其中许多书已在亚马逊上出售。“这完全是胡言乱语,”魁北克大学蒙特利尔分校的语言学家理查德·康普顿(Richard Compton)在审查一本声称是因纽特语入门短语手册时说。
AI没有使少数民族语言更容易普及,反而正在为学生和这些语言的使用者制造一个不断扩大的雷区。“这是一种侮辱,”康普顿说。他担心加拿大年轻一代,他们希望学习那些为传承其遗产而与歧视进行艰苦斗争的社区的语言,可能会转向ChatGPT等在线工具或亚马逊上的短语手册,结果只会让情况更糟。“这是一种欺诈,”他说。
与时间赛跑
根据联合国教科文组织的数据,每两周就有一种语言消亡。但维基百科的运营方维基媒体基金会是否有责任对待其平台上使用的语言,这是一个悬而未决的问题。当我和基金会的高级总监鲁娜·巴塔查里吉(Runa Bhattacharjee)交谈时,她说,平台上存在什么内容,最终取决于各个社区的决定。“归根结底,责任在于社区,要确保没有受到破坏或不希望的活动,无论是通过机器翻译还是其他手段,”她说。巴塔查里吉补充说,通常只有在出现特定投诉时,才会考虑关闭某个版本。
但如果没有活跃的社区,如何能修复一个版本甚至提出投诉呢?
巴塔查里吉解释说,在那种情况下,维基媒体基金会的角色是维护维基百科平台,以防有人前来复兴它:“我们提供了一个让他们成长和发展的空间。这就是我们目前的情况。”
因纳里萨米语(Inari Saami),这种语言仅在芬兰北部的一个偏远社区使用,是人们如何能充分利用维基百科的一个典范。这种语言在四十年前正走向灭绝;只有四个孩子会说它。他们的父母创建了因纳里萨米语语言协会,以最后的努力来维持它。这些努力奏效了。现在有几百名使用者、以因纳里萨米语为教学媒介的学校,以及该语言的6400个维基百科条目,每个条目都由一名流利的说话者进行校对。
这一成功突显了维基百科如何能确实为小型而坚定的社区提供独特的工具,以促进其语言的保存。“我们不关心数量。我们关心质量,”因纳里萨米语语言协会成员法布里奇奥·布雷恰罗利(Fabrizio Brecciaroli)说。“我们计划将维基百科用作书面语言的存储库。我们需要为年轻一代提供他们能使用的工具。让他们能够以数字方式使用因纳里萨米语非常重要。”
布雷恰罗利补充说,这非常成功,维基百科已被整合到因纳里萨米语学校的课程中。他接到老师的电话,请他撰写关于龙卷风到萨米民间传说等简单主题的页面。维基百科甚至提供了一种向因纳里萨米语引入词汇的方式。“我们必须一直创造新词,”布雷恰罗利说。“年轻人需要它们来谈论体育、政治和电子游戏。如果他们不确定如何表达某事,他们现在就会查阅维基百科。”
维基百科是一项巨大的智力实验。因纳里萨米语的情况表明,只要最大限度地小心,它可以在小型语言中发挥作用。“最终目标是确保因纳里萨米语能够存活下来,”布雷恰罗利说。“也许没有因纳里萨米语的谷歌翻译是一件好事。”
这可能是真的——尽管像ChatGPT这样的大型语言模型可以被引导去翻译传统机器翻译工具不提供的短语到语言中。布雷恰罗利告诉我,ChatGPT在因纳里萨米语方面表现不佳,但质量根据你要求它做的事情而有很大不同;如果你用该语言向它提问,那么答案将充满芬兰语单词,甚至是它编造的单词。但如果你用英语、芬兰语或意大利语向它提问,然后要求它用因纳里萨米语回答,它的表现会更好。
鉴于所有这些,尽可能多地在线创建高质量内容,成为一场与时间的赛跑。“ChatGPT只需要大量的文字,”布雷恰罗利说。“如果我们继续投入好的材料,那么迟早我们会得到一些东西。这就是希望所在。” 这是一个得到多位语言学家支持的观点——即有可能结束“垃圾进,垃圾出”的循环。(运营ChatGPT的OpenAI未回应置评请求。)
不过,总体问题可能会不断扩大,因为许多语言不像因纳里萨米语那样幸运——它们的AI翻译很可能会接受越来越多AI“垃圾”的训练。不幸的是,维尔对他心爱的格陵兰语的未来看起来不太乐观。
自删除大部分格陵兰语维基百科以来,他花了数年时间试图招募说话者来帮助他复兴它。他出现在格陵兰媒体上,并在社交媒体上发布了呼吁。但他没有得到太多回应;他说这令人灰心丧气。
“格陵兰没有人在乎这个,或者想做出贡献,”他说。“这完全没有意义,这就是为什么它应该被关闭。”
去年年底,他开始向维基百科语言委员会提出请求,要求关闭格陵兰语版本。数十名维基百科管理员之间随后进行了数月的激烈辩论;一些人似乎对一个表面上健康的版本竟被如此多问题所困扰感到惊讶。
然后,在本月早些时候,维尔的提议被接受:格陵兰语维基百科将被关闭,任何剩余的条目都将被移至维基百科孵化器(Wikipedia Incubator),在那里测试和构建新的语言版本。语言委员会引用的原因之一是使用AI工具,这些工具“经常产生可能误导该语言的无意义内容”。
然而,可能已经太晚了——格陵兰语中的错误似乎已经嵌入到机器翻译中。如果你提示谷歌翻译或ChatGPT做一些像用正确的格陵兰语数到10这样的简单事情,这两个程序都无法做到。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。
评论区