📢 转载信息
原文链接:https://www.technologyreview.com/2025/09/25/1124005/ai-wikipedia-vulnerable-languages-doom-spiral/
原文作者:MIT Technology Review (Jacob Judah)
## 警惕:机器翻译正在毒化维基百科,AI模型恐被“垃圾信息”污染
四年前,26岁的肯尼思·韦尔(Kenneth Wehr)接管格陵兰语版维基百科时,他的第一件事就是删除了几乎所有的内容。他认为,只有这样,这个语言版本才有可能存活下来。
韦尔并非格陵兰本地人,他在德国长大,但在青少年时期访问格陵兰岛后便对这个丹麦自治领地产生了浓厚的兴趣。他花费数年时间,用自己的母语为这个岛屿撰写了大量关于它的冷门维基百科条目。最终,他甚至搬到了哥本哈根学习格陵兰语,这种语言主要由大约57,000名分散在北极众多偏远村庄的因纽特原住民使用。
格陵兰语维基百科大约在2003年,即英文版推出几年后被创建。当韦尔接管时,近20年来已有数百名维基百科人(Wikipedians)为之贡献,共同撰写了约1500篇文章,总计数万字。这似乎是对维基百科众包模式的有力证明,显示了其即使在最不可能的地方也能发挥作用。
一个危机的开端:机器翻译的“海市蜃楼”
然而,只有一个问题:格陵兰语维基百科是一个海市蜃楼。
几乎每一篇文章都是由那些实际上并不懂格陵兰语的人发布的。韦尔推测,可能只有一两个格陵兰人真正做出了贡献。但最让他担忧的是:他注意到越来越多的文章似乎是有人使用机器翻译工具复制粘贴到维基百科中的。这些文章充满了基础性错误——从语法上的失误到无意义的词语,再到更重大的不准确之处,比如一篇条目声称加拿大只有41个居民。其他页面有时包含机器随机吐出的一串字母,因为机器无法找到合适的格陵兰语词汇来表达自己。
“这对[作者们]来说可能看起来像格陵兰语,但他们根本不知道,”韦尔抱怨道。“句子完全不通顺,或者有明显的错误。AI翻译对格陵兰语来说非常糟糕。”
AI时代的“数据诅咒”
韦尔描述的现象并非格陵兰语独有。维基百科是继《圣经》之后最宏大的多语言项目:它有超过340种语言的版本,还有近400种更晦涩的版本正在开发和测试中。随着人工智能的普及,许多较小的版本已经被自动翻译的内容淹没。
据MIT Technology Review对四种非洲语言维基百科志愿者的采访估计,在其版本中,有40%到60%的文章是未经校对的机器翻译。在审核了与格陵兰语相近的加拿大原住民语言伊努克提图特语(Inuktitut)的维基百科版本后,MIT Technology Review估计,超过三分之二的包含多句内容的页面都包含此类内容。
这开始引发一个“棘手问题”(wicked problem)。从谷歌翻译到ChatGPT,人工智能系统通过抓取互联网上大量的文本来学习“说”新语言。对于那些说的人很少的语言来说,维基百科有时是其最大的在线语言数据来源——因此,这些页面上的任何错误,无论是语法还是其他方面,都可能污染AI模型的训练源头。这可能导致模型对这些语言的翻译特别容易出错,从而形成一种“语言末日循环”:人们继续使用这些工具添加更多、更差的机器翻译维基百科页面,而AI模型则继续从这些质量低劣的页面中学习。问题很复杂,但归结为一个简单的概念:“垃圾进,垃圾出”(Garbage in, garbage out)。
高质量数据稀缺的后果
圣路易斯大学计算机科学前教授、现从事为濒危语言定制软件开发的凯文·斯坎内尔(Kevin Scannell)表示:“这些模型是建立在原始数据之上的。它们会尝试从零开始学习一种语言的所有知识。没有其他输入。没有语法书。没有词典。除了输入的文本外,什么都没有。”
目前没有关于问题规模的完美数据,特别是考虑到许多AI训练数据是保密的,并且该领域发展迅速。但早在2020年,就有估计表明,维基百科构成了输入到AI模型中的训练数据的一半以上,用于翻译包括马达加斯加语、约鲁巴语和绍纳语在内的数百万非洲人口使用的语言。2022年,一个德国研究团队对在线抓取可获得的数据进行研究时发现,对于27种资源匮乏的语言来说,维基百科是唯一易于获取的在线语言数据来源。
这可能在维基百科内容质量低劣的情况下产生重大影响——可能会将地球上最脆弱的语言推向悬崖边缘,因为后代可能会转而抛弃它们。
挪威特罗姆瑟大学计算语言学家特隆德·特罗斯特鲁德(Trond Trosterud)多年来一直对运行不善的维基百科版本可能产生的有害后果敲响警钟。他说:“维基百科将被反映在这些语言的AI模型中。我很难想象这不会产生后果。当然,维基百科的地位越稳固,情况就越糟。”
滥用工具:维基百科的“劫持者”
自动化自维基百科诞生之初就存在。机器人负责维护平台:它们修复损坏的链接、整理格式,甚至纠正拼写错误。这些重复性的、琐碎的任务可以被轻松自动化,通常能让平台变得更好。甚至还有一支机器人队伍,通过将河流、城市或动物的名字填入公式化的短语中,来生成关于它们的简短文章。
但AI是不同的。任何人都可以用它在几下点击中造成巨大的破坏。维基百科在应对AI时代方面做得比许多其他网站要好。它没有像社交媒体那样被AI机器人或虚假信息淹没,在很大程度上保留了早期互联网时代的纯真。维基百科开放且免费供任何人使用、编辑和引用,并由它所服务的社区运营。它透明且易于使用。但社区运营的平台兴衰取决于其社区规模。英语取得了胜利,而格陵兰语则陷入了困境。
监督维基百科版本开设或关闭请求的志愿者语言委员会成员阿米尔·阿哈罗尼(Amir Aharoni)说:“我们需要优秀的维基百科人。这是人们理所当然的事情,它不是魔法。如果你负责任地使用机器翻译,它可以很高效、很有用。不幸的是,你不能指望所有人都负责任地使用它。”
特罗斯特鲁德研究了小型维基百科版本上的用户行为,他表示AI赋予了一群他称为“维基百科劫持者”(Wikipedia hijackers)的群体权力。这些用户各不相同——从创建关于他们家乡或最喜欢的YouTuber页面的天真青少年,到那些认为通过创建少数民族语言的文章就是在“帮助”这些社区的善意维基百科人。
“他们现在装备了谷歌翻译,”特罗斯特鲁德说,并补充说,这使得他们能够生成比以往更长、更逼真的内容:“以前他们只装备了词典。”
这有效地“工业化”了破坏行为——最受影响的是弱势语言,因为AI翻译对它们通常可靠性要低得多。这可能有许多不同的原因,但一个重要的问题是网络上可用的源文本量相对较少。有时模型难以识别一种语言,因为它与其他语言相似,或者因为某些语言(包括格陵兰语和大多数美洲原住民语言)的结构使其不适合大多数机器翻译系统的工作方式。(韦尔指出,在格陵兰语中,大多数词是黏着的,即通过在词干上附加前缀和后缀构成。结果是,许多词的含义高度依赖于上下文,可以表达在其他语言中需要一整句话才能表达的意思。)
谷歌翻译声称,富拉尼语(Fulfulde)中“一月”的意思是“六月”,而ChatGPT则说是“八月”或“九月”。这些程序还建议“收获”的富拉尼语意思可能是“发烧”或“幸福”。
谷歌在三年前全面扩展谷歌翻译之前进行的研究发现,资源较少的语言的翻译系统的质量通常低于资源较丰富的语言。研究人员发现,例如,他们的模型经常会错误地翻译基本的名词,包括动物和颜色的名称。(MIT Technology Review向谷歌征求意见时,谷歌表示,它“致力于通过严格测试和改进[其]系统,为支持的全部249种语言提供高质量的服务,特别是针对网络上可能只有有限公开文本资源的语言。”)
善意之举带来的反效果
维基百科本身提供了一个名为“内容翻译”(Content Translate)的内置编辑工具,允许用户将文章从一种语言自动翻译到另一种语言——其目的是通过保留原文的引用和复杂的格式来节省时间。但它依赖于外部机器翻译系统,因此它基本上受困于与其他机器翻译系统相同的弱点——维基媒体基金会表示这是一个难以解决的问题。是否允许使用此工具,由每个版本的社区决定,有些社区选择禁止它。(值得注意的是,英语维基百科在很大程度上禁止了它的使用,声称使用“内容翻译”创建的文章中约有95%在没有大量额外工作的情况下未能达到可接受的标准。)但至少可以轻松判断程序是否被使用过;Content Translate会在维基百科后台添加一个标签。
其他AI程序则更难监控。尽管如此,许多我交谈过的维基百科编辑者表示,一旦他们的语言被添加到主要的在线翻译工具中,他们就注意到了大量不良、很可能是机器翻译页面的创建频率有所增加。
一些使用AI翻译内容的维基百科人偶尔会承认他们不懂目标语言。他们可能认为自己是在为较小的社区提供粗略的文章草稿,供懂该语言的人修复——基本上遵循了对更活跃的维基百科版本行之有效的模式。
加拿大教师余文李(Yuet Man Lee)说,他使用谷歌翻译和ChatGPT的组合,将他为英语维基百科撰写的一些文章翻译成伊努克提图特语,他认为为较小的维基百科社区做点贡献会很好。他提到自己在一篇文章中添加了说明,说明这只是一个粗略的翻译。“我没想到会有人注意到[这篇文章],”他解释道。“如果你在小型维基百科上发布一些东西——大多数时候没人会管。”
但同时,他说,他仍然认为“可能有人会看到并修复它”——并补充说,他曾想知道AI系统生成的伊努克提图特语翻译在语法上是否正确。自从他创建那篇文章以来,没有人动过它。
李先生十年前开始编辑英语维基百科,他强调说,熟悉更活跃维基百科的用户可能会陷入这种心态,他称之为“大型维基百科傲慢”(bigger-Wikipedia arrogance):当他们试图为较小的维基百科版本做贡献时,他们假设其他人会来修复他们的错误。有时这确实有效。李说他以前曾为鞑靼语(一种主要在俄罗斯使用的有数百万人说的语言)维基百科贡献了几篇文章,其中至少有一篇最终被纠正了。但相比之下,伊努克提图特语维基百科是一个“贫瘠的荒地”。
他强调自己的意图是好的:他想为加拿大原住民维基百科添加更多文章。“我现在认为这可能是一个坏主意。我没有考虑到我可能正在促成一个递归循环,”他说。“这是关于把内容放出去,出于好奇和好玩,而没有充分考虑后果。”
“完全没有未来”的绝望预言
维基百科是一个由“异想天开的乐观主义”驱动的项目。编辑工作可能吃力不讨好,需要花数周时间与匿名、化名的用户争论,但忠实拥护者们投入了无偿劳动,是因为他们对更高的目标有所承诺。正是这种承诺驱动着我交谈过的小语种的许多常规编辑者。他们都担心如果垃圾信息继续出现在他们的页面上会发生什么。
26岁的农业规划师阿卜杜勒卡迪尔·阿卜杜勒卡迪尔(Abdulkadir Abdulkadir)在尼日利亚北部一个繁忙的路边通过信号不佳的电话告诉我,他每天花三个小时修改他的母语富拉尼语(主要被萨赫勒地区(Sahel)的牧民和农民使用)的条目。“但工作太多了,”他说。
阿卜杜勒卡迪尔认为富拉尼语维基百科必须正常运作,这非常紧迫。他一直在建议它作为为偏远村庄农民提供的在线资源之一,可能提供有关哪些种子或作物最适合他们田地的信息,而且是用他们能理解的语言。他告诉我,如果你给他们一篇机器翻译的文章,那可能会“轻易地伤害他们”,因为信息很可能没有被正确翻译成富拉尼语。
阿卜杜勒卡迪尔说,他最近不得不纠正一篇关于豇豆(非洲大部分地区的基础经济作物)的文章,因为它基本上是不可读的。如果有人想在富拉尼语维基百科上创建页面,他说,他们应该手动翻译。否则,“任何阅读你文章的人将无法获得哪怕是最基本的知识,”他告诉这些维基百科人。然而,他估计仍有大约60%的文章是未经校对的机器翻译。阿卜杜勒卡迪尔告诉我,除非AI系统学习和部署方式发生重大变化,否则富拉尼语的前景看起来黯淡。“说实话,这会很糟糕,”他说。“完全、彻底没有未来。”
在尼日利亚东南部,与阿卜杜勒卡迪尔隔省的露西·伊瓦拉(Lucy Iwuala)为易格博语(Igbo,一种被数百万人使用的语言)维基百科做贡献。她告诉我,“伤害已经造成了”,她打开了最近创建的两篇文章。这两篇都是通过维基百科的“内容翻译”自动翻译的,错误多到她表示继续阅读下去都会头疼。“有些术语甚至没有被翻译,它们仍然是英语,”她指出。她认出创建这些页面的用户名是一个惯犯。“这个人甚至包含了易格博语中不存在的字母,”她说。
伊瓦拉三年前开始定期为维基百科做贡献,是因为担心易格博语正在被英语取代。这是许多在较小维基百科版本上活跃的人的共同担忧。“这是我的文化。这就是我,”她说。“这件事情的精髓是:确保你不会被抹去。”
语言复兴与技术阻碍
伊瓦拉现在是一名英语和易格博语的专业译员,她说造成最大损害的用户是缺乏经验的,他们将AI翻译视为快速提升易格博语维基百科知名度的方法。她经常需要在她组织的在线编辑马拉松或通过电子邮件告知各种易出错的编辑者,AI翻译的结果可能是适得其反的,会把用户推开:“你会感到沮丧,你将不再想访问这个地方。你只会放弃它,回到英语维基百科。”
夏威夷大学夏威夷语助理教授诺亚·哈阿利利奥·所罗门(Noah Ha‘alilio Solomon)也表达了同样的担忧。他报告说,夏威夷语维基百科某些页面上大约35%的词汇是无法理解的。“如果这就是将在网上存在的夏威夷语,那它造成的伤害将是最大的,”他说。
夏威夷语几十年前曾濒临灭绝,近年来在原住民活动家和学者的领导下正在复苏。在像维基百科这样广泛使用的平台上看到如此糟糕的夏威夷语,让哈阿利利奥·所罗门感到痛心。
“这很痛苦,因为它让我想起了我们的文化和语言被挪用的所有时刻,”他说。“我们在语言复兴的道路上付出了艰苦的努力。那一点都不容易,而这可能会增加额外的障碍。人们会认为这是夏威夷语的准确表述。”
所有这些维基百科错误的后果可能很快就会显现出来。那些无疑已经摄入了这些页面的AI翻译器,现在正在帮助制作针对诸如加拿大因纽特语和克里语(Cree)、以及马恩岛(Isle of Man)凯尔特语系曼恩语(Manx)等语言学习者的错误百出的AI生成书籍。其中许多书正在亚马逊上出售。蒙特利尔魁北克大学语言学家理查德·康普顿(Richard Compton)评价一本他审阅过的、声称是伊努克提图特语入门短语手册的书时说:“它就是一堆废话。”
AI没有让少数民族语言更容易普及,反而正在为学生和这些语言的使用者创造一个不断扩大的“雷区”。康普顿说:“这是一种侮辱。”他担心加拿大年轻一代,他们在社区中为传承其文化遗产而付出了艰苦的努力,可能会转向ChatGPT或亚马逊上的短语手册等在线工具,结果只会让事情变得更糟。“这是一种欺诈。”
与时间赛跑
根据联合国教科文组织的报告,每两周就有一种语言消亡。但维基百科的运营机构维基媒体基金会是否有责任对待其平台上使用的语言,仍然是个悬而未决的问题。当我和基金会的高级总监鲁娜·巴塔查里吉(Runa Bhattacharjee)交谈时,她说,社区应自行决定他们希望存在于其维基百科上的内容。“归根结底,责任在于社区,要确保没有破坏或不希望发生的活动,无论是通过机器翻译还是其他方式,”她说。巴塔查里吉补充说,通常只有在出现特定投诉时,才会考虑关闭某个版本。
但如果没有活跃的社区,一个版本如何才能得到修复,甚至如何能提出投诉呢?
巴塔查里吉解释说,维基媒体基金会在这种情况下扮演的角色是为维基百科平台提供维护,以防有人前来复兴它:“我们为他们提供了一个可以成长和发展的空间。这就是我们目前的状态。”
芬兰北部一个偏远社区使用的因阿里萨米语(Inari Saami)是人们能充分利用维基百科的一个典范。这种语言在四十年前正走向灭亡;只有四个孩子会说这种语言。他们的父母创建了“因阿里萨米语语言协会”,试图做最后的努力来延续它。这些努力奏效了。现在有几百名使用者,有使用因阿里萨米语作为教学媒介的学校,以及6400篇该语言的维基百科文章,每一篇都由流利的说话者进行了复制编辑。
这一成功凸显了维基百科确实可以为小型而坚定的社区提供一个独特的载体来推广其语言的保存工作。因阿里萨米语语言协会的成员法布里奇奥·布雷恰罗利(Fabrizio Brecciaroli)说:“我们不关心数量。我们关心质量。我们计划将维基百科用作书面语言的知识库。我们需要为年轻一代提供可以使用工具。对他们来说,能够在数字世界中使用因阿里萨米语至关重要。”
布雷恰罗利补充说,维基百科的成功使得它被整合到使用因阿里萨米语的学校的课程中。他接到了老师的电话,请他为龙卷风到萨米民间传说等主题撰写简单的页面。维基百科甚至为因阿里萨米语提供了一种引入新词汇的方式。“我们必须不断创造新词,”布雷恰罗利说。“年轻人需要它们来谈论体育、政治和电子游戏。如果他们不确定如何说某事,他们现在就会查维基百科。”
维基百科是一项巨大的智力实验。因阿里萨米语的情况表明,通过最大程度的谨慎,它可以在较小的语言中发挥作用。“我们的最终目标是确保因阿里萨米语能够生存下去,”布雷恰罗利说。“也许因阿里萨米语没有谷歌翻译是一个好事情。”
这可能是事实——尽管像ChatGPT这样的大型语言模型可以被引导去翻译传统机器翻译工具不提供的短语。
布雷恰罗利告诉我,ChatGPT在因阿里萨米语方面表现不佳,但质量因你要求它做什么而有很大不同;如果你用该语言提问,那么答案就会充满芬兰语的词汇,甚至它自己编造的词汇。但如果你用英语、芬兰语或意大利语提问,然后要求它用因阿里萨米语回答,它的表现就会更好。
鉴于所有这些,尽可能多地创建高质量的在线内容成为一场与时间的赛跑。“ChatGPT只需要大量的词汇,”布雷恰罗利说。“如果我们不断地输入好的材料,那么迟早我们会得到一些好的输出。这就是希望所在。”这是多位语言学家支持的观点——即有可能结束“垃圾进,垃圾出”的循环。(ChatGPT的运营方OpenAI未回应置评请求。)
尽管如此,鉴于许多语言不像因阿里萨米语那样幸运——它们的AI翻译很可能将以越来越多的“AI垃圾”为食进行训练——整体问题可能会不断扩大。
格陵兰语的终局
不幸的是,韦尔似乎对他的挚爱——格陵兰语的未来——不那么乐观。
自删除大部分格陵兰语维基百科以来,他花了数年时间试图招募说话者来帮助他复兴它。他出现在格陵兰媒体上,并在社交媒体上发布了呼吁。但他没有得到什么回应;他说这令人感到沮丧。
“格陵兰岛上没有人对这个感兴趣,或想做出贡献,”他说。“这完全没有意义,这就是它应该被关闭的原因。”
去年底,他启动了要求维基百科语言委员会关闭格陵兰语版本的程序。在几十名维基百科管理人员之间,随之而来的是几个月的激烈辩论;有些人似乎对一个表面上健康的版本被如此多问题所困扰感到惊讶。
然后,在本月初,韦尔的提议被接受:格陵兰语维基百科即将关闭,任何剩余的文章将被转移到“维基百科孵化器”(Wikipedia Incubator),这是一个测试和构建新语言版本的地方。语言委员会引用的原因之一是AI工具的使用,“这些工具频繁产生可能歪曲该语言的无意义内容。”
然而,可能已经太晚了——格陵兰语的错误似乎已经嵌入到机器翻译中。如果你提示谷歌翻译或ChatGPT用正确的格陵兰语数到10,这两个程序都做不到。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。
评论区