目 录CONTENT

文章目录

首次,AI分析语言的能力达到人类专家的水平

Administrator
2025-12-15 / 0 评论 / 0 点赞 / 1 阅读 / 0 字

📢 转载信息

原文链接:https://www.wired.com/story/in-a-first-ai-models-analyze-language-as-well-as-a-human-expert/

原文作者:Steve Nadis


这篇原文发表于《量子杂志》(Quanta Magazine)

在人类拥有的众多能力中,哪些是人类独有的?至少自亚里士多德以来,语言就一直是首要的候选者,他曾写道,人类是“拥有语言的动物”。尽管像ChatGPT这样的大型语言模型(LLM)能够表面上模仿日常言语,但研究人员想知道是否存在某些特定的人类语言方面,在其他动物或人工智能设备的交流系统中是完全没有平行的。

特别是,研究人员一直在探索语言模型对语言本身进行推理的程度。对于语言学界的一些人来说,语言模型不仅具备推理能力,而且是不能具备的。这种观点在2023年被著名语言学家诺姆·乔姆斯基(Noam Chomsky)和两位合著者在一篇《纽约时报》文章中总结道,他们写道“对语言的正确解释是复杂的,不能仅通过在大数据中‘浸泡’就能学到。” 这些研究人员认为,人工智能模型可能擅长使用语言,但它们无法以复杂的方式分析语言。

Image may contain Book Indoors Library Publication Adult Person Furniture Bookcase Face and Head

加州大学伯克利分校的语言学家 Gašper Beguš。

摄影:Jami Smith

这一观点受到了加州大学伯克利分校语言学家Gašper Beguš、最近在伯克利获得语言学博士学位的Maksymilian Dąbkowski以及罗格斯大学的Ryan Rhodes最近发表的一篇论文的挑战。研究人员对许多大型语言模型(LLM)进行了一系列语言学测试——其中一项测试是让LLM推导出一种虚构语言的规则。虽然大多数LLM未能像人类那样解析语言规则,但其中一个模型展现出了远远超出预期的出色能力。它能够以语言学研究生进行语言分析的同等方式进行分析——对句子进行图解、解决多种歧义含义,并利用递归等复杂的语言特征。Beguš表示,这一发现“挑战了我们对人工智能能力的理解。”

这项新工作“及时且非常重要,”耶鲁大学计算语言学家Tom McCoy(未参与该研究)说。“随着社会对这项技术越来越依赖,了解它在哪里可以成功、在哪里会失败,就变得越来越重要。”他补充说,语言分析是评估这些语言模型在多大程度上可以像人类一样进行推理的理想试验台。

无限的复杂性

对语言模型进行严格的语言学测试的一个挑战是确保它们并非已经知道答案。这些系统通常使用海量的书面信息进行训练——不仅包括互联网的大部分内容,涉及数十种甚至数百种语言,还包括语言学教科书等。理论上,这些模型可能只是简单地记住了并在训练过程中被喂给它们的信息。

为了避免这种情况,Beguš和他的同事创建了一个四部分的语言学测试。其中三个部分涉及要求模型使用树状图来分析专门构造的句子,这种图表首次出现在乔姆斯基1957年的里程碑式著作《句法结构》(Syntactic Structures)中。这些图表将句子分解为名词短语和动词短语,然后进一步细分为名词、动词、形容词、副词、介词、连词等。

测试的一个部分侧重于递归——将短语嵌入到短语中的能力。“天空是蓝色的”是一个简单的英语句子。“简说天空是蓝色的”将原句嵌入到一个稍微复杂一点的句子中。重要的是,这种递归过程可以无限进行:“玛丽亚想知道萨姆是否知道奥马尔听说了简说天空是蓝色的”也是一个语法正确但略显笨拙的递归句子。

乔姆斯基等人称递归是人类语言的定义特征之一——事实上,也许是人类思维的定义特征之一。语言学家们认为,它的无限潜力赋予了人类语言能力,使其能够用有限的词汇和有限的规则集生成无限数量的可能句子。到目前为止,还没有令人信服的证据表明其他动物能够以复杂的方式使用递归。

递归可以发生在句子的开头或结尾,但最难掌握的形式被称为中心嵌入,它发生在句子中间——例如,从“猫死了”变为“猫狗咬了死了。”

Beguš的测试向语言模型输入了30个包含棘手递归示例的原始句子。例如:“我们所崇敬的天文学知识是与占星术分开的。”使用句法树,其中一个语言模型——OpenAI的o1——能够确定句子的结构如下:

天文学 [古代人 [我们所崇敬的] 研究的] 并非与占星术分开。

该模型接着更进一步,向该句子中添加了另一层递归:

天文学 [古代人 [我们所崇敬的 [生活在我们珍视的土地上的人们]] 研究的] 并非与占星术分开。

Beguš和其他人一样,没有预料到这项研究会遇到一个具有更高层次“元语言”(metalinguistic)能力的AI模型——正如他所说,“不仅是使用语言,还能思考语言的能力。”

卡内基梅隆大学计算语言学家David Mortensen(未参与该项工作)称,这是他们论文中“引人注目”的方面之一。关于语言模型究竟是简单地预测句子中的下一个词(或语言标记),与人类对语言的深刻理解是否存在本质区别,一直存在争论。“一些语言学界的人说LLM并不是真正地在做语言,”他说。“这看起来像是对这些说法的否定。”

你是什么意思?

McCoy对o1的整体表现感到惊讶,特别是它识别歧义的能力,他认为这是“计算语言模型出了名地难以捕捉的难题,”他说。人类“拥有大量的常识知识,使我们能够排除歧义。但计算机很难拥有这种程度的常识知识。”

像“Rowan给他的宠物鸡喂食”这样的句子,可能指的是Rowan饲养的鸡,也可能是指他给(可能更传统的)动物伴侣喂食的鸡肉大餐。o1模型正确地生成了两个不同的句法树,一个对应于句子的第一种解释,另一个对应于第二种解释。

研究人员还进行了与音位学相关的实验——这是研究声音模式以及最小声音单位(称为音素)如何组织的研究。为了像母语者一样流利说话,人们会遵循他们可能通过练习获得但从未被明确教授的音位规则。例如,在英语中,将“s”添加到以“g”结尾的单词会产生“z”的声音,如“dogs”(狗们)。但添加到以“t”结尾的单词上的“s”听起来更像是标准的“s”,如“cats”(猫们)。

在音位学任务中,该小组创造了30种新的“微型语言”(mini-languages),以找出LLM在没有任何先验知识的情况下是否能正确推断出音位规则。每种语言由40个虚构的单词组成。以下是一个语言的一些示例词:

θalp
ʃebre
ði̤zṳ
ga̤rbo̤nda̤
ʒi̤zṳðe̤jo

然后他们要求语言模型分析每种语言的音位过程。对于这种语言,o1正确地写道,“当一个元音紧随一个既清又塞音(如“top”中的“t”)的辅音之前时,它会变成一个气息音(breathy vowel)。”

这些语言是新发明的,所以o1不可能在训练过程中接触到它们。“我没有预料到结果会如此有力或如此令人印象深刻,”Mortensen说。

人类独有还是并非如此?

这些语言模型能走多远?它们会仅仅通过增大规模——增加更多的计算能力、复杂性和训练数据——而无限制地变得更好吗?或者人类语言的一些特征是物种特有的进化过程的结果?

最近的结果表明,这些模型原则上可以进行复杂的语言分析。但还没有任何模型提出了原创性的见解,也没有教会我们关于语言的新知识。

如果改进仅仅是增加计算能力和训练数据的问题,那么Beguš认为语言模型最终将在语言技能上超越人类。Mortensen表示,目前的模型存在一定的局限性。“它们的训练目的非常具体:给定一系列标记(或单词),预测下一个标记,”他说。“由于它们的训练方式,它们在泛化方面遇到了一些困难。”

但考虑到近期的进展,Mortensen表示,他看不出语言模型未来无法展现出比我们自己更好的语言理解能力。“我们迟早能构建出那些能够从更少的数据中以更具创造性的方式进行泛化的模型。”

Beguš说,新的结果显示出对那些曾被认为是人类语言专属领域的特性的持续“蚕食”。“看来,我们不如我们以前认为的那么独特了。”


原文经《量子杂志》授权转载,《量子杂志》是一个由西蒙斯基金会(Simons Foundation)资助的独立出版物,其使命是通过报道数学、物理和生命科学领域的研究进展和趋势,增进公众对科学的理解。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区