目 录CONTENT

文章目录

首次,人工智能模型分析语言的能力已达到人类专家的水平

Administrator
2025-12-16 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://www.wired.com/story/in-a-first-ai-models-analyze-language-as-well-as-a-human-expert/

原文作者:Steve Nadis


在人类拥有的众多能力中,哪些是独一无二的人类特质?至少自亚里士多德写下“人是会使用语言的动物”以来,语言就一直是首要的候选者。尽管像ChatGPT这样的大型语言模型(LLM)能表面上模仿日常言语,但研究人员仍想知道,人类语言中是否存在一些其他动物或人工智能设备交流系统中完全没有平行性的特定方面。

特别是,研究人员一直在探索语言模型在多大程度上可以对语言本身进行推理。对于语言学界的一些人来说,语言模型不仅没有推理能力,而且根本不可能拥有。这种观点在2023年被著名语言学家诺姆·乔姆斯基(Noam Chomsky)和两位合著者总结,他们在《纽约时报》上写道,“对语言的正确解释是复杂的,不能仅仅通过在海量数据中浸泡就能学会。” 这些研究人员认为,人工智能模型可能擅长使用语言,但它们无法以复杂的方式分析语言。

Image may contain Book Indoors Library Publication Adult Person Furniture Bookcase Face and Head

加州大学伯克利分校的语言学家 Gašper Beguš。

摄影:Jami Smith

这种观点在近期的一篇论文中受到了挑战。该论文由加州大学伯克利分校的语言学家Gašper Beguš、最近在伯克利获得语言学博士学位的Maksymilian Dąbkowski以及罗格斯大学的Ryan Rhodes撰写。研究人员对一系列大型语言模型(LLMs)进行了一系列语言学测试,其中一项测试是让LLM对一种虚构语言的规则进行归纳。虽然大多数LLM未能以人类能够做到的方式解析语言规则,但其中一个模型展现出了远超预期的出色能力。它能够以语言学专业研究生的方式分析语言——对句子进行图解分析、解决多种歧义含义,并利用递归等复杂的语言特征。Beguš表示,这一发现“挑战了我们对人工智能能力的理解。”

这项新工作既及时又“非常重要”,耶鲁大学计算语言学家Tom McCoy(未参与该研究)说道。“随着社会对这项技术依赖性的增加,了解它在哪里可以成功、在哪里会失败,变得越来越重要。”他补充说,语言分析是评估这些语言模型在多大程度上可以像人类一样推理的理想试验台。

无限的复杂性

对语言模型进行严格的语言学测试所面临的一个挑战是,要确保它们不会已经知道答案。这些系统通常是在海量的书面信息上进行训练的——不仅包括互联网上的大部分内容(以几十甚至上百种语言),还包括语言学教科书等材料。理论上,模型可能只是记住了并在训练过程中被喂给它们的信息。

为了避免这种情况,Beguš和他的同事设计了一个包含四个部分的语言学测试。其中三个部分要求模型使用树状图来分析专门构造的句子。树状图最早在乔姆斯基1957年的里程碑式著作《句法结构》(Syntactic Structures)中被引入。这些图表将句子分解为名词短语和动词短语,然后进一步细分为名词、动词、形容词、副词、介词、连词等。

测试的一部分侧重于递归——将短语嵌入到短语中的能力。“天空是蓝色的”(The sky is blue)是一个简单的英语句子。“简说天空是蓝色的”(Jane said that the sky is blue)则将原句嵌入到一个稍微复杂一点的句子中。重要的是,这种递归过程可以无限进行:“玛丽亚想知道萨姆是否知道奥马尔听说简说天空是蓝色的”(Maria wondered if Sam knew that Omar heard that Jane said that the sky is blue)也是一个语法正确但有些拗口的递归句子。

乔姆斯基等人称递归是人类语言的一个定义特征——事实上,可能是人类思维的一个定义特征。语言学家们认为,递归的无限潜力赋予了人类语言用有限的词汇和一套有限的规则生成无限可能句子的能力。到目前为止,还没有令人信服的证据表明其他动物能以复杂的方式使用递归。

递归可以发生在句子的开头或结尾,但最难掌握的形式是中心嵌入(center embedding),它发生在句子的中间——例如,从“猫死了”(the cat died)变为“猫狗咬了死了”(the cat the dog bit died)。

Beguš的测试向语言模型输入了30个包含棘手递归案例的原始句子。例如:“古人我们所崇敬的天文学知识[The astronomy the ancients we revere studied]并非独立于占星术。”使用句法树,其中一个语言模型——OpenAI的o1——成功确定了句子的结构如下:

The astronomy [the ancients [we revere] studied] was not separate from astrology.

该模型更进一步,向句子中添加了另一层递归:

The astronomy [the ancients [we revere [who lived in lands we cherish]] studied] was not separate from astrology.

Beguš和其他人都没有预料到,这项研究会遇到一个具有更高层次的“元语言”(metalinguistic)能力的AI模型——正如他所说,这是一种“不仅能使用语言,还能思考语言”的能力。

卡内基梅隆大学的计算语言学家David Mortensen(未参与该工作)表示,这是他们论文中“引人注目的”方面之一。一直以来存在争议,语言模型究竟是仅仅在预测句子中的下一个词(或语言标记),这与人类对语言的深度理解在本质上是不同的。Mortensen说:“语言学界有些人认为LLM并没有真正地在做语言处理。这似乎是对那些说法的否定。”

你是什么意思?

McCoy对o1的整体表现感到惊讶,尤其是它识别歧义的能力,他说这“是计算语言模型出了名难以捕捉的难题”。他说:“人类拥有大量的常识知识,使我们能够排除歧义。但计算机很难拥有这种程度的常识知识。”

一个句子,比如“Rowan fed his pet chicken”(罗文喂了他的宠物鸡),可以描述罗文饲养的那只鸡,也可以描述他喂给(可能是更传统)的动物伙伴的鸡肉餐。o1模型成功地生成了两个不同的句法树,一个对应于句子的第一种解释,另一个对应于第二种解释。

研究人员还进行了与音系学(phonology)相关的实验——即研究声音的模式以及最小的声音单位(称为音素)的组织方式。为了像母语者一样流利地说话,人们会遵循一些他们可能通过练习而不是明确教导而获得的音韵规则。在英语中,例如,给以“g”结尾的单词添加“s”,会产生“z”的声音,如“dogs”中的“s”发音为[z]。但给以“t”结尾的单词添加“s”,听起来更像是标准的“s”,如“cats”中的“s”发音为[s]。

在音系学任务中,该小组创建了30种新的“迷你语言”,正如Beguš所称,以测试LLM是否能在没有先验知识的情况下正确推断出音韵规则。每种语言包含40个虚构单词。以下是其中一种语言的一些示例单词:

θalp
ʃebre
ði̤zṳ
ga̤rbo̤nda̤
ʒi̤zṳðe̤jo

然后他们要求语言模型分析每种语言的音韵过程。对于这种语言,o1正确地写道:“当一个元音紧接在一个既浊音又是塞音(通过限制气流形成的声音,如‘top’中的‘t’)的辅音之前时,它会变成一个气息元音。”

这些语言是全新发明的,所以o1不可能在训练中接触到它们。Mortensen说:“我没有预料到结果会如此有力或如此令人印象深刻。”

独一无二的人类,还是并非如此?

这些语言模型能走多远?它们是否会仅仅通过增大规模——增加更多的计算能力、复杂性和训练数据而无限进步?或者,人类语言的某些特征是否是仅限于我们物种的进化过程的结果?

最新结果表明,这些模型原则上可以进行复杂的语言分析。但到目前为止,还没有任何模型能提出原创性的东西,也还没有告诉我们关于语言的任何我们之前不知道的事情。

如果改进仅仅是增加计算能力和训练数据的问题,那么Beguš认为语言模型最终将在语言技能上超越我们。Mortensen表示,目前的模型存在一定的局限性。“它们被训练去做非常具体的事情:给定一个标记(或单词)的历史,预测下一个标记,”他说。“由于它们的训练方式,它们在泛化方面遇到了一些困难。”

但鉴于近期的进展,Mortensen表示他看不出为什么语言模型最终不会表现出比我们自己更好的语言理解能力。“我们迟早能构建出能够从更少的数据中以更具创造性的方式进行泛化的模型。”

Beguš说,新的结果显示了对那些曾被认为是人类语言专属的特性的持续“蚕食”。“看来,我们并不像我们以前认为的那样独特。”


经《Quanta Magazine》许可转载,《Quanta Magazine》是西蒙斯基金会(Simons Foundation)的独立出版物,其使命是通过报道数学、物理和生命科学领域的研究发展和趋势,增进公众对科学的理解。



🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区