📢 转载信息
原文链接:https://www.wired.com/story/in-a-first-ai-models-analyze-language-as-well-as-a-human-expert/
原文作者:Steve Nadis
该故事的原始版本发表于 Quanta Magazine。
在人类拥有的众多能力中,哪些是人类独有的?至少自亚里士多德以来,语言一直是首要的人选,他曾写道人类是“有语言的动物”。尽管像ChatGPT这样的大型语言模型(LLM)在表面上模仿日常言语,但研究人员想知道是否存在人类语言的特定方面,是其他动物或人工智能设备的交流系统中完全没有平行之处的。
特别是,研究人员一直在探索语言模型在多大程度上可以推理语言本身。对于语言学界的一些人来说,语言模型不仅不具备推理能力,而且无法具备。这种观点在2023年被著名语言学家诺姆·乔姆斯基(Noam Chomsky)和两位合著者在《纽约时报》上总结,他们写道:“对语言的正确解释是复杂的,不能仅通过在海量数据中‘浸泡’就能学到。”这些研究人员认为,人工智能模型可能擅长使用语言,但它们无法进行复杂的语言分析。

加州大学伯克利分校的语言学家 Gašper Beguš。
摄影:Jami Smith这一观点最近被加州大学伯克利分校的语言学家Gašper Beguš、刚获得伯克利语言学博士学位的Maksymilian Dąbkowski以及罗格斯大学的Ryan Rhodes发表的一篇论文所挑战。研究人员对许多大型语言模型(LLM)进行了一系列语言学测试,其中包括一项测试,要求LLM对一种虚构的语言进行规则归纳。虽然大多数LLM未能像人类那样解析语言规则,但其中一个模型展现出了超出预期的惊人能力。它能够以语言学研究生分析语言的方式进行分析——对句子进行树状图解析、解决多种歧义含义,并利用递归等复杂的语言特征。Beguš说,这一发现“挑战了我们对人工智能能力的理解。”
这项新工作“非常及时且非常重要”,耶鲁大学计算语言学家Tom McCoy(未参与此研究)表示。“随着社会对这项技术的依赖性越来越大,了解它在哪里能成功、在哪里会失败变得越来越重要。”他补充说,语言分析是评估这些语言模型在多大程度上可以像人类一样进行推理的理想试验场。
无限的复杂性
对语言模型进行严格的语言学测试时面临的一个挑战是,必须确保它们事先不知道答案。这些系统通常在海量的书面信息上进行训练——不仅包括互联网的大部分内容,涵盖几十甚至数百种语言,还包括语言学教科书等材料。理论上,这些模型可能只是记住了并在训练过程中被喂给它们的信息。
为了避免这种情况,Beguš和他的同事设计了一个包含四个部分的语言学测试。其中三个部分涉及要求模型使用树状图(tree diagrams)来分析专门构建的句子。这些图表最早在乔姆斯基1957年的里程碑式著作《句法结构》中被引入。这些图表将句子分解为名词短语和动词短语,然后进一步细分为名词、动词、形容词、副词、介词、连词等。
测试的一个部分侧重于递归——将短语嵌入到短语中的能力。“The sky is blue”(天空是蓝色的)是一个简单的英语句子。“Jane said that the sky is blue”(简说天空是蓝色的)则将原句嵌入到一个稍微复杂一点的句子中。重要的是,这个递归过程可以无限进行:“Maria wondered if Sam knew that Omar heard that Jane said that the sky is blue”(玛丽亚想知道萨姆是否知道奥马尔听说简说了天空是蓝色的)也是一个语法正确但可能有点别扭的递归句。
乔姆斯基等人称递归是人类语言的一个定义特征——甚至可能是人类思维的一个定义特征。语言学家认为,递归的无限潜力赋予了人类语言能力,即能够用有限的词汇和一套有限的规则生成无限数量的可能句子。到目前为止,没有令人信服的证据表明其他动物能够以复杂的方式使用递归。
递归可以发生在句子的开头或结尾,但最难掌握的形式是中心嵌入(center embedding),它发生在句子的中间——例如,从“the cat died”(猫死了)变为“the cat the dog bit died”(猫——狗咬了那只猫——死了)。
Beguš的测试向语言模型输入了30个包含棘手递归示例的原始句子。例如:“The astronomy the ancients we revere studied was not separate from astrology.”(我们所崇敬的古人所研究的天文学与占星术并非分离的。)使用句法树,其中一个语言模型——OpenAI的o1——能够确定句子的结构如下:
The astronomy [the ancients [we revere] studied] was not separate from astrology.
该模型更进一步,向句子中添加了另一层递归:
The astronomy [the ancients [we revere [who lived in lands we cherish]] studied] was not separate from astrology.
Beguš等人没有预料到这项研究会遇到一个具有更高级“元语言”(metalinguistic)能力的AI模型——正如他所说,“不仅仅是使用语言,还能思考语言的能力”。
卡内基梅隆大学的计算语言学家David Mortensen(未参与此项工作)认为,这是他们论文中“引人注目”的方面之一。一直以来都有争议,语言模型究竟只是在预测句子中的下一个词(或语言标记),这与人类对语言的深刻理解在质量上是不同的。“一些语言学家说LLM并没有真正理解语言,”他说。“这似乎是对那些说法的否定。”
“你是什么意思?”
McCoy对o1的整体表现感到惊讶,特别是它识别歧义的能力,他称之为“计算语言模型出了名难于捕捉的东西”。人类“拥有大量的常识知识,使我们能够排除歧义。但计算机很难拥有这种程度的常识知识。”
像“Rowan fed his pet chicken”(罗文喂他的宠物鸡)这样的句子,可能描述的是罗文养的鸡,也可能描述的是他给他的(可能更传统的)动物伴侣吃的鸡肉餐。o1模型成功地生成了两个不同的句法树,一个对应于句子的第一种解释,另一个对应于第二种解释。
研究人员还进行了与音位学(phonology)相关的实验——音位学是研究声音模式以及最小声音单位(称为音位)组织方式的学科。为了像母语人士一样流利说话,人们会遵循一些音位规则,这些规则可能是通过练习无意识中学会的,而从未被明确教导过。例如,在英语中,给以“g”结尾的单词添加“s”会产生“z”的声音,如“dogs”(狗们)。但给以“t”结尾的单词添加“s”听起来更像标准的“s”,如“cats”(猫们)。
在音位学任务中,该小组创建了30种新的“迷你语言”(Beguš语),以测试LLM是否能在没有先验知识的情况下正确推断出音位规则。每种语言由40个虚构的单词组成。以下是其中一种语言的一些示例单词:
θalp
ʃebre
ði̤zṳ
ga̤rbo̤nda̤
ʒi̤zṳðe̤jo
然后,他们要求语言模型分析每种语言的音位过程。对于这种语言,o1正确地写道:“当一个元音紧接在一个既浊音又是塞音(一种通过限制气流形成的声音,如“top”中的“t”)的辅音前面时,它会变成一个气音元音”——这是一种通过限制气流形成的声音,比如“top”中的“t”。
由于这些语言是新发明的,所以o1不可能在训练中接触到它们。“我没有预料到结果会如此强劲或令人印象深刻,”Mortensen说。
独一无二的人类,还是不再如此?
这些语言模型能走多远?它们会仅仅通过变得更大——增加更多的计算能力、更多的复杂性和更多的数据——而无限地变得更好吗?还是人类语言的某些特征是物种特有的进化过程的结果?
最新的结果表明,这些模型原则上可以进行复杂的语言学分析。但到目前为止,还没有任何模型能提出原创性的见解,也没有教会我们任何关于语言的新知识。
如果改进仅仅是增加计算能力和训练数据的问题,那么Beguš认为语言模型最终将在语言技能上超越人类。Mortensen表示,目前的模型还有一定的局限性。“它们被训练来做非常具体的事情:给定一系列的标记(或单词),预测下一个标记,”他说。“由于它们的训练方式,它们在泛化方面遇到了一些困难。”
但鉴于近期的进展,Mortensen表示,他看不出为什么语言模型最终不会在语言理解方面展现出比我们自身更好的能力。“构建出能够从更少数据中以更具创造力的方式进行泛化的模型,只是时间问题。”
Beguš说,新的结果显示出人类语言专属的特性正在被稳步地“蚕食”。“看来,我们并不像以前认为的那样独特。”
原始故事 经Quanta Magazine授权转载。Quanta Magazine是西蒙斯基金会(Simons Foundation)的一个独立出版物,其使命是通过报道数学、物理和生命科学的研究进展和趋势,来增强公众对科学的理解。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区