📢 转载信息
原文链接:https://www.kdnuggets.com/emergent-introspective-awareness-in-large-language-models
原文作者:Iván Palomares Carrascosa
Image by Editor (click to enlarge)
# 引言
大型语言模型(LLM)功能众多。它们能够生成看起来连贯的文本,能够用人类语言回答问题,还可以分析和组织来自其他来源的文本,以及许多其他技能。但是,LLM能否以有意义的方式分析和报告其自身的内部状态——跨越其复杂组件和层的激活情况呢?换句话说,LLM可以内省吗?
本文概述并总结了对LLM自我内部状态的内省(即内省意识)这一新兴主题进行的研究,并提供了一些额外的见解和最终结论。特别是,我们将概述并反思研究论文《大型语言模型中内省意识的涌现》。
注意:本文使用第一人称代词(我、我的)来指代本帖作者,而除非另有说明,“作者们”指的是该论文的原始研究人员(J. Lindsey 等人)。
# 关键概念解释:内省意识
研究的作者们根据四个标准定义了模型内省意识的概念——该概念在先前其他相关工作中曾以细微不同的解释被定义。
但首先,了解什么是LLM的自我报告是值得的。它可以被理解为模型对自己“内部推理”(或更技术地说,神经激活)的口头描述,即模型认为它在生成响应时刚刚经历的推理过程。正如你可能猜到的,这可以被视为模型可解释性的一种微妙的行为表现,这(在我看来)足以证明该研究主题的相关性。
现在,让我们来审视定义LLM内省意识的四个标准:
- 准确性 (Accuracy):内省意识要求模型的自我报告应准确反映其内部状态的激活或操作。
- 基础性 (Grounding):自我报告的描述必须在因果上依赖于内部状态,从而导致后者发生变化,前者相应地进行更新。
- 内化性 (Internality):内部激活必须被LLM用于自我报告,而不是仅仅从生成的文本中推断出来。
- 元认知表征 (Metacognitive representation):模型应能够形成一个高阶内部表征,而不仅仅是所达到状态的直接翻译。这是一个特别复杂且难以证明的属性,超出了作者研究的范围。
# 研究方法和关键发现
作者们对Claude系列模型(例如Opus、Sonnet、Haiku等)进行了一系列实验,目的是探究LLM是否能够内省。研究方法的一个基石技术是概念注入(concept injection),用作者自己的话来说,它包括“操纵模型的内部激活情况,并观察这些操纵如何影响模型对其心理状态问题的回答”。
更具体地说,研究人员获取与已知概念(如“米饭”或“拉面”)或抽象名词(如“和平”或“鲜味”)相关的激活向量或概念向量,并将它们注入到从模型某一层的残差流(residual stream)流向另一层的过程中。之后,向模型发送一个提示,要求它自我报告是否有某种想法或观念被注入,如果有,具体是哪一个。对所考虑的每个模型,实验都在不同程度的扰动和模型整体架构的不同层级上重复进行。
关键发现如下:
- 模型偶尔(例如,在Opus 4.1的案例中约20%的时间)会对自己“注入的思想”进行自我报告,并正确地命名了相关的概念,这在一定程度上暗示了对发生中思想的内部识别。
- 同样,模型通常(高于随机几率)能够区分思想和输入,即准确地重复文本输入并报告被注入的内部思想。
- 如果模型在生成响应时被人工强制输出某个特定的token作为下一个token,并且在“预填充”之前注入了一个匹配的概念向量,那么模型就更有可能将该输出视为预期。这一发现表明,模型可能具备内省地跟踪其“先前意图”的能力。
- 当模型被要求在生成不相关输出时思考或避免思考某个词时,结果表明它可能能够根据激励来调节其信息内部表征,有点像“(不要)思考X想法,你就会得到奖励”。然而,这种现象在到达最后一层时往往会减弱。
# 最终思考与总结
在我看来,这是一个具有极高相关性的研究课题,值得深入研究,原因如下:首先,也是最明显的,LLM的内省能力可能是更好地理解LLM可解释性的关键,同时也可能解决长期存在的问题,如幻觉、解决高风险问题时的推理不可靠性,以及即使在最尖端的模型中偶尔观察到的其他不透明行为。
实验工作量大且设计严谨,结果相当具有启发性,在模型的中间层中发出了关于内省能力的早期但有意义的信号,尽管结论程度不一。实验仅限于Claude系列模型,当然,人们很希望能看到超越这些模型的架构和模型家族的多样性。尽管如此,可以理解其中存在的局限性,例如对其他模型类型的内部激活访问受限,或在探测专有系统时遇到的实际约束,更不用说这项研究杰作的作者们隶属于Anthropic了!
Iván Palomares Carrascosa是人工智能、机器学习、深度学习和LLM领域的领导者、作家、演讲者和顾问。他培训和指导他人如何在现实世界中利用人工智能。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区