📢 转载信息
原文作者:Will Douglas Heaven
数十亿人现在每天都在使用聊天机器人。然而,驱动这些聊天机器人的大型语言模型(LLM)是如此复杂,以至于没有人真正理解它们是什么、它们如何工作,或者它们到底能做什么、不能做什么——甚至连构建它们的人也不例外。这很奇怪,对吧?
这也成了一个问题。如果没有对“引擎盖下”发生的事情有一个清晰的认识,就很难掌握这项技术的局限性,弄清楚模型产生幻觉的确切原因,或者设置护栏来控制它们。
但在去年,我们对LLM的功能有了迄今为止最好的了解,因为顶级人工智能公司的研究人员开始开发新的方法来探查这些模型的内部工作原理,并开始拼凑出这个谜题的各个部分。
一种被称为机制可解释性(mechanistic interpretability)的方法,旨在绘制出整个模型中关键特征及其之间连接的路径。2024年,人工智能公司Anthropic宣布,它构建了一种“显微镜”,让研究人员能够深入探查其大型语言模型Claude,并识别出与可识别概念(如迈克尔·乔丹和金门大桥)相对应的特征。
2025年,Anthropic将这项研究提升到了一个新的水平,使用其显微镜揭示了整个特征序列,并追踪了模型从提示到响应所采取的路径。OpenAI和Google DeepMind的团队也使用了类似的技术,试图解释意想不到的行为,比如为什么他们的模型有时似乎试图欺骗人类。
另一种新方法,称为思维链监控(chain-of-thought monitoring),允许研究人员监听所谓的推理模型在逐步执行任务时产生的“内心独白”。OpenAI利用这种技术抓获了其一个推理模型在编码测试中作弊的行为。
该领域对于使用这些技术能走多远存在分歧。一些人认为LLM太过复杂,我们永远无法完全理解它们。但是,这些新颖的工具结合起来,或许可以帮助我们深入探究其深层结构,并揭示更多关于我们这些奇特新玩具工作原理的信息。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区