📢 转载信息
原文作者:Will Douglas Heaven
OpenAI的新型大型语言模型揭示了人工智能真正工作原理的秘密
ChatGPT的开发商OpenAI构建了一个实验性的大型语言模型,它比典型的模型更容易理解。
这是一个重大进展,因为当今的LLM都是黑箱:没有人完全理解它们是如何做到它们所做的事情的。构建一个更透明的模型有助于揭示LLM的工作原理,帮助研究人员弄清楚模型为何会产生幻觉、为何会失控,以及我们应该在多大程度上信任它们来执行关键任务。
“随着这些人工智能系统的能力越来越强,它们将越来越多地融入到非常重要的领域,”OpenAI的研究科学家Leo Gao在接受MIT Technology Review独家预览这项新工作时表示。“确保它们是安全的,这一点非常重要。”
这仍处于早期研究阶段。这个被称为权重稀疏Transformer的新模型,比该公司GPT-5、Anthropic的Claude和Google DeepMind的Gemini等顶级主流模型要小得多,能力也弱得多。高表示,它最多只与OpenAI在2018年开发的GPT-1模型相当(尽管他和同事们尚未进行直接比较)。
但它的目的并不是(至少目前还不是)与同类中的佼佼者竞争。相反,通过研究这个实验模型的工作方式,OpenAI希望了解这项技术更大、更优版本背后的隐藏机制。
波士顿学院研究LLM工作原理的数学家Elisenda Grigsby(未参与该项目)认为这是一项有趣的研究:“我确信它引入的方法将产生重大影响。”
AI初创公司Goodfire的研究科学家Lee Sharkey表示同意。“这项工作瞄准了正确的靶点,而且执行得很好,”他说。
为什么模型难以理解
OpenAI的工作属于一个热门的新兴研究领域,称为机制可解释性(mechanistic interpretability),它试图描绘出模型在执行不同任务时所使用的内部机制。
这比听起来要困难。LLM由神经网络构成,神经网络包含称为神经元的节点,这些节点排列在层中。在大多数网络中,每个神经元都与其相邻层中的每个其他神经元相连。这种网络被称为稠密网络(dense network)。

稠密网络在训练和运行方面相对高效,但它们会将所学知识分散到庞大的连接网络中。结果是,简单的概念或功能可能会在模型不同部分的神经元之间被分割开来。同时,特定的神经元也可能代表多个不同的特征,这种现象被称为叠加(superposition)(这个术语借鉴自量子物理学)。最终的结果是,你无法将模型的特定部分与特定的概念联系起来。
OpenAI机制可解释性团队的负责人Dan Mossing说:“神经网络很大、很复杂、纠缠在一起,非常难以理解。我们差不多是说:‘好吧,如果我们试着让情况不再如此呢?’”
OpenAI没有使用稠密网络来构建模型,而是从一种称为权重稀疏Transformer的神经网络开始,其中每个神经元只与少数其他神经元相连。这迫使模型以局部集群的形式表示特征,而不是将它们分散开来。
他们的模型比市面上任何LLM都要慢得多。但它更容易将神经元或神经元组与特定的概念和功能联系起来。高说:“模型的可解释性存在着巨大的差异。”
高和他的同事们用非常简单的任务测试了这个新模型。例如,他们要求它完成一段以引号开头的文本块,并在末尾添加匹配的引号。
这对LLM来说是一个微不足道的要求。高表示,关键在于弄清楚模型如何完成如此直截了当的任务,也涉及到梳理一团复杂的神经元和连接。但对于新模型,他们能够追踪模型采取的确切步骤。
“我们发现了一个电路,它正是你会手工实现的算法,但它完全是由模型学习到的,”他说。“我认为这真的很酷,也令人兴奋。”
这项研究下一步将走向何方?Grigsby不确定该技术能否扩展到必须处理各种更困难任务的大型模型。
高和Mossing承认,这是他们迄今为止构建的模型的一个主要限制,并同意该方法永远不会产生与GPT-5等尖端产品性能相媲美的模型。然而,OpenAI认为他们或许可以改进这项技术,以构建出与该公司2021年的突破性LLM GPT-3性能相当的透明模型。
高说:“也许在几年内,我们就能拥有一个完全可解释的GPT-3,这样你就可以深入到它的每一个部分,并理解它是如何完成每一件事的。如果我们有这样一个系统,我们将学到很多东西。”
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区