目 录CONTENT

文章目录

OpenAI的新型大型语言模型揭示了AI究竟如何工作的秘密

Administrator
2025-11-14 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://www.technologyreview.com/2025/11/13/1127914/openais-new-llm-exposes-the-secrets-of-how-ai-really-works/

原文作者:Will Douglas Heaven


ChatGPT的开发商OpenAI构建了一个实验性的大型语言模型(LLM),它比典型的模型更容易理解

这是一件大事,因为当今的LLM都是“黑箱”:没有人能完全理解它们是如何运作的。构建一个更透明的模型有助于揭示LLM的一般工作原理,帮助研究人员弄清楚模型为什么会产生幻觉、为什么会失控,以及我们应该在多大程度上信任它们来执行关键任务。

OpenAI的研究科学家Leo Gao在独家预览这项新研究时告诉《麻省理工科技评论》:“随着这些人工智能系统变得越来越强大,它们将被越来越多地整合到非常重要的领域中,”他说。“确保它们安全至关重要。”

这仍处于早期研究阶段。这个被称为“权重稀疏转换器”(weight-sparse transformer)的新模型,其规模和能力都远低于该公司GPT-5、Anthropic的Claude和Google DeepMind的Gemini等顶级主流模型。Gao表示,它的能力最多相当于OpenAI在2018年开发的GPT-1模型(尽管他及其同事尚未进行直接比较)。

但目标(至少目前不是)不是与同类中的佼佼者竞争。相反,OpenAI希望通过观察这个实验模型的工作方式,来学习这项技术更大、更好的版本内部的隐藏机制。

波士顿学院研究LLM工作原理的数学家Elisenda Grigsby(未参与该项目)认为这是一项有趣的研究:“我相信它引入的方法将产生重大影响。”

AI初创公司Goodfire的研究科学家Lee Sharkey也表示同意。“这项工作瞄准了正确的方向,并且执行得很好,”他说。

为什么模型如此难以理解

OpenAI的工作属于一个新兴的热门研究领域,即机械可解释性(mechanistic interpretability),旨在绘制出模型在执行不同任务时所使用的内部机制。

这比听起来要困难得多。LLM由神经网络构建,这些网络由称为神经元的节点组成,分层排列。在大多数网络中,每个神经元都与其相邻层的每个其他神经元相连。这种网络被称为密集网络(dense network)。

密集网络在训练和运行方面相对高效,但它们会将所学知识分散到庞大的连接网络中。结果是,简单的概念或功能可能会分散在模型不同部分的神经元之间。同时,特定的神经元也可能最终代表多个不同的特征,这种现象被称为叠加(superposition)(该术语借用了量子物理学)。总而言之,你无法将模型的特定部分与特定的概念联系起来。

“神经网络庞大、复杂、错综复杂,非常难以理解,”OpenAI机械可解释性团队负责人Dan Mossing说。“我们一直在想:‘好吧,如果我们试着让情况不再如此呢?’”

OpenAI没有使用密集网络来构建模型,而是从一种称为权重稀疏转换器(weight-sparse transformer)的神经网络类型入手,其中每个神经元只连接到少数其他神经元。这迫使模型以局部集群的形式表示特征,而不是将它们分散开。

他们的模型比市面上任何LLM都要慢得多。但更容易将它的神经元或神经元群与特定的概念和功能联系起来。“模型的可解释性存在巨大的差异,”Gao说。

Gao及其同事用非常简单的任务对新模型进行了测试。例如,他们要求它完成一个以引号开头的文本块,并在末尾添加匹配的引号。

对于LLM来说,这是一个微不足道的要求。Gao说,重点在于,即使是像这样简单的任务,理解模型如何完成它也涉及到解开神经元和连接的复杂纠缠。但对于这个新模型,他们能够追踪模型采取的确切步骤。

“我们实际上发现了一个电路,它正是你用手工实现时会想到的算法,但它是完全由模型学习到的,”他说。“我认为这真的很酷、很令人兴奋。”

这项研究接下来会走向何方?Grigsby不确定该技术能否扩展到需要处理各种更困难任务的大型模型。

Gao和Mossing承认,这是他们目前构建的模型的一大局限性,他们同意该方法永远不会产生与GPT-5等尖端产品性能相媲美的模型。尽管如此,OpenAI认为他们也许能够改进这项技术,以构建出一个与该公司2021年的突破性LLM GPT-3性能相当的可解释模型。

“也许在几年内,我们就能拥有一个完全可解释的GPT-3,这样你就可以深入了解它的每一个部分,并理解它是如何完成每一件事的,”Gao说。“如果我们有这样一个系统,我们将学到太多东西。”




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区