OpenAI的新型大型语言模型揭示了AI究竟如何工作的秘密-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://www.technologyreview.com/2025/11/13/1127914/openais-new-llm-exposes-the-secrets-of-how-ai-really-works/

原文作者：Will Douglas Heaven

ChatGPT的开发商OpenAI构建了一个实验性的大型语言模型（LLM），它比典型的模型更容易理解。

这是一件大事，因为当今的LLM都是“黑箱”：没有人能完全理解它们是如何运作的。构建一个更透明的模型有助于揭示LLM的一般工作原理，帮助研究人员弄清楚模型为什么会产生幻觉、为什么会失控，以及我们应该在多大程度上信任它们来执行关键任务。

OpenAI的研究科学家Leo Gao在独家预览这项新研究时告诉《麻省理工科技评论》：“随着这些人工智能系统变得越来越强大，它们将被越来越多地整合到非常重要的领域中，”他说。“确保它们安全至关重要。”

这仍处于早期研究阶段。这个被称为“权重稀疏转换器”（weight-sparse transformer）的新模型，其规模和能力都远低于该公司GPT-5、Anthropic的Claude和Google DeepMind的Gemini等顶级主流模型。Gao表示，它的能力最多相当于OpenAI在2018年开发的GPT-1模型（尽管他及其同事尚未进行直接比较）。

但目标（至少目前不是）不是与同类中的佼佼者竞争。相反，OpenAI希望通过观察这个实验模型的工作方式，来学习这项技术更大、更好的版本内部的隐藏机制。

波士顿学院研究LLM工作原理的数学家Elisenda Grigsby（未参与该项目）认为这是一项有趣的研究：“我相信它引入的方法将产生重大影响。”

AI初创公司Goodfire的研究科学家Lee Sharkey也表示同意。“这项工作瞄准了正确的方向，并且执行得很好，”他说。

为什么模型如此难以理解

OpenAI的工作属于一个新兴的热门研究领域，即机械可解释性（mechanistic interpretability），旨在绘制出模型在执行不同任务时所使用的内部机制。

这比听起来要困难得多。LLM由神经网络构建，这些网络由称为神经元的节点组成，分层排列。在大多数网络中，每个神经元都与其相邻层的每个其他神经元相连。这种网络被称为密集网络（dense network）。

密集网络在训练和运行方面相对高效，但它们会将所学知识分散到庞大的连接网络中。结果是，简单的概念或功能可能会分散在模型不同部分的神经元之间。同时，特定的神经元也可能最终代表多个不同的特征，这种现象被称为叠加（superposition）（该术语借用了量子物理学）。总而言之，你无法将模型的特定部分与特定的概念联系起来。

“神经网络庞大、复杂、错综复杂，非常难以理解，”OpenAI机械可解释性团队负责人Dan Mossing说。“我们一直在想：‘好吧，如果我们试着让情况不再如此呢？’”

OpenAI没有使用密集网络来构建模型，而是从一种称为权重稀疏转换器（weight-sparse transformer）的神经网络类型入手，其中每个神经元只连接到少数其他神经元。这迫使模型以局部集群的形式表示特征，而不是将它们分散开。

他们的模型比市面上任何LLM都要慢得多。但更容易将它的神经元或神经元群与特定的概念和功能联系起来。“模型的可解释性存在巨大的差异，”Gao说。

Gao及其同事用非常简单的任务对新模型进行了测试。例如，他们要求它完成一个以引号开头的文本块，并在末尾添加匹配的引号。

对于LLM来说，这是一个微不足道的要求。Gao说，重点在于，即使是像这样简单的任务，理解模型如何完成它也涉及到解开神经元和连接的复杂纠缠。但对于这个新模型，他们能够追踪模型采取的确切步骤。

“我们实际上发现了一个电路，它正是你用手工实现时会想到的算法，但它是完全由模型学习到的，”他说。“我认为这真的很酷、很令人兴奋。”

这项研究接下来会走向何方？Grigsby不确定该技术能否扩展到需要处理各种更困难任务的大型模型。

Gao和Mossing承认，这是他们目前构建的模型的一大局限性，他们同意该方法永远不会产生与GPT-5等尖端产品性能相媲美的模型。尽管如此，OpenAI认为他们也许能够改进这项技术，以构建出一个与该公司2021年的突破性LLM GPT-3性能相当的可解释模型。

“也许在几年内，我们就能拥有一个完全可解释的GPT-3，这样你就可以深入了解它的每一个部分，并理解它是如何完成每一件事的，”Gao说。“如果我们有这样一个系统，我们将学到太多东西。”

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

OpenAI的新型大型语言模型揭示了AI究竟如何工作的秘密

为什么模型如此难以理解

评论区