📢 转载信息
原文链接:https://techcrunch.com/2026/02/23/guide-labs-debuts-a-new-kind-of-interpretable-llm/
原文作者:Tim Fernholz
驾驭深度学习模型所面临的挑战往往在于理解它为何会做出某种行为:无论是 xAI 在微调 Grok 的怪异政治立场时反复挣扎,ChatGPT 在阿谀奉承上的困难,还是司空见惯的“幻觉”现象,深入探究一个拥有数十亿参数的神经网络绝非易事。
旧金山初创公司 Guide Labs(由首席执行官 Julius Adebayo 和首席科学官 Aya Abdelsalam Ismail 共同创立)于今日提出了一个应对该问题的方案。周一,该公司开源了一个 80 亿参数的大语言模型 Steerling-8B,它采用了新的架构设计,使其行为易于解释:模型产生的每一个 token 都可以追溯到其在 LLM 训练数据中的原始出处。
这可以像确定模型引用事实的参考材料一样简单,也可以像理解模型对幽默或性别的理解那样复杂。
Adebayo 告诉 TechCrunch:“如果我有万亿种编码性别的方式,并且我在其中 10 亿种方式中进行了编码,那么你就必须确保找到我编码的所有这 10 亿种方式,然后你必须能够可靠地开启或关闭它们,” 他说。“你可以用现有模型做到这一点,但它非常脆弱……这可以说是‘圣杯’般的问题之一。”
Adebayo 在麻省理工学院攻读博士学位期间就开始了这项工作,他与人合著了一篇广受引用的 2018 年的论文,该论文表明现有理解深度学习模型的方法并不可靠。这项工作最终催生了一种构建 LLM 的新方法:开发人员在模型中插入一个“概念层”,将数据分类到可追溯的类别中。这需要更多的前期数据标注,但通过利用其他 AI 模型提供帮助,他们能够训练出迄今为止最大的概念验证模型。
Adebayo 表示:“人们所做的可解释性工作……就像是对模型进行神经科学研究,而我们则颠覆了这一点。我们所做的是从头开始设计模型,这样您就不需要进行神经科学研究了。”
这种方法的一个担忧是,它可能会消除 LLM 如此引人入胜的某些涌现行为:即它们对未曾训练过的事物进行新颖泛化的能力。Adebayo 表示,在他的公司模型中这种情况仍然存在:他的团队追踪了模型自主发现的所谓“发现的概念”,例如量子计算。
Adebayo 认为,这种可解释性架构将是未来的必需品。对于面向消费者的 LLM 而言,这些技术应该能让模型构建者做到例如屏蔽受版权保护材料的使用,或更好地控制涉及暴力或药物滥用等主题的输出。受监管的行业将需要更可控的 LLM——例如在金融领域——评估贷款申请人的模型需要考虑财务记录等因素,但不能考虑种族因素。在科学工作领域也需要可解释性,Guide Labs 在该领域也开发了技术。蛋白质折叠一直是深度学习模型的巨大成功,但科学家需要更深入地了解为什么他们的软件找到了有前景的组合。
Adebayo 说:“这个模型证明,训练可解释的模型已不再是一种‘科学’,而是一个工程问题了。我们已经弄清楚了科学原理,并且我们可以对其进行扩展,因此没有理由认为这种模型在性能上会逊色于拥有更多参数的前沿模型。”
Guide Labs 表示,得益于其新颖的架构,Steerling-8B 能够达到现有模型 90% 的能力,但消耗的训练数据更少。这家公司(通过 Y Combinator 孵化,并于 2024 年 11 月从 Initialized Capital 筹集了 900 万美元的种子轮融资)的下一步是构建一个更大的模型,并开始向用户提供 API 和代理(agentic)访问权限。
Adebayo 告诉 TechCrunch:“我们当前训练模型的方式是极其原始的,因此,将固有的可解释性民主化实际上将对我们作为人类的角色产生长远的积极影响,” 他说。“当我们追求那些超级智能的模型时,你当然不希望某个为你做决定的实体是神秘莫测的。”
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区