📢 转载信息
原文链接:https://www.wired.com/story/ai-agents-math-doesnt-add-up/
原文作者:Steven Levy
各大AI公司曾向我们承诺,2025年将是“AI智能体之年”。结果,它成了谈论AI智能体之年,并将那个变革性的时刻推迟到了2026年或更晚。但如果那个关于“我们的生活何时能被生成式AI机器人完全自动化,为我们执行任务并基本上管理世界”的问题的答案,就像那幅《纽约客》漫画中的一样——“不如永远不要?”
这基本上就是几个月前,在“智能体AI”被过度炒作的那一年中,一篇悄无声息发表的论文所传达的信息。这篇题为《幻觉站:关于Transformer类语言模型的一些基本局限性》的论文声称,从数学上证明了“LLM无法执行超出某一复杂程度的计算和智能体任务”。尽管科学原理对我来说很深奥,但作者们——一位曾在人工智能领域奠基人之一约翰·麦卡锡门下学习AI的前SAP首席技术官和他的少年天才儿子——用数学的确定性击碎了智能体天堂的设想。他们说,即使是超越LLM纯粹词语预测过程的推理模型,也无法解决这个问题。
“它们不可能可靠,”父亲Vishal Sikka告诉我。在SAP之后,他还曾在Infosys担任首席执行官并在Oracle担任董事会成员,目前他领导着一家名为Vianai的AI服务初创公司。“所以我们应该放弃让AI智能体运行核电站的想法了?”我问道。“正是如此,”他回答道。也许你可以让它帮你整理些文件来节省时间,但你可能得接受它会犯错。
AI行业对此有不同看法。首先,智能体AI的一大成功是去年兴起的代码编写能力。就在本周的达沃斯论坛上,谷歌获得诺贝尔奖的AI主管Demis Hassabis报告了在最小化幻觉方面的突破,各大超大规模计算公司和初创公司都在推动智能体叙事。现在他们有了一些后援。一家名为Harmonic的初创公司报告称,他们在AI编码方面取得了突破,这也依赖于数学——并且在可靠性基准测试中名列前茅。
Harmonic由Robinhood首席执行官Vlad Tenev和图多尔·阿奇姆(Tudor Achim,一位斯坦福训练的数学家)共同创立。该公司声称,其产品Aristotle(真是毫不谦虚!)的最新改进表明,存在保证AI系统可信度的方法。“我们注定生活在一个AI只会生成垃圾、而人类又无法真正检查的世界里吗?那将是一个疯狂的世界,”阿奇姆说。Harmonic的解决方案是使用形式化的数学推理方法来验证LLM的输出。具体来说,它将输出编码为Lean编程语言,该语言以其验证代码的能力而闻名。可以肯定的是,Harmonic迄今为止的重点比较窄——其核心任务是追求“数学超级智能”,而代码编写是这种追求的一种自然延伸。像历史论文这类无法进行数学验证的东西,目前还在其能力范围之外。目前是这样。
尽管如此,阿奇姆似乎并不认为可靠的智能体行为像一些批评者认为的那样是一个大问题。“我会说,目前大多数模型都具备了推理预订旅行行程所需的纯粹智能水平,”他说。
双方都可能是对的——甚至可能在同一阵线上。一方面,每个人都同意,幻觉将继续是一个令人恼火的现实。在去年9月发表的一篇论文中,OpenAI的科学家们写道:“尽管取得了重大进展,但幻觉仍然困扰着该领域,并且仍然存在于最新的模型中。”他们通过要求三家模型(包括ChatGPT)提供首席作者论文的标题来证明了这一令人不快的说法。所有三个模型都编造了虚假的标题,并且都错误地报告了出版年份。在关于该论文的博客中,OpenAI沮丧地表示,在AI模型中,“准确率永远无法达到100%。”
目前,这些不准确性已经严重到足以阻止智能体在企业界得到广泛采用。“价值尚未实现,”开源AI公司Sentient的联合创始人Himanshu Tyagi表示。他指出,处理幻觉可能会扰乱整个工作流程,从而抵消了智能体的大部分价值。
然而,大型AI巨头和许多初创公司认为可以解决这些不准确性。他们表示,与幻觉共存的关键在于创建防护栏,过滤掉LLM喜欢产生的那些富有想象力的胡言乱语。就连Sikka也认为这是一种可能的结果。“我们的论文说的是,纯粹的LLM存在这种内在的局限性——但同时,你可以围绕LLM构建组件来克服这些局限性,这也是事实,”他说。
那位数学验证专家阿奇姆也同意幻觉将一直存在——但他认为这是一种特性,而不是缺陷。“我认为幻觉是LLM的固有部分,对于超越人类智能也是必需的,”他说。“系统学习的方式是通过产生幻觉。它通常是错误的,但有时它会产生一些人类从未想过的新东西。”
底线是,与生成式AI本身一样,智能体AI既是不可能的,也是不可避免的。可能不会有一个特定的年份被后人回顾为“智能体之年”。但是,无论有没有幻觉,从现在开始的每一年都将是“更多智能体之年”,因为防护栏和幻觉之间的差距正在缩小。该行业有着太大的利益相关,不让这种情况发生。智能体执行的任务将始终需要一定程度的验证——当然,人们会变得粗心大意,我们会遭受大小灾难——但最终,智能体将达到或超过人类的可靠性,同时速度更快、成本更低。
到了那个时候,就会出现一些更大的问题。我联系了一位讨论幻觉论文的计算机先驱艾伦·凯(Alan Kay),他与Sikka相识。他的看法是“他们的论点提出得足够好,足以得到真正计算理论学家的评论。”(这让人联想起他1984年对Macintosh的看法,称其为“第一台好到足以受到批评的个人电脑”)。但他最终认为,数学问题是次要的。相反,他建议人们根据马歇尔·麦克卢汉著名的“媒介即信息”格言来考虑这个问题。“不要问某件事是好是坏,是对是错,”他转述道。“去弄清楚正在发生什么。”
正在发生的事情是:我们很可能正处于人类认知活动大规模自动化的边缘。这种自动化是否会提高我们工作和生活的质量,还是一个悬而未决的问题。我怀疑最终的评估将无法通过数学来验证。
这是Steven Levy的Backchannel 时事通讯的一期。可以在此处阅读以往的通讯。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区