📢 转载信息
原文链接:https://www.wired.com/story/ai-models-keep-learning-after-training-research/
原文作者:Will Knight
即便是最聪明的人工智能模型,本质上也是模仿者。它们通过消费人类工作的实例,或者通过尝试解决人类指导者为它们设定的问题来学习。
但也许人工智能实际上可以以一种更像人类的方式学习——即通过想出有趣的问题来提问自己,并尝试找到正确的答案。清华大学、北京通用人工智能研究院(BIGAI)和宾夕法尼亚州立大学的一个项目表明,人工智能可以通过玩弄计算机代码来以这种方式学习推理。
研究人员设计了一个名为绝对零度推理器(Absolute Zero Reasoner,AZR)的系统,该系统首先使用大型语言模型生成具有挑战性但可解的 Python 编程问题。然后,它使用相同的模型来解决这些问题,最后通过尝试运行代码来检查其工作。最后,AZR 系统利用成功和失败作为信号来改进原始模型,增强其提出更好问题和解决问题的能力。
该团队发现,他们的方法显著提高了开源语言模型 Qwen 的 70 亿参数和 140 亿参数版本的编码和推理能力。令人印象深刻的是,该模型甚至超越了一些已经接收了人类精心策划数据进行训练的模型。
我就“绝对零度”的最初想法的提出者——清华大学的博士生赵安德(Andrew Zhao),以及与他一起参与该项目的 BIGAI 研究员郑子龙(Zilong Zheng)进行了 Zoom 访谈。
赵安德告诉我,这种方法类似于人类学习超越死记硬背或模仿的方式。“一开始你模仿你的父母,做和你老师一样的事情,但后来你基本上必须问自己的问题,”他说。“最终,你可以超越那些曾经在学校教你的人。”
赵安德和郑子龙指出,人工智能以这种方式学习的想法,有时被称为“自我对弈”(self-play),已经存在多年,并且以前曾被像著名人工智能先驱Jürgen Schmidhuber和法国 Inria 计算机科学家Pierre-Yves Oudeyer等人探索过。
郑子龙认为,该项目最令人兴奋的要素之一是模型的问题提出能力和问题解决能力的扩展性。“随着模型变得越来越强大,难度级别也会随之增长,”他说。
目前的一个关键挑战是,该系统仅适用于那些易于检查的问题,例如涉及数学或编码的问题。随着项目的进展,可能有可能将其应用于代理式人工智能任务,如浏览网页或处理日常办公室杂务。这可能涉及让人工智能模型尝试判断代理人的行为是否正确。
像“绝对零度”这样的方法有一个引人入胜的可能性,即它理论上可以使模型超越人类的教学。“一旦我们拥有了它,这在某种程度上就是达到超级智能的一种途径,”郑子龙告诉我。
有早期迹象表明,“绝对零度”方法正在一些大型人工智能实验室中流行起来。
Salesforce、斯坦福大学和北卡罗来纳大学教堂山分校的一个名为Agent0的项目,涉及一个通过自我对弈来改进自身的软件工具使用代理。与“绝对零度”一样,该模型通过实验性问题解决来提高其通用推理能力。由 Meta、伊利诺伊大学和卡内基梅隆大学的研究人员撰写的一篇最新论文介绍了一个使用类似自我对弈的系统进行软件工程研究。这项工作的作者认为,这代表了“迈向超级智能软件代理训练范式的第一步”。
寻找人工智能学习的新方法很可能会成为今年科技行业的一个重要主题。随着传统数据源变得越来越稀缺和昂贵,以及各实验室都在寻找提高模型能力的新方法,“绝对零度”这样的项目可能会催生出更像人类而不是模仿者的 AI 系统。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区