📢 转载信息
原文作者:Margaret Mitchell
2022年4月28日,在华盛顿州斯波坎一场备受期待的音乐会上,音乐家保罗·麦卡特尼(Paul McCartney)用一项开创性的人工智能应用震惊了他的观众:他开始与他已故的音乐伙伴约翰·列侬(John Lennon)的逼真影像一同表演。
利用最新的音频和视频处理技术,工程师们从这对组合最后一次同台演出(1969年,伦敦)的原始混音中分离出了列侬的声音和影像,并以栩栩如生的清晰度进行了修复。
本文是《麻省理工科技评论》“炒作纠偏”系列的一部分,该系列旨在重新设定人们对AI是什么、能做什么以及我们接下来的方向的期望。
多年来,像我一样的研究人员一直在教机器如何“看”和“听”,才使得这样的一幕成为可能。当麦卡特尼和列侬仿佛跨越时空重聚时,体育场内一片寂静;许多观众开始落泪。作为一名AI科学家和终生的披头士乐队粉丝,我为我们能够体验到这一真正改变人生的时刻感到由衷的感激。
同年晚些时候,世界又被另一个重大突破所吸引:AI对话。在历史上第一次,由于ChatGPT的发布,能够实时就几乎任何主题生成新的、与上下文相关的评论的系统得到了广泛应用。数十亿人突然能够与AI互动。这激发了公众对AI可能性的想象,带来了创造性思想、希望和恐惧的爆发式增长。
我对AI语言生成(长期以来被认为是小众领域)进行了博士研究,我对我们能走到这一步感到非常兴奋。但我所感受到的敬畏感,被媒体上泛滥的评论和自封的专家们的观点所淹没,他们坚持认为生成式AI可以做它根本做不到的事情,并警告说任何不采用它的人都将被抛在后面。
这类炒作助长了对AI究竟是什么、它能做什么和不能做什么的各种误解。至关重要的是,生成式AI是一种诱人的干扰,它分散了我们对最有可能改善甚至挽救你生活的AI类型的注意力:预测性AI(Predictive AI)。与专为生成任务设计的AI不同,预测性AI涉及具有有限、已知答案集的任务;系统只需处理信息以确定哪个答案是正确的。一个基本的例子是植物识别:将手机摄像头对准一株植物,就能知道它是一株西部剑蕨。相比之下,生成式任务没有有限的正确答案集:系统必须融合其训练中的信息片段,以创造,例如,一幅新颖的蕨类植物图片。
用于聊天机器人、换脸和合成视频的生成式AI技术可以制作出令人惊叹的演示,驱动点击量和销量,因为观众沉迷于关于超人AI将带来丰富还是灭绝的想法。然而,预测性AI一直在悄悄地改善天气预报和食品安全,实现更高质量的音乐制作,帮助整理照片,并准确预测最快的驾驶路线。我们不知不觉地将预测性AI融入日常生活中,这证明了它的不可或缺的实用性。
要了解预测性AI的巨大进步及其未来潜力,我们可以看看过去20年的发展轨迹。在2005年,我们还无法让AI区分人还是铅笔。到了2013年,AI仍然无法可靠地检测照片中的鸟类,行人与可口可乐瓶之间的区别仍然会造成巨大的混淆(这就是我了解到瓶子确实有点像人,如果人没有头的话)。将这些系统部署到现实世界曾是科幻小说的素材。
然而,在过去的十年里,预测性AI不仅能精确识别出鸟类的具体物种;它还迅速改善了危及生命的医疗服务,例如识别有问题的病变和心脏心律不齐。由于这项技术,地震学家可以更可靠地预测地震,气象学家可以更可靠地预测洪水。对于面向消费者的技术——例如检测和分类你哼歌时脑海中想的歌曲或驾驶时应避开的物体——的准确性也已飙升,这使得自动驾驶汽车成为现实。
在非常近的将来,我们应该能够准确地检测肿瘤并提前很长时间预测飓风的到来,从而实现世界各地人民的毕生希望。这可能不像生成你自己的吉卜力风格电影那样光鲜亮丽,但绝对值得大肆宣传。
当预测性AI系统在有限的选项范围内利用某些生成技术时,它们也被证明非常有用。这类系统多种多样,从服装可视化到跨语言翻译。很快,预测性生成混合系统将能够实时克隆你自己的声音来说另一种语言,这对旅行来说是一个非凡的帮助(但也存在严重的冒充风险)。这方面仍有很大的增长空间,但当生成式AI以强大的预测方法为基础时,它才能提供真正的价值。
要理解这两大类AI的区别,想象一下你是一个被要求向某人展示猫长什么样的人工智能系统。你可以采用生成式方法,从各种猫的图像中剪切和粘贴小片段(可能来自那些表示反对的来源),以构建一个看似完美的描绘。现代生成式AI能够制作出如此完美的拼贴画的能力,正是它如此令人惊叹的原因。
另一种方法是采用预测性方法:只需定位并指向一张现有的猫的图片即可。这种方法不那么引人注目,但更节能,也更有可能准确,并且能正确地认可原始来源。生成式AI旨在创造看起来真实的东西;预测性AI则识别真实存在的东西。由于对生成系统是检索东西而不是创建东西的误解,在文本处理中导致了严重的后果,例如需要撤销法律判决和科学文章的更正。
造成这种混淆的原因是人们倾向于对AI进行炒作,却不清楚他们谈论的是哪种AI(我猜测许多人并不知道)。将“AI”等同于生成式AI,甚至仅仅是生成文本的AI,并假设所有其他能力都由此产生,是很容易的。这种谬论很有道理:这个词本身就指代“智能”,而我们对“智能”可能是什么的人类理解,往往是通过语言的使用来中介的。(剧透:没有人真正知道智能是什么。)但“人工智能”这个短语在20世纪50年代被有意设计,是为了激发敬畏感并暗示一些类似人类的东西。如今,它仅仅指的是一组用于处理数字数据的各种技术。我的一些朋友发现,将其称为“数学式运算”(mathy maths)更有帮助。
将生成式AI视为最强大、最真实的AI形式的偏见是令人不安的,因为它消耗的能源远远多于预测性AI系统。这也意味着将现有的人类作品在未经创作者同意的情况下用于AI产品,并用AI系统取代人类工作岗位——而这些AI系统的能力正是建立在他们工作的基础上——却没有给予补偿。AI可以非常强大,但这并不意味着创作者应该被占便宜。
作为科技行业内的一名AI开发者,我目睹了这一切的发生,并从中吸取了关于下一步的重要经验。AI的广泛吸引力显然与基于对话的交互的直观性有关。但这种互动方式目前过度使用了生成方法,而预测方法本可以胜任,从而造成了一种令人尴尬的局面,让用户感到困惑,同时又带来了高昂的能源消耗、剥削和工作岗位流失成本。
我们只看到了AI全部潜力的一瞥:目前对AI的兴奋反映的是它可能成为的样子,而不是它现在的样子。基于生成的方法消耗资源,但在代表性、准确性以及被纳入系统的人们的心愿方面仍然力不从心。
如果我们能将聚光灯从生成技术的炒作上转移到那些已经改变日常生活的预测性进展上,我们就能构建出真正有用、公平且可持续的AI。那些帮助医生更早发现疾病、帮助科学家更早预测灾难、帮助普通人更安全地导航生活的系统,才是最有可能产生巨大影响的系统。
有益AI的未来将不会由最炫目的演示来定义,而是由那些使技术值得信赖的安静、严谨的进步来定义。如果我们能在此基础上构建——将预测的优势与更成熟的数据实践和直观的自然语言界面相结合——AI最终就能开始兑现许多人今天所感知的承诺。
玛格丽特·米切尔博士是计算机科学研究员,也是AI初创公司Hugging Face的首席伦理科学家。她在科技行业工作了15年,发表了100多篇关于自然语言生成、辅助技术、计算机视觉和AI伦理的论文。她的工作获得了无数奖项,并被多家科技公司采用。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区