📢 转载信息
原文作者:Margaret Mitchell
2022年4月28日,在华盛顿州斯波坎(Spokane)举行的一场备受期待的音乐会上,音乐家保罗·麦卡特尼(Paul McCartney)用一项开创性的AI应用震惊了他的观众:他开始与他已故的音乐伙伴约翰·列侬(John Lennon)的逼真影像同台演出。
利用最新的音频和视频处理技术,工程师们提取了这对组合最后一次同台演出(1969年,伦敦)中列侬的声音和影像,并以逼真的清晰度将其还原。
本文是《麻省理工科技评论》“炒作修正”系列文章的一部分,该系列旨在重塑人们对AI是什么、能做什么以及我们下一步该走向何方的期望。
多年来,像我一样的研究人员一直在教机器如何“看”和“听”,正是为了促成这样一个时刻。当麦卡特尼和列侬似乎跨越时空重聚时,体育场内一片寂静;许多观众开始落泪。作为一名AI科学家和终生的披头士乐队(Beatles)粉丝,我对我们能体验到这个真正改变人生的时刻深感感激。
同年晚些时候,全世界又被另一个重大突破所吸引:AI对话。在历史上第一次,由于ChatGPT的发布,那些能够实时生成关于几乎任何主题的新、相关评论的系统得到了广泛普及。数十亿人突然能够与AI互动。这点燃了公众对AI潜力的想象,带来了创造性想法、希望和恐惧的爆发。
我在AI语言生成(曾被认为是小众领域)方面获得了博士学位,我为我们已经取得了如此大的进步感到兴奋。但我内心的敬畏感,却被媒体上那些坚持认为生成式AI能做它根本做不到的事情,并警告说任何不采纳它的人都将被淘汰的泛滥言论和“自封的专家”所带来的日益增长的愤怒所抵消。
Related Story
How AGI became the most consequential conspiracy theory of our time
Read next这类炒作助长了对AI究竟是什么、它能做什么和不能做什么的巨大误解。至关重要的是,生成式AI是一种诱人的分心事物,它分散了我们对最有可能改善甚至拯救你生活的AI的注意力:预测性AI。与专为生成任务设计的AI相反,预测性AI涉及具有有限、已知答案集的任务;系统只需要处理信息来判断哪个答案是正确的。一个基本的例子是植物识别:用手机摄像头对准一株植物,然后了解它是一株西部剑蕨。相比之下,生成式任务没有有限的正确答案集:系统必须融合它所训练的信息片段,例如,生成一幅新颖的蕨类植物图片。
用于聊天机器人、换脸和合成视频的生成式AI技术为引人注目的演示提供了动力,吸引了点击和销量,因为观众们对超人AI将能带来丰裕还是灭绝的想法而发狂。然而,预测性AI一直在默默地改进天气预报和食品安全,实现更高质量的音乐制作,帮助整理照片,并准确预测最快的驾驶路线。我们几乎没有思考地将预测性AI融入日常生活,这证明了它不可或缺的实用性。
要了解预测性AI的巨大进步及其未来潜力,我们可以回顾过去20年的发展轨迹。2005年,我们甚至无法让AI区分人与铅笔。到2013年,AI仍然无法可靠地检测照片中的鸟类,行人与可口可乐瓶之间的区别仍然令人困惑(这就是我了解到瓶子在某种程度上看起来像人,只是人没有头)。将这些系统部署到现实世界曾是科幻小说的素材。
然而,在过去十年中,预测性AI不仅能准确识别出具体的鸟类物种,而且还能快速改进危及生命的医疗服务,例如识别出有问题的新生物病灶和心脏心律失常。由于这项技术,地震学家可以更可靠地预测地震,气象学家也可以更可靠地预测洪水。对于消费者技术而言,其准确性也得到了飞速提升,例如检测和分类你哼歌时想到的歌曲,或在驾驶时应避开的物体——使自动驾驶汽车成为现实。
Related Story
OpenAI’s new LLM exposes the secrets of how AI really works
Read next在非常不久的将来,我们应该能够准确地检测肿瘤并提前很久预测飓风,从而避免对任何人造成伤害,实现世界各地人民的毕生希望。这可能不如生成你自己的吉卜力工作室风格的电影那样引人注目,但它绝对值得大肆宣传。
当预测性AI系统在有限的选项范围内利用某些生成技术时,它们也被证明具有极其大的用处。这类系统多种多样,涵盖了从服装可视化到跨语言翻译等所有方面。很快,预测-生成混合系统将有可能实时克隆你自己的声音说出另一种语言,这对旅行来说是一个非凡的帮助(尽管存在严重的冒充风险)。这方面有很大的增长空间,但当生成式AI以强大的预测性方法为基础时,它才能提供真正的价值。
为了理解这两个AI大类之间的区别,想象你是一个被要求向某人展示猫长什么样子的AI系统。你可以采用生成方法,从各种猫的图像中剪切和粘贴小片段(可能来自那些反对的来源),以构建一个看似完美的描绘。现代生成式AI能够制作出如此完美的拼贴画的能力,正是它如此惊人的原因。
另一种方法是采取预测方法:只需定位并指向一张现有的猫的图片。这种方法就不那么光鲜亮丽了,但能效更高,而且更有可能准确,并且能恰当地承认原始来源。生成式AI旨在创建看起来真实的东西;而预测性AI则识别真实存在的东西。将生成系统误解为检索东西而不是创建它们,在涉及文本时导致了严重的后果,例如需要撤销法律判决和科学文章的收回。
造成这种混淆的主要原因是,人们倾向于在不明确说明他们谈论的是哪种AI时就大肆吹捧AI(我猜很多人自己也不知道)。将“AI”等同于生成式AI,甚至仅仅是语言生成AI,并假设所有其他能力都由此产生,这是非常容易做到的。这种谬论很有道理:这个术语字面上引用了“智能”,而我们对“智能”可能是什么的人类理解通常是通过语言的使用来介导的。(剧透:没有人真正知道智能是什么。)但是,“人工智能”这个短语在20世纪50年代被故意设计,目的是激发敬畏感并暗示某种类人特征。如今,它仅仅指的是一套用于处理数字数据的不同技术。我的一些朋友发现称其为“数学算法”(mathy maths)更有帮助。
将生成式AI视为最强大、最真实的AI形式的偏见是令人不安的,因为它消耗的能源明显多于预测性AI系统。这也意味着在未经原始创作者同意的情况下,利用现有的人类作品制作AI产品,并用AI系统取代人类工作岗位——而这些系统本身的能力正是建立在这些人类作品的基础之上——且未获得补偿。AI可以非常强大,但这并不意味着创作者应该被剥削。
作为一名在科技行业内的AI开发者,目睹这一切的展开,我为接下来的步骤吸取了重要教训。AI的广泛吸引力显然与基于对话的交互的直观性有关。但这种交互方式目前过度使用了生成方法,而预测方法本可胜任,从而造成了一种尴尬的局面:用户感到困惑,同时却给能源消耗、剥削和工作岗位流失带来了沉重的成本。
我们只看到了AI全部潜力的一瞥:当前的AI热潮反映的是它可能成为的样子,而不是它现在是什么。基于生成的方法耗费资源,同时在代表性、准确性以及被纳入系统的人们意愿方面仍然不尽人意。
如果我们能将聚光灯从围绕生成式技术的炒作转移到那些已经改变日常生活、更具影响力的预测性进步上,我们就能构建出真正有用、公平和可持续的AI。那些帮助医生更早发现疾病、帮助科学家更早预测灾难、帮助普通人更安全地导航生活的系统,才是最有可能带来最大影响的系统。
有益AI的未来将不取决于最炫酷的演示,而将取决于那些使技术值得信赖的、安静而严谨的进步。如果我们能在此基础上建设——将预测能力与更成熟的数据实践和直观的自然语言界面相结合——AI最终才能开始兑现许多人今天所感知的承诺。
玛格丽特·米切尔博士(Dr. Margaret Mitchell)是Hugging Face这家AI初创公司的计算机科学研究员兼首席伦理科学家。她已在科技行业工作了15年,发表了100多篇关于自然语言生成、辅助技术、计算机视觉和AI伦理的论文。她的工作获得了诸多奖项,并被多家科技公司所采用。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区