📢 转载信息
原文作者:Margaret Mitchell
2022年4月28日,在华盛顿州斯波坎(Spokane)举行的一场备受期待的音乐会上,音乐家保罗·麦卡特尼(Paul McCartney)用一项开创性的人工智能应用震惊了观众:他开始与他已故的音乐伙伴约翰·列侬(John Lennon)的栩栩如生的形象同台演出。
工程师们利用最新的音频和视频处理技术,从原始混音中分离出列侬的声音和影像,并以逼真的清晰度恢复了它们,这些素材取自两人最后一次共同演出的录像(1969年,伦敦)。
本文是《麻省理工科技评论》炒作修正(Hype Correction)系列的一部分,该系列旨在重新设定人们对AI是什么、能做什么以及我们下一步将走向何方的期望。
多年来,像我这样的研究人员一直在教机器如何“看”和“听”,以促成这一时刻的实现。当麦卡特尼和列侬仿佛跨越时空重聚时,体育场陷入了寂静;许多观众开始落泪。作为一名AI科学家和终生的披头士乐队粉丝,我深感庆幸我们能够体验到这个真正改变人生的时刻。
同年晚些时候,世界又被另一个重大突破所吸引:AI对话。得益于ChatGPT的发布,有史以来第一次,能够就几乎任何主题实时生成新的、与上下文相关的评论的系统被广泛使用。数十亿人突然能够与AI互动。这激发了公众对AI潜力的想象,带来了创造性思想、希望和恐惧的爆发。
我花了很长时间研究AI语言生成(长期以来被认为是小众领域),我对我们能达到这个地步感到非常兴奋。但我感到的敬畏感,被媒体上涌现出的对生成式AI的夸大解读所淹没,这些解读声称生成式AI可以做它根本做不到的事情,并警告说任何不采用它的人都将被抛在后面。
相关故事
OpenAI的新LLM揭示了AI真正工作原理的秘密这类炒作加剧了人们对AI的本质、其能力和局限性的误解。至关重要的是,生成式AI是一种诱人的分心之物,它分散了我们对最有可能改善甚至拯救你生活的AI类型的关注:预测性AI。与专为生成任务设计的AI不同,预测性AI涉及的任务有一套有限的、已知的答案集;系统只需处理信息来判断哪个答案是正确的。一个基本的例子是植物识别:将手机摄像头对准一株植物,就能知道它是一株西部剑蕨。相比之下,生成式任务没有固定的正确答案集:系统必须将其训练中混合的信息片段进行组合,例如,创作出一张新的蕨类植物图片。
用于聊天机器人、换脸和合成视频的生成式AI技术,展示了令人惊叹的演示效果,吸引了点击和销量,因为观众们沉浸在超人AI将带来丰裕或灭绝的狂野想法中。然而,预测性AI却在悄然改善天气预报和食品安全,支持更高质量的音乐制作,帮助整理照片,并准确预测最快的驾驶路线。我们几乎没有意识到地将预测性AI融入日常生活中,这证明了它不可或缺的实用性。
要了解预测性AI的巨大进步及其未来潜力,我们可以回顾过去20年的轨迹。在2005年,我们无法让AI区分一个人和一支铅笔。到2013年,AI仍然无法可靠地检测照片中的鸟类,区分行人与可口可乐瓶仍然令人困惑(这就是我了解到,如果你没有头部,瓶子确实有点像人)。将这些系统部署到现实世界中的想法,还停留在科幻小说的范畴。
然而,在过去的十年里,预测性AI不仅能精确识别出鸟类的具体种类,而且还快速改进了对生命至关重要的医疗服务,例如识别有问题的病变和心脏心律失常。由于这项技术,地震学家可以比以往任何时候都更可靠地预测地震,气象学家也可以更可靠地预测洪水。面向消费者的技术的准确性也大大提高,例如检测和分类你哼歌时脑海中想到的歌曲,或者在你驾驶时需要避开的物体——使自动驾驶汽车成为现实。
相关故事
2025年AI炒作修正:四大思考在非常不久的将来,我们应该能够准确地检测肿瘤并及早预报飓风,实现世界各地人民的毕生愿望。这可能不像生成你自己的吉卜力工作室风格的电影那样光鲜亮丽,但它绝对值得大肆宣传。
当预测性AI系统利用某些生成技术来处理受限选项集时,它们也被证明具有惊人的实用性。这类系统多种多样,范围从服装可视化到跨语言翻译。很快,预测-生成混合系统将能实现实时克隆你自己的声音来朗读另一种语言,这对旅行来说是一个非同寻常的帮助(但也伴随着严重的冒充风险)。这里有相当大的增长空间,但当生成式AI以强大的预测方法为基础时,它才能提供真正的价值。
要理解这两大类AI的区别,想象你是一个被任务展示猫长什么样子的AI系统。你可以采用生成式方法,将来自各种猫的图片的小片段剪切并粘贴在一起(可能来自那些反对使用其图片的来源),以构建一个看似完美的描绘。现代生成式AI制作这种完美拼贴的能力正是它如此令人惊叹的原因。
另一种方法是采用预测式方法:简单地定位并指向一张现有的猫的图片。这种方法虽然不那么吸引人,但能效更高,且更可能准确,并能正确承认原始来源。生成式AI旨在创建看起来真实的东西;而预测性AI则识别真实存在的东西。人们误以为生成系统是在检索东西,而实际上它们是在创建东西,这种误解在文本领域导致了严重后果,使得法律裁决被撤回和科学文章被撤稿。
造成这种混淆的根源在于人们倾向于在不明确说明讨论的是哪种AI时就大肆宣传AI(我敢说很多人并不知道)。将“AI”等同于生成式AI,甚至仅仅是语言生成AI,并认为所有其他能力都由此产生,是很容易做到的。这种谬论非常合理:这个术语字面上引用了“智能”,而我们对“智能”的理解往往是通过语言的使用来中介的。(剧透:没有人真正知道智能是什么。)但“人工智能”一词在20世纪50年代就被有意设计出来,旨在激发敬畏,暗示类人特征。如今,它仅仅指代一套用于处理数字数据的不同技术。我的一些朋友觉得称之为“数学运算”(mathy maths)更有帮助。
将生成式AI视为最强大、最真实的AI形式的偏见是令人担忧的,因为它消耗的能源明显多于预测性AI系统。这也意味着在没有得到原作者许可的情况下使用现有的人类作品来制作AI产品,并用AI系统取代人类工作岗位——这些系统本应归功于被取代者所做的工作——却未给予任何补偿。AI可能极其强大,但这不意味着创作者应该被占便宜。
作为科技行业内的一名AI开发者,目睹这一切的发生,我对下一步有了重要的认识。AI的广泛吸引力显然与基于对话的交互的直观性有关。但这种互动方式目前过度使用了生成方法,而在这些场景中预测方法本就足够,从而导致了一种让用户感到困惑的尴尬局面,同时还带来了巨大的能源消耗、剥削和工作岗位替代成本。
我们只看到了AI全部潜力的一瞥:当前对AI的兴奋反映的是它可能成为的样子,而不是它现在的样子。基于生成的方法消耗资源,同时在代表性、准确性以及被纳入系统的人们意愿方面仍有欠缺。
如果我们能将聚光灯从对生成技术的炒作转移到已经改变日常生活的预测性进展上,我们就能构建出真正有用、公平和可持续的AI。那些帮助医生更早发现疾病、帮助科学家更早预测灾难、帮助普通人更安全地规划生活的系统,才是那些有望带来最大影响的系统。
有益AI的未来不会由最炫酷的演示来定义,而是由那些让技术值得信赖的、安静而严谨的进步来定义。如果我们在此基础上构建——将预测的优势与更成熟的数据实践和直观的自然语言界面相结合——AI最终就能开始兑现许多人今天所期望的承诺。
玛格丽特·米切尔博士是Hugging Face人工智能初创公司的计算机科学研究员兼首席伦理科学家。她已在科技行业工作了15年,发表了100多篇关于自然语言生成、辅助技术、计算机视觉和AI伦理的论文。她的工作获得了众多奖项,并被多家科技公司采用。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区