📢 转载信息
原文链接:https://www.sciencedaily.com/releases/2026/01/260116035308.htm
原文作者:Columbia University School of Engineering and Applied Science
让机器人面部不再令人毛骨悚然的突破
哥伦比亚大学工程师教会机器人通过观察学习唇部动作,就像人类对着镜子学习一样。
当人们面对面交谈时,他们将近一半的注意力集中在嘴唇的动作上。尽管如此,机器人至今在做出逼真的口型动作方面仍然非常吃力。即使是最先进的人形机器,如果它们有面部的话,也常常依赖于僵硬、夸张的嘴部动作,看起来像木偶。
人类非常重视面部表情,尤其是嘴唇的细微动作。虽然笨拙的行走或笨拙的手势可以被原谅,但面部动作中即便是微小的失误也会立即引人注目。这种敏感性导致了科学家所说的“恐怖谷效应”(Uncanny Valley)——机器人给人的感觉不是栩栩如生,而是令人不安。糟糕的唇部动作是机器人显得怪异或情感平淡的主要原因,但研究人员表示这种情况可能很快就会改变。
学会动嘴的机器人
1月15日,哥伦比亚工程学院的一个团队宣布了人形机器人领域的重大进展。研究人员首次制造出了一个能够学习说话和唱歌时面部唇部动作的机器人。他们的研究成果发表在《Science Robotics》杂志上,展示了该机器人在多种语言中形成单词,甚至演唱了其人工智能生成的首张专辑“hello world_”中的歌曲。
该机器人没有依赖预设规则,而是通过观察学习。它首先通过观察自己的倒影来学习如何控制面部的26个独立面部电机。随后,它又学习了数小时的人类演讲和唱歌视频,以便理解人类如何移动嘴唇。
该研究的负责人、哥伦比亚大学机械工程系詹姆斯和莎莉·斯卡帕创新教授、创意机械实验室主任霍德·利普森说:“它与人类互动得越多,就会变得越好。”
请参阅下方“唇形同步机器人”视频链接。
机器人观看自己说话
在机器人中实现自然逼真的唇部运动特别困难,主要有两个原因。首先,这需要先进的硬件,包括柔性面部材料和许多必须安静且完美协调运行的小型电机。其次,唇部运动与语音声音紧密相关,这些声音变化迅速,并取决于复杂的音素序列。
人类的面部由皮肤下数十块肌肉控制,使动作能够随着语音自然流畅地变化。然而,大多数人形机器人的面部是刚性的,运动受限。它们的唇部动作通常由固定的规则决定,这导致了机械化、不自然的表情,让人感到不安。
为解决这些挑战,哥伦比亚团队设计了一个具有大量电机的柔性机器人面部,并让机器人自主学习面部控制。机器人被放置在镜子前,开始尝试数千种随机的面部表情。就像一个孩子探索自己的倒影一样,它逐渐学会了哪些电机运动会产生特定的面部形状。这个过程依赖于研究人员所说的“视觉到动作”(Vision-to-Action, VLA)语言模型。
从人类的言语和歌声中学习
在理解了自己的面部工作原理后,机器人观看了人们说话和唱歌的视频。人工智能系统观察了嘴型如何随不同声音变化,使其能够将音频输入直接与电机运动联系起来。通过这种自学和人类观察的结合,机器人可以将声音转换为同步的唇部运动。
研究团队在多种语言、语音风格和音乐示例中测试了该系统。即使不理解音频的含义,机器人也能够随着听到的声音同步移动嘴唇。
研究人员承认结果并非完美。利普森说:“我们在处理像‘B’这样的硬辅音以及涉及噘嘴的‘W’等音素时遇到了特定的困难。但这些能力很可能会随着时间和练习而提高。”
超越唇形同步,迈向真正交流
研究人员强调,唇形同步只是更广泛目标的一部分。他们的目标是赋予机器人更丰富、更自然的与人交流的方式。
作为其博士工作一部分领导这项研究的胡宇航(Yuhang Hu)说:“当唇形同步能力与像 ChatGPT 或 Gemini 这样的对话式人工智能结合时,效果为机器人与人类建立的联系增添了全新的深度。机器人观察人类对话的次数越多,它就越能更好地模仿我们可以在情感上产生共鸣的细微面部手势。”
胡补充道:“对话的上下文窗口越长,这些手势对上下文的敏感度就越高。”
面部表情是缺失的环节
研究团队认为,通过面部进行情感表达是当前机器人技术中的一个主要空白。
利普森说:“目前人形机器人的大部分研究都集中在腿部和手部运动上,用于行走和抓取等活动。但对于任何涉及人机交互的机器人应用来说,面部情感表达同样重要。”
利普森和胡预计,随着人形机器人在娱乐、教育、医疗保健和老年护理等领域的普及,逼真的面部表情将变得越来越重要。一些经济学家估计,未来十年可能会生产超过十亿台人形机器人。
利普森说:“未来不可能没有面部的人形机器人。当它们终于有了面孔时,它们需要正确地移动眼睛和嘴唇,否则它们将永远停留在‘恐怖谷’中。”
胡补充说:“我们人类就是这样被设定的,我们无法控制。我们正接近跨越恐怖谷。”
风险与负责任的进步
这项工作建立在利普森长期的努力之上,旨在通过学习微笑、眼神接触和说话等面部行为,帮助机器人与人建立更自然的联系。他认为,这些技能必须通过观察而不是通过僵硬的指令来学习。
他说:“当机器人仅通过观察和倾听人类就能学会微笑或说话时,就会发生一些神奇的事情。我是一个老练的机器人专家,但看到一个自发对我微笑的机器人,我也不禁回以微笑。”
胡强调,人类面部仍然是沟通最强大的工具之一,科学家才刚刚开始了解它的运作方式。
胡说:“具有这种能力的机器人显然将具有与人类建立联系的更好能力,因为我们沟通的很大一部分涉及面部肢体语言,而整个渠道仍然没有被充分利用。”
研究人员也承认创造能够与人类产生情感互动的机器所带来的伦理担忧。
利普森说:“这将是一项强大的技术。我们必须缓慢而谨慎地进行,以便我们能够获得益处,同时最大限度地减少风险。”
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区