目 录CONTENT

文章目录

突破性进展:让机器人面孔不再令人毛骨悚然

Administrator
2026-01-29 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://www.sciencedaily.com/releases/2026/01/260116035308.htm

原文作者:Columbia University School of Engineering and Applied Science


令人毛骨悚然感减少的机器人面孔的突破

哥伦比亚大学工程师教会机器人通过观察学习唇部动作,就像人类对着镜子学习一样。

A Robot Face That Finally Feels Alive
霍德·利普森(Hod Lipson)和他的团队创造了一个机器人,该机器人首次能够学习用于语音和歌唱等任务的面部唇部动作。 鸣谢:Jane Nisselson/ Columbia Engineering

当人们面对面交谈时,他们近一半的注意力会被唇部的动作所吸引。尽管如此,机器人在做出生动的嘴部动作方面仍然面临巨大困难。即使是最先进的人形机器,如果它们有面部特征的话,也往往依赖于像木偶一样僵硬、夸张的嘴部动作。

人类非常重视面部表情,尤其是嘴唇的细微动作。虽然笨拙的行走或笨拙的手势可以被原谅,但面部动作中哪怕是微小的错误也会立即显现出来。这种敏感性导致了科学家所说的“恐怖谷”(Uncanny Valley)现象,即机器人看起来令人不安而不是栩栩如生。糟糕的唇部动作是机器人看起来诡异或情感平淡的主要原因,但研究人员表示,这种情况可能很快就会改变。

一个学会移动嘴唇的机器人

1月15日,哥伦比亚工程学院的一个团队宣布了人形机器人领域的重大进展。研究人员首次制造出了一个可以学习说话和唱歌时面部唇部动作的机器人。他们的研究成果发表在《Science Robotics》杂志上,展示了该机器人在多种语言中形成单词,甚至表演了其AI生成的首张专辑《hello world_》中的一首歌曲。

该机器人没有依赖预设规则,而是通过观察进行学习。它首先通过观察自己的倒影来学习如何使用26个独立的表情马达来控制自己的脸部。随后,它又研究了网上数小时的人类语音和歌唱视频,以理解人们如何移动嘴唇。

“它与人类互动越多,就会变得越好,”研究所在的哥伦比亚大学机械工程系詹姆斯和莎莉·斯科帕创新教授、创意机器实验室(Creative Machines Lab)主任霍德·利普森(Hod Lipson)说。

请看下方“唇形同步机器人”视频链接。

机器人观察自己说话

在机器人中创造出自然逼真的唇部运动尤其困难,主要有两个原因。首先,它需要先进的硬件,包括柔性面部材料和许多必须安静且完美协调的小型马达。其次,唇部运动与语音声音紧密相关,声音变化迅速,并取决于复杂的音素序列。

人类面部由皮肤下数十块肌肉控制,使得动作能够随着语音自然流畅地流动。然而,大多数人形机器人都有僵硬的面部和有限的动作。它们的唇部运动通常由固定的规则决定,导致机械化、不自然的表情,令人感到不安。

为了应对这些挑战,哥伦比亚团队设计了一个具有大量马达的柔性机器人面孔,并让机器人自主学习面部控制。机器人被放置在镜子前,开始尝试数千种随机的面部表情。就像一个孩子探索自己的倒影一样,它逐渐学会了哪些马达运动会产生特定的面部形状。这个过程依赖于研究人员所说的“视觉到动作”(vision-to-action, VLA)语言模型。

从人类语音和歌唱中学习

在了解了自己的面部运作方式后,机器人观看了人们说话和唱歌的视频。AI系统观察到嘴型如何随着不同声音而变化,从而能够将音频输入直接与马达运动联系起来。通过这种自我学习和人类观察的结合,机器人可以将声音转换为同步的唇部运动。

研究团队在多种语言、语音风格和音乐范例中测试了该系统。即使不理解音频的含义,机器人也能够与它听到的声音保持嘴唇同步运动。

研究人员承认结果并非完美无缺。“我们对‘B’这样的硬音以及涉及撅嘴的音,如‘W’,遇到了特别困难。但随着时间和练习,这些能力可能会提高,”利普森说。

超越唇形同步,迈向真正的交流

研究人员强调,唇形同步只是更广泛目标的一部分。他们的目标是为机器人提供更丰富、更自然的与人交流的方式。

“当唇形同步能力与ChatGPT或Gemini等对话式AI相结合时,效果为机器人与人类建立的联系增添了全新的深度,”该研究的主要负责人、博士生Yuhang Hu说。“机器人观察人类对话越多,它就越擅长模仿我们能够产生情感联系的细微面部手势。”

“对话的上下文窗口越长,这些手势对上下文的敏感度就越高,”胡补充道。

面部表情作为缺失的环节

研究团队认为,通过面部进行的情感表达是当前机器人技术中的一个主要缺失环节。

“如今,人形机器人技术很大程度上集中在腿部和手部动作上,用于行走和抓取等活动,”利普森说。“但对于任何涉及人机交互的机器人应用来说,面部情感表达同样重要。”

利普森和胡预计,随着人形机器人被引入娱乐、教育、医疗保健和老年护理领域,逼真的面部表情将变得越来越重要。一些经济学家估计,未来十年可能会生产超过十亿台人形机器人。

“未来不可能没有面孔的人形机器人。一旦它们终于有了面孔,它们就需要正确地移动眼睛和嘴唇,否则它们将永远保持‘恐怖谷’的状态,”利普森说。

“我们人类就是这样被构造的,我们无法控制。我们正接近跨越恐怖谷,”胡补充道。

风险与负责任的进步

这项工作建立在利普森长期致力于通过观察学习面部行为(如微笑、眼神接触和说话)来帮助机器人与人建立更自然联系的努力之上。他认为,这些技能必须通过观察而不是通过死板的指令来编程学习。

“当一个机器人仅仅通过观察和倾听人类就能学会微笑或说话时,就会发生一些神奇的事情,”他说。“我是一个老派的机器人学家,但我情不自禁地会对一个自发对我微笑的机器人报以微笑。”

胡强调,人类面孔仍然是沟通最强大的工具之一,科学家们才刚刚开始理解它是如何运作的。

“具有这种能力的机器人显然将具备更好地与人类建立联系的能力,因为我们很大一部分沟通涉及面部肢体语言,而整个渠道仍然没有被充分利用,”胡说。

研究人员也承认,创造能够与人类建立情感联系的机器会带来伦理方面的担忧。

“这将是一项强大的技术。我们必须缓慢而谨慎地进行,以便在利用其好处的同时将风险降至最低,”利普森说。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区