人形机器人如何突破“恐怖谷效应”？

当人与人面对面交流时，唇部动作是核心关注焦点之一。迄今为止，机器人始终难以精准模拟唇部动作，而人类对自身面部神态的关注度极高，尤其对唇部动作更为敏感——我们或许能包容机器人怪异的步态、笨拙的手部动作，但哪怕是极其细微的表情失误，都很难被接受。这种严苛的评判标准，正是人们常说的“恐怖谷效应”。如今，美国研究人员开发的拟人面部机器人Emo，正试图通过唇语同步与表情预判技术，打破这一桎梏。

核心突破：跨语言唇语同步与预判式表情系统

Emo的核心优势在于能将唇部动作与语音音频精准同步，呈现出更贴近人类的自然表情，且系统具备跨语言泛化能力，可覆盖法语、中文、阿拉伯语等多种语种。这款机器人旨在优化人机社交交互体验，不仅支持面部表情的非对称呈现，硬件配置也较第一代Eva机器人实现全面升级。

具体来看，其面部采用磁吸式贴合设计，可驱动仿生皮肤灵活形变，相较传统绳索传动系统，控制精度大幅提升；同时面部嵌入高分辨率RGB摄像头，能实现实时视觉感知，精准预判对话对象的表情变化；系统内置的双神经网络架构更是关键，其中自模型负责预测Emo自身的面部表情，交互模型则专注于预判人类对话者的表情。搭配23个面部表情驱动电机与3个颈部运动驱动电机，Emo可实现表情实时同步，与人类达成自然的表情呼应。

哥伦比亚研究人员表示，当前同类技术共有五种，而Emo所采用的新技术表现更优，能最大程度缩小机器人唇部动作与理想参考视频的差异。“该框架可针对11种语音结构各异的非英语语种，生成自然逼真的唇部动作。”研究团队强调，这一技术未来有望广泛应用于教育、养老等需要高频人机交互的领域。

训练与性能：视频自主学习+超高帧率实时响应

在人机交互场景中，当前多数机器人采用被动响应模式，即人类做出动作后才模仿相应表情，交互体验极为生硬。而预判式表情能提前预测人类情绪并生成对应表情，是实现真实、高情商人机交互的核心关键，比如机器人主动的微笑表情，就能有效增强人类对其的信任与社交联结。

要实现这一目标，预判人类表情变化是Emo面临的核心技术难点，唯有精准预判才能为动作执行预留充足时间。为此，研究人员招募了45名受试者，录制970段视频数据，以此训练出一套高效的预判式面部表情模型。该模型能捕捉人类面部表情的初始变化，并准确预测后续表情发展趋势。在训练过程中，输入帧从表情峰值周围的四个帧中随机选取，标签则由随后的四个帧提供，确保了模型预测的精准性与泛化性。

出色的硬件与算法协同，带来了极致的响应速度。在2019款苹果MacBook Pro上，预判模型的运行帧率可达650帧/秒，逆模型的电机指令执行帧率更是高达8000帧/秒，这使得机器人能在0.002秒内完成表情生成。而人类面部表情的生成通常需要0.841±0.713秒，这为机器人实现实时表情响应预留了充足的缓冲时间。借助预判模型与逆模型的协同作用，机器人无需直接观测目标面部，就能与人类实现面部表情的同步呈现。

值得一提的是，哥伦比亚团队开发的系统首次实现了机器人通过自主学习掌握适用于说话、唱歌等任务的面部唇部动作。它不仅能清晰说出多种语言的词汇，甚至还演唱了人工智能原创专辑《你好，世界》（Hello World）中的歌曲。机器人的学习过程极具“自主性”：先对着镜子观察自身影像，摸清26个面部驱动电机的操控方式，随后通过观看YouTube视频，自主学会了模仿人类的唇部动作。“机器人系统与人类互动越频繁，表现会越出色。”哥伦比亚大学教授霍德·利普森（Hod Lipson）表示。

挑战与展望：攻克语音难题，迈向全面人机融合

让机器人精准实现唇部动作，并非易事，主要面临两大核心挑战：一是硬件支持，需要具备灵活变形能力的仿生皮肤和高性能微型驱动电机；二是技术层面，唇部运动是一套复杂的动态过程，其变化规律由一连串语音音节和音素共同决定。人类的唇部动作由几十块肌肉协同驱动，这使得人形机器人的面部动作极易显得生硬、不自然，进而引发“恐怖谷效应”。

目前来看，哥伦比亚团队开发的系统在唇部动作模拟上仍有提升空间。利普森坦言：“我们在模拟爆破音（比如B）和噘唇音（如字母W的发音）时，遇到不少困难，但假以时日，经过反复训练，未来会得到提升。”此外，该技术还存在一定的文化局限性，比如在不同文化背景下，人类的表情表达与眼神交流习惯存在差异，单纯的表情模仿难以适配所有场景。但研究团队认为，对人类表情的预判能力，已是机器人实现社交能力发展的关键第一步。

当今机器人领域的研究重点多集中在腿部、手部动作上，但利普森判断，未来只要涉及人机交互场景，面部表情就不可或缺。“未来所有人形机器人都会配备面部结构，而当它们真正拥有面部时，必须灵活地转动眼球、活动嘴唇，否则就会永远深陷恐怖谷效应之中。”（小刀）