
这项由台湾国立大学与英伟达台湾团队共同完成的研究,以预印本形式于2026年4月19日发布在arXiv平台,论文编号为arXiv:2604.17435,题为《MoVE: Translating Laughter and Tears via Mixture of Vocalization Experts in Speech-to-Speech Translation》,有兴趣深入了解的读者可通过该编号查询完整论文。
**一个被机器弄丢的笑声**
假设你正在看一场中文脱口秀的英语版直播,台上的演员边说边忍不住笑出声,全场观众被那种感染力逗得哈哈大笑。然而,当AI实时翻译把这段话转成中文语音播放出来时,那个滚烫的笑声消失了,剩下的只是一句平平无奇、声调正经的普通话台词——幽默感荡然无存,就像把一首摇滚乐的鼓点全部删掉,只剩下干巴巴的歌词。
这正是当前语音到语音翻译(Speech-to-Speech Translation,即S2ST)技术的通病。现有系统在把一种语言的说话音频转换成另一种语言的说话音频时,确实能把"说了什么"翻译得相当准确,但对于"怎么说的"却几乎一无所知。具体而言,那些夹杂在正常说话中的笑声、哭泣声、哽咽、颤抖等被研究者称为"非语言发声"(Non-verbal Vocalizations,简称NV)的声音信号,携带着巨大的情感和语用信息,却被现有系统一刀切地过滤掉了。
台湾国立大学的研究团队意识到,这不只是一个技术上的不完美,而是一个可能在跨语言沟通中制造严重误解的问题。一句带着苦笑说出的自嘲,被翻译成正经口吻,可能变成毫无幽默感的陈述;一句哽咽着说出的道歉,被翻译成平静的语音,可能显得漠然甚至冷酷。正是为了填补这个情感鸿沟,他们提出了一个名为MoVE(Mixture of Vocalization Experts,即"发声专家混合体")的新系统。
**一、AI翻译丢掉的东西:比你以为的更重要**
要理解这个研究解决了什么问题,不妨把人类说话比作一首完整的乐曲。歌词是语言内容,是我们通常意义上说的"意思";但旋律、节奏、情绪,才是让这首曲子真正打动人心的东西。现有的翻译AI基本上只翻译了歌词,而把旋律扔掉了。
研究团队把人类说话中的"情感旋律"归纳为两大类:一类是普通的情绪性语调,比如愤怒时声音变得生硬、悲伤时语速放缓;另一类则是更极端的非语言发声,就是那些本身不是词语但明确传达情感的声音,比如笑声、哭声。后者才是最难被现有系统处理的,也是这项研究最核心的攻克目标。
为什么非语言发声这么难处理?研究团队指出了两个根本性的瓶颈。其一是数据极度稀缺。真实语音语料库中含有笑声、哭声的高质量音频少之又少,而且往往混杂着背景噪音,系统很难把情感信号从噪音中剥离出来。其二是模型架构本身的难题:语音到语音翻译已经是三个任务的叠加——先听懂(语音识别),再翻译(机器翻译),再开口(语音合成)——在这个本就极其复杂的框架上再塞入"保留情感"的要求,几乎是在走钢丝时还要同时玩杂耍。
**二、造出训练数据:一条流水线,生产"会哭会笑"的语音**
面对数据稀缺的第一道难关,研究团队没有坐等真实数据的积累,而是选择自己动手制造。他们设计了一条自动化的"表情数据合成流水线",逻辑上很像一个精心设计的配音工作室。
整个流程分三步走。第一步是准备"情绪模板",也就是各种情绪的声音参考样本。对于愤怒、快乐、悲伤这三种基础情绪,团队从CREMA-D、MSP-IMPROV、IEMOCAP这三个已有的情感语音数据库中广泛采集样本,确保情绪模板的多样性,而不是让所有"愤怒"都听起来像同一个人。对于笑声和哭声这两类极端非语言发声,团队采取了更严格的筛选标准——笑声样本通过一个置信度高达99%以上的笑声检测器从大量语料中自动提取,并经过人工逐一核验;哭声样本则来自日本情感语音数据集JVNV,特别筛选那些在正常说话中穿插着真实哭泣的样本,确保是"边说边哭"而非单纯的哭声片段。
第二步是"把声音穿在别人身上"——这是整个流水线最有创意的设计。由于极端情感的模板样本数量有限,如果每次生成都用同一批模板,合成出来的数据就会显得单调,好像所有笑声都来自同一个人。为了解决这个问题,团队采用了一种"解耦"策略:用情感模板告诉AI"该怎么笑",同时另外随机挑一个中性语音告诉AI"用谁的嗓音"。这样一来,同样的笑声特征就能被"穿"在千百种不同音色的声音上,数据多样性大幅提升。执行这一合成任务的是IndexTTS2,一个擅长情感表达的零样本语音合成系统。
第三步是质量把关,也是保证这批人工数据真正可用的关键。表情丰富的语音合成系统有个已知的毛病:它有时会"发疯",该说的词没说完,或者干脆发出奇怪的噪音。为了过滤这些不合格品,团队设置了三道过滤器。首先是长度过滤,太短的音频(不足0.5秒)直接丢弃。其次是语音识别准确率过滤——用Whisper模型把合成音频转回文字,再与原文对比,错误率超过50%的样本淘汰(这个阈值之所以设得较宽松,是因为夹杂笑声或哭声的语音本来就不会被识别得很准确,过于严格的过滤反而会把好的样本也误杀)。第三道过滤是配对过滤:英文和中文两个版本必须同时通过前两道关卡,才能作为一对训练样本保留下来。
经过这条流水线,团队最终生成了一个覆盖五种情感状态(愤怒、快乐、悲伤、笑声、哭声)的大规模表情语音翻译数据集,总时长超过1000小时,并已向研究社区公开发布。
**三、MoVE架构:五位专家,一个灵活的主持人**
解决了数据问题,团队转向更核心的挑战:模型架构设计。他们的思路可以用一个指挥家与乐手的比喻来理解。
现有方案相当于让一位演奏家同时掌握所有乐器——理论上可行,实际上演奏不同风格时会相互干扰,难以精准。MoVE的做法则是招募五位专精不同乐器的演奏家,分别负责愤怒、快乐、悲伤、笑声、哭声五种情感表达,再配备一位懂得根据当前曲目灵活调配各演奏家贡献比例的指挥家。
技术上,MoVE建立在一个已经预训练好的大型音频语言模型Kimi-Audio(由月之暗面开发的7B参数模型)之上。为了不破坏这个基础模型已经掌握的庞大语音知识,团队冻结了基础模型的所有参数,只在其上附加轻量级的"可插拔适配器",这种技术被称为LoRA(Low-Rank Adaptation,低秩自适应)。LoRA的原理类似于给一件衣服缝上口袋——不改变衣服的主体结构,只是附加了新功能。
在MoVE中,这样的LoRA适配器一共有五个,分别对应五种情感,像五位相互独立的专家并行运作。每位专家都在自己的独立"参数空间"里运作,互不干扰,各自学习自己负责的那种情感的声音特征。当系统需要生成一段包含情感色彩的语音时,真正决定"各专家贡献多少"的,是一个被称为"动态软权重路由器"的小机制。
这个路由器的工作方式类似于一个经验丰富的调音师:它会持续监听每一个语音生成时刻的状态,然后给五位专家分配不同的"音量旋钮比例"。关键在于,它不是非此即彼地选择某一位专家,而是可以同时激活多位,让他们按不同比例融合。这种"软融合"设计的动机来自一个真实的观察:人类的情感本来就不是非黑即白的。"带着苦笑的哭泣"需要笑声专家和哭声专家同时出力;"愤怒中夹杂悲伤"需要两位专家的协同。硬性规定"每次只用一位专家"会错失这种混合情感,而软权重路由则能灵活捕捉。
值得一提的是,系统还对负责把数字音频编码转回真实声波的"解码器"(detokenizer)进行了专门的微调。原始的解码器在面对笑声和哭声这类极端非语言发声时会"失真",经过专项训练后,它能更可靠地把这类情感还原成逼真的声音。
**四、两阶段训练:先让专家各练各的,再让指挥家上场**
MoVE的训练过程分为两个阶段,设计逻辑清晰而精妙。
第一阶段叫做"专家专项训练"。此时,五位LoRA专家被分开独立训练,每位专家只看自己负责的情感类别数据。愤怒专家只学愤怒语音对应的翻译,哭声专家只学含哭声语音的翻译,以此类推,每人练习20小时的专项数据。这一阶段的目的是让每位专家在自己的领域形成足够深入、足够精准的能力,而不被其他情感的信号所干扰。
第二阶段叫做"路由器优化"。当五位专家都已经深度专业化之后,团队把他们集成到统一的MoVE架构中,然后训练那位"指挥家"路由器——用完整的100小时数据集,让路由器学会在各种情感场景下如何分配专家的权重。尤其值得注意的是,路由器的训练完全没有使用情感标签,也就是说,没有人告诉它"这句话是愤怒的,所以应该多用愤怒专家"。路由器完全依靠最终语音生成质量的好坏来反推自己该怎么分配比例,是一种纯粹从结果反向学习的自监督过程。
这一设计的精巧之处在于:由于专家已经在第一阶段建立了清晰的情感分工,路由器即使没有情感标签指导,也能从语音的潜在声学特征中自然学会"哪种情况该让谁多说话"。
**五、实验结果:数字会说话,但人耳更诚实**
研究团队从三个维度评估MoVE的表现,可以比作从三个不同角度给一段翻译语音打分。
第一个维度是"说准了没有",用ASR-BLEU分数来衡量——简单说就是把翻译结果再转回文字,看看和标准译文差多少分。MoVE在英译中方向拿到了32.5分,是所有测试系统中的最高分,在中译英方向拿到21.4分,仅略低于语义翻译起家的SeamlessM4T系统(23.6分),差距在2.2分以内。
第二个维度是"情绪像不像",用Aro-Val SIM(情绪的激动程度与正负向情感的相似度)来衡量。MoVE得到0.53分,在所有不需要参考原始说话人声音的端对端系统中排名最高,甚至非常接近以原始音频作为提示的级联系统(0.55分)。这个成绩的参照系是:现有的商业系统SeamlessExpressive得0.45分,GPT-4o语音版本得0.18分,未经微调的Kimi-Audio基础模型只有0.11分。
第三个维度是"人听着怎么样",通过人类主观评估来衡量。五位精通英中双语的评估者听取了从六个情感类别中各抽取的共30条语音,分别对自然度和情感相似度打1到5分。MoVE在自然度上获得3.85分,在情感相似度上获得3.79分,均为所有测试系统中的最高分。与此形成对比的是,GPT-4o语音版自然度3.26分但情感相似度仅2.03分,级联系统自然度2.61分、情感相似度3.43分,商业的SeamlessExpressive自然度仅1.41分、情感相似度2.57分。
最能直接说明问题的是一个叫做"NV匹配准确率"的指标——也就是说,在评估者听完翻译音频后,他们是否真的感知到了和原始语音相同的非语言发声(笑声或哭声)。MoVE的匹配率达到76%,而在所有对比系统中,表现最好的SeamlessExpressive只有14%,其他系统几乎在2%至4%的水平徘徊,基本相当于随机。此外,在MoVE与单LoRA基线(即不使用混合专家架构、只用一个LoRA模块)的配对偏好测试中,60%的评估者认为MoVE更好,22.67%认为两者差不多,只有17.33%偏向单LoRA基线。
**六、只需半小时数据,就能"点醒"沉睡的能力**
研究团队还做了一个关于数据效率的实验,结果出乎意料,甚至有些令人惊叹。
他们用0小时、0.1小时、0.5小时、1小时、5小时、10小时、50小时、100小时、500小时、1000小时不同规模的数据来训练同一个LoRA模型,观察性能的变化曲线。结果显示,从0.5小时到1000小时,模型在语义翻译准确率和情感相似度上的表现几乎是一条平线——也就是说,用半小时数据训练出来的效果,与用1000小时数据训练的效果相差无几。
这个发现初看令人费解,但研究团队随即做了一个对照实验来揭开谜底。他们把Kimi-Audio的基础权重完全随机重置(就像把一个经验丰富的老司机的记忆全部清空),然后在同样的数据规模下从头训练。结果是模型完全无法收敛,无论给多少数据,输出的都是无法辨认的噪音。
这一对比说明了一个重要道理:MoVE的数据高效性,本质上来自Kimi-Audio基础模型在大规模预训练阶段已经积累的声学和语义知识。LoRA的作用不是"创造新能力",而是"唤醒已有潜力"——就像一个本来就懂音乐的人,给他几个月的情感表达课程就能大幅提升,而一个完全没有音乐基础的人即使训练几年也难以达到同样水平。仅仅30分钟的精心筛选数据,就能激活这个大型模型中潜藏的情感表达能力,并达到全量数据95%的情感还原水平。
**七、路由器学会了什么:情感的地图自然浮现**
研究团队还对路由器的内部行为进行了可视化分析,得到了一个混淆矩阵图。这张图记录的是:当输入某种情感的语音时,路由器最倾向于激活哪位专家。
整体而言,路由器在从未被明确告知"这是什么情感"的情况下,仍然实现了63.68%的正确情感对应率——也就是说,当输入愤怒语音时,它大多数时候会把最高权重分配给愤怒专家;当输入笑声时,会最多激活笑声专家。这一准确率在无监督条件下相当可观。
更耐人寻味的是那些"错误"的激活模式。悲伤语音有时会激活哭声专家,快乐语音有时会激活笑声专家——这些并非真正的错误,而是对人类情感连续谱的一种忠实映射。悲伤和哭泣在情感空间中本就毗邻,路由器捕捉到了这种潜在的声学相似性。这种"软边界"的存在,恰恰是混合专家架构优于硬性分类方案的地方:它不强迫情感非此即彼,而是允许它们像真实的人类情感一样相互交融。
说到底,MoVE做到的事情可以用一句话概括:让机器翻译终于记住了,说话的意义不只藏在词语里,也藏在那一声轻笑、那一阵哽咽之中。这项研究打开了一扇门,让AI翻译系统有机会跨越语言障碍的同时,也跨越情感障碍——不再把"笑着说的话"翻译成"面无表情说的话"。
当然,研究本身也坦诚地指出了局限。目前MoVE只覆盖了五种情感状态,现实生活中的情感表达远比这复杂;数据集以英语和中文为核心,多语言拓展还需进一步工作;而且测试评估者只有五位,样本规模相对有限。这些都是未来值得继续探索的方向。
不过,从"完全丢失非语言发声"到"76%的还原率",从"需要海量数据训练"到"30分钟数据就能激活能力",这项研究清晰地标记出了一条可行的路径。下一次当跨语言通话中的笑声或哭泣能够被忠实地传递到对方耳中时,背后可能正有一套类似MoVE的机制在默默工作。
Q&A
Q1:MoVE系统在翻译时怎么保留笑声和哭声这类特殊声音?
A:MoVE采用了五位"情感专家"并行工作的架构,分别专精愤怒、快乐、悲伤、笑声、哭声五种情感。当系统翻译一段语音时,一个"路由器"会根据当前语音的情感特征,灵活分配这五位专家各自发挥多少作用,而不是非此即彼地选一个。这样既能处理单一情感,也能捕捉"边笑边哭"这类混合情感状态,最终使非语言发声的还原率达到76%。
Q2:MoVE训练需要多少数据才能正常工作?
A:实验发现,基于预训练的大型音频模型Kimi-Audio进行LoRA微调时,仅需约30分钟到0.5小时的精心筛选数据,就能达到用1000小时数据训练的约95%的情感还原效果。关键在于大型预训练模型本身已经积累了大量声学和语义知识,少量数据只是"唤醒"这种潜在能力,而非从零创造能力。
Q3:MoVE合成训练数据的方式有什么特别之处?
A:研究团队设计了一种"解耦"合成策略:用情感模板声音告诉AI"该怎么表现这种情感",同时另外随机选取中性语音提供说话人的音色,两者分开提供。这样同一种笑声或哭声特征可以被叠加到数千种不同音色的声音上,大大提升了数据多样性,避免所有笑声听起来都像同一个人。