2025年4月,研究生团队博士生涂耿牵头撰写的论文“Generalizing to Unseen Speakers: Multimodal Emotion Recognition in Conversations with Speaker Generalization”获情感计算领域顶级国际期刊IEEE Transactions on Affective Computing 录用。
多模态对话情绪识别(MERC)旨在识别对话视频中每个说话人的情绪。当前研究主要聚焦于建模说话人敏感的上下文依赖关系以及多模态融合,但在处理未见说话人的话语时仍然存在困难,限制了模型的泛化能力。为了解决这一挑战,本文提出了一个面向说话人泛化的MERC框架。具体而言,本文构建了原型图来学习基于说话人的话语表示(Speaker-based Utterance Representations, SUR),利用原型作为已见和未见说话者之间的桥梁。随后,引入说话人感知的对比学习(Speaker-aware Contrastive Learning, CL),通过拉近来自同一说话人的话语(或原型)并推远不同说话人的话语(或原型),进一步优化SUR。此外,论文提出了原型图对比学习,以促进SUR在未见说话人上的泛化,确保相同说话人具有相似的图结构,不同说话人则具有差异化的结构。为了进一步提升模型的泛化能力,还引入了基于不确定性的说话人泛化方法,从估计的高斯分布中随机采样SUR统计特征,并以一定概率替换原本的SUR表示。在两个数据集上的实验结果表明,该框架能够显著提升各种MERC模型的泛化性能,且优于强基线。
本文方法框架图
IEEE Transactions on Affective Computing是情感计算领域的重要国际期刊,影响因子9.6,JCR Q1期刊,在中科院学术推荐列表(升级版)中为一区TOP期刊,CCF-B类期刊。
论文信息:
Geng Tu, Ran Jing, Bin Liang, Yue Yu, Min Yang, Bing Qin, and Ruifeng Xu*. Generalizing to Unseen Speakers: Multimodal Emotion Recognition in Conversations with Speaker Generalization. IEEE Transactions on Affective Computing. 2025