背景
博士生涂耿论文获情感计算领域顶级国际期刊TAFFC录用
2025-05-02 10:47 HITSZ-HLT    (浏览量)

20254月,研究生团队博士生涂耿牵头撰写的论文Generalizing to Unseen Speakers: Multimodal Emotion Recognition in Conversations with Speaker Generalization”获情感计算领域顶级国际期刊IEEE Transactions on Affective Computing 录用。

多模态对话情绪识别(MERC)旨在识别对话视频中每个说话人的情绪。当前研究主要聚焦于建模说话敏感的上下文依赖关系以及多模态融合,但在处理未见说话人的话语时仍然存在困难,限制了模型的泛化能力。为了解决这一挑战,本文提出了一个面向说话泛化的MERC框架。具体而言,本文构建了原型图来学习基于说话话语表示(Speaker-based Utterance Representations, SUR),利用原型作为已见和未见说话者之间的桥梁。随后,引入说话感知的对比学习(Speaker-aware Contrastive Learning, CL),通过拉近来自同一说话话语(或原型)并推远不同说话话语(或原型),进一步优化SUR。此外,论文提出了原型图对比学习,以促进SUR在未见说话上的泛化,确保相同说话具有相似的图结构,不同说话则具有差异化的结构。为了进一步提升模型的泛化能力,还引入了基于不确定性的说话泛化方法,从估计的高斯分布中随机采样SUR统计特征,并以一定概率替换原本的SUR表示。在两个数据集上的实验结果表明,该框架能够显著提升各种MERC模型的泛化性能且优于强基线


图片


本文方法框架

IEEE Transactions on Affective Computing是情感计算领域的重要国际期刊,影响因子9.6JCR Q1期刊,在中科院学术推荐列表(升级版)中为TOP期刊,CCF-B类期刊。

论文信息:

Geng Tu, Ran Jing, Bin Liang, Yue Yu, Min Yang, Bing Qin, and Ruifeng Xu*. Generalizing to Unseen Speakers: Multimodal Emotion Recognition in Conversations with Speaker Generalization. IEEE Transactions on Affective Computing. 2025


审稿:徐睿峰
校正:王   丹



打印    收藏
关闭窗口

Return Top