论文速递丨ACM MM 2024：多模态对话情绪识别校准-哈工大深圳人类语言技术研究团队

论文速递丨ACM MM 2024：多模态对话情绪识别校准

2024-12-10 10:06 HITSZ-HLT (浏览量)

题目：Multimodal Emotion Recognition Calibration in Conversations

作者：涂耿，熊峰，梁斌，王晖，曾曦，徐睿峰

会议：ACM MM 2024

论文链接：

https://dl.acm.org/doi/abs/10.1145/3664647.3681515

01 任务

对话情绪识别（Emotion Recognition in Conversations，ERC），旨在对一段对话中的话语进行情绪分类。任务的输入是一段连续的对话，输出是这段对话中所有话语的情绪，图1给出了一个简单的示例。由于对话本身具有很多要素，话语的情绪识别并不简单等同于单个句子的情绪识别，而是需要综合考虑对话中的背景、上下文、说话人等信息，这些都是对话情绪识别任务中独特的挑战。

图1 对话情绪识别示例

02 动机

现有的多模态对话情绪识别（Multimodal Emotion Recognition in Conversations, MERC）研究更多地聚焦于提升性能指标，而在模型可靠性方面的探索却相对不足。现有方法在移除某些模态或上下文线索后，样本的预测置信度反而增加（如图2所示）。这种反直觉现象暴露了模型在模态和上下文依赖上的不平衡，定义这类样本为不确定样本。这不仅暴露了现有方法在决策可靠性上的局限性，还违背了“信息旨在消除不确定性”的基本定义。值得注意的是，即便是一些在性能上表现更为先进的模型（如M3Net），其可靠性可能仍不及较为简单的模型（如DialogueRNN）。

图2 动机示例

03 方法

3.1总体框架：

本文提出了一种用于多模态对话情绪识别的校准框架—CMERC，旨在解决现有模型在处理情绪推断时可靠性不足的问题。框架的设计从三个关键校准方向入手（如图3所示）：（1）课程学习校准（CL）：引入课程学习策略，采用逐步训练的方法，将不确定样本逐步引入模型训练中。（2）混合对比学习校准（HSCL）：设计了一种混合对比学习方法，通过增大不确定样本与其他样本之间的距离，增强模型对引起不确定性因素的感知能力。（3）置信度约束校准（CC）：引入置信度约束机制，通过对不确定样本的惩罚，优化模型的置信度估计能力。

图3 CMERC整体框架图

3.2具体模型：

(1) 课程学习校准

为了设计适用于MERC模型的课程，我们通过评估样本去除操作后的置信度水平，来衡量不同对话在多模态和上下文中的难度。直观来说，当MERC模型面对不确定的样本时，由于预测置信度的可靠性降低，模型往往难以做出准确的决策，这会对学习过程造成阻碍。随着对话中不确定样本数量的增加，模型的置信度愈加不稳定，从而使得情绪识别的难度也随之上升，情绪的精准把握变得更加复杂。

其中，表示说话者内部和说话者间的上下文，为目标类别的索引，为移除某一模态或上下文后MERC模型的预测分布。表示迷你批次中的话语总数，而表示参与迷你批次的说话者总数。我们采用baby step训练调度策略，以安排对话顺序并组织训练过程，其具体流程如算法1中第1至4行所描述。

(2) 混合对比学习校准

理解导致样本不确定性的因素，对于提升MERC模型在训练过程中的可靠性至关重要。为此，我们提出了一种混合对比学习（HSCL）框架，该框架将针对模态和上下文的对比学习组件有机融合在一起。这一方法能够有效区分因模态或上下文信息缺失而引发的不确定性样本，并捕捉其细微的关联与差异。通过此框架，MERC模型可以深入学习训练过程中导致不确定性的根本因素，从而显著提升整体性能与效果。

其中，表示模型的隐藏表示，表示伪标签集，其生成过程详见算法1中的第14至17行。，为温度参数，表示余弦相似度函数。以音频模态和说话者内部上下文为例，模态和上下文特定的对比学习损失的计算过程详见算法1中的第18至27行。

(3) 置信度约束校准

为了提高MERC模型预测置信度的可靠性，采用一种正则化约束方法，通过计算移除操作后置信度增加的差异，作为对小批量数据的约束条件。

(4) 模型训练

我们通过最小化以下四项损失的总和来联合训练我们提出的框架。

04 实验

实验数据集：IEMOCAP，MELD

实验评价指标：Accuracy (Acc)，Weighted-average F1 (W-F1)，Expected Calibration Error (ECE)，Maximum Calibration Error (MCE)，Root Mean Square Calibration Error (RMSCE)，Area Under the Receiver Operating Characteristic Curve (AUROC)，Area Under the Precision-Recall Curve (AUPRC)，Confidence Enhancement Level (CEL)