论文速递丨EMNLP 2024：用于多模态对话情绪识别的多知识增强交互图网络-哈工大深圳人类语言技术研究团队

论文速递丨EMNLP 2024：用于多模态对话情绪识别的多知识增强交互图网络

2024-12-04 10:01 HITSZ-HLT (浏览量)

题目：Multiple Knowledge-Enhanced Interactive Graph Network for Multimodal Conversational Emotion Recognition

作者：涂耿，王隽，李真宇，陈诗炜，梁斌，曾曦，杨敏，徐睿峰

会议：Findings of EMNLP 2024

论文链接：

https://aclanthology.org/2024.findings-emnlp.222/

01 动机

现有的MERC方法虽然已考虑音频、视觉和文本等多种线索，但传统的基于文本的常识知识（CSK）未能有效整合视觉情境化信息，限制了情感理解的准确性。例如，视觉CSK可以从图像中推断出，搬运沙发的人可能会小心翼翼地对待它，而这是文本CSK所无法捕捉到的细微之处（如图1所示）。因此，本研究旨在探讨如何选择和整合多种类型的常识知识，尤其是视觉常识，以提升多模态情绪识别在真实场景中的表现和实用性。

图1 动机示例

02 方法

2.1设计思路：

本文提出了一种多知识增强交互图网络（MKE-IGN），通过有向图结构结合VisualCOMET和COMET中的视觉与文本常识知识（CSK），增强话语理解（如图2所示）。与传统节点表示方法不同，MKE-IGN通过边表示建模话语与CSK之间的关系，有效减少无关知识的干扰，并利用LassoNet自适应选择与情绪相关性强的CSK。在训练过程中，MKE-IGN还根据上下文对CSK进行细化，提升其在不同对话场景中的适应性。

图2 MKE-IGN整体框架图

2.2具体模型：

(1) 话语级编码器

对于文本模态，我们采用双向GRU来聚合上下文信息；而对于音频和视觉模态，则使用全连接层来生成一致的固定大小的表示。

(2) 交互图网络

图结构：使用一个多模态有向图来防止未来的发言影响当前发言的情绪推断。图中的节点代表第i个话语在模态下的表示。表示边的类型。边。
关系：对于文本“if-then”CSK 被划分为两类：代表说话者的CSK，代表听众的CSK。节点i与节点j之间的关系表示为X，若它们有相同的说话者，否则为O。

对于视觉“if-then”CSK也被分为两类：表示当前说话者的意图。而表示说话者的后续意图。如果i=j，节点i的关系用P表示；如果i<j，则用Q表示节点i的关系。

由于音频模态a缺少if-then CSK，我们使用一个全连接层来结合节点i和j，生成，以此作为音频if-then CSK的替代表示形式。因此，当i≤j，可以用表示。

此外，跨模态连接的关系由一个零填充的向量表示。且。

节点表示更新：我们采用了一个层的图卷积变换器，用于传播交互信息，并在每一层更新节点表示。

其中，N表示节点j的邻居节点索引，是传递的消息，涉及选择后的，记作。通常情况下，，但当i≠j时不一定成立。是残差连接的门控值，是用于聚集信息的注意力得分。

特别地，最终的输出表示为。

(3) 知识选择

在基于GPT的模型（如COMET和VisualCOMET）中，表示通常以序列方式生成，最终标记的隐藏状态被视为封装整个序列语义信息的表示，用于“if-then”CSK。然而，仅依赖最后一个标记可能无法完全捕捉前面标记的语义信息，可能导致理解不完整。为了解决这一问题，将最后一个标记与之前的4个标记整合，生成5个候选项，并从中动态选择最优表示。

其中，表示第个候选项。由于音频CSK使用了零向量填充，因此不需要进行知识选择。

情绪感知特征选择：根据情绪一致性效应，个体倾向于选择和处理与其当前情绪状态一致的信息，表现出一种情绪启动的现象。然而，这些“if-then”CSK往往过于通用，导致模型难以在知识表示中捕捉与情绪高度相关的特征。受到LassoNet的启发，该方法将基于Lasso回归的特性引入神经网络框架，通过在损失函数中加入L1正则化项，使得部分回归系数变为零。这意味着网络不仅可以进行预测，还能够选择与目标变量（如情绪标签）高度相关的特征。

(3) 知识精炼

之前的研究通常将“if-then”CSK视为一种固定的、无梯度的表示形式，这限制了其在不同对话上下文中的适应性。为了更好地使知识与历史话语i 和当前话语j对齐，我们进行了进一步的改进。

(4) 情绪分类

我们使用线性单元来预测情绪分布：

03 实验

实验数据集：IEMOCAP，MELD

实验评价指标：Accuracy (Acc)，Weighted-average F1 (W-F1)

实验结果与结论：

表1 IEMOCAP（6分类）和MELD上的实验结果

表2 消融研究的实验结果

图3 在MELD数据集上的MKE-IGN（左）和移除视觉常识知识（w/o visual CSK）的MKE-IGN（右）的混淆矩阵

图4 对IEMOCAP数据集中的文本“if-then”CSK（X, O）和视觉“if-then”CSK的中间表示进行可视化（第一行），以及在知识选择后的知识表示（第二行）

图5 在IEMOCAP数据集上，不同对话位置下MKE-IGN结合知识精炼的性能提升

图6 MKE-IGN与基线模型在不同上下文窗口大小下的性能提升

1.如表1所示，MKE-IGN与其他模型的对比，包括先进的基于图的模型，如CORECT、CMCF-SRNet和M3Net，结果表明MKE-IGN性能优于其他模型。表2的消融实验显示了显著的性能提升。

2.如图3所示，视觉CSK在几乎所有类别样本中表现有效，但“惊讶”、“恐惧”和“悲伤”类别略有性能下降，可能是由于类别不平衡导致的。

3.为了探讨知识选择后“if-then”CSK的变化，我们通过可视化IEMOCAP数据集中的文本和视觉“if-then”CSK表示（如图4所示），发现经过知识选择处理的if-then CSK能够有效捕捉不同情感类别之间的语义区分，减轻了噪声并增强了模型在MERC任务中的情感理解能力。

4.如图5所示，在第60轮对话后，性能提升变得显著，这主要发生在对话的后期，可能是因为MERC模型倾向于优先考虑相似语义的近距离上下文，增强模型适应不同上下文的能力，可以更好地处理长对话数据。

5.如图6所示，通过调整上下文窗口大小Nω，展示了在不同数据集上模型性能的提升，较长对话（如IEMOCAP）在增大Nω后性能提升，直到达到一个临界点，而较短对话（如MELD）则在较小的窗口（Nω=3）时达到最佳效果，之后出现波动。

审稿：徐睿峰

校正：王丹

打印收藏

【关闭窗口】

Return Top

常用站点

© 2019 哈尔滨工业大学（深圳）·智能计算研究中心 All rights reserved.