背景
论文速递丨EMNLP 2024:用于多模态对话情绪识别的多知识增强交互图网络
2024-12-04 10:01 HITSZ-HLT    (浏览量)

题目:Multiple Knowledge-Enhanced Interactive Graph Network for Multimodal Conversational Emotion Recognition

作者:涂耿,王隽,李真宇,陈诗炜,梁斌,曾曦,杨敏,徐睿峰

会议:Findings of EMNLP 2024

论文链接:

https://aclanthology.org/2024.findings-emnlp.222/



01 动机

图片        

现有的MERC方法虽然已考虑音频、视觉和文本等多种线索,但传统的基于文本的常识知识(CSK)未能有效整合视觉情境化信息,限制了情感理解的准确性。例如,视觉CSK可以从图像中推断出,搬运沙发的人可能会小心翼翼地对待它,而这是文本CSK所无法捕捉到的细微之处(如图1所示)。因此,本研究旨在探讨如何选择和整合多种类型的常识知识,尤其是视觉常识,以提升多模态情绪识别在真实场景中的表现和实用性。

图片

图1 动机示例



02 方法

图片        

2.1设计思路:

本文提出了一种多知识增强交互图网络(MKE-IGN),通过有向图结构结合VisualCOMET和COMET中的视觉与文本常识知识(CSK),增强话语理解(如图2所示)。与传统节点表示方法不同,MKE-IGN通过边表示建模话语与CSK之间的关系,有效减少无关知识的干扰,并利用LassoNet自适应选择与情绪相关性强的CSK。在训练过程中,MKE-IGN还根据上下文对CSK进行细化,提升其在不同对话场景中的适应性。    

图片

图2 MKE-IGN整体框架图

2.2具体模型:

(1) 话语级编码器

对于文本模态,我们采用双向GRU来聚合上下文信息;而对于音频和视觉模态,则使用全连接层来生成一致的固定大小的表示。

(2) 交互图网络

  • 图结构:使用一个多模态有向图图片来防止未来的发言影响当前发言的情绪推断。图中的节点图片代表第i个话语在模态图片下的表示。图片表示边的类型。边图片

  • 关系:对于文本“if-then”CSK 图片被划分为两类:图片代表说话者的CSK,图片代表听众的CSK。节点i与节点j之间的关系表示为X,若它们有相同的说话者,否则为O。

对于视觉“if-then”CSK图片也被分为两类:图片表示当前说话者的意图。图片表示说话者的后续意图。如果i=j,节点i的关系图片用P表示;如果i<j,则用Q表示节点i的关系。

由于音频模态a缺少if-then CSK,我们使用一个全连接层图片来结合节点i和j,生成图片,以此作为音频if-then CSK图片的替代表示形式。因此,当i≤j,图片可以用图片表示。

此外,跨模态连接的关系图片由一个零填充的向量图片表示。图片图片

节点表示更新:我们采用了一个图片层的图卷积变换器,用于传播交互信息,并在每一层图片更新节点表示图片

图片

其中,N表示节点j的邻居节点索引,图片是传递的消息,涉及选择后的图片,记作图片通常情况下,图片,但当i≠j时不一定成立。图片是残差连接的门控值,图片是用于聚集信息的注意力得分。

图片

图片

特别地,最终的输出表示为图片

(3) 知识选择

在基于GPT的模型(如COMET和VisualCOMET)中,表示通常以序列方式生成,最终标记的隐藏状态被视为封装整个序列语义信息的表示,用于“if-then”CSK。然而,仅依赖最后一个标记可能无法完全捕捉前面标记的语义信息,可能导致理解不完整。为了解决这一问题,将最后一个标记与之前的4个标记整合,生成5个候选项,并从中动态选择最优表示。

图片

其中,图片表示第图片个候选项。由于音频CSK使用了零向量填充,因此不需要进行知识选择。

  • 情绪感知特征选择:根据情绪一致性效应,个体倾向于选择和处理与其当前情绪状态一致的信息,表现出一种情绪启动的现象。然而,这些“if-then”CSK往往过于通用,导致模型难以在知识表示中捕捉与情绪高度相关的特征。受到LassoNet的启发,该方法将基于Lasso回归的特性引入神经网络框架,通过在损失函数中加入L1正则化项,使得部分回归系数变为零。这意味着网络不仅可以进行预测,还能够选择与目标变量(如情绪标签)高度相关的特征。

图片

(3) 知识精炼

之前的研究通常将“if-then”CSK视为一种固定的、无梯度的表示形式,这限制了其在不同对话上下文中的适应性。为了更好地使知识与历史话语i 和当前话语j对齐,我们进行了进一步的改进。

图片

(4) 情绪分类

我们使用线性单元来预测情绪分布:

图片

图片



03 实验

图片        

实验数据集:IEMOCAP,MELD

实验评价指标:Accuracy (Acc),Weighted-average F1 (W-F1)

实验结果与结论:

图片

表1 IEMOCAP(6分类)和MELD上的实验结果

图片  

表2 消融研究的实验结果

图片

图3 在MELD数据集上的MKE-IGN(左)和移除视觉常识知识(w/o visual CSK)的MKE-IGN(右)的混淆矩阵

图片

图4 对IEMOCAP数据集中的文本“if-then”CSK(X, O)和视觉“if-then”CSK的中间表示进行可视化(第一行),以及在知识选择后的知识表示(第二行)

图片

图5 在IEMOCAP数据集上,不同对话位置下MKE-IGN结合知识精炼的性能提升

图片

图6 MKE-IGN与基线模型在不同上下文窗口大小下的性能提升

1.如表1所示,MKE-IGN与其他模型的对比,包括先进的基于图的模型,如CORECT、CMCF-SRNet和M3Net,结果表明MKE-IGN性能优于其他模型。表2的消融实验显示了显著的性能提升。

2.如图3所示,视觉CSK在几乎所有类别样本中表现有效,但“惊讶”、“恐惧”和“悲伤”类别略有性能下降,可能是由于类别不平衡导致的。

3.为了探讨知识选择后“if-then”CSK的变化,我们通过可视化IEMOCAP数据集中的文本和视觉“if-then”CSK表示(如图4所示),发现经过知识选择处理的if-then CSK能够有效捕捉不同情感类别之间的语义区分,减轻了噪声并增强了模型在MERC任务中的情感理解能力。

4.如图5所示,在第60轮对话后,性能提升变得显著,这主要发生在对话的后期,可能是因为MERC模型倾向于优先考虑相似语义的近距离上下文,增强模型适应不同上下文的能力,可以更好地处理长对话数据。

5.如图6所示,通过调整上下文窗口大小Nω,展示了在不同数据集上模型性能的提升,较长对话(如IEMOCAP)在增大Nω后性能提升,直到达到一个临界点,而较短对话(如MELD)则在较小的窗口(Nω=3)时达到最佳效果,之后出现波动。

审稿:徐睿峰

校正:王   丹



打印    收藏
关闭窗口

Return Top