ACL 2023 对话情绪识别综述-哈工大深圳人类语言技术研究团队

ACL 2023 对话情绪识别综述

2023-10-31 16:27 HITSZ-HLT (浏览量)

投稿作者：涂耿徐睿峰

一、导读

对话情绪识别（Emotion Recognition in Conversations，ERC），旨在对一段对话中的话语进行情绪分类。任务的输入是一段连续的对话，输出是这段对话中所有话语的情绪，图1给出了一个简单的示例。由于对话本身具有很多要素，话语的情绪识别并不简单等同于单个句子的情绪识别，而是需要综合考虑对话中的背景、上下文、说话人等信息，这些都是对话情绪识别任务中独特的挑战。

图1 对话情绪识别示例

对话情绪识别可广泛应用于各种对话场景中，如社交媒体中评论的情感分析、人工客服中客户的情绪分析等。此外，对话情绪识别还可应用于聊天机器人中，实时分析用户的情绪状态，实现基于用户情感驱动的回复生成。本文介绍ACL 2023中的八篇关于对话情绪识别的论文：

[1]Zheng, W., Yu, J., Xia, R., & Wang, S. (2023, July). A Facial Expression-Aware Multimodal Multi-task Learning Framework for Emotion Recognition in Multi-party Conversations. In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (pp. 15445-15459).

[2]Zhang, X., & Li, Y. (2023, July). A Cross-Modality Context Fusion and Semantic Refinement Network for Emotion Recognition in Conversation. In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (pp. 13099-13110).

[3]Zhang, D., Chen, F., & Chen, X. (2023, July). DualGATs: Dual Graph Attention Networks for Emotion Recognition in Conversations. In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (pp. 7395-7408).

[4]Shi, T., & Huang, S. L. (2023, July). MultiEMO: An Attention-Based Correlation-Aware Multimodal Fusion Framework for Emotion Recognition in Conversations. In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (pp. 14752-14766).

[5]Li, Z., Zhou, Y., Liu, Y., Zhu, F., Yang, C., & Hu, S. (2023, July). QAP: A Quantum-Inspired Adaptive-Priority-Learning Model for Multimodal Emotion Recognition. In Findings of the Association for Computational Linguistics: ACL 2023 (pp. 12191-12204).

[6]Yang, H., Gao, X., Wu, J., Gan, T., Ding, N., Jiang, F., & Nie, L. (2023, July). Self-adaptive Context and Modal-interaction Modeling For Multimodal Emotion Recognition. In Findings of the Association for Computational Linguistics: ACL 2023 (pp. 6267-6281).

[7]Hu, D., Bao, Y., Wei, L., Zhou, W., & Hu, S. (2023). Supervised Adversarial Contrastive Learning for Emotion Recognition in Conversations. In Findings of the Association for Computational Linguistics: ACL 2023 (pp. 10835-10852).

[8]Tu, G., Liang, B., Mao, R., Yang, M., & Xu, R. (2023, July). Context or Knowledge is Not Always Necessary: A Contrastive Learning Framework for Emotion Recognition in Conversations. In Findings of the Association for Computational Linguistics: ACL 2023 (pp. 14054-14067).

二、基于面部表情感知的多模态多任务学习框架在多方对话中的情绪识别

Facial Expression-Aware Multimodal Multi-task Learning Framework for Emotion Recognition in Multi-party Conversations

2.1动机

近年来，多方对话中的多模态情绪识别（Multimodal Emotion Recognition in Multiparty Conversations, MERMC）引起了人们的广泛关注。由于多方对话中视觉场景的复杂性，以往大多数MERMC研究主要关注文本和音频模态，而忽略了视觉信息。最近，一些工作提出了提取人脸序列作为视觉特征，并表明了视觉信息在MERMC中的重要性。然而，在给定的话语中，以前的方法提取的人脸序列可能包含多个人的人脸，这将不可避免地给真实说话人的情绪预测带来噪声。例如，在图2-1中，有两个人，Joey和Chandler，他们的面部表情截然不同，即：厌恶和愤怒。

图2-1 动机示例

2.2方法

2.2.1设计思路：

本文提出了（Facial expression-aware MultimodalMulti-Task learning，FacialMMT）框架。为了获得每个话语中真实说话人的人脸序列，第一阶段引入了一种流水线方法来进行多模态人脸识别和无监督聚类，然后进行人脸匹配。对于提取的面部序列，第二阶段采用辅助帧级面部表情识别任务来生成面部序列中每个帧的情绪分布，然后使用跨模态变换器将情绪感知视觉表示与文本和声学表示相集成，用于多模态情绪识别。

图2-2 FacialMMT整体框架图。

2.2.2总体框架：

FacialMMT的总体框架如图2-2所示。如左侧所示，第一阶段基于三个步骤提取真实说话者的面部序列：多模态人脸识别、无监督聚类和面部匹配。第二阶段如右侧所示，介绍了（Multimodal facial expression-aware multi-task learning model，MARIO），包括单模态特征提取、情感感知视觉表示和多模态融合。

2.2.3具体模型：

(1) 第一阶段（人脸序列提取）

多模态人脸识别：

本文使用预训练模型TalkNet来进行说话人检测。对于短时或复杂场景的视频，我们进一步设计了多模态规则，包括嘴巴张合频率、不同人嘴巴在帧间的动作，以及嘴巴动作与音频信号的对齐。

无监督聚类：

本文应用无监督聚类算法InfoMap来识别序列中的人脸聚类数量，首先使用K-最近邻算法来构建所有潜在说话者人脸的图，其次计算人脸之间的相似度，并使用归一化作为边的权重，然后进行随机行走，以生成不同的人脸序列。最后，我们对人脸序列进行分层编码，并最小化最小平均编码长度以获得聚类结果。

面部匹配：

基于多模态人脸识别中提取的原始人脸序列，为每个主角手动选择20张不同的人脸图像，并将这120张图像作为人脸库。接下来，使用预训练模型ResNet-50来提取不同人脸聚类中图像的视觉特征。通过计算其视觉表示之间的余弦相似性，将每个人脸聚类中的图像与库中六个主角的图像进行匹配。

(2) 第二阶段（MARIO）

单模态特征提取：

给定话语

,从三种模态

中提取单模态特征，以获得文本、音频和视觉表示，如下所示：

文本： 为了有效地利用对话上下文和说话者的情绪动态，将输入话语及其所有上下文话语连接起来作为输入，并将其输入到预先训练的语言模型（例如， BERT ）中进行微调。然后，取出第一个标记的隐藏表示作为文本表示

，其中

。

音频：基于在Librispeech-960h数据集上预训练的Wav2vec2.0模型来获得单词级音频表示，用

表示，其中

。

视觉：给定输入话语的真实说话人的面部序列，使用在CASIA-WebFace数据集上预训练的InceptionResNetv1模型来获得帧级视觉表征

,其中L是面部序列长度，

。

情绪感知视觉表示：

一种辅助帧级面部表情识别任务，即：Dynamic Facial Expression Recognition（DFER）：

假设D是DFER任务的另一组样本。每个样本包含m个人脸的序列。DFER的目标是预测标签序列，其中每个标签属于C个预定义的面部表情之一（即：情绪类别）。
DFER辅助模块：

如图2-2右上角所示，在Ms-Celeb-1M数据集上使用了一个预训练模型SwinTransformer，以获得人脸序列中每个帧的表示，如下所示：

其中，是生成的面部特征。接下来，将输入到用于面部表情识别的多层感知器（MLP）层中。在训练阶段，使用交叉熵损失来优化DFER任务的参数。

MERMC的面部表情感知：

由于基于 DFER 辅助模块所获得的情绪感知的视觉表示是将每帧的预测情绪转换为 One-hot 向量，并将其与原始表示合并为帧级视觉表示。然而，从 Argmax 函数导出的 One-hot 向量是不可微的，为了解决这个问题，本文应用 Gumbel-Softmax 以获得每个帧的近似情绪分布。

其中，是从Gumbel分布中采样的噪声。。

此外，为了减轻情绪模糊帧的噪声，本文设计了一种门控机制来动态控制人脸序列中每个帧对MERMC任务的贡献。具体来说，第i帧的情情绪清晰度可以计算为。基于此，可以获得人脸序列中所有帧的情绪清晰度。然后，我们将应用于原始视觉表示，以过滤掉情绪模糊的帧，即：小于阈值。最后，将过滤后的视觉表示和所有帧的情绪分布合并起来，以获得情绪感知视觉表示。

多模态融合：

模态内相互作用：

将和输入到两个独立的自注意Transformer层，以对音频特征和视觉特征内的模态内交互进行建模。
模态间相互作用：

本文应用跨模型Transformer层，将文本和音频模态交替作为查询向量，然后将它们合并起来以获得文本-音频融合表示。类似地，然后将其与视觉模态融合，以获得下面的话语级文本-音频-视觉融合表示。最后，被输入到用于情绪分类的Softmax层，标准交叉熵损失用于优化MERMC任务的参数：

2.3实验

实验数据集：MELD for MERMC，Aff-Wild2 for DFER

实验评价指标：Weighted average F1-score (MERMC)，Macro F1-score (DFER)

实验结果与结论：

表2-1 MERMC任务在MELD数据集上的比较结果

表2-2 FacialMMT的消融结果

表2-3 DFER任务的结果

表2-4 单一视觉模态情绪识别结果的比较。

1. 如表2-1所示，FacialMMT-RoBERTa在MELD数据集上优于所有比较方法，表明了该方法的有效性。
2. 如表2-2所示，删除任何一个或两个模态会导致性能下降，表明每个模态在情绪识别中起着重要作用。移除DFER辅助模块也会降低性能，表明引入帧级面部表情监督信号的有效性。
3. 如表2-3所示，所提出的框架在Aff-Wild2数据集上优于比较方法，提高了1.52％，表明了在DFER辅助任务上模型的有效性。
4. 如表2-4所示，比较了单一视觉模态下的情绪识别结果，发现基于3D-CNN的方法表现较差，而提取视频中所有可能说话者面部序列的方法（MMGCN）在基线中表现最好。
5. 如表2-4所示，移除无监督聚类（UC）和面部匹配（FM）模块后，情绪识别结果下降2.12％，证明了这两个模块的有效性。如果移除所有三个步骤，直接使用视频帧作为视觉特征，性能显著下降。
三、用于对话情绪识别的跨模态上下文融合和语义精化网络
A Cross-Modality Context Fusion and Semantic Refinement Network for Emotion Recognition in Conversation
3.1动机
现有方法大多使用简单的合并，忽略了模态之间的复杂交互，导致对上下文信息的利用不足或数据稀疏的问题。此外，这些方法只是简单地考虑了语境在整个对话中的情绪影响，而忽略了说话者的情感惯性，以及本地语境可能比远距离话语具有更高的影响。
图3-1 动机示例
3.2方法
3.2.1设计思路：
本文提出了一个跨模态上下文融合和语义精化网络（Cross-Modality Context Fusion and Semantic Refinement Network, CMCF-SRNet）。首先，研究了一个跨模态上下文融合模块，该模块通过跨模态局部约束注意力来整合文本和音频信息，考虑到局部上下文的影响和说话者的情绪惯性。其次，设计了一个语义精化模块来提取有效的语义特征和上下文信息，包括附近环境和远处信息。
图3-2 CMCF-SRNet整体框架图

3.2.2总体框架：

CMCF-SRNet的总体框架如图3-2所示。（1）将话语的声学/文本特征矩阵输入到声学/语言嵌入模块以获得单模态表示，然后利用跨模态局部约束注意力来生成进入注意力选择块的高级跨模态特征；（2）定义了一个语义图，其使用关系图卷积网络来捕捉话语间的依赖性，然后通过集成语义位置编码来整合有效的语义特征；（3）节点嵌入表示被输入到分类器中以获得最终预测。

3.2.3具体模型：

(1) 跨模态上下文融合模块

图3-3 (a)单模态嵌入 (b)跨模态LCA (locality-constrained attention)

如图3-3（a）所示，通过将位置嵌入（positional embedding, PE）直接加到来考虑话语的顺序，并通过多头注意力机制和前馈层来得到。在使用模态内Transformer来捕获单模态特征的全局时序依赖性之后，使用跨模态局部约束Transformer来捕捉局部上下文信息，重点关注不同模态之间的对应关系。
如图3-3（b）所示，本文将传统的Transformer扩展到双流跨模态Transformer，以对两种模态之间的交互进行建模，其中每个跨模态变换块与跨模态局部约束注意力层相结合。考虑到与说话人最近的话语与其情绪的相关性最大，因此，我们提出了一种局部约束和说话者感知的注意力LCA：

说话人内掩码SA：

关注当前说话人的话语，并对参与者的情绪流的情感惯性进行建模，其中，表示话语的说话人。

相对位置权重RP：

为了解决固定窗口方法平等对待窗口中的话语的问题，计算和的相对位置权重RP，最后，应用元素乘积来获得LCA=sigmoid（RP）×SA，它结合了局部上下文和说话人信息。

模型级融合策略：

首先，均衡每个话语的声学特征，文本特征,以及跨模态特征,然后，将它们连接在一起，考虑不同模态的不同贡献，以关注重要模态。在给定的时间，输入特征，其中，K是模态的数量。每个模态的得分计算如下：

其中，注意力得分，K=3。最终的多模态特征,结合后,生成如下：
(2) 语义精化模块
如图3-2所示，为了探索对话中话语之间的语义关系，提出了一种新的语义信息提炼模型。它主要包括两个阶段：关系语义图的构建和语义信息的精化。将定义良好的语义图输入到两层RGCN中，以计算话语的语义特征及其交互关系。然后通过语义图Transformer进一步提取全局语义信息

语义图构建：

为了建立局部话语之间的语义关系，并捕捉说话人之间和说话人内部的效果，基于对话语义感知依赖性定义了一个语义图。每个话语由一个节点表示，不同的连接边表示有向关系（过去和未来），表示一组话语节点，是一组关系，表示话语之间的语义相似性。

图3-4 语义信息精化。

语义信息精化：

本文采用一种改进的关系图卷积层来捕获由关系定义的局部依赖关系。节点表示和边权重被输入到基于两层相关性的RGCN中。
其中，表示关系下每个节点的相邻索引，是可学习的参数，是ReLU激活函数。然后，考虑到话语的相对位置，采用语义图Transformer从节点特征中提取全局语义信息,如图3-4所示。给定从RGCN获得的节点特征，利用两个编码来表示图中两个节点之间的语义关系。第一种是相对位置编码P，其每个向量表示由两个节点之间的最短路径距离表示的拓扑关系，第二种是由等式定义的语义编码S,如下所示。最后，我们进行加法运算，得到SP。
以前的方法侧重于将图信息编码到注意力图或输入特征中。首先，本文将边权重表示的位置和语义信息编码到注意力图中，以考虑全局上下文结构。此外，它对值的隐藏特征进行编码，如下所示。
(3) 情绪分类
图Transformer的结果被输入到具有全连接层的MLP中，并得到每个情绪标签下话语的预测值，在训练过程中选择分类交叉熵损失函数：
其中，N是对话的数量，而是第i次对话中的话语数量。
3.3实验
实验数据集：IEMOCAP，MELD
实验评价指标：Weighted average accuracy (WAA)，Weighted mean F1 (WF1)
实验结果与结论：
表3-1 IEMOCAP（6分类）和MELD上的实验结果
表3-2 IEMOCAP（4分类）和MELD上单模态的比较结果和消融实验结果
图3-5 使用注意力权重热图的可视化：（a）模态内Transformer（b）跨模态LCA
图3-6（a）IEMOCAP（4分类）和（b）IEMOCAP（6分类）上，具有和不具有语义信息精化组件的T-SNE表示
图3-7 各种上下文窗口下的结果
1. 如表3-1所示，在IEMOCAP（6分类）数据集上，CMCF-SRNet取得了70.5%的WAA和69.6%的F1，比Bc-LSTM和DialogueGCN高出10.7%和10.6%，也优于CTNet和MMDFN等方法，表明了该方法的有效性。
2. 如表3-2所示，所提出的方法在性能上优于最先进的单模态模型。删除跨模态局部约束注意力（LCA），注意力选择模块（ASB）语义边权重（SEW），和语义位置编码（SPE）会导致性能下降，表明了CMCF-SRNet的每个组件在情绪识别中起着重要作用。
3. 如图3-5所示，第一行的红色矩形表示根据单模态Transformer，对话中的第10和第14个话语对于情绪检测更为重要，而第二行表示根据跨模态Transformer，应该更关注第4到第7个话语。这些结果验证了跨模态Transformer的输出对于对话情绪识别的贡献。
4. 如图3-6所示，可以明显地注意到语义精华组件，在情绪聚类方面的改善，这证明了捕捉话语中的语义依赖性的必要性。
5. 如图3-7所示，较大的窗口在维持较长序列的话语中保持了说话者之间和内部依赖性的情况下，能够获得更好的性能。相反，较小的窗口更适合对话中主题频繁变化且说话者不太受其他说话者影响的情况。
四、用于对话情绪识别的双图注意力网络
DualGATs: Dual Graph Attention Networks for Emotion Recognition in Conversations
4.1动机
捕获复杂的上下文依赖关系在对话情绪识别中起着至关重要的作用。以往的研究主要集中在说话人感知的语境建模上，忽略了会话的话语结构。如图4-1所示，高度相关的话语基于话语依赖类型（如背景、问答对等）进行链接。在对话中明确地结合这些话语依赖性可以帮助模型捕捉影响情绪的重要上下文线索。
图4-1 动机示例。
4.2方法
4.2.1设计思路：
本文提出了一种双图注意力网络（Dual Graph ATtention networks, DualGATs），同时考虑话语结构和说话者感知上下文的互补性来提升模型。DualGATs包括三个组件：话语感知GAT（Discourse-aware GAT, DisGAT）、说话者感知GAT（Speaker-aware GAT, SpkGAT）和一个交互模块。
图4-2 DualGATs整体框架图。
4.2.2具体模型：
(1) DisGAT
DisGAT模块通过话语依赖图，进行信息传播，以整合话语的结构信息，其中表示表示基本话语单元（Elementary Discourse Units, EDU）的节点集，是描述EDU之间话语依赖关系的邻接矩阵。这些话语依赖类型包括：Comment, Clarification, Question, Elaboration, Acknowledgment, Continuation, Explanation, Conditional, Question-Answer Pair, Alternation, Question-Elaboration, Result, Background, Narration, Correction, Parallel, 和 Contrast (统称为)。

话语依赖图构建：

首先在人工注释的对话语料库上预训练话语解析器，然后，使用这个预先训练好的解析器来预测ERC数据集中存在的对话中的话语依赖性。因此，对于每个对话，或表示对应于话语的节点，该节点用对应的特征表示初始化。如果存在具有特定类型的从到的连边，则边或被赋予依赖类型。

信息聚合：

对于给定节点，DisGAT将其相邻节点的信息聚合如下：
其中，表示从节点到其邻居的边权重，sm表示Softmax函数，LRL表示LeakyReLU激活函数。表示与节点和之间的话语依赖类型相对应的一个热编码（在训练期间固定），表示话语依赖类型的数量。表示DisGAT更新后，节点的隐含表征。所有节点的隐含表征为，其计算过程如下：
(2) SpkGAT
SpkGAT模块在说话人依赖图上执行消息传播，以结合说话人感知的上下文信息。

说话人依赖图构建：

或表示对应于话语的节点，该节点用对应的特征表示初始化。是描述说话人以及节点（话语）之间的时间依赖性的邻接矩阵，这些说话人依赖类型包括：Self-Past, Self-Future, Inter-Past, Inter-Future, 和SelfLoop (这些类型统称为)。对于任何和，如果它们满足说话者依赖类型,或。在说话人依赖图构建后，类似地，SpkGAT的计算过程如下：

(3) 交互模块
为了从话语结构和说话人感知上下文中捕获不同的信息，引入了一个微分正则化子，它鼓励DisGAT和SpkGAT模块的更新表示之间的差异。正则化子的公式如下：
然后，为了在两个模块之间有效地交换相关信息，采用了相互交叉注意力作为桥梁。计算过程公式如下：

整个过程：

为了在多个连续层上迭代精化和交换话语结构信息和说话人感知上下文信息，初始层的计算过程如下：

(3) 情绪预测
通过合并L层DualGAT的输出来获得的最终表示，然后采用全连接网络进行情绪分类：
4.3实验
实验数据集：IEMOCAP，MELD，Emory NLP，DailyDialog
实验评价指标：Weighted-average F1，Micro-averaged F1
实验结果与结论：
表4-1 DualGAT与其他基线在四个数据集上的对比结果
表4-2 消融研究的实验结果
图4-3 DualGAT层数的影响
1. 如表4-1所示，使用RoBERTa作为特征提取器时，基于图形的方法优于基于序列的方法，额外信息增强了模型对隐式情绪的理解，但仅关注话语结构或仅基于解析的图形方法表现不佳，而DualGATs整合了话语结构和说话人感知上下文，在多个数据集上优于所有比较方法，表明了该方法的有效性。
2. 如表4-2所示，DualGATs模型在同时考虑话语结构和说话人感知上下文时表现最佳，而去掉差异正则化器或交互注意力模块都导致性能下降。
3. 如图4-3所示，对于IEMOCAP和MELD数据集，模型的性能在具有两个DualGATs层时表现最佳，因为层数过少时信息交换不充分，而层数过多时可能导致冗余信息和性能下降。
五、用于对话情绪识别的基于注意力机制和相关性感知的多模态融合框架
MultiEMO: An Attention-Based Correlation-Aware Multimodal Fusion Framework for Emotion Recognition in Conversations
5.1动机
大多数现有的方法都侧重于基于文本模态对说话人和上下文信息进行建模，多模态信息的互补性没有得到很好的利用，但目前很少有方法能够充分捕捉不同模态之间的复杂相关性和映射关系。此外，现有的最先进的ERC模型很难对少数和语义相似的情绪类别进行分类。
5.2方法
5.2.1设计思路：
本文提出了一种名为MultiEMO的新型基于注意力机制和相关性感知的多模态融合框架，以解决单模态特征提取和上下文建模；基于复杂跨模态相关性和映射关系的多模态融合；少数和语义相似情绪的分类问题。
图5-1 MultiEMO整体框架图。
5.2.2具体模型：
(1) 单模态特征提取与上下文建模

文本特征：

每个文本话语以的说话人的名字为前缀，使得说话人信息可以被有效地编码。然后，第i个话语的输入序列由三个片段组成，以包含上下文信息，即：历史话语、当前话语和未来话语。这三个片段被合并输入到预训练模型RoBERTa和随后的全连接层中，然后，首位标志[CLS]的隐含状态被用作话语的256维度的上下文表征。
音频特征：

本文使用OpenSMILE为每个话语音频提取6373维的特征表示，然后采用全连接层为每个输入音频获得512维的特征。在单峰音频特征提取之后，我们使用DialogueRNN来捕获每个音频剪辑的256维的上下文化音频特征。
视觉特征：

本文提出了一种名为VisExtNet的新型视觉特征提取器，它由MTNN和在VGGFace2上预训练的ResNet-101组成。VisExtNet的体系结构如图5-1所示。具体地，对话语视频片段的20个帧执行视觉特征提取，每个帧首先被发送到MTNN中，以检测所有说话人的面部，然后通过ResNet-101，以提取视觉特征。这些特征的串联被视为该帧的视觉表示。之后在帧轴上平均汇集所有帧的输出特征，以获得1000维视觉特征向量。与音频上下文建模类似，在提取视觉特征后，使用另一个DialogueRNN来学习每个视频片段的256维度的上下文视觉表征。

图5-2 VisExtNet整体框架图。
(2) 多模态融合
在现有方法中，多模态之间复杂的相关性和映射关系尚未得到很好的捕捉。为了解决这个问题，本文提出了一种新的基于双向多头交叉注意力机制的多模态融合网络，名为MultiAttn，如图5-3所示。MultiAttn由三个组件组成：MultiAttntext、MultiAttnaudio和MultiAttnvisual，每个组件都旨在将一种模态与其他两种模态的互补信息集成在一起。
MultiAttntext通过三阶段方法将文本模态与音频和视觉线索有效地结合在一起：（1）MultiAttntext首先通过将文本模态视为查询，将音频模态视为键和值来学习文本模态和音频模态之间的跨模态相关性和映射关系，以进行双向多头交叉注意力操作；（2）来自第一阶段的学习输出然后被用作新的查询，而视觉模态被视为另一个双向多头交叉注意力层的键和值，以将文本模态与视觉线索融合；（3）最后，采用了一种前馈网络，该网络由两个全连接层组成，用作键值存储器。此外，我们在每个阶段的输出上使用残差连接和层归一化来促进训练过程。为了构建更深更强大的网络，MultiAttntext、MultiAttnaudio和MultiAttnvisual的每层的输出都作为新的查询输入到下一层。
图5-3 MultiAttn整体框架图。
(3) 情绪分类
在多模态融合之后，多模态文本、音频和视觉特征表示、和被合并起来，然后输入到全连接层和随后的多层感知机中：
(4) 训练目标
给定一批由M个对话组成的N个样本，其中第i个对话包含C(i)个话语，训练目标定义如下：

SWFC Loss：

为了减轻对少数和语义相似情绪进行分类的困难，在Focal比度损失的基础上，通过引入样本权重项和focusing参数，提出了一种新的损失函数，称为样本加权焦对比度（Sample Weighted Focal Contrastive, SWFC）损失，以在训练阶段更加重视难以分类的少数类，并使具有不同情绪标签的样本对相互排斥，以最大化类间距离，从而更好地区分语义相似的情绪。SWFC损失定义如下：
SWFC Loss：

本文利用Soft-HGR损失[2]来最大化从MultiAttn中提取的多模态融合文本、音频和视觉特征之间的相关性。Soft-HGR损失定义如下：
交叉熵损失：

本文还采用交叉熵损失来衡量预测概率和真实标签之间的差异：
全损失：

SWFC损失、Soft-HGR损失和交叉熵损失的线性组合被用作全损失函数：

5.3实验
实验数据集：IEMOCAP，MELD
实验评价指标：Weighted-average F1 score (Weighted-F1)
实验结果与结论：
表5-1 MELD上的实验结果
表5-2 不同模态设置下，MultiEMO在IEMOCAP和MELD上的实验结果。
1. 如表5-1和表5-2所示，MultiEMO在IEMOCAP和MELD数据集上优于所有比较方法，特别是在少数和语义相似情绪类别（如:Sadness和Frustration）上取得显著的性能提升，这表明了该方法的有效性。
2. 如表5-1所示，MultiEMO的不同组件对性能有重要影响：VisExtNet在捕捉视觉线索上的有效性，MultiAttn在跨模态相关性捕捉上的重要性，以及SWFC损失在处理类别不平衡和语义相似情绪类别时的有效性。
3. 如表5-2所示，文本模态在ERC任务中起着主要作用，而来自音频和视觉模态的互补信息可以显著提高基于文本的MultiEMO的性能。
六、一种用于多模态情绪识别的量子启发自适应优先学习模型
QAP: A Quantum-Inspired Adaptive-Priority-Learning Model for Multimodal Emotion Recognition
6.1动机
由于与情绪相关的信息内容水平不同，三种模态通常对ERC任务具有不同程度的贡献。在图6-1（a）左侧的例子中，沮丧的表情、褶皱的眉毛和下垂的眼角都表现出愤怒和厌恶，因此视觉形态对情绪的贡献更大。在右边的例子中，升调表示幸福的情绪，因此声学模态比视觉模态具有更高的优先级。此外，个体模态的情绪和视频之间可能存在不一致。在图6-1（b）中的例子中，快乐以文本形式表达，但视频中的情绪是愤怒。
图6-1 动机示例
6.2方法
6.2.1设计思路：
受量子理论在建模不确定性方面的最新进展的启发，首次尝试设计一个量子启发的自适应优先级学习 (quantum inspired adaptive priority learning，QAP)模型，来应对上述挑战。
图6-2 QAP整体框架图。
6.2.2具体模型：
(1) 单模态负值表示

虽然，利用预训练模型来提取模态信息，可以在不同的任务中进行微调。然而，完全端到端的模型可能会带来噪声，例如图像中面部以外的部分。这些噪声会引起语义漂移，影响视频情绪的判断。为了缓解这个问题，将这两种模态特征与复值表示一起使用。复数值可以用极性形式表示：，其中r是振幅，θ是相位或自变量。因此，纯态可以表示为：

其中，纯态可以从复向量分解为两个实向量：和。本文采用ALBERT-base-v2获取文本模态特征，采用VGG获取视觉和声学模态特征和。由于捕捉长距离依赖关系的优势，Transformer被用于对这些预先提取的特征进行编码，构造了各个模态的纯态，并用外积得到了密度矩阵和。
图6-3 Q注意力的主要组成部分。
(2) 自适应优先级学习
考虑到三种模态的6个融合阶，以及文本模态通常贡献最大，因此，在实现中只使用两个顺序：文本-视觉-音频（t-v-a）和文本-音频-视觉（t-a-v）。以t-v-a阶为例，首先通过Q注意对t和v进行积分。Q注意力的主要过程如图6-3所示。t是基础，v模态要加上去。被输入到两个Q线性层中以分别输出K和V，也被输入到一个Q线性层中以输出Q。其中，Q线性层是为类似于量子演化的密度矩阵设计的线性层：
其中，是酉矩阵，因此K、V、Q也是密度矩阵。对于纯状态（向量），注意力得分可以通过内积计算，内积不能直接应用于混合状态（密度矩阵）。为了解决这个问题，本文计算两个密度矩阵乘积的迹：
通过迹内积来计算K和Q之间的注意力得分：
然后，通过V的加权求和获得输出：
其中, 是包含文本和视觉信息的密度矩阵。受Transformer的启发，本文还利用了残差机制：
其中，是文本和视觉模态的融合特征。此外，Q注意力是一个多层模块。在第二层和之后的层中，仍然是基础，并用作K和V；而Q是前一层的输出并且被连续更新。因此，Q注意力的整个过程如下所示：
其中，量子测量算子来为当前样本选择最合适次序。随后，使用完全连接的神经网络将概率分布映射到t-v-a的权重。也由测量得到t-a-v阶的权重。然后，将两个权重输入到Softmax层，得到α和β，其中α+β=1。最后，对两个密度矩阵求得到多模态融合密度矩阵。
(3) 情绪分类
本文通过全连接层和另一个量子测量算子来识别情绪：
6.3实验
实验数据集：IEMOCAP，CMU-MOSEI
实验评价指标：Weighted accuracy, Weighted-average F1
实验结果与结论：
表6-1 IEMOCAP上的实验结果
表6-2 CMU-MOSEI上的实验结果
表6-3 QAP的性能分析
表6-4 选择方法和固定阶数的实验结果
表6-5 保留顺序的实验结果。
表6-6 量子测量的实验结果。
表6-7 单模态消融研究结果。
1. 如表6-1和表6-2所示，QAP模型在IEMOCAP和CMU-MOSEI数据集上的实验结果显示，相较于基线模型，它通过自适应学习模态优先级和使用量子状态来处理不一致情绪的模态，实现了1% - 3%的性能提升，从而在多模态情绪识别中表现出明显的优势。
2. 如表6-3所示，在量子近似优化问题中，使用复杂值密度矩阵和预先提取的特征对模型性能有积极影响，而将表示切换为纯态向量或直接拼接特征则导致性能下降，同时引入情感词典也提高了模型性能。
3. 如表6-4所示，QAP模型在整合多种模态信息时，根据模态的优先级顺序进行集成，相比其他基准模型表现更好，并引入了自适应调整融合顺序的机制，通过量子测量操作符学习模态优先级，证明了其有效性。
4. 如表6-5所示，增加融合顺序并不能显著改善性能，而最初选择的两个融合顺序（t-a-v和t-v-a）在性能上表现最佳。
5. 如表6-6所示，在QAP中使用量子测量算子进行分类，同时验证了两种非量子方法，结果显示量子测量方法的优越性。
6. 如表6-7所示，在多模态情绪识别中，每个模态都起着重要作用，特别是移除文本模态时性能下降最明显。
七、用于多模态情绪识别的自适应上下文和模态交互建模
Self-adaptive Context and Modal-interaction Modeling for Multimodal Emotion Recognition
7.1动机
现有的方法存在以下两个局限性：1）缺乏对不同依赖范围的建模，即长、短和独立的上下文特定表征，并且没有考虑每个话语的不同识别难度；2）对各种模态的贡献进行一致处理。
7.2方法
7.2.1设计思路：
本文提出了自适应上下文和模态交互建模（Self-adaptive Context and Modal interaction Modeling, SCMM）框架。首先设计了上下文表示模块，该模块由三个子模块组成，用于对多个上下文表示进行建模。然后，我们提出了模态交互模块，包括三个子模块，以充分利用每种模态。最后，提出了一个自适应路径选择模块，在每个模块中选择合适的路径，并对特征进行集成，以获得最终的表示。
图7-1 SCMM整体框架图。
7.2.2具体模型：
(1) 上下文表示模块

全局上下文表示：

由于当前话语的情绪可能是基于较长时间前提出的另一个话题，即：远距离的情绪依赖关系。所以设计了全局上下文表示子模块来对这种场景进行建模。对于不同模态的对话特征，其中和，然后通过多头注意力机制获得的中间表示通过常用的残差级联、层归一化和前馈层，获得该子模块的最终输出，即:和。
局部上下文表示：

由于当前话语的情绪可能会受到相邻话语的影响，这是一种在局部范围内发生的短距离情绪依赖。所以设计了局部上下文表示模块。对于任何模态输入，通过以下公式计算局部上下文表示特征：
直接映射：

对于本身包含足够信息的话语，上下文表征可能会引入额外的噪声。所以设计了直接映射子模块，通过线性层直接提取每个话语的信息：

(2) 模态交互模块

全交互：

对于简单话语，和三种模态和相互补充的并且每个模态包含相对等量的信息的理想情况，设计了全交互子模块来直接连接三个多模态特征，并使用线性层提取多模态特征：
部分交互：

对于稍微复杂的话语，由于缺乏关键信息或噪声的混合，不同模态的贡献各不相同。所以设计了部分交互子模块，通过多样化的模态交互来缓解这个问题。具体地，组合和以获得和特征。
有偏交互：

对于难度较大的话语，设计了有偏交互子模块。在互动过程中，首先将文本作为主要模态，其他作为辅助模态，以减轻文本的信息损失。其次，使用带有局部注意力掩码的小型Transformer来进一步利用来自相邻话语的更多模态信息。具体地，有偏交互子模块将分别与和合并以获得和。这两个特征将在通过它们各自的线性层之后被合并。随后，应用具有局部注意力掩码的 Transformer来合并来自局部缩放的多模态特征。掩蔽注意力的操作可以公式化如下：

其中，对于这部分的局部注意掩码，定义了依赖上下文和二元向量长度的参数和。最后，得到了局部注意掩码，其中。最终的多模态特征是在具有局部注意力掩码的Transformer之后获得的。

(3) 自适应路径选择
本文设计了自适应路径选择模块，以自适应地选择最合适的路径，并将其分组集成，以供下一阶段使用。如图7-1（b）所示，对于给定的具有相同维度的特征，首先通过可训练参数来计算与这些特征的相似性，以获得每个特征的得分。然后，归一化的分数作为每个特征的权重。最后，将这些特征的加权平均值作为最终输出，其公式如下：
(4) 跨模态对比学习
本文通过将全部通过一个线性层来获得最终预测：
为了提高多模态特征的可分辨性，在模态交互模块中引入了监督跨模态对比损失。在这个阶段，批次中的所有对话都被扁平化为话语特征序列。对于相同维度的任意两个特征 ,监督跨模态对比损失计算为：
然后，可以得到总的训练目标：
7.3实验
实验数据集：IEMOCAP，MELD，CMU-MOSEI
实验评价指标：Weighted-average F1
实验结果与结论：
表7-1 在不同数据集上的实验结果
表7-2 消融研究的实验结果
图7-2 在IEMOCAP-4上β对Lcc对的影响
表7-3 自适应路径选择和线性选择模块的比较结果
表7-4 在IEMOCAP-6上其他特征提取设置下的比较结果
1. 如表7-1所示，SCMM在多模态情绪对话数据集上相较于其他模型表现显著优越，平均高出约0.8%，这得益于提出的跨模态对比学习损失，其有助于更清晰地学习具有区分性的特征。
2. 如表7-2所示，本文在研究比较了不同上下文表示和模态交互子模块的效果后，发现全局上下文表示与有偏交互对性能影响最大，同时也验证了文本是主要模态。
3. 如表7-3所示，自适应路径选择模块在不同模块特征整合中起着关键作用，因为用线性选择模块替换它导致所有数据集性能下降，表明自适应路径选择能够产生更好的特征。
4. 如表7-4所示，重新实施了所有比较的基线并使用相同的提取特征，结果显示SCMM在不同设置下都表现优越，验证了其稳健性和泛化能力。
5. 如图7-2所示，通过在实验中进行网格搜索，发现在一定范围内（0.8到1.2）调整参数β，SCMM在IEMOCAP-4数据集上表现相对稳定，这表明模型对这个参数的变化不敏感。
八、用于对话情绪识别的监督对抗对比学习
Supervised Adversarial Contrastive Learning for Emotion Recognition in Conversations
8.1动机
现有工作主要集中在上下文建模和情绪表征学习来识别情绪。然而，这些方法在挖掘与情绪标签相关的数据的内在结构方面存在局限性，并且难以提取广义和稳健的表示，导致识别性能平平。此外，在表征学习领域，基于标签的对比学习技术虽然可以用于捕捉一个类中的例子之间的相似性并将其与其他类的例子进行对比来学习广义表征，但是由于相似的情绪往往具有相似的上下文和重叠的特征空间，这些直接压缩每个类的特征空间的技术很可能会损害每个情绪的细粒度特征，从而限制泛化能力。
8.2方法
8.2.1设计思路：
本文提出了一种监督对抗对比学习（Supervised Adversarial Contrastive Learning, SACL）框架，以监督的方式学习类间结构化表示。(1) SACL采用对比感知的对抗训练来生成最坏情况样本，并使用联合类扩散对比学习来提取结构化表示。它可以有效地利用标签级别的特征一致性，并保留细粒度的类内特征。(2) 为了避免对抗扰动对上下文相关数据的负面影响，设计了一种上下文对抗训练（Contextual Adversarial Training, CAT）策略，以从上下文中学习更多不同的特征，并增强模型的上下文鲁棒性。(3) 在CAT框架下，本文还构建了一个基于序列的SACL-LSTM来学习标签的一致性和上下文鲁棒性特征。
8.2.2具体模型：
(1) 监督对抗对比学习框架
在表征学习领域，直接压缩每个类的特征空间容易损害细粒度的类内特征，这限制了模型的泛化能力。为了解决这一问题，本文设计了SACL框架，用于学习类传播结构化表征。该框架用对比感知的对抗训练来生成最坏情况样本，并在原始和对抗性样本上使用联合类扩散对比学习。它可以有效地利用标签级别的特征一致性，并保留细粒度的类内特征，如图8-1所示。
图8-1 二分类案例中不同训练目标的对比
形式上，让I表示为小批量中的一组样本。定义是小批次中与索引i不同的所有正样本的集合。是它的基数，软SCL的损失函数是CE损失和SCL损失的加权平均值，具有权衡标量参数。

在训练的每一步，都将具有软SCL目标的对抗训练应用于原始样本，以产生最坏情况样本。训练策略可以使用无上下文的方法来实施，如CAT。这些样本可以被视为硬正样本，它们分散了每个类的表示空间，混淆了无鲁棒性的模型。之后，在获得的对抗样本上使用软SCL，以最大限度地提高具有相同标签的类扩散表示的一致性。最终，SACL的总体损失被定义为原始样本和对抗性样本上的两个软SCL损失的总和。
(2) 上下文对抗训练
在依赖上下文的场景中，直接生成对抗性样本会干扰样本之间的相关性，这不利于上下文理解。为了避免这种情况，本文设计了一种CAT策略，以获得不同的上下文特征和稳健的模型。在有监督的训练目标下，它可以从上下文中获得不同的特征，并增强模型对上下文扰动的鲁棒性。
让（u，y）表示为从分布D采样的小批量输入，将表示为上下文模型。在训练的每一步，用参数识别当前模型的上下文对抗性扰动，并将它们放在模型的上下文感知的隐含层上。通过线性近似和一个以半径为界限的范数下的球形集合，以及一个训练目标ℓ（例如，软SCL）。
这里，以具有序列输入的LSTM网络为例，输出的相应表示为。对抗扰动以多通道的方式放在LSTM的上下文感知隐含层上，包括三个门控层和一个存储单元层，如图8-2所示。
图8-2 SACL-LSTM的总体架构
(3) 在ERC中的应用

文本特征抽取：

参考之前的工作，将预训练模型Roberta-large在训练集上进行微调，用于话语级情绪分类，并在训练我们模型时冻结其参数。形式上，给定话语输入，编码器的最后一个隐藏层中[CLS]令牌的输出用于获得具有维度的话语表示。
模型结构：

SACL-LSTM的网络结构由双向长短期记忆模块Dual-LSTM和情绪分类器组成。Dual-LSTM在提取文本特征后，用于捕获对话的情境和说话人感知上下文特征。其中说话人感知特征的计算如下：

此外，情境感知特征被定义为:

最后，将情境感知特征和说话人感知特征合并起来，形成每个话语的上下文表征，即：。
情绪分类

最后，根据上下文表征，采用情绪分类器预测每个话语的情绪标签。

8.3实验
实验数据集：IEMOCAP，MELD，EmoryNLP
实验评价指标：Accuracy (Acc)，Weighted-F1 score (w-F1)，Macro-F1
实验结果与结论：
表8-1 在不同数据集上的实验结果
表8-2 SACL-LSTM和DialogueCRN的细粒度结果
表8-3 消融研究的实验结果
表8-4 针对不同优化目标的比较结果
表8-5 不同训练策略的比较结果
表8-6 针对不同优化目标对结果进行聚类
图8-3不同优化目标的上下文稳健性性能
图8-4 SACL-LSTM及其变体的混淆矩阵
图8-5 在MELD上以不同优化目标学习的表征的t-SNE可视化。
1. 如表8-1和表8-2所示，SACL-LSTM在三个数据集上表现卓越，w-F1提高了1.1%，Acc提高了1.2%。并且在大多数情绪类别上优于强基线，宏F1分数分别提高了2.0%、1.6%和0.8%，表明了该方法的有效性。
2. 如表8-3所示，SACL框架和上下文感知的Dual-LSTM模块都对性能起着重要作用，移除它们会导致性能下降。
3. 如表8-4所示，SACL通过联合类别扩散对比学习目标，相对于CE+SCL、CE+SupCon和CE等其他优化目标，在三个数据集上表现出显著优势，保持了更好的类内特征并提升了性能。
4. 如表8-5所示，CAT策略通过添加对抗性扰动和极值训练方法，持续在三个数据集上表现更好，增强了情感特征的多样性，而相比之下，AT策略在极短对话中表现最差，难以改善上下文相关特征的多样性。
5. 如表8-6所示，SACL框架在不同优化目标下能够显著提高ERC任务的聚类性能和质量，通过监督和无监督聚类度量标准的综合评估，SACL相较于其他优化目标在ARI、NMI、FMI、SC、CHI和DBI等方面均表现得更出色。
6. 如图8-3所示，在不同的优化目标下，SACL在IEMOCAP和MELD数据集上表现出更好的上下文鲁棒性，特别是通过引入CAT，SACL在MELD上取得显著改进，因为MELD具有有限的上下文。
7. 如图8-4所示，SACL-LSTM模型在IEMOCAP和MELD测试集上通过归一化混淆矩阵显示更好的真正例，表明其对于少数情绪标签没有偏见，并能有效减轻相似情绪的误分类问题，而MELD中的类别不平衡导致一些话语容易被误分类为中性情感。
8. 如图8-5所示，使用SACL相对于CE目标函数，在MELD测试集上学习到的情感表示更加紧凑和一致，表明SACL能够更好地泛化，同时也部分学习到了类间内在结构。
九、用于对话情绪识别的对比学习框架
Context or Knowledge is Not Always Necessary: A Contrastive Learning Framework for Emotion Recognition in Conversations
9.1动机
以往的研究并没有关注于当前话语的情绪识别是否需要上下文和外部知识，而是更多地关注于更好的建模方法。如图9-1所示，即使不利用上下文和外部知识，也可以正确识别出示例1的情绪。因此，如何判断对话中的话语是否需要上下文或外部知识，并在训练过程中有效地对无关上下文和知识进行去噪是一个挑战。
图9-1 动机示例。
9.2方法
9.2.1设计思路：
本文提出了一个自监督对比学习框架（CKCL），如图9-2所示。该框架包括上下文对比学习模块（Context CL）：用于捕捉上下文无关和上下文相关话语之间的关联性和差异性；知识对比学习模块（Knowledge CL）：与Context CL类似，其中，知识无关的话语被设定为正样例，反之则设为负样例。和情绪监督对比学习（Emotion SCL）：一种加权的监督对比学习方法，它使具有相似情绪标签的句子的表征更加清晰。
图9-2 CKCL整体框架图。
9.2.2具体模型：
(1) Context CL
由于模型在某些话语中的性能甚至比不考虑上下文信息的模型更差，这突出了在ERC中去噪无关上下文的重要性。基于此，本文尝试设计了一个Context CL来捕捉上下文相关话语和上下文相关话语之间的相关性和差异。具体地，首先拷贝模型，并将掩码了上下文表示的输入数据输入到每个批次B的拷贝模型M†中。然后，进行伪标签的生成，如算法1中的第6-13行。最后，根据伪标签来计算对比损失项，如算法1中的第14-24行。
(2) Knowledge CL
人类通常依靠常识来传达情绪,然而，在知识敏感的ERC模型中，用于理解话语的无关知识可能会成为噪声。特别是在识别某些话语的情绪时并不需要外部知识。为了区分知识无关的话语和知识相关的话语，并对无关知识进行去噪，本文设计了Knowledge CL。它的计算过程与Context CL相似，但不同之处在于其掩码了知识表征，而不是上下文表征。因此，可以获得另一个损失项，如算法1中所示。
(3) Emotion CL
考虑到ERC任务的特点，即：类分布极不均匀，情绪标签具有高度的相似性，因此提出了一种名为Emotion SCL的类加权SCL，以区分具有相似情绪的话语的表征。它可以将不同情绪标签的样本进一步拉开，在一定程度上类分布失衡问题的影响。在每个小批量样本中，Emotion SCL的计算过程如下：
其中，B表示小批次样本，是B的大小。表示指代函数。是第j个话语的类权重。EmbeddingLayer(.)表示词嵌入方法。ERC模型通常采用BERT、Glove或Roberta模型对话语进行编码。，是温度参数，表示余弦相似度函数。是B中话语的情绪标签集。
(4) 模型训练
本文通过最大限度地减少以下三个损失的总和来共同训练CKCL框架。
9.3实验
实验数据集：IEMOCAP，MELD，EmoryNLP，DailyDialog
实验评价指标：Accuracy (Acc)，Weighted-F1 (w-F1)，Macro-F1，Micro F1
实验结果与结论：
表9-1 在不同数据集上的实验结果
表9-2 在不同基线和数据集上进行泛化分析的实验结果
图9-3 在DailyDialog上性能退化的结果
表9-4 在动态和静态伪标签上的比较结果
1. 如表9-1所示，在多个数据集上，基座模型COSMIC在情绪和情感识别上通过CKCL框架实现了显著提升，验证了CKCL框架的有效性。
2. 如表9-1所示，CKCL框架的各组成部分对模型性能都产生显著影响，其中Knowledge CL在去噪无关知识方面表现更佳，而Emotion SCL则有效改善了不同情绪下话语表征的区分度。
3. 如表9-2所示，使用CKCL框架对各种ERC模型进行实验。结果显示CKCL对不同模型的影响差异较大，但仍能提升模型在情绪或情感识别上的性能，证明了其在ERC任务中的泛化能力。
4. 如图9-3所示，尽管建模上下文和知识可以提高性能，但在某些话语下也可能导致模型性能下降，这一差距是由于模型无法实现有效去噪。
5. 如表9-4所示，由于CKCL框架在多次推理上导致的时间复杂度增加，本文尝试了一种低时间复杂度方法：使用已训练好的模型进行静态伪标签的注释，后续无额外推理。虽然模型性能略有下降，但仍能满足需求。
十、小结
(1) 模型对比
表10-1 不同方法在不同数据集上的实验结果（M：多模态；T：文本模态；评价指标：Micro F1 over Dailydialog；Weighted F1 over other datasets）
(2) 研究趋势
1. 综合多模态信息：考虑到不同模态信息可以提供丰富的情绪线索，越来越多的研究开始关注融合文本、音频和视觉信息以进行情绪识别。
2. 上下文建模：越来越多的研究关注于在多方对话中捕捉复杂的上下文依赖关系，包括话语之间，说话人之间的联系和类型等。这有助于更全面地理解情绪背后的上下文线索。
3. 多模态交互：传统方法中常常简单合并各个模态的信息，但现在的趋势是更深入地研究模态之间的复杂交互关系，以更好地利用多模态信息。此外，不同模态在情绪识别中的贡献可能不同，因此越来越多的工作着眼于充分捕捉不同模态之间的相关性和映射关系。
4. 表征学习：情绪识别的表征学习是一个持续的研究领域，研究者试图找到更广义和稳健的表示方法，以及在相似情绪之间保持特征的细粒度。
总的来说，对话情绪识别具有广泛的应用前景，正在不断演进以更好地理解和解决多模态情绪识别的复杂性和多样性。未来的研究将集中在更有效的模态融合、上下文建模、情绪分类和泛化技术上。
参考文献：
[1] Ruijie Tao, Zexu Pan, Rohan Kumar Das, Xinyuan Qian, Mike Zheng Shou, and Haizhou Li. 2021. Is someone speaking? exploring long-term temporal features for audio-visual active speaker detection. In Proceedings of ACM MM.
[2] Martin Rosvall and Carl T Bergstrom. 2008. Maps of random walks on complex networks reveal community structure. Proceedings of the national academy of sciences.
[3] Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. 2021. Swin transformer: Hierarchical vision transformer using shifted windows. In Proceedings of ICCV.
[4] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 2016. Deep residual learning for image recognition. In Proceedings of CVPR.
[5] Panayotov, V., Chen, G., Povey, D., & Khudanpur, S. (2015, April). Librispeech: an asr corpus based on public domain audio books. In 2015 IEEE international conference on acoustics, speech and signal processing (ICASSP) (pp. 5206-5210). IEEE.
[6] Baevski, A., Zhou, Y., Mohamed, A., & Auli, M. (2020). wav2vec 2.0: A framework for self-supervised learning of speech representations. Advances in neural information processing systems, 33, 12449-12460.
[7] Christian Szegedy, Sergey Ioffe, Vincent Vanhoucke, and Alexander A Alemi. 2017. Inception-v4, inception-resnet and the impact of residual connections on learning. In Proceedings of AAAI.
[8] Dong Yi, Zhen Lei, Shengcai Liao, and Stan Z Li. 2014. Learning face representation from scratch. arXiv preprint arXiv:1411.7923.
[9] Yandong Guo, Lei Zhang, Yuxiao Hu, Xiaodong He, and Jianfeng Gao. 2016. Ms-celeb-1m: A dataset and benchmark for large-scale face recognition. In Proceedings of ECCV.
[10] Yao-Hung Hubert Tsai, Shaojie Bai, Paul Pu Liang, J Zico Kolter, Louis-Philippe Morency, and Ruslan Salakhutdinov. 2019. Multimodal transformer for unaligned multimodal language sequences. In Proceedings of ACL.
[11] Zhouxing Shi and Minlie Huang. 2019. A deep sequential model for discourse parsing on multi-party dialogues. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 33, pages 7007–7014.
[12] Nicholas Asher, Julie Hunter, Mathieu Morey, Farah Benamara, and Stergos Afantenos. 2016. Discourse structure and dialogue acts in multiparty dialogue: the STAC corpus. In 10th International Conference on Language Resources and Evaluation (LREC 2016), pages 2721–2727.
[13] Taewoon Kim and Piek Vossen. 2021. Emoberta: Speaker-aware emotion recognition in conversation with roberta. arXiv preprint arXiv:2108.12009.
[14] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 2016. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770– 778.
[15] Florian Eyben, Martin Wöllmer, and Björn Schuller. 2010. Opensmile: The munich versatile and fast open-source audio feature extractor. In Proceedings of the 18th ACM International Conference on Multimedia, MM ’10, page 1459–1462, New York, NY, USA. Association for Computing Machinery.
[16] Navonil Majumder, Soujanya Poria, Devamanyu Hazarika, Rada Mihalcea, Alexander Gelbukh, and Erik Cambria. 2019. Dialoguernn: An attentive rnn for emotion detection in conversations. In Proceedings of the AAAI conference on artificial intelligence, volume 33, pages 6818–6825.
[17] Qiong Cao, Li Shen, Weidi Xie, Omkar M Parkhi, and Andrew Zisserman. 2018. Vggface2: A dataset for recognising faces across pose and age. In 2018 13th IEEE international conference on automatic face & gesture recognition (FG 2018), pages 67–74. IEEE.
[18] Yifan Zhang, Bryan Hooi, Dapeng Hu, Jian Liang, and Jiashi Feng. 2021. Unleashing the power of contrastive self-supervised visual models via contrastregularized fine-tuning. Advances in Neural Information Processing Systems, 34:29848–29860.
[19] Lichen Wang, Jiaxiang Wu, Shao-Lun Huang, Lizhong Zheng, Xiangxiang Xu, Lin Zhang, and Junzhou Huang. 2019. An efficient approach to informative feature extraction from multimodal data. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 33, pages 5281–5288.
[20] Karen Simonyan and Andrew Zisserman. 2014. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556.
[21] Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, and Radu Soricut. 2019. Albert: A lite bert for self-supervised learning of language representations. arXiv preprint arXiv:1909.11942.

审稿：徐睿峰

校正：王丹

打印收藏

【关闭窗口】

Return Top

常用站点

© 2019 哈尔滨工业大学（深圳）·智能计算研究中心 All rights reserved.