
论文链接:https://aclanthology.org/2021.findings-emnlp.70.pdf
引言
近年来,开放领域对话系统变得越来越普遍,并被广泛用于精神支持和娱乐。在某种程度上,这一进展是由神经回复生成模型的进步推动的在给定各种用户输入的情况下,在生成流畅和相关回复方面取得了成功。然而,人们在与机器交谈时,仍然可以感觉到人与机器之间存在明显的差距。其中一个主要原因是现有的对话系统缺乏情感理解和同理心。共情回应是一种沟通方式能够在日常对话中进行更自然沟通的技能。表1显示了从共情对话数据集中共情回复的示例。演讲者正在谈论发生在他/她身上的与孤独感有关的情况,听众需要以适当的情绪回应。因此,同理心在对话中很重要。然而,赋予对话系统情感理解和同理心回复的能力是具有挑战性的。
大多数现有方法从两个方向改善了同理心回复的生成。
第一种通常促进模型的情感理解
。
在这项工作中,模型通常被训练来决定说话者的情绪状态,并根据情绪状态生成回复。
第二个重点是改进回复生成策略
。
例如,Shin
等人。(2020)
建议使用用户情绪的前瞻来模拟共情回复生成,并通过强化学习改进共情回复模型。
Majumder等人。(2020)
提出了一种模仿说话者情感的方法,同时考虑了t继承人情感极性。
然而,这两种现有的方法都只
考虑使用情绪的表面信息,如情绪标签,以提高生成的回复的质量。
情绪原因,共情回复的基本因素,被忽略了。
我们认为,这种情绪的表面信息不足以生成同理心的回复。
如果该模型能够在对话中对情绪进行推理,则可以更好地理解人类的情绪并做出同理心回复,这意味着它需要确定某种情绪的原因。
例如,在表
1
中,给定对话上下文,我们不仅需要识别说话者的情绪"孤独",还需要识别情绪背后的情绪原因。
我们可以看到,由于事件"...所有的朋友都住...不同的国家"。
在这里,我们可以推断出说话者的情绪是由包含上述事件的第一句话引起的。
有了如此深刻的情感信息,我们可以生成更相关和同理心的回复。
为此,我们提出了一个新的框架,通过赋予共情对话模型在对话中对人类情感进行推理的能力,来改善共情回复的生成。
具体来说,除了情绪的类型之外,我们的模型还能够识别情绪背后的原因。
我们的框架涉及两个组件,一个情感推理模块和一个回复生成模块。
情感推理模块首先执行上下文级情感预测和单词级情感原因检测,为回复生成提供情感原因信息。
然后,回复生成器利用这种深层次的情感信息来生成同理心回复。
为了将情绪原因信息整合到回复生成模块中,我们设计了一个门控注意力机制,并探索了hard和soft两种门控策略,以使模型能够更多地关注与情绪原因相关的单词。
对于模型训练,我们使用多任务学习来建立情绪推理模块和回复生成模块之间的联系。
我们的贡献可以总结如下:
• 情感推理模块旨在识别说话者的上下文情感和情感背后的情感原因,为回复生成提供深层情感信息。
•
为了将情绪
原因纳入回复生成,我们设计了一种门
控注意力机制,并探索了hard和soft两种门控策略,使模型能够专注于情绪原因相关的单词。
•
实验结果表
明,我们提出的模型受益于情绪原因,并且显着优于其他比较方法,且能够生成更好的共情回复。
我们的框架明确考虑了生成同理心回复的情感原因,如图1所示。我们的框架包含两个组件:情感推理模块和回复生成模块。情感推理模块用于预测上下文情感标签,并根据对话上下文定位与情感原因相关的单词。回复生成模块根据情感推理模块推理模块获得的信息来生成回复。
由于我们在共情对话数据集上没有现成的情感原因信息数据,因此我们利用现有的情感原因检测模型,用于在对话中识别话语级别的情绪原因。该模型是在开放域情感对话数据集上训练的,即RECCON。为了验证检测模型在我们工作中使用的共情对话数据集上的传输性能,我们从测试集中随机选择了100 dialogue样本,并要求3个评测人员为对话上下文中的每个话语分配一个标签,代表它是否是原因相关的话语。每个样本的最终裁决由多数投票决定。在这些注释样本上,情感原因注释模型最终达到了89%的准确率,表明注释模型具有可靠的性能。在我们的工作中,我们使用情感推理模块来执行单词级的情感原因检测。为了解决这个问题,我们会自动为对话上下文中的每个单词分配一个二元标签。如果这个词在因果话语中,我们用1注释它,否则为0。
自动评估:表 2 展示了自动指标的评估结果。对于每种方法,我们用不同的种子重复5次运行,最后的结果为平均结果。从表中可以看出,我们提出的模型Ours(Hard)和 Ours(Soft)在除PBERT之外的所有指标方面都比基线模型具有明显的优势。这表明,我们的模型通过识别对话中的情绪原因来生成更合适和信息丰富的回复。我们还观察到,Ours(软)和Ours(硬)之间的性能差异并不显着,但每个都有自己的重点。我们的(软)在BLEU和BERTScores上的表现优于我们的(硬),而我们的(硬)在Dist-1和Dist-2比率上表现更好。似乎Ours(Soft)为了收益而牺牲了多样性。
人工评估:表3根据人类对流利度,相关性和同理心的评分列出了所有结果。我们在表3中观察到,就所有三个crite ria而言,Ours(软)和Ours(Hard)的表现明显优于大多数基线,分别取得了最佳和第二好的结果。这表明,试图在对话中识别情绪原因有利于提高情绪理解并生成更多的同理心回复。此外,我们可以看到,使用 soft 门控机制比使用hard门控机制获得更好的性能。这可以通过以下事实来解释:hard门控机制在控制信息时是僵化的,并且有可能忽略重要信息。另一方面,soft门控机制对信息的控制更加灵活。
表3所示的A / B测试结果也证实了与其他基线模型的结果相比,Ours(Hard)和Ours(Soft)生成的回复是人类的首选,并且Ours(Soft)的结果略好于Ours(Hard)。
我们在表6中提供了由我们的模型和基线模型生成的一些示例回复。如第一个例子所示,Ours(Hard)在识别与情绪原因相关的单词方面做得很好。此外,与其他基线模型相比,Ours(Hard)和Ours(Soft)似乎都能产生与对话更合情和上下文相关的回复。在第二个例子中,Ours(Soft)再次成功地找到了与情感原因相关的单词。Ours(Hard)和Ours(Soft)产生的反应信息量更大,情感表达更丰富,而其他模型产生的反应单调乏味,缺乏同理心。
在本文中,我们提出了一种新颖的框架,可以将情感原因信息整合到共情回复生成中。我们的方法包括一个情感推理模块和一个回复生成模块。情感推理模块首先预测上下文情感label,并在对话上下文中定位与情感原因相关的单词。然后,回复生成模块生成带有预测上下文情绪标签和情绪原因信息的回复。为了将情绪原因信息引入到回复生成中,我们设计了两种门控注意力机制,并探索了soft和hard两种策略。自动和人工评估表明,我们提出的模型可以生成更有意义和同理心的回复。