引 言
训练基于知识的对话生成模型需要大量的基于知识的对话数据。然而,这类对话数据并不容易获得。因此,本文针对基于知识的对话任务,提出了一个合成数据生成框架SynDG,以生成大量的合成对话数据作为新的训练数据。利用预训练模型和无标注的知识数据(如维基百科文档,用户个性信息等),SynDG能够考虑对话流和整体对话的一致性。具体来说,给定无标注的知识数据,SynDG首先使用启发式的方法确定对话流,本质上是一系列的知识片段。然后,利用T5来逐步地将对话流转化为对话。此外,本文还设计了一个两级筛选策略来确保对话流和合成对话的一致性。在两个公开数据集上的结果显示,不管是在全数据和低资源的场景下,SynDG所生成的合成对话数据都能够显著增强基线模型的性能。
1. 任务定义
2. 方 法
3. 实 验
4. 结 论
© 2019 哈尔滨工业大学(深圳)·智能计算研究中心 All rights reserved.