情感直接原因发现

 

指导老师:徐睿峰副教授陆勤教授
参与人员:
    桂林(13级博士生,负责标注体系制定与算法改进)
    吴冬茵(14级硕士生,负责算法设计、算法实现以及数据标注)
    周俞(14级硕士生,负责数据标注)
项目介绍:
    情感分析是自然语言处理邻域的重要课题之一,其主要研究内容包括情感分类(如二元的极性分类,多元的情绪分类等)、情感要素抽取(如情感的发起者、情感的对象、情感词的抽取等)。
本课题认为上述任务在各项文本分析中均从情感现象出发,是对情感现象的表层分析。而要探索情感行为的内涵,更重要的是某个个体为什么产生情感,对于某个个体的特定情感表达其直接的触发事件是什么,也就是原因。目前情感分析领域对于情感原因发现的相关研究较少,并且在这个问题上没有公开的数据集。针对这一问题,课题组在过去两年开展了一系列的相关工作,包括情感直接原因的人工文本标注,相关算法的设计实现与改进等。
在语料库的构建过程中,本项目抓取了2013-2015年的新浪社会新闻,完全人工的筛选其中含有情绪表达的文本,标注每个情绪表达的直接原因。最终,在超过20000个新闻文档中,通过对每个文档不少于两次的人工复核,保证这些文档的标注部分,均有唯一的情绪表达,并且,每个情绪表达有至少一个相关的情绪原因。共计筛选出2105个含有直接原因的情绪文段,其中包含情绪原因短语2167个,其中2046个情绪表达文段仅含有一个情绪直接原因,56个情绪表达文段含有两个情绪直接原因,仅有3个情绪表达文段含有3个或3个以上情绪直接原因。并且具体的标注如下例所示:
关于本数据的部分相关统计信息如表所示:
    1. 情绪表达类别分布:
    2. 情绪原因与情绪表达的相对位置分布:
 
    在此数据集上,本项目提出了一个情绪原因发现的任务,即:训练分类器,对于一个文档级别的测试样例,依次判断每一个子句是否是情感原因,在十重交叉验证中使用面向二分类任务的准确率、召回率与F1值进行评价。
   相比之下,前人方法较为依赖人工特征,而本项目在我们标注的数据集上实现了一种基于事件驱动的全自动情感原因发现方法,并且在完全相同的实验设置下实现了基于规则方法、基于常识库等方法进行了对比实验,实验结果详见我们的论文:
Event-Driven Emotion Cause Extraction with Corpus Construction. Lin Gui, Dongyin Wu, Ruifeng Xu*, Qin Lu, Yu Zhou. In EMNLP 2016.
   目前,本课题相关研究刚刚起步,对于问题的定义与处理较为简单。考虑到本课题的方法性能尚有较大提升空间(二分类F1值0.67),标注体系提供的信息尚未完全利用(如情绪原因边界,原始新闻文档,新闻标题等信息),故而本课题相关研究还有很大的扩展空间,并可有很多延伸课题。
数据下载:
    本数据集完全公开,请您仔细阅读我们的数据使用协议并签署,将签署文件扫描或照相后发往guilin.nlp@gmail.com(桂林),之后您将获得一个数据下载链接获取本课题相关数据,谢谢您的支持!
数据使用协议:

  license.pdf (72.4 KB, 28 次)

评论被关闭