2015年2月,研究组博士生陈涛的论文《Word Embedding Composition for Data Imbalances in Sentiment and Emotion Classification》在Cognitive Computation期刊发表。
本文针对有监督的分类任务中训练语料的不平衡导致训练结果向多数类别倾斜这一问题,利用递归张量神经网络(Recursive Neural Tensor Network,RNTN)模型对文本进行复合,然后使用过采样方法SMOTE(Synthetic Minority Oversampling TEchnique)方法生成新样本,补充进少数类别的训练数据中,从而使训练语料各类别达到平衡。该方法在英文斯坦福情感树库和NLPCC 2013中文微博情绪分类语料上均取得了较好成绩。
Cognitive Computation期刊由Springer出版,SCI影响因子1.1。
论文链接:http://link.springer.com/article/10.1007%2Fs12559-015-9319-y