背景
研究组两篇论文获LREC 2020录用
2020-02-04 15:46 HITSZ-HLT    (浏览量)

2020年2月,硕士生龚晓畅论文《The Design and Construction of a Chinese Sarcasm Dataset》获得International Conference on Language Resources and Evaluation-2020(LREC-2020)会议录用。该工作基于新闻网站的用户评论文本构建了当前世界上最大的中文讽刺文本数据集,包含2486条讽刺文本和89296条非讽刺文本。同时也使用了常用的文本分类模型对数据集进行了验证。结果表明该数据集提供了很大的研究空间。

硕士生袁朝发、刘宇瀚、殷熔磾等同学合作的论文《Target-based Sentiment Annotation in Chinese Financial News》主要介绍了在中文金融领域的细粒度目标级别的情感分析(Target-based Sentiment Analysis,TBSA)数据集的设计和构建。该工作所构建的数据集是段落级别的,该数据集具有每个样本具有多个实体且每个实体出现多次的特点,使得该数据集相对于传统的TBSA数据集更具有挑战性。该工作共构建了8,314个实体级样本,是当前已知的最大的TBSA数据集;此外,相关的Baseline模型也在该数据集上进行了相应的测试。

LREC成立于1998年,是语言资源和语言技术评估领域的主要会议。LREC为来自各个领域的研究人员,行业和资助机构提供了一个独特的论坛,以便于讨论相关问题,促进国际合作,以支持语言科学领域的研究,语言技术的进步与创新以及开发相应的产品,服务和应用程序以及标准。2020年会议在法国马赛举行,会议网址: https://lrec2020.lrec-conf.org/

论文一链接

https://www.aclweb.org/anthology/2020.lrec-1.619.pdf

论文二链接

https://www.aclweb.org/anthology/2020.lrec-1.620.pdf



审稿:徐睿峰
校正:王   丹


打印    收藏
关闭窗口

Return Top