2024年8月,研究团队硕士生蔡晨冉和博士生王乾龙合作的论文Multi-task Framework based on Decomposition for Multimodal Named Entity Recognition获Neurocomputing期刊录用。
给定一个文本-图像对,多模态命名实体识别(Multimodal Named Entity Recognition, MNER)旨在识别并分类文本中的命名实体。现有研究主要关注如何融合和交互图像与文本模态特征,以统一表示并利用序列标注方法完成MNER任务。然而,这些研究往往了文本和图像模态在MNER中的角色差异,导致两种模态的利用效率不高。为此,本文首先借助探测试验,发现文本模态可以很好地检测出实体边界,而图像模态主要负责消除实体类别的歧义。基于此,构建了两个辅助任务:实体边界检测和实体类别分类。对于实体边界检测,仅使用文本模态输入,因为其能提供较好的边界信息。对于实体类别分类,利用文本和图像模态的交互特征来预测类别标签,在文本信息不足或存在歧义时,图像模态可以帮助识别命名实体的类别。最后,将两种模态和两个辅助任务的标签嵌入信息融合,以增强最终特征表示,从而完成MNER。在Twitter-2015和Twitter-2017数据集上的大量实验表明,所提出的方法性能超越了基准方法,显示出其有效性和优越性。
图1:方法框架图
Neurocomputing是人工智能领域的国际性期刊,影响因子5.5,JCR Q1期刊,在中科院学术推荐列表中为二区期刊,CCF-C类期刊。
Chenran Cai, Qianlong Wang, Bing Qin, Ruifeng Xu*. A Multi-task Framework based on Decomposition for Multimodal Named Entity Recognition.
Neurocomputing. 2024
https://doi.org/10.1016/j.neucom.2024.128388
|