论文题目:GazeGCN: Gaze-aware Graph Convolutional Network for Text Classification
论文信息:
Bingbing Wang, Bin Liang, Zhixin Bai, Min Yange, Lin Gui, Ruifeng Xu*. GazeGCN: Gaze-aware Graph Convolutional Network for Text Classification. Neurocomputing. 128680, 2024
https://www.sciencedirect.com/science/article/abs/pii/S0925231224014516
文本分类是自然语言处理中的一项基本且重要的任务,其目的是推断给定句子或文档的类别。有大量的应用,例如情感分析、意见挖掘、垃圾邮件检测等。
最近,图神经网络的一个新研究方向引起了广泛的关注,它在图操作和根据邻域属性诱导节点嵌入方面表现更好。受此启发,TextGCN[[1]]被设计以用于文本分类任务,其利用单词共现和词频-逆文档频率(TF-IDF)进行图构建,忽略了单词和文档之间的句法关系,并认为它们是孤立的。随着大规模预训练模型的出现,BertGCN[[2]]结合了大规模预训练的优点来初始化单词或词的节点嵌入。基于 TextGCN 的具有预训练 BERT 表示的文档。然而,它并没有解决上述句法关系问题。
最近的一项尝试是寻求人类眼动信号的帮助来改进自然语言处理任务,例如文本简化、词性标记、情感分析,以及命名实体识别。Clifton Jr等人[[3]]对人类阅读行为的心理语言学研究进行了详尽的调查,发现了句法复杂性对眼动信号测量的影响。在这一理论的支持下,现有一些神经网络开始利用人类行为数据(例如眼动注视行为)进行增强,以解决一系列跨越语法的自然语言处理任务。
本文从一个新颖的角度探索文本分类任务,通过根据眼动信号探索注视感知图构造来捕获单词和文档之间的句法信息。具体来说,我们首先设计眼动信号预测模型,利用现有眼动数据集,基于RoBERTa来获得每个单词的五个眼动信号特征。然后,使用五个眼动信号来获得眼动感知的单词-单词和眼动感知的单词-文档权重。对于眼动感知的单词-单词权重推导,我们将五个眼动信号拼接成一个特征向量,并将特征向量视为每个词的注视分布。我们通过Wasserstein Distance来计算两个单词的眼动信号分布的记录,从而得出凝视感知的单词权重。对于眼动感知的单词-文档权重推导,受 TextGCN 启发,采用 TF-IDF来感知单个单词对文档的影响。眼动信号的总阅读时间用于通过捕获全局和局部句法信息来增强 TF-IDF。随后,我们通过来自眼动感知的单词-单词权重和眼动感知的单词-文档权重的丰富的边权重信息,为整个语料库构建了一个眼动感知图。在此基础上,提出了一种眼动感知图卷积网络(GazeGCN)来捕捉单词和文档节点更深层的句法信息。本工作的主要贡献如下:
-
从一个新颖的角度来实现文本分类任务,探索如何通过合并高度包含单词和文档句法信息的眼动信号来构建注视感知图。
-
设计一种利用 Wasserstein Distance 对两个单词的注视分布之间的关系进行建模的新方法,以得出眼动感知单词-单词权重。此外,基于眼动信号的总阅读时间,采用文档中单词的眼动增强 TF-IDF 来获得眼动感知单词-文档权重。
-
提出眼动感知图卷积网络方法,为文本分类提供了更深层的单词和文档句法信息,并在六个文本分类数据集上实现了优异的性能。
本文提出了一种用于文本分类的眼动感知图卷积网络框架GazeGCN,旨在利用眼动信号增强文本分类的效果。框架的设计包含四个主要模块(如图2-1所示):(1)眼动信号预测模块:通过使用RoBERTa和线性前馈层,预测五种眼动信号;(2)眼动权重生成模块:利用眼动特征生成眼动感知的单词-单词权重和单词-文档权重;(3)眼动感知图构建模块:基于生成的两类眼动感知权重,构建眼动感知图并获得图表示;(4)眼动感知文本分类模块:将图表示与由 BERT 提取的文本表示拼接,用于文本分类任务。
眼动信号被认为是人类文本处理的间接测量,并直接展示人类在阅读和处理文本时投入的注意力。给定所需的文本信息,眼动信号可以表明文本中每个单词吸引人类注意力的程度。我们采用眼动预测模型,目的是引入五个眼动特征,包括首次注视点持续时间FFD
、注视时间
GD
、回视时间
、总阅读时间
TRT
和注视次数
nFix
,每个单词对应一个文本序列
。受到
Li
[4]
等人的启发,具有线性前馈层的
RoBERTa
具有与人类眼动处理模式最相似的预测,因此我们利用其作为眼动预测模型。
该眼动预测模型在三个英文眼动数据集上进行训练,包括GECO
[5]
、
ZuCo
[6,7]
和
Provo
[8]
。
GECO
数据集收集了英语使用者在阅读屏幕上段落中呈现的小说时的眼动追踪数据。
ZuCo
语料库记录了英语使用者在阅读英语维基百科、传记句子和电影评论时的眼动数据。
Provo
语料库包含
84
名参与者阅读各种文本源中的单词的眼动数据。我们将眼动数据组合成一个集合,并将这五个眼动信号值标准化到
[0, 1]
的范围内。我们对眼动信号预测模型进行了
100-150
个时期的微调以实现最佳性能,并通过
10
倍交叉验证以最小平均绝对误差保存模型。
我们结合眼动信号来增强对单词和文档之间关系的捕获,并从眼动感知单词-单词和眼动感知单词-文档权重两个方面进行关系的推导。在眼动感知单词与单词权重推导方面,单词的眼动信号分布由五个眼动特征连接起来,根据 Wasserstein 距离构建眼动感知的单词-单词权重。同时,在眼动感知的单词-文档权重推导方面,采用眼动信号中的总阅读时间来增强词频-逆文档频率TF-IDF,从而捕获更多的句法信息。值得注意的是,同一个单词可能出现在不同的句子中,一个单词也可能在同一个句子中多次出现,这将赋予每个单词甚至同一个单词不同的句法信息。因此,在本文中,我们将文本中不同位置的每个单词视为一个单独的单词。
眼动信号可以间接反映了人类对词语进行句法加工的过程。因此,我们探索了一种新颖的场景,即引入眼动信号来确定单词之间句法信息的相似性。具体来说,将文本输入到眼动预测模型中,获得每个单词的五个眼动信号特征,其中包括FFD、GD、GPT、TRT、nFix。然后单词的眼动信号分布由五个眼动信号特征连接为
。接下来我们使用
Wasserstein
距离,这是两个分布之间的一般距离,可以为度量空间上给定的任何分布定义。单词
和
之间眼动分布
与
的
Wasserstein
距离可以可以近似为:
Wasserstein距离反映了两个分布达到平衡所需的最小成本。两个词的眼动信号分布越小,它们的边缘权重就越大。因此,我们对 WD 进行归一化,并将眼动感知单词-单词权重定义为
。
TF-IDF 常用于图网络中用作每个单词和每个文档的权重,反映单词对文档的重要性。但其并没有考虑单词的句法信息。为了解决这个问题,我们引入了单词
的总阅读时间
,它是反映人类阅读完整过程的眼动信号之一。词频(
TF
)和逆文本频率(
IDF
)的公式如下所示:
我们利用语料库中的单词共现来构建单词-单词边缘,并利用文档中的单词出现来构建遵循 TextGCN 的单词-文档边。BERT模型用于初始化异构图中的单词和文档节点的表示。两个节点和之间的边的权重定义为:
采用单位矩阵作为初始节点特征,并使用 BERT 模型接收文档嵌入,将其视为文档节点的输入表示。然后,将矩阵输入到多层 GCN 模型中,以集成有关更大邻域的信息,并通过样本传播消息。第i个GCN 层
的更新图表示计算为:
GCN的输出
被视为最终的眼动感知图表示。
对于每个文档,采用预先训练的 BERT 模型来获取文档表示
,这些表示在训练过程中进行微调。最终,眼动感知图表示和文档表示连接起来以获得最终表示
。
然后将输入到softmax层进行文本分类,并通过交叉熵函数最小化损失:
实验数据集:R8,R52,Ohsumed,MR,IMDB,AG News,Yahoo!Answers
主实验:表3-1和3-2展示了我们的模型在文本分类中的有效性以及眼动信号对性能改进的可行性。同时,我们也发现,基于图的方法比大多数模型表现更好;BERT通常比现有的 GCN 变体具有更好的性能。另外,考虑到我们提出的方法中可用的眼动信号数据有限,GazeGCN所取得的改进程度充分说明了文本分类的一个有希望的新方向。
消融实验”如表3-3所示,“w/oWD”表示采用正点互信息(PPMI),而不是眼动感知的单词权重。“w/oTRT”表示使用TF-IDF代替眼动感知单词文档权重的眼动增强TF-IDF。可以看出去除眼动感知单词文档权重的TRT,采用PPMI而不是单词文档权重都会严重降低性能。这证实了在单词和文档之间学习句法信息在文本分类中的重要性和有效性。
图神经网络层数的影响:如图3-1所示,2层GCN总体上表现更好,因此我们将GCN层的数量设置为2。结果还表明,由于不充分的网络结构无法利用良好的特性,具有一层的GCN在所有数据集上的表现都不理想。更重要的是,性能会波动,并倾向于随着超过3层的增加而下降。这也意味着GCN的层数对于某些NLP任务不是尽可能好。由于模型参数的急剧增加,更多的层可能会降低模型的学习能力。
可视化:如图3-2所示,我们可以直观地看到,GazeGCN模型学习到的每个类别的文档表示比其他类别的聚类更有效,如"trade", "money-fx", "acq"。
1.如表
3-4
所示,单词对可分为两种形式:单词搭配形式和语义关联形式。在单词搭配形式中,两个词之间存在着一种搭配关系作为一种语法绑定的单词关联。同时,在语义关联形式,两个语义相似的词具有更显著的眼动感知词权重。这进一步表明,我们提出的眼动感知词权重有利于句法信息捕获。
2.如图
3-3
所示,人类的注视行为被认为对全文的句法处理是有意义的,并且人类更倾向于内容词而不是功能词,这表明使用
TRT
增强
TF-IDF
是可行的。
[1]
Yao L, Mao C, Luo Y. Graph Convolutional Networks for Text Classification. Proceedings of the AAAI Conference on Artificial Intelligence. 2019, 33(01): 7370-7377.
[2]
Lin Y, Meng Y, Sun X, et al. BertGCN: Transductive Text Classification by Combining GNN and BERT[C]. Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021. 2021: 1456-1462.
[3]
Clifton Jr, C., Staub, A., Rayner, K., 2007. Eye Movements in Reading Words and Sentences. Eye Movements, 341–371.
[4]
Li, B., Rudzicz, F., 2021. TorontoCL at CMCL 2021 Shared Task: RoBERTa with Multi-stage Fine-tuning for Eye-tracking Prediction, in: Proceedings of the Workshop on Cognitive Modeling and Computational Linguistics, Association for Computational Linguistics, Online. pp. 85–89. URL: https://aclanthology.org/2021.cmcl-1.9, doi:10.18653/v1/2021.cmcl-1.9.
[5]
Cop, U., Dirix, N., Drieghe, D., Duyck, W., 2017. Presenting GECO: An Eyetracking Corpus of Monolingual and Bilingual Sentence Reading. Behavior Research Methods 49, 602–615.
[
6]
Hollenstein, N., Rotsztejn, J., Troendle, M., Pedroni, A., Zhang, C., Langer, N., 2018. Zuco, A Simultaneous EEG and Eye-tracking Resource for Natural Sentence Reading. Scientific Data 5, 1–13.
[7
]Hollenstein, N., Troendle, M., Zhang, C., Langer, N., 2020. ZuCo 2.0: A Dataset of Physiological Recordings during Natural Reading and Annotation, in: Proceedings of the Twelfth Language Resources and Evaluation Conference, European Language Resources Association, Marseille, France. pp. 138–146. URL: https://aclanthology.org/2020.lrec-1.18.
[
8]
Luke, S.G., Christianson, K., 2018. The Provo Corpus: A Large Eye-tracking Corpus with Predictability Norms. Behavior Research Methods 50, 826–833.
|