4.1 对伪标签打分器的分析
考虑到伪标签打分器在我们框架中的重要性,我们首先对其进行分析,重点关注两个关键方面:其模型架构和训练数据集。
模型架构。我们使用生成模型赋予伪标签的条件似然作为评分标准。为了检验我们方法的有效性,我们在两个人工标注的比较数据集上进行实验,并将我们的方法与之前的方法进行对比。正如表2所示,之前的方法,尤其是问答方法,在ASQP任务中表现较差。相比之下,我们的方法具有显著的优势,证明了其有效性。
表2:伪标签打分器在架构上的实验结果。
比较数据集。我们进行实验以比较不同的标注方案,结果列在表3中。我们可以得到以下结论:(1)利用人工或AI来标注比较数据是非常重要的,因为它们的表现明显优于未标注的数据。特别地,当没有合适选项时允许人工标注人员撰写标签可以显著提高性能。(2)将打分器与比较数据和原始ASQP数据集结合进行训练,比仅使用比较数据更有效。(3)AI标注的比较数据甚至可以获得比人工标注的比较数据更好的结果。
表3:不同标注方案的性能(准确率,%):(1)NONE表示不进行标注的方法,选择模型信度最高的伪标签作为正标签;(2)HUMANN-1234表示人工标注人员从四个伪标签中选择最佳标签的标注方案;(3)HUMANN-12345在HUMANN-1234的基础上扩展,允许人工标注人员在四个选项都不合适时撰写额外标签;(4)AIANN-1234与HUMANN-1234类似,但由ChatGPT替代人类标注者;(5)带有*的方法表示使用比较数据集和原始ASQP数据集共同训练打分器的方法。
我们进一步分析了AI标注。表4展示了AI标注数据与人工标注数据之间的一致性。尽管一致性在统计上并不高,但考虑到此任务的主观性,AI标注的质量是可以接受的。此外,AI标注的一个显著优势在于其相对于人工标注的成本效益,使得能够高效获取大量标注数据。图2展示了人类标注数据和AI标注数据相对于其数量的性能趋势。尽管AI标注数据在相同数量时表现较低,但AI标注的可扩展性使其在使用更多数据时能够追上并可能超过人工标注数据的性能。例如,超过2000个AI标注样本可以等同或超越1000个人工标注样本。因此,我们可以得出结论,对于ASQP任务,用AI替代人工来标注比较数据是可行的。
表4:AI标注数据与人工标注数据之间的一致性(%)。P6指的是选择了选项6的样本。我们在移除这些样本之前和之后分别计算一致性。
图2:随着对比数据量增加的性能趋势(准确率,%):(a) ACOS-Laptop上的结果;(b) ACOS-Rest上的结果。
4.2 对自训练的分析
主要结果。在伪标签打分器的基础上,我们设计了一个自训练框架,实验结果如表5所示。可以看到我们的方法显著且持续地提高了现有ASQP方法的性能。具体来说,GAS在四个数据集上的F1-score分别提升了2.94%、4.32%、5.17%和5.96%,平均提升4.60%;MUL在这些数据集上的F1-score分别提升了3.72%、3.39%、2.98%和4.36%,平均提升3.61%。在结合我们的方法后,GAS和MUL都超越了之前的方法。这些结果证明了我们方法的有效性。
此外,我们还有以下观察:(1)两阶段过滤过程,即CS-FILTER,大大提高了自训练的有效性。在大多数数据集中,相较于单独自训练,这种方法提升了超过2%,这突显了数据过滤在自训练框架中的重要性。(2)加入重排序步骤可以进一步提高约1%的性能。(3)在下游自训练中使用AI标注的数据可以达到与使用人工标注数据相当的效果。这进一步表明,用AI替代人工进行比较数据标注是可行的。(4)ChatGPT在ASQP任务中的表现较差,这表明直接用于此任务并未充分利用其能力。相反,用它进行比较数据标注有效地发挥了其优势。(5)值得注意的是,我们的过滤策略在ACOS-Laptop上的提升相对有限。我们认为这是由于其ASQP标注与我们的比较标注之间可能存在不一致性。更详细的讨论参见论文的further analysis部分。
表5:四个ASQP数据集上的实验结果(%)。C-FILTER表示应用基于信度的过滤。CS-FILTER表示结合了基于信度和基于打分器的过滤。
匹配分数的影响。我们的方法依赖于伪标签打分器输出的匹配分数来进行数据过滤。我们进行了实验以检验这些分数对自训练性能的影响。图3表明,随着匹配分数的增加,性能逐步提升。然而,超过某一阈值后,进一步增加匹配分数会导致性能下降。这一现象验证了我们的假设,即分数过低的样本标签质量较差,会对模型学习产生负面影响,而分数过高的样本往往过于简单,对后续模型训练帮助有限。
图3:在不同的匹配分数下,GAS在增强数据集上的性能(F1-score,%)。
数据量的影响。伪标注样本的数量是影响自训练有效性的另一个重要因素。我们进行了实验来分析其影响。正如图4所示,随着数据量的增加,性能总体上呈上升趋势。特别是经过两阶段过滤后,这一趋势更加稳定和明显,强调了数据过滤的必要性。此外,我们注意到,当增强样本数量超过20000时,自训练性能有所下降。这表明仅通过增加数据量来提升性能是有一定限度的。平衡多样性和标签质量以增强自训练的有效性值得在后续研究中进一步探索。
图4:在不同增强样本数量下,GAS的性能(F1-score,%)。