背景
研究团队六篇论文被ACL 2025国际会议录用
2025-05-30 10:50 HITSZ-HLT    (浏览量)
图片

20255月,第63届国际计算语言学年会(Annual Meeting of the Association for Computational Linguistics,简称 ACL)公布了ACL 2025的论文录用消息。研究团队共六篇论文被 ACL 2025 录用,其中五篇论文被 ACL 主会录用,一篇被Findings of ACL录用。

ACL 年会是计算语言学和自然语言处理领域国际排名第一的顶级学术会议,由国际计算语言学协会组织,每年召开一次,在中国计算机学会(CCF)推荐会议列表中被列为 A 类会议。2025年是第63届会议,将于2025 7 27 日至8 1 日在奥地利维也纳举行。论文信息如下:

题目:Learning First-Order Logic Rules for Argumentation Mining

作者:Yang Sun, Guanrong Chen, Hamid Alinejad-Rokny, Jianzhu Bao, Yuqi Huang, Bin Liang, Kam-Fai Wong, Min Yang, Ruifeng Xu*

类型:Main Conference

简介:论辩挖掘旨在通过识别论辩部件及其论辩关系,并从文本中提取论辩结构。现有研究专注于表示学习以编码论辩部件及其成对关系,但未能明确建模论辩挖掘的潜在推理模式,导致模型的可解释性受限。本文提出了一种基于一阶逻辑推理框架的论辩挖掘方法(FOL-AM)。该框架旨在显式捕捉论辩文本中的逻辑推理路径。通过将多个论辩挖掘子任务统一为一个基于一阶逻辑规则建模的关系查询任务,FOL-AM实现了多跳关系推理,并显著提升了模型的可解释性。该框架支持两种灵活的实现方式:一种是通过微调实现任务特定的学习,另一种是基于提示的方法,以利用大语言模型的泛化能力。在两个论辩挖掘基准数据集上的大量实验证明,FOL-AM 在性能上优于多个强基线模型,同时在解释性方面也有显著提升。


图片


题目:Error Comparison Optimization for Large Language Models on Aspect-Based Sentiment Analysis

作者:Qianlong Wang, Keyang Ding, Hengxin Gao, Hui Wang, Ruifeng Xu*

类型:Main Conference

简介:监督微调(Supervised fine-tuningSFT)范式提升了大语言模型(Large Language Models, LLM)在各类任务上的性能表现。然而,微调过程通常只比较每个样本的当前预测和标签,忽略了对不同程度错误输出的比较与理解。这会导致模型在推理过程中有可能生成严重错误的输出。尤其在方面级情感分析任务中,严重错误所带来的负面影响远大于轻微错误,这将明显削弱模型的实际应用效果。人类往往通过比较错误来理解不同程度的错误行为,以避免重大错误决策。受此启发,本文提出了一种简单且有效的方法。该方法通过比较错误对学习理解不同程度的错误输出。具体而言,首先利用 SFT 模型采样样本的多个输出,并根据可接受分数选择出轻微错误输出和严重错误输出。接着,结合标签构建了两个对比错误对,并利用校准损失来优化参数。本文在四个ABSA 数据集上进行了全面实验。实验结果表明所提方法全面优于基线模型。

图片

题目:A Multi-persona Framework for Argument Quality Assessment

作者:Bojun Jin, Jianzhu Bao, Yufang Hou, Yang Sun,Yice Zhang, Huajie Wang, Bin Liang, Ruifeng Xu*

类型:Main Conference

简介:论证质量评估(Argument Quality Assessment, AQA)目的是预测论述文本的论辩质量。AQA任务面临的一个固有挑战是其较强的主观性,即不同评估者可能会依据个人观点为同一个论述文本赋予不同的质量评分。尽管现有数据集通常通过收集多位标注者的意见以建模这种主观性,但大多数现有的计算方法仍未能有效考虑多视角的质量评估。为了解决这一问题,论文提出了MPAQ框架。该框架通过大型语言模型模拟多样化的评估者视角。首先根据输入论述文本动态生成定制化的人物角色(persona),然后模拟每个人物角色的评估推理过程,从多个视角评估论辩质量。为了生成有效的细粒度质量评分,设计了一种由粗粒度到细粒度的评分策略:首先生成一个粗粒度的整数评分,然后进一步细化为小数级别的细粒度评分。在IBM-Rank-30kIBM-ArgQ-5.3kArgs数据集上的实验表明,与多个强基线方法相比,MPAQ表现更优,并能够提供全面的多视角的质量分析。

图片

题目:DS2-ABSA: Dual-Stream Data Synthesis with Label Refinement for Few-Shot Aspect-Based Sentiment Analysis

作者:Hongling Xu, Yice Zhang, Qianlong Wang, Ruifeng Xu*

类型:Main Conference

简介:近年来,大语言模型(LLMs)为解决低资源场景下的数据稀缺问题提供了全新视角。在少样本的方面级情感分析(ABSA)任务中,已有研究尝试利用数据增强技术,通过修改已有样本引导LLM生成新数据。但这类方法往往难以生成足够多样化的样本,限制了模型训练效果。另一类方法是则基于上下文学习,通过设计指令并提供少量示例,引导LLM完成ABSA任务。尽管表现出一定潜力,但生成结果常常偏离任务要求。针对上述问题,论文提出DS2-ABSA:一种面向少样本ABSA任务的双流数据合成框架。该方法结合了两种互补的数据生成策略:关键点驱动和实例驱动,充分挖掘LLM的生成能力,以提升合成数据的多样性与质量。同时,设计了标签优化模块,进一步提高合成数据标签的准确性。大量实验证明,DS2-ABSA在多个公开数据集上均显著优于现有的少样本ABSA方法及其他基于LLM的数据增强方案。

图片

题目:CoreEval: Automatically Building Contamination-Resilient Datasets with Real-World Knowledge toward Reliable LLM Evaluation

作者:Jingqian Zhao#, Bingbing Wang#, Geng Tu, Yice Zhang, Qianlong Wang, Bin Liang, Jing Li, Ruifeng Xu*

类型:Main Conference

简介:训练过程中测试数据的有意或无意泄露导致的数据污染,对大语言模型(LLM)评估的公平性构成了重大挑战。现有研究试图通过修改现有数据集或基于新收集信息生成新数据来缓解此问题,但这些方法既未能完全消除模型中的先验知识,也未能保留原始数据的语义复杂性。为突破上述局限,论文提出一种结合现实世界知识的数据自动更新框架CoreEval。该框架首先从原始数据中提取实体关系,借助GDELT数据库检索相关的最新知识,将检索知识进行重构并与原始数据深度融合,通过精细化重组确保语义连贯性并提升任务相关性。此外,采用反思机制,通过迭代式验证与优化标注,保障更新数据与原始数据集间的语义一致性与标注一致性。基于更新数据集的大规模实验验证了CoreEval的鲁棒性,证明其能有效缓解数据污染导致的模型性能高估问题。

图片

题目:COPR: Continual Human Preference Learning via Optimal Policy Regularization

作者:Han Zhang, Lin Gui, Yu Lei, Yuanzhao Zhai,Yehong Zhang, Zhuo Zhang, Yulan He, Hui Wang, Yue Yu, Kam-Fai Wong, Bin Liang, Ruifeng Xu*

类型:Findings

简介:持续对齐大型语言模型与不同场景下的人类偏好是实际应用中的关键挑战。现有方法如强化学习人类反馈和离线偏好优化在持续学习场景中面临局限性:强化学习人类反馈的多阶段流程灵活性不足,而离线偏好优化等方法易导致模型生成多样性下降,甚至引发偏好坍缩(少数偏好被忽视)。为此,论文提出持续最优策略正则化框架,通过理论推导出一种适度奖励函数降低偏好过度优化的问题,结合拉格朗日优化方法实现持续人类偏好学习。实验表明,COPR在斯坦福人类偏好和Anthrophic有用性-有害性等偏好学习基准测试上的综合性能优于基线方法。

图片

COPR方法框架


审稿:徐睿峰
校正:王   丹



打印    收藏
关闭窗口

Return Top