背景
研究团队八篇论文获ACL 2024国际会议录用
2024-05-23 15:27 HITSZ-HLT    (浏览量)

图片

近日,第62届国际计算语言学年会(Annual Meeting of the Association for Computational Linguistics,简称 ACL)公布了ACL 2024的论文录用消息。研究团队共八篇论文被 ACL 2024 录用,其中三篇论文被 ACL 主会录用,五篇被Findings of ACL录用。此外,研究团队另有四篇合作论文被录用,分别是两篇主会录用和两篇Findings of ACL录用。

ACL 年会是计算语言学和自然语言处理领域国际排名第一的顶级学术会议,由国际计算语言学协会组织,每年召开一次,在中国计算机学会(CCF)推荐会议列表中被列为 A 类会议。2024年是第62届会议,将于8月11日至8月16日在泰国曼谷举行。


01


题目:Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction

作者:张义策,曾杰#,胡伟明#,王梓屹#,陈诗炜,徐睿峰*

录用类型:Main Conference

简介:方面情感四元组预测(Aspect Sentiment Quad Prediction, ASQP)目的是预测评论中的所有四元组(方面项、方面类别、观点项、情感极性),这是方面级情感分析中最具代表性和挑战性的任务。ASQP任务的一个关键挑战是标记数据的稀缺性,这限制了现有方法的性能。为了解决这个问题,论文提出了一种基于伪标签打分器的自训练框架:(1) 自训练是指在现有的标记数据上训练模型,接下来使用该模型为无标记数据打伪标签,然后将伪标记数据合并到标记数据中;(2) 伪标签打分器旨在评估评论和伪标签之间的匹配程度,用于筛选出伪标记数据中不匹配的样本,从而提高自训练的有效性。论文指出打分器的有效性和可靠性取决于两个关键方面:训练数据和模型架构。为此,构建了一个人工标注的比较数据集;并使用排序的目标,在该数据集上训练了一个生成式架构的打分器。在公开数据集的大量实验表明,使用这一打分器可以显著地、一致地提高自训练的有效性。此外,论文还探索了用大语言模型替代人类进行比较数据集标注,实验证明了该方案的可行性。

代码链接:https://github.com/HITSZ-HLT/ST-w-Scorer-ABSA

图片    


02


题目:PITA: Prompting Task Interaction for Argumentation Mining

作者:孙洋、王木一、鲍建竹、梁斌、赵笑艳、杨才华、杨敏、徐睿峰*

录用类型:Main Conference

简介:论辩挖掘旨在从论辩文本中检测论点及其内在关系。一般而言,论辩挖掘包括三个关键的挑战性子任务,包括论辩部件类型分类、论辩部件关系识别和论辩关系类型分类。先前的方法大多采用序列特征解码范式,但忽视了三个子任务之间的明确和全面的相互关系。为此,本文提出了一种提示任务交互方法PITA,以在生成框架内对三个子任务之间的相互关系进行建模。具体而言,采用动态提示模板来指示三个子任务中的所有论辩部件和论辩部件对。然后,从多关系的角度出发,构建了一个无向异构图来捕获论辩部件和论辩部件对之间以及之内的各种关系。在图上应用了关系图卷积网络,并将任务交互信息注入到连续表示的软提示中。PITA使用带有任务交互信息的提示模板共同解码所有论辩部件和论辩部件对,从而明确和全面地协调了跨三个子任务的信息传播。广泛的实验表明,PITA在两个论辩挖掘数据集上取得了最优表现。

图片    


03


题目:WebCiteS: Attributed Query-Focused Summarization on Chinese Web Search Results with Citations

作者:邓浩霖,汪畅,李鑫,袁德璋,詹俊朗,周天华,Jin Ma,高俊,徐睿峰*

录用类型: Main Conference

简介:检索增强的大语言模型正在成为重要的信息获取渠道。为了保证AI生成内容的可靠性和可验证性,大语言模型需要具备准确的归因能力,即能够主动引用外部的参考信息来佐证自身输出的结论。然而,目前在这一重要领域仍缺乏高质量的人工标注数据以及可靠的自动评估方法。为了解决这些问题,本工作基于真实搜索场景提出了可归因查询驱动摘要任务(Attributed Query-Focused Summarization, AQFS),并从搜狗搜索引擎的真实用户查询和网络搜索结果中收集语料,构建了具有获取高质量摘要和引用标注的中文数据集WebCiteS。除此之外,本工作还提出了一种基于观点分解+细粒度验证的自动评估策略,能够有效地识别模型生成的内容是否被其引用的来源所支持。最后,本文基于WebCiteS数据集,从摘要实用性、上下文一致性和引用质量三个维度评测了包括GPT-4,ChatGLM3在内的大模型,实验结果揭示了当前大模型在准确归因方面上的不足。

Arxiv: https://arxiv.org/abs/2403.01774

Github: https://github.com/HarlynDN/WebCiteS

图片    


04


题目:Multi-modal Stance Detection: New Datasets and Model

作者:梁斌#,李昂#,赵敬乾,桂林,杨敏,余跃,黄锦辉,徐睿峰*

录用类型:Findings

简介:立场检测是一项具有挑战性的任务,旨在从社交媒体平台中识别针对特定目标的公众意见。以往的立场检测研究主要集中在纯文本上。在本文中,我们研究了由文本和图像组成的推文的多模态立场检测,这在当今快速发展的社交媒体平台上尤为普遍,人们经常发布多模态信息。为此,论文基于Twitter创建了五个不同领域的多模态立场检测数据集,每个示例都包含一个文本和一张图像。此外,提出了一种简单但有效的目标多模态提示调优框架(Targeted Multi-modal Prompt Tuning, TMPT),其中利用目标信息从文本和视觉模态中学习多模态立场特征。在五个基准数据集上的实验结果表明,所提出的TMPT在多模态立场检测中达到了最先进的性能。

Arxiv: https://arxiv.org/abs/2402.14298

Github: https://github.com/HITSZ-HLT/Multi-Modal-Stance-Detection

图片    


05


题目:Discourse Structure-Aware Prefix for Generation-Based End-to-End Argumentation Mining

作者:孙洋、陈冠荣、杨才华、鲍建竹、梁斌、杨敏、徐睿峰

录用类型: Findings

简介:端到端论辩挖掘旨在从文本中提取包括论辩部件及其论辩关系的论辩结构。最近在端到端论辩挖掘模型的发展中,通过将论辩挖掘任务重新定义为序列生成任务,展示了其简洁性和有效性,从而取得了显著进展。然而,这些模型忽视了补充话语结构信息的整合,这是理解论辩结构的关键因素,导致结果不尽如人意。论文提出了DENIM框架。该框架为生成模型的每一层生成篇章结构感知前缀。这些前缀赋予了基于生成的论辩挖掘模型篇章结构,从而增强了整体的生成过程。此外,引入了一个多任务提示学习,并结合三步解码策略,旨在优化论辩结构解码的效率和效果。在两个基准数据集上进行的广泛实验和分析表明,DENIM在两个论辩挖掘基准测试上达到了最先进的性能。

图片    


06


题目:Decomposing Argumentative Essay Generation via Dialectical Planning of Complex Reasoning

作者:何宇航,鲍建竹,孙洋,梁斌,杨敏,秦兵,徐睿峰*

录用类型:Findings

简介:议论文生成Argumentative Essay Generation (AEG)在计算论辩领域是一个具有挑战性的任务,其中详细的逻辑推理和有效的修辞技巧是必不可少的。以前的生成方法通常涉及在生成文本之前先规划内容,然而,这些方法中的规划策略忽视了对逻辑推理过程的探索。受Freeman论证理论的启发,论文提出了一种论证规划策略,用于促使大型语言模型(LLM)生成高质量的论文。这个策略包括两个阶段:(1)草图规划,它创建了一个粗略的文章大纲;(2)辩证规划,通过批判性的自我反思来完善大纲,这一步涉及观点、反驳(overriding and undercutting rebuttal)和反-反驳(counter-rebuttal)的相互对抗。这样的规划策略使LLM能够写出更具逻辑性、多样性和说服力的议论文。此外,由于现有AEG数据集的稀缺性,论文构建了三个新的数据集。这些数据集来自两个领域:考试论文和新闻社论,涵盖中文和英文。对四个数据集的自动和手动评估表明,与几个强基线相比,论文方法可以生成更多具有更高多样性的辩证和有说服力的文章。

Github: https://github.com/HITSZ-HLT/AEG_DPE

图片    


07


标题:Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios

作者:黄仕爵,钟宛君,陆剑桥,朱祺,高佳慧,刘卫文,侯宇泰,曾幸山,王雅圣,尚利峰,蒋欣,徐睿峰*,刘群*

录用类型:Findings

简介:现实应用场景中使用大型语言模型(LLM)作为工具代理的最新趋势强调了全面评估这方面能力的必要性,尤其是在涉及规划、工具创造和工具使用的复杂场景中。然而,现有的基准测试通常使用简单的合成查询,不能反映现实世界的复杂性,只能在评估工具使用方面提供有限的见解。为了解决这个问题,论文提出了UltraTool。这是一个全新的基准测试,旨在评估LLM在现实世界场景中的工具使用能力。UltraTool专注于工具使用的整个过程,从任务规划和工具创造,到将工具应用于复杂任务。UltraTool强调现实世界的复杂性,要求准确的多步骤规划以有效解决问题。一个关键特征是对自然语言形式的任务规划进行独立评估,并且任务规划发生在工具使用之前,通过规划中间步骤简化了任务解决过程。因此,与之前的工作不同,UltraTool消除了预定义工具集的限制。通过对各种LLM的广泛实验,我们对LLM在工具使用方面的能力评估提供了新的见解。

Arxiv: https://arxiv.org/pdf/2401.17167

Github: https://github.com/JoeYing1019/UltraTool

图片    


08


题目:Improving In-Context Learning with Prediction Feedback for Sentiment Analysis

作者:许鸿凌,王乾龙,张义策,杨敏,曾曦,秦兵,徐睿峰*

录用类型:Findings

简介:本研究探讨了基于大型语言模型(LLMs)的情感分析问题,并尝试通过引入预测性反馈来改进传统的上下文学习(ICL)范式。虽然在使用ICL范式时,LLMs仅需少量样本便可在各类情感分析任务中取得较好的性能,但其在区分微妙相似情感方面的能力仍然有限。本文受人类在学习过程中通过反馈调整理解的启发,通过整合先验预测和预测性反馈来增强ICL,从而使LLMs更准确地理解情感。具体而言,本文提出的框架分为三个步骤:(1)获取LLMs的先验预测;(2)基于正确性设计预测性反馈;(3)采用反馈驱动的提示技术改善情感理解。在九个情感分析数据集上的实验结果表明,所提出的框架明显优于传统ICL方法,平均F1得分提高了5.95%。

图片    


研究团队合作论文


题目:Enhancing Noise Robustness of Retrieval-Augmented Language Models with Adaptive Adversarial Training

作者:Feiteng Fang, Yuelin Bai, Shiwen Ni, Min Yang, Xiaojun Chen, Ruifeng Xu.

录用类型:Main Conference

题目:Forgetting before Learning: Utilizing Parametric Arithmetic for Knowledge Updating in Large Language Models

作者:Shiwen Ni, Dingwei Chen, Chengming Li, Xiping Hu, Ruifeng Xu, Min Yang

录用类型:Main Conference

题目:NUMCoT: Numerals and Units of Measurement in Chain-of-Thought Reasoning using Large Language Models

作者:Ancheng Xu, Minghuan Tan, Lei Wang, Min Yang, Ruifeng Xu

录用类型:Findings

题目:E-EVAL: A Comprehensive Chinese K-12 Education Evaluation Benchmark for Large Language Models

作者:Jinchang Hou, Chang Ao, Haihong Wu, Xiangtao Kong, Zhigang Zheng, Daijia Tang, Chengming Li, Xiping Hu, Ruifeng Xu, Shiwen Ni, Min Yang

录用类型:Findings


审稿:徐睿峰
校正:王   丹



打印    收藏
关闭窗口

Return Top