
2024年12月,研究团队4篇论文获人工智能领域顶级学术会议The 39th AAAI Conference on Artificial Intelligence(AAAI 2025)录用。AAAI在中国计算机学会推荐会议列表中被列为A类会议。会议将于2025年2月27日-3月4日在美国宾夕法尼亚州费城召开。论文信息如下:
标题:LANCET: Correcting Large Language Model Behavior via Influence Function
作者:Han Zhang, Zhuo Zhang, Yi zhang, Yuanzhao Zhai, Hanyang Peng, Yu Lei, Yue Yu,Hui Wang, Bin Liang, Lin Gui*, Ruifeng Xu*
简介:近年来,AI对齐技术显著提高了LLMs与静态人类偏好的对齐程度,但人类偏好的动态变化使得部分旧训练数据过时或错误,导致模型偏离当代人类偏好和社会规范。现有解决方法如持续对齐和重新校准需要耗费大量的人力资源。为此,本文提出了LANCET,旨在无需大量人工干预的情况下纠正LLMs的不当行为。LANCET通过两个阶段来解决问题:首先,使用一种新的方法LinFAC高效识别显著影响不当模型输出的训练数据。LinFAC通过线性近似减少计算开销,并利用Transformer子层处理序列数据,提高计算效率和准确性。基于此提出了新的基于影响驱动的Bregman优化(IBO)技术,根据这些影响分布调整模型输出。IBO利用正负影响样本进行成对学习,并采用Bregman散度保持模型性能,从而有效修正LLMs的不当行为,同时最大限度地保留模型的原始实用性。
实验结果显示,LANCET在纠正LLMs的不当行为方面表现出色,不仅显著减少了有害输出,还保持了模型的多样性和质量。特别是在处理未见过的有害提示时,LANCET展现了更强的泛化能力,为LLMs在现实世界中的应用提供了更好的解释性和兼容性。此外,与现有的模型遗忘和人类矫正方法相比,LANCET在多个基准数据集上均取得了显著的优势,证明了其在实际应用中的潜力和有效性。
标题:Empowering Self-Learning of LLMs: Inner Knowledge Explicitation as a Catalyst
作者:Shijue Huang, Wanjun Zhong,Deng Cai, Fanqi Wan, Chengyi Wang, Mingxuan Wang, Mu Qiao, Ruifeng Xu*
简介:大语言模型(LLMs)的自学习通过在自我合成的经验上进行训练,促使它们向超智能体发展。然而,一个关键挑战是在迭代自学习的过程中,合成数据中可能存在幻觉放大现象,这突显了选择可靠数据的必要性。为了解决这个问题,本文研究了内部知识显式化机制。该机制从LLMs的记忆中显式提取内在知识,以提高模型的推理能力,并实现可靠的自学习数据选择。本文介绍了一种自我知识显式化学习(SKE-Learn)框架,为LLMs配备了一系列元能力,以显式提取、验证和利用内部知识进行推理。通过这些元能力,SKE-Learn建立了一种确保自我合成数据可靠选择的自学习方法,该方法通过迭代自我学习提升模型性能,同时减轻幻觉问题。在六个基准数据集的实验结果表明,内部知识显式化作为一种更有效的提示方法提升了模型的推理能力。此外,基于显式知识的可验证性,SKE-Learn在多次自我迭代训练中展现了持续的性能提升,在所有基准上的平均性能从52.79%提高到56.54%。此外,内部知识显式化在LLMs的生成过程中还提供了更多的解释和干预空间。
题目:A New Formula for Sticker Retrieval: Reply with Stickers in Multi-Modal and Multi-Session Conversation
作者:Bingbing Wang, Yiming Du, Bin Liang, Zhixin Bai, Min Yang, Baojun Wang, Kam-Fai Wong, Ruifeng Xu*
简介:广泛应用于在线聊天中的表情包可以生动地表达用户的意图、情感或态度,然而现有研究通常基于单一会话或仅仅根据对话上文的文本信息来检索表情包,难以适应现实对话场景多模态和多会话的特性。因此,本文提出了一个面向多模态和多会话对话的表情包检索数据集Multi-Chat,包含1,542个会话、50,192条语句和2,182个表情包。基于该数据集,本文提出了一种意图引导的表情包检索框架IGSR,通过意图学习来支持多模态和多会话对话中的表情包检索。具体而言,IGSR引入表情包属性以更好地利用多模态对话中的表情包信息,将其与语句结合构建一个记忆库。随后,从记忆库中提取与当前对话相关的记忆以识别对话意图,并以此为指导检索合适的表情包进行响应。基于创建的数据集的大量实验表明,本文所提出的IGSR框架在表情包检索任务中达到了当前最先进的性能。
标题:BeyondGender: A Multifaceted Bilingual Large-Scale Dataset for Practical Sexism Detection
作者:Xuan Luo, Yang Li, Han Zhang, Geng Tu, Qianlong Wang, Keyang Ding, Chuang Fan, Jing Li, Ruifeng Xu*
简介:性别歧视影响着男性和女性,但研究往往忽视了厌男症,并且受限于过于宽泛的注释规则,从而限制了人工智能的应用。为了解决这一问题,我们收集了BeyondGender数据集,根据对厌女症和厌男症的最新定义对该数据集进行了细致注释。它具有新颖的多面向标签,涵盖了性别歧视、性别、措辞、厌女症和厌男症五个方面。该数据集包括6.0K英语和1.7K中文的性别歧视实例,以及13.4K个非性别歧视的数据。我们对掩码语言模型和大型语言模型的评估表明,它们在检测英语中的厌女症和中文中的厌男症方面更为有效,F1分别为0.87和0.62。然而,它们经常将敌意和温和的评论误分类,这凸显了性别歧视检测的复杂性。平行语料库实验表明,数据增强策略可以提高人工智能系统对细微性别歧视的检测能力。此外,我们的数据集还可以用来改善大型语言模型的价值对齐。
|