论文速递丨Neurocomputing：基于主题图的长文档问答检索-哈工大深圳人类语言技术研究团队

论文速递丨Neurocomputing：基于主题图的长文档问答检索

2025-12-26 16:59 HITSZ-HLT (浏览量)

论文信息：

Shiwei Chen, Bin Liang, Yue Yu, Kam-Fai Wong, Hui Wang, Ruifeng Xu*. Retrieving on a Topic Graph for Long Document Question Answering. Neurocomputing. 2026. vol 669, 132447

doi: 10.1016/j.neucom.2025.132447

https://www.sciencedirect.com/science/article/pii/S0925231225031194

动机

长文档问答（LDQA）中，LLM直接“整篇喂入”成本高且容易丢失关键信息（Lost-in-the-Middle）。传统RAG虽然能检索，但常把检索预算浪费在近重复片段上，同时把互相关联的证据打散到超长的提示里，导致影响推理连贯性。认知语言学的“工作记忆”理论启发我们：人类阅读更像是维持少量“主题块（Topic Chunks）”，需要时再激活细节，而不是在密集的句子级图里逐边搜索。基于此我们提出Topic Graph Retrieval Augmented Generation (TGRAG)，总体框架如图所示。

TGRAG总体框架

方法

TGRAG的核心是“主题单元 + 稀疏主题图 + 一步扩散激活”的结构化检索，下面的算法总结了其主要步骤。第一步，主题抽取（Topic Extraction）：将文档切成句子级单元，并用LLM为每句分配高层主题标签，同时为query抽取query topic（实现中用 GPT-4o 作为主题标注器，并给出对应提示模板）。第二步，建图（Topic Graph Construction）：把句子作为节点，依据“共享主题 + 语义相似”建立边并剪枝，得到稀疏、query-anchored的 topic graph（近似“粗粒度主题骨架”）。第三步，图引导检索（Activation–Diffusion Retrieval）：将结构扩散信号与语义相似信号线性融合，选 top-K 句子作为候选证据，再用 cross-encoder 精排取 top-L 组成最终上下文，发送给LLM生成答案。