引用格式:武剑涛,李俊达,李佰文,等. 面向新闻的长文本事件抽取方法[J].网络安全与数据治理,2025,44(5):21-28.
引言
事件抽取是自然语言处理中的一项关键技术,其核心目标是从非结构化文本中识别并提取出特定事件的信息,包括事件类型、参与者、时间、地点等关键要素,并以结构化形式呈现出来。通过新闻事件抽取技术,能够从海量新闻文本中实时提取出关键事件信息,为知识图谱的构建提供高质量的数据支持。同时,基于对这些信息的实时分析,可以快速识别出正在发酵的热点事件,评估其舆论热度及发展趋势,从而为舆情监控和决策支持提供精准、及时的参考依据。
文本事件抽取的研究经历了从规则方法到机器学习,再到深度学习的演进。早期研究主要依赖人工规则和传统机器学习方法,例如,Liao等[1]基于条件随机场事件检测方法,解决了从文本中识别事件触发词的问题,为事件抽取任务奠定了基础。Ji等[2]提出了基于支持向量机的论元角色标注方法,通过分类模型识别事件参与者及其角色,提升了事件结构的完整性。随着深度学习的兴起,Chen等[3]提出了基于动态多池化卷积神经网络的事件抽取方法,解决了传统方法难以捕捉文本中长距离依赖关系的问题。近年来,预训练语言模型(如BERT[4]、GPT[5])的引入进一步推动了该领域的发展,Li等[6]提出的多阶图卷积网络方法通过建模事件内部关系,为解决多事件共存场景下的信息抽取难题提供了新思路,但其端到端处理模式仍受限于新闻文本的跨段落特性。与此同时,机器阅读理解(Machine Reading Comprehension, MRC)技术也被引入事件抽取任务,Du等[7]提出的基于MRC框架的方法将事件抽取转化为问答问题,通过预训练语言模型生成答案,有效提升了泛化能力和长文本处理效果。
然而,新闻文本的特殊性对现有方法提出了独特挑战。王人玉等[8]的研究表明,新闻报道中多个独立事件常以倒金字塔结构分布在相邻段落,导致事件要素的跨段落分散;Li等[9]进一步指出,新闻段落间的叙事非连续性事件要素定位误差和叙事跳跃性使得端到端模型难以有效捕捉局部语义焦点。这些结构性特征与BERT等预训练模型的长度限制共同作用,导致传统篇章级方法[10]在处理多事件新闻时丢失关键事件要素。以DuEEFin[11]数据集中的《安琪酵母股份有限公司关于股东通过大宗交易减持股份的公告》(下文简称为公告)为例,该文本通过“重要提示”“减持情况”和“其他事项”三个独立章节分别承载减持主体“湖北日升”的持股信息(5657 41%)、减持操作(5 417 651股)及合规声明,形成典型的多段落协同叙事结构。这种跨段落分布特征与文本中大量非事件信息交织,易使篇章级抽取模型产生两种典型错误:一是全局语义理解导致的冗余信息干扰,二是事件稀疏性引发的要素漏检。
针对上述问题,基于文本结构的分段处理方法展现出更强的适应性:通过语义分块将长文本解构为局部信息单元,既可规避跨段落要素的干扰,又能通过分段抽取-合并策略解决多事件并行处理难题。该方法与新闻文本的多事件分布特性和复杂叙事结构形成映射关系,在保持事件要素完整性的同时,有效提升了实际业务场景中的信息抽取准确率。
基于以上研究,本文提出一种层级化事件抽取框架(Hierarchical Event Extraction Framework, HEEF),本框架核心包含:(1) 采用语义分割的长文本分块技术,通过上下文感知的段落划分避免事件要素割裂;(2)构建基于机器阅读理解(MRC)的联合抽取模型,通过定制问答对实现事件类型与论元角色的精准解析;(3)设计跨分块事件融合策略,通过时空语义约束实现事件聚合。该框架通过“分块-抽取-融合”的递进式处理,有效应对新闻文本中多事件共存、跨段落分布与语义跳跃性等挑战,为长文本事件抽取提供系统性解决方案。
本文详细内容请下载:
//www.51qz.net/resource/share/2000006543
作者信息:
武剑涛,李俊达,李佰文,淮晓永
(华北计算机系统工程研究所,北京100083)

