面向新闻的长文本事件抽取方法-AET-电子技术应用

面向新闻的长文本事件抽取方法

网络安全与数据治理

武剑涛，李俊达，李佰文，淮晓永

华北计算机系统工程研究所

摘要： 事件抽取技术旨在从非结构化文本中识别并结构化描述事件信息，是构建知识图谱与实现舆情分析的核心基础。针对新闻长文本中多事件共存、复杂叙事结构的特点以及现有模型输入长度受限等挑战，提出一种层级化新闻长文本事件抽取框架。该框架通过语义边界分割算法优化段落划分，降低事件要素的跨段落割裂；结合机器阅读理解技术实现局部事件要素提取；并设计事件合并算法完成跨分块事件的语义融合。实际应用表明，该框架能够适应新闻文本的结构特性，在多事件场景中可稳定提取关键信息，为舆情监控、知识图谱构建等任务提供可落地的技术解决方案。

关键词： 事件抽取机器阅读理解语义分块

中图分类号：TP391.13文献标识码：ADOI:10.19358/j.issn.2097-1788.2025.05.004
引用格式：武剑涛，李俊达，李佰文，等. 面向新闻的长文本事件抽取方法［J］.网络安全与数据治理，2025，44（5）：21-28.

A method for event extraction from lengthy news texts

Wu Jiantao，Li Junda，Li Baiwen，Huai Xiaoyong

National Computer System Engineering Research Institute of China

Abstract： Event extraction technology, which aims to identify and structurally represent event information from unstructured text, serves as the foundational infrastructure for constructing knowledge graphs and enabling public opinion analysis. To address the challenges of multi-event coexistence, complex narrative structures in lengthy news texts, and input length constraints of existing models, this paper proposes a hierarchical event extraction framework specifically designed for news narratives. The framework features three key innovations: (1) a semantic boundary segmentation algorithm that optimizes paragraph segmentation to minimize cross-paragraph fragmentation of event elements; (2) integration of machine reading comprehension (MRC) technology for localized event element extraction; (3) a cross-chunk event fusion algorithm is designed to achieve semantic integration of distributed event components. Experimental evaluations demonstrate that the proposed framework effectively adapts to the structural characteristics of news texts, can consistently extract critical information in multi-event scenarios, and deliver practically viable technical solutions for public opinion monitoring and knowledge graph construction.

Key words : event extraction; machine reading comprehension; semantic chunking

引言

事件抽取是自然语言处理中的一项关键技术，其核心目标是从非结构化文本中识别并提取出特定事件的信息，包括事件类型、参与者、时间、地点等关键要素，并以结构化形式呈现出来。通过新闻事件抽取技术，能够从海量新闻文本中实时提取出关键事件信息，为知识图谱的构建提供高质量的数据支持。同时，基于对这些信息的实时分析，可以快速识别出正在发酵的热点事件，评估其舆论热度及发展趋势，从而为舆情监控和决策支持提供精准、及时的参考依据。

文本事件抽取的研究经历了从规则方法到机器学习，再到深度学习的演进。早期研究主要依赖人工规则和传统机器学习方法，例如，Liao等［1］基于条件随机场事件检测方法，解决了从文本中识别事件触发词的问题，为事件抽取任务奠定了基础。Ji等［2］提出了基于支持向量机的论元角色标注方法，通过分类模型识别事件参与者及其角色，提升了事件结构的完整性。随着深度学习的兴起，Chen等［3］提出了基于动态多池化卷积神经网络的事件抽取方法，解决了传统方法难以捕捉文本中长距离依赖关系的问题。近年来，预训练语言模型（如BERT［4］、GPT［5］）的引入进一步推动了该领域的发展，Li等［6］提出的多阶图卷积网络方法通过建模事件内部关系，为解决多事件共存场景下的信息抽取难题提供了新思路，但其端到端处理模式仍受限于新闻文本的跨段落特性。与此同时，机器阅读理解（Machine Reading Comprehension, MRC）技术也被引入事件抽取任务，Du等［7］提出的基于MRC框架的方法将事件抽取转化为问答问题，通过预训练语言模型生成答案，有效提升了泛化能力和长文本处理效果。

然而，新闻文本的特殊性对现有方法提出了独特挑战。王人玉等［8］的研究表明，新闻报道中多个独立事件常以倒金字塔结构分布在相邻段落，导致事件要素的跨段落分散；Li等［9］进一步指出，新闻段落间的叙事非连续性事件要素定位误差和叙事跳跃性使得端到端模型难以有效捕捉局部语义焦点。这些结构性特征与BERT等预训练模型的长度限制共同作用，导致传统篇章级方法［10］在处理多事件新闻时丢失关键事件要素。以DuEEFin［11］数据集中的《安琪酵母股份有限公司关于股东通过大宗交易减持股份的公告》（下文简称为公告）为例，该文本通过“重要提示”“减持情况”和“其他事项”三个独立章节分别承载减持主体“湖北日升”的持股信息（5657 41%）、减持操作（5 417 651股）及合规声明，形成典型的多段落协同叙事结构。这种跨段落分布特征与文本中大量非事件信息交织，易使篇章级抽取模型产生两种典型错误：一是全局语义理解导致的冗余信息干扰，二是事件稀疏性引发的要素漏检。

针对上述问题，基于文本结构的分段处理方法展现出更强的适应性：通过语义分块将长文本解构为局部信息单元，既可规避跨段落要素的干扰，又能通过分段抽取-合并策略解决多事件并行处理难题。该方法与新闻文本的多事件分布特性和复杂叙事结构形成映射关系，在保持事件要素完整性的同时，有效提升了实际业务场景中的信息抽取准确率。

基于以上研究，本文提出一种层级化事件抽取框架（Hierarchical Event Extraction Framework, HEEF），本框架核心包含：(1) 采用语义分割的长文本分块技术，通过上下文感知的段落划分避免事件要素割裂；（2）构建基于机器阅读理解（MRC）的联合抽取模型，通过定制问答对实现事件类型与论元角色的精准解析；（3）设计跨分块事件融合策略，通过时空语义约束实现事件聚合。该框架通过“分块-抽取-融合”的递进式处理，有效应对新闻文本中多事件共存、跨段落分布与语义跳跃性等挑战，为长文本事件抽取提供系统性解决方案。

本文详细内容请下载：

//www.51qz.net/resource/share/2000006543

作者信息：

武剑涛，李俊达，李佰文，淮晓永

（华北计算机系统工程研究所，北京100083）

Magazine.Subscription.jpg

原创声明：此内容为AET网站原创，未经授权禁止转载。

中文字幕高清免费日韩视频在线,乡下女人做爰A片,猫咪av成人永久网站在线观看,亚洲高清有码中文字,国产精久久一区二区三区

相关内容