图书前言

前言

在信息爆炸的数字时代,事件作为知识图谱构建与事理认知计算的核心单元,其结构化抽取与关系挖掘技术已成为自然语言处理领域的关键研究方向。本书立足于作者团队在事件抽取方向十余年的研究成果,结合国际前沿进展,首次构建了涵盖“要素抽取—表示学习—关系推理”全链条的事件抽取与事件关系识别框架。

通过多年的事件抽取研究,我们发现事件抽取的应用场景较为广泛,可以针对语句、篇章抽取事件信息,可以抽取指定类型的封闭域事件和任意结构需求的开放事件,可以抽取无触发词的事件,还可以抽取只由实体充当的事件论元信息,以及由实体、复杂文本片段(称为复杂论元)充当的事件论元信息。这些内容聚焦于从文本中抽取与事件相关的要素,我们称之为要素抽取。

众所周知,事件是承载知识的重要载体,抽取的事件信息及获取的事件表示可以应用于许多下游任务,为此我们聚焦于从文本中结合事件的上下文学习事件的高质量表示。同时,根据应用需求,拓宽事件抽取的目标,提出事件主题和主题事件的概念以及相关研究问题。随后锚定主题事件(能够概括/代表事件主题的事件),专门研究主题事件的抽取技术。因此,基于事件要素和其上下文,我们进一步关注学习事件的丰富语义,称之为表示学习研究。

为了实例化事件抽取的意义,我们结合财经院校的特点,聚焦财经领域,探讨该领域蕴含的事件关系,研究相应的事件关系抽取技术。我们将这个研究称为基于事件要素抽取和表示学习的关系推理。

根据上述研究思路,本书内容分为7章。

第1章介绍事件识别及其要素抽取的基础知识、相关任务,并区分不同任务的差异,包括事件本体归纳、事件抽取、话题检测和跟踪;同时阐述事件其他相关任务,包括事件表示学习、事件主题与主题事件抽取、事件关系抽取。

第2章介绍事件及其关系抽取语料库,包括语句级事件抽取语料、篇章级事件抽取语料和事件关系抽取语料。

第3章介绍语句级事件抽取技术,包括现有语句级事件抽取技术、依存关系增强的事件检测技术、基于句法语义依存的中文金融事件抽取技术、基于双向多通道层次图注意力网络的开放事件抽取技术。

第4章阐述面向无触发词的篇章级事件论元抽取技术,包括基于流水线模式的路径扩展事件抽取技术、基于流水线模式的其他事件抽取技术、边增强的篇章级事件联合抽取技术、基于<词语事件>角色结构的篇章级事件联合抽取技术、基于词语词语矩阵生成的篇章级事件联合抽取技术等。

第5章介绍面向复杂论元的篇章级事件论元抽取技术,包括基于跨度的角色分类的事件论元抽取技术、基于角色的跨度预测的事件论元抽取技术、基于文本生成和机器阅读理解的事件论元抽取技术、基于预测迭代双向跨度预测的事件论元抽取技术、基于事件模式实例图的事件论元抽取技术、基于双元自注意力驱动的事件论元抽取技术。

第6章探讨事件表示学习与主题事件抽取技术,包括面向事件元组语义区分的事件表示学习技术、面向事件及其上下文的事件表示学习技术、基于多焦点图神经网络的主题事件抽取技术。

第7章介绍事件关系抽取技术,包括事件时序关系抽取技术、事件因果关系抽取技术、多类型的中文金融事件关系抽取技术。

本书是在本人博士学位论文(被评为江西省优秀博士学位论文)的基础上扩充而成的,收集了国内外事件抽取与事件关系识别领域的前沿研究成果,包含了江西财经大学数据与知识工程团队近期的相关研究成果。我们的研究得到了国家自然科学基金面上项目(62272205、61972184)、江西省自然科学基金面上项目(20242BAB25119)和江西省教育厅科技项目(GJJ2400411)等的资助,在此一并表示衷心感谢。

本人的学位论文和本书都是在我的导师万常选教授的悉心指导下完成的。他严谨的科学态度、精益求精的工作作风、敏锐的科研洞察力以及思考和看待问题的角度和思维方式,深深地影响和激励了我。衷心地感谢我的导师对我的谆谆教诲。

本书适合作为计算机相关专业高年级本科生和研究生的教材,也可作为承担信息抽取相关任务的人员或应用开发人员的参考资料。随着大模型时代的到来,信息抽取技术将与提示工程、思维链等技术深度融合,推动认知智能向事理推理的深水区迈进。由于作者学识所限,同时新技术层出不穷,书中遗漏与疏忽之处在所难免,恳请专家、同仁和广大读者批评指教。

万齐智

2026年4月