本发明涉及文档文本数据处理,特别涉及一种基于异构图卷积神经网络的文档级关系抽取方法。
背景技术:
1、关系抽取是指从一段文本中抽取出实体与实体之间的语义关系,通常结果以三元组的形式呈现。关系抽取在各种自然语言处理任务中起着至关重要的作用,例如信息抽取、知识图谱构建以及智能问答系统等。先前的方法主要是对单个句子中存在的关系进行提取,也就是句子级关系抽取。然而现实生活我们所面临的信息多以文档形式呈现,例如生物医学文档,金融文档等等,由于实体之间的大量关系往往需要跨越多个句子,且同一实体有多种不同指代提及,因此文档中包含着更为丰富的语义信息。
2、与句子级关系抽取相比较,文档级关系抽取主要面临以下三种挑战:第一,一个文档中通常包含多种实体且主体和客体通常会跨句出现;第二,一个实体可能会在多个句子中被提及,且提及名称会有不同;第三,主体和客体之间的关系需要推理得出。由此可见,要想得到文档级实体间存在的关系类型需要更复杂的推理能力,这其中包括逻辑推理、共指推理以及常识推理,还有一种关系类型则需要模式匹配进而得出。现有方法通常将文档转化为图结构,对文档中的句子、实体以及提及等复杂信息进行建模,然后在面对长文档中的多实体和多关系进行抽取,在抽取过程中,由于难以发现实体、提及、句子之间的隐式信息,缺乏一定的推理能力;长文档中存在大量冗余信息,难以抽取有价值实体和关系;长文档中实体距离较远,难以克服长距离依赖的问题等原因,导致现有技术中存在抽取准确率低的问题。
技术实现思路
1、针对现有技术中存在的抽取准确率低的技术问题,本发明实施例提供了一种基于异构图卷积神经网络的文档级关系抽取方法,包含如下步骤:
2、获取给定文档;
3、对给定文档的文本数据进行数据预处理,获得给定文档的编码特征;
4、基于启发式规则将编码特征转化为图结构;
5、捕获给定文档的实体与给定文档的句子之间的隐式关系;
6、通过分类器获取给定文档的实体之间的语义关系。
7、进一步,使用预训练语言模型对给定文档进行编码,获得编码特征。
8、进一步,预训练语言模型为bert模型。
9、进一步,图结构包含:提及异构图、实体异构图、实体与体积异构图。
10、进一步,图结构包含:句子节点、实体节点与提及节点。
11、进一步,图结构包含:实体-提及边,实体-句子边,提及-提及边,提及-句子边,句子-句子边;
12、实体-提及边是指若句子中的实体包含多个提及,则在实体节点与提及节点之间建立一条无向边;
13、实体-句子边是指若一个句子包含多个实体,则在句子节点与实体节点之间建立一条无向边;
14、提及-提及边是指若一个实体包含多个不同提及,则在不同提及节点之间建立一条无向边;
15、提及-句子边是指若一个句子中包含不同的提及,则在句子节点与提及节点之间建立一条无向边;
16、句子-句子边是指文档中包含许多不同的句子,在不同的句子节点之间建立一条无向边。
17、进一步,通过图卷积神经网络更新图结构的节点的信息与图结构的边的信息。
18、进一步,捕获给定文档的实体与给定文档的句子之间的隐式关系步骤中,包含如下子步骤:
19、基于多头注意力机制捕获和聚合给定文档的语义信息与给定文档的上下文信息;
20、根据给定文档的语义信息与给定文档的上下文信息获取给定文档的实体与给定文档的边的重点信息。
21、进一步,分类器选择前馈神经网路对给定文档的目标关系进行预测。
22、根据本发明实施例的基于异构图卷积神经网络的文档级关系抽取方法,具备如下有益效果:本发明通过构建多异构图来提取实体、提及、句子之间的隐式信息,进而提高了模型在文档级关系抽取中的性能,解决了现有技术中存在的抽取准确率低的缺陷。
23、要理解的是,前面的一般描述和下面的详细描述两者都是示例性的,并且意图在于提供要求保护的技术的进一步说明。
1.一种基于异构图卷积神经网络的文档级关系抽取方法,其特征在于,包含如下步骤:
2.如权利要求1所述基于异构图卷积神经网络的文档级关系抽取方法,其特征在于,使用预训练语言模型对所述给定文档进行编码,获得所述编码特征。
3.如权利要求2所述基于异构图卷积神经网络的文档级关系抽取方法,其特征在于,所述预训练语言模型为bert模型。
4.如权利要求1所述基于异构图卷积神经网络的文档级关系抽取方法,其特征在于,所述图结构包含:提及异构图、实体异构图、实体与体积异构图。
5.如权利要求1所述基于异构图卷积神经网络的文档级关系抽取方法,其特征在于,所述图结构包含:句子节点、实体节点与提及节点。
6.如权利要求1所述基于异构图卷积神经网络的文档级关系抽取方法,其特征在于,所述图结构包含:实体-提及边,实体-句子边,提及-提及边,提及-句子边,句子-句子边;
7.如权利要求1所述基于异构图卷积神经网络的文档级关系抽取方法,其特征在于,通过图卷积神经网络更新所述图结构的节点的信息与所述图结构的边的信息。
8.如权利要求1所述基于异构图卷积神经网络的文档级关系抽取方法,其特征在于,捕获所述给定文档的实体与所述给定文档的句子之间的隐式关系步骤中,包含如下子步骤:
9.如权利要求1所述基于异构图卷积神经网络的文档级关系抽取方法,其特征在于,所述分类器选择前馈神经网路对所述给定文档的目标关系进行预测。
