本发明是关于自然语言处理技术领域,特别是关于一种基于实体共现矩阵的知识图谱关系抽取方法及系统。
背景技术:
关系抽取是自然语言处理中的一个重要工作,特别在当今信息爆炸的背景下,从海量的非结构文本中实现实体抽取以及实体之间的关系抽取,是一种重要的信息降维方法,也是行业知识图谱构建的一个关键技术。
关系抽取和分类任务具体指的是在已知关系集合的实体中对一个实体对进行分类,使用包含实体对的引用的文档。目前通常采用监督关系抽取方法。即将关系抽取任务当做分类问题,根据训练数据设计有效的特征,从而学习各类分类模型,然后使用训练好的分类器预测关系。该监督关系抽取方法的问题在于需要大量的人工标注训练语料,而语料标注工作通常非常耗时耗力,而半监督的学习方法中,对于要抽取的关系,需要首先手工设定若干种子实例,然后迭代地从数据中抽取关系对应的关系模板和更多的实例。因此,目前的关系抽取需要依赖大量的人工,效率比较低。
公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。
技术实现要素:
本发明的目的在于提供一种基于实体共现矩阵的知识图谱关系抽取方法及系统,其能够对知识图谱的实体关系进行自动快速抽取,效率比较高。
为实现上述目的,本发明提供了一种基于实体共现矩阵的知识图谱关系抽取方法,其包括:对片段语料集合中的各个片段语料进行命名实体的识别,得到命名实体列表;对所述命名实体列表中的实体进行两两组合,求取实体共现矩阵,其中,所述实体共现矩阵中的元素值为ni,所述ni表示第i对实体共同出现在n个片段语料中;计算所述实体共现矩阵的分割阈值;对于所述元素值大于所述分割阈值的各个位置点,找到每个位置点所对应的实体对以及所述实体对共同出现的片段语料列表;对每个所述片段语料列表进行关键词提取,获得每个所述片段语料列表的关键词列表;根据每个所述关键词列表与关系字典之间的映射关系来确定每个实体对的关系。
在本发明的一实施方式中,所述对片段语料集合中的各个片段语料进行命名实体的识别包括:采用条件随机场算法或双向长短记忆网络模型算法对各个片段语料进行命名实体识别。
在本发明的一实施方式中,所述计算所述实体共现矩阵的分割阈值包括:采用第一式子计算所述实体共现矩阵的分割阈值t,其中,所述第一式子为t=max(m*α,p),其中,m为命名实体的总数,α为根据人工经验设置的第一预设值,p为根据人工经验设置的第二预设值。
在本发明的一实施方式中,所述根据每个所述关键词列表与关系字典之间的映射关系来确定每个实体对的关系包括:建立每个所述关键词列表中的关键词和关系字典的映射关系表,以关系值为横轴,关键词出现的次数为纵轴,计算关键词在关系字典中的分布直方图,将所述分布直方图中的最大极点对应的横坐标值确定为实体对的关系值。
基于同样的发明构思,本发明还提供了一种基于实体共现矩阵的知识图谱关系抽取系统,其包括:实体识别模块用于对片段语料集合中的各个片段语料进行命名实体的识别,得到命名实体列表;共现矩阵确定模块与所述实体识别模块相耦合,用于对所述命名实体列表中的实体进行两两组合,求取实体共现矩阵,其中,所述实体共现矩阵中的元素值为ni,所述ni表示第i对实体共同出现在n个片段语料中;分割阈值确定模块用于计算所述实体共现矩阵的分割阈值;片段语料列表获取模块与所述分割阈值确定模块以及所述共现矩阵确定模块均相耦合,用于对于所述元素值大于所述分割阈值的各个位置点,找到每个位置点所对应的实体对以及所述实体对共同出现的片段语料列表;关键词提取模块与所述片段语料列表获取模块相耦合,用于对每个所述片段语料列表进行关键词提取,获得每个所述片段语料列表的关键词列表;关系确定模块与所述关键词提取模块相耦合,用于根据每个所述关键词列表与关系字典之间的映射关系来确定每个实体对的关系。
在本发明的一实施方式中,所述实体识别模块用于采用条件随机场算法或双向长短记忆网络模型算法对各个片段语料进行命名实体识别。
在本发明的一实施方式中,所述分割阈值确定模块用于采用第一式子计算所述实体共现矩阵的分割阈值t,其中,所述第一式子为t=max(m*α,p),其中,m为实体的总数,α为根据人工经验设置的第一预设值,p为根据人工经验设置的第二预设值。
在本发明的一实施方式中,所述关系确定模块用于建立每个所述关键词列表中的关键词和关系字典的映射关系表,以关系值为横轴,关键词出现的次数为纵轴,计算关键词在关系字典中的分布直方图,将所述分布直方图中的最大极点对应的横坐标值确定为实体对的关系值。
基于同样的发明构思,本发明还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一实施方式所述的知识图谱关系抽取方法的步骤。
基于同样的发明构思,本发明还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一实施方式所述的知识图谱关系抽取方法的步骤。
与现有技术相比,根据本发明的基于实体共现矩阵的知识图谱关系抽取方法及系统,主要针对某些特定行业领域关系标注语料匮乏以及缺少知识库支撑的情形,解决知识图谱构建过程中的实体之间关系判别的困难,本发明首先基于大规模的文本数据,进行命名实体识别,然后通过聚合的方式实现实体共现知识图谱构建,得到实体对的大量共现片段;然后对共现片段进行分类,并提取片段的核心关键词,最后通过关键词映射的方式实现实体关系判断,使得关系抽取效率得到很大提高,不依赖大量的人工。
附图说明
图1是根据本发明一实施方式的基于实体共现矩阵的知识图谱关系抽取方法的步骤组成;
图2是根据本发明一实施方式的基于实体共现矩阵的知识图谱关系抽取系统的模块组成。
具体实施方式
下面结合附图,对本发明的具体实施方式进行详细描述,但应当理解本发明的保护范围并不受具体实施方式的限制。
除非另有其它明确表示,否则在整个说明书和权利要求书中,术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分,而并未排除其它元件或其它组成部分。
为了提高知识图谱的实体关系抽取效率,本发明提供了一种基于实体共现矩阵的知识图谱关系抽取方法及系统。
图1是根据本发明一实施方式的基于实体共现矩阵的知识图谱关系抽取方法,其包括:步骤s1~步骤s6。
在步骤s1中对片段语料集合中的各个片段语料进行命名实体的识别,得到命名实体列表。
可选地,可以采用条件随机场算法(crf)或双向长短记忆网络模型算法(bilstm)对各个片段语料进行命名实体识别,得到命名实体列表:e(n,m)={en1,en2,…,enm},实体总数记为m。
在步骤s2中对所述命名实体列表中的实体进行两两组合,求取实体共现矩阵,其中,所述实体共现矩阵中的元素值为ni,所述ni表示第i对实体共同出现在n个片段语料中。
在步骤s3中计算所述实体共现矩阵的分割阈值。
可选地,可以采用第一式子计算所述实体共现矩阵的分割阈值t,其中,所述第一式子为t=max(m*α,p),其中,m为命名实体的总数,α为根据人工经验设置的第一预设值,例如可以取10%、12%等,p为根据人工经验设置的第二预设值,例如可以取3、4等。
在步骤s4中对于所述元素值大于所述分割阈值的各个位置点,找到每个位置点所对应的实体对以及所述实体对共同出现的片段语料列表。其中,所述位置点是所述矩阵中的行和列的交叉点。
在步骤s5中对每个所述片段语料列表进行关键词提取,获得每个所述片段语料列表的关键词列表。可选地,可以采用词频-逆文本频率算法(tf/idf)对关键词进行提取。
在步骤s6中根据每个所述关键词列表与关系字典之间的映射关系来确定每个实体对的关系。具体而言,建立每个所述关键词列表中的关键词和关系字典的映射关系表,以关系值为横轴,关键词出现的次数为纵轴,计算关键词在关系字典中的分布直方图,将所述分布直方图中的最大极点对应的横坐标值确定为实体对的关系值。
基于同样的发明构思,如图2所示,一实施方式中还提供了一种基于实体共现矩阵的知识图谱关系抽取系统,其包括:实体识别模块10、共现矩阵确定模块11、分割阈值确定模块12、片段语料列表获取模块13、关键词提取模块14、关系确定模块15。
实体识别模块10用于对片段语料集合中的各个片段语料进行命名实体的识别,得到命名实体列表。可选地,采用条件随机场算法或双向长短记忆网络模型算法对各个片段语料进行命名实体识别。
共现矩阵确定模块11与所述实体识别模块10相耦合,用于对所述命名实体列表中的实体进行两两组合,求取实体共现矩阵,其中,所述实体共现矩阵中的元素值为ni,所述ni表示第i对实体共同出现在n个片段语料中。
分割阈值确定模块12用于计算所述实体共现矩阵的分割阈值。可选地,所述分割阈值确定模块12采用第一式子计算所述实体共现矩阵的分割阈值t,其中,所述第一式子为t=max(m*α,p),其中,m为实体的总数,α为根据人工经验设置的第一预设值,p为根据人工经验设置的第二预设值。
片段语料列表获取模块13与所述分割阈值确定模块12以及所述共现矩阵确定模块11均相耦合,用于对于所述元素值大于所述分割阈值的各个位置点,找到每个位置点所对应的实体对以及所述实体对共同出现的片段语料列表。
关键词提取模块14与所述片段语料列表获取模块13相耦合,用于对每个所述片段语料列表进行关键词提取,获得每个所述片段语料列表的关键词列表。可选地,可以采用词频-逆文本频率算法(tf/idf)对关键词进行提取。
关系确定模块15与所述关键词提取模块14相耦合,用于根据每个所述关键词列表与关系字典之间的映射关系来确定每个实体对的关系。可选地,所述关系确定模块15用于建立每个所述关键词列表中的关键词和关系字典的映射关系表,以关系值为横轴,关键词出现的次数为纵轴,计算关键词在关系字典中的分布直方图,将所述分布直方图中的最大极点对应的横坐标值确定为实体对的关系值。
基于同样的发明构思,一实施方式中还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项所述的知识图谱关系抽取方法的步骤。
基于同样的发明构思,一实施方式中还提供了非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一项所述的知识图谱关系抽取方法的步骤。
综上,根据本实施方式的基于实体共现矩阵的知识图谱关系抽取方法及系统,主要针对某些特定行业领域关系标注语料匮乏以及缺少知识库支撑的情形,解决知识图谱构建过程中的实体之间关系判别的困难,本发明首先基于大规模的文本数据,进行命名实体识别,然后通过聚合的方式实现实体共现知识图谱构建,得到实体对的大量共现片段;然后对共现片段进行分类,并提取片段的核心关键词,最后通过关键词映射的方式实现实体关系判断,使得关系抽取效率得到很大提高,不依赖大量的人工。本发明能够在行业领域关系语料匮乏和缺少专业知识库支撑的条件下,基于非监督的实体共现矩阵的实现实体关系的判别,在自然语言处理和知识图谱构建中有着重要的作用。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。
1.一种基于实体共现矩阵的知识图谱关系抽取方法,其特征在于,包括:
对片段语料集合中的各个片段语料进行命名实体的识别,得到命名实体列表;
对所述命名实体列表中的实体进行两两组合,求取实体共现矩阵,其中,所述实体共现矩阵中的元素值为ni,所述ni表示第i对实体共同出现在n个片段语料中;
计算所述实体共现矩阵的分割阈值;
对于所述元素值大于所述分割阈值的各个位置点,找到每个位置点所对应的实体对以及所述实体对共同出现的片段语料列表;
对每个所述片段语料列表进行关键词提取,获得每个所述片段语料列表的关键词列表;
根据每个所述关键词列表与关系字典之间的映射关系来确定每个实体对的关系。
2.如权利要求1所述的基于实体共现矩阵的知识图谱关系抽取方法,其特征在于,所述对片段语料集合中的各个片段语料进行命名实体的识别包括:
采用条件随机场算法或双向长短记忆网络模型算法对各个片段语料进行命名实体识别。
3.如权利要求1所述的基于实体共现矩阵的知识图谱关系抽取方法,其特征在于,所述计算所述实体共现矩阵的分割阈值包括:
采用第一式子计算所述实体共现矩阵的分割阈值t,其中,所述第一式子为t=max(m*α,p),其中,m为命名实体的总数,α为根据人工经验设置的第一预设值,p为根据人工经验设置的第二预设值。
4.如权利要求1所述的基于实体共现矩阵的知识图谱关系抽取方法,其特征在于,所述根据每个所述关键词列表与关系字典之间的映射关系来确定每个实体对的关系包括:
建立每个所述关键词列表中的关键词和关系字典的映射关系表,以关系值为横轴,关键词出现的次数为纵轴,计算关键词在关系字典中的分布直方图,将所述分布直方图中的最大极点对应的横坐标值确定为实体对的关系值。
5.一种基于实体共现矩阵的知识图谱关系抽取系统,其特征在于,包括:
实体识别模块,用于对片段语料集合中的各个片段语料进行命名实体的识别,得到命名实体列表;
共现矩阵确定模块,与所述实体识别模块相耦合,用于对所述命名实体列表中的实体进行两两组合,求取实体共现矩阵,其中,所述实体共现矩阵中的元素值为ni,所述ni表示第i对实体共同出现在n个片段语料中;
分割阈值确定模块,用于计算所述实体共现矩阵的分割阈值;
片段语料列表获取模块,与所述分割阈值确定模块以及所述共现矩阵确定模块均相耦合,用于对于所述元素值大于所述分割阈值的各个位置点,找到每个位置点所对应的实体对以及所述实体对共同出现的片段语料列表;
关键词提取模块,与所述片段语料列表获取模块相耦合,用于对每个所述片段语料列表进行关键词提取,获得每个所述片段语料列表的关键词列表;
关系确定模块,与所述关键词提取模块相耦合,用于根据每个所述关键词列表与关系字典之间的映射关系来确定每个实体对的关系。
6.如权利要求5所述的基于实体共现矩阵的知识图谱关系抽取系统,其特征在于,所述实体识别模块用于采用条件随机场算法或双向长短记忆网络模型算法对各个片段语料进行命名实体识别。
7.如权利要求5所述的基于实体共现矩阵的知识图谱关系抽取系统,其特征在于,所述分割阈值确定模块用于采用第一式子计算所述实体共现矩阵的分割阈值t,其中,所述第一式子为t=max(m*α,p),其中,m为实体的总数,α为根据人工经验设置的第一预设值,p为根据人工经验设置的第二预设值。
8.如权利要求5所述的基于实体共现矩阵的知识图谱关系抽取系统,其特征在于,所述关系确定模块用于建立每个所述关键词列表中的关键词和关系字典的映射关系表,以关系值为横轴,关键词出现的次数为纵轴,计算关键词在关系字典中的分布直方图,将所述分布直方图中的最大极点对应的横坐标值确定为实体对的关系值。
9.一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一项所述的知识图谱关系抽取方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至4任一项所述的知识图谱关系抽取方法的步骤。
技术总结