本发明涉及计算机技术领域,尤其涉及一种领域知识图谱的构建方法及装置。
背景技术:
知识图谱是存储知识的数据库,知识图谱是由谷歌公司在2012年正式提出的概念,它的主要目的是在面对互联网高速发展,网络数据爆炸增长的时代,增强搜索效率,完善用户体验。知识图谱凭借其卓越的语义处理技术和互联性,为信息智能应用建立了基础,广泛运用于搜索、问答、情报分析等方面,促进信息技术从信息服务向知识服务发展。近几年,各行各业都在研究将知识图谱应用于专业领域,更好的服务特定领域。
但是目前知识图谱的构建需要基于特定领域的原始数据,不是所有领域通用,并需要借助该特定领域的专家知识和行业调研才能实现,会耗费较多的人力物力。
技术实现要素:
本发明提供一种领域知识图谱的构建方法及装置,用以解决现有知识图谱的构建需要基于特定领域的原始数据,不是所有领域通用,并需要助该特定领域的专家知识和行业调研才能实现,会耗费较多的人力物力的问题。
本发明提供一种领域知识图谱的构建方法,包括:
获取目标领域的种子词汇;
利用所述目标领域的种子词汇,进行词汇扩展,直至扩展得到的词汇满足预设条件,获得所述目标领域的相关词汇;
从现有数据库中提取所述相关词汇对应的原始数据;
基于所述原始数据进行知识图谱的构建,生成所述目标领域的知识图谱。
根据本发明提供的一种领域知识图谱的构建方法,所述基于所述原始数据进行知识图谱的构建,生成所述目标领域的知识图谱,包括:
对所述原始数据进行预处理,获得经过预处理后的目标数据;
基于所述经过预处理后的目标数据,执行知识建模操作,获得概念数据、不同概念之间的上下位关系和概念属性数据;
基于所述经过预处理后的目标数据,执行知识获取操作,获得实例数据、实例与概念之间的关系以及实例属性数据;
根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及实例数据、实例与概念之间的关系以及实例属性数据,执行知识融合操作,生成所述目标领域的知识图谱。
根据本发明提供的一种领域知识图谱的构建方法,所述基于所述经过预处理后的目标数据,执行知识建模操作,获得概念数据、不同概念之间的上下位关系和概念属性数据,包括:
基于所述经过预处理后的目标数据,执行概念获取操作,获得概念数据;
基于所述经过预处理后的目标数据,执行概念上下文生成操作,获得不同概念之间的上下位关系;
基于所述经过预处理后的目标数据,执行概念属性获取操作,获得概念属性数据。
根据本发明提供的一种领域知识图谱的构建方法,所述基于所述经过预处理后的目标数据,执行知识获取操作,获得实例数据、实例与概念之间的关系以及实例属性数据,包括:
基于所述经过预处理后的目标数据,执行实例抽取操作,获得实例数据;
基于所述经过预处理后的目标数据,执行实例分类操作,获得实例与概念之间的关系;
基于所述经过预处理后的目标数据,执行实例属性抽取操作,获得实例属性数据。
根据本发明提供的一种领域知识图谱的构建方法,所述根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及实例数据、实例与概念之间的关系以及实例属性数据,执行知识融合操作,生成所述目标领域的知识图谱,包括:
根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及实例数据、实例与概念之间的关系以及实例属性数据,执行概念融合操作,实现概念层数据对齐;
根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及实例数据、实例与概念之间的关系以及实例属性数据,执行实例融合操作,实现实例层数据对齐;
根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及实例数据、实例与概念之间的关系以及实例属性数据,执行关系融合操作,实现概念和概念之间的关系、概念和实例之间的关系以及实例和实例之间的关系的对齐,生成所述目标领域的知识图谱。
根据本发明提供的一种领域知识图谱的构建方法,所述对所述原始数据进行预处理,获得经过预处理后的目标数据,包括:
对所述原始数据进行摘要截取、正文截取和信息框截取,获得经过预处理后的目标数据。
本发明还提供一种领域知识图谱的构建装置,包括:
种子词汇获取模块,用于获取目标领域的种子词汇;
词汇扩展模块,用于利用所述目标领域的种子词汇,进行词汇扩展,直至扩展得到的词汇满足预设条件,获得所述目标领域的相关词汇;
原始数据提取模块,用于从现有数据库中提取所述相关词汇对应的原始数据;
知识图谱构建模块,用于基于所述原始数据进行知识图谱的构建,生成所述目标领域的知识图谱。
根据本发明提供的一种领域知识图谱的构建装置,所述知识图谱构建模块,包括:
预处理子模块,用于对所述原始数据进行预处理,获得经过预处理后的目标数据;
知识建模子模块,用于基于所述经过预处理后的目标数据,执行知识建模操作,获得概念数据、不同概念之间的上下位关系和概念属性数据;
知识获取子模块,用于基于所述经过预处理后的目标数据,执行知识获取操作,获得实例数据、实例与概念之间的关系以及实例属性数据;
知识融合子模块,用于根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及实例数据、实例与概念之间的关系以及实例属性数据,执行知识融合操作,生成所述目标领域的知识图谱。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述领域知识图谱的构建方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述领域知识图谱的构建方法的步骤。
在本发明实施例中,通过利用目标领域的种子词汇进行词汇扩展获得相关词汇,并基于相关词汇获取原始数据,基于原始数据进行知识图谱构建,提供了一套适用于任何领域的知识图谱的构建方法,在知识图谱的构建过程中无需依赖该特定领域的专家知识和行业调研才能实现,可有效提升知识图谱的构建效率,节省人力物力。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的领域知识图谱的构建方法的流程示意图;
图2为本发明实施例提供的基于所述原始数据进行知识图谱的构建,生成所述目标领域的知识图谱的流程示意图;
图3为本发明实施例提供的“圆明园”界面示意图;
图4为本发明实施例提供的预处理摘要截取示意图;
图5为本发明实施例提供的预处理信息框截取结果示意图;
图6为本发明实施例提供的“圆明园”知识获取摘要抽取结果示意图;
图7为本发明实施例提供的“圆明园”知识获取信息框抽取结果示意图;
图8为本发明实施例提供的旅游知识图谱主页展示示意图;
图9为本发明实施例提供的“圆明园”最终界面部分展示示意图;
图10为本发明实施例提供的领域知识图谱的构建装置的结构示意图;
图11为本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图11描述本发明的领域知识图谱的构建方法及装置。
首先对本发明涉及的术语进行解释。
知识图谱:存储知识的一种数据库,里面存储的是一些三元组,如(姚明,出生地,上海)等,每个三元组都表示一个事实。知识图谱也可以看成图的形式,如上述三元组,姚明和上海是节点,出生地是姚明指向上海的一条有向有标签的边。
概念:知识图谱中一类实体,例如水果、梨果等。
实体:知识图谱中具体的某个实物,例如苹果,山楂等。
属性:知识图谱中概念或实体所具有的特征,例如苹果的产地、颜色等。
关系:知识图谱中概念、实体、属性三者自己与自己或者某两者之间的关系,例如实体苹果是水果概念下的其中一个实体、苹果的颜色属性可以是红色、粉色、金黄色等。
图1为本发明实施例提供的领域知识图谱的构建方法的流程示意图,该方法的执行主体可以是终端或服务器,如图1所示,该方法包括:
步骤100、获取目标领域的种子词汇;
针对某一目标领域,为了构建该目标领域的知识图谱,首先获取该目标领域的种子词汇。
可选的,可以通过接收用户输入,响应于该用户输入,获取用户输入中包含的种子词汇。
可选的,也可以在确定了目标领域的情况下,直接获取目标领域的种子词汇。
步骤101、利用所述目标领域的种子词汇,进行词汇扩展,直至扩展得到的词汇满足预设条件,获得所述目标领域的相关词汇;
利用所述目标领域的种子词汇,通过预先实现的词汇扩展功能进行词汇扩展,直至扩展得到的词汇满足预设条件,最终获得所述目标领域的相关词汇。
可选的,扩展得到的词汇满足预设条件可以是扩展得到的词汇的数量满足预设数量,也可以是扩展得到的词汇中不同语种的词汇之间的数量比满足预设比例,或者其他能够用于判断词汇扩展结束的条件。
步骤102、从现有数据库中提取所述相关词汇对应的原始数据;
根据扩展得到的相关词汇从现有数据库中提取相对应的原始数据。
现有数据库是已经存在的数据库。
原始数据是所述相关词汇的来源数据,可选的,原始数据可以是百科页面信息,可以是网页原始数据,或其他原始数据形式。
步骤103、基于所述原始数据进行知识图谱的构建,生成所述目标领域的知识图谱。
知识图谱构建过程包括预处理、知识建模、知识获取、知识融合等步骤。
基于所述原始数据,经过预处理、知识建模、知识获取、知识融合等步骤,最终得到所述目标领域的知识图谱。
在本发明实施例中,通过利用目标领域的种子词汇进行词汇扩展获得相关词汇,并基于相关词汇获取原始数据,基于原始数据进行知识图谱构建,提供了一套适用于任何领域的知识图谱的构建方法,在知识图谱的构建过程中无需依赖该特定领域的专家知识和行业调研才能实现,可有效提升知识图谱的构建效率,节省人力物力。
在上述实施例的基础上,可选的,如图2所示,所述基于所述原始数据进行知识图谱的构建,生成所述目标领域的知识图谱,包括:
步骤200、对所述原始数据进行预处理,获得经过预处理后的目标数据;
其中预处理,指在主要的处理以前对数据进行规范化处理。
可选的,在一个实施例中,所述对所述原始数据进行预处理,获得经过预处理后的目标数据,包括:
对所述原始数据进行摘要截取、正文截取和信息框截取,获得经过预处理后的目标数据。
步骤201、基于所述经过预处理后的目标数据,执行知识建模操作,获得概念数据、不同概念之间的上下位关系和概念属性数据;
知识建模包括概念获取、概念上下位生成、概念属性获取等过程。其中概念获取是从预处理后的数据中抽取得到概念数据,概念上下位生成是从原始数据中通过一定的规则获取得到不同概念之间的上下位关系,概念属性抽取是对概念属性的抽取过程。
可选的,在一个实施例中,所述基于所述经过预处理后的目标数据,执行知识建模操作,获得概念数据、不同概念之间的上下位关系和概念属性数据,包括:
基于所述经过预处理后的目标数据,执行概念获取操作,获得概念数据;
基于所述经过预处理后的目标数据,执行概念上下文生成操作,获得不同概念之间的上下位关系;
基于所述经过预处理后的目标数据,执行概念属性获取操作,获得概念属性数据。
步骤202、基于所述经过预处理后的目标数据,执行知识获取操作,获得实例数据、实例与概念之间的关系以及实例属性数据;
知识获取主要包括实例抽取、实例分类、实例属性抽取等。其中实例抽取是从预处理后的数据中抽取得到实例数据,实例分类是从预处理后的数据中抽取得到实例和概念的关系,实例属性抽取是从预处理后的数据中抽取得到实例的属性数据。
可选的,在一个实施例中,所述基于所述经过预处理后的目标数据,执行知识获取操作,获得实例数据、实例与概念之间的关系以及实例属性数据,包括:
基于所述经过预处理后的目标数据,执行实例抽取操作,获得实例数据;
基于所述经过预处理后的目标数据,执行实例分类操作,获得实例与概念之间的关系;
基于所述经过预处理后的目标数据,执行实例属性抽取操作,获得实例属性数据。
步骤203、根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及实例数据、实例与概念之间的关系以及实例属性数据,执行知识融合操作,生成所述目标领域的知识图谱。
知识融合主要是包括概念融合、实例融合和关系融合,概念融合主要是指概念层数据的融合,实例融合主要是指实例层数据的融合,关系融合指的是概念和概念之间的关系、概念和实例之间的关系以及实例和实例之间的关系的融合。
可选的,在一个实施例中,所述根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及实例数据、实例与概念之间的关系以及实例属性数据,执行知识融合操作,生成所述目标领域的知识图谱,包括:
根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及实例数据、实例与概念之间的关系以及实例属性数据,执行概念融合操作,实现概念层数据对齐;
根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及实例数据、实例与概念之间的关系以及实例属性数据,执行实例融合操作,实现实例层数据对齐;
根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及实例数据、实例与概念之间的关系以及实例属性数据,执行关系融合操作,实现概念和概念之间的关系、概念和实例之间的关系以及实例和实例之间的关系的对齐,生成所述目标领域的知识图谱。
在本发明实施例中,通过某领域少量种子词经过词汇扩展功能实现对某领域词汇的扩展功能,且该过程可以迭代多次,直到满足词汇扩展预设结束条件,根据领域词汇从现有数据库中提取原始数据,并给出来基于原始数据进行知识图谱构建的具体步骤,及经过预处理、知识建模、知识获取、知识融合等步骤实现知识图谱构建,本发明不需要专家知识即可以构建上层概念层数据,通过某领域少量种子词汇即可快速实现该领域的知识图谱构建,可有效提升知识图谱的构建效率。
下面给出一个具体的实施例进一步说明本发明提供的领域知识图谱的构建方法。
构建北京旅游相关的知识图谱。首先,通过输入种子词“北京、旅游、天安门、故宫”等共50个种子词,通过词汇扩展功能实现了旅游领域词汇的扩展功能,得到1043个旅游领域的相关词汇,例如“圆明园、十三陵、香山寺、地质公园、居庸关长城博物馆、延庆博物馆、中国马文化博物馆“等信息,然后根据扩展得到的相关词汇从数据库中提取相对应的百科页面信息。
例如其中的“圆明园”界面如图3所示。
根据获取得到原始库中旅游领域知识图谱相关词汇的原始数据,然后针对这些原始数据进行知识图谱构建工作。首先对原始数据进行预处理操作。将网页原始数据进行预处理包括摘要截取、正文截取、信息框截取等处理。
其中预处理摘要截取如图4所示,预处理信息框截取结果如图5所示。
在预处理的基础上,进行知识建模过程。知识建模包括概念获取、概念上下位生成、概念属性获取等过程。其中概念获取是从预处理后的数据中抽取得到概念数据,概念上下位生成是从原始数据中通过一定的规则获取得到不同概念之间的上下位关系,概念属性抽取是对概念属性抽取过程。存在的概念有“景点”、“老字号”、“文物”等,其中“景点”为“旅游”概念的下层概念,而“景点“概念有“开放时间”、“类别”、“门票价格”等属性。
知识获取主要包括实例抽取、实例分类、实例属性抽取等。其中实例抽取是从预处理后的数据中抽取得到实例数据,实例分类从预处理后的数据中抽取得到实例和概念的关系,实例属性抽取是从预处理后的数据中抽取得到实例的属性数据。
图6为“圆明园”知识获取摘要抽取结果;图7为“圆明园”知识获取信息框抽取结果。
通过以上词汇扩展、预处理、知识建模、知识获取等步骤,我们成功构建了旅游领域知识图谱数据,其中概念有115个,实例有1043个,属性有827个。将所有得到的三元组存入数据库virtuoso中,然后进行页面展示,图8为旅游知识图谱主页展示示意图。图9为“圆明园”最终界面部分展示。
下面对本发明提供的领域知识图谱的构建装置进行描述,下文描述的领域知识图谱的构建装置与上文描述的领域知识图谱的构建方法可相互对应参照。
图10为本发明提供的领域知识图谱的构建装置的结构示意图,包括:种子词汇获取模块1010、词汇扩展模块1020、原始数据提取模块1030和知识图谱构建模块1040,其中,
种子词汇获取模块1010,用于获取目标领域的种子词汇;
词汇扩展模块1020,用于利用所述目标领域的种子词汇,进行词汇扩展,直至扩展得到的词汇满足预设条件,获得所述目标领域的相关词汇;
原始数据提取模块1030,用于从现有数据库中提取所述相关词汇对应的原始数据;
知识图谱构建模块1040,用于基于所述原始数据进行知识图谱的构建,生成所述目标领域的知识图谱。
可选的,所述知识图谱构建模块1040,包括:
预处理子模块,用于对所述原始数据进行预处理,获得经过预处理后的目标数据;
知识建模子模块,用于基于所述经过预处理后的目标数据,执行知识建模操作,获得概念数据、不同概念之间的上下位关系和概念属性数据;
知识获取子模块,用于基于所述经过预处理后的目标数据,执行知识获取操作,获得实例数据、实例与概念之间的关系以及实例属性数据;
知识融合子模块,用于根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及实例数据、实例与概念之间的关系以及实例属性数据,执行知识融合操作,生成所述目标领域的知识图谱。
可选的,所述知识建模子模块具体用于:
基于所述经过预处理后的目标数据,执行概念获取操作,获得概念数据;
基于所述经过预处理后的目标数据,执行概念上下文生成操作,获得不同概念之间的上下位关系;
基于所述经过预处理后的目标数据,执行概念属性获取操作,获得概念属性数据。
可选的,所述知识获取子模块具体用于:
基于所述经过预处理后的目标数据,执行实例抽取操作,获得实例数据;
基于所述经过预处理后的目标数据,执行实例分类操作,获得实例与概念之间的关系;
基于所述经过预处理后的目标数据,执行实例属性抽取操作,获得实例属性数据。
可选的,所述知识融合子模块具体用于:
根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及实例数据、实例与概念之间的关系以及实例属性数据,执行概念融合操作,实现概念层数据对齐;
根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及实例数据、实例与概念之间的关系以及实例属性数据,执行实例融合操作,实现实例层数据对齐;
根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及实例数据、实例与概念之间的关系以及实例属性数据,执行关系融合操作,实现概念和概念之间的关系、概念和实例之间的关系以及实例和实例之间的关系的对齐,生成所述目标领域的知识图谱。
可选的,所述预处理子模块具体用于:
对所述原始数据进行摘要截取、正文截取和信息框截取,获得经过预处理后的目标数据。
本发明提供的领域知识图谱的构建装置能够实现图1至图9的方法实施例实现的各个过程,并达到相同的技术效果,为避免重复,这里不再赘述。
图11示例了一种电子设备的实体结构示意图,如图11所示,该电子设备可以包括:处理器(processor)1110、通信接口(communicationsinterface)1120、存储器(memory)1130和通信总线1140,其中,处理器1110,通信接口1120,存储器1130通过通信总线1140完成相互间的通信。处理器1110可以调用存储器1130中的逻辑指令,以执行领域知识图谱的构建方法,该方法包括:获取目标领域的种子词汇;利用所述目标领域的种子词汇,进行词汇扩展,直至扩展得到的词汇满足预设条件,获得所述目标领域的相关词汇;从现有数据库中提取所述相关词汇对应的原始数据;基于所述原始数据进行知识图谱的构建,生成所述目标领域的知识图谱。
此外,上述的存储器1130中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的领域知识图谱的构建方法,该方法包括:获取目标领域的种子词汇;利用所述目标领域的种子词汇,进行词汇扩展,直至扩展得到的词汇满足预设条件,获得所述目标领域的相关词汇;从现有数据库中提取所述相关词汇对应的原始数据;基于所述原始数据进行知识图谱的构建,生成所述目标领域的知识图谱。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的领域知识图谱的构建方法,该方法包括:获取目标领域的种子词汇;利用所述目标领域的种子词汇,进行词汇扩展,直至扩展得到的词汇满足预设条件,获得所述目标领域的相关词汇;从现有数据库中提取所述相关词汇对应的原始数据;基于所述原始数据进行知识图谱的构建,生成所述目标领域的知识图谱。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
1.一种领域知识图谱的构建方法,其特征在于,包括:
获取目标领域的种子词汇;
利用所述目标领域的种子词汇,进行词汇扩展,直至扩展得到的词汇满足预设条件,获得所述目标领域的相关词汇;
从现有数据库中提取所述相关词汇对应的原始数据;
基于所述原始数据进行知识图谱的构建,生成所述目标领域的知识图谱。
2.根据权利要求1所述的领域知识图谱的构建方法,其特征在于,所述基于所述原始数据进行知识图谱的构建,生成所述目标领域的知识图谱,包括:
对所述原始数据进行预处理,获得经过预处理后的目标数据;
基于所述经过预处理后的目标数据,执行知识建模操作,获得概念数据、不同概念之间的上下位关系和概念属性数据;
基于所述经过预处理后的目标数据,执行知识获取操作,获得实例数据、实例与概念之间的关系以及实例属性数据;
根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及实例数据、实例与概念之间的关系以及实例属性数据,执行知识融合操作,生成所述目标领域的知识图谱。
3.根据权利要求2所述的领域知识图谱的构建方法,其特征在于,所述基于所述经过预处理后的目标数据,执行知识建模操作,获得概念数据、不同概念之间的上下位关系和概念属性数据,包括:
基于所述经过预处理后的目标数据,执行概念获取操作,获得概念数据;
基于所述经过预处理后的目标数据,执行概念上下文生成操作,获得不同概念之间的上下位关系;
基于所述经过预处理后的目标数据,执行概念属性获取操作,获得概念属性数据。
4.根据权利要求2所述的领域知识图谱的构建方法,其特征在于,所述基于所述经过预处理后的目标数据,执行知识获取操作,获得实例数据、实例与概念之间的关系以及实例属性数据,包括:
基于所述经过预处理后的目标数据,执行实例抽取操作,获得实例数据;
基于所述经过预处理后的目标数据,执行实例分类操作,获得实例与概念之间的关系;
基于所述经过预处理后的目标数据,执行实例属性抽取操作,获得实例属性数据。
5.根据权利要求2所述的领域知识图谱的构建方法,其特征在于,所述根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及实例数据、实例与概念之间的关系以及实例属性数据,执行知识融合操作,生成所述目标领域的知识图谱,包括:
根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及实例数据、实例与概念之间的关系以及实例属性数据,执行概念融合操作,实现概念层数据对齐;
根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及实例数据、实例与概念之间的关系以及实例属性数据,执行实例融合操作,实现实例层数据对齐;
根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及实例数据、实例与概念之间的关系以及实例属性数据,执行关系融合操作,实现概念和概念之间的关系、概念和实例之间的关系以及实例和实例之间的关系的对齐,生成所述目标领域的知识图谱。
6.根据权利要求2所述的领域知识图谱的构建方法,其特征在于,所述对所述原始数据进行预处理,获得经过预处理后的目标数据,包括:
对所述原始数据进行摘要截取、正文截取和信息框截取,获得经过预处理后的目标数据。
7.一种领域知识图谱的构建装置,其特征在于,包括:
种子词汇获取模块,用于获取目标领域的种子词汇;
词汇扩展模块,用于利用所述目标领域的种子词汇,进行词汇扩展,直至扩展得到的词汇满足预设条件,获得所述目标领域的相关词汇;
原始数据提取模块,用于从现有数据库中提取所述相关词汇对应的原始数据;
知识图谱构建模块,用于基于所述原始数据进行知识图谱的构建,生成所述目标领域的知识图谱。
8.根据权利要求7所述的领域知识图谱的构建装置,其特征在于,所述知识图谱构建模块,包括:
预处理子模块,用于对所述原始数据进行预处理,获得经过预处理后的目标数据;
知识建模子模块,用于基于所述经过预处理后的目标数据,执行知识建模操作,获得概念数据、不同概念之间的上下位关系和概念属性数据;
知识获取子模块,用于基于所述经过预处理后的目标数据,执行知识获取操作,获得实例数据、实例与概念之间的关系以及实例属性数据;
知识融合子模块,用于根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及实例数据、实例与概念之间的关系以及实例属性数据,执行知识融合操作,生成所述目标领域的知识图谱。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述领域知识图谱的构建方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述领域知识图谱的构建方法的步骤。
技术总结