本发明涉及领域知识图谱技术领域,尤其涉及一种知识图谱表示学习方法及系统。
背景技术:
在当前知识表示技术中,考虑层级实体类型作为实体的外部信息方面,主要方法是,将实体类型作为投影矩阵。首先将实体(头实体/尾实体)映射到投影矩阵,该投影矩阵为各层级实体类型对应的投影矩阵的组合,再计算三元组的得分函数。
该方法考虑了含层级的实体类型,然而,由于每个实体类型都需要学习一个投影矩阵,导致计算复杂度较高,不能满足大规模知识图谱的时效性要求。
技术实现要素:
有鉴于此,本发明提供一种知识图谱表示学习方法以及系统,计算简单高效,能满足大规模知识图谱的时效性要求。
一方面,本发明提供一种知识图谱表示学习方法,包括:根据知识图谱中的三元组的首实体、尾实体以及关系实体,计算初始评价函数;其中,所述首实体表示为:所述首实体所属实体类型的中心向量与所述首实体所属实体类型指向所述首实体的残差向量之和;所述尾实体表示为:所述尾实体所属实体类型的中心向量与所述尾实体所属实体类型指向所述尾实体的残差向量之和;
根据所述首实体及对应的实体类型、尾实体及对应的实体类型,计算用于表征属于相同实体类型的实体之间关系的第一关系参数,以及计算用于表征属于相关实体类型的实体之间关系的第二关系参数;
将所述初始评价函数减去所述第一关系参数与第二关系参数的和作为最终评价函数,通过最小化所述最终评价函数,学习得到所述三元组的向量表示。
进一步地,所述首实体所属实体类型的中心向量表示为:所述首实体所属实体类型的父实体类型的中心向量与所述首实体所属实体类型的父实体类型指向所述首实体所属实体类型的残差向量之和;
所述尾实体所属实体类型的中心向量表示为:所述尾实体所属实体类型的父实体类型的中心向量与所述尾实体所属实体类型的父实体类型指向所述尾实体所属实体类型的残差向量之和。
进一步地,根据所述首实体及对应的实体类型、尾实体及对应的实体类型,计算用于表征属于相同实体类型的实体之间关系的第一关系参数的步骤通过如下公式实现:
其中,e表示实体,ε表示实体集合,t表示实体类型,
进一步地,根据所述首实体及对应的实体类型、尾实体及对应的实体类型,计算用于表征属于相关实体类型的实体之间关系的第二关系参数的步骤通过如下公式实现:
其中,tf表示父实体类型,tf\{tf}表示除父实体类型外其余实体类型集合,tf\{tf,ti}表示除父实体类型、当前实体类型外其余实体类型集合,minter表示预设的用于表征相关类型实体相似度的参数。
进一步地,其中,minter为实体类型层数l的函数,具体为:
其中,nl为第l层节点的数量。
另一方面,本发明提供一种知识图谱表示学习系统,包括:实体关系提取单元,用于根据知识图谱中的三元组的首实体、尾实体以及关系实体,计算初始评价函数;其中,所述首实体表示为:所述首实体所属实体类型的中心向量与所述首实体所属实体类型指向所述首实体的残差向量之和;所述尾实体表示为:所述尾实体所属实体类型的中心向量与所述尾实体所属实体类型指向所述尾实体的残差向量之和;
实体类型关系提取单元,用于根据所述首实体及对应的实体类型、尾实体及对应的实体类型,计算用于表征属于相同实体类型的实体之间关系的第一关系参数,以及计算用于表征属于相关实体类型的实体之间关系的第二关系参数;
知识图谱学习单元,用于将所述初始评价函数减去所述第一关系参数与第二关系参数的和作为最终评价函数,通过最小化所述最终评价函数,学习得到所述三元组的向量表示。
进一步地,所述首实体所属实体类型的中心向量表示为:所述首实体所属实体类型的父实体类型的中心向量与所述首实体所属实体类型的父实体类型指向所述首实体所属实体类型的残差向量之和;
所述尾实体所属实体类型的中心向量表示为:所述尾实体所属实体类型的父实体类型的中心向量与所述尾实体所属实体类型的父实体类型指向所述尾实体所属实体类型的残差向量之和。
进一步地,所述实体类型关系提取单元,用于根据如下公式得到第一关系参数:
其中,e表示实体,ε表示实体集合,t表示实体类型,
进一步地,所述实体类型关系提取单元,用于根据如下公式得到第二关系参数:
其中,tf表示父实体类型,tf\{tf}表示除父实体类型外其余实体类型集合,tf\{tf,ti}表示除父实体类型、当前实体类型外其余实体类型集合,minter表示预设的用于表征相关类型实体相似度的参数。
进一步地,其中,minter为实体类型层数l的函数,具体为:
其中,nl为第l层节点的数量。
本发明知识图谱表示学习方法及系统,考虑了实体的实体类型的外部信息,通过第一关系参数以及第二关系参数的引入使实体之间更加具有区分能力,并引入残差嵌入,将实体向量表示为中心向量与残差向量之和,使相同类型的实体可以共享中心向量,该方法学习到的实体、实体类型,都可以利用欧氏距离进行计算,计算简单高效,能满足大规模知识图谱的时效性要求。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为根据本发明示例性第一实施例的知识图谱表示学习方法的流程图。
图2为根据本发明示例性第二实施例的知识图谱表示学习方法中的人物知识图谱示意图。
图3为根据本发明示例性第二实施例的知识图谱表示学习方法的学习结果示意图。
图4为根据本发明示例性第三实施例的知识图谱表示学习系统的结构框图。
具体实施方式
下面结合附图对本发明实施例进行详细描述。
需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合;并且,基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
如图1所示,本发明一种知识图谱表示学习方法,包括:
步骤101,根据知识图谱中的三元组的首实体、尾实体以及关系实体,计算初始评价函数;其中,所述首实体表示为:所述首实体所属实体类型的中心向量与所述首实体所属实体类型指向所述首实体的残差向量之和;所述尾实体表示为:所述尾实体所属实体类型的中心向量与所述尾实体所属实体类型指向所述尾实体的残差向量之和。
具体操作时,步骤101可以包括:
首先,从知识图谱中任意抽取一个三元组;
其次,三元组中对应的实体向量与关系向量的表示,作为初始评价函数的输入,该初始评价函数可以表示为:
fr(h,t)=||eh r-et||2
e=t·p1 er
t=tc·p2 tr
其中,p1为实体的类型层级关系矩阵,如果第i个实体属于第j个实体类型,则p1(i,j)=1,否则为0。e表示实体,该实体由中心向量t与残差向量er之和表示,相同类型的实体可以共享中心向量,其中心向量为该实体对应的实体类型向量(当e表示头实体时,利用该公式计算头实体的向量表示;当e表示尾实体时,则计算尾实体的向量表示)。
t表示类型,也由中心向量tc和残差向量tr之和表示,即:所述首实体所属实体类型的中心向量表示为:所述首实体所属实体类型的父实体类型的中心向量与所述首实体所属实体类型的父实体类型指向所述首实体所属实体类型的残差向量之和;所述尾实体所属实体类型的中心向量表示为:所述尾实体所属实体类型的父实体类型的中心向量与所述尾实体所属实体类型的父实体类型指向所述尾实体所属实体类型的残差向量之和。兄弟实体类型可以共享中心向量,其中心向量即为父实体类型。p2为实体类型的关系矩阵,如果第i个实体类型是第j个实体类型的子节点,则p2(i,j)=1,否则为0。
该初始评价函数说明,头实体向量,经过关系向量平移后,使之与尾实体向量尽可能接近。这里采欧式距离度量两者的距离。
步骤102,根据所述首实体及对应的实体类型、尾实体及对应的实体类型,计算用于表征属于相同实体类型的实体之间关系的第一关系参数,以及计算用于表征属于相关实体类型的实体之间关系的第二关系参数;
具体操作时,为了考虑实体对应的类型信息,通过树嵌入方法编码层级实体类型,使实体的表示受到类型的约束,即相同类型的实体之间距离较近,不同类型的实体之间距离较远。第一关系参数具体根据以下公式(1)计算得到。
其中,e表示实体,ε表示实体集合,t表示实体类型,
具体操作时,第二关系参数具体根据以下公式(2)计算得到。
其中,tf表示父实体类型,tf\{tf}表示除父实体类型外其余实体类型集合,tf\{tf,ti}表示除父实体类型、当前实体类型外其余实体类型集合,minter表示预设的用于表征相关类型实体相似度的参数。可以将公式(2)最大化,可以得到树嵌入的两个性质:
1)子实体类型与父实体类型相似度较高(即要求
2)任意兄弟实体类型可以更好的分离(即要求
具体操作时,minter在不同层,设置不同的参数,可以表示为:
其中,nl为第l层节点的数量。
步骤103,将所述初始评价函数减去所述第一关系参数与第二关系参数的和作为最终评价函数,通过最小化所述最终评价函数,学习得到所述三元组的向量表示。
具体操作时,将包含层级实体类型信息的最终评价函数表示为:
lr(h,t)=fr(h,t)-tintra-tinter
通过最小化评价函数,学习实体向量和关系向量的表示。具体的学习方法可以利用现有随机梯度下降方法计算样本的梯度并更新参数。比如学习的损失函数为:
损失函数考虑了负样本的损失函数。其中,δ表示正样本集合,δ'表示负样本集合,(h,r,t)表示正样本三元组,(h',r',t')表示负样本三元组,γ属于超参数,表示负样本与正样本之间的间隔,即负样本的得分较大即可。其中,通过bernoulli分布抽样技术,替换三元组中的头实体或尾实体,构建三元组的负样本。bernoulli分布抽样方法为现有技术,在此不再赘述。
本实施例考虑了实体的含层级实体类型的外部信息,基于树嵌入,建模层级实体类型,使实体之间更加具有区分能力,并引入残差嵌入,将实体向量表示为中心向量与残差向量之和,使相同类型的实体可以共享中心向量,该方法学习到的实体、实体类型,都可以利用欧氏距离进行计算,计算简单高效,具有可扩展性,可用于知识补全(链接预测、三元组分类)等,也可用于实体链接等下游任务。
图2为根据本发明示例性第二实施例的知识图谱表示学习方法中的人物知识图谱示意图。图3为根据本发明示例性第二实施例的知识图谱表示学习方法的学习结果示意图。以下结合图2及图3进行举例说明。以人物知识图谱为例(如图2所示),具体实施步骤如下:
人物知识图谱(图2)具有如下特征:1)层级实体类型表示为树型结构,共3层;2)树的叶子结点为实体,此处仅列举4个实体。以三元组(林丹,夫妻,谢杏芳)的学习为例,其中林丹为头实体,夫妻表示关系,谢杏芳为尾实体。
首先,根据实体与关系的初始向量表示,计算初始评价函数fr(h,t)。即基于残差嵌入,将头实体与尾实体表示为中心向量与残差向量之和。如头实体(e)“林丹”所属的实体类型为“羽毛球运动员”(图3中,该实体的向量为球心指向“林丹”的箭头表示),此时头实体的中心向量(t)为“羽毛球运动员”对应的实体类型向量(图3中,该中心向量为球心指向“羽毛球运动员”的箭头表示),残差向量(er)为“羽毛球运动员”指向“林丹”的向量(图3中,该残差向量为“羽毛球运动员”指向“林丹”的箭头表示)。
实体类型也表示为中心向量与残差向量之和。如实体类型(t)“羽毛球运动员”所属的父实体类型为“体育人物”,此时的中心向量(tc)即为“体育人物”对应的实体类型向量,残差向量(tr)为“体育人物”指向“羽毛球运动员”的向量(图3所示)。中心向量使同类型实体的向量可以共享。如由于头实体“林丹”与尾实体“谢杏芳”都属于“羽毛球运动员”的实体类型,因此两者共享中心向量,从而使头实体与尾实体向量仅在残差向量上学习两者的差异(图3所示)。
其次,采用树嵌入方法学习层级实体类型,计算tintra和tinter。根据公式(1),使相同类型的实体在空间上接近,具体到当前三元组(林丹,夫妻,谢杏芳)的计算时,获取头实体与尾实体的向量及相应的类型向量,仅对当前实体涉及的类型(ti)求和,计算公式(1)。如头实体(eh)“林丹”与尾实体(et)“谢杏芳”都属于“羽毛球运动员”的实体类型,它们对应的向量与“羽毛球运动员”对应的实体类型向量(ti)的相似度应尽可能高于阈值mintra,因此,“羽毛球运动员”类型下的实体将以“羽毛球运动员”类型向量为中心(图3所示)。
根据公式(2),使父子节点的相似度高于兄弟节点,从而保留树中各节点的相对位置,具体到当前三元组(林丹,夫妻,谢杏芳)时,获取头实体与尾实体的类型向量,仅对当前包含的实体类型(ti)求和,计算公式(2)。如“羽毛球运动员”(ti)所属的父实体类型为“体育人物”(tf),两者为父子节点,“篮球运动员”(tj)所属的父实体类型也为“体育人物”,“羽毛球运动员”与“篮球运动员”为兄弟节点。父子节点相比兄弟节点在空间分布上更加接近,从而使父子节点保留语义关系的同时,兄弟节点更有区分能力(图3所示)。
最后,最小化损失函数
如图4所示,本发明一种知识图谱表示学习系统,图1-图3所示方法实施例的解释说明均适用于本实施例,如图4所示,包括:
实体关系提取单元401,用于根据知识图谱中的三元组的首实体、尾实体以及关系实体,计算初始评价函数;其中,所述首实体表示为:所述首实体所属实体类型的中心向量与所述首实体所属实体类型指向所述首实体的残差向量之和;所述尾实体表示为:所述尾实体所属实体类型的中心向量与所述尾实体所属实体类型指向所述尾实体的残差向量之和;
实体类型关系提取单元402,用于根据所述首实体及对应的实体类型、尾实体及对应的实体类型,计算用于表征属于相同实体类型的实体之间关系的第一关系参数,以及计算用于表征属于相关实体类型的实体之间关系的第二关系参数;
知识图谱学习单元403,用于将所述初始评价函数减去所述第一关系参数与第二关系参数的和作为最终评价函数,通过最小化所述最终评价函数,学习得到所述三元组的向量表示。
优选地,所述首实体所属实体类型的中心向量表示为:所述首实体所属实体类型的父实体类型的中心向量与所述首实体所属实体类型的父实体类型指向所述首实体所属实体类型的残差向量之和;所述尾实体所属实体类型的中心向量表示为:所述尾实体所属实体类型的父实体类型的中心向量与所述尾实体所属实体类型的父实体类型指向所述尾实体所属实体类型的残差向量之和。
本实施例考虑了实体的含层级实体类型的外部信息,基于树嵌入,建模层级实体类型,使实体之间更加具有区分能力,并引入残差嵌入,将实体向量表示为中心向量与残差向量之和,使相同类型的实体可以共享中心向量,该方法学习到的实体、实体类型,都可以利用欧氏距离进行计算,计算简单高效,具有可扩展性,可用于知识补全(链接预测、三元组分类)等,也可用于实体链接等下游任务。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
1.一种知识图谱表示学习方法,其特征在于,包括:
根据知识图谱中的三元组的首实体、尾实体以及关系实体,计算初始评价函数;其中,所述首实体表示为:所述首实体所属实体类型的中心向量与所述首实体所属实体类型指向所述首实体的残差向量之和;所述尾实体表示为:所述尾实体所属实体类型的中心向量与所述尾实体所属实体类型指向所述尾实体的残差向量之和;
根据所述首实体及对应的实体类型、尾实体及对应的实体类型,计算用于表征属于相同实体类型的实体之间关系的第一关系参数,以及计算用于表征属于相关实体类型的实体之间关系的第二关系参数;
将所述初始评价函数减去所述第一关系参数与第二关系参数的和作为最终评价函数,通过最小化所述最终评价函数,学习得到所述三元组的向量表示。
2.根据权利要求1所述的知识图谱表示学习方法,其特征在于,所述首实体所属实体类型的中心向量表示为:所述首实体所属实体类型的父实体类型的中心向量与所述首实体所属实体类型的父实体类型指向所述首实体所属实体类型的残差向量之和;
所述尾实体所属实体类型的中心向量表示为:所述尾实体所属实体类型的父实体类型的中心向量与所述尾实体所属实体类型的父实体类型指向所述尾实体所属实体类型的残差向量之和。
3.根据权利要求2所述的知识图谱表示学习方法,其特征在于,根据所述首实体及对应的实体类型、尾实体及对应的实体类型,计算用于表征属于相同实体类型的实体之间关系的第一关系参数的步骤通过如下公式实现:
其中,e表示实体,ε表示实体集合,t表示实体类型,
4.根据权利要求3所述的知识图谱表示学习方法,其特征在于,根据所述首实体及对应的实体类型、尾实体及对应的实体类型,计算用于表征属于相关实体类型的实体之间关系的第二关系参数的步骤通过如下公式实现:
其中,tf表示父实体类型,tf\{tf}表示除父实体类型外其余实体类型集合,tf\{tf,ti}表示除父实体类型、当前实体类型外其余实体类型集合,minter表示预设的用于表征相关类型实体相似度的参数。
5.根据权利要求4所述的知识图谱表示学习方法,其特征在于,其中,minter为实体类型层数l的函数,具体为:
其中,nl为第l层节点的数量。
6.一种知识图谱表示学习系统,其特征在于,包括:
实体关系提取单元,用于根据知识图谱中的三元组的首实体、尾实体以及关系实体,计算初始评价函数;其中,所述首实体表示为:所述首实体所属实体类型的中心向量与所述首实体所属实体类型指向所述首实体的残差向量之和;所述尾实体表示为:所述尾实体所属实体类型的中心向量与所述尾实体所属实体类型指向所述尾实体的残差向量之和;
实体类型关系提取单元,用于根据所述首实体及对应的实体类型、尾实体及对应的实体类型,计算用于表征属于相同实体类型的实体之间关系的第一关系参数,以及计算用于表征属于相关实体类型的实体之间关系的第二关系参数;
知识图谱学习单元,用于将所述初始评价函数减去所述第一关系参数与第二关系参数的和作为最终评价函数,通过最小化所述最终评价函数,学习得到所述三元组的向量表示。
7.根据权利要求6所述的知识图谱表示学习系统,其特征在于,所述首实体所属实体类型的中心向量表示为:所述首实体所属实体类型的父实体类型的中心向量与所述首实体所属实体类型的父实体类型指向所述首实体所属实体类型的残差向量之和;
所述尾实体所属实体类型的中心向量表示为:所述尾实体所属实体类型的父实体类型的中心向量与所述尾实体所属实体类型的父实体类型指向所述尾实体所属实体类型的残差向量之和。
8.根据权利要求7所述的知识图谱表示学习系统,其特征在于,所述实体类型关系提取单元,用于根据如下公式得到第一关系参数:
其中,e表示实体,ε表示实体集合,t表示实体类型,
9.根据权利要求8所述的知识图谱表示学习系统,其特征在于,所述实体类型关系提取单元,用于根据如下公式得到第二关系参数:
其中,tf表示父实体类型,tf\{tf}表示除父实体类型外其余实体类型集合,tf\{tf,ti}表示除父实体类型、当前实体类型外其余实体类型集合,minter表示预设的用于表征相关类型实体相似度的参数。
10.根据权利要求9所述的知识图谱表示学习系统,其特征在于,其中,minter为实体类型层数l的函数,具体为:
其中,nl为第l层节点的数量。
技术总结