本申请涉及自然语言处理领域,具体的说,是一种企业间同名人识别方法、系统、电子设备及存储介质。
背景技术:
随着互联网技术快速发展,人们可以获得的公开数据越来越多,如何快速整理这些非结构化数据,受到越来越多人的关注。其中,大数据技术中,将企业和股东、高管的等信息抽离出来建立起知识图谱,对于市场调查,投资分析,金融监管等领域有十分重要的作用。而在绘制关联图谱时,如果不能判断企业信息的自然人是同一个人,会在一张图谱中出现实际上是同一实体自然人的多个同名自然人实体,影响图谱的推理分析。因此,同名实体对齐对知识图谱的构建中较为重要。如果有身份证数据,那么同名对齐就比较简单,但是身份证信息属于个人隐私,因此很难捕捉到身份证数据。因此迫切需要利用技术方法来对这些公开数据的自然人生成一个“唯一id”,以此区分出各个不同公司的同名人。
现在比较流行采用机器学习的方法,通过输入同名人的特征,然后通过机器学习模型去判定是否是同一个人,然后对于被识别为同一个人的,给出相同的编号作为“唯一id”。
将多个同名自然人实体进行区分,有着重要意义,不但能解决知识图谱迫在眉睫构图问题,在未来有更广泛期待的应用。目前一般采用机器学习的方法来对同名人进行判断,两个人进行二分类,判定是同名人或者同一人,但是这样存在一个问题,即计算量特别大,时间复杂度达到n2,不能很好的满足实际的需求。
比如现有专利申请号为cn201910256769.2,申请日为2019.04.01,名称为《一种基于企业关联关系的工商高管人名消歧方法》的发明专利,其技术方案为:本发明公开了一种基于企业关联关系的工商高管人名消歧方法,涉及实体消歧领域,包括以下步骤:将待消歧数据集u,按高管姓名划分成组n个高管姓名组a;根据步骤s1得到的姓名组划分结果,对每个组a,构建n层以内的高管及企业关联关系网络g;针对每个姓名组a,根据密切度计算规则,计算姓名组a中高管节点之间的关联密切度f;根据关联密切度构建聚类函数cl,使用层次聚类算法得到消歧结果。上述方法采用了多层关系网络,通过关联密切度构建聚类函数进行消岐,属于无监督学习方法,无监督学习方法对于结果无法控制与判断,有可能聚类得到不需要的结果,识别的准确率不高。
技术实现要素:
为了克服现有技术中所存在的上述不足,本申请提供一种属于监督学习方法,能降低判断过程计算量,缩短判断过程计算时间的企业间同名人识别方法、系统、电子设备及存储介质。
为实现上述技术效果,本申请的技术方案如下:
一种企业间同名人识别方法,包括如下步骤:
步骤1,获取用于输入的特征。
步骤2,获得特征标注后的数据,标注后的数据至少包括人名和与该人名对应的特征。
步骤3,将标注后数据整理成准备训练数据集,其中针对不同公司的同一个人,从数据中选择出一个代表,代表的作用是用于其他同名人与其进行比较,而无需其他同名人与同一个人的所有数据进行比较。
训练数据的输入形式为:一个样本
步骤4,准备孪生网络结构,所述孪生网络的子网络中包含循环神经网络。给定一个样本
其中
其中
m为相似苛刻度,用于调节两个向量的相似苛刻程度,m设置的越大表示两个向量的余弦相似度要求越高,m取值范围为(0,1);
步骤5,将训练数据集输入孪生网络中进行训练,得到训练好的模型。
步骤6,使用训练好的模型进行预测,新输入数据只需和同名人的代表进行对比,若相同(相同是指达到同一个人的判断阈值,其中判断阈值可人为进行设定)则加入对应组,结束本轮计算;若都不同,则认为这是新的同名人,将这个新的同名人指定为新增的代表人。
作为一种优选,步骤4中采用的孪生网络的子网络为bi-lstm网络结构。
进一步地,本申请提供一种企业间同名人识别系统,包括数据获取模块、数据存储模块和数据处理模块,所述数据获取模块与数据存储模块信号相连,所述数据存储模块与数据处理模块信号相连;
所述数据获取模块,用于获取同名人的特征、特征标注的数据、训练数据集和孪生网络;
所述数据存储模块,用于存储数据获取模块和数据处理模块输出的数据;
所述数据处理模块,用于将训练数据集输入孪生网络中进行训练,得到训练好的模型,并使用训练好的模型进行预测,新输入数据只需和同名人的代表进行对比,若相同则加入该同名人数据中,若都不同,则认为这是新的同名人。
进一步地,本申请提供一种企业间同名人电子设备,包括处理器和存储器,所述处理与存储器相连,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行本申请方法来完成不同企业间同名人识别。
进一步地,本申请提供一种计算机可读存储介质,包括程序代码,当所述程序代码在电子设备上运行时,所述程序代码用于使所述电子设备执行本申请方法的步骤。
本申请的有益效果为:
1、本发明提供一种企业间同名人识别方法,与现有技术相比,本发明采用孪生网络,根据孪生网络的特征,相当于构造向量在空间里让代表人名向量作为中心,组内人名向量尽量靠近该代表人名,围绕该代表人名附近,不同代表人名之间尽量远离,提高了判断敏感性,保证了识别的准确率,从而克服其他机器学习不能确定代表和链式相似问题的弊端。同时本发明孪生网络的子网络中包含循环神经网络,计算的准确性相比于卷积神经网络更高,适用性更强,除大节点(所述大节点是指同名节点数量大于100个)外,对于一般性同名节点计算同样适用。
2、本发明选用代表对比方式,相对于现有技术中的两两对比,大大降低了计算量,新的同名人识别只需要和前期所选的代表人对比,并不需要和同一组的全部成员对比极大的提高了计算效率。
附图说明
图1为企业间同名人识别方法的流程图。
图2为本图为本发明孪生网络架构图,采用bi-lstm组成孪生网络架构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例1
如图1所示,一种企业间同名人识别方法,包括如下步骤:
步骤1,获取用于输入的特征;所述特征如可以选择但是不限于公司名,公司名中关键词,公司所在行业,公司地址,公司同名人数,公司是否直接关联,两个公司是否兄弟公司,两个公司是否父母公司,两个公司是否祖孙关系,公司是否是其他二度关联关系,公司高管人数,公司所在街道号码,全国企业关联中存在改名字的企业数量,姓名分别在公司所在省份的数量等,特征的主要目的是为了对于同名人进行区分。其中特征是通过实践证明行之有效的特征,通过这些特征能得到较好的结果。
步骤2,获得特征标注后的数据,标注后的数据至少包括人名和与该人名对应的特征。具体而言,可采用人工标注或现有数据获得特征标注后的数据。特征标注是指明确给定特征的同名人,哪些是同一个人,哪些不是同一个人。
步骤3,将标注后数据整理成准备训练数据集,其中针对不同公司的同一个人,从数据中选择出一个代表,代表作用是用于其他同名人与其进行比较,而无需其他同名人与同一个人的所有数据进行比较。训练数据的输入形式为:一个样本
标注特征后的数据如:[张三 a,张三 b,张三 c,张三 d,张三 e]和[张三 α,张三 β,张三 γ,张三 θ]是两个不同的张三,a和α分别代表不同的公司名,b和β、c和γ、d和θ各自表示相同特征类别中的不同内容,其中张三 a和张三 α被选作是各自代表,则[张三 a,张三 b,1],[张三 a,张三 c,1],[张三 α,张三 β,1],[张三 α,张三 γ,1],[张三 a,张三 α,0]。
步骤4,准备孪生网络结构,所述孪生网络的子网络中包含循环神经网络。因为我们设计的孪生网络结构和输入数据的方式,保证了我们选取的代表是有效可靠的。孪生网络(siamesenetwork)中siamese意为暹罗猫,孪生或双子。孪生网络是指这个网络结构中的network_1和network_2这两个网络的结构一般是相同的,并且参数是共享的,即参数是一致的。在监督学习范式下,孪生神经网络会最大化不同标签的表征,并最小化相同标签的表征。并且因为在本发明中孪生网络中的子网络中包含循环神经网络,更大程度上提高了计算的准确性。循环神经网络具有记忆性特别适合处理序列问题,本发明中,将同名人的各个特征可以看成是一个序列,由于循环神经网络的记忆特性,经过循环神经网络的处理转化成的向量更能反映出不同特征数据间的细微差异,相比于卷积神经网络转化的向量更能保证后续计算的精确性;有试验的证明循环神经网络虽然计算速度不如卷积神经网络,但是对于序列问题的计算准确性优于卷积神经网络。
本发明申请中,输入信息
步骤5,将训练数据集输入孪生网络中进行训练,得到训练好的模型。
步骤6,使用训练好的模型进行预测,新输入数据只需和同名人的代表进行对比,若相同(相同是指达到同一个人的判断阈值,其中判断阈值可人为进行设定)则加入对应组,结束本轮计算;若都不同,则认为这是新的同名人,将这个新的同名人指定为新增的代表人。
实施例2
如图1所示,一种企业间同名人识别方法,包括如下步骤:
步骤1,获取用于输入的特征;所述特征如可以选择但是不限于公司名,公司名中关键词,公司所在行业,公司地址,公司同名人数,公司是否直接关联,两个公司是否兄弟公司,两个公司是否父母公司,两个公司是否祖孙关系,公司是否是其他二度关联关系,公司高管人数,公司所在街道号码,全国企业关联中存在改名字的企业数量,姓名分别在公司所在省份的数量等,特征的主要目的是为了对于同名人进行区分。其中特征是通过实践证明行之有效的特征,通过这些特征能得到较好的结果。
步骤2,获得特征标注后的数据,标注后的数据至少包括人名和与该人名对应的特征。具体而言,可采用人工标注或现有数据获得特征标注后的数据。特征标注是指明确给定特征的同名人,哪些是同一个人,哪些不是同一个人。本发明具有普适性,可以仅选取部分同名人进行标注,比如同名人 公司对数量的总体规模达到数亿,可以在其中选取比如5000、或者10000对数据来进行标注,当模型训练完成后,即便未被标注过的同名人也可较好的识别出来。
步骤3,将标注后数据整理成准备训练数据集,其中针对不同公司的同一个人,从数据中选择出一个代表,代表作用是用于其他同名人与其进行比较,而无需其他同名人与同一个人的所有数据进行比较。训练数据的输入形式为:一个样本
示例如下:
标注特征后的数据如:[张三 a,张三 b,张三 c,张三 d,张三 e]和[张三 α,张三 β,张三 γ,张三 θ]是两个不同的张三,a和α分别代表不同的公司名,b和β、c和γ、d和θ各自表示相同特征类别中的不同内容,其中张三 a和张三 α被选作是各自代表,则[张三 a,张三 b,1],[张三 a,张三 c,1],[张三 α,张三 β,1],[张三 α,张三 γ,1],[张三 a,张三 α,0]。
步骤4,准备孪生网络结构。孪生网络可以采用bi-lstm等网络结构,给定一个样本
其中
上述过程是孪生网络来实现,本实施例中的孪生网络结构采用的是bi-lstm结合余弦相似度的方式,loss函数采用的上述表达式,孪生网络可生成向量,向量通过余弦相似度对比,其余未进行进一步阐述的部分可使用本领域现有技术实现。
其中
如图2所示,以bi-lstm组成孪生网络架构图为例,bi-lstm部分为双层的lstm网络,每个小方格表示lstm的每个单元,两层连接方式如图中箭头所示,从下往上看,将同名人特征
步骤5,将训练数据集输入孪生网络中进行训练,得到训练好的模型。
步骤6,使用训练好的模型进行预测,新输入数据只需和同名人的代表进行对比,若相同则加入,若都不同,则认为这是新的同名人。
特别的,在所述步骤6之前,对于未被标注的同名人,可以通过设置的规则由机选出代表人。
具体的,对于需要进行预测的同名人,先判断是否属于标注过的人名,如果是,进入步骤6;如果不是,则由机器根据设置的规则选出代表人后,再进入所述步骤6。
实施例3
在实施例1和实施例2的基础上,本申请提供一种企业间同名人识别系统,包括数据获取模块、数据存储模块和数据处理模块,所述数据获取模块与数据存储模块信号相连,所述数据存储模块与数据处理模块信号相连;
所述数据获取模块,用于获取同名人的特征、特征标注过的数据、训练数据集和孪生网络;
所述数据存储模块,用于存储数据获取模块和数据处理模块输出的数据;
所述数据处理模块,用于将训练数据集输入孪生网络中进行训练,得到训练好的模型,并使用训练好的模型进行预测,新输入数据只需和同名人的代表进行对比,若相同则加入该同名人数据中,若都不同,则认为这是新的同名人。
实施例4
在实施例1-3的基础上,本申请提供一种企业间同名人识别的电子设备,包括处理器和存储器,所述处理与存储器相连,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行本申请方法来完成不同企业间同名人识别。
实施例5
本申请提供一种计算机可读存储介质,包括程序代码,当所述程序代码在电子设备上运行时,所述程序代码用于使所述电子设备执行本申请方法的步骤。
可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块,能够以电子硬件、计算机软件或者二者的结合末实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成模块及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
1.一种企业间同名人识别方法,其特征在于:包括如下步骤:
步骤1,获取用于输入的特征;
步骤2,获得特征标注后的数据,标注后的数据至少包括人名和与该人名对应的特征;
步骤3,将标注后数据整理成准备训练数据集,其中针对不同公司的同一个人,从数据中选择出一个代表,代表的作用是用于其他同名人与其进行比较;
步骤4,准备孪生网络结构,所述孪生网络的子网络中包含循环神经网络;
步骤5,将训练数据集输入孪生网络中进行训练,得到训练好的模型;
步骤6,使用训练好的模型进行预测,新输入数据只需和同名人的代表进行对比,若相同则加入该同名人数据中,若都不同,则认为这是新的同名人。
2.根据权利要求1所述的一种企业间同名人识别方法,其特征在于:步骤2可采用人工标注或第三方数据采购形式获得特征标注后的数据。
3.根据权利要求1所述的一种企业间同名人识别方法,其特征在于:步骤3中训练数据集的输入形式为:一个样本
4.根据权利要求3所述的一种企业间同名人识别方法,其特征在于:在步骤4中给定一个样本
其中
其中
m为相似苛刻度,用于调节两个向量的相似苛刻程度,m设置的越大表示两个向量的余弦相似度要求越高,m取值范围为(0,1);
5.根据权利要求1所述的一种企业间同名人识别方法,其特征在于:步骤4中采用的孪生网络的子网络为bi-lstm网络结构。
6.根据权利要求1所述的一种企业间同名人识别方法,其特征在于:在所述步骤6之前,对于未被标注的同名人,通过设置的规则由机选出代表人。
7.根据权利要求6所述的一种企业间同名人识别方法,其特征在于:对于需要进行预测的同名人,先判断是否属于标注过的人名,如果是,进入步骤6;如果不是,则由机器根据设置的规则选出代表人后,再进入所述步骤6。
8.一种企业间同名人识别系统,其特征在于:包括数据获取模块、数据存储模块和数据处理模块,所述数据获取模块与数据存储模块信号相连,所述数据存储模块与数据处理模块信号相连;
所述数据获取模块,用于获取同名人的特征、特征标注的数据、训练数据集和孪生网络;
所述数据存储模块,用于存储数据获取模块和数据处理模块输出的数据;
所述数据处理模块,用于将训练数据集输入孪生网络中进行训练,得到训练好的模型,并使用训练好的模型进行预测,新输入数据只需和同名人的代表进行对比,若相同则加入该同名人数据中,若都不同,则认为这是新的同名人。
9.一种企业间同名人识别的电子设备,其特征在于:包括处理器和存储器,所述处理器与存储器相连,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行权利要求1-7任一所述方法来完成不同企业间同名人识别。
10.一种计算机可读存储介质,其特征在于:其存储有程序代码,当所述程序代码在电子设备上运行时,所述程序代码用于使所述电子设备执行权利要求1-5任意一项所述方法的步骤。
技术总结