本公开涉及医学数据处理技术领域,具体而言,涉及一种实体的排序方法、实体的排序装置、计算机可读介质及电子设备。
背景技术:
医学知识图谱技术是能够使得计算机算法系统理解医学知识的关键技术。示例性的,计算机算法系统就可以基于医学知识图谱技术实现辅助诊疗、病历质控、智能导诊、自动化核保等多种医学任务。
医学知识中,一种疾病实体可能有多种症状实体,一种疾病实体可能也可能对应多种药物实体。因此,应在构建医学知识图谱中的实体进行排序(ranking),通过排序得分确定实体之间的关联关系。进而,基于实体之间的关联关系构建的医学知识图谱才能够直接应用于临床决策支持系统(clinicaldecisionsupportsystem,cdss)中的症状推荐、检查拓建以及用药推荐等。
相关技术中,一般采用实体的共现频次(co-occurrencenumber)或者频率(probability)来实现实体排序。或者,还可以采用词频-逆文本频率指数(termfrequency-inversedocumentfrequency,简称:tf-idf)来实现实体排序。
然而,相关技术提供的实体排序的准确度较低,导致医学知识图谱对医学知识的表述准确度下降。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现要素:
本公开实施例的目的在于提供一种实体的排序方法、实体的排序装置、计算机可读介质及电子设备,进而至少在一定程度上提升实体排序的准确度,有利于提升医学知识图谱对医学知识的表述准确度。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开实施例的第一方面,提供了一种实体的排序方法,包括:
根据m份医学数据确定关于n种主语实体的三元组,其中,每个上述三元组包含一个主语实体以及与上述主语实体具有属性关系的一个宾语实体;
统计目标三元组中的目标宾语实体与上述目标三元组中目标主语实体之间的条件概率,作为第一属性;
统计上述目标宾语实体与上述n种主语实体之间的条件概率,作为中间属性;
根据上述第一属性与上述中间属性确定关于上述目标三元组的实体排序得分,其中,m为正整数,n为大于1的整数。
在本公开的一种实施例中,基于前述方案,统计目标三元组中的目标宾语实体与上述目标三元组中目标主语实体之间的条件概率,作为第一属性,包括:
统计上述目标宾语实体与上述目标主语实体出现在同一份医学数据中的次数,作为第一次数;
统计上述目标主语实体在上述m份医学数据中出现的次数,作为第二次数;
计算上述第一次数与上述第二次数的比值作为上述第一属性。
在本公开的一种实施例中,基于前述方案,统计上述目标宾语实体与上述n种主语实体之间的条件概率,作为中间属性,包括:
统计上述目标宾语实体与上述n种主语实体中的任意一种出现在同一份医学数据中的次数,作为第三次数;
统计上述n种主语实体中的任意一种在上述m份医学数据中出现的次数,得到n个第四次数;
计算上述第三次数之和与上述第四次数之和的比值作为上述中间属性。
在本公开的一种实施例中,基于前述方案,根据上述第一属性与上述中间属性确定关于上述目标三元组的实体排序得分,包括:
计算上述第一属性与上述中间属性的比值,作为关于上述目标三元组特异性的第二属性;
计算上述第一属性与上述第二属性的乘积作为上述目标三元组的实体排序得分。
在本公开的一种实施例中,基于前述方案,在根据m份医学数据确定关于n种主语实体的三元组之后,上述方法还包括:
根据上述第一次数与预设次数阈值,计算关于上述目标三元组可信度的第三属性;
上述计算上述第一属性与上述第二属性的乘积作为上述目标三元组的实体排序得分,包括:
计算上述第一属性、上述第二属性以及上述第三属性的乘积作为上述目标三元组的实体排序得分。
在本公开的一种实施例中,基于前述方案,根据上述第一属性与上述中间属性确定关于上述目标三元组的实体排序得分,包括:
获取上述三元组对应的疾病检验结果为异常的修正系数;
根据上述修正系数、上述第一属性以及上述中间属性计算关于上述目标三元组的实体排序得分。
在本公开的一种实施例中,基于前述方案,获取上述三元组对应的疾病检验结果为异常的修正系数,包括:
统计上述目标宾语实体与上述目标主语实体同时出现,且上述目标宾语实体对应的检验结果为非正常值的医学数据的次数,作为第五次数;
计算上述第五次数与上述第一次数的比值作为第一比值;
统计上述目标宾语实体,与除上述目标主语实体之外的n-1种主语实体中的任意一种同时出现在医学数据中的次数,作为第六次数;
统计上述目标宾语实体,与除上述目标主语实体之外的n-1种主语实体中的任意一种同时出现,且上述目标宾语实体对应的检验结果为非正常值的医学数据的次数,作为第七次数;
计算上述第七次数之和与上述第六次数之和的比值作为上述第二比值;
将上述第一比值和上述第二比值之间的比值作为上述修正系数。
根据本公开实施例的第二方面,提供了一种实体的排序装置,包括:
三元组确定模块,用于:根据m份医学数据确定关于n种主语实体的三元组,其中,每个所述三元组包含一个主语实体以及与所述主语实体具有属性关系的一个宾语实体;
第一统计模块,用于:统计目标三元组中的目标宾语实体与所述目标三元组中目标主语实体之间的条件概率,作为第一属性;
第二统计模块,用于:统计所述目标宾语实体与所述n种主语实体之间的条件概率,作为中间属性;
排序得分计算模块,用于:根据所述第一属性与所述中间属性确定关于所述目标三元组的实体排序得分,其中,m为正整数,n为大于1的整数。
根据本公开实施例的第三方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述实施例第一方面中所述的实体的排序方法。
根据本公开实施例的第四方面,提供一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例第一方面所述的实体的排序方法。
本公开实施例提供的技术方案可以包括以下有益效果:
在本公开的一些实施例中,首先,根据医学数据确定关于多种主语实体的三元组之后,计算目标三元组中的目标宾语实体与该目标三元组中目标主语实体之间的条件概率。得到在主语实体出现的情况下,出现目标宾语实体的概率。例如,糖尿病(主语实体)病人中有80%存在多饮(宾语实体)。还计算该目标宾语实体与所述n种主语实体之间的条件概率。得到在所有主语实体出现的情况下,出现目标宾语实体的概率。例如,肺气肿(主语实体)病人中有2%存在多饮(宾语实体)。然后,基于上述两方面概率值来确定关于该目标三元组的实体排序得分。
本技术方案中确定实体排序的过程中,不仅考虑了目标宾语实体与目标主语实体之间的概率关系,还考虑到了该目标宾语实体与所有主语实体之间的概率关系。从而能够提升实体排序的准确度,进一步地,有利于提升医学知识图谱对医学知识的表述准确度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出本公开示例性实施例中用于实现实体的排序方法的系统架构示意图;
图2示出了根据本公开的一实施例的实体的排序方法的流程示意图;
图3示出了根据本公开的一实施例的第一属性的确定方法的流程示意图;
图4示出了根据本公开的一实施例的中间属性的确定方法的流程示意图;
图5示出了根据本公开的实施例的目标三元组的实体排序得分的确定方法的流程示意图;
图6示出了根据本公开的一实施例的修正系数的确定方法的流程示意图;
图7示出了根据本公开的实施例的实体的排序装置的结构示意图;
图8示出本公开示例性实施例中计算机存储介质的结构示意图;以及,
图9示出本公开示例性实施例中电子设备的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本示例实施方式中首先提供了一种用于实现实体的排序方法的系统架构,可以应用于各种数据处理场景。参考图1所示,该系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送请求指令等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如图片处理应用、购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如根据m份医学数据确定关于n种主语实体的三元组,以及统计目标三元组中的目标宾语实体与所述目标三元组中目标主语实体之间的条件概率,作为第一属性(仅为示例)。后台管理服务器可以统计所述目标宾语实体与所述n种主语实体之间的条件概率,作为中间属性(仅为示例)。后台管理服务器还可以根据所述第一属性与所述中间属性确定关于所述目标三元组的实体排序得分。
针对相关技术中所存在的实体排序的准确度较低的问题,本技术方案提供了一种实体的排序方法及装置,计算机存储介质和电子设备。以下先对实体的排序方法进行说明:
图2示出了根据本公开的一实施例的实体的排序方法的流程示意图。本实施例提供的实体的排序方法,至少在一定程度上克服现有技术中存在的上述问题。
其中,本实施例提供的实体的排序方法的执行主体可以是具有计算处理功能的设备,比如服务器等。参考图2,本实施例提供的实体的排序方法包括:
步骤s210,根据m份医学数据确定关于n种主语实体的三元组,其中,每个所述三元组包含一个主语实体以及与所述主语实体具有属性关系的一个宾语实体;
步骤s220,统计目标三元组中的目标宾语实体与所述目标三元组中目标主语实体之间的条件概率,作为第一属性;
步骤s230,统计所述目标宾语实体与所述n种主语实体之间的条件概率,作为中间属性;以及,
步骤s240,根据所述第一属性与所述中间属性确定关于所述目标三元组的实体排序得分,其中,m为正整数,n为大于1的整数。
在图2所示实施例提供的技术方案中,本技术方案中确定实体排序的过程中,不仅考虑了目标宾语实体与目标主语实体之间的概率关系,还考虑到了该目标宾语实体与所有主语实体之间的概率关系。从而,实体排序的准确度,有利于提升医学知识图谱对医学知识的表述准确度。
以下对图2中所示技术方案的各个步骤的实现细节进行详细阐述:
在示例性的实施例中,上述医学数据可以来源于医学经验知识。示例性的,在临床诊疗工作中积累经验观察等获得的真实世界临床数据,例如:病历。上述医学数据还可以来源于医学文献知识,通过学习教科书、临床指南、专著与论文等。
在示例性的实施例中,医学知识图谱一般是基于“主谓宾(subjectpredicateobject,分别可以简写为“spo”)”形式的三元组构建而成的,如:<s:2型糖尿病p:症状o:多饮>。其中,该三元组中主语s为“2型糖尿病”,谓语p为“症状”,宾语o为“多饮”。从而可以基于多个“主谓宾”形式的三元组构建医学知识图谱。
本实施例中,三元组中的主语实体为关于疾病名称实体,根据宾语实体与上述疾病名称实体之间的属性关系的不同,上述三元组中的宾语实体可以包含关于上述疾病的症状、手术、用药等多方面的特征。例如,上述三元组中,主语实体为“2型糖尿病”,宾语实体还可以为关于上述疾病2型糖尿病的另一种症状的实体,例如为“多尿”、“消瘦”等。
在示例性的实施例中,m份医学数据涉及多种主语实体,也就是说,涉及多种疾病名实体。示例性的,n种主语实体包括:2型糖尿病、胃癌、肺气肿、冠心病,以及帕金森综合征等。
在示例性的实施例中,在步骤s210中根据m份医学数据确定关于n种主语实体的三元组具体实施方式可以是:将关于疾病a的疾病名作为主语实体,然后根据与上述主语称实体之间的多种属性关系,来确定不同属性关系下的宾语实体。从而,根据主语实体、属性关系和宾语实体确定表示疾病a的三元组。
在示例性的实施例中,继续参考图2,在确定关于n种主语实体的三元组之后,在步骤s220中,统计目标三元组中的目标宾语实体与所述目标三元组中目标主语实体之间的条件概率,作为第一属性。本实施例中,上述目标三元组可以是步骤s210中确定的任意一个三元组。示例性的,可以以<s:2型糖尿病p:症状o:多饮>为上述目标三元组进行说明。
示例性的,图3示出了根据本公开的一实施例的第一属性的确定方法的流程示意图,可以作为步骤s220的一种具体实施方式。参考图3,该实施例提供的方法包括步骤s310-步骤s330。
在步骤s310中,统计所述目标宾语实体与所述目标主语实体出现在同一份医学数据中的次数,作为第一次数。
在示例性的实施例中,例如,目标主语实体“2型糖尿病”和目标宾语实体“多饮”出现在同一份电子病历中。或者,在出现目标主语实体“2型糖尿病”之后的预设字数内,出现了目标宾语实体“多饮”。
在示例性的实施例中,将目标主语实体记作si,将目标宾语实体记作oij。其中,i的取值与主语实体的种类相关,1≤i≤n。本实施例中,i与疾病种类相关,例如,i=1表示主语实体为2型糖尿病,i=2表示主语实体为肺气肿等。j的取值与宾语实体的种类相关,例如,在i=1表示主语实体为2型糖尿病的情况下,o11(其中,j=1)可以为表示2型糖尿病的病症的宾语实体:“多饮”,o12(其中,j=2)可以为表示2型糖尿病的病症的宾语实体:“消瘦”。
示例性的,目标宾语实体与所述目标主语实体出现在同一份医学数据中的次数记作nco(si,oij)。
在步骤s320中,统计所述目标主语实体在所述m份医学数据中出现的次数,作为第二次数。
在示例性的实施例中,统计目标主语实体“2型糖尿病”总共出现的次数,示例性的,可以记作no(si)。
在步骤s330中,计算所述第一次数与所述第二次数的比值作为所述第一属性。
仍以上述实施例为例进行说明,上述第一属性可以根据以下公式一确定。
在图3所示实施例提供的技术方案中,关于目标三元组<s:2型糖尿病p:症状o:多饮>,可以统计2型糖尿病病人中有多大概率存在多饮症状(目标宾语实体)。例如,步骤s310中统计出目标宾语实体与所述目标主语实体出现在同一份医学数据中的次数记作nco(si,oij)为8000,在步骤s320中统计出目标主语实体在所述m份医学数据中出现的次数no(si)为10000,则可以说明2型糖尿病病人中有80%的概率存在多饮症状。
继续参考图2,在步骤s230中,统计所述目标宾语实体与所述n种主语实体之间的条件概率,作为中间属性。需要说明的是,步骤s220和步骤s230的执行顺序不分先后,可以先执行步骤s220再执行步骤s230,也可以先执行步骤s230再执行步骤s220,还可以步骤s220和步骤s230同时执行。
示例性的,图4示出了根据本公开的一实施例的中间属性的确定方法的流程示意图,可以作为步骤s230的一种具体实施方式。参考图4,该实施例提供的方法包括步骤s410-步骤s430。
本实施例中,仍以<s:2型糖尿病p:症状o:多饮>为上述目标三元组进行说明。其中,目标主语实体为“2型糖尿病”,目标宾语实体为“多饮”。
在步骤s410中,统计所述目标宾语实体与所述n种主语实体中的任意一种出现在同一份医学数据中的次数,作为第三次数。
在示例性的实施例中,上述n种主语实体中除了包含上述目标主语实体“2型糖尿病”之外,还可以包含胃癌、肺气肿、冠心病,以及帕金森综合征等。
在示例性的实施例中,分别统计上述目标宾语实体“多饮”与n种主语实体中的任意一种出现在同一份医学数据中的次数。例如,统计“多饮”与主语实体“胃癌”出现在同一份医学数据中的第三次数为a;统计“多饮”与主语实体“肺气肿”出现在同一份医学数据中的第三次数为b;统计“多饮”与主语实体“冠心病”出现在同一份医学数据中的第三次数为c等等。进一步地,还可以计算上述第三次数之和为a b c。
在示例性的实施例中,将上述主语实体记作sl′,上述目标宾语实体“多饮”仍记作oij。其中,l′的取值与主语实体的种类相关,1≤l′≤n。则上述第三次数之和记作
在步骤s420中,统计所述n种主语实体中的任意一种在所述m份医学数据中出现的次数,得到n个第四次数。
在示例性的实施例中,统计目标主语实体“胃癌”总共出现的第四次数a,统计目标主语实体“肺气肿”总共出现的第四次数b,统计目标主语实体“冠心病”总共出现的第四次数c。示例性的,上述第四次数可以记作no(sl′)。进一步地,还可以计算上述第四次数之和
在步骤s430中,计算所述第三次数之和与所述第四次数之和的比值作为所述中间属性。
仍以上述实施例为例进行说明,上述中间属性可以根据以下公式二确定。
在图4所示实施例提供的技术方案中,关于目标三元组<s:2型糖尿病p:症状o:多饮>,可以统计所有病种的病人中有多大概率存在多饮症状(目标宾语实体)。例如,步骤s410中统计出第三次数之和为a b c为200,在步骤s420中统计出第四次数之和为a b c为50000,则可以说明所有病种病人中有0.4%的概率存在多饮症状。
示例性的实施例中,继续参考图2,在确定第一属性和中间属性之后,在步骤s240中,根据所述第一属性与所述中间属性确定关于所述目标三元组的实体排序得分。本实施例中,上述目标三元组可以是步骤s210中确定的任意一个三元组。示例性的,可以以<s:2型糖尿病p:症状o:多饮>为上述目标三元组进行说明。
示例性的,图5示出了根据本公开的实施例的目标三元组的实体排序得分的确定方法的流程示意图,可以作为步骤s240的一种具体实施方式。参考图5,该实施例提供的方法包括步骤s510-步骤s530。
在步骤s510中,计算所述第一属性与所述中间属性的比值,作为关于所述目标三元组特异性的第二属性。
在示例性的实施例中,上述第二属性可以根据以下公式三确定。
在示例性的实施例中,关于目标三元组<s:2型糖尿病p:症状o:多饮>:上述第一属性pr(oij|si)用于统计2型糖尿病病人中有多大概率存在多饮症状(目标宾语实体),上述中间属性pr(oij|s)统计所有病种的病人中有多大概率存在多饮症状(目标宾语实体)。进一步地,通过第一属性与中间属性的比值来衡量目标三元组的特异性,从而本技术方案实现对实体的特异性关系进行了挖掘。
示例性的,关于第一目标三元组<s:2型糖尿病p:症状o:多饮>:其第一属性为80%,其中间属性0.4%,则可以确定关于第一目标三元组<s:2型糖尿病p:症状o:多饮>的第二属性为200。关于第二目标三元组<s:2型糖尿病p:症状o:消瘦>:假如其第一属性为70%,其中间属性0.7%,则可以确定关于第二目标三元组<s:2型糖尿病p:症状o:消瘦>的第二属性为100。从而,将目标三元组的特异性(第二属性)作为实体排序所考虑因素中的一种来实现实体排序,并基于排序得分构建医学知识图谱,有利于实现对实体的特异性关系的挖掘。
在步骤s520中,根据所述第一次数与预设次数阈值,计算关于所述目标三元组可信度的第三属性。
在示例性的实施例中,目标三元组中目标宾语实体与目标主语实体出现在同一份医学数据中的次数(即,上述第一次数)是影响实体排序的重要因素。
示例性的,若目标三元组中目标宾语实体与目标主语实体出现在同一份医学数据中的次数(即,上述第一次数)越小,则可以说明上述目标三元组的可信程度越小。反之,若目标三元组对应的第一次数越大,则可以说明上述目标三元组的可信程度越大。
本实施例中,预先设置次数阈值
其中,上述系数r取值为1;系数α取值大于1,示例性的,可以取值为10。需要说明的是,上述公式四通过对数的形式来避免目标三元组对应的第一次数(即,采样样本数)过大,从而导致实体排名时,弱化其他影响因素的影响范围。
假如,目标三元组s对应的第一次数(即,采样样本数)为10000,
在步骤s530中,计算所述第一属性、所述第二属性以及所述第三属性的乘积作为所述目标三元组的实体排序得分。
在示例性的实施例中,根据以下公式五计算上述第一属性、上述第二属性以及上述第三属性的乘积作为所述目标三元组的实体排序得分p。
p=p1(oij,si)×p2(oij,si)×p3(oij,si)
公式五在图5所示实施例提供的技术方案中,可以通过关于目标三元组的多个属性,例如,衡量目标三元组中目标宾语实体与目标主语实体共同出现概率的第一属性、衡量目标三元组的特异性的第二属性,以及衡量目标三元组的可信程度的第三属性,可以有效地确定实体排序得分,进而有利于提升医学知识图谱对医学知识的表述准确度。
然而,对于包含检验结果的目标三元组,为了更进一步提升实体排序的准确程度,本实施例还提供了获取三元组对应的疾病检验结果为异常的修正系数,以对上述公式五进行优化。例如,在目标三元组中的目标宾语实体与检验类项目相关时,若上述目标宾语实体对应的检测结果为非正常值,则可以根据下述修正公式确定相关的修正系数,以使得排名得分更加准确。
示例性的,图6示出了根据本公开的一实施例的修正系数的确定方法的流程示意图。
参考图6,该实施例提供的方法包括步骤s610-步骤s660。
在步骤s610中,统计所述目标宾语实体与所述目标主语实体同时出现,且所述目标宾语实体对应的检验结果为非正常值的医学数据的次数,作为第五次数。
在示例性的实施例中,上述第五次数(可以记作:nabn(si,oij))是在上述实施例中第一次数的基础上,还考虑目标宾语实体的正常取值范围以及目标宾语实体的实际取值,假如目标宾语实体的实际取值未包含在其正常取值范围之内,则说明该目标宾语实体对应的检验结果为非正常值。
示例性的,关于目标宾语实体与检验项目相关的目标三元组可以为:<s:2型糖尿病p:相关检验o:糖化血红蛋白>。其中,目标宾语实体“糖化血红蛋白”能够反映患者一段时间内的平均血糖水平,而普通的“血糖”指标仅能反映患者即刻的血糖水平,相比之下,对于2型糖尿病患者来说,糖化血红蛋白更具有参考价值。
具体的,目标宾语实体“糖化血红蛋白”对应的检测结果的正常取值范围为:[x1,x2]。当前的目标宾语实体“糖化血红蛋白”对应的实际检测结果为x3,且x3并不在正常取值范围[x1,x2]之内(如,x3<x1或x3>x2),则说明上述目标三元组<s:2型糖尿病p:相关检验o:糖化血红蛋白>对应的上述第五次数加一。
在步骤s620中,计算所述第五次数与所述第一次数的比值作为第一比值。
在示例性的实施例中,上述第一比值ar(si,oij)可以根据以下公式六确定。
在步骤s630中,统计所述目标宾语实体,与除所述目标主语实体之外的n-1种主语实体中的任意一种同时出现在医学数据中的次数,作为第六次数。
在示例性的实施例中,该步骤的具体实施方式与步骤s410的具体实施方式相似。不同之处在于,本实施例中所涉及的目标三元组为检验相关的三元组,且统计该检验相关的三元组中的目标宾语实体,与除本三元组中主语实体之外的其他主语实体中的任意一种同时出现在医学数据中的次数。具体的:
假如目标三元组为<s:2型糖尿病p:相关检验o:糖化血红蛋白>,n中主语实体包括:2型糖尿病、胃癌、肺气肿、冠心病,以及帕金森综合征。则在本实施例中,统计目标宾语实体“糖化血红蛋白”与胃癌出现在同一份医学数据中的次数、“糖化血红蛋白”与肺气肿出现在同一份医学数据中的次数、“糖化血红蛋白”与冠心病出现在同一份医学数据中的次数,以及“糖化血红蛋白”与帕金森综合征出现在同一份医学数据中的次数。而不统计“糖化血红蛋白”与目标主语实体“2型糖尿病”出现在同一份医学数据中的次数。
本实施例中,上述第六次数之和记作
在步骤s640中,统计所述目标宾语实体,与除所述目标主语实体之外的n-1种主语实体中的任意一种同时出现,且所述目标宾语实体对应的检验结果为非正常值的医学数据的次数,记作第七次数。
在示例性的实施例中,该步骤的具体实施方式是在步骤s630的基础上,统计目标宾语实体对应的检验结果为非正常值的医学数据的次数。
示例性的,仍以<s:2型糖尿病p:相关检验o:糖化血红蛋白>为上述目标三元组进行说明。其中,目标主语实体为“2型糖尿病”,目标宾语实体为“糖化血红蛋白”。其中,“糖化血红蛋白”与冠心病出现在同一份医学数据中,且目标宾语实体“糖化血红蛋白”的正常取值范围为:[x1,x2],该份医学数据“糖化血红蛋白”的实际取值为x4。若x4并不在正常取值访问[x1,x2]之内,则说明目标三元组<s:2型糖尿病p:相关检验o:糖化血红蛋白>对应的上述第七次数加一。
示例性的,“糖化血红蛋白”与上述除所述目标主语实体之外的n-1种主语实体中的任意一种同时出现,且所述“糖化血红蛋白”对应的检验结果为非正常值的医学数据的次数的和值,记作
在步骤s650中,计算所述第七次数之和与所述第六次数之和的比值作为所述第二比值。
在示例性的实施例中,上述第二比值
在步骤s660中,将所述第一比值和所述第二比值之间的比值作为所述修正系数。
在示例性的实施例中,上述修正系数rar(si,oij)可以根据以下公式八确定。
在示例性的实施例中,根据关于目标三元组的上述修正系数rar(si,oij),以及关于该目标三元组的第一属性、中间属性和第二属性计算关于的实体排序得分,如以下公式九。
p'=p×rar(si,oij)公式九
本技术方案提供的实施例中,确定目标三元组中实体排序得分时,不仅考虑存在概率、特异性以及可信程度。在此基础上,为了进一步提升包含检验结果的目标三元组,本实施例还提供了获取三元组对应的疾病检验结果为异常的修正系数。从而,能够更进一步提升实体排序的准确程度,有利于提升医学知识图谱对医学知识的表述准确度。进而,基于实体之间的关联关系构建的医学知识图谱才能够直接应用于cdss中的症状推荐、检查拓建以及用药推荐等。
本领域技术人员可以理解实现上述实施方式的全部或部分步骤被实现为由处理器(包含cpu和gpu)执行的计算机程序。例如,通过gpu实现对上述风险预测模型的模型训练,或者基于训练后的风险预测模型,使用cpu或gpu实现对待测对象的风险等级预测处理等。在该计算机程序被cpu执行时,执行本公开提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器,磁盘或光盘等。
此外,需要注意的是,上述附图仅是根据本公开示例性实施方式的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
以下介绍本公开的装置实施例,可以用于执行本公开上述的实体的排序方法。
图7示出了根据本公开的实施例的实体的排序装置的结构示意图,参考图7,本实施例提供的实体的排序装置700,包括:三元组确定模块701、第一统计模块702、第二统计模块703,以及排序得分计算模块704。
其中,上述三元组确定模块701,用于:根据m份医学数据确定关于n种主语实体的三元组,其中,每个所述三元组包含一个主语实体以及与上述主语实体具有属性关系的一个宾语实体;
上述第一统计模块702,用于:统计目标三元组中的目标宾语实体与上述目标三元组中目标主语实体之间的条件概率,作为第一属性;
上述第二统计模块703,用于:统计上述目标宾语实体与上述n种主语实体之间的条件概率,作为中间属性;
上述排序得分计算模块704,用于:根据上述第一属性与上述中间属性确定关于上述目标三元组的实体排序得分,其中,m为正整数,n为大于1的整数。
在本公开的一些实施例中,基于前述方案,上述第一统计模块702,具体用于:
统计上述目标宾语实体与上述目标主语实体出现在同一份医学数据中的次数,作为第一次数;统计上述目标主语实体在上述m份医学数据中出现的次数,作为第二次数;以及,计算上述第一次数与上述第二次数的比值作为上述第一属性。
在本公开的一些实施例中,基于前述方案,上述第二统计模块703,具体用于:
统计上述目标宾语实体与上述n种主语实体中的任意一种出现在同一份医学数据中的次数,作为第三次数;统计上述n种主语实体中的任意一种在上述m份医学数据中出现的次数,得到n个第四次数;以及,计算上述第三次数之和与上述第四次数之和的比值作为上述中间属性。
在本公开的一些实施例中,基于前述方案,上述排序得分计算模块704,具体用于:
计算上述第一属性与上述中间属性的比值,作为关于上述目标三元组特异性的第二属性;以及,计算上述第一属性与上述第二属性的乘积作为上述目标三元组的实体排序得分。
在本公开的一些实施例中,基于前述方案,上述实体的排序装置700,还包括:第三属性计算模块。
其中,上述第三属性计算模块用于:在根据m份医学数据确定关于n种主语实体的三元组之后,根据上述第一次数与预设次数阈值,计算关于上述目标三元组可信度的第三属性。
在本实施例中,上述排序得分计算模块704,具体用于:
计算上述第一属性、上述第二属性以及上述第三属性的乘积作为上述目标三元组的实体排序得分。
在本公开的一些实施例中,基于前述方案,上述排序得分计算模块704,包括:修正单元和得分单元。
其中,上述修正单元用于:获取上述三元组对应的疾病检验结果为异常的修正系数;以及,上述得分单元用于:根据上述修正系数、上述第一属性以及上述中间属性计算关于上述目标三元组的实体排序得分。
在本公开的一些实施例中,基于前述方案,上述修正单元具体用于:
统计上述目标宾语实体与上述目标主语实体同时出现,且上述目标宾语实体对应的检验结果为非正常值的医学数据的次数,作为第五次数;计算上述第五次数与上述第一次数的比值作为第一比值;统计上述目标宾语实体,与除上述目标主语实体之外的n-1种主语实体中的任意一种同时出现在医学数据中的次数,作为第六次数;统计上述目标宾语实体,与除上述目标主语实体之外的n-1种主语实体中的任意一种同时出现,且上述目标宾语实体对应的检验结果为非正常值的医学数据的次数,作为第七次数;计算上述第七次数之和与上述第六次数之和的比值作为上述第二比值;以及,将上述第一比值和上述第二比值之间的比值作为上述修正系数。
由于本公开的示例实施例的实体的排序装置的各个功能模块与上述实体的排序方法的示例实施例的步骤对应,因此对于本公开装置实施例中未披露的细节,请参照本公开上述的实体的排序方法的实施例。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。
在本公开示例性实施方式中,还提供了一种能够实现上述方法的计算机存储介质。其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当上述程序产品在终端设备上运行时,上述程序代码用于使上述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。
参考图8所示,描述了根据本公开的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
上述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,上述程序设计语言包括面向对象的程序设计语言-诸如java、c 等,还包括常规的过程式程序设计语言-诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,在本公开的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图9来描述根据本公开的这种实施方式的电子设备900。图9显示的电子设备900仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图9所示,电子设备900以通用计算设备的形式表现。电子设备900的组件可以包括但不限于:上述至少一个处理单元910、上述至少一个存储单元920、连接不同系统组件(包括存储单元920和处理单元910)的总线930。
其中,上述存储单元存储有程序代码,上述程序代码可以被上述处理单元910执行,使得上述处理单元910执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如,上述处理单元910可以执行如图2中所示的:步骤s210,根据m份医学数据确定关于n种主语实体的三元组,其中,每个所述三元组包含一个主语实体以及与所述主语实体具有属性关系的一个宾语实体;步骤s220,统计目标三元组中的目标宾语实体与所述目标三元组中目标主语实体之间的条件概率,作为第一属性;步骤s230,统计所述目标宾语实体与所述n种主语实体之间的条件概率,作为中间属性;以及,步骤s240,根据所述第一属性与所述中间属性确定关于所述目标三元组的实体排序得分,其中,m为正整数,n为大于1的整数。
示例性的,上述处理单元810还可以执行如图2至图6中任意一图所示的实体的排序方法。
存储单元920可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(ram)9201和/或高速缓存存储单元9202,还可以进一步包括只读存储单元(rom)9203。
存储单元920还可以包括具有一组(至少一个)程序模块9205的程序/实用工具9204,这样的程序模块9205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线930可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备900也可以与一个或多个外部设备1000(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备900交互的设备通信,和/或与使得该电子设备900能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口950进行。并且,电子设备700还可以通过网络适配器970与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器960通过总线930与电子设备900的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备900使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
此外,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
1.一种实体排序方法,其特征在于,所述方法包括:
根据m份医学数据确定关于n种主语实体的三元组,其中,每个所述三元组包含一个主语实体以及与所述主语实体具有属性关系的一个宾语实体;
统计目标三元组中的目标宾语实体与所述目标三元组中目标主语实体之间的条件概率,作为第一属性;
统计所述目标宾语实体与所述n种主语实体之间的条件概率,作为中间属性;
根据所述第一属性与所述中间属性确定关于所述目标三元组的实体排序得分,其中,m为正整数,n为大于1的整数。
2.根据权利要求1所述的实体排序方法,其特征在于,统计目标三元组中的目标宾语实体与所述目标三元组中目标主语实体之间的条件概率,作为第一属性,包括:
统计所述目标宾语实体与所述目标主语实体出现在同一份医学数据中的次数,作为第一次数;
统计所述目标主语实体在所述m份医学数据中出现的次数,作为第二次数;
计算所述第一次数与所述第二次数的比值作为所述第一属性。
3.根据权利要求1所述的实体排序方法,其特征在于,统计所述目标宾语实体与所述n种主语实体之间的条件概率,作为中间属性,包括:
统计所述目标宾语实体与所述n种主语实体中的任意一种出现在同一份医学数据中的次数,作为第三次数;
统计所述n种主语实体中的任意一种在所述m份医学数据中出现的次数,得到n个第四次数;
计算所述第三次数之和与所述第四次数之和的比值作为所述中间属性。
4.根据权利要求2所述的实体排序方法,其特征在于,根据所述第一属性与所述中间属性确定关于所述目标三元组的实体排序得分,包括:
计算所述第一属性与所述中间属性的比值,作为关于所述目标三元组特异性的第二属性;
计算所述第一属性与所述第二属性的乘积作为所述目标三元组的实体排序得分。
5.根据权利要求4所述的实体排序方法,其特征在于,在根据m份医学数据确定关于n种主语实体的三元组之后,所述方法还包括:
根据所述第一次数与预设次数阈值,计算关于所述目标三元组可信度的第三属性;
所述计算所述第一属性与所述第二属性的乘积作为所述目标三元组的实体排序得分,包括:
计算所述第一属性、所述第二属性以及所述第三属性的乘积作为所述目标三元组的实体排序得分。
6.根据权利要求2所述的实体排序方法,其特征在于,根据所述第一属性与所述中间属性确定关于所述目标三元组的实体排序得分,包括:
获取所述三元组对应的疾病检验结果为异常的修正系数;
根据所述修正系数、所述第一属性以及所述中间属性计算关于所述目标三元组的实体排序得分。
7.根据权利要求6所述的实体排序方法,其特征在于,获取所述三元组对应的疾病检验结果为异常的修正系数,包括:
统计所述目标宾语实体与所述目标主语实体同时出现,且所述目标宾语实体对应的检验结果为非正常值的医学数据的次数,作为第五次数;
计算所述第五次数与所述第一次数的比值作为第一比值;
统计所述目标宾语实体,与除所述目标主语实体之外的n-1种主语实体中的任意一种同时出现在医学数据中的次数,作为第六次数;
统计所述目标宾语实体,与除所述目标主语实体之外的n-1种主语实体中的任意一种同时出现,且所述目标宾语实体对应的检验结果为非正常值的医学数据的次数,作为第七次数;
计算所述第七次数之和与所述第六次数之和的比值作为所述第二比值;
将所述第一比值和所述第二比值之间的比值作为所述修正系数。
8.一种实体的排序装置,其特征在于,所述装置包括:
三元组确定模块,用于:根据m份医学数据确定关于n种主语实体的三元组,其中,每个所述三元组包含一个主语实体以及与所述主语实体具有属性关系的一个宾语实体;
第一统计模块,用于:统计目标三元组中的目标宾语实体与所述目标三元组中目标主语实体之间的条件概率,作为第一属性;
第二统计模块,用于:统计所述目标宾语实体与所述n种主语实体之间的条件概率,作为中间属性;
排序得分计算模块,用于:根据所述第一属性与所述中间属性确定关于所述目标三元组的实体排序得分,其中,m为正整数,n为大于1的整数。
9.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至7中任一项所述的实体的排序方法。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至7中任一项所述的实体的排序方法。
技术总结