一种基于图深度学习的emr信息关联及演化方法
技术领域
1.本发明涉及自然语言处理与深度学习领域,特别是指一种基于图深度学习的emr信息关联及演化方法。
背景技术:
2.临床文本蕴含着丰富的健康医疗信息,以电子病历(electronic medicalrecord,emr)为代表的临床文本是医疗活动过程中产生的一种重要信息资源。电子病历分为门诊电子病历和住院电子病历,包含有社会人口学信息、主诉、现病史、检查记录、疾病诊断等。可见,电子病历是医疗知识高度密集的多源异构数据集合,包含了丰富的实体,如:症状、疾病、检查等,这些实体之间常常隐藏着某种医学关系。目前,电子病历的有效建模已成为学术界和工业界的一个重要课题。已有研究表明,利用电子病历数据进行机器学习可实现疾病诊断、药物推荐、治疗方案推荐、风险预测等智能化临床应用。但是电子病历大多以非结构化文本的形式存储,导致病历的应用效率低、阻碍医疗信息化程度,临床工作者也无法清晰地获取病人病情的结构化关联信息和医学知识。如何从海量的电子病历数据中发现临床知识是健康医疗领域面临的挑战,也是提高医学科研效率以及寻求临床诊断可靠证据的重要途径。
技术实现要素:
3.本发明的主要目的在于克服现有技术中的上述缺陷,提出一种基于图深度学习的emr信息关联及其演化方法,采用图深度学习方法对电子病历数据进行建模,利用网络关系图可视化技术展示电子病历结构信息的演化过程,实现知识发现和可解释深度学习。
4.本发明采用如下技术方案:
5.一种基于图深度学习的emr信息关联及演化方法,其特征在于,包括如下步骤:
6.emr数据预处理:获取emr数据集,对获取的emr数据进行预处理,得到emr的实体词典;
7.emr图构建:利用word2vec方法将实体词典中的词转换为向量表示,得到对应emr数据的emr图的向量矩阵;选取实体词典的实体词作为emr图的节点,实体词典中实体词的数量为emr图节点个数最大值v_num,通过计算任意两个图节点的条件概率,获取emr图的邻接矩阵并进行归一化,得到emr图的邻接矩阵;所述emr图的向量矩阵和emr图的邻接矩阵构成emr图;其中,针对emr图中任意两个节点v
i
和v
j
,(i,j=1,2,..,v_num,且i≠j),v
j
到v
i
的边权值为p(v
i
|v
j
),即v
i
在v
j
出现的条件下出现的概率,计算公式为:
[0008][0009]
emr图深度学习模型构建:根据得到的emr数据集对应的所有emr图,构建出emr图深度学习模型的输入图数据集t={g
i
,i=1,2,
…
,n},其中g
i
=(q
i
,a
i
)为第i份电子病历数据,n为电子病历数据的数量,q
i
={q_vecoter
i
,i=1,2,
…
,v_num}为emr图g
i
的向量矩阵,
v_num为emr图节点个数最大值,a
i
,i=1,2,
…
,n为emr图g
i
的邻接矩阵;利用图神经网络transformer进行emr图深度学习,将邻接矩阵a
i
作为图神经网络transformer的第一个自注意力模块block1的初始化矩阵m1,即a
i
=m1;采用图数据集t作为图神经网络transformer模型的输入数据,将emr的初步诊断作为图神经网络transformer模型的输出数据,对transformer模型进行训练,从而获得图深度学习模型f;
[0010]
emr信息关联及演化:将任意一条emr图数据,将其喂入图深度学习模型f,通过模型f的第二个及其以上的自注意力模块block
i
,(i=2,
…
,m)中的注意力矩阵来构建一系列的emr图g的邻接矩阵m2,
…
,m
m
,其中,m2,
…
,m
m
是由基于条件概率的邻接矩阵m1经过图深度学习得到的邻接矩阵的演化;汇集m1,m2,
…
,m
m
构建emr图的演化序列m={m
i
,i=1,2,
…
,m}。
[0011]
具体地,所述获取emr数据集,包括社会人口学信息、主诉等医疗文本、体格检查、实验室检查及其结果和疾病诊断。
[0012]
具体地,所述对获取的emr数据进行预处理,包括分词、实体抽取。
[0013]
由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:
[0014]
利用emr的图结构信息进行表示学习,可以挖掘到电子病历数据所包含的大量的医学知识的关联信息及其演化规律。一方面,图结构的电子病历数据可以产生有价值的信息和知识,为医生提供临床决策支持。另一方面,利用图数据的演化可视化技术可展示电子病历信息的关联变化过程,使深度学习具有可解释性,从而更好地服务于医学人工智能的实际应用。
附图说明
[0015]
附图1是本发明基于图深度学习的emr信息关联及其演化方法流程图;
[0016]
附图2是中文儿科门诊电子病历数据示例图;
[0017]
附图3是emr图深度学习模型图;
[0018]
附图4是emr图结构信息输入的示意图;
[0019]
附图5是emr图结构信息演化的示意图;
[0020]
附图6是emr图结构信息输出的示意图。
[0021]
以下结合附图和具体实施例对本发明作进一步详述。
具体实施方式
[0022]
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
[0023]
图是一种自然且直观展示客体关联的表示方法,是我们生产生活中最为常见的一种信息载体和形式。基于图的表示学习研究旨在更好地分析复杂信息网络中的节点间的联系及其演化过程。emr图的构建可以基于电子病历客观的数据存储的关联信息,或基于多层次多角度的统计信息。基于图表示的方法可以高效地学习到电子病历文本的潜在的结构信息,以及数据富含的语义关系。研究表明,利用电子病历文本数据的图结构信息可以获得高
质量的向量表示,显著提高下游任务的性能。基于此,本发明提出了基于图深度学习的emr信息关联及演化方法。
[0024]
参见图1,本发明的基于图深度学习的emr信息关联及演化方法,包括以下步骤:(1)emr数据预处理;(2)emr图构建;(3)emr图深度学习模型构建;(4)emr信息关联及演化。
[0025]
具体为emr数据预处理:获取emr数据集,包括社会人口学信息、主诉等医疗文本、体格检查、实验室检查及其结果和疾病诊断;对获取的emr数据进行预处理,包括分词、实体抽取,得到emr的实体词典;
[0026]
emr图构建:利用word2vec方法将实体词典中的词转换为向量表示,得到对应emr数据的emr图的向量矩阵;选取实体词典的实体词作为emr图的节点,实体词典中实体词的数量为emr图节点个数最大值,通过计算任意两个图节点的条件概率,获取emr图的邻接矩阵并进行归一化,得到emr图的邻接矩阵;所述emr图的向量矩阵和emr图的邻接矩阵构成emr图;其中,针对emr图中任意两个节点v
i
和v
j
,(i,j=1,2,..,v_num,且i≠j),v
j
到v
i
的边权值为p(v
i
|v
j
),即v
i
在v
j
出现的条件下出现的概率,计算公式为:
[0027][0028]
emr图深度学习模型构建:根据得到的emr数据集对应的所有emr图,构建出emr图深度学习模型的输入图数据集t={g
i
,i=1,2,
…
,n},其中g
i
=(q
i
,a
i
)为第i份电子病历数据,n为电子病历数据的数量,q
i
={q_vecoter
i
,i=1,2,
…
,v_num}为emr图g
i
的向量矩阵,v_num为emr图节点个数最大值a
i
,i=1,2,
…
,n为emr图g
i
的邻接矩阵;利用图神经网络transformer进行emr图深度学习,将邻接矩阵a
i
作为图神经网络transformer的第一个自注意力模块block1的初始化矩阵m1,即a
i
=m1;采用图数据集t作为图神经网络transformer模型的输入数据,将emr的初步诊断作为图神经网络transformer模型的输出数据,对transformer模型进行训练,从而获得图深度学习模型f;
[0029]
emr信息关联及演化:将任意一条emr图数据,将其喂入图深度学习模型f,通过模型f的第二个及其以上的自注意力模块block
i
,(i=2,
…
,m)中的注意力矩阵来构建一系列的emr图g的邻接矩阵m2,
…
,m
m
,其中,m2,
…
,m
m
是由基于条件概率的邻接矩阵m1经过图深度学习得到的邻接矩阵的演化;汇集m1,m2,
…
,m
m
构建emr图的演化序列m={m
i
,i=1,2,
…
,m}。
[0030]
以来自某三甲医院的电子病历为例,图2为一份真实的中文儿科门诊电子病历数据示例,该病历数据包括患者基本信息、主诉、现病史、既往史、家族史、体格检查、辅助检查结果和初步诊断,且其中存在着大量的医学专业术语。
[0031]
本发明实施例的具体步骤如下:
[0032]
步骤一:emr数据预处理。
[0033]
首先,需要对电子病历数据进行准确的分词,其质量影响文本挖掘的效果。在分词阶段,本发明结合自定义的医学词典采用结巴分词工具对电子病历文本进行分词。在实体抽取阶段,从分词后的结果中进一步抽取有意义的实体,最终将每份非结构化的电子病历数据转换为结构化的实体词列表。通过以上操作可获得所有电子病历数据的词典dict,规模为12310。进一步利用word2vec方法为每一个实体词q∈dict生成一个128维的词向量表达q_vector。
[0034]
步骤二:emr图构建。
[0035]
选取每份电子病历数据的实体词q∈dict作为emr图g的节点v,且电子病历的节点个数最大值v_num为150。计算任意两个图节点v
i
和v
j
,(i,j=1,2,..,150,且i≠j)的条件概率,获取emr图g的邻接矩阵并进行归一化得到a
150*150
。最终完成emr图的构建g=(q,a),其中q为节点的向量表示,a为节点的邻接矩阵。
[0036]
步骤三:emr图深度学习模型构建。
[0037]
emr图深度学习模型图参见图3。首先,将电子病历的图数据,即节点向量q和邻接矩阵a作为图神经网络transformer模型的输入数据,并且邻接矩阵a作为图神经网络transformer模型自注意力模块block1的初始化矩阵m1。将电子病历的初步诊断作为图神经网络transformer模型的输出数据。本实例使用144,170条真实有效的电子病历图数据集t进行transformer模型的训练获得图深度学习模型f。
[0038]
步骤四:emr信息关联及演化。
[0039]
将任意一条电子病历数据喂入已经训练好的emr图深度学习模型f,提取模型f的第二个及其以上的自注意力模块block
i
,(i=2,
…
,m)的注意力矩阵来构建一系列的emr图g的邻接矩阵m2,
…
,m
m
,其中,m2,
…
,m
m
是由基于条件概率的邻接矩阵m1经过图深度学习得到的邻接矩阵的演化。汇集m1,m2,
…
,m
m
构建emr图g的演化序列m={m
i
,i=1,2,
…
,m}。在本实例中,m=3。图4、图5、图6展示了初步诊断为“普通感冒”的一条emr数据基于图深度学习的结构化信息关联与演化,其中,图的边权值的展示阈值设置为0.054。
[0040]
图4展示的是基于条件概率获得的该条电子病历的图数据,由条件概率计算得到的图数据是全连接的。图5展示的是该电子病历图数据在图深度学习过程中凸显出来的节点,对应着emr重要信息,包含“主诉”、“发热”、“咳嗽”、“病史”、“男”、“颈部”、“腹部”、“心律”、“平软”等。图6是该电子病历图数据在图深度学习后最终的信息关联及演化结果,展示了这条电子病历的关键信息为:患者“性别”为“男”,具有“糖尿病”、“高热惊厥”病史,且通过“体格检查”、“口腔”、“包块”、“无啰音”、“正常”、“腹部”、“家族史”等判断出患者目前病情状态“一般”,但具有“无肿大-发热”等症状。
[0041]
至此,基于图深度学习的emr信息关联及其演化方法全部结束。不难发现,本发明通过对非结构化的电子病历数据进行自然语言处理,并基于电子病历数据客观的数据统计信息,构建emr图数据。通过图深度学习方法实现知识发现和可解释深度学习,为医生提供临床决策支持,从而更好地服务于医学人工智能的实际应用。
[0042]
上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。
技术特征:
1.一种基于图深度学习的emr信息关联及演化方法,其特征在于,包括如下步骤:emr数据预处理:获取emr数据集,对获取的emr数据进行预处理,得到emr的实体词典;emr图构建:利用word2vec方法将实体词典中的词转换为向量表示,得到对应emr数据的emr图的向量矩阵;选取实体词典的实体词作为emr图的节点,实体词典中实体词的数量为emr图节点个数最大值v_num,通过计算任意两个图节点的条件概率,获取emr图的邻接矩阵并进行归一化,得到emr图的邻接矩阵;所述emr图的向量矩阵和emr图的邻接矩阵构成emr图;其中,针对emr图中任意两个节点v
i
和v
j
,(i,j=1,2,..,v_num,且i≠j),v
j
到v
i
的边权值为p(v
i
|v
j
),即v
i
在v
j
出现的条件下出现的概率,计算公式为:emr图深度学习模型构建:根据得到的emr数据集对应的所有emr图,构建出emr图深度学习模型的输入图数据集t={g
i
,i=1,2,...,n},其中g
i
=(q
i
,a
i
)为第i份电子病历数据,n为电子病历数据的数量,q
i
={q_vecoter
i
,i=1,2,...,v_num}为emr图g
i
的向量矩阵,v_num为emr图节点个数最大值,a
i
,i=1,2,...,n为emr图g
i
的邻接矩阵;利用图神经网络transformer进行emr图深度学习,将邻接矩阵a
i
作为图神经网络transformer的第一个自注意力模块block1的初始化矩阵m1,即a
i
=m1;采用图数据集t作为图神经网络transformer模型的输入数据,将emr的初步诊断作为图神经网络transformer模型的输出数据,对transformer模型进行训练,从而获得图深度学习模型f;emr信息关联及演化:将任意一条emr图数据,将其喂入图深度学习模型f,通过模型f的第二个及其以上的自注意力模块block
i
,(i=2,...,m)中的注意力矩阵来构建一系列的emr图g的邻接矩阵m2,...,m
m
,其中,m2,...,m
m
是由基于条件概率的邻接矩阵m1经过图深度学习得到的邻接矩阵的演化;汇集m1,m2,...,m
m
构建emr图的演化序列m={m
i
,i=1,2,...,m}。2.根据权利要求1所述的基于图深度学习的emr信息关联及演化方法,其特征在于,所述获取emr数据集,包括社会人口学信息、主诉等医疗文本、体格检查、实验室检查及其结果和疾病诊断。3.根据权利要求1所述的基于图深度学习的emr信息关联及演化方法,其特征在于,所述对获取的emr数据进行预处理,包括分词、实体抽取。
技术总结
本发明公开一种基于图深度学习的EMR信息关联及演化方法,包括如下步骤:EMR数据预处理:获取EMR数据集,得到EMR的实体词典;EMR图构建:实体词典中的词转换为向量表示,并得到EMR图的向量矩阵以及EMR图的邻接矩阵,组合构成EMR图;EMR图深度学习模型构建:根据得到的EMR数据集对应的所有EMR图,构建出EMR图深度学习模型的输入图数据集,从而进一步获得图深度学习模型F;EMR信息关联及演化:将任意一条EMR数据,喂入图深度学习模型F,构建EMR图的演化序列。本发明提出一种基于图深度学习的EMR信息关联及其演化方法,采用图深度学习方法对电子病历数据进行建模,利用网络关系图可视化技术展示电子病历结构信息的演化过程,实现知识发现和可解释深度学习。识发现和可解释深度学习。识发现和可解释深度学习。
技术研发人员:王华珍 刘晓聪 何霆
受保护的技术使用者:华侨大学
技术研发日:2020.11.26
技术公布日:2021/3/9
转载请注明原文地址:https://wp.8miu.com/read-64609.html