一种电子病历症状实体属性抽取的方法

    专利2026-01-31  4


    本发明基于深度学习技术,研究了一种针对电子病历症状实体属性抽取的方法,通过数据增强的方式获得增强数据集,再结合macbert预训练模型和word2vec获取融合字词特征向量,再通过混合注意力机制的双向门控循环单元,构建出电子病历症状实体属性抽取模型,对电子病历症状实体属性信息进行抽取主要应用于构建知识图谱等方面。


    背景技术:

    1、在医疗领域,电子病历是一种重要的信息资源,电子病历中存在着许多医疗实体类别,包括症状、治疗、检查、诊断等,其中症状是患者疾病的具体临床表现,对于正确理解疾病当前的发展趋势有重要的意义,所以针对症状实体的症状属性抽取是重中之重。一个稳定、精确的面向电子病历症状实体属性抽取方法,可以辅助医务人员更加简单便捷的获得病人病历信息,做出医疗决策,对后续构建知识图谱、智能问答等也有很高的应用价值。

    2、然而,电子病历通常以自然语言的形式存在,对其进行分析和理解需要大量的人力,加之电子病历因有其独特的语言特性,如句子语法结构不完整,模式化较强等,对电子病历症状实体属性抽取难度较大。现有的症状实体属性抽取技术,使用的深度学习方法相对简单,很难完整的保留丰富的上下文语义信息,在医疗数据匮乏的情况下难以取得很好的效果。


    技术实现思路

    1、本发明的目的在于提出一种针对电子病历症状实体属性抽取方法,以此解决现有的症状实体属性抽取技术中存在的使用的机器学习方法相对简单,很难完整保留丰富的上下文语义信息,在医疗数据匮乏的情况下难以取得很好的效果等问题。

    2、为实现上述发明目的,采用的技术方案如下:

    3、一种针对电子病历症状实体属性抽取方法,其特征在于,包括如下步骤:

    4、步骤1:获取电子病历相关数据,经过预处理构建数据集;

    5、步骤2:统计数据集中症状属性分布情况,经过数据增强获取更多数据集;

    6、步骤3:使用预训练模型获取混合的字词特征向量;

    7、步骤4:使用融合注意力机制的双向门控循环单元获得句子语义隐式表示;

    8、步骤5:构建条件随机场,实现句子标签预测;

    9、所述步骤1具体包括以下步骤:

    10、步骤1.1:对接医疗机构,获取原始电子病历数据,预处理病历数据,如统一将标点符号替换成半角形式,大写英语字母都替换成小写字母等。

    11、步骤1.2:采用bio标注法对数据进行标注,将属性抽取任务看做命名实体识别任务进行。所有症状属性的开头以“b”进行标记,中间以“i”进行标记,句子中其他非症状属性的内容以“o”进行标记。比如“发b-st/n病i-st/n时i-st/n患o/n者o/n自o/n感o/n心b-ms/n慌i-ms、o/n大b-ms/n汗i-ms/n,o/n”。

    12、所述步骤2具体包括以下步骤:

    13、步骤2.1:统计属性类别分布情况,症状属性类别定义为:主要症状、开始时间、症状描述、诱因、持续时间、发作频率、症状趋势、趋势诱因、症状程度。

    14、步骤2.2:根据分布情况有针对性的进行数据增强,平衡数据集中各类别属性分布情况。针对特定属性,通过python脚本筛选出具有特定属性的数据集,适当的在具有特定属性的数据集中去除在分布情况中过多的属性类别。

    15、步骤2.3:构建各项属性库,各个库中保存相同类别的属性,接下来对具有特定属性的数据集,处理属性数据,通过python脚本的方式从相同属性库中进行随机替换,再和原有数据集融合,得到增强数据集。

    16、所述步骤3具体包括以下步骤:

    17、步骤3.1:采用macbert预训练模型获取症状实体段的字特征向量,将句子从字符序列转换成密集向量序列,这一步通过tokenizer分词器进行。token类型的数量(type_vocab_size)为2,词表大小为21128,最终需要获取的字向量维度为(batch_size,sequence_size,hidden_size),其中batch_size是模型每一次训练使用的样本数量,本发明定义的单词训练所用样本数量是4。sequence_size是单个样本语句的长度,等同于输入句子长度。hidden_size是macbert模型中最后一层的隐藏层输出维度,定义为768。

    18、步骤3.2:采用word2vec词嵌入模型获取症状实体段的词特征向量,本发明采用基于skip-gram的word2vec模型,来获取词向量,如图2所示。skip-gram模型假设句子中每个单词都可以用来决定相邻单词,即输入当前单词xt,并通过xt完成对其周边单词的预测。skip-gram模型结构如图2所示。给定词序列w=[w1,w2,…,wn],将wt按one-hot编码的形式转成向量,将向量输入skip-gram获取映射后的词向量,最终转成词向量矩阵。

    19、步骤3.3:通过线性映射的方式将字词向量转成相同维度,拼接字词向量,获得症状实体段的融合特征向量表示。

    20、所述步骤4具体包括以下步骤:

    21、步骤4.1:采用多头注意力机制使得注意力层输出包含有不同子空间中的编码表示信息。调整字词融合向量的维度,将调整后的字词融合向量分别转换成查询向量q,键向量k和值向量v传入多头注意力机制,根据定义的注意力头的数量和输入输出张量的维度进行线性变换,得到每个注意力头的查询向量、键向量和值向量的维度。每个注意力头都计算查询向量和键向量的点积,得到注意力分数,分数再被缩放因子缩放,通过softmax函数归一化,使得所有注意力分数之和为1,将归一化的注意力分数和对应的值向量相乘。求和,得到每个头的输出,将所有头输出拼接在经过线性变换得到最终的输出。

    22、步骤4.2:采用双向门控循环单元获得句子语义隐式表示。

    23、本发明提出了一种电子病历症状实体属性抽取方法,通过数据增强的方式获得增强数据集,使用macbert和word2vec结合的方式获取字词融合特征向量,同时使用混合注意力机制的双向门控循环单元,构建电子病历症状实体属性抽取模型,对电子病历症状实体属性信息进行抽取,从而为后续知识图谱的构建等工作打下基础。



    技术特征:

    1.一种针对电子病历的症状实体属性抽取方法,其特征在于,包括如下步骤:

    2.根据权利要求1所述的一种针对电子病历的症状实体属性抽取方法,其特征在于,所述步骤1中获取电子病历相关数据,经过预处理构建数据集具体包括以下步骤实现:

    3.根据权利要求1所述的一种针对电子病历的症状实体属性抽取方法,其特征在于,所述步骤2中统计数据集中症状属性分布情况,经过数据增强获取更多数据集具体包括以下内容:

    4.根据权利要求1所述的一种针对电子病历的症状实体属性抽取方法,其特征在于,所述步骤3具体包括以下内容:

    5.根据权利要求4所述的一种针对电子病历的症状实体属性抽取方法,其特征在于,所述步骤4具体包括以下内容:


    技术总结
    本发明提供了一种电子病历症状实体属性抽取的方法,该方法包括以下步骤:获取电子病历症状实体段信息,对电子病历症状实体段数据中包含的症状属性进行标注;根据数据集中属性类别分布进行针对性数据增强,来获取增强数据集;再结合Macbert预训练模型和Word2vec获取融合字词特征向量,再通过混合注意力机制的双向门控循环单元,构建出电子病历症状实体属性抽取模型。本发明与现有技术相比为电子病历里面的症状实体属性抽取和应用工作提供了一个新的解决方案,解决了目前电子病历症状实体属性抽取性能低和准确度不高的问题。

    技术研发人员:贾文航,杜金莲
    受保护的技术使用者:北京工业大学
    技术研发日:
    技术公布日:2024/4/29
    转载请注明原文地址:https://wp.8miu.com/read-94488.html

    最新回复(0)