甲状腺数据分类模型的建模方法、装置、存储介质及终端与流程

    专利2025-05-03  14


    本发明涉及甲状腺数据分类,具体涉及甲状腺数据分类模型的建模方法、装置、存储介质及终端,属于计算机建模。


    背景技术:

    1、随着医学病例数据的积累,人工智能(ai)技术在医学领域内得到了越来越多的应用。ai技术通过在数据中学习样本的特征进行分类预测建模,在对疾病的早期筛查、临床辅助诊断和病情追踪中发挥着重要的作用。

    2、甲亢和甲减是常见的甲状腺疾病,但其成因复杂、亚型众多。近年来,对甲状腺疾病的ai辅助预测建模已有进展,但大多局限在利用超声等医学影像数据诊断甲状腺结节肿瘤等病变上,基于基础临床指标的预测建模方法研究不足。此外,真实数据中,相较正常样本,各亚型疾病样本数目较少,且类比比例不均衡,都影响了最终建模分类结果的准确性。


    技术实现思路

    1、为了克服现有ai分类建模技术未考虑真实甲状腺数据比例不均衡而导致最终分类结果不准确的不足,本发明提出了一种甲状腺数据分类模型的建模方法、装置介质及终端。

    2、为了实现上述目的,本发明采用以下技术方案:一种甲状腺数据分类模型的建模方法,包括:

    3、获取数据样本集,所述数据样本集包括多个数据样本,所述数据样本的特征包括年龄、性别和六个甲状腺基础生理指标;

    4、对所述数据样本集进行样本处理,将经过样本处理后的所述数据样本集按照第一预设比例选择部分数据作为一级训练集;

    5、基于所述一级训练集搭建至少一种初始分类器,通过所述一级训练集对所述初始分类器进行训练以得到一级目标分类器;

    6、将所述一级目标分类器作为投票子分类器以构建一级目标分类模型。

    7、在一种可能的实现方式中,所述对所述数据样本集进行样本处理,包括:

    8、获取所述数据样本集中所述数据样本的各项缺失数据,使用knn插补器对各项缺失数据进行填补后得到第一样本集;

    9、获取所述第一样本集中数据的不同特征的特征比例,选择所述特征比例最小的特征作为目标特征;

    10、基于所述目标特征合成新数据样本并添加至所述第一样本集之中得到目标样本集。

    11、在一种可能的实现方式中,所述基于所述目标特征合成新数据样本并添加至所述第一样本集之中得到目标样本集,包括:

    12、计算所述第一样本集中任意一个数据样本与其余数据样本的目标特征之间的欧氏距离,选择所述欧式距离小于距离阈值的k个数据样本作为近邻集;

    13、根据存在所述目标特征的数据样本在所述第一样本集中的比例确定采样比例,根据所述采样比例确定采样倍率n;

    14、根据所述采样倍率n在所述近邻集中选择n个近邻样本;

    15、对于每一个所述目标特征的所述数据样本,根据n个所述近邻样本生成多个新数据样本,并将所述新数据样本添加至所述第一样本集中得到所述目标样本集。

    16、在一种可能的实现方式中,所述通过所述一级训练集对所述初始分类器进行训练以得到一级目标分类器,包括:

    17、将所述一级训练集中的所述数据样本输入所述初始分类器中进行训练以得到一级训练分类器;

    18、将所述数据样本集中除所述一级训练集外的数据样本作为一级测试集,通过所述一级测试集中的所述数据样本对所述一级训练分类器进行测试;

    19、在所述一级训练分类器输出结果的准确率达到第一阈值后,将所述一级训练分类器作为所述一级目标分类器。

    20、在一种可能的实现方式中,所述基于所述一级目标分类器构建一级目标分类模型,包括:

    21、将所述一级目标分类器作为一级投票子分类器;

    22、对所述一级投票子分类器进行归一整合以建立所述一级目标分类模型,其中,所述一级目标分类模型的输出结果为各个所述一级投票子分类器的输出结果概率归一化处理后概率最大的输出结果。

    23、在一种可能的实现方式中,所述建模方法还包括:

    24、在所述数据样本集中获取甲亢亚型和甲减亚型的数据样本作为异常数据样本,并按照第二预设比例在所述异常数据样本中选择部分数据作为二级训练集;

    25、通过所述二级训练集对所述初始分类器进行训练以得到二级目标分类器;

    26、将所述二级目标分类器作为二级投票子分类器,对所述二级投票子分类器进行归一整合以建立二级目标分类模型,其中,所述所述二级目标分类模型的输出结果为各个所述二级投票子分类器的输出结果概率归一化处理后概率最大的输出结果。

    27、在一种可能的实现方式中,所述通过所述二级训练集对所述初始分类器进行训练以得到二级目标分类器,包括:

    28、将所述二级训练集中的所述数据样本输入所述初始分类器中进行训练以得到二级训练分类器;

    29、将所述一级分类结果中除所述二级训练集外的数据样本作为二级测试集,通过所述二级测试集中的所述数据样本对所述二级训练分类器进行测试;

    30、在所述二级训练分类器输出结果的准确率达到第二阈值后,将所述二级训练分类器作为所述二级目标分类器。

    31、在一种可能的实现方式中,所述初始分类器包括逻辑回归分类器、随机森林分类器、adaboost分类器、rusboost分类器和xgboost分类器中的至少一种。

    32、本发明还提供了一种甲状腺数据分类模型的建模装置,包括:

    33、样本获取模块,用于获取数据样本集,所述数据样本集包括多个数据样本,所述数据样本的特征包括年龄、性别和六个甲状腺基础生理指标;

    34、样本处理模块,用于对所述数据样本集进行样本处理,将经过样本处理后的所述数据样本集按照第一预设比例选择部分数据作为一级训练集;

    35、分类器第一搭建模块,用于基于所述一级训练集搭建至少一种初始分类器,通过所述一级训练集对所述初始分类器进行训练以得到一级目标分类器;

    36、一级模型建立模块,用于将所述一级目标分类器作为投票子分类器以构建一级目标分类模型。

    37、在一种可能的实现方式中,所述样本处理模块还用于:

    38、获取所述数据样本集中所述数据样本的各项缺失数据,使用knn插补器对各项缺失数据进行填补后得到第一样本集;

    39、获取所述第一样本集中数据的不同特征的特征比例,选择所述特征比例最小的特征作为目标特征;

    40、基于所述目标特征合成新数据样本并添加至所述第一样本集之中得到目标样本集。

    41、在一种可能的实现方式中,所述样本处理模块还用于:

    42、计算所述第一样本集中任意一个数据样本与其余数据样本的目标特征之间的欧氏距离,选择所述欧式距离小于距离阈值的k个数据样本作为近邻集;

    43、根据存在所述目标特征的数据样本在所述第一样本集中的比例确定采样比例,根据所述采样比例确定采样倍率n;

    44、根据所述采样倍率n在所述近邻集中选择n个近邻样本;

    45、对于每一个所述目标特征的所述数据样本,根据n个所述近邻样本生成多个新数据样本,并将所述新数据样本添加至所述第一样本集中得到所述目标样本集。

    46、在一种可能的实现方式中,所述分类器第一搭建模块还用于:

    47、将所述一级训练集中的所述数据样本输入所述初始分类器中进行训练以得到一级训练分类器;

    48、将所述数据样本集中除所述一级训练集外的数据样本作为一级测试集,通过所述一级测试集中的所述数据样本对所述一级训练分类器进行测试;

    49、在所述一级训练分类器输出结果的准确率达到第一阈值后,将所述一级训练分类器作为所述一级目标分类器。

    50、在一种可能的实现方式中,所述一级模型建立模块还用于:

    51、将所述一级目标分类器作为一级投票子分类器;

    52、对所述一级投票子分类器进行归一整合以建立所述一级目标分类模型,其中,所述一级目标分类模型的输出结果为各个所述一级投票子分类器的输出结果概率归一化处理后概率最大的输出结果。

    53、在一种可能的实现方式中,所述建模装置还包括:

    54、结果分类模块,用于在所述数据样本集中获取甲亢亚型和甲减亚型的数据样本作为异常数据样本,并按照第二预设比例在所述异常数据样本中选择部分数据作为二级训练集;

    55、分类器第二搭建模块,用于通过所述二级训练集对所述初始分类器进行训练以得到二级目标分类器;

    56、二级模型建立模块,用于将所述二级目标分类器作为二级投票子分类器,对所述二级投票子分类器进行归一整合以建立二级目标分类模型,其中,所述所述二级目标分类模型的输出结果为各个所述二级投票子分类器的输出结果概率归一化处理后概率最大的输出结果。

    57、在一种可能的实现方式中,所述分类器第二搭建模块还用于:

    58、将所述二级训练集中的所述数据样本输入所述初始分类器中进行训练以得到二级训练分类器;

    59、将所述一级分类结果中除所述二级训练集外的数据样本作为二级测试集,通过所述二级测试集中的所述数据样本对所述二级训练分类器进行测试;

    60、在所述二级训练分类器输出结果的准确率达到第二阈值后,将所述二级训练分类器作为所述二级目标分类器。

    61、在一种可能的实现方式中,所述初始分类器包括逻辑回归分类器、随机森林分类器、adaboost分类器、rusboost分类器和xgboost分类器中的至少一种。

    62、本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的甲状腺数据分类模型的建模方法。

    63、本发明进一步公开了一种终端,包括:处理器及存储器;

    64、所述存储器用于存储计算机程序;

    65、所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行上述的甲状腺数据分类模型的建模方法。

    66、本发明所述甲状腺数据分类模型的建模方法、装置介质及终端的有益效果至少包括:通过对数据样本集中真实的甲状腺生理指标数据进行增强和均衡处理以得到目标样本集,通过目标样本集进行模型训练和测试以分别得到一级目标分类模型和二级目标分类模型,提高了最终建模的准确性,也提高了一级目标分类模型和二级目标分类模型对甲状腺生理指标数据分类的准确性,而且一级目标分类模型和二级目标分类模型能够分别对甲状腺生理指标数据进行基础分类和亚型分类,能够辅助医生对甲状腺疾病进行早期筛查、临床辅助诊断和对症治疗。


    技术特征:

    1.一种甲状腺数据分类模型的建模方法,其特征在于,包括:

    2.根据权利要求1所述的甲状腺数据分类模型的建模方法,其特征在于,所述对所述数据样本集进行样本处理,包括:

    3.根据权利要求2所述的甲状腺数据分类模型的建模方法,其特征在于,所述基于所述目标特征合成新数据样本并添加至所述第一样本集之中得到目标样本集,包括:

    4.根据权利要求2所述的甲状腺数据分类模型的建模方法,其特征在于,所述通过所述一级训练集对所述初始分类器进行训练以得到一级目标分类器,包括:

    5.根据权利要求4所述的甲状腺数据分类模型的建模方法,其特征在于,所述基于所述一级目标分类器构建一级目标分类模型,包括:

    6.根据权利要求1所述的甲状腺数据分类模型的建模方法,其特征在于,所述建模方法还包括:

    7.根据权利要求6所述的甲状腺数据分类模型的建模方法,其特征在于,所述通过所述二级训练集对所述初始分类器进行训练以得到二级目标分类器,包括:

    8.根据权利要求1至7任一项所述的甲状腺数据分类模型的建模方法,其特征在于,所述初始分类器包括逻辑回归分类器、随机森林分类器、adaboost分类器、rusboost分类器和xgboost分类器中的至少一种。

    9.一种甲状腺数据分类模型的建模装置,其特征在于,包括:

    10.根据权利要求9所述的甲状腺数据分类模型的建模装置,其特征在于,所述样本处理模块还用于:

    11.根据权利要求10所述的甲状腺数据分类模型的建模装置,其特征在于,所述样本处理模块还用于:

    12.根据权利要求9所述的甲状腺数据分类模型的建模装置,其特征在于,所述分类器第一搭建模块还用于:

    13.根据权利要求12所述的甲状腺数据分类模型的建模装置,其特征在于,所述一级模型建立模块还用于:

    14.根据权利要求9所述的甲状腺数据分类模型的建模装置,其特征在于,所述建模装置还包括:

    15.根据权利要求14所述的甲状腺数据分类模型的建模装置,其特征在于,所述分类器第二搭建模块还用于:

    16.根据权利要求9至15任一项所述的甲状腺数据分类模型的建模装置,其特征在于,所述初始分类器包括逻辑回归分类器、随机森林分类器、adaboost分类器、rusboost分类器和xgboost分类器中的至少一种。

    17.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的甲状腺数据分类模型的建模方法。

    18.一种终端,其特征在于,包括:处理器及存储器;


    技术总结
    本发明提供了一种甲状腺数据分类模型的建模方法、装置、存储介质及终端,所述甲状腺数据分类模型的建模方法,包括:获取数据样本集,所述数据样本集包括多个数据样本,数据样本的特征包括年龄、性别和六个甲状腺基础生理指标;对所述数据样本集进行样本处理,将经过样本处理后的数据样本集按照第一预设比例选择部分数据作为一级训练集;基于一级训练集搭建至少一种初始分类器,通过一级训练集对初始分类器进行训练以得到一级目标分类器;将一级目标分类器作为投票子分类器以构建一级目标分类模型。本发明建立的分类模型能够对甲状腺生理指标数据进行基础分类和亚型分类,能够辅助医生对甲状腺疾病进行早期筛查、临床辅助诊断和对症治疗。

    技术研发人员:陶帅,田超楠,杜东,孙健乐,周文昌,方灵
    受保护的技术使用者:上海佰翊医疗科技有限公司
    技术研发日:
    技术公布日:2024/4/29
    转载请注明原文地址:https://wp.8miu.com/read-86454.html

    最新回复(0)