本发明涉检验医学领域,具体为一种基于人工智能算法的检验科异常样本监控方法
背景技术:
(一)医患情况现状描述
生活条件的改善使得人们对于健康认知的不断提高,且目前我国亚健康人群占比约80%,针对于医疗行业存在一个明显的现象就是医疗资源的匮乏,医患比例明显不对等,在这样的场景下利用技术手段提高医疗行业整体的运作效率成为了趋势和方向,一种基于人工智能算法的检验科异常样本监控方法应用于检验科,利用机器学习手段大幅提高样本审核效率。
(二)检验科对于血常规样本的处理场景案例
检验科对于样本的检测类型较多,这里利用血常规例举用于概括实际场景,血常规作为人体健康的重要衡量指标,大型医院每天需要检验乃至几千的人体标本,针对于如此大的检验量虽然检验项目的指标计算已经利用仪器实现,但仪器只能反馈血常规中各个指标数量级上的检测结果,检验科在将样本传递至临床之前需要针对样本进行进一步的人工审核和排查,从而给到临床较为准确、真实、客观的参考结果,除此之外仪器对于样本指标检测过程也会发生一定随机异常和系统异常问题,如若标本出现异常对于临床诊断会带来很大的影响,检验科为了保证样本在临床诊断中的意义,所以仪器的检验结果需要人工进行审核,审核标准主要参考血常规的国际41条通用规则进行对比,审核过程如若发现样本检验结果逾越了国际41条的任意一条都需要做出进一步的处理,例如涂片镜检、重新抽样等,针对于人工审核这样量级的样本其实效率并不高,本发明旨在实现仪器检验结果的自动审核及异常数据的自动发现,软件程序直接对接与仪器输出结果进行进一步计算,自动检测出真正的异常数据,从根本提高样本审核效率减少人工审核量,摆脱每条样本都需要人工审核的情况。
(三)技术背景及技术选型背景概述
人工智能领域的机器学习是一种交叉学科,本质是利用逻辑算法和计算资源并基于大量数据的经验总结行为,鉴于数据支持的情况下,利用机器学习算法可以较好的拟合异常发现场景,并经过大量数据集的迭代可获得较为准确的识别准度,且利用算法的异常识别可通过自定义参数调整识别异常的灵敏度,这是其他技术所难以实现的。针对于检验科较多的收费项目实现不同检验模块的自动审核只需要利用对应的数据训练机器学习模型即可(此过程针对于数据的清洗处理暂不考虑),利用该技术手段可以快速得出对应的异常数据监控模型,效率上远远超越以往基于经验的人工审核。
技术实现要素:
(一)发明意图
本发明意在指出一种基于机器学习算法和检验数据的自动异常样本发现技术,应用于医疗机构,解决样本检验中低效的人工审核样本工作。
(二)技术包含内容
内容概述:为达成上述目的,技术架构主要包含数据获取及清洗、特征转换、模型训练、模型评估、模型部署等几个要点,该技术主要流程包含以下几个重点内容。
数据获取及清洗:针对训练数据量级,数据量越大越容易使机器学习异常检测模型学到更具描述性的参数特征,准确性及参考价值也就越高。针对训练数据特征上主要包含两个部分,分别为样本基本信息和样本的仪器检验结果。样本基本信息应包含年龄、性别、年龄单位(天,周,月,年),因为不同年龄和性别下对应的异常情况是不同的。样本的仪器检验结果指仪器对于样本中各项指标的识别结果,数据类型主要为数值型结果和分类型结果。
特征转换:在机器学习异常检测模型训练之前需要将数据清洗为机器学习模型需要的类型,该架构下需要提供的数据格式为数值型且非缺失数据进行训练,且为避免特征量纲的影响前期需要对数据进行相应的标准化及归一化,涉及到分类字段除了做数值化以外尽量使用独热编码取代。
模型训练:关于模型的选择与构建要根据实际数据量和数据分布特点选择更加合适的机器学习算法训练模型,从而得到精度更高的异常检测模型。
模型评估:关于异常数据的把控重点在于模型输出样本异常概率的应用,模型输出的异常概率可以较好的反应样本与总体之间的离群情况,即异常情况。通过利用样本异常概率作为样本异常标注的逻辑阈值可以实现自定义的异常比例控制。调试阈值,用于评估模型在不同阈值下对于异常数据的预测效果。
部署环境:训练好的机器学习模型本质是一个系统组件,模型的部署环境一般为检验科样本检测仪器、lis系统、或部署于远端服务供相应客户端访问,场景比较多样化,应用比较灵活。
附图说明
图1为本发明一种基于人工智能算法的检验科异常数据监控方法的逻辑架构图。
具体实施方式
一种基于人工智能算法的检验科异常数据监控方法逻辑架构如图1所示,下面通过一个实例说明具体实施方式。
这里以检验科血常规的异常数据监控场景为例展开说明。
针对机器学习模型训练数据应包含以下两个部分,即样本基本信息数据和仪器检验结果,该两个部分的所有数据组合共同组成训练数据集,同样预测数据应于训练数据的输入字段所对应。
针对于合并后的训练数据集应先做相应的数据清洗,保证训练数据集没有缺失数据,如若存在缺失优先考虑使用字段均值填补,如若数据中存在字符串数据需先对字符数据做出处理,将字符数据转换为数值型.分类型字段应先将其转换为数值型,机器学习模型学习之前应转换为独热编码,例如性别字段,其很可能以字符类型传递,数据清洗阶段,应保证输出数据全部为数值型数据。(缺失填补时需要注意数据本身的缺失情况,如若总体缺失比例大于70%,则需要进一步删除缺失数据,随后再进行统计学填补)。
针对以上输出数据,为方便机器学习异常算法学习,需要进一步针对其进行特征转换,特征转换主要包含分类字段的编码化,标签字段的独热化,连续型特征需要先对其进行数据标准化和数据归一化,目的是加快算法学习速度和学习准度,以及避免不同特征单位量纲的不同导致的学习误差,以上内容为特征转换的主要内容。(数据标准化的目的是为了将非标准正态分布字段转换为标准正太分布)。
特征处理完成的数据便可进入机器学习算法进行学习,关于算法的选择,由于实现该需求下对应的特征一般较多,所以算法的选择上应侧重于适合中高纬度学习的异常检测算法。
随着训练集数据量的不同,算法迭代训练的耗时也会发生变化,最终算法的测试应利用具备明显异常数据的测试集进行算法测试,如若算法对于异常数据具备明显的识别功能,则说明算法的训练是有效且准确的。
异常检测模型输出的结果值应取异常概率,通过数据异常概率判断数据是否异常,因为概率值是人为可控的,更能适应实际应用场景,最终通过该阈值可以实现人为异常比例的控制。
训练完成的异常检测算法本质是一个系统组件,可以将其部署于检验仪器、lis系统或作为服务端部署于服务器中,供远程客户端携带数据访问。
血常规异常检测算法利用血常规国际41规则(目前国内几乎所有的医院针对于血常规的复检规则主要参考血常规国际41条)对数据进行打标,将标签数据集作为测试数据,经测试,当设置一个最优阈值的情况下,机器学习手段基本可以涵盖国际规则,且在其之外,机器学习由于其复杂的内部运算还能发现规则以外的异常数据,例如多特征关联异常,国际41条只能发现在单维度上异常的样本,无法综合所有特征进行异常判断,而机器学习算法能够识别多维空间内的样本异常情况,所述方法本质是利用无监督机器学习实现,这里只是指出一种应用于检验科有效的异常数据发现的方法,具体效果以实际为准,因为机器学习的效果可能受到的影响因素比较多,例如训练数据质量、训练数据量级、特征工程方法、测试数据质量。如上述几点不能保证其质量,那么很可能对机器学习造成影响,导致其准确度评估不能达到理想状态。
1.一种基于人工智能算法的检验科异常数据监控方法其特征在于使用机器学习手段解决检验科实际场景中的异常数据发现,从而可以取代大量的人工样本审核工作。
2.一种基于人工智能算法的检验科异常数据监控方法包括数据获取、数据清洗、特征转换、模型训练、模型评估、模型部署。
3.根据权利要求1所述的数据获取,其特征在于:训练数据和被测数据均直接或间接来源于his和lis系统。
4.根据权利要求1所述的数据清洗,其特征在于:针对于所有训练和被测数据应全部转换为数值型,针对于所有训练和测试数据应全部做出缺失处理,保证数据是完整且无缺失的。
5.根据权利要求1所述的特征转换,其特征在于:针对于清洗后的数据为保证算法的学习准度和算法迭代速度,需要对数据做出相应的特征转换,具体转换包含以下几项,分类数据编码化,符合正态分布的特征进行标准化,其他字段进行0~1归一化。
6.根据权利要求1所述的模型训练,其特征在于:要依据实际数据量大小和具体数据特征类型情况选择合适的机器学习异常检测算法进行模型训练。
7.根据权利要求1所述的模型评估,其特征在于:针对训练完成的模需要进一步对模型进行初步的异常检测功能评估,评估需要基于模型针对于样本输出的异常概率值,由于模型本身基于无监督学习算法,所以对于模型的预测结果需要进行抽样分析,分析预测数据是否满足符合异常情况,从而设定初始异常阈值,在实际应用场景中该阈值还可以人为调整,从而调整异常检测模型对于异常数据的灵敏度。
8.根据权利要求1所述的模型部署,其特征在于:针对于训练完成的模型其本身可以作为系统组件部署于lis系统、检验仪器系统,或作为服务端部署于可执行计算机程序的计算器中,供远程客户端访问。
技术总结