本发明涉及染色体处理技术领域,尤其是一种染色体簇与染色体实例的识别方法、系统和存储介质。
背景技术:
由于染色体是人类遗传信息的重要载体且是先天性遗传疾病诊断的最主要和最重要的途径,因此,染色体核型分析被应用于产前诊断,用于筛查妊娠胚胎是否患有先天遗传疾病。染色体核型分析主要是通过电子显微镜拍摄中期染色体的细胞图象,再对染色体图象进行分割,获得46条染色体实例,最后对所获得的染色体实例进行分类,以生成细胞染色体核型图。但是,由于在染色体分割过程中,往往需要人工挑选出染色体实例和染色体簇两类图像,从而增加工作人员的工作量,同时也容易出现因视觉疲劳导致挑选错误的情况。
技术实现要素:
为解决上述技术问题,本发明的目的在于:提供一种染色体簇与染色体实例的识别方法、系统和存储介质,其能提高染色体簇与染色体实例的识别结果的准确性,以及减少工作人员的工作量。
第一方面,本发明实施例提供了:
一种染色体簇与染色体实例的识别方法,包括以下步骤:
获取第一染色体图像,所述第一染色体图像为待识别染色体图像;
采用预先训练的分类模型确定所述第一染色体图像的类型;
其中,所述分类模型的训练步骤包括:
获取第二染色体图像;
提取所述第二染色体图像的若干个几何形态特征;
通过所述第二染色体图像的若干个几何形态特征对所述分类模型进行训练,得到模型权重。
进一步地,在所述获取第二染色体图像这一步骤后,还包括以下步骤:
预先标记所述第二染色体图像的类型。
进一步地,所述通过所述第二染色体图像的若干个几何形态特征对所述分类模型进行训练,包括:
对所述第二染色体图像的若干个几何形态特征进行排序;
通过排序后的第二染色体图像的若干个几何形态对所述分类模型进行训练。
进一步地,所述采用预先训练的分类模型确定所述第一染色体图像的类型,包括:
提取所述第一染色体图像的若干个几何形态特征;
采用预先训练的分类模型对所述第一染色体图像的若干个几何形态特征进行分类;
根据分类结果确定所述第一染色体图像的类型。
进一步地,所述提取所述第二染色体图像的若干个几何形态特征,其具体为:
采用预设的api接口提取所述第二染色体图像的若干个几何形态特征。
进一步地,所述若干个几何形态特征包括11个几何形态特征,所述11个几何形态特征包括染色体物体的像素面积、染色体物体边界框面积、染色体物体的凸包面积、染色体物体边界面积比、染色体的凸包面积比、染色体物体的周长、染色体物体的等价圆直径、等价正定二阶椭圆离心率、等价正定二阶椭圆长轴长度、等价正定二阶椭圆短轴长度和正定二阶椭圆短长轴比。
进一步地,所述分类模型为逻辑回归算法、svm算法或随机森林算法。
第二方面,本发明实施例提供了:
一种染色体簇与染色体实例的识别系统,包括:
第一获取模块,用于获取第一染色体图像,所述第一染色体图像为待识别染色体图像;
识别模块,用于采用预先训练的分类模型确定所述第一染色体图像的类型;
训练模块,用于对所述分类模型进行训练,所述分类模型的训练步骤包括:
获取第二染色体图像;
提取所述第二染色体图像的若干个几何形态特征;
通过所述第二染色体图像的若干个几何形态特征对所述分类模型进行训练,得到模型权重。
第三方面,本发明实施例提供了:
一种染色体簇与染色体实例的识别系统,包括:
至少一个存储器,用于存储程序;
至少一个处理器,用于加载所述程序以执行所述的染色体簇与染色体实例的识别方法。
第四方面,本发明实施例提供了:
一种存储介质,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于实现所述的染色体簇与染色体实例的识别方法。
本发明实施例的有益效果是:本发明实施例通过提取获取到的第二染色体图像的若干个几何形态特征,并通过第二染色体图像的若干个几何形态特征对分类模型进行训练,得到模型权重,然后在通过预先训练好的分类模型确定待识别染色体图像的类型,以快速对染色体簇和染色体实例进行分类,从而无需人工挑选染色体实例图像和染色体簇图像,减少工作人员的工作量,提高染色体簇与染色体实例的识别结果的准确性。
附图说明
图1为本发明一种具体实施例的染色体簇与染色体实例的识别方法的流程图;
图2为本发明一种具体实施例的分类模型训练方法的流程图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
首先,对本申请出现的名词进行解释:
染色体中期细胞图像:其指通过电子显微镜拍摄的细胞中期的灰度图像。
染色体核型图:其指对染色体实例进行分割后,依据条带信息进行排序,生成核型图。
染色体实例:其指一条一条的染色体。正常的人体细胞中,包含23对染色体,其中22对常染色体,编号从1到22号,每一对染色体中,有一条遗传自母亲,有一条遗传自父亲。在一对性染色体中,女性为两条x,分别遗传自母亲和父亲,男性为一条x(遗传自母亲)和一条y(遗传自父亲)。异常人体的细胞中,可能在某对或者某几对染色体中缺少其中一条染色体,或者多出一条染色体。
染色体核型分析:其指对染色体中期细胞图象进行分割,获取到所有染色体实例,然后再根据染色体条带信息进行排序生成染色体核型图的过程。染色体核型分析主要包括两个步骤,染色体的实例分割和染色体的分类。制约染色体的核型分析的主要障碍在与重叠和接触染色体簇的分离或分割。
染色体簇:其指有两条或者两条以上的染色体重叠、相连(接触)在一起,形成具有像素相连的簇。根据簇形成的原因,染色体簇还可以进一步细分为重叠染色体簇(overlappingchromosomecluster)、接触染色体簇(也叫:相连染色体簇,touchingchromosomecluster)以及重叠并接触染色体簇(overlapping&touchingchromosomecluster)。其中,重叠染色体簇是指两条或者两条以上的染色体实例重叠在一起;接触染色体簇是指两条或者两条以上的染色体实例相连;重叠并接触染色体簇是指三条或三条以上的染色体实例重叠和接触在一起。
参照图1,本发明实施例提供了一种染色体簇与染色体实例的识别方法,本发明实施例可应用于服务端或者各类处理终端。其中,本实施例包括以下步骤:
s11、获取第一染色体图像,该第一染色体图像为当前待识别染色体图像。
s12、采用预先训练的分类模型确定第一染色体图像的类型;在本步骤中,第一染色体图像的类型包括染色体实例图像和染色体簇图像。而预先训练的分类模型则是用于确定当前待识别染色体图像是染色体实例图像还是染色体簇图像。在确定好染色体图像类型后,将确定好的染色体图像保存到对应的图像集内,以便于提高后续的操作过程。
在一些实施例中,步骤s12可通过以下方式实现:
提取第一染色体图像的若干个几何形态特征;其中,本步骤的若干个几何形态特征包括11个几何形态特征,该11个几何形态特征包括染色体物体的像素面积area、染色体物体边界框面积bboxarea、染色体物体的凸包面积convexarea、染色体物体边界面积比extent=area/bbox_area、染色体的凸包面积比solidity=area/convex_area、染色体物体的周长perimeter、染色体物体的等价圆直径
具体地,上述预先训练的分类模型可以为逻辑回归算法、svm算法或随机森林算法等机器学习分类算法。而分类模型的训练步骤如图2所示,其包括:
s21、获取第二染色体图像;第二染色体图像包括若干张染色体图像,其均是用于对分类模型进行训练的图像。在获取到第二染色体图像后,标记出第二染色体图像的类型。
s22、提取第二染色体图像的若干个几何形态特征;本步骤的若干个几何形态特征可以是采用预设的api接口提取。该预设的api可以通过pythonpil库的measure模块提供。其中,measure模块是pilpython图象处理库中提供的一个图象处理模块,该模块实现了常用的图象处理算法,并以标准api接口提供给应用调用。
本步骤的若干个几何形态特征包括11个几何形态特征,该11个几何形态特征包括染色体物体的像素面积area、染色体物体边界框面积bboxarea、染色体物体的凸包面积convexarea、染色体物体边界面积比extent=area/bbox_area、染色体的凸包面积比solidity=area/convex_area、染色体物体的周长perimeter、染色体物体的等价圆直径
s23、通过第二染色体图像的若干个几何形态特征对分类模型进行训练,得到模型权重。本步骤具体是预先标记的第二染色体的类型和第二染色体图像的若干个几何形态特征对分类模型进行训练,以得到模型权重。
在一些实施例中,在分类模型训练之前,无需对第二染色体图像的若干个几何形态特征进行排序。在另一些实施例中,在分类模型训练之前,对第二染色体图像的若干个几何形态特征进行排序,然后通过排序后的第二染色体图像的若干个几何形态对分类模型进行训练。其中,训练是指一个具有学习能力的算法在监督数据中进行学习,不断调整算法的参数的过程。使用python的scikit-learn(简称sklearn)库进行。sklearn中提供了逻辑回归、决策树、svm等现成分类算法实现。在训练过程中会进行多次迭代优化算法的参数,提高算法的准确率。一般而言,训练停止的条件是达到了训练过程最大迭代次数,或者达到了训练过程中预先设置的停止条件,例如连续n次迭代,错误率不再下降,即认为是算法已经收敛,训练已经完成。当算法训练完成后,即能使用该算法在训练完成后得到的模型权重对新的数据进行预测。
例如,使用
综上可知,上述实施例无需在gpu环境上进行大量的卷积运算,只需要在普通装有python环境的终端设备上即可运行,且使用机器学习的分类算法,比阈值算法具有更好的拟合能力,识别的准确率更好。
本发明实施例提供了一种染色体簇与染色体实例的识别系统,包括:
第一获取模块,用于获取第一染色体图像,所述第一染色体图像为待识别染色体图像;
识别模块,用于采用预先训练的分类模型确定所述第一染色体图像的类型;
训练模块,用于对所述分类模型进行训练,所述分类模型的训练步骤包括:
获取第二染色体图像;
提取所述第二染色体图像的若干个几何形态特征;
通过所述第二染色体图像的若干个几何形态特征对所述分类模型进行训练,得到模型权重。
本发明方法实施例的内容均适用于本系统实施例,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法达到的有益效果也相同。
本发明实施例提供了一种染色体簇与染色体实例的识别系统,包括:
至少一个存储器,用于存储程序;
至少一个处理器,用于加载所述程序以执行所述的染色体簇与染色体实例的识别方法。
本发明方法实施例的内容均适用于本系统实施例,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法达到的有益效果也相同。
本发明实施例提供了一种存储介质,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于实现所述的染色体簇与染色体实例的识别方法。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图1和图2所示的方法。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
1.一种染色体簇与染色体实例的识别方法,其特征在于,包括以下步骤:
获取第一染色体图像,所述第一染色体图像为待识别染色体图像;
采用预先训练的分类模型确定所述第一染色体图像的类型;
其中,所述分类模型的训练步骤包括:
获取第二染色体图像;
提取所述第二染色体图像的若干个几何形态特征;
通过所述第二染色体图像的若干个几何形态特征对所述分类模型进行训练,得到模型权重。
2.根据权利要求1所述的一种染色体簇与染色体实例的识别方法,其特征在于,在所述获取第二染色体图像这一步骤后,还包括以下步骤:
预先标记所述第二染色体图像的类型。
3.根据权利要求2所述的一种染色体簇与染色体实例的识别方法,其特征在于,所述通过所述第二染色体图像的若干个几何形态特征对所述分类模型进行训练,包括:
对所述第二染色体图像的若干个几何形态特征进行排序;
通过排序后的第二染色体图像的若干个几何形态对所述分类模型进行训练。
4.根据权利要求1所述的一种染色体簇与染色体实例的识别方法,其特征在于,所述采用预先训练的分类模型确定所述第一染色体图像的类型,包括:
提取所述第一染色体图像的若干个几何形态特征;
采用预先训练的分类模型对所述第一染色体图像的若干个几何形态特征进行分类;
根据分类结果确定所述第一染色体图像的类型。
5.根据权利要求1所述的一种染色体簇与染色体实例的识别方法,其特征在于,所述提取所述第二染色体图像的若干个几何形态特征,其具体为:
采用预设的api接口提取所述第二染色体图像的若干个几何形态特征。
6.根据权利要求1或2所述的一种染色体簇与染色体实例的识别方法,其特征在于,所述若干个几何形态特征包括11个几何形态特征,所述11个几何形态特征包括染色体物体的像素面积、染色体物体边界框面积、染色体物体的凸包面积、染色体物体边界面积比、染色体的凸包面积比、染色体物体的周长、染色体物体的等价圆直径、等价正定二阶椭圆离心率、等价正定二阶椭圆长轴长度、等价正定二阶椭圆短轴长度和正定二阶椭圆短长轴比。
7.根据权利要求1-5任一项所述的一种染色体簇与染色体实例的识别方法,其特征在于,所述分类模型为逻辑回归算法、svm算法或随机森林算法。
8.一种染色体簇与染色体实例的识别系统,其特征在于,包括:
第一获取模块,用于获取第一染色体图像,所述第一染色体图像为待识别染色体图像;
识别模块,用于采用预先训练的分类模型确定所述第一染色体图像的类型;
训练模块,用于对所述分类模型进行训练,所述分类模型的训练步骤包括:
获取第二染色体图像;
提取所述第二染色体图像的若干个几何形态特征;
通过所述第二染色体图像的若干个几何形态特征对所述分类模型进行训练,得到模型权重。
9.一种染色体簇与染色体实例的识别系统,其特征在于,包括:
至少一个存储器,用于存储程序;
至少一个处理器,用于加载所述程序以执行如权利要求1-7任一项所述的染色体簇与染色体实例的识别方法。
10.一种存储介质,其中存储有处理器可执行的指令,其特征在于,所述处理器可执行的指令在由处理器执行时用于实现如权利要求1-7任一项所述的染色体簇与染色体实例的识别方法。
技术总结