基于多视图学习和深度监督自编码器的医学影像分类方法及装置与流程

    专利2022-07-08  94


    本发明具体涉及一种基于多视图学习和深度监督自编码器的医学影像分类方法及装置。



    背景技术:

    医学影像主要包括x光、计算机断层扫描(ct)、正电子扫描(pet)、超声、核磁共振成像(mri)等。随着医学影像技术和计算机技术的不断发展和进步,近年来,医学影像分类已经成为临床疾病诊断和医学研究中非常重要的工具。

    在众多实际问题中,可从多种不同的途径或者多个不同的角度描述同一事物,这样的多种描述构成同一事物的多个视图。多视图可以表示数据的不同特征集;可以表示数据的来源;还可以用来表示数据间的不同关系。真实世界中普遍存在着多视图数据。多视图学习就是从多个角度学习,以提高预测的准确性,它根据数据在不同的视图学习的难易程度不同,来发挥视图之间的相互作用,达到优势互补的结果和协同学习的效果。多视图学习提高性能的方式是通过学习函数来建模每个视图并联合优化所有函数。多视图学习是机器学习中的一个新兴方向,通过多视图学习可以提高泛化性能。多视图学习的一个显著的优点是,通过手动生成的多个视图,在自然的单个视图上的性能仍然可以提高。多视图学习具有重要的现实意义和广阔的发展前景。

    近年来,多视图学习的研究取得了很大的进展。随着医学影像采集技术的发展,临床诊断和医学研究中获得的影像数据常常具有多个视角,形成多视图数据。

    特征选择是一种降低维度的常用方法,通过特征选择,可以选择重要的特征以避免维度灾难和降低计算成本;同时,它可以用来去除噪声来降低学习的难度,去除噪声的干扰,留下关键因素以提高预测精度;并且可以用来获得更多有物理意义和有价值的特征。

    逻辑回归算法(lr)是传统机器学习中的一种分类模型,可以用来预测或者寻找因变量的影响因素,通过历史数据的表现对未来结果发生的概率进行预测,lr的优点是:适合需要得到一个分类概率的场景、计算代价不高并且容易理解实现、对小噪声的鲁棒性很好。但是lr有它的缺点,容易欠拟合导致分类精度不高以及特征空间很大时分类表现也不好。随机森林算法(rf)是另一种机器学习算法。它通过集成学习的思想将多棵树集成。它的表现性能比较好,可以处理很高维度的数据,并且可以平衡误差,此外,rf的抗过拟合能力比较强。但是,使用rf时,无法控制模型内部的运行,并且可能会有很多相似的决策树从而掩盖真实结果,当数据维数较少时,分类表现也不好。支持向量机(svm)是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器。svm的优点是它具有良好的学习能力,可以解决小样本情况下的分类问题,并且错误率比较低。但是,svm对于参数调节和函数的选择敏感。深度神经网络(dnn)是有很多隐藏层的神经网络。而我们提出的深度监督自编码器(dsae)在dnn的基础上多加了解码器部分。实践中发现,dsae比dnn具有更优秀的分类性能。



    技术实现要素:

    本发明所解决的技术问题是,针对现有技术的不足,提供一种基于多视图特征和深度监督自编码器的影像分类方法及装置,这个方法能够提高影像分类的准确度。

    为实现上述目的,本发明的技术方案如下:

    一种基于多视图特征和深度监督自编码器的影像分类方法,包括以下步骤:

    步骤1、分别将每个医学影像进行预处理,将原始医学影像分解为多个频率子带;

    步骤2、从多个频率子带中提取特征,并用提取出来的特征构成一个多视图特征集;

    步骤3、构建一个基于潜在表示的诊断框架,该框架由深度监督自编码器(dsae)组成,用dsae将原始特征映射到潜在空间中以学习潜在表示;

    步骤4、基于提出的基于多视图特征和深度监督自编码器的影像分类方法对未知分类标签的医学影像进行分类。

    进一步地,所述步骤1中,对医学影像进行预处理的过程是:首先将每位受试者的医学影像重建为3d影像,然后提取每个3d影像的感兴趣区域,之后对感兴趣区域进行滤波处理;

    将医学影像重建为3d影像使用的是dcm2nii软件包;

    提取3d影像的感兴趣区域使用的是3du-net模型,该模型被广泛用于医学影像分割;

    为了克服样本厚度变化之间的差异,通过b样条插值将感兴趣区域的体积数据重新采样为1mm×1mm×1mm的体素分辨率;

    之后,使用3d小波变换(3d-wt)对感兴趣区域进行小波分解,以捕获八个不同的频率子带,这八个频率子带分别为:lll、lhl、hll、hhl、llh、lhh、hlh、hhh;3d-wt会提供原始信号的空间和频率表示;关于小波分解,3d-wt可以用张量积表示,如下:

    其中,代表空间直和;代表卷积运算;lγ和hγ分别表示沿γ方向的低通滤波和高通滤波,γ∈x,y,z;

    从具有不同频率的子带中提取了包括灰色特征和纹理特征在内的多个特征,这些特征被视为多视图特征集;

    进一步地,定义了如下符号:表示训练样本,其中,代表多视图特征集(n和m分别表示样本数目和多视图特征);表示相应的标签集,其中,yn分别表示医学影像的分类类别。

    进一步地,所述步骤2中,灰度特征(共有18个特征)主要由一阶统计量组成,一阶统计量是根据体素的直方图计算得出的,描述了感兴趣体积(voi)内体素的分布,例如熵(entropy),能量(energy),最大值(maximum),均值(mean)等。标准化的一阶直方图定义如下:

    其中,p(i)代表标准化的一阶直方图;pi表示体素级别的数量i;

    从灰度共生矩阵(glcm,24个特征),灰度相关矩阵(gldm,14个特征),灰度游程长度矩阵(glrlm,16个特征),灰度大小区域矩阵(glszm,16个特征)和相邻的灰度差矩阵(ngtdm,5个特征)中提取纹理特征;

    标准化的glcm定义如下:

    其中,m(i,j)代表标准化的glcm;

    具体地,glcm的24个特征分别为:自相关(autocorrelation)、联合平均(jointaverage)、集群突出(clusterprominence)、集群阴影(clustershade)、集群趋势(clustertendency)、相关性(correlation)、差分平均值(differenceaverage)、差熵(differenceentropy)、差方差(differencevariance)、联合能量(jointenergy)、联合熵(jointentropy)、相关的信息量度1(informationalmeasureofcorrelation1)、相关的信息量度2(informationalmeasureofcorrelation2)、逆差矩(inversedifferencemoment)、最大相关系数(maximalcorrelationcoefficient)、逆差矩标准化(inversedifferencemomentnormalized)、反差商(inversedifference)、反差分标准化(inversedifferencenormalized)、逆方差(inversevariance)、最大概率(maximumprobability)、和平均(sumaverage)、和熵(sumentropy)、平方和(sumsquares)及对比(contrast);

    标准化的gldm定义如下:

    其中,m(i,j)代表gldm;m(i,j)代表标准化的gldm;nz表示影像中依赖区域的数目;

    具体地,gldm的14个特征分别为:小依赖强调(smalldependenceemphasis)、大依赖强调(largedependenceemphasis)、灰度不均匀性(graylevelnon-uniformity)、依赖不一致性(dependencenon-uniformity)、依赖不一致性的标准化(dependencenon-uniformitynormalized)、灰度方差(graylevelvariance)、依赖方差(dependencevariance)、依赖熵(dependenceentropy)、低灰度强调(lowgraylevelemphasis)、高灰度强调(highgraylevelemphasis)、小依赖性低灰度强调(smalldependencelowgraylevelemphasis)、大依赖性低灰度强调(largedependencelowgraylevelemphasis)、小依赖性高灰度强调(smalldependencehighgraylevelemphasis)及大依赖性高灰度强调(largedependencehighgraylevelemphasis);

    标准化的glrlm定义如下:

    其中,ng、nr和np分别为影像中离散强度值的数量,游程长度大小和体素;m(i,j|θ)表示glrlm;nr(θ)代表在影像中沿θ方向游程的数目;m(i,j|θ)表示标准化的glrlm;

    具体地,glrlm的16个特征分别为:短游程强调(shortrunemphasis)、长游程强调(longrunemphasis)、灰度不均匀性(graylevelnon-uniformity)、灰度不均匀性的标准化(graylevelnon-uniformitynormalized)、游程长度不一致性(runlengthnon-uniformity)、游程长度不一致性的标准化(runlengthnon-uniformitynormalized)、游程占体素的百分比(runpercentage)、灰度方差(graylevelvariance)、游程方差(runvariance)、游程熵(runentropy)、低灰度游程强调(lowgraylevelrunemphasis)、高灰度游程强调(highgraylevelrunemphasis)、低灰度短游程强调(shortrunlowgraylevelemphasis)、高灰度短游程强调(shortrunhighgraylevelemphasis)、低灰度长游程强调(longrunlowgraylevelemphasis)及高灰度长游程强调(longrunhighgraylevelemphasis);

    glszm旨在量化图像的灰度区域,标准化的glszm定义如下:

    其中,ng、ns和np分别为影像中离散强度值的数目、区域大小和体素;m(i,j)表示glszm;nz代表voi中的区域数目;m(i,j)表示标准化的glszm;

    具体地,glszm的16个特征分别为:小区域强调(smallareaemphasis)、大区域强调(largeareaemphasis)、灰度不均匀性(graylevelnon-uniformity)、灰度不均匀性的标准化(graylevelnon-uniformitynormalized)、区域大小不均匀性(size-zonenon-uniformity)、区域大小不均匀性的标准化(size-zonenon-uniformitynormalized)、区域百分比(zonepercentage)、灰度方差(graylevelvariance)、区域方差(zonevariance)、区域熵(zoneentropy)、低灰度区域强调(lowgraylevelzoneemphasis)、高灰度区域强调(highgraylevelzoneemphasis)、小区域低灰度强调(smallarealowgraylevelemphasis)、小区域高灰度强调(smallareahighgraylevelemphasis)、大区域低灰度强调(largearealowgraylevelemphasis)及大区域高灰度强调(largeareahighgraylevelemphasis);

    具体地,ngtdm的5个特征分别为:粗(粒)度(coarseness)、对比度(contrast)、繁忙度(busyness)、复杂度(complexity)及强度(strength);

    由此,每个子带总共93个特征,每个医学影像的8个子带总共提取了744个放射形特征。

    进一步地,所述步骤3中,自编码器是一个人工神经网络,这个网络被用来以无监督的方式学习潜在数据表示,从而可以最好地重构原始数据;自编码器可以用来降维和挖掘潜在特征;为了学习具有类结构的潜在表示,提出dsae框架;

    dsae框架由三个部分组成:

    编码器,用于从输入数据中学习潜在表示;

    解码器,用于从潜在表示中重构输入;

    监督器,用于构建潜在表示和进行影像的分类;

    进一步地,编码器有三个隐藏层,每个隐藏层分别具有256、128和16个神经元,其中,最后一个隐藏层用作表示层;

    相反,解码器是编码器的反向操作,解码器具有两个隐藏层,每个隐藏层有128和256个神经元,解码器输出层和编码器输入层的大小相同;

    监督器位于表示层(编码器的最后一个隐藏层)之后,监督器由一个归一化层、一个衰减率为0.5的dropout层及一个分类输出层组成;

    基于如上所述结构的dsae框架也可支持多分类的场景;

    进一步地,为了发现每个影像的潜在高级表示,将多视图特征用作输入并编码到低维空间中;然后,将潜在表示重构为输入的原始维度大小;通过反向传播使重构误差最小化以学习两个稳定的映射,这两个稳定的映射即编码路径中的fe(.;θe)和解码路径中的fd(.;θd),其中,θe和θd分别表示编码路径和解码路径的参数;令tn代表已学习的潜在表示,令代表解码的输出,则tn和可分别表示为:

    tn=fe(xn;θe)

    本发明中,我们提出的自编码器通过如下所示的最小化输入和输出间的均方误差(mse)损失函数来学习潜在表示;

    进一步地,为了使多分类影像的潜在表示结构良好,在表示层中引入了被监督的块,将批归一化策略和dropout策略引入这个被监督的块,用来减少过拟合的问题;用softmax层预测影像的类别。输出的概率可以按如下公式计算:

    其中,表示输出为第i类第n个样本的概率;z代表最后一个全连通层的输出向量;k表示类别的数目;

    这项监督任务采用了广泛使用的交叉熵损失,将定义为如下的交叉熵损失函数最小化,以增强同一类影像的紧实度并给出多类影像之间的界限;

    考虑到信息量和可分离性,联合训练了两个任务,多任务损失函数如下:

    其中,λ是两个任务之间的平衡因子。

    进一步地,所述步骤4中,将未知分类标签的影像的多视图特征集输入我们设计的分类器,对其进行分类并得到最终的分类结果。

    本发明的有益效果是:

    本发明利用三维小波变换将原始的医学影像的感兴趣区域分解为多个不同频域的子带,每个子带定义为一个视图,从每个视图中定量提取影像组学特征进而得到多视图特征。为了让多视图特征具有高阶表示和结构性,基于深度监督自编码器对多视图形态学特征进行表示学习,通过最小化由重构损失和分类损失构成的多任务损失函数来实现该目标,以此来提升模型的泛化性能和分类准确度。具体而言,本发明首先从每个医学影像的感兴趣区域进行小波变换,由于变换后多频子带具有不同特性,进而定义为多视图影像。然后把每种视图影像定量提取形态学特征,考虑到多视图形态学特征具有相同的病理基础,它们之间存在特定的内在关联,因此使用将多视图形态学特征作为输入,构建基于多视图特征的深度监督自编码器分类网络来对多视图特性的高阶表示和选择,通过最小化多任务损失函数使得潜在特征向量既具强的特征表达能力和良好的类结构性,进而提升网络的分类性能。本发明对每种视图提取了的93种不同形态学特征,它们之间既是相互独立的,同时不同形态学特征之间又是彼此相关联的。例如感兴趣区域的体积、灰度共生矩阵等基于形态学测量的特征,他们都是从不同的角度反映感兴趣区域的形态结构变化,为了更好的挖掘这些特征之间的潜在信息,既要考虑不同特征之间存在的差异,同时也要考虑它们之间的联系。自编码器能够更好的捕获样本间的微妙的关系,同时引入类监督损失,将普通的自编码器推广到具备分类能力的网络上,使得学到的潜在表达具有良好的类结构。因此,本发明提出一个基于多视图学习和深度监督自编码器的分类网络用于医学影像分类。

    附图说明

    图1为本发明实施例中一种基于多视图学习和深度监督自编码器的医学影像分类方法的流程图。

    具体实施方式

    下面结合附图对本发明的实施例进行详细阐述,以使本发明的目的,技术方案能被同领域技术人员所理解。

    实施例1:

    参见图1,本实施例提供的基于多形态学多任务特征选择的影像分类方法含有以下步骤:

    步骤1:获取受试者的ct影像(本实施例中以ct为影像),对每个受试者的影像,首先分别进行预处理,具体为:使用dcm2nii软件包将每例病例的医学影像重构为3d影像;然后使用3du-net模型对3d影像进行预处理以提取3d影像的肺实质;为了克服样本厚度变化之间的差异,通过b样条插值将肺实质的体积数据重新采样为1mm×1mm×1mm的体素分辨率。

    步骤2:对步骤1中预处理过的医学影像的感兴趣区域进行小波分解以获得多频子带;

    使用3d-wt对每个分割的体积进行纹理化,以捕获八个不同的频率子带,这八个频率子带分别为:lll、lhl、hll、hhl、llh、lhh、hlh、hhh;3d-wt会提供原始信号的空间和频率表示;关于小波分解,3d-wt可以用张量积表示,如下:

    其中,代表空间直和;代表卷积运算;lγ和hγ分别表示沿γ方向的低通滤波和高通滤波,γ∈x,y,z。

    步骤3:对步骤2中获取的8个子带,从每个子带提取放射组学特征,进而获得训练集和测试集的多视图特征;

    从具有不同频率的子带中提取了包括灰色特征和纹理特征在内的多个特征,这些特征被视为多视图特征集;

    多视图特征集定义如下:

    其中,表示训练样本,xn代表多视图特征集(n和m分别表示样本数目和多视图特征);yn表示相应的标签集,其中,0代表非covid-19肺炎病例,1代表covid-19病例,2代表表现正常的医学影像;

    灰度特征(共有18个特征)主要由一阶统计量组成,一阶统计量是根据体素的直方图计算得出的,描述了感兴趣体积(voi)内体素的分布;

    从灰度共生矩阵(glcm,24个特征),灰度相关矩阵(gldm,14个特征),灰度游程长度矩阵(glrlm,16个特征),灰度大小区域矩阵(glszm,16个特征)和相邻的灰度差矩阵(ngtdm,5个特征)中提取纹理特征;

    由于从多视图医学影像中提取出来的原始特征差异很大,因此标准化特征的预处理步骤对于训练模型至关重要,采用了广泛使用的z分数标准化,其定义如下所示:

    其中,是特征x(i)的标准化特征;l表示特征的数目;μ(i)和δ(i)分别为特征x(i)的平均值和标准差。

    步骤4:用步骤3得到的训练集的多视图特征构建基于多视图特征的深度监督自编码器(dsae)分类网络;

    自编码器是一个人工神经网络,这个网络被用来以无监督的方式学习潜在数据表示,从而可以最好地重构原始数据;自编码器可以用来降维和挖掘潜在特征;为了学习具有类结构的潜在表示,提出dsae框架;

    dsae框架由三个部分组成:

    编码器,用于从输入数据中学习潜在表示;

    解码器,用于从潜在表示中重构输入;

    监督器,用于构建潜在表示和进行影像的三分类;

    编码器有三个隐藏层,每个隐藏层分别具有256、128和16个神经元,其中,最后一个隐藏层用作表示层;

    相反,解码器是编码器的反向操作,解码器具有两个隐藏层,每个隐藏层有128和256个神经元,解码器输出层和编码器输入层的大小相同;

    监督器位于表示层(编码器的最后一个隐藏层)之后,监督器由一个归一化层、一个衰减率为0.5的dropout层及一个三分类输出层组成;

    为了发现每个影像的潜在高级表示,将多视图特征用作输入并编码到低维空间中;然后,将潜在表示重构为输入的原始维度大小;通过反向传播使重构误差最小化以学习两个稳定的映射,这两个稳定的映射即编码路径中的fe(.;θe)和解码路径中的fd(.;θd),其中,θe和θd分别表示编码路径和解码路径的参数;令tn代表已学习的潜在表示,令代表解码的输出,则tn和可分别表示为:

    tn=fe(xn;θe)

    本实验中,自编码器通过如下所示的最小化输入和输出间的均方误差(mse)损失函数来学习潜在表示;

    为了使三种分类影像的潜在表示结构良好,在表示层中引入了被监督的块,将批归一化策略和dropout策略引入这个被监督的块,用来减少过拟合的问题;用softmax层预测影像的类别。输出的概率可以按如下公式计算:

    其中,表示输出为第i类第n个样本的概率;z代表最后一个全连通层的输出向量;k表示类别的数目;

    这项监督任务采用了广泛使用的交叉熵损失,将定义为如下的交叉熵损失函数最小化,以增强同一类影像的紧实度并给出三类影像之间的界限;

    考虑到信息量和可分离性,联合训练了两个任务,多任务损失函数如下:

    其中,λ是两个任务之间的平衡因子;

    训练过程中,使用adam算法进行优化,初始学习率为0.001,每20个纪元(epoch)后减少一半;为了避免过拟合,采取了早停法(earlystoppingstrategy),如果验证损失没有在50个纪元(epoch)内减少,训练将停止;在训练集中使用了5折交叉验证技术以确定多任务损失函数中两个任务间的平衡因子λ,其中,λ的范围为[0,1],间隔为0.5,且当λ=0.75时总体精度(overallaccuracy)最高,因此,在本次实验中,λ固定为0.75。

    步骤5:基于已训练好的网络模型在测试集上进行测试,得到潜在的特征表达和分类性能;

    在医学影像上进行了十次实验并计算平均值和标准差,在三分类任务中使用总体精度(overallaccuracy)作为诊断性能;

    此外,轮流将每一类作为正样本,则其余类别为负样本,使用一对多策略(one-vs-rest)以评估精度(acc)、灵敏度(sen)、特异度(spe)及f1-分数(f1)指标,这四个指标分别定义如下:

    tpi、fpi、fni、tni分别表示第i次试验中真阳性、假阳性、假阴性及真阴性的数目;β表示试验的数目,在本项实验中,β=10;

    为了研究不同频率特征的诊断能力,首先使用一种名为t分布随机近邻嵌入算法(t-sne)的可视化技术,获得8种原始特征和融合的多视图特征;并且针对每种类型的特征在训练集中进行了5折交叉验证实验以进行定量分析,并获得了三分类任务的总体精度,并且以平均精度、灵敏度、特异度及f1-分数来显示one-vs-rest策略的诊断性能;

    由于不同频率的特征对于所有方法都有很大的性能差距,从高频子带中提取的特征比从低频子带中提取的特征具有更好的预测性能,然而对于ct影像表现比较平滑的受试者来说,低频子带则具有很强的预测能力,这是因为高通滤波器可以检测到梯度变化较大的影像,而低通滤波器可以检测到平滑梯度变化的ct影像,因此来自不同频率子带的特征具有不同的辨别能力,所以将它们视为多个视角以相互补充进而增强识别能力;与使用单独类型特征的方法征相比,使用多视图特征(即8个不同的频率特征)的方法具有更好的预测性能。

    实施例2:

    本实施例公开一种基于多视图学习和深度监督自编码器的医学影像分类装置,包括以下模块:

    影像小波变换模块,用于执行步骤1:利用小波变换将每个影像的感兴趣区域进行小波分解,进而得到多个不同频域的子带,每个子带定义为一个视图。

    多视图特征提取模块,用于执行步骤2:对每个视图定量提取93个形态学特征,进而得到多视图特征;

    分类器构建及训练模块,用于执行步骤3:构建基于多视图特征学习的深度监督自编码器分类网络,将多视图形态学特征输入到编码器模块,进而得到多视图特征的高阶潜在表达,再将潜在表达输入编码器模块以重构原始多视图特征,通过最小化重构损失,对网络进行训练以获得的较强表示能力的多视图潜表达;为了让潜在表达具有类机构性,引入监督损失,联合重构损失一同训练,使得潜在表达具备类结构性。

    分类监督模块,用于执行步骤4:基于训练好的分类器对未知分类标签(测试集)的影像进行分类;

    各个步骤的具体实现方法与实施例1中相同。

    实施例3:

    本实施例公开一种电子设备,包括存储器及处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器实现如实施例1所述的方法。

    实施例4:

    本实施例公开一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如实施例1所述的方法。


    技术特征:

    1.一种基于多视图学习和深度监督自编码器的医学影像分类方法及装置,其特征在于,包括以下步骤:

    步骤1、分别将获得的每个医学影像进行预处理,将原始医学影像分解为多个频率子带;

    步骤2、从多个频率子带中提取特征,并将提取出来的特征构成一个多视图特征集;

    步骤3、构建一个基于潜在表示的分类框架,该框架由深度监督自编码器(dsae)组成,用dsae将原始特征映射到潜在空间中以学习潜在表示;

    步骤4、通过提出的基于多视图特征和深度监督自编码器的医学影像分类方法对未知分类标签的医学影像进行分类。

    2.根据权利要求1所述的基于多视图学习和深度监督自编码器的医学影像分类方法及装置,其特征在于,所述步骤1中,对医学影像进行预处理的过程是:首先将每位受试者的医学影像重建为3d影像,然后再提取每个3d影像的感兴趣区域,之后对感兴趣区域进行滤波处理;

    将医学影像重建为3d影像使用的是dcm2nii软件包;

    提取3d影像的感兴趣区域使用的是3du-net模型,该模型被广泛用于医学影像分割;

    为了克服样本厚度变化之间的差异,通过b样条插值将感兴趣区域的体积数据重新采样为1mm×1mm×1mm的体素分辨率。

    3.根据权利要求2所述的基于多视图学习和深度监督自编码器的医学影像分类方法及装置,其特征在于,所述步骤1中,使用3d小波变换(3d-wt)对感兴趣区域进行小波分解,以捕获八个不同的频率子带,这八个频率子带分别为:lll、lhl、hll、hhl、llh、lhh、hlh、hhh;3d-wt会提供原始信号的空间和频率表示;关于小波分解,3d-wt可以用张量积表示,如下:

    其中,代表空间直和;代表卷积运算;lγ和hγ分别表示沿γ方向的低通滤波和高通滤波,γ∈{x,y,z}。

    4.根据权利要求1所述的基于多视图学习和深度监督自编码器的医学影像分类方法及装置,其特征在于,所述步骤2中,从具有不同频率的子带中提取了包括灰色特征和纹理特征在内的多个特征,这些特征被视为多视图特征集;

    定义了如下符号:表示训练样本,其中,代表多视图特征集(n和m分别表示样本数目和多视图特征);表示相应的标签集,其中,yn分别表示医学影像的分类类别。

    5.根据权利要求4所述的基于多视图学习和深度监督自编码器的医学影像分类方法及装置,其特征在于,所述步骤2中,灰度特征(共有18个特征)主要由一阶统计量组成,一阶统计量是根据体素的直方图计算得出的,描述了感兴趣体积(voi)内体素的分布;标准化的一阶直方图定义如下:

    其中,p(i)代表标准化的一阶直方图;pi表示体素级别的数量i;

    从灰度共生矩阵(glcm,24个特征),灰度相关矩阵(gldm,14个特征),灰度游程长度矩阵(glrlm,16个特征),灰度大小区域矩阵(glszm,16个特征)和相邻的灰度差矩阵(ngtdm,5个特征)中提取纹理特征;

    标准化的glcm定义如下:

    其中,m(i,j)代表标准化的glcm;

    标准化的gldm定义如下:

    其中,m(i,j)代表gldm;m(i,j)代表标准化的gldm;nz表示影像中依赖区域的数目;

    标准化的glrlm定义如下:

    其中,ng、nr和np分别为影像中离散强度值的数量,游程长度大小和体素;m(i,j|θ)表示glrlm;nr(θ)代表在影像中沿θ方向游程的数目;m(i,j|θ)表示标准化的glrlm;

    glszm旨在量化图像的灰度区域,标准化的glszm定义如下:

    其中,ng、ns和np分别为影像中离散强度值的数目、区域大小和体素;m(i,j)表示glszm;nz代表voi中的区域数目;m(i,j)表示标准化的glszm。

    6.根据权利要求1所述的基于多视图学习和深度监督自编码器的医学影像分类方法及装置,其特征在于,所述步骤3中,利用自编码器这个人工神经网络以无监督的方式学习潜在数据表示,从而可以最好地重构原始数据;自编码器可以用来降维和挖掘潜在特征;为了学习具有类结构的潜在表示,提出dsae框架;

    dsae框架由三个部分组成:

    编码器,用于从输入数据中学习潜在表示;

    解码器,用于从潜在表示中重构输入;

    监督器,用于构建潜在表示和进行影像的分类。

    7.根据权利要求6所述的基于多视图学习和深度监督自编码器的医学影像分类方法及装置,其特征在于,所述步骤3中,编码器有三个隐藏层,每个隐藏层分别具有256、128和16个神经元,其中,最后一个隐藏层用作表示层;

    相反,解码器是编码器的反向操作,解码器具有两个隐藏层,每个隐藏层有128和256个神经元,解码器输出层和编码器输入层的大小相同;

    监督器位于表示层(编码器的最后一个隐藏层)之后,监督器由一个归一化层、一个衰减率为0.5的dropout层及一个分类输出层组成;

    基于如上所述结构的dsae框架也可支持多分类的场景。

    8.根据权利要求7所述的基于多视图学习和深度监督自编码器的医学影像分类方法及装置,其特征在于,所述步骤3中,将多视图特征用作输入并编码到低维空间中以发现每个影像的潜在高级表示;然后,将潜在表示重构为输入的原始维度大小;通过反向传播使重构误差最小化以学习两个稳定的映射,这两个稳定的映射即编码路径中的fe(.;θe)和解码路径中的fd(.;θd),其中,θe和θd分别表示编码路径和解码路径的参数;令tn代表已学习的潜在表示,令代表解码的输出,则tn和可分别表示为:

    tn=fe(xn;θe)

    自编码器通过如下所示的最小化输入和输出间的均方误差(mse)损失函数来学习潜在表示;

    9.根据权利要求8所述的基于多视图学习和深度监督自编码器的医学影像分类方法及装置,其特征在于,所述步骤3中,为了使多分类影像的潜在表示结构良好,在表示层中引入了被监督的块,将批归一化策略和dropout策略引入这个被监督的块,用来减少过拟合的问题;用softmax层预测影像的类别。输出的概率可以按如下公式计算:

    其中,表示输出为第i类第n个样本的概率;z代表最后一个全连通层的输出向量;k表示类别的数目;

    这项监督任务采用了广泛使用的交叉熵损失,将定义为如下的交叉熵损失函数最小化,以增强同一类影像的紧实度并给出多类影像之间的界限;

    考虑到信息量和可分离性,联合训练了两个任务,多任务损失函数如下:

    其中,λ是两个任务之间的平衡因子。

    10.根据权利要求1所述的基于多视图学习和深度监督自编码器的医学影像分类方法及装置,其特征在于,所述步骤4中,将未知分类标签的影像的多视图特征集输入我们设计的分类器,对其进行分类并得到最终的分类结果。

    技术总结
    本发明公开了一种基于多视图学习和深度监督自编码器的医学影像分类方法及装置,所述方法包括以下步骤:步骤1、对医学影像感兴趣区域进行小波分解,获取多频子带;步骤2、将每个子带定义为一个视图,对每个视图定量提取影像组学特征,进而得到多视图特征;步骤3、构建基于多视图特征学习的深度监督自编码器的分类网络,基于影像样本的形态学多视图特征向量及其分类标签对分类网络进行训练,得到训练好的分类模型;步骤4、基于训练好的分类模型对未知分类标签的影像进行分类。本发明能够提高医学影像的分类准确度。

    技术研发人员:王建新;成建宏;刘军;赵伟;刘锦
    受保护的技术使用者:中南大学
    技术研发日:2020.11.30
    技术公布日:2021.03.12

    转载请注明原文地址:https://wp.8miu.com/read-19262.html

    最新回复(0)