一种基于深度学习的遥感图像语义分割方法与流程

    专利2022-07-08  166


    本发明属于机器视觉技术领域,具体涉及一种基于深度学习的遥感图像语义分割方法。



    背景技术:

    随着遥感技术的不断发展,遥感图像中所蕴含的语义信息也越来越丰富,因此如何针对遥感图像进行语义分割,快速而准确地提取出重要的语义信息,并进行后期应用和开发,是一件非常重要的研究课题。遥感图像的语义分割有着广泛的应用范围,涉及城市规划、地质灾害防治、军事战争模拟等。尤其是在军事战争模拟方面,从遥感图像中分割出的语义信息,对于真实战场地形的快速生成、环境的快速搭建有着极其重要的作用。

    对于遥感图像语义分割来说,当前一般分为传统图形学算法和基于深度学习的算法两大类。传统的语义分割算法包括基于边缘检测的影像分割算法、基于阈值的影像分割算法和基于区域的影像分割算法。基于边缘检测的影像分割算法模仿人类视觉过程,把图像边缘与背景分离出来,再知觉图像细节,从而辨认出图像对象轮廓。基于阈值的影像分割算法的基本思路是利用影像中感兴趣的目标和背景在灰度特性上的差异性,用一个或几个阈值将影像的灰度级分为几类,属于同一类的像素认定为同一个对象。基于区域的影像分割算法,从像元出发,按照区域属性特征一致的准则,选定待分割目标内的一个小区域作为种子区域,再在其基础上决定每个像元的区域归属,将其周围的像元以一定的准则不断加入,并将其作为新的种子区域,重复最终将具有指定特性的所有像元全部合并起来构成区域。这些方法虽然能够分割出较为完整的场景,但是在分割精度上远不如深度学习方法。



    技术实现要素:

    针对主流的深度卷积神经网络的语义分割方法,所存在的对小物体的特征获取困难、分割精度不足的问题,本发明提供了一种基于深度学习的遥感图像语义分割方法。该方法适用于复杂的城市地表遥感图像分割,用于机器视觉的语义分割。

    为了达到上述目的,本发明采用了下列技术方案:

    一种基于深度学习的遥感图像语义分割方法,包括以下步骤:

    步骤1,利用labelme工具对收集到的遥感数据进行标注,得到标注结果;

    步骤2,对步骤1中得到的标注结果进行数据增强,得到数据集;

    步骤3,设计网络;

    步骤4,将步骤2中数据集读入步骤3的设计网络中训练;

    步骤5,通过评价判断将步骤4训练好的网络权重读入网络,将待预测图片读入网络进行计算,得到logit;

    步骤6,分析logit得分,给予每个像素对应的颜色以表示具体分类,最终得到分割结果。

    进一步,所述步骤2中数据增强的具体方法是:将遥感数据原图以及标注好的mask掩膜进行随机切割,每次切割得到的图片大小均为256×256像素,对每张切割好的图片进行旋转、翻转、模糊、高斯滤波、双边滤波及添加白噪声得到增强之后的图片,然后组建数据集。

    进一步,所述步骤3设计网络的具体方法是:

    由resnet-50组成主干网络,包括卷积核为7×7的步长为2,输出通道数为64的卷积,视野域为3×3步长为2的最大值池化;

    然后三个卷积核为1×1、3×3、1×1步长为1,输出通道数分别为64、64、256的卷积;四个卷积核为1×1、3×3、1×1步长为1,输出通道数分别为128、128、512的卷积;六个卷积核为1×1、3×3、1×1步长为1,输出通道数分别为256、256、1024的卷积;三个卷积核为1×1、3×3、1×1步长为1,输出通道数分别为512、512、2048的卷积;

    经过修改好空洞率的aspp模块,五个并行的子模块分别为:

    卷积核为1×1步长为1,输出通道数为256的卷积;

    卷积核为3×3步长为1,空洞率为3,输出通道数为256的卷积;

    卷积核为3×3步长为1,空洞率为6,输出通道数为256的卷积;

    卷积核为3×3步长为1,空洞率为9,输出通道数为256的卷积;

    最后一层则为全局平均池化,输出通道数为256;由于较大的膨胀率对一些大物体有较好的分割效果,而对于小物体来说却有弊无利了。并且由于膨胀卷积较大的膨胀率导致稀疏的采样输入信号,使得远距离卷积得到的信息之间没有相关性,影响分类结果。对于遥感图像,类似1、6、12、18这样的膨胀率过大,较大的感受野反而不利于遥感图像中微小物体的分割。所以,如何调整aspp模块中膨胀率,同时处理好大小物体的关系是设计膨胀卷积网络的关键,因此这里分别使用使用了膨胀率为1、3、6、9的膨胀卷积。经修改后的膨胀率从一定程度上降低了aspp模块的感受野,平衡了网络对于大小物体的敏感度。同时,降低膨胀率使采样输入信号较为密集,缓解了膨胀率过大导致卷积失效的问题。最终使得网络能够得到对小物体更精细的分割结果。

    由于以上5个子模块输出图像分辨率均相同,因此将以上五个子模块在通道维度上进行叠加得到通道数为1280的特征,在经过1×1卷积使输出通道数融合为256;之后通过双线性插值上采样将特征还原为64×64像素;再将其与最一开始卷积核大小为7×7的卷积进行通道上的叠加,得到了输出通道数为512的特征;resnet-50第一层7×7卷积得到的特征图仅经过一次最大值池化,具有较大的分辨率以及较为完整的空间位置信息等特点,将aspp之后的特征图与上述经过resnet-50第一层的特征图进行通道维度上的合并,构建一个类似decoder的模块,利用低层中含有丰富空间位置信息的特征图使得分割结果有更加精细的像素位置恢复。改进后的上采样模块相较于原网络仅增加了256 256×3×3×2=4864个参数,对整个网络运算成本影响较小。

    之后再通过两个3×3步长为1的卷积,最终进行双线性插值上采样还原图像分辨率到256×256以及一个1×1卷积使通道数变成5得到logit。

    进一步,所述步骤5中评价网络训练的具体方法为:将平均并交比建筑物、植被、水系、道路并交比以及像素精确度作为检测评价指标;基于遥感图像语义分割是一个分类任务,预测结果为四种情况:truepositive(tp)、falsepositive(fp)、truenegative(tn)和falsenegative(fn);iou即是计算真实值和预测值两个集合的交集和并集之比,即

    其中,k 1为包含背景类的类别数量,pii为被正确预测的像素数量,pij与pji均表示被误检的像素数量,miou则是对所有类的一个考量,将每一个类别的iou进行相加之后平均,得到的即是基于全局的评价。利用miou对网络训练情况进行考量,miou值越大说明网络训练效果越好,与正确分割结果越相符。同时可以根据miou的变化判断网络的收敛情况,miou变化越小说明网络越趋近于收敛。因此,本发明选用了miou对网络训练情况进行考量,以此来找出一组最佳权重。

    进一步,所述步骤5待预测图片读入网络的具体方法为:从遥感图像的左上角开始,以由左到右、由上到下的顺序,裁剪出若干张256×256像素大小的图片,每次裁剪出的同行相邻的两图片的首列间隔为256像素,同列相邻两图片的首行相隔也为256个像素;同时,对于遥感图像边缘处的预裁剪的图片大小不足256×256像素时,则以该预裁剪的图片为基准,反方向截取256×256像素进行裁剪。待完成了对裁剪出的图片的预测后,将这些图片按照裁剪规律进行拼接,从而得到遥感图像完整的logit得分图。

    进一步,所述步骤6分析logit得分,给予每个像素对应的颜色以表示具体分类,最终得到分割结果具体方法是:得分图通道数为5,每个像素的5个通道分别表示建筑物、植被、水系、道路、其他分类的对应得分,得分最高者即为当前像素的类别;新建一个分辨率为测试图原始分辨率,通道数为3的零矩阵;判断原得分图对应像素分值,若为建筑物,则该像素值为[31,102,156];若为植被,则该像素值为[0,255,0];若为水系,则该像素值为[255,255,0];若为道路,则该像素值为[192,192,192];若为其他类,则该像素值为[255,255,255];通过上述方法对每个像素进行染色,最终得到的矩阵导出则为分割结果。这样能够很好地对分割结果进行可视化,得到令人易读、易懂的分割结果。

    与现有技术相比本发明具有以下优点:

    本发明提出一种算法,以优化对小物体的分割效果为目标,从改变单一的上采样结构、降低aspp模块过大的感受野出发,构建出更加适合遥感图像语义分割的网络模型,从而解决小物体分割困难、分割精度不高等问题。

    主流语义分割网络往往针对物体较大的ms-coco数据集进行实验,而对于遥感图像来说,分割目标较小,这样的网络往往对小物体分割效果较差。本发明针对遥感图像的语义分割,对复杂环境下的微小物体分割难度大的问题进行研究,提出了基于深度学习的deeplabv3改进算法,以修改上采样模块,调整aspp模块空洞率构建了一个适合遥感图像分割的网络模型,加强了对复杂环境下小物体的分割能力。有效地解决了对植被、建筑物等小物体的分割能力差的问题,提升了分割精度,具有很好的分割效果。

    附图说明

    图1是数据集标注界面图;

    图2是本方法的网络设计图;

    图3是aspp模块结构图;

    图4是网络训练过程中收敛的miou;

    图5是测试用遥感图像原图;

    图6是本发明分割结果。

    具体实施方式

    实施例1

    本发明一种基于深度学习的遥感图像语义分割方法,将高精度像进行语义分割,具体步骤如下:

    步骤1,数据集标注:通过对收集到的高精度遥感图像利用专业的labelme软件进行标注,标注完成后得到对应的mask掩膜图片。将得到的mask进行处理,将其转换为8-bit灰度图作为训练网络使用的label。

    步骤2,对步骤1中得到的标注结果进行数据增强:将遥感数据原图以及标注好的mask掩膜进行随机切割,每次切割得到的图片大小均为256×256像素。之后对每张切割好的图片进行旋转、翻转、模糊、高斯滤波、双边滤波及添加白噪声得到增强之后的数据集。如图1数据集标注界面图所示。

    其中,其中选择数据增强前作为训练集,作为测试集。高斯滤波、双边滤波等为现有技术,此处不再做具体阐述。

    步骤3,将步骤2中数据增强后的训练集读入设计好的网络进行训练:以66666张遥感图像为训练集,33333张做测试集,batchsize为48,学习率为2×10-4,权重衰减使用l2正则化,权重衰减率为5×10-4。最终,平均并交比(miou)稳定在94.92左右,迭代至48000次停止。

    如图2本方法的网络设计图所示,其中网络结构设计为:主干网络由包括卷积核为7×7的步长为2,输出通道数为64的卷积。视野域为3×3步长为2的最大值池化。之后是三个卷积核为1×1、3×3、1×1步长为1,输出通道数分别为64、64、256的卷积。四个卷积核为1×1、3×3、1×1步长为1,输出通道数分别为128、128、512的卷积。六个卷积核为1×1、3×3、1×1步长为1,输出通道数分别为256、256、1024的卷积。三个卷积核为1×1、3×3、1×1步长为1,输出通道数分别为512、512、2048的卷积。再然后经过修改好空洞率的aspp模块,五个并行的子模块分别为卷积核为1×1步长为1,输出通道数为256的卷积。卷积核为3×3步长为1,空洞率为3,输出通道数为256的卷积。卷积核为3×3步长为1,空洞率为6,输出通道数为256的卷积。卷积核为3×3步长为1,空洞率为9,输出通道数为256的卷积。最后一层则为全局平均池化,输出通道数为256,如图3aspp模块结构图所示。由于以上5个模块输出图像分辨率均相同,因此将以上五个模块在通道维度上进行叠加得到通道数为1280的特征,在经过1×1卷积使输出通道数融合为256。之后通过双线性插值上采样将特征还原为64×64像素。再将其与最一开始卷积核大小为7×7的卷积进行通道上的叠加,得到了输出通道数为512的特征。之后再通过两个3×3步长为1的卷积,最终进行双线性插值上采样还原图像分辨率到256×256以及一个1×1卷积使通道数变成5得到logit。

    其中网络评价方法为:一是平均并交比建筑物、植被、水系、道路并交比以及像素精确度作为检测评价指标。最终使用了miou和像素准确率达到了94.92%和98.01%的权重。如图4网络训练过程中收敛的miou所示。

    步骤5,将测试用高精度遥感图像输入网络中进行预测:从遥感图像的左上角开始,以由左到右、由上到下的顺序,裁剪出若干张256×256像素大小的图片,每次裁剪出的同行相邻的两图片的首列间隔为256像素,同列相邻两图片的首行相隔也为256个像素;同时,对于遥感图像边缘处的预裁剪的图片大小不足256×256像素时,则以该预裁剪的图片为基准,反方向截取256×256像素进行裁剪。待完成了对裁剪出的图片的预测后,将这些图片按照裁剪规律进行拼接,从而得到遥感图像完整的logit得分图。

    步骤6,将得到的logit评分进行分析,绘制出最终的分割图片:logit图像通道数为5,每个像素的5个通道分别表示建筑物、植被、水系、道路、其他分类的对应得分,得分最高者即为当前像素的类别。因此,新建一个大小为256×256,通道数为3的零矩阵。判断原得分图对应像素分值,若为其他类,则该像素值为[255,255,255];若为建筑物,则该像素值为[31,102,156];若为植被,则该像素值为[0,255,0];若为水系,则该像素值为[255,255,0];若为道路,则该像素值为[192,192,192],由此绘制出图像分割结果。如图5是测试用遥感图像原图和图6是本发明分割结果所示。

    本发明针对遥感图像的语义分割,对复杂环境下的微小物体分割难度大的问题进行研究,提出了基于深度学习的deeplabv3改进算法,以修改上采样模块,调整aspp模块空洞率构建了一个适合遥感图像分割的网络模型,加强了对复杂环境下小物体的分割能力。实验结果表明:本发明所提出的网络模型有效地解决了对植被、建筑物等小物体的分割能力差的问题,提升了分割精度,具有很好的分割效果。

    表1效率分析

    从表1可以看出,在平均并交比(miou)方面,原deeplabv3算法的平均并交比为91.15%,u-net算法的平均并交比为87.95%,segnet算法的平均并交比为86.88%,hr-net的平均并交比为92.88%,danet的平均并交比为95.16%,本发明改进方法平均并交比为94.92%,比danet算法略低,较原deeplabv3算法和hr-net算法提高了3.77%和2.04%。

    在植被并交比(iou)方面,原deeplabv3算法的并交比为85.25%,danet算法的植被并交比为90.84%,hr-net算法的植被并交比为82.83%,本发明方法的植被并交比为88.66%,较原deeplabv3算法及danet算法提高了3.41%和1.9%。

    在建筑物并交比(iou)方面,原deeplabv3算法的并交比为90.06%,danet算法的建筑物并交比为90.50%,hr-net算法的建筑物并交比为91.64%,本发明改进方法的建筑物并交比为93.83%,较原deeplabv3算法及danet算法提高了3.77%和30.33%。

    对于像素准确率(pixelaccuracy)本发明改进方法(articlemethod)达到了98.01%,较原deeplabv3算法,danet算法,分割效果最差的segnet算法分别提高了2.40%、0.67%和4.16%。

    本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。


    技术特征:

    1.一种基于深度学习的遥感图像语义分割方法,其特征在于:包括以下步骤:

    步骤1,利用labelme工具对收集到的遥感数据进行标注,得到标注结果;

    步骤2,对步骤1中得到的标注结果进行数据增强,得到数据集;

    步骤3,设计网络;

    步骤4,将步骤2中数据集读入步骤3的设计网络中训练;

    步骤5,通过评价判断将步骤4训练好的网络权重读入网络,将待预测图片读入网络进行计算,得到logit;

    步骤6,分析logit得分,给予每个像素对应的颜色以表示具体分类,最终得到分割结果。

    2.根据权利要求1所述的一种基于深度学习的遥感图像语义分割方法,其特征在于:所述步骤2中数据增强的具体方法是:将遥感数据原图以及标注好的mask掩膜进行随机切割,每次切割得到的图片大小均为256×256像素,对每张切割好的图片进行旋转、翻转、模糊、高斯滤波、双边滤波及添加白噪声得到增强之后的图片,然后组建数据集。

    3.根据权利要求2所述的一种基于深度学习的遥感图像语义分割方法,其特征在于:所述步骤3设计网络的具体方法是:

    由resnet-50组成主干网络,包括卷积核为7×7的步长为2,输出通道数为64的卷积,视野域为3×3步长为2的最大值池化;

    然后三个卷积核为1×1、3×3、1×1步长为1,输出通道数分别为64、64、256的卷积;四个卷积核为1×1、3×3、1×1步长为1,输出通道数分别为128、128、512的卷积;六个卷积核为1×1、3×3、1×1步长为1,输出通道数分别为256、256、1024的卷积;三个卷积核为1×1、3×3、1×1步长为1,输出通道数分别为512、512、2048的卷积;

    经过修改好空洞率的aspp模块,五个并行的子模块分别为:

    卷积核为1×1步长为1,输出通道数为256的卷积;

    卷积核为3×3步长为1,空洞率为3,输出通道数为256的卷积;

    卷积核为3×3步长为1,空洞率为6,输出通道数为256的卷积;

    卷积核为3×3步长为1,空洞率为9,输出通道数为256的卷积;

    最后一层则为全局平均池化,输出通道数为256;

    由于以上5个子模块输出图像分辨率均相同,因此将以上五个子模块在通道维度上进行叠加得到通道数为1280的特征,在经过1×1卷积使输出通道数融合为256;之后通过双线性插值上采样将特征还原为64×64像素;再将其与最一开始卷积核大小为7×7的卷积进行通道上的叠加,得到了输出通道数为512的特征;之后再通过两个3×3步长为1的卷积,最终进行双线性插值上采样还原图像分辨率到256×256以及一个1×1卷积使通道数变成5得到logit。

    4.根据权利要求3所述的一种基于深度学习的遥感图像语义分割方法,其特征在于:所述步骤5中评价网络训练的具体方法为:将平均并交比建筑物、植被、水系、道路并交比以及像素精确度作为检测评价指标;基于遥感图像语义分割是一个分类任务,预测结果为四种情况:truepositive(tp)、falsepositive(fp)、truenegative(tn)和falsenegative(fn);iou即是计算真实值和预测值两个集合的交集和并集之比,即

    其中,k 1为包含背景类的类别数量,pii为被正确预测的像素数量,pij与pji均表示被误检的像素数量,miou则是对所有类的一个考量,将每一个类别的iou进行相加之后平均,得到的即是基于全局的评价。

    5.根据权利要求4所述的一种基于深度学习的遥感图像语义分割方法,其特征在于:所述步骤5待预测图片读入网络的具体方法为:从遥感图像的左上角开始,以由左到右、由上到下的顺序,裁剪出若干张256×256像素大小的图片,每次裁剪出的同行相邻的两图片的首列间隔为256像素,同列相邻两图片的首行相隔也为256个像素;同时,对于遥感图像边缘处的预裁剪的图片大小不足256×256像素时,则以该预裁剪的图片为基准,反方向截取256×256像素进行裁剪;待完成了对裁剪出的图片的预测后,将这些图片按照裁剪规律进行拼接,从而得到遥感图像完整的logit得分图。

    6.根据权利要求5所述的一种基于深度学习的遥感图像语义分割方法,其特征在于:所述步骤6分析logit得分,给予每个像素对应的颜色以表示具体分类,最终得到分割结果具体方法是:得分图通道数为5,每个像素的5个通道分别表示建筑物、植被、水系、道路、其他分类的对应得分,得分最高者即为当前像素的类别;新建一个分辨率为测试图原始分辨率,通道数为3的零矩阵;判断原得分图对应像素分值,若为建筑物,则该像素值为[31,102,156];若为植被,则该像素值为[0,255,0];若为水系,则该像素值为[255,255,0];若为道路,则该像素值为[192,192,192];若为其他类,则该像素值为[255,255,255];通过上述方法对每个像素进行染色,最终得到的矩阵导出则为分割结果。

    技术总结
    本发明公开了一种基于深度学习的遥感图像语义分割方法,属于机器视觉技术领域。针对主流深度卷积神经网络的语义分割方法,所存在的对小物体的特征获取困难、分割精度不足的问题,本发明通过改进Deeplabv3算法,改进单一的上采样层,利用主干网络中得到的残差进行多层上采样,保证图像在分辨率上的语义完整;同时,修改ASPP层中4层膨胀卷积的膨胀率,使得网络对小物体分割有更好的效果。结果表明:改进的Deeplabv3语义分割算法在自制的数据集上mIou和像素准确率达到了94.92%和98.01%,较原算法分别提高了3.77%和2.40%,不仅拥有更高的准确性,且对各类地形的分割有更好的鲁棒性;适用于复杂的城市遥感图像环境,能够很好地用于城市规划、农业规划、军事战争等领域。

    技术研发人员:熊风光;张鑫;刘欢乐;韩燮;况立群
    受保护的技术使用者:中北大学
    技术研发日:2020.11.27
    技术公布日:2021.03.12

    转载请注明原文地址:https://wp.8miu.com/read-16372.html

    最新回复(0)