本发明属于图像处理中的目标检测
技术领域:
,具体涉及基于改进efficientdet模型的车库行人检测方法。
背景技术:
:智慧立体车库是智能化城市建设进程中的重要组成部分,它集车库停车位预定,车牌识别,自动停车,行人检测等于一体。其中,车库内的行人检测是为了保障车库内行人的安全。车库内的环境复杂多变,车位起降时必须考虑到车库内的行人走动,确保在没有行人的情况下才能升降。因此,车库行人检测的实时性和准确性对于智慧立体车库的部署十分重要。车库行人检测本质上属于目标检测问题,检测对象是车库内的行人。目标检测是图像理解和计算机视觉中的一个重要领域,它是解决分割、场景的理解、目标的追踪、图像描述、事件检测和活动识别等更具有复杂性和更高层次的视觉任务的基础。当前,优秀的目标检测模型层出不穷,都在向着更快更准确的方向前进。基于深度学习的目标检测模型通常由两部分组成,一部分是在imagenet上预先训练好的主干网络,另一部分是用来预测类和对象边界框的预测器。对于运行在gpu平台上的目标检测模型,它们的主干网络可以是vgg,resnet,resnext或densenet。对于在cup平台上运行的目标检测模型,它们的主干网络可以是queezenet,mobilenet或shufflenet。预测器通常分为两类,分别是单阶段(one-stage)预测器和两阶段(two-stage)预测器。最具代表性的两阶段目标检测模型是r-cnn系列,包括fastr-cnn,fasterr-cnn,r-fcn和librar-cnn。对于单阶段目标检测模型,最具代表性的模型是yolo,ssd,retinanet和efficientdet。近年来发展起来的目标检测模型通常在主干和预测器之间插入一些层,这些层通常用于收集不同尺度的特征图,可以称之为目标检测模型的颈部。通常,颈部由几个自下而上的路径和几个自上而下的路径组成。配备这种机制的网络包括特征金字塔网络(fpn)、路径聚合网络(pan)、bifpn和nas-fpn。efficientdet是googlebrain团队2019年提出的基于efficientnet的可伸缩、高效的目标检测模型,分为efficientdetd0~efficientdetd7系列,检测速度逐渐变慢,精度逐渐提高。它在提出之初,实现了最先进的检测结果,性能十分惊人。但车库环境复杂多变,检测目标有其一定的独特性,直接利用efficientdet训练目标检测器,效果虽好但仍有较大的提升空间,主要是定位的精度,检测速度和误判率需要进一步改进。技术实现要素:发明目的:本发明的目的是提供基于改进efficientdet模型的车库行人检测方法,通过masaic数据增强丰富车库行人检测的背景信息,引入cspnet增强cnn的学习能力,能够在轻量化模型的同时保持检测的准确性,引入spp增加网络的感受野,使得改进后的模型在实时性和准确性上均有较大的性能提升。技术方案:为达到此目的,本发明采用以下技术方案:基于改进efficientdet模型的车库行人检测方法,包括以下步骤:s1:收集不同时段和光照环境下的车库行人图像;s2:针对车库行人图像,首先进行预处理,然后随机抽取4张图像利用mosaic数据增强方法合成一张复合图像,得到训练样本;s3:在主干网络efficientnet中引入特征分流网络cspnet,实现特征分流,得到轻量化的模型cspefficientnet;s4:在cspefficientnet分类层的前面引入空间金字塔池化模块spp,得到新的主干网络cspefficientnet-spp,以增加特征提取网络的感受野;s5:将cspefficientnet-spp和特征融合网络bifpn、分类网络class-prediction-net以及定位网络box-prediction-net相结合,得到改进的efficientdet模型;s6:对改进的efficientdet模型采用迁移学习,得到车库行人检测模型。进一步地,步骤s2中,所述的预处理方式包括图像尺寸裁剪、水平翻转和标准化处理。进一步地,步骤s2中,所述的mosaic数据增强方法为:s21:获取统一尺寸后的图像长宽,利用逐像素点填充的方式生成一张长宽翻倍的新图像;s22:利用索引获取当前图像,再利用随机抽样的方式从样本集中抽取3张图像,随机截取4张图像的部分区域分别填充至新图像的左上、右上、左下、右下4个区域,组成复合图像,最后将图像长宽缩小一倍;s23:根据截取图像在新图像中的位置,转换每张图像中相应的boxes坐标至新图像,得到相应的annotations标签数据;s24:将新图像和annotations标签数据打包作为一个新的训练样本,输入网络中训练。进一步地,步骤s3中,所述的在主干网络efficientnet中引入特征分流网络cspnet的方法,包括如下步骤:s31:对efficientnet中的基本卷积模块按结构进行归类,将无通道膨胀和跳跃连接的归类到移动倒置瓶颈块1,将有通道膨胀但无跳跃连接的归类到移动倒置瓶颈块2,将有通道膨胀和跳跃连接的归类到移动倒置瓶颈块3;s32:每个移动倒置瓶颈块2的输出特征分别经过两个卷积层,分为两条通道数减半的特征分支,实现分流;s33:任意一条特征分支再通过原网络中的移动倒置瓶颈块3,接着连接一个卷积层,保持输出特征分支的维度不变;s34:将上述s32和s33得到的两条特征分支的输出特征在通道维度上拼接;s35:将融合后的特征最后通过一个卷积层,实现特征过渡。进一步地,步骤s4中,所述的在cspefficientnet分类层的前面引入空间金字塔池化模块spp的方法为:s41:从cspefficientnet最后一个基本卷积模块的输出引出四条支路,包括第一支路,第二支路,第三支路和第四支路;s42:第一支路、第二支路、第三支路分别通过最大池化层a1、a2、a3,其中,a1的核大小为5,步长为1,a2的核大小为9,步长为1,a3的核大小为13,步长为1,第四支路保留原输出特征;s43:将四条支路的输出在通道维度上进行拼接,得到一个新的特征图;s44:将新的特征图最后通过一个卷积层,得到原特征的通道数。进一步地,步骤s6中,所述的对改进的efficientdet模型采用迁移学习,包括如下步骤:s61:首先将改进后的efficientdet模型在数据集上进行预训练,直至收敛;s62:将模型的分类预测数设为1,然后将预训练后的模型在车库行人数据集上进行迁移学习,训练至收敛。有益效果:本发明公开了基于改进efficientdet模型的车库行人检测方法,针对车库内行人目标的独特性,利用mosaic数据增强方法丰富行人检测的背景信息,且在标准化batchnormalization计算时一次性计算四张图像的数据;在主干网络efficientnet中引入特征分流网络cspnet,增强cnn的学习能力,能够在轻量化模型的同时保持检测的准确性,并明显提升检测速度,降低计算瓶颈和内存成本;在特征提取网络的顶部引入空间金字塔池化模块spp,增加网络的感受野,提升不同尺度大小目标的检测精度,在复杂多变的车库环境中能准确快速地完成行人检测。附图说明图1为本发明的基于改进efficientdet模型的车库行人检测方法流程图;图2为本发明使用mosaic数据增强后生成的训练样本;图3为本发明中主干网络efficientnet-b0的网络结构图;图4为本发明中主干网络efficientnet-b0中的部分重要模块结构图;图5为本发明引入cspnet后的基本模块,基于分流网络的移动倒置瓶颈模块cspmbconvblock的网络结构图;图6为本发明所用的spp模块结构图;图7为本发明的改进后efficientdet-d0网络的整体框架。具体实施方式下面结合具体实施方式和附图对本发明的技术方案作进一步的介绍。基于改进efficientdet模型的车库行人检测方法,包括以下步骤:s1:收集不同时段和光照环境下的车库行人图像;s2:针对车库行人图像,首先进行预处理,然后随机抽取4张图像利用mosaic数据增强方法合成一张复合图像,得到训练样本;s3:在主干网络efficientnet中引入特征分流网络cspnet,实现特征分流,得到轻量化的模型cspefficientnet;s4:在cspefficientnet分类层的前面引入空间金字塔池化模块spp,得到新的主干网络cspefficientnet-spp,以增加特征提取网络的感受野;s5:将cspefficientnet-spp和特征融合网络bifpn、分类网络class-prediction-net以及定位网络box-prediction-net相结合,得到改进的efficientdet模型;s6:对efficientdet模型采用迁移学习,得到车库行人检测模型。步骤s2中,预处理方式包括图像尺寸裁剪、水平翻转和标准化处理;mosaic数据增强方法为:s21:获取统一尺寸后的图像长宽,利用逐像素点填充的方式生成一张长宽翻倍的新图像;s22:利用索引获取当前图像,再利用随机抽样的方式从样本集中抽取3张图像,随机截取4张图像的部分区域分别填充至新图像的左上、右上、左下、右下4个区域,组成复合图像,最后将图像长宽缩小一倍;s23:根据截取图像在新图像中的位置,转换每张图像中相应的boxes坐标至新图像,得到相应的annotations标签数据;s24:将新图像和新标签打包作为一个新的训练样本,输入网络中训练。步骤s3中,在主干网络efficientnet中引入cspnet的方法为:s31:对efficientnet中的基本卷积模块按结构进行归类,将无通道膨胀和跳跃连接的归类到移动倒置瓶颈块1(sepconv),将有通道膨胀但无跳跃连接的归类到移动倒置瓶颈块2(mbconv),将有通道膨胀和跳跃连接的归类到移动倒置瓶颈块3(mbconvblock);s32:每个移动倒置瓶颈块2的输出特征分别经过两个卷积层,分为两条通道数减半的特征分支,实现分流;s33:任意一条特征分支再通过原网络中的移动倒置瓶颈块3,接着连接一个卷积层,保持输出特征的维度不变;s34:将两条特征分支的输出特征在通道维度上拼接;s35:将融合后的特征最后通过一个卷积层,实现特征过渡(transition)。步骤s4中,在主干网络cspefficientnet中引入spp的方法为:s41:从cspefficientnet最后一个基本卷积模块的输出引出四条支路;s42:第一、第二、第三条支路分别通过最大池化层a1、a2、a3,a1的核大小为5,步长为1,a2的核大小为9,步长为1,a3的核大小为13,步长为1,最后一条支路保留原输出特征;s43:将四条支路的输出在通道维度上进行拼接,得到一个新的特征图(featuremap);s44:将新得到的特征图最后通过一个卷积层,得到原特征的通道数。步骤s6中,将改进后的efficientdet模型经过迁移学习,训练得到车库行人检测模型的方法为:s61:首先将改进后的efficientdet模型在数据集上进行预训练,直至收敛;s62:将模型的分类预测数设为1,然后将预训练后的模型在车库行人数据集上进行迁移学习,训练至收敛。实施例本具体实施方式公开了基于改进efficientdet模型的车库行人检测方法,如图1~图7所示,包括以下步骤:s1:收集不同时段和光照环境下的车库行人图像;s2:如图1所示,样本输入网络训练前需经过预处理和数据增强,针对车库行人图像,首先将其裁剪成统一尺寸,接着做水平翻转(50%的概率)以及标准化处理,最后利用mosaic数据增强方法,随机抽取4张图像生成一张复合图像,并转换得到相应的标签数据,生成训练样本(如图2所示);s3:本文以efficientdet-d0为例,在主干网络efficientnet-b0(如图3所示)中引入特征分流网络cspnet,增强cnn的学习能力,轻量化模型的同时保持检测的准确性,降低计算瓶颈和内存成本,引入cspnet后网络的基本模块cspmbconvblock的结构如图5所示;图4(a)、图4(b)、图4(c)为本发明中主干网络efficientnet-b0中的部分重要模块结构图;s4:在cspefficientnet分类层的前面引入空间金字塔池化模块spp(如图6所示),得到主干网络cspefficientnet-spp,以增加特征提取网络的感受野,使得网络对于图像中不同尺寸大小的目标均能提取尽可能多的有效特征;s5:如图7所示,仍旧以efficientdet-d0为例,将cspefficientnet-spp和特征融合网络bifpn、分类网络class-prediction-net以及定位网络box-prediction-net相结合,得到改进的efficientdet-d0模型;s6:对efficientdet模型采用迁移学习,避免直接训练时因车库行人数据集较小而模型参数庞大导致的难收敛问题,得到车库行人检测模型。步骤s2中,mosaic数据增强方法为:s21:获取统一尺寸后的图像长宽,利用逐像素点填充的方式生成一张长宽翻倍的新图像,像素统一赋值为0;s22:利用索引获取当前图像,再利用随机抽样的方式从样本集中抽取3张图像,随机截取4张图像的部分区域分别填充至新图像的左上、右上、左下、右下4个区域,组成复合图像,最后将图像长宽缩小一倍;s23:根据截取图像在新图像中的位置,转换每张图像中相应的boxes坐标至新图像,得到相应的annotations标签数据;s24:将新图像和新标签打包作为一个新的训练样本,输入网络中训练。步骤s3中,在主干网络efficientnet中引入cspnet的方法为:s31:对efficientnet中的基本卷积模块按结构进行归类,将无通道膨胀和跳跃连接的归类到移动倒置瓶颈块1,将有通道膨胀但无跳跃连接的归类到移动倒置瓶颈块2,将有通道膨胀和跳跃连接的归类到移动倒置瓶颈块3;s32:每个mbconv的输出特征分别经过两个卷积层,分为两条通道数减半的特征分支,实现分流;s33:任意一条特征支路再通过原网络中的mbconvblock模块,接着连接一个卷积层,保持输出特征的维度不变;s34:将两条支路的输出特征在通道维度拼接;s35:将融合后的特征最后通过一个卷积层,实现特征过渡。步骤s4中,在主干网络cspefficientnet中引入spp的方法为:s41:从cspefficientnet最后一个基本卷积模块的输出引出四条支路;s42:第一、第二、第三条支路分别通过最大池化层a1、a2、a3,a1的核大小为5,步长为1,a2的核大小为9,步长为1,a3的核大小为13,步长为1,最后一条支路保留原输出特征;s43:将四条支路的输出在通道维度上进行拼接,得到一个新的特征图;s44:将新得到的特征图最后通过一个卷积层,得到原特征的通道数。步骤s6中,对efficientdet模型经过迁移学习,得到车库行人检测模型的方法为:s61:首先将改进后的efficientdet模型在coco2014数据集上进行训练,直至收敛;s62:将模型的分类预测数目由80改为1,然后将经过coco2014数据集预训练后的模型在车库行人数据集上进行迁移学习,训练至收敛。表1为本发明提出的改进efficientdet模型的对比实验结果。表1改进efficientdet模型的对比实验paramsflopsmaporiginalmodel3.828m2.21g0.649mosaic3.823m2.21g0.667cspnet2.181m1.41g0.658spp4.328m2.40g0.674mosaic cspnet spp2.592m1.51g0.686综上所述,本发明利用一些当前先进方法改进了efficientdet模型,在轻量化模型、提升模型检测速度的同时,提升了模型的鲁棒性,使检测模型在复杂多变的车库环境中精准快速地定位行人所在位置,满足智慧车库行人检测地实时性和准确性要求。以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。当前第1页1 2 3 
技术特征:1.基于改进efficientdet模型的车库行人检测方法,其特征在于:包括以下步骤:
s1:收集不同时段和光照环境下的车库行人图像;
s2:针对车库行人图像,首先进行预处理,然后随机抽取4张图像利用mosaic数据增强方法合成一张复合图像,得到训练样本;
s3:在主干网络efficientnet中引入特征分流网络cspnet,实现特征分流,得到轻量化的模型cspefficientnet;
s4:在cspefficientnet分类层的前面引入空间金字塔池化模块spp,得到新的主干网络cspefficientnet-spp,以增加特征提取网络的感受野;
s5:将cspefficientnet-spp和特征融合网络bifpn、分类网络class-prediction-net以及定位网络box-prediction-net相结合,得到改进的efficientdet模型;
s6:对改进的efficientdet模型采用迁移学习,得到车库行人检测模型。
2.根据权利要求1所述的基于改进efficientdet模型的车库行人检测方法,其特征在于:步骤s2中,所述的预处理方式包括图像尺寸裁剪、水平翻转和标准化处理。
3.根据权利要求1所述的基于改进efficientdet模型的车库行人检测方法,其特征在于:步骤s2中,所述的mosaic数据增强方法为:
s21:获取统一尺寸后的图像长宽,利用逐像素点填充的方式生成一张长宽翻倍的新图像;
s22:利用索引获取当前图像,再利用随机抽样的方式从样本集中抽取3张图像,随机截取4张图像的部分区域分别填充至新图像的左上、右上、左下、右下4个区域,组成复合图像,最后将图像长宽缩小一倍;
s23:根据截取图像在新图像中的位置,转换每张图像中相应的boxes坐标至新图像,得到相应的annotations标签数据;
s24:将新图像和annotations标签数据打包作为一个新的训练样本,输入网络中训练。
4.根据权利要求1所述的基于改进efficientdet模型的车库行人检测方法,其特征在于:步骤s3中,所述的在主干网络efficientnet中引入特征分流网络cspnet的方法,包括如下步骤:
s31:对efficientnet中的基本卷积模块按结构进行归类,将无通道膨胀和跳跃连接的归类到移动倒置瓶颈块1,将有通道膨胀但无跳跃连接的归类到移动倒置瓶颈块2,将有通道膨胀和跳跃连接的归类到移动倒置瓶颈块3;
s32:每个移动倒置瓶颈块2的输出特征分别经过两个卷积层,分为两条通道数减半的特征分支,实现分流;
s33:任意一条特征分支再通过原网络中的移动倒置瓶颈块3,接着连接一个卷积层,保持输出特征分支的维度不变;
s34:将上述s32和s33得到的两条特征分支的输出特征在通道维度上拼接;
s35:将融合后的特征最后通过一个卷积层,实现特征过渡。
5.根据权利要求1所述的基于改进efficientdet模型的车库行人检测方法,其特征在于:步骤s4中,所述的在cspefficientnet分类层的前面引入空间金字塔池化模块spp的方法为:
s41:从cspefficientnet最后一个基本卷积模块的输出引出四条支路,包括第一支路,第二支路,第三支路和第四支路;
s42:第一支路、第二支路、第三支路分别通过最大池化层a1、a2、a3,其中,a1的核大小为5,步长为1,a2的核大小为9,步长为1,a3的核大小为13,步长为1,第四支路保留原输出特征;
s43:将四条支路的输出在通道维度上进行拼接,得到一个新的特征图;
s44:将新的特征图最后通过一个卷积层,得到原特征的通道数。
6.根据权利要求1所述的基于改进efficientdet模型的车库行人检测方法,其特征在于:步骤s6中,所述的对改进的efficientdet模型采用迁移学习,包括如下步骤:
s61:首先将改进后的efficientdet模型在数据集上进行预训练,直至收敛;
s62:将模型的分类预测数设为1,然后将预训练后的模型在车库行人数据集上进行迁移学习,训练至收敛。
技术总结本发明公开了基于改进EfficientDet模型的车库行人检测方法,属于图像处理中的目标检测技术领域,本发明利用mosaic数据增强方法丰富行人检测的背景信息,且在批标准化Batch Normalization计算时一次性计算四张图像的数据;在主干网络EfficientNet中引入特征分流网络CSPNet,增强CNN的学习能力,能够在轻量化模型的同时保持检测的准确性,降低计算瓶颈和内存成本;在特征提取网络的顶部引入空间金字塔池化模块SPP,增加网络的感受野,在复杂多变的车库环境中能准确快速地完成行人检测。
技术研发人员:牛丹;李永胜;陈夕松;许翠红;陈善龙;刘子璇
受保护的技术使用者:南京云牛智能科技有限公司;东南大学;江阴市智行工控科技有限公司
技术研发日:2020.10.28
技术公布日:2021.03.12