本发明涉及目标检测,特别涉及一种融合混合注意力的显著性目标检测方法。
背景技术:
1、目前,显著性目标检测(salient object detection)(sod),主要目的是通过模拟人类的视觉注意机制,让计算机视觉能够快速定位并检测图像或视频中显著目标,进而分割并突出人类视觉中最感兴趣的区域。视觉注意机制是一种心理调节机制,在人类视觉信息处理过程中有着举足轻重的地位。在视觉注意的指引下,人类能够快速地从纷杂的视觉信息中选出与自身当下最契合、最要紧、最显要的视觉信息。最直观的证据就是人类总能第一时间看向自己感兴趣的目标,从而轻松实现对兴趣目标的稳定跟踪。目前,显著目标检测已广泛应用到计算机视觉任务中,比如机器人导航,语义分割,目标识别和检测,图像分割,图像和视频压缩,图像感知,目标跟踪,行为识别,图像检索,图像渲染操作,智能交通等。
2、现有的显著性物体检测算法可分为两大类:基于手动选择特征的传统方法和使用深度神经网络提取语义特征的方法。传统的显著性检测算法步骤为:先对图像进行区域分割;接着提取浅层特征,如颜色、形状、边缘等;然后直接进行显著性计算或者利用算法进行特征层的融合,得到显著性图。虽然基于传统的显著性检测方法能够在处理简单场景图像时取得较好的检测效果,但由于该类方法无法提取到图像的深层语义特征,故在处理复杂图像时,检测效果与人的感知结果差异较大。
3、近些年来,由于卷积神经网络(cnn)能获得深层特征从而大大提升检测精度,因此卷积神经网络被研究人员广泛地应用到显著性目标检测任务中。与此同时,大量基于卷积神经网络的显著性检测算法应运而生,这些算法利用图像的深度特征,取得了比传统方法更好的检测性能。伴随全卷积神经网络的蓬勃发展,研究人员发现,融合了中低层特征的显著性检测模型比仅利用深度特征方法的显著性检测模型拥有更高的算法性能,这是因为中低层特征包含了丰富的结构和细节信息,可以描绘较为完整和精确的轮廓。
4、虽然现存的算法已经取得了非常好的成果,但显著性目标检测领域仍然存在以下问题:(1)基于特征金字塔网络的显著性目标检测算法在信息传递过程中会丢失信息,对显著目标的边缘处理效果较差;(2)面对一些具有复杂背景的场景,单靠简单的卷积根本无法完整的分离开显著目标和背景,故加强多尺度信息融合的方法急需进一步发展。
技术实现思路
1、本发明目的之一在于提供了一种融合混合注意力的显著性目标检测方法,融合混合注意力的显著性目标检测方法,通过使用vgg16网络充分提取出图像中的局部特征信息和全局语义信息,解决了编码器信息提取不全的问题;同时利用混合注意力模块,加强网络对目标区域的关注,有效地提高了显著性目标检测的精度,能够有效地提取局部和全局上下文信息,设计了简单且有效的融合混合注意力的显著性目标检测方法,能够提高复杂场景中显著性检测的高效性和准确性对显著性数据集,该方法可以解决视觉场景中背景复杂,显著目标混乱和区域像素内部不均匀问题。在网络解码器的每一级中插入了混合注意力模块和残差结构,通过对相邻特征层进行信息融合和显著目标加强操作,增强网络对显著目标的判别和检测能力。对显著性目标检测任务使用混合损失函数,从像素级和图像级两个层面进行监督,促进梯度的回传,加强模型收敛,进一步提升模型训练效果。
2、本发明实施例提供的一种融合混合注意力的显著性目标检测方法,包括:
3、获取显著性目标检测的rgb图片和一个与原始图像大小相同的二值图像即对应的标签图,并输入预训练好的显著性目标检测模型,获得显著性目标检测结果;其中,所述显著性目标检测模型包括:依次连接特征提取模块、混合注意力模块、多尺度特征融合模块、特征增强融合模块、预测输出模块;
4、特征提取模块:用来获得输入的rgb图像的多尺度特征;
5、混合注意力模块:加强网络对显著目标区域的关注,得到显著目标特征更明显的特征图;
6、多尺度特征融合模块:用来减少因卷积和上采样导致的信息丢失,同时加强显著性目标检测模型对目标区域的关注,从而获得更加明显的显著目标信息;
7、特征增强融合模块:用来融合相邻特征层的特征信息,最终得到一个包含局部细节信息和全局语义信息的特征层;
8、预测输出模块:利用两种损失函数,从不同层面监督模型训练,以突出显著性目标区域,从而得到最终的显著性目标检测预测图。
9、优选的,所述特征提取模块包括:依次连接的卷积和最大池化操作;
10、所述特征提取模块以vgg16作为主干网络,为了减少信息损失,将其提取部分修改成完全卷积网络,保留前13个卷积层并去除最后两个全连接层和最后一个池化层;
11、利用vgg16模型在特征提取阶段依次做以下操作:两次3×3卷积、一次最大池化;两次3×3卷积、一次最大池化;三次3×3卷积、一次最大池化;三次3×3卷积、一次最大池化;三次3×3卷积;最后输出5个不同的特征层feat1、feat2、feat3、feat4、feat5,分别为512×512×64,256×256×128,128×128×256,64×64×512,32×32×512。
12、优选的,所述混合注意力模块包括:依次连接的改进的高效通道注意力单元和空间注意力单元;
13、改进的高效通道注意力单元实现过程分为三部分:
14、第一部分:先对输入的特征图进行全局最大池化,将特征图从[h,w,c]的矩阵变成[1,1,c]的向量;其次通过计算得到自适应的一维卷积核大小kernel_size;接着将利用卷积核大小为kernel_size的一维卷积,得到特征图的每个通道的权重;
15、第二部分:先对输入的特征图进行全局平均池化,将特征图从[h,w,c]的矩阵变成[1,1,c]的向量;其次通过计算得到自适应的一维卷积核大小kernel_size;接着将利用卷积核大小为kernel_size的一维卷积,得到特征图的每个通道的权重;
16、第三部分:先将前两部分的归一化权重进行相加,然后加入非线性因素,提高神经网络对模型的表达能力,最后将相加后的权重与输入特征图进行逐通道相乘,得到加权后的特征图;
17、空间注意力单元实现过程为:首先对输入的特征图进行最大池化处理;其次对输入的特征图进行平均池化处理;接着将两次处理结果进行通道维度的堆叠,获得更丰富的特征表示;然后利用1×1卷积将堆叠后的通道数调整为输入特征图的通道数,并进行权重归一化操作,获得归一化权重;最后,将归一化权重与输入特征图进行相乘,得到最终的特征图;
18、混合注意力模块实现过程为:先将待处理的特征层输入到改进的高效通道注意力模块,得到加权后的特征图;然后将加权后的特征图传输到空间注意力模块,得到最终的特征图。
19、优选的,所述多尺度特征融合模块包括:
20、多尺度特征融合模块由改进的高效通道注意力、空间注意力和不同采样率卷积组成,根据不同特征层的特点主要分为两部分:
21、第一部分:首先,利用1×1卷积、3×3卷积、5×5卷积对特征层进行不同采样率卷积的并行采样,同时为了减少模型的计算量和参数量,用3×1卷积加1×3卷积代替3×3卷积,用5×1卷积加1×5卷积代替5×5卷积;其次,将得到的结果拼接到一起,扩大通道数,并利用1*1卷积调整通道数;接着,利用改进版的高效通道注意力加强网络对显著区域通道信息的关注,得到更明显的显著特征;然后,将经过并行采样和注意力加强的两个结果进行拼接,扩大通道数;最后,利用两次3×3卷积,对上述结果进行深层融合和通道的调整;
22、第二部分:首先,利用1×1卷积、3×3卷积、5×5卷积对特征层进行不同采样率卷积的并行采样,同时为了减少模型的计算量和参数量,用3×1卷积加1×3卷积代替3×3卷积,用5×1卷积加1×5卷积代替5×5卷积;其次,将得到的结果拼接到一起,扩大通道数,并利用1×1卷积调整通道数;接着,利用空间注意力加强网络对显著区域空间信息的关注,得到更明显的显著特征;然后,将经过并行采样和注意力加强的两个结果进行拼接,扩大通道数;最后,利用1×1卷积,对上述结果进行信息融合和通道调整。
23、优选的,所述特征增强融合模块包括:
24、特征增强融合模块由上采样、残差结构、拼接和混合注意力模块组成,根据不同特征层的特点主要分为四部分:
25、第一部分:第一,将l ayer5经过多尺度特种融合模块1得到的特征层进行上采样得到p5_up,p5_up的分辨率和l ayer4一样;第二,将l ayer4和p5_up进行拼接,扩大通道;第三,利用1×1卷积调整通道数,减少模型的参数量和计算量;第四,利用混合注意力模块对特征信息进一步的融合和增强;第五,将第四步得到的结果与l ayer4进行残差拼接,丰富特征层的信息;第六,利用两次3*3卷积对特征信息进行进一步的融合,同时调整通道数;
26、第二部分:第一,将l ayer4处理后的结果进行上采样得到p4_up,p4_up的分辨率和l ayer3一样;第二,将l ayer3和p4_up进行拼接,扩大通道;第三步到第六步的步骤和第一部分此处的步骤一致;
27、第三部分:第一,将l ayer3处理后的结果进行上采样得到p3_up,p3_up的分辨率和l ayer2一样;第二,将l ayer2经过多尺度特征融合模块的结果与p3_up进行拼接,扩大通道数;第三,利用1×1卷积调整通道数,减少模型的参数量和计算量;第四,利用混合注意力模块对特征信息进一步的融合和增强;第五,利用两次3*3卷积对特征信息进行进一步的融合,同时调整通道数;
28、第四部分:第一,将l ayer2经过处理后的结果进行上采样得到p2_up,p2_up的分辨率和l ayer1一样;第二,将l ayer1和p2_up进行拼接,扩大通道;第三步到第六步和第一部分此处的步骤一致;第七,混合注意力模块进一步加强显著目标特征。
29、优选的,所述预训练好的显著性目标检测模型的获取步骤包括:
30、准备训练所需的训练样本集;其中,所述训练样本集中的每个样本均包括rgb样本图像和对应的真值显著图;
31、基于所述训练样本集对初始显著性目标检测模型进行训练,初始显著性目标检测模型的损失函数值达到预设收敛条件后,获得所述预训练好的显著性目标检测模型;
32、其中,所述损失函数值为每个样本的rgb样本图像的预测显著性图像与所述rgb样本图像对应的真实显著性图像之间的损失函数值;损失函数值采用两种不同的损失函数求和获得,两种损失函数依次为cel损失和bce损失。
33、优选的,所述基于所述训练样本集对初始显著性目标检测模型进行训练时,采用随机梯度下降算法进行模型参数优化。
34、优选的,获取显著性目标检测的rgb图片和对应的标签图,包括:
35、获取动物区域最近预设的时间内的动物历史轨迹;
36、获取动物拍摄任务;
37、基于所述拍摄任务和所述动物历史轨迹,确定拍摄移动路线;
38、基于所述拍摄移动路线,控制所述动物区域内的移动拍摄设备执行所述动物拍摄任务;
39、获取所述移动拍摄设备回传的显著性目标检测的rgb图片和对应的标签图。
40、优选的,所述基于所述拍摄任务和所述动物历史轨迹,确定拍摄移动路线,包括:
41、从所述拍摄任务中提取拍摄时间区间和拍摄对象;
42、基于预设的区间扩大规则,将所述拍摄时间区间扩大成目标时间区间;
43、从所述动物历史轨迹中确定所述拍摄对象的落在所述目标时间区间内的目标轨迹;
44、获取所述动物区域对应的预设的区域地图;
45、将所述目标轨迹映射进所述区域地图中;
46、基于拍摄点标记规则,在所述区域地图中标记拍摄点;
47、在所述区域地图中以所述拍摄点为圆心,预设长度长为半径作圆形范围;
48、确定所述目标轨迹落入所述圆形范围的局部轨迹;
49、计算全部所述局部轨迹的轨迹产生时间的平均时间,并与对应所述拍摄点进行关联;
50、基于各一一关联的所述拍摄点和所述拍摄时间,生成拍摄移动路线;
51、其中,所述拍摄点标记规则包括:
52、所述区域地图中至少有一个所述目标轨迹与所述拍摄点之间的最小距离小于等于预设的第一距离阈值;
53、两两相邻所述拍摄点之间的直线距离落在预设的距离区间内。
54、优选的,所述拍摄点标记规则还包括:
55、获取所述拍摄对象对应的预设的标准区域类型库,从所述区域地图中确定所述标准区域类型库中任一区域类型的第一区域边界,所述拍摄点与所述第一区域边界之间的最小距离大于等于预设的第二距离阈值;
56、获取所述所述移动拍摄设备对应的预设的标准区域库,从所述区域地图中确定所述标准区域库中任一标准区域的第二区域边界,所述拍摄点与所述第二区域边界之间的最小距离大于等于预设的第三距离阈值。
57、本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
58、下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
1.一种融合混合注意力的显著性目标检测方法,其特征在于,包括:
2.如权利要求1所述的一种融合混合注意力的显著性目标检测方法,其特征在于,所述特征提取模块包括:依次连接的卷积和最大池化操作;
3.如权利要求1所述的一种融合混合注意力的显著性目标检测方法,其特征在于,所述混合注意力模块包括:依次连接的改进的高效通道注意力单元和空间注意力单元;
4.如权利要求1所述的一种融合混合注意力的显著性目标检测方法,其特征在于,所述多尺度特征融合模块包括:
5.如权利要求1所述的一种融合混合注意力的显著性目标检测方法,其特征在于,所述特征增强融合模块包括:
6.如权利要求1所述的融合混合注意力的显著性目标检测方法,其特征在于,所述预训练好的显著性目标检测模型的获取步骤包括:
7.如权利要求6所述的融合混合注意力的显著性目标检测方法,其特征在于,所述基于所述训练样本集对初始显著性目标检测模型进行训练时,采用随机梯度下降算法进行模型参数优化。
8.如权利要求1所述的融合混合注意力的显著性目标检测方法,其特征在于,获取显著性目标检测的rgb图片和对应的标签图,包括:
9.如权利要求8所述的融合混合注意力的显著性目标检测方法,其特征在于,所述基于所述拍摄任务和所述动物历史轨迹,确定拍摄移动路线,包括:
10.如权利要求9所述的融合混合注意力的显著性目标检测方法,其特征在于,所述拍摄点标记规则还包括:
