一种基于DETR和任务分离的目标检测方法及系统

    专利2025-06-22  31


    本发明涉及深度学习和计算机视觉,特别是一种基于detr和任务分离的目标检测方法及系统。


    背景技术:

    1、目标检测是计算机视觉领域中的一项基础且具有挑战性的任务。目标检测的任务是对图像中物体进行分类和定位。物体分类的目的是将物体与背景分离并识别它们的类别(例如狗和猫),而物体定位的目的是通过在它们周围绘制一个边界框来标明物体的位置。目标检测有许多实际应用,如面部识别、自动驾驶、视频监控、医疗图像分析等。然而,目标检测也面临许多困难,如遮挡、尺度变化、光照变化、背景混乱等。

    2、近年来提出的detr模型通过引入对象查询编码,应用transformer来实现端到端的训练过程,并采用一对一的匹配方法,打破了传统目标检测方法的限制,实现了真正的一阶段网络。尽管detr引入了位置编码,但特征映射是在共享网络中编码的。也就是说,对象分类和定位都使用共享网络的同一特征图。然而,对象分类和定位显然具有不同的特性。一方面,对象分类关注对象最独特的部分以预测正确的对象类别。另一方面,对象定位则关注整个对象区域,以便绘制包含整个对象的边界框。因此,有必要设计一个同时考虑到这两项任务不同特性的目标检测方法。


    技术实现思路

    1、鉴于上述对象分类和定位都使用共享网络的同一特征图中存在的问题,提出了本发明。

    2、因此,本发明所要解决的问题在于如何提供一种通过优化损失函数和调整模型结构的方法,在提高目标识别准确度的同时,加快模型的训练速度以及提升相应的评价指标的方法。

    3、为解决上述技术问题,本发明提供如下技术方案:

    4、第一方面,本发明实施例提供了一种基于detr和任务分离的目标检测方法,其包括,获取多个数据集,对目标检测数据集进行预处理;获取detr原始模型代码,改造解码器端的输入,调整每一个解码器层中的注意力顺序,改造为级联交叉注意力;编写反馈通信模块代码,选择合适的参数,并将其插入到解码器层,同时修改最终损失函数的计算方法;调试修改后的detr模型,选取合适的训练参数并分别在两个目标检测数据集上进行训练,保存在测试集上评价指标最高的权重文件。

    5、作为本发明所述基于detr和任务分离的目标检测方法的一种优选方案,其中:所述调整每一个解码器层中的注意力顺序,改造为级联交叉注意力包括:在detr模型中,每一个解码器层都会进行交叉注意力操作,将编码器最终输出的特征向量经过简单的矩阵变换作为k和v,解码器的输入特征向量作为q,公式如下:

    6、q(i,j,k)=xwq

    7、k(i,j,k)=n(i,j,k)wk

    8、v(i,j,k)=n(i,j,k)wv

    9、

    10、其中,x表示解码器的输入特征向量,n(i,j,k)表示编码器最终输出的特征向量,w表示对应的变换矩阵,d表示通道的维度;softmax的公式如下:

    11、

    12、其中,zi为第i个节点的输出值,c为输出节点的个数;得到一个新的局部特征表示为lecross。

    13、作为本发明所述基于detr和任务分离的目标检测方法的一种优选方案,其中:所述lecross作为新的输入向量k和v,结合lecross对目标分类的特征向量进行交叉注意力操作,公式如下:

    14、

    15、ql1=al⊙f

    16、

    17、qc1=ac⊙ql

    18、其中,ql代表目标定位的编码,kf和f是编码器的输出,al代表第一步中交叉注意力的权重图,ql1代表关于位置的特征信息,qc是目标类别编码,qc1为关于类别的特征信息。

    19、作为本发明所述基于detr和任务分离的目标检测方法的一种优选方案,其中:所述编写反馈通信模块代码,选择合适的参数,并将其插入到解码器层包括以下步骤:将经过注意力操作的目标定位编码和目标分类定位编码分别经过一层残差层进行特征增强,将各自的结果作为反馈通信模块的输入;将目标定位编码和目标分类编码在通道维度上进行拼接,使用卷积层和前馈层进行特征压缩和维度转换,结果作为新的目标定位编码,不对目标分类编码做修改,公式如下:

    20、q12=concat(q1,q2)

    21、q1_out=fnn(cnn(q12))

    22、其中,q1和q2分别表示目标定位编码和目标分类编码。

    23、作为本发明所述基于detr和任务分离的目标检测方法的一种优选方案,其中:所述修改最终损失函数的计算方法如下:将结果类别损失,结果位置损失,特征图的类别损失以及特征图的位置损失之和作为总的损失函数,公式如下:

    24、l=λ1lcls+λ2lloc+λ3latt_cls+λ4latt_loc

    25、其中,λ1,λ2,λ3和λ4是用来调节目标函数的超参数,lcls是物体分类损失,lloc是物体定位损失;使用平滑的l1损失学习对象的边界框位置坐标,latt_cls和latt_loc分别表示中间层特征图的分类损失和定位损失;损失函数的约束如下:

    26、λ1=λ2=λ3=λ4=1

    27、通过反向传播自动调整超参数值。

    28、作为本发明所述基于detr和任务分离的目标检测方法的一种优选方案,其中:所述选取合适的训练参数并分别在两个目标检测数据集上进行训练包括,使用sgd的一阶矩的估计,公式如下:

    29、mt=β1·mt-1+(1-β1)·gt

    30、添加adadelta的二阶动量,二阶矩的估计公式如下:

    31、

    32、进行校正:

    33、

    34、

    35、adam参数更新公式如下:

    36、

    37、其中,η是学习率,gt是当前参数的梯度,β1为一阶矩估计的指数衰减率,β2为二阶矩估计的指数衰减率,和是β1和β2的t次方。

    38、作为本发明所述基于detr和任务分离的目标检测方法的一种优选方案,其中:所述保存在测试集上评价指标最高的权重文件包括,分别在多个数据集上训练模型,通过损失函数的结果判断模型的收敛轮数,在损失值逐渐收敛到最低点之后通过torch.save函数保存为后缀名为pth的权重文件。

    39、第二方面,本发明为进一步解决对象分类和定位都使用共享网络的同一特征图中存在的安全问题,实施例提供了基于detr和任务分离的目标检测系统,其包括:数据处理模块,用于获取多个数据集,并对目标检测数据集进行预处理;模型获取模块,用于获取detr原始模型代码;反馈通信模块,用于在两组之间反向传输信息,以帮助稳定训练过程并反向传递好的特征信息;模型改造模块,用于改造detr解码器端;训练模块,用于调试修改后的模型,选择训练参数,在数据集上进行训练;评估模块,用于在测试集上评价训练好的模型,保存最优权重;参数配置模块,用于选择合适的反馈通信参数和训练参数。

    40、第三方面,本发明实施例提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其中:所述计算机程序被处理器执行时实现如本发明第一方面所述的基于detr和任务分离的目标检测方法的任一步骤。

    41、第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其中:所述计算机程序被处理器执行时实现如本发明第一方面所述的基于detr和任务分离的目标检测方法的任一步骤。

    42、本发明有益效果为,本发明充分利用目标检测中分类和定位两种任务不同的特点,将原始detr的输入拆分为两组,在与原始输入维度保持不变的情况下,能极大的减轻各自任务的压力,加快模型的收敛速度;引入了级联交叉注意力操作以及反馈通信模块,前者将注意到的位置信息传递给负责类别的编码,为其提供更加丰富的特征信息。同时引入反馈通信模块,在其中负责类别的编码将自己注意到的特征信息反馈给负责位置的编码,调整并加强其特征。两者相互协作,互相补充,能在很大程度上弥补由于分组带来的特征图语义信息的不足;引入了新的损失函数,在原有基础上加入了中间特征图的类别和定位的损失,能更快加速模型的收敛,经验证,在训练100轮之后,模型就可以收敛到相对平缓的位置;本发明的设计方法具有通用性,尤其对于以detr为基础模型的目标检测方法,为基于detr的相关检测方法提供了新的思路,其可以很方便的将本发明中提及的方法融合进自己的模型中,提高模型的收敛速度以及准确度。


    技术特征:

    1.一种基于detr和任务分离的目标检测方法,其特征在于:包括:

    2.如权利要求1所述的基于detr和任务分离的目标检测方法,其特征在于:所述调整每一个解码器层中的注意力顺序,改造为级联交叉注意力包括:

    3.如权利要求2所述的基于detr和任务分离的目标检测方法,其特征在于:所述lecross作为新的输入向量k和v,结合lecross对目标分类的特征向量进行交叉注意力操作,公式如下:

    4.如权利要求3所述的基于detr和任务分离的目标检测方法,其特征在于:所述编写反馈通信模块代码,选择合适的参数,并将其插入到解码器层包括以下步骤:

    5.如权利要求4所述的基于detr和任务分离的目标检测方法,其特征在于:所述修改最终损失函数的计算方法如下:

    6.如权利要求5所述的基于detr和任务分离的目标检测方法,其特征在于:所述选取合适的训练参数并分别在两个目标检测数据集上进行训练包括,

    7.如权利要求6所述的基于detr和任务分离的目标检测方法,其特征在于:所述保存在测试集上评价指标最高的权重文件包括,

    8.一种基于detr和任务分离的目标检测系统,基于权利要求1~7任一所述的基于detr和任务分离的目标检测方法,其特征在于:包括:

    9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于:所述处理器执行所述计算机程序时实现权利要求1~7任一所述的基于detr和任务分离的目标检测方法的步骤。

    10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1~7任一所述的基于detr和任务分离的目标检测方法的步骤。


    技术总结
    本发明公开了一种基于DETR和任务分离的目标检测方法及系统,涉及深度学习和计算机视觉技术领域,包括获取数据集,对目标检测数据集进行预处理;获取DETR原始模型代码,改造解码器端的输入,调整每一个解码器层中的注意力顺序,改造为级联交叉注意力;编写反馈通信模块代码,选择合适的参数,并将其插入到解码器层,同时修改最终损失函数的计算方法;调试修改后的模型,选取合适的训练参数并分别在两个目标检测数据集上进行训练,保存在测试集上评价指标最高的权重文件。本发明设计方法具有通用性,尤其对于以DETR为基础模型的目标检测方法,可以很方便的将本发明中提及的方法融合进自己的模型中,提高模型的收敛速度以及准确度。

    技术研发人员:吴蒙,窦德云
    受保护的技术使用者:南京邮电大学
    技术研发日:
    技术公布日:2024/4/29
    转载请注明原文地址:https://wp.8miu.com/read-88589.html

    最新回复(0)