基于主干网分层递归级联架构的图像二维目标检测网络构建方法与流程

    专利2025-03-21  30


    本发明涉及人工智能领域,尤其是一种基于主干网分层递归级联架构的图像二维目标检测网络构建方法。


    背景技术:

    1、图像二维目标检测是人工智能的一类极其重要的应用,具有同时识别图像中多个目标类别及其在图像中的二维位置的能力,广泛应用于自动驾驶、智能安防、工业制造检测等诸多领域。基于卷积神经网络cnn(convolutional neural networks)的单阶段目标检测网络模型,具有计算复杂度低(算力要求低)、算子标准、易于在嵌入式ai芯片上部署的优点,已成为工业界的主流图像二维目标检测方法。

    2、transformer算法基于自注意力机制,相对卷积神经网络cnn具有长程依赖和学习全局上下文的能力,成为深度学习领域研究热点。但transformer需要新的算子,难以直接在现有嵌入式ai芯片部署。

    3、经典单阶段二维目标检测网络模型可以分为主干网、特征金字塔网络fpn(feature pyramid network)以及检测头三个部分。提升现有二维目标检测网络模型性能的一类重要优化方案集中在特征金字塔网络模型优化,但这些优化方案如pan(pathaggregation network)、bi-fpn、detectors rfp(recursive feature pyramid)多采用加深网络深度即增加网络层数或通过搜索方式优化层间连接结构等优化策略,在性能提升的基础上增加了算法复杂度或由于无法充分利用嵌入式ai芯片架构,降低了ai芯片资源利用率。

    4、一些术语如下:

    5、fpn,feature pyramid networks,特征金字塔网络;

    6、bi-fpn,双向特征金字塔网络;

    7、pan,path aggregation network,路径聚合网络;

    8、rfp,递归特征金字塔网络。


    技术实现思路

    1、为解决现有技术中的至少一个技术问题,本发明实施例提供一种基于主干网分层递归级联架构的图像二维目标检测网络构建方法,能够提升二维目标检测性能而不增加计算复杂度,更适合于嵌入式ai芯片部署。为实现以上技术目的,本发明实施例采用的技术方案是:

    2、本发明实施例提供了一种基于主干网分层递归级联架构的图像二维目标检测网络构建方法,包括:选择van-b1作为主干网,替换二维目标检测网络模型yolo中的主干网,拆分二维目标检测网络模型yolo中特征金字塔网络中现有的多个卷积级联单元,修改主干网三个层与特征金字塔网络的连接拓扑,基于残差连接实现主干网的低层推理重复利用。

    3、进一步地,所述的基于主干网分层递归级联架构的图像二维目标检测网络构建方法,具体包括以下步骤:

    4、步骤s10,选择van-b1作为主干网,替换二维目标检测网络模型yolo中的主干网;

    5、步骤s20,将与主干网的层3和层4分别连接的二维目标检测网络模型yolo的特征金字塔网络fpn-neck2和fpn-neck1中原来的3个1×1卷积与3×3卷积构成的级联单元拆分为2个1×1卷积与3×3卷积构成的级联单元和1个1×1卷积与3×3卷积构成的级联单元;

    6、步骤s30,通过残差连接将主干网层3的输出与特征金字塔网络fpn-neck2中2个通道数为128的1×1卷积与通道数为256的3×3卷积构成的级联单元的输出连接后,作为主干网层4的输入;

    7、步骤s40,通过残差连接将主干网层4的输出与特征金字塔网络fpn-neck1中2个通道数为256的1×1卷积与通道数为512的3×3卷积构成的级联单元的输出连接后,作为主干网层5的输入;

    8、步骤s50,主干网层5的输出经过特征金字塔网络fpn-neck0的3个通道数为512的1×1卷积与通道数为1024的3×3卷积构成的级联单元后,得到的输出输入至主干网层5对应特征层的检测头,同时该得到的输出经过2倍上采样后与步骤s40的输出进行信道级联后输入到特征金字塔网络fpn-neck1中最后1个通道数为256的1×1卷积与通道数为512的3×3卷积构成的级联单元;

    9、步骤s60,特征金字塔网络fpn-neck1中最后1个通道数为256的1×1卷积与通道数为512的3×3卷积构成的级联单元的输出输入至主干网层4对应特征层的检测头,同时该输出经过2倍上采样后与步骤s30的输出进行信道级联后输入到特征金字塔网络fpn-neck2中最后1个通道数为128的1×1卷积与通道数为256的3×3卷积构成的级联单元后,输入到主干网层3对应特征层的检测头;

    10、步骤s70,各个特征层的检测头和非极大值抑制nms(non-maximum suppression)与二维目标检测网络模型yolo保持一致

    11、进一步地,仅将分辨率为原始图像1/8、1/16和1/32的特征,即对应主干网的层3、层4,层5的输出接入至特征金字塔网络。

    12、进一步地,所述主干网的层3低于层4,层4低于层5。

    13、本发明实施例提供的技术方案带来的有益效果是:本申请与与标准fpn相比没有新增模型参数和推理运算,但通过fpn网络和主干网的递归级联方式,同时加深了主干网的深度和fpn网络的深度,因此目标检测性能有了较大提升,但算法复杂度没有任何增加。



    技术特征:

    1.一种基于主干网分层递归级联架构的图像二维目标检测网络构建方法,其特征在于,包括:选择van-b1作为主干网,替换二维目标检测网络模型yolo中的主干网,拆分二维目标检测网络模型yolo中特征金字塔网络中现有的多个卷积级联单元,修改主干网三个层与特征金字塔网络的连接拓扑,基于残差连接实现主干网的低层推理重复利用。

    2.如权利要求1所述的基于主干网分层递归级联架构的图像二维目标检测网络构建方法,其特征在于,具体包括以下步骤:

    3.如权利要求2所述的基于主干网分层递归级联架构的图像二维目标检测网络构建方法,其特征在于,

    4.如权利要求2所述的基于主干网分层递归级联架构的图像二维目标检测网络构建方法,其特征在于,


    技术总结
    本发明提供一种基于主干网分层递归级联架构的图像二维目标检测网络构建方法,包括:选择VAN‑B1作为主干网,替换二维目标检测网络模型YOLO中的主干网,拆分二维目标检测网络模型YOLO中特征金字塔网络中现有的多个卷积级联单元,修改主干网三个层与特征金字塔网络的连接拓扑,基于残差连接实现主干网的低层推理重复利用,能够提升二维目标检测性能而不增加计算复杂度,更适合于嵌入式AI芯片部署。

    技术研发人员:黄奎,杨鼎成,王江
    受保护的技术使用者:江西中科智鹏物联科技有限公司
    技术研发日:
    技术公布日:2024/4/29
    转载请注明原文地址:https://wp.8miu.com/read-84328.html

    最新回复(0)