一种基于帧卸载调度加速的DNN3D边缘检测推理方法

    专利2025-06-09  61


    本发明涉及计算机视觉识别领域,更具体地说,涉及一种基于帧卸载调度加速的dnn 3d边缘检测推理方法。


    背景技术:

    1、目标检测已经引起了计算机视觉界研究人员的极大关注,尤其是应用dnn(深度神经网络)来提取图像平面上的2d边界框的2d对象检测方法,尽管最先进的2d检测技术可以高精度地检测物体,但它们缺乏用于定位对象深度并估计其大小的信息,这对于机器人和自动驾驶中的回避等任务路径规划和碰撞至关重要,为了克服这些限制,3d对象检测提出了一些方法,3d检测提供第三维度来表征对象在背景环境坐标中的大小和位置。

    2、自动驾驶和机器人技术中,三维物体检测在广泛的应用中发挥着关键作用,部署的边缘设备要求迅速与环境交互,并且需要实时响应,尽管硬件和深度神经网络取得了进步,但在车辆和机器人等资源受限的边缘设备的云端执行3d检测推理任务仍然是一项艰巨的任务,同时,检测需要足够频繁地进行,以跟踪移动物体,这需要很短的时间在边缘设备上的进行检测/推断,目前比较流行的3d检测模型,输入图像来自自动驾驶数据集kitti,如openpcdet、pointpillar、second、四种yolov5变体等一系列3d目标检测模型的边缘设备推理平均延迟达到930ms以上,即对于需要快速响应环境的现实世界应用程序来说不切实际;

    3、由于仅边缘推理的高延迟,科研人员自然会考虑使用更强大的硬件在云中执行推理任务,云推理,然而,以平均每个文件尺寸接近7mb,将点云数据流式传输到云是带宽密集型的,推理延迟远远高于端到端延迟,以kitti数据集具体实验表明:即使对于具有最高平均带宽的轨迹,belgium-2四个模型的平均端到端延迟达到400ms。这比只有边缘的延迟要强得多,但实际应用仍不尽如人意,互联网中广域网/蜂窝网络的传输延迟占据了推理时间的大部分,当网络状况恶化时,端到端潜伏期明显增长:例如,fcc-1轨迹推理时间几乎是belgium-2的两倍,很明显,而对于更高带宽的跟踪,基于以上结果,卸载所有将3d帧云化进行推理也是不切实际的;

    4、通常,3d对象检测输入模态大体分三种:一种是激光雷达传感器的点云数据,第二种是基于图像平面,第三种是基于图像和点云融合数据作为输入,尽管基于图像和融合的方法发展迅速,但它们仍然落后于迄今为止的点云方法,在流行的kitti排行榜上排名前十的方法中有九种是基于点云,3d对象检测的瓶颈在于受限边缘的复杂模型处理的数据的能力,以及通过互联网络/蜂窝网络传输数据到云的延迟;

    5、与2d物体检测相比,3d物体检测引入了第三维度来表征物体的位置和大小现实世界中的对象,此外,3d检测提供指示方位的朝向角,由于任务复杂且需要处理大量数据,三维检测模型通常具有更复杂更膨胀的结构模型,因此对计算资源提出了更高的需求,实验发现在相同的硬件平台下,三维检测模型的推理时延可达二维模型的几十倍;

    6、3d物体检测根本问题在于如何在准确性和延迟之间进行权衡:2d检测可以获得的延迟增益更多,但随着2d到3d映射的变化,随着时间的推移精度会降低,因此目前存在两个3d检测基本设计问题,1、帧级别,如何准确高效地将2d边界框转换为3d边界框,这样就可以最大限度地提高2d检测的延迟效益,2、跨帧,作为2d到3d的转换随着时间的推移而积累,不可避免地必须对新的锚帧进行3d检测用于后续转换的框架但是如何能及时有效发现准确度下降,需要与3d检测结果进行比较确认。


    技术实现思路

    1、针对现有技术中存在的问题,本发明的目的在于提供一种基于帧卸载调度加速的dnn 3d边缘检测推理方法,能够提高解决为了缓解有限的供应和不断增长的计算资源需求之间的紧张关系,卸载云的方法将计算密集型3d对象检测卸载到云用于推断。

    2、为了达到本技术的目的,本发明采用如下的技术方案。

    3、一种基于帧卸载调度加速的dnn 3d边缘检测推理方法,包括:

    4、1、问题分析:

    5、深度神经网络(dnns)的快速发展赋予了许多用例权力,包括机器人视觉、对象检测、人脸识别和图像超分辨率等,以及需要准确感知周围环境才能良好运行的自动驾驶技术中,最有前景的用例之一是3d物体检测,在自主机器人视觉等广泛应用中发挥着关键作用,三维对象检测是这些感知系统的基本基础,并且已经投入了大量的研究工作提高其准确性,以点云表示的3d感知数据作为输入,通常由lidar或相机捕获以生成3d边界框;

    6、随着边缘计算的普及,机器人和自动驾驶应用对延迟敏感,通常部署在边缘设备上,以便及时与周围环境交互,尽管边缘计算离数据源很近,但配套计算力存在有限性,以最常用的边缘设备nvidia jetson orin nx(1024个cuda内核,jetson orintm模组算力高达每秒275万亿次浮点运算(tops))为例,桌面级geforce rtx 2080 ti的cuda(4352个内核),比nx多4倍,对于高端gpu来说,这一数字甚至飙升至更多倍,因此,在资源受限实时处理的边缘设备下运行大规模3d检测模型是非常困难不现实的;

    7、为了缓解有限的供应和不断增长的计算资源需求之间的紧张关系,卸载云的方法将计算密集型3d对象检测卸载到云用于推断,计算卸载将沉重的负担转移到云上,借助强大的服务器缩短延迟显著改进了推理,然而,在实际使用中我们发现端到端延迟仍然不令人满意,由于传输延迟占了延迟和瓶颈的整个管道大部分;

    8、对于2d对象低延迟检测推理受限于边缘和云推理,设计一种用于加速边缘设备上的3d对象检测的新框架,实现2d增强的3d检测,使用2d模型来推断3d边界框,3d对象检测在边缘板载上运行,并且只需几个对象锚帧精确的被卸载到服务器以进行推断,基于2d模型的输出构建3d边界框,在板载上近乎实时地生成3d检测结果。

    9、2、工作原理与技术细节,包括三个阶段:

    10、s1:帧卸载3d对象检测,帧卸载调度器控制t时刻边缘设备卸载激光雷达锚点帧point_framet(即点云)到云进行3d对象检测,并获得3d边界框,然后将3d边界框投影到图像平面上的2d边界框;

    11、s2:2d—3d转换,在下一个时隙t+1边缘设备都有一个新的激光雷达帧point_framet+1和图像imaget+1,再次运行3d检测激光雷达帧point_framet,在图像域时隙t+1运行imaget+1实例分割,并获得2d边界框和分割遮罩,两者的二维边界框imaget+1和imaget被反馈送到基于跟踪的关联模块,基于point_framet用于在这两个图像帧中的相同对象之间建立映射,该映射作用在point_framet+1,然后,使用point_framet作为参考,2d—3d转换模块采用在point_framet+1的检测映射和分割掩码,时隙t+2的检测映射和3d边界框处理使用来自t+1输出作为参考;

    12、s3:卸载调度,尤其是随着时间的推移,2d增强3d检测不可避免地会导致精度下降,因此,依赖于调度器来有效地监控2d到3d转换的质量,并且智能地决定何时将新的锚帧卸载到云,以便后续的转换具有最新的3d信息。

    13、进一步的,所述协同关联帧轨迹跟踪,包括:

    14、2d—3d转换的关键基础是基于跟踪的关联的目标利用2d域中的跟踪来建立两个相邻帧中相同对象的边界框,考虑到边缘设备的有限计算资源,跟踪模块必须:

    15、(1)实时运行的边缘设备延迟开销少;

    16、(2)同时准确跟踪帧间2d边界框以形成相邻帧之间的实体关联;

    17、像素域中现有的目标跟踪技术,基于卡尔曼滤波器的跟踪满足这两个要求,卡尔曼滤波需要做的最核心的就是融合预测和观测的结果,充分利用两者的不确定性来得到更加准确的估计,怎么得到交集的高斯分布(预测和观测高斯分布的重合部分),也就是概率比较高的部分,卡尔曼滤波器通过预测目标在后续帧中的位置,避免在进行目标关联时出现误差;

    18、卡尔曼滤波关联帧轨迹跟踪,卡尔曼滤波器根据上一时刻(t时刻)的值(每个帧的检测框)来估计当前时刻t+1(边界框)的状态(边界框的位置)imaget+1,得到t时刻的先验估计值,然后使用当前时刻的测量值imaget来更正这个估计值imaget+1,得到当前时刻的估计值imaget+1,来预测帧的轨迹imaget—imaget+1。

    19、进一步的,所述2d-3d转换,包括:

    20、边界框的2d到3d转换是将2d语义信息整合到3d中,首先将点云投影到在同一时隙中的图像帧的2d分割掩码,在3d边界框识别每个对象的点簇,过滤掉背景中被错误标记为3d对象的点,最后,依靠几何方法,基于点簇,利用先前的检测结果作为参考,投影输出3d对象。

    21、进一步的,所述过滤噪声,包括:

    22、直接将分割掩码投影到点云可能会导致某些点错误地标记为感兴趣的对象并降低准确性,因为它们投影到与车辆相同的区域,可能造成背景点被识别为车辆的一部分,为了过滤掉这些噪声点,设计了一种算法来筛选每个对象的点簇,以便实现3d边界框估计;

    23、过滤噪声算法:该算法的基本原理基于观察到潜在对象的点通常比背景更接近原点点,当我们进行定量测量时,点过滤算法基本能去除对象的噪声点,点过滤之后,每个潜在对象的点簇对于下面的3d边界框回归来说足够干净;

    24、(1)对于每个点簇首先计算从所有点到lidar坐标原点的深度;

    25、(2)接下来,它搜索离原点最近的点,它很可能代表这个物体的边界,因此被称为临界边界点;

    26、(3)然后,它计算从所有点到临界边界点的距离;

    27、(4)那些靠近临界边界点的点被认为属于对象本身;

    28、(5)如果以这种方式过滤两个少数点,则表明临界边界点可能不是该点的实际边界物体,例如当车辆彼此靠近时可能发生这种情况,然后我们添加一个小步长st和使用离原点距离至少为st的最近点进一步作为新的临界点;

    29、(6)重复过程,直到找到一个有足够点的簇,或者迭代次数超过三次。

    30、进一步的,所述3d边界估计,包括:

    31、构建了一种新的方法来高效地估计高精度的3d边界框,对于每个点簇与上一个激光雷达帧中的对象关联,直接根据前一帧的估计获得对象的大小,找到曲面,如果s是曲线坐标x(s,t)表示的曲面,其中s及t是实数变量,那么用偏导数叉积表示的法线为,如果曲面s用隐函数表示,点集合(x,y,z)满足f(x,y,z)=0,那么在点(x,y,z)处的曲面法线用梯度表示为,如果曲面在某点没有切平面,那么在此点就没有法线,通常一个满足lipschitz连续的曲面可以认为法线几乎处处存在,它迭代地选择三个随机点来形成一个平面,直到找到一个最适合的平面用方程ax+by+cz=d表示的平面,向量(a,b,c)就是其法线,其中包含最多的内点,以及它的法向量f,计算表面法向量f和对象边界框与关联的上一个激光雷达帧之间的朝向角fθ,然后估计它的朝向角,并根据大小和朝向计算对象中心,得到对象表面的法向量朝向角θ,为估计朝向角,基于来自点过滤的点簇使用与上述相同的程序来确定最佳拟合曲面,由于不再事先知道朝向(来自之前的激光雷达帧),我们采用公式(1)计算两者的边界框可能性,其中拟合更多点边界框的中心o是最终输出;

    32、

    33、对象的中心(x,y,z),尺寸(l,w,h),和x_y激光雷达坐标平面相对于x轴朝向角θ(给定的阈值)。

    34、进一步的,所述帧卸载调度,包括:

    35、在边缘设备上运行3d检测器在计算上是禁止的,要使用服务器上强大的计算资源,可以卸载3d对象检测模型的密集计算到服务器进行推断,将每个帧发送到服务器,我们设计了一个帧卸载调度器,其仅将2d到3d传输所需结果的必要帧卸载利用,从而大幅降低带宽消耗,具体来说,系统发送两种类型的帧:

    36、(1)测试帧被周期性地发送以检索检测结果,用以监视版载性能;

    37、(2)如果在版载上性能下降超过阈值,锚帧被发送到服务器进行推理,同时阻止本地处理并等待结果;

    38、在启动工作流,frameasync_t帧异步之后发送到测试框架,这意味着系统无需等待响应仍在继续板载处理,当系统接收到测试帧的检测结果时,应用精度检查器来检查基于dnn的检测与版载处理差异,将基于dnn的检测视为直接检测,并在此基础上计算精度,如果精度低于阈值o,这意味着2d到3d转换的性能正在下降即将失败,因此,下一帧被指定为锚帧,并被卸载到服务器以获得精确的3d对象检测,因此后续变换具有最新的3d信息,如果转换的准确度仍保持高质量,系统将继续进行版载处理并在frameasync_t帧异步之后重新发送测试框架,测试和锚定帧的机制可以限制卸载到服务器的帧数,避免浪费带宽资源,同时仍然监控板载性能。

    39、相比于现有技术,本发明的有益效果:

    40、(1)本技术能够快速将2d检测结果转换为外推3d边界框,解决薄弱边缘设备和计算密集型设备之间的紧张关系繁重推理问题,在自动驾驶数据集kitti和5g/lte通信轨迹上进行评估与基准比较,准确率略有下降的情况下减少端到端延迟,增强能效,相对节省功耗和内存占用。


    技术特征:

    1.一种基于帧卸载调度加速的dnn 3d边缘检测推理方法,其特征在于,包括三个阶段:

    2.根据权利要求1所述的基于帧卸载调度加速的dnn 3d边缘检测推理方法,其特征在于,所述关联帧轨迹跟踪,包括:

    3.根据权利要求2所述的基于帧卸载调度加速的dnn 3d边缘检测推理方法,其特征在于,所述2d-3d转换,包括:

    4.根据权利要求3所述的基于帧卸载调度加速的dnn 3d边缘检测推理方法,其特征在于,所述过滤噪声,包括:

    5.根据权利要求4所述的基于帧卸载调度加速的dnn 3d边缘检测推理方法,其特征在于,所述3d边界估计,包括:

    6.根据权利要求5所述的基于帧卸载调度加速的dnn 3d边缘检测推理方法,其特征在于,所述帧卸载调度,包括:


    技术总结
    本发明公开了一种基于帧卸载调度加速的DNN 3D边缘检测推理方法,属于计算机视觉识别领域,包括三个阶段:帧卸载3D对象检测,2D—3D转换,卸载调度;首先,设计一个2D到3D的转换管道,基于先前帧的检测结果高效且准确地执行该管道将来自实时捕获的来自相机、激光雷达的数据标注确认2D边界框,在不运行3D检测器的情况下生成3D边界框(准确高效地进行转换,将2D边界框转换为3D边界框,从而最大限度地提高2D检测的延迟曾益),其次,设计当2D到3D变换的误差累积时动态启动3D检测的帧卸载调度器(监测精度下降并基于DNN的3D检测精确判定卸载新帧时间),因此后续变换可以以更好的精度利用最新的3D检测结果。

    技术研发人员:邓立国,邓淇文
    受保护的技术使用者:广东工业大学
    技术研发日:
    技术公布日:2024/4/29
    转载请注明原文地址:https://wp.8miu.com/read-87957.html

    最新回复(0)