一种基于三维卷积网络的景区涂画行为识别方法与流程

    专利2022-07-08  116


    本发明属于图像处理领域,特别涉及一种行为识别技术。



    背景技术:

    最近有关景区中出现不文明行为的报道层出不穷,而针对于景区的不文明行为检测,传统的视频监控系统都是安保人员实时的盯着监控屏幕,虽然一定程度上减少了巡逻的工作量,但是传统的视频监控系统仍然存在许多不足之处。第一,安保人员同时盯着多个场景,极易疲劳,报警效果较弱;第二,根据相关统计绝大部分的监控时间是无需关注的,真正需要人工处理的监控时间低于2%,长时间的专注会使安保人员对监控丧失热情;第三,传统的视频监控系统需要投入大量人力,而且人力资源利用率低。

    而随着各种应用的迅速发展和巨大成功,深度学习正在许多安全关键环境中得到应用。其中应用比较广的一类便是动作检测。动作检测(actiondetection)主要用于给分割好的视频片段分类,但在实际中视频多是未分割的长视频,对于长视频的分割并且分类任务叫做时序动作检测(temporalactiondetection)。给定一段未分割的长视频,算法需要检测视频中的动作片段,包括开始时间、结束时间和动作类别。一段视频可以包含一个或多个相同或不同的动作片段。目前时序动作检测难点较多,解决方法主要针对这些难点。1)目标检测边界框很明确,但时序动作边界比较模糊;2)时序动作检测必须将静态图像(帧图像)结合时序信息,只使用静态图像特征不可行;3)动作时间跨度非常大。



    技术实现要素:

    本发明提出一种基于三维卷积网络的景区涂画行为识别方法,使用深度学习的动作检测方法与传统视频系统相结合而成的智能视频监控技术已经成了主流趋势;针对于景区中常见的异常行为(攀爬、涂画),我们采用深度学习方法实现了动作检测,并采用多种网络相结合的方法很好的解决了动作检测中动作边界不明显以及特征提取的难点。

    本发明采用的技术方案为:一种基于三维卷积网络的景区涂画行为识别方法,包括:

    s1、对实时视频进行预处理;

    s2、通过三维卷积网络提取经步骤s1预处理后的视频中的特征图;

    s3、将提取的特征图经过动作提议网络得到一系列粗略的涂画动作序列,包含提取到涂画动作序列的中心点和长度;

    s4、经过分类网络和精调得到涂画动作序列的具体开始和结束时间。

    进一步地,所述步骤s1包括以下子步骤:

    s11、对于实时监控摄像头获取到的长时序视频流,采用多尺度生成视频段的方式进行视频分割,得到若干视频序列段,并最终对每个尺度的视频序列段随机采样16帧视频段作为最终视频文件的输入;

    s12、采用ffmpeg对经步骤s11得到的视频文件进行每秒25帧的截取,得到一系列连续视频图像帧。

    进一步地,所述步骤s2包括以下子步骤:

    s21、对输入的视频图像帧在空间上进行三维卷积和池化操作,捕捉视频图像上的时序信息;

    s22、对输入的视频图像帧在时间上进行三维卷积和池化操作,捕捉视频图像上的时间信息。

    进一步地,步骤s3中的动作提议网络包括rpn网络与区域生成网络。

    更进一步地,所述步骤s3包括以下子步骤:

    s31、将经步骤s2处理后的特征图作为动作提议网络输入,采用rpn网络生成具有不同尺度和宽高比的锚点框,将这些锚点框作为初略估计的涂画行为动作区间;

    s32、区域生成网络将锚点框与标签框进行iou对比,如果其iou高于某个阈值,则该锚点框标定为前景框,否则属于背景框;

    s33、对于前景框,还要计算其与真实标签框的4个位置偏移;将这个标定好的锚点框与步骤s2中三维卷积网络的两个输出进行loss比较,从而学习到如何提取前景框。

    进一步地,所述步骤s4包括以下子步骤:

    s41、从上一阶段选择出部分提议、对于选择的提议进行3droi(regionofinterest)池化挖掘固定尺寸特征并对于选中的提议基于特征整合进行动作分类以及边界回归;

    s42、通过nms消除高度重叠提议和低提议分数的情况;

    s43、对分类和回归任务共同优化,得到精确的涂画行为动作区间。

    更进一步地,步骤s43所述分类使用softmax损失函数。

    进一步地,步骤s43所述回归使用平滑的l1损失函数。

    本发明的有益效果:本发明的时序动作检测方法很好的解决了动作检测的难点,很好的克服了目标检测边界框很明确,但时序动作边界模糊的问题,并将静态图像即帧图像与时序信息相结合,采用三维卷积网络在空间与时间维度上同时进行卷积,同时采用精确网络选取最准确的时间区间进行输出,最终得到精确的涂画行为区间。

    附图说明

    图1为本发明的基于三维卷积网络的景区涂画行为识别技术的流程图;

    图2为本发明的基于三维卷积网络的景区涂画行为识别技术的总体设计图;

    图3为本发明的时序提取网络图;

    图4为本发明的动作分类子网络图。

    具体实施方式

    为便于本领域技术人员理解本发明的技术内容,下面结合附图对本发明内容进一步阐释。

    如图1所示,本发明的基于三维卷积网络的景区涂画行为识别方法,使用深度学习的动作检测方法与传统视频系统相结合而成的智能视频监控技术,采用深度学习方法,对实时视频流中可能出现的异常行为进行检测,当异常行为发生时,提供预警,实现景区不文明行为的智慧化管理。具体实现过程包括以下步骤:

    s1、对实时视频进行预处理:实现了视频获取与视频分割,将摄像头实时视频流截取为视频文件,并将视频文件按照每秒25帧截取为系列图片帧。

    s11、根据实时监控摄像头获取到的长时序视频流采用多尺度生成视频段的方式进行视频分割,使得视频段尽可能的全面覆盖整个视频,同时能够有效避免镜头内容快速变化时可能引起的误检和漏检,并最终对每个尺度的视频序列段随机采样16帧视频段作为最终视频文件的输入。

    在进行行为检测的第一阶段卷积特征提取前,需要将长时序的视频进行视频段分割进行输入,因此需要对视频进行视频分割,这是视频预处理的关键步骤,也是后续视频行为检测的基础。同一镜头内视频特征的变化主要由两个因素造成:对象/摄像机的运动和光线的变化。镜头之间的转换方式主要有两类,即突变(cuttransition)和渐变(gradualtransition)。

    常用的视频分割方法有像素差异法和基于直方图的方法,像素差异法首先定义一个像素差异测度,然后计算连续两帧图像的帧间差异并用其与一个预先设定的阈值作比较,大于该阈值,则认为场景发生了改变。基于直方图的方法将相邻帧的各个像素的灰度、亮度或颜色等分成n个等级,再针对每个等级统计像素数做成直方图比较。该方法统计了总体的灰度或颜色分布数量,它对镜头内的运动和摄像机的慢速运动有着良好的容忍能力,只是在镜头内容快速变化和镜头渐变时可能会引起误检或漏检。

    在本系统中,我们采用了多尺度生成视频段的方式,使得可以更全面的覆盖整个视频。首先,视频当中的每一帧都被重新设置大小到h×w,作为第一阶段的输入。对于没有处理过的视频序列x,本系统利用滑动窗口的方式从起始帧开始,分别采样16帧,32帧,64帧,128帧,512帧,在每个尺度的采样中覆盖率为75%,假设在16帧尺度下进行采样,那么第二次采样是从第5帧开始。最后,对于一个未处理过的视频序列x,通过多尺度采样的方法得到一系列的视频片段sh为第h个滑动窗口的视频,h为所有的视频帧片段的总数,st为视频片段的开始时间,se为视频片段的结束时间。在各个尺度的视频段生成以后,本系统对每一个尺度的视频序列段随机采样16帧视频段作为最终视频文件的输入。

    s12、从生成的视频文件中,采用ffmpeg对视频文件进行每秒25帧的截取,得到一系列连续图片帧,用做行为检测模型的输入。

    s2、通过三维卷积网络提取经步骤s1预处理后的视频中的特征图。

    此部分采用三维卷积网络架构提取视频序列帧的特征,类似于2d卷积。3d卷积对h、w和l三个维度都进行卷积,而2d卷积只对h和w两个维度进行卷积,因此3d卷积得到的是三维输出,而2d卷积得到的是二维输出。

    我们选用三维卷积神经网络作为第一模块的基础架构有以下两个原因:一是三维卷积网络的特征提取方法效果较好,并且三维卷积网络结构比较简单,适合定位第二阶段需要用到的概率值提取;二是因为三维卷积模型可以直接使用3维的卷积核在时间和空间上同时进行卷积操作。因此,综合以上考虑,本系统选取c3d模型作为r-c3d模型二阶段不文明行为时序定位方法的基础架构模型。

    c3d模型在空间和时间上同时进行三维的卷积和池化操作。它可以同时捕捉视频图像上的时间信息和时序信息,并且网络结构简单。c3d模型中所有的池化层都是使用最大化池化的方法,并且所有核的大小都是2x2,在空间上的滑动步长为2步,但是在时间上的滑动步长并不相同。c3d模型中的所有3d卷积滤波器的尺寸大小均为3,在时间和空间维度的滑动步长均为1。使用符号conv代表卷积层,pool代表池化层,fc代表全连接层。这些结构在本文的结构如下:

    conv1a(64)-pool1(1,1)-conv2a(128)-pool2(2,2)-conv3a(256)-conv3b(256)-pool3(2,2)-conv4a(512)-conv4b(512)-pool4(2,2)-conv5a(512)-conv5b(512)-pool5(2,2)-fc6(4096)-fc7(4096)-fc8(k 1)。

    这个深度网络的每个输入都是l×w×h的视频帧。c3d模型是在thumos2014数据库上进行训练,本系统在此基础上进行训练调优作为我们步骤s2中的特征提取网络。

    模型的输入是视频帧序列r3×l×w×h,经过三维卷积网络提取特征图为此特征在提取网络和分类网络中共享,其中h=w=112,l长度任意,只要满足内存容量即可。

    s3、将提取的特征经过动作提议网络得到一系列粗略的涂画动作序列,包含提取到的涂画动作序列的中心点和长度,具体包括以下子步骤。本步骤中的动作提议网络由rpn网络与区域生成网络构成.

    s31、接收三维卷积网络提取的特征图作为输入,采用rpn网络生成具有不同尺度和宽高比的锚点框,将这些锚点框作为初略估计的涂画行为动作区间。

    时序提取网络目的是提取出上面特征图中(视频流)包含动作提议的视频帧段,采用fasterr-cnn中rpn提取可能包含目标的锚框。这个过程是比较粗略的,简单的定位可能出现动作的视频段,标识出动作段的中心和长度,后面进行精调。

    rpn即区域生成网络是由fasterr-cnn提出,作用是为了产生前景候选框框和前景框的位置偏移。r-cnn是在原始图片上通过selectivesearch算法提出多个候选框,再把多个候选框送入cnn进行特征提取;fastr-cnn则是将整张图片送入cnn进行特征提取,再在特征图上通过selectivesearch算法提取候选框;这两种方法都是使用离线的选择性搜索算法,耗时大,且无法端到端的学习如何提取候选框;rpn实现的便是将这个候选框的提取纳入到端到端的学习中来。

    s32、区域生成网络将锚点框与标签框进行iou对比,如果其iou高于某个阈值,则该锚点框标定为前景框,否则属于背景框。

    rpn的输入是特征图,在区域生成网络中,对于特征图上的每一个点(称之为锚点anchorpoint),生成具有不同尺度和宽高比的锚点框,这个锚点框的坐标(x,y,w,h)是在原图上的坐标。接着将这些锚点框输入到两个网络层中去,一个(rpn_cls_score)用来分类,及判断锚点框中的特征图是否属于前景;另一个(rpn_bbox_pred)输出四个位置坐标(相对于真实物体框的偏移)。在锚点框的生成中,区域生成网络将锚点框与标签框进行iou对比,如果其iou高于某个阈值,则该锚点框标定为前景框,否则属于背景框,本系统中,iou设置为0.5。

    s33、对于前景框,还要计算其与真实标签框的4个位置偏移;将这个标注好的锚点框与上一步中卷积网络层的两个输出进行loss比较,从而学习到如何提取前景框。

    时序提取网络首先接收上个三维卷积网络提取的特征图作为输入。然后假设anchor(动作片段)均匀分布在l/8的时间域上,时间域上每个位置生成k个不同长度的候选时序anchor,总共有(l/8)×k个anchor。为了获得每个时间位置的特征,预测这些锚框,首先使用一个3d卷积过滤器3×3×3来扩展时序野。然后降低采样空间维度,使用3d最大池化得到特征图每个时序位置上的512维的特征向量用来预测中心位置和长度{ci,li}的相对偏移{δci,δli},并判断这些提议是动作还是背景。对于前景框,还要计算其与真实标签框的4个位置偏移;将这个标注好的锚点框与上一步中卷积网络层的两个输出进行loss比较,从而学习到如何提取前景框。

    s4、经过分类网络和精调得到涂画动作序列的具体开始和结束时间,具体包括以下步骤:

    s41、从上一阶段选择出部分提议、对于选择的提议进行3droi池化挖掘固定尺寸特征并对于选中的提议基于特征整合进行动作分类以及边界回归(调整动作视频段中心和长度)。

    此模块中,我们采用roi池化层的原因是在上一个模块中,区域生成网络会生成大量的生成区域,这会导致性能问题,很难达到实时的动作检测,同时在处理速度上欠优的。而使用roi池化层能够大大增加检测的速度,并且在准确率上,也能实现很大的提升。roi池化层有两个输入:一个是从具有多个卷积核池化的深度网络中获取的固定大小的特征图;一个是代表所有roi的nx5矩阵(其中n表示roi的数目,第一列表示图像index,其余四列表示左上角和右下角坐标)。针对这两个输入,roi池化层根据输入image将roi映射到特征图的对应位置,接着将映射后的区域划分为相同大小的部分(数量与输出维度相同),最后对每个部分进行最大池化操作从而达到大大提升速度的效果。

    s42、通过nms消除了高度重叠提议和低提议分数的情况,使得提议数量更少质量更高,提高效率。

    通过使用nms(非极大值抑制算法)消除多余框,选取那些邻域里分数最高的窗口,并抑制那些分数低的窗口。具体流程是首先对所有检测框按照得分排序(得分就是分类器得到的概率值),选出得分最高的检测框,删除掉和最大得分框iou(intersection-over-union)超过设定阈值的其他框;对剩下的没有处理的检测框进行同样的操作;当所有框都被处理后输出最终结果。

    s43、对分类和回归任务共同优化,得到精确的涂画行为动作区间,分类使用softmax损失函数,回归使用平滑的l1损失函数。目标函数如下:

    ncls与nreg分别代表batchsize与anchor的数量,ai是提议或动作预测的可能性,代表相对应的gt(groundtruth),表示anchor相对偏移,表示对应坐标转换的gt,坐标转换如下:

    ci与li分别anchor中心位置与长度,而分别表示对应的gt。

    本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。


    技术特征:

    1.一种基于三维卷积网络的景区涂画行为识别方法,其特征在于,包括:

    s1、对实时视频进行预处理;

    s2、通过三维卷积网络提取经步骤s1预处理后的视频中的特征图;

    s3、将提取的特征图经过动作提议网络得到一系列粗略的涂画动作序列,包含提取到的涂画动作序列的中心点和长度;

    s4、经过分类网络和精调得到涂画动作序列的具体开始和结束时间。

    2.根据权利要求1所述的一种基于三维卷积网络的景区涂画行为识别方法,其特征在于,所述步骤s1包括以下子步骤:

    s11、对于实时监控摄像头获取到的长时序视频流,采用多尺度生成视频段的方式进行视频分割,得到若干视频序列段,并最终对每个尺度的视频序列段随机采样16帧视频段作为最终视频文件的输入;

    s12、采用ffmpeg对经步骤s11得到的视频文件进行每秒25帧的截取,得到一系列连续视频图像帧。

    3.根据权利要求1所述的一种基于三维卷积网络的景区涂画行为识别方法,其特征在于,所述步骤s2包括以下子步骤:

    s21、对输入的视频图像帧在空间上进行三维卷积和池化操作,捕捉视频图像上的时序信息;

    s22、对输入的视频图像帧在时间上进行三维卷积和池化操作,捕捉视频图像上的时间信息。

    4.根据权利要求1所述的一种基于三维卷积网络的景区涂画行为识别方法,其特征在于,步骤s3所述动作提议网络包括rpn网络与区域生成网络。

    5.根据权利要求4所述的一种基于三维卷积网络的景区涂画行为识别方法,其特征在于,所述步骤s3包括以下子步骤:

    s31、将经步骤s2处理后的特征图作为动作提议网络的输入,采用rpn网络生成具有不同尺度和宽高比的锚点框,将这些锚点框作为初略估计的涂画行为动作区间;

    s32、区域生成网络将锚点框与标签框进行iou对比,如果其iou高于某个阈值,则该锚点框标定为前景框,否则属于背景框;

    s33、对于前景框,还要计算其与真实标签框的4个位置偏移;将这个标定好的锚点框与上一步中卷积网络层的两个输出进行loss比较,从而学习到如何提取前景框。

    6.根据权利要求1所述的一种基于三维卷积网络的景区涂画行为识别方法,其特征在于,所述步骤s4包括以下子步骤:

    s41、从上一阶段选择出部分提议、对于选择的提议进行3droi池化挖掘固定尺寸特征并对于选中的提议基于特征整合进行动作分类以及边界回归;

    s42、通过nms消除高度重叠提议和低提议分数的情况;

    s43、对分类和回归任务共同优化,得到精确的涂画行为动作区间。

    7.根据权利要求6所述的一种基于三维卷积网络的景区涂画行为识别方法,其特征在于,步骤s43所述分类使用softmax损失函数。

    8.根据权利要求6所述的一种基于三维卷积网络的景区涂画行为识别方法,其特征在于,步骤s43所述回归使用平滑的l1损失函数。

    技术总结
    本发明公开一种基于三维卷积网络的景区涂画行为识别方法,应用于图像处理领域,针对现有技术中存在的动作检测中动作边界不明显以及特征提取难的问题;本发明使用深度学习的动作检测方法与传统视频系统相结合而成的智能视频监控技术,采用深度学习方法,对实时视频流中可能出现的异常行为进行检测,当异常行为发生时,提供预警,实现景区不文明行为的智慧化管理;本发明还将静态图像即帧图像与时序信息相结合,采用三维卷积网络在空间与时间维度上同时进行卷积,同时采用精确网络选取最准确的时间区间进行输出,最终得到精确的涂画行为区间。

    技术研发人员:詹瑾瑜;范翥峰;江维;曹扬;程序;周巧瑜;田磊;周星志;孙若旭;温翔宇;宋子微;廖炘可
    受保护的技术使用者:电子科技大学;中电科大数据研究院有限公司
    技术研发日:2020.11.30
    技术公布日:2021.03.12

    转载请注明原文地址:https://wp.8miu.com/read-19631.html

    最新回复(0)