一种基于Transformer的可解释性视频异常事件检测方法及装置

    专利2025-02-25  13


    本发明涉及视频异常检测,尤其涉及一种基于transformer的可解释性视频异常事件检测方法及装置。


    背景技术:

    1、随着视频监控设备的日益普及和人们对安防工作的重视,各类监控系统每天采集存储着海量监控视频。当异常事件发生时,普遍采用人工倒查的方式对视频逐帧查看。依靠人工分析海量视频存在效率低下、成本昂贵、延迟过高等一系列问题。而计算机视觉技术可实现视频内容的智能分析,已成为当前智能视频分析领域的一项重要研究课题,尤其是对视频中异常事件的自动检测的需求越来越迫切。

    2、近年来,已有许多国内外专家学者针对视频事件的异常检测进行了深入研究。然而在现实场景中异常行为发生概率较低,监控视频数据量大且大多是正常行为,对视频进行人工标注成本过高;另一方面,收集的视频数据集只是真实场景下正常行为和异常行为的子集,故无法囊括所有场景发生的行为。为解决数据不平衡和异常样本缺乏等问题,相关研究大多利用自编码器的重构误差来检测异常事件,即利用正常情况的视频帧输入到深度神经网络,尝试以较小的误差来重构视频帧。传统的自编码器结构采用参数全连接的方式,但该方法会引入大量的冗余参数,并且难以描述视频事件的特征信息。虽然基于重构模型的方法在视频异常事件检测任务上有较高的适应性,但由于深度神经网络强大的表征和“生成”能力,使得一些异常样本也能取得较小的重构误差,导致视频异常检测模型的漏检率、误检率较高。

    3、为了解决上述问题,近年来研究人员尝试将transformer应用于视频中,并致力于提升视频处理的速度与精度。例如,dosovitskiy等人提出了vision transformer(vit),将transformer应用于图像领域,将cnn与带有全局自注意力的transformer模型结合学习图像的全局上下文信息,提高模型的特征表达能力。袁等提出了一种基于预测的视频异常检测方法,该模型结合了u-net和video vision transformer(vivit),以捕获更丰富的时间信息和更多的全局背景,实验表明,增加transformer模块提取时间信息和更多的全球背景具有较高异常检测性能。刘等提出了一种新型互补space time transformer(st-transformer),包含短全局分支和长局部分支来聚合互补space time(st)上下文。前者使用稠密的成对注意力来整合来自相邻两帧的全局上下文,而后者旨在使用局部注意力窗口融合来自更多连续帧的长时间信息。将st上下文分解为短全局部分和长局部部分,并利用强大的transformer来建模上下文关系并学习它们的互补性。徐等提出了一种时空视觉transformer(space time video transformer,stvt)的方法。stvt由嵌入式序列模块、时域帧间注意力(time interframe attention,tia)编码器和空域帧内注意力(spaceinterframe attention,sia)编码器3个主要部分组成。嵌入序列模块通过融合帧嵌入、索引嵌入和段类嵌入生成嵌入序列来表示视频帧。采用多头自注意力机制的tia编码器学习非相邻帧的时序帧间相关性,从而实现同时考虑非相邻帧之间的帧间相关性和帧内关注度。

    4、视觉transformer模型已经成为多种视觉任务的突出模型。然而,这些模型通常是不透明的,具有较弱的特征可解释性。虽然研究人员对模型的可解释性做了许多研究,但这些方法难以应用于不同的transformer架构,因为可解释性的规则必须根据数据和模型结构的异构性进行相应的更改。此外,目前可解释的transformer构建的方法还不够深入。一个通用的解决方案是,直接将自注意力分数作为可视化结果。但这种尝试损失了transformer组件中大部分有意义的信息,因此可视化结果并不理想。另一种方法是通过重分级令牌(token)序列作为卷积网络中的特征图。chefe等提出了一种基于深度泰勒分解的transformer网络高级可视化方法。zhang等人使用rollout来可视化空间注意力和时空注意力。

    5、总之,基于transformer的视频异常检测方法能够在一定程度上提高异常检测的性能,然而目前相关研究侧重于算法的精准性和可行性等方面的比较,忽视视频异常检测的可解释性研究。如果没有对事件建模的透明化处理,就难以确信检测结果的准确度。因此,如何设计可解释性的检测模型是基于transformer视频异常事件精准检测面临的挑战之一。


    技术实现思路

    1、本发明针对上述问题,提出一种基于transformer的可解释性视频异常事件检测方法及装置。

    2、为了实现上述目的,本发明采用以下技术方案:

    3、本发明一方面提出一种基于transformer的可解释性视频异常事件检测方法,包括:

    4、步骤1:对原始视频数据进行预处理;

    5、步骤2:对于预处理后的视频帧序列,将所有视频帧序列输入到深度网络中,生成特征图并分割展开,构造时空张量表示;

    6、步骤3:构造可解释的时空transformer检测模型,该模型包括时空分解自注意力机制,所述时空分解自注意力机制包括时间自注意力模块和空间自注意力模块;所述空间自注意力模块同时对同时刻的每帧信息进行计算,得到该时刻的空间注意力;所述时间自注意力模块通过对连续帧的相同位置进行计算,得到该位置的时间注意力;

    7、步骤4:对于时间自注意模块的输入张量,利用自减去机制作用于时间自注意模块的查询和键投影之前的输入token,以便挖掘出更多可区分的信息;

    8、步骤5:构建视频异常检测的联合损失函数,基于构建的联合损失函数进行模型训练;

    9、步骤6:根据训练好的可解释的时空transformer检测模型,利用时间自注意力模块和空间自注意力模块分别提取矩阵序列每一行上的token关联信息,并通过双线性插值将其放大至原始尺寸,最终实现可视化热图。

    10、进一步地,所述步骤1中预处理包括视频帧的像素大小调整和图像增强。获得的预处理后的视频帧序列用于后续的特征提取、信息编码、异常检测等。

    11、进一步地,所述步骤2包括:将所有预处理后的视频帧序列输入到xception模型中生成特征图f,然后将f分割成1×1块并平展成向量,并添加位置信息(此时的数据称之为token),得到tokens集合,将tokens集合作为输入,接着将tokens依次与空间分类信息和时间分类信息连接,构造时空张量表示。

    12、进一步地,所述步骤4中,对于时间自注意模块的输入张量i,利用自减去机制作用于时间自注意力的查询和键投影之前的输入token,得到i′,将i′投影给查询和键,值是原始张量i的投影,最后结合残差连接、层归一化和前馈网络来构建transformer模型。

    13、进一步地,所述步骤5中,所述联合损失函数为:

    14、l=lb+lm

    15、

    16、

    17、

    18、其中l为视频异常检测的联合损失函数,lb为基于二元交叉熵分类损失函数,lm为每个视频帧的异常评分,y={0,1}为视频标签,为模型的输出,mse(t)表示第t个视频帧对应的均方误差,i和j表示第t个预测帧和真实帧it的像素空间索引,m和n分别表示视频帧的宽度和高度,msep(t′)表示归一化后的mse(t),minmse(t′)和maxmse(t′)分别表示mse(t)的最小值和最大值。

    19、本发明另一方面提出一种基于transformer的可解释性视频异常事件检测装置,包括:

    20、视频数据预处理单元,用于对原始视频数据进行预处理;

    21、时空张量表示构造单元,用于对于预处理后的视频帧序列,将所有视频帧序列输入到深度网络中,生成特征图并分割展开,构造时空张量表示;

    22、时空transformer检测模型构造单元,用于构造可解释的时空transformer检测模型,该模型包括时空分解自注意力机制,所述时空分解自注意力机制包括时间自注意力模块和空间自注意力模块;所述空间自注意力模块同时对同时刻的每帧信息进行计算,得到该时刻的空间注意力;所述时间自注意力模块通过对连续帧的相同位置进行计算,得到该位置的时间注意力;

    23、帧间时序特征强化单元,用于对于时间自注意模块的输入张量,利用自减去机制作用于时间自注意模块的查询和键投影之前的输入token;

    24、模型训练单元,用于构建视频异常检测的联合损失函数,基于构建的联合损失函数进行模型训练;

    25、可视化热图构建单元,用于根据训练好的可解释的时空transformer检测模型,利用时间自注意力模块和空间自注意力模块分别提取矩阵序列每一行上的token关联信息,并通过双线性插值将其放大至原始尺寸,最终实现可视化热图。

    26、进一步地,所述视频数据预处理单元中预处理包括视频帧的像素大小调整和图像增强。

    27、进一步地,所述时空张量表示构造单元具体用于将所有预处理后的视频帧序列输入到xception模型中生成特征图f,然后将f分割成1×1块并平展成向量,并添加位置信息,得到tokens集合,将tokens集合作为输入,接着将tokens依次与空间分类信息和时间分类信息连接,构造时空张量表示。

    28、进一步地,所述帧间时序特征强化单元中,对于时间自注意模块的输入张量i,利用自减去机制作用于时间自注意力的查询和键投影之前的输入token,得到i′,将i′投影给查询和键,值是原始张量i的投影,最后结合残差连接、层归一化和前馈网络来构建transformer模型。

    29、进一步地,所述模型训练单元中,所述联合损失函数为:

    30、l=lb+lm

    31、

    32、

    33、

    34、其中l为视频异常检测的联合损失函数,lb为基于二元交叉熵分类损失函数,lm为每个视频帧的异常评分,y={0,1}为视频标签,为模型的输出,mse(t)表示第t个视频帧对应的均方误差,i和j表示第t个预测帧和真实帧it的像素空间索引,m和n分别表示视频帧的宽度和高度,msep(t′)表示归一化后的mse(t),minmse(t′)和maxmse(t′)分别表示mse(t)的最小值和最大值。

    35、与现有技术相比,本发明具有的有益效果:

    36、本发明通过时空分解自注意力机制的设计,实现视频时空特征差异性表示。设计的可视化热图,实现了基于时空transformer检测模型的视频异常事件检测的可解释性。本发明设计的可解释性的transformer方法具有通用性,可用于其他视觉任务处理中。


    技术特征:

    1.一种基于transformer的可解释性视频异常事件检测方法,其特征在于,包括:

    2.根据权利要求1所述的一种基于transformer的可解释性视频异常事件检测方法,其特征在于,所述步骤1中预处理包括视频帧的像素大小调整和图像增强。

    3.根据权利要求1所述的一种基于transformer的可解释性视频异常事件检测方法,其特征在于,所述步骤2包括:将所有预处理后的视频帧序列输入到xception模型中生成特征图f,然后将f分割成1×1块并平展成向量,并添加位置信息,得到tokens集合,将tokens集合作为输入,接着将tokens依次与空间分类信息和时间分类信息连接,构造时空张量表示。

    4.根据权利要求1所述的一种基于transformer的可解释性视频异常事件检测方法,其特征在于,所述步骤4中,对于时间自注意模块的输入张量i,利用自减去机制作用于时间自注意力的查询和键投影之前的输入token,得到i′,将i′投影给查询和键,值是原始张量i的投影,最后结合残差连接、层归一化和前馈网络来构建transformer模型。

    5.根据权利要求1所述的一种基于transformer的可解释性视频异常事件检测方法,其特征在于,所述步骤5中,所述联合损失函数为:

    6.一种基于transformer的可解释性视频异常事件检测装置,其特征在于,包括:

    7.根据权利要求6所述的一种基于transformer的可解释性视频异常事件检测装置,其特征在于,所述视频数据预处理单元中预处理包括视频帧的像素大小调整和图像增强。

    8.根据权利要求6所述的一种基于transformer的可解释性视频异常事件检测装置,其特征在于,所述时空张量表示构造单元具体用于将所有预处理后的视频帧序列输入到xception模型中生成特征图f,然后将f分割成1×1块并平展成向量,并添加位置信息,得到tokens集合,将tokens集合作为输入,接着将tokens依次与空间分类信息和时间分类信息连接,构造时空张量表示。

    9.根据权利要求6所述的一种基于transformer的可解释性视频异常事件检测装置,其特征在于,所述帧间时序特征强化单元中,对于时间自注意模块的输入张量i,利用自减去机制作用于时间自注意力的查询和键投影之前的输入token,得到i′,将i′投影给查询和键,值是原始张量i的投影,最后结合残差连接、层归一化和前馈网络来构建transformer模型。

    10.根据权利要求6所述的一种基于transformer的可解释性视频异常事件检测装置,其特征在于,所述模型训练单元中,所述联合损失函数为:


    技术总结
    本说明公开一种基于Transformer的可解释性视频异常事件检测方法及装置,该方法包括:对原始视频数据进行预处理;将所有预处理后的视频帧输入深度网络,生成特征图并分割展开,构造时空张量表示;构造可解释时空Transformer模型,包括空间自注意力模块和时间自注意力模块;利用自减去机制作用于时间自注意力模块的查询和键投影之前的输入Token;利用二元交叉熵分类训练损失进行训练,构建正常数据和异常数据的分类损失函数;利用时间自注意力模块和空间自注意力模块分别提取矩阵序列每一行上的Token关联信息,并通过双线性插值将其放大至原始尺寸,最终实现可视化热图。本发明实现了视频异常事件检测的可解释性。

    技术研发人员:穆辉宇,左宪禹,乔保军,马艳红,党兰学,刘扬,王雅娣,殷红建
    受保护的技术使用者:河南大学
    技术研发日:
    技术公布日:2024/4/29
    转载请注明原文地址:https://wp.8miu.com/read-83393.html

    最新回复(0)