本发明属于行为识别,具体涉及一种基于tsaformer模型的人员异常行为识别系统及方法。
背景技术:
1、人员异常行为识别是指利用人工智能技术来自动识别和监测人们在日常生活和工作中的异常行为,以提供安全保障和预防潜在风险的能力。随着人工智能、计算机视觉和机器学习等技术的不断进步,可以利用视频监控和行为分析等手段,实时地检测和识别出异常行为,如盗窃、暴力等,从而提前发现和应对潜在威胁,确保社会的安全稳定。在深度学习时代之前,许多基于手工特征的方法被设计用于处理视频人员行为识别,包括laptev提出的基于时空兴趣点的方法和wang等人提出的基于轨迹的方法。最近,随着深度学习技术的巨大进步,也提出了各种深度学习架构。2019年,ji等人提出一个通用且高效的时间位移tsm模型,为视频理解中的有效时间建模提出了一个新的视角。由于常规的2d cnn在计算上是相对廉价的,但其无法捕获时间维度的关系。而基于3d cnn的方法可以达到良好的效果性能,但计算量大,因此部署成本很大。所以ji等人基于resnet-50预训练网络,在时间维度上移动了部分通道,从而促进相邻帧在信息之间的交流。而这一操作插入到2d cnn中基本实现了在零计算量的情况下对时间轴信息建模。transformer是一种新颖的深度学习模型,由于其强大的能力和有前途的前景,在机器学习领域引领潮流。2020年google团队提出的将transformer应用在图像分类的模型,与传统的卷积神经网络不同,vision transformer采用了完全基于注意力机制的transformer架构,使得它能够更好地处理视觉信息,结构简洁灵活以及强大的泛化能力,尤其在迁移学习和少样本学习等场景下展现出了突出的性能表现。鉴于图像模型在图像分类领域得到广泛应用和快速发展,预训练图像模型的功能越来越强大,通过将图像模型扩展到视频任务中,可以充分利用在其他相关任务中学到的知识和特征,加速视频任务的进展。transformer-based模型采用将transformer架构与专门用于时序数据的模块相结合,以满足对时序数据建模的需求,然后通过完全微调技术,该模型就能表现出良好的时空建模能力,进而进行行为识别。
2、为了获取时序信息,目前的基于transformer的方法通常会向预训练的图像模型引入新的时序模块。然而,这种做法会引入大量额外的可调节参数。另外,在视频动作识别任务中,通过微调技术就能表现出良好的时空建模能力。然而,完全微调所有参数需要巨大的计算成本和内存占用,这对于计算资源和模型效率都带来了极大的挑战。此外,不充分的微调可能会损害其泛化能力,导致“灾难性遗忘”。
技术实现思路
1、针对现有技术的不足,本发明设计一种基于tsaformer模型的人员异常行为识别系统及方法,通过时序位移策略将预训练的图像模型应用到视频任务中,充分利用图像模型中的丰富数据和特征表示,并通过冻结图像编码器参数,然后联合轻量化适配器adapter的方法,提高计算效率以及增强泛化能力,从而实现异常行为识别系统的高效性和准确性。
2、一种基于tsaformer模型的人员异常行为识别系统,包括:一个数据处理模块、l个相同的tsaformer块以及一个异常行为分类模块;其中,每个tsaformer块包含行为序列建模模块、时空特征提取模块和注意力特征交互模块三部分,l=(1,2,…l,…,l);
3、所述数据处理模块从监控视频流中提取图像帧,并将其转换为图像块嵌入表示,这些图像块经过行为序列建模模块,通过沿通道维度进行时序位移,实现与前一帧时间戳交换部分内容,以获取时空信息;然后,将时空信息送入时空特征提取模块进行微调,它采用冻结预训练好的图像编码器,并结合轻量化的adapter,以最小的计算量捕捉时空特征;接下来,注意力特征交互模块对时空特征进行非线性变换,并应用注意力机制进行特征融合,得到交互特征;最后,交互特征输入到异常行为分类模块,在训练阶段,利用focal loss损失函数对模型的预测值与真实标签之间的差异进行计算,以优化系统参数;在测试阶段,通过平均帧级预测方法获得视频异常行为标签。
4、一种基于tsaformer模型的人员异常行为识别方法,基于上述一种基于tsaformer模型的人员异常行为识别系统实现,具体包括以下步骤:
5、步骤1:从监控视频流中提取f个视频帧xp(p=1,2,…,f);
6、步骤2:利用数据处理模块将视频帧转换为图像块嵌入z0;具体如下:
7、将每个视频帧xp分解为n块不重叠图像块然后对每个图像块应用一个可学习的权重矩阵e对图像块进行线性变换,并追加一个类别向量c0,同时添加位置信息epos;处理完成后,初始图像块嵌入为
8、步骤3:将图像块嵌入z0送入行为序列建模模块;对于第l个tsaformer块,输入为zl-1;zl-1通过行为序列建模模块,沿通道维度进行时序位移,得到时空信息具体为:
9、对于第l=(1,2,…,l)个tsaformer块的输入为将第l=(1,2,…,l)个tsaformer的类别向量cl-1,沿通道维度d分成3组:sa、sb、sc;其中,a+b+c=d;对sa和sc进行时序位移,使它们分别与前一帧的相应部分进行时间上的位移,而sb保持不变,得到时空信息公式如下所示:
10、cl-1=[sa,sb,sc]
11、
12、
13、
14、步骤4:将行为序列建模后得到的送入时空特征提取模块,获取时空特征
15、所述时空特征提取模块包括预训练好的图像编码器vision transformer和适配器模块adapter,冻结预训练好的图像编码器vision transformer的参数,然后联合使用适配器模块adapter捕捉时空维度上的关键信息,获取时空特征具体为:
16、步骤4.1:对时空信息进行层归一化处理ln,并得到层归一化后的然后利用已经预训练好的图像编码器vision transformer的第i(i=1,2,...,h)个注意力头headi的查询权重矩阵键权重矩阵值权重矩阵分别与层归一化后的相乘,从而得到相应的查询矩阵q,键矩阵k和值矩阵v;接下来,利用q、k、v计算每个注意力头headi;公式如下所示:
17、
18、
19、
20、其中,t表示转置;
21、最后,将每个注意力头headi(i=1,2,...,h)拼接在一起,得到多头自注意力特征其中,为缩放因子;公式如下所示:
22、
23、步骤4.2:将多头自注意力特征输入到适配器模块adapter,并进行残差连接得到时空特征所述adapter模块由全连接层下采样fcdown和全连接层上采样fcup,以及一个激活函数gelu组成;完整公式如下所示:
24、
25、
26、步骤5:将时空特征送入注意力特征交互模块获取交互特征zl;所述注意力特征交互模块包含层归一化、前馈神经网络和基于注意力机制的特征融合三个部分,具体为:
27、首先,将时空特征进行层归一化处理ln,并将结果输入到前馈神经网络ffn中获取特征z′l;公式如下所示:
28、
29、然后,对z′l和进行基于注意力机制的特征融合,先将z′l与特征相加,得到初始融合特征接下来,通过使用两个点卷积层pwconv1和pwconv2、批归一化bn、以及激活函数relu对进行处理,获取局部注意力特征zlocal;公式如下所示:
30、
31、同时使用全局自适应平均池化gap对进行池化操作,然后再经过点两个卷积层pwconv1和pwconv2、批归一化bn、以及激活函数relu进行处理,获取全局注意力特征zglobal;公式如下所示:
32、
33、最后,通过激活函数sigmoid得到权重参数,并对和z′l做加权平均,以调节融合比例,得到最终的交互特征zl,公式如下所示:
34、
35、步骤6:第l=(1,2,...,l)个tsaformer块的输出为zl,对于最后一个tsaformer块,输出为zl;在异常行为分类模块的训练阶段,zl通过异常行为分类模块利用focal loss损失函数计算系统的预测值与真实标签之间的差异,以此进行参数优化;在异常行为分类模块的测试阶段,zl通过异常行为分类模块利用平均帧级预测,以此获取视频标签,具体为:
36、第l=(1,2,...,l)个tsaformer块的输出为最后一个tsaformer块的输出为其中,类别向量表示为cl;通过对一段包含f帧的视频进行平均帧级预测,利用每一个视频帧的类别向量cl,得到类别得分向量s=[s1,s2,...,sk],k表示类别数量;计算公式如下所示:
37、
38、接下来,根据第k=(1,2,…,k)个类别得分si(i=1,2,…,k),计算对应类别的概率pi(i=1,2,…,k);在测试阶段,直接选择具有最高概率的类别作为模型对视频异常行为的预测标签;公式如下所示:
39、
40、在训练阶段,则需要将类别概率pi进一步输入到focal loss计算模型中,用于衡量预测值与真实标签之间的差异,并通过损失的反馈来优化模型参数;focal loss是对交叉熵损失函数进行改进,公式如下所示:
41、lfocal=-a(1-pi)γlog(pi)
42、其中,α是平衡因子,用于调整不同类别之间的权重,根据类别的频次进行设置;γ是聚焦因子,用于控制难易样本的权重分配程度。
43、本发明有益技术效果:
44、本发明在transformer架构上提出时间位移策略,并结合轻量化adapter微调预训练的图像编码器,同时提出注意力特征交互模块。此外,采用focal loss损失函数来衡量模型预测值与真实标签之间的差异,以此进行参数优化。
45、与现有技术相比,本发明提出的技术方案实现了人员异常行为识别的高效性和准确性。在transformer架构上实现零参数、零flops的行为序列建模。同时,通过冻结预训练好的图像编码器vision transformer,联合适配器模块adapter进行训练的方式提升了计算效率、准确度以及泛化能力,并解决了异常行为识别中数据不平衡的问题。
1.一种基于tsaformer模型的人员异常行为识别系统,其特征在于,包括:一个数据处理模块、l个相同的tsaformer块以及一个异常行为分类模块;其中,每个tsaformer块包含行为序列建模模块、时空特征提取模块和注意力特征交互模块三部分,l=(1,2,…l,…,l)。
2.根据权利要求1所述的一种基于tsaformer模型的人员异常行为识别系统,其特征在于,所述数据处理模块从监控视频流中提取图像帧,并将其转换为图像块嵌入表示,这些图像块经过行为序列建模模块,通过沿通道维度进行时序位移,实现与前一帧时间戳交换部分内容,以获取时空信息;然后,将时空信息送入时空特征提取模块进行微调,它采用冻结预训练好的图像编码器,并结合轻量化的adapter,以最小的计算量捕捉时空特征;接下来,注意力特征交互模块对时空特征进行非线性变换,并应用注意力机制进行特征融合,得到交互特征;最后,交互特征输入到异常行为分类模块,在训练阶段,利用focal loss损失函数对模型的预测值与真实标签之间的差异进行计算,以优化系统参数;在测试阶段,通过平均帧级预测方法获得视频异常行为标签。
3.一种基于tsaformer模型的人员异常行为识别方法,基于上述权利要求1一种基于tsaformer模型的人员异常行为识别系统实现,其特征在于,具体包括以下步骤:
4.根据权利要求3所述的一种基于tsaformer模型的人员异常行为识别方法,其特征在于,步骤2具体为:
5.根据权利要求3所述的一种基于tsaformer模型的人员异常行为识别方法,其特征在于,步骤3具体为:
6.根据权利要求3所述的一种基于tsaformer模型的人员异常行为识别方法,其特征在于,步骤4所述时空特征提取模块包括预训练好的图像编码器vision transformer和适配器模块adapter,冻结预训练好的图像编码器vision transformer的参数,然后联合使用适配器模块adapter捕捉时空维度上的关键信息,获取时空特征
7.根据权利要求3所述的一种基于tsaformer模型的人员异常行为识别方法,其特征在于,步骤4具体为:
8.根据权利要求3所述的一种基于tsaformer模型的人员异常行为识别方法,其特征在于,步骤5具体为:
9.根据权利要求3所述的一种基于tsaformer模型的人员异常行为识别方法,其特征在于,步骤6具体为:
