人体动作识别方法、装置、计算机设备和存储介质

    专利2025-12-06  3


    本申请涉及动作识别,特别是涉及一种人体动作识别方法、装置、计算机设备和存储介质。


    背景技术:

    1、随着互联网技术的发展,视频逐渐成为人机交互、视频监控、视频检索等领域信息的重要载体,具有身份重要的应用价值,基于视频的人体动作识别已经成为了计算机视觉领域一个重要的研究方向。然而由于视频动作的一般具有视角多变和动作差异性大等特点,使其成为一个具有挑战性的问题。

    2、目前,视频动作识别方法主要可以分为两类:基于传统的手工特征提取方法和基于深度学习的方法。传统的手工特征提取方法是通过人工设计算法捕获视频中的关键特征,但是这种方法复杂度较高,计算效率低下。相比之下,深度学习方法无论是在捕捉视频的外观特征方面,还是视频的动态信息方面都更加有效。

    3、与静态图像不同,人体动作视频中的复杂动作通常是与时间相关的,它不仅包含每一帧内的空间信息,还包含一段时间内的时序信息,因此相对于图像分类来说多了一个需要处理的时序维度。


    技术实现思路

    1、基于此,有必要针对上述技术问题,提供一种人体动作识别方法、装置、计算机设备和存储介质。

    2、一种人体动作识别方法,该方法包括:

    3、获取待识别视频,从待识别视频中采集视频序列帧。

    4、采用空间卷积注意力网络对视频序列帧的空间特征和外观特征进行增强学习,得到时空特征图。

    5、采用convgru网络对时空特征图进行处理,得到时间信息和空间信息。

    6、对时间信息和空间信息进行多尺度特征提取,采用全局上下文建模模块对提取的特征进行建模,得到人体动作识别结果。

    7、在其中一个实施例中,空间卷积注意力网络包括空间卷积自注意力模块和时序卷积模块。

    8、采用空间卷积注意力网络对视频序列帧的空间特征和外观特征进行增强学习,得到时空特征图,包括:

    9、采用空间卷积自注意力模块中对视频序列帧中的每一帧单独进行空间卷积注意力增强,得到空间注意力特征;其中不同帧的空间卷积自注意力模块采用参数共享的方式。

    10、采用时序卷积模块对视频序列帧进行时序维度的卷积,得到时序卷积特征。

    11、将空间注意力特征和时序卷积特征相加,得到时空特征图。

    12、在其中一个实施例中,对时间信息和空间信息进行多尺度特征提取,采用全局上下文建模模块对提取的特征进行建模,得到人体动作识别结果,包括:

    13、采用金字塔池化模块对时间信息和空间信息进行多尺度特征提取,得到金字塔池化全局特征。

    14、采用全局上下文建模模块对金字塔池化全局特征进行建模,得到人体动作识别结果。

    15、一种人体动作识别装置,该装置包括:

    16、视频序列帧获取模块,用于获取待识别视频,从待识别视频中采集视频序列帧。

    17、时空特征提取模块,用于采用空间卷积注意力网络对视频序列帧的空间特征和外观特征进行增强学习,得到时空特征图。

    18、时间信息和空间信息提取模块,用于采用convgru网络对时空特征图进行处理,得到时间信息和空间信息。

    19、人体动作识别模块,用于对时间信息和空间信息进行多尺度特征提取,采用全局上下文建模模块对提取的特征进行建模,得到人体动作识别结果。

    20、在其中一个实施例中,空间卷积注意力网络包括空间卷积自注意力模块和时序卷积模块;时空特征提取模块,还用于采用空间卷积自注意力模块中对视频序列帧中的每一帧单独进行空间卷积注意力增强,得到空间注意力特征;其中不同帧的空间卷积自注意力模块采用参数共享的方式;采用时序卷积模块对视频序列帧进行时序维度的卷积,得到时序卷积特征;将空间注意力特征和时序卷积特征相加,得到时空特征图。

    21、在其中一个实施例中,人体动作识别模块,还用于采用金字塔池化模块对时间信息和空间信息进行多尺度特征提取,得到金字塔池化全局特征;采用全局上下文建模模块对金字塔池化全局特征进行建模,得到人体动作识别结果。

    22、一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。

    23、一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。

    24、上述人体动作识别方法、装置、计算机设备和存储介质,所述方法通过提取视频序列帧进行数据处理及分类。首先基于空间卷积注意力网络获取不同方向的局部空间特征,采用自注意力机制实现空间特征的增强;然后采用convgru来提取视频的时间信息和空间信息,利用convgru的卷积操作同时获取时间和空间信息;最后,使用多尺度网络和全局上下文建模模块对空间和时间信息和空间信息进行全局上下文建模,给不同特征以不同的权重,提高动作识别的准确率。



    技术特征:

    1.一种人体动作识别方法,其特征在于,所述方法包括:

    2.根据权利要求1所述的方法,其特征在于,所述空间卷积注意力网络包括空间卷积自注意力模块和时序卷积模块;

    3.根据权利要求1所述的方法,其特征在于,对所述时间信息和空间信息进行多尺度特征提取,采用全局上下文建模模块对提取的特征进行建模,得到人体动作识别结果,包括:

    4.一种人体动作识别装置,其特征在于,所述装置包括:

    5.根据权利要求4所述的装置,其特征在于,所述空间卷积注意力网络包括空间卷积自注意力模块和时序卷积模块;时空特征提取模块,还用于采用所述空间卷积自注意力模块中对所述视频序列帧中的每一帧单独进行空间卷积注意力增强,得到空间注意力特征;其中不同帧的空间卷积自注意力模块采用参数共享的方式;采用所述时序卷积模块对所述视频序列帧进行时序维度的卷积,得到时序卷积特征;将所述空间注意力特征和所述时序卷积特征相加,得到时空特征图。

    6.根据权利要求4所述的装置,其特征在于,人体动作识别模块,还用于采用金字塔池化模块对所述时间信息和空间信息进行多尺度特征提取,得到金字塔池化全局特征;采用全局上下文建模模块对所述金字塔池化全局特征进行建模,得到人体动作识别结果。

    7.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至3中任一项所述的方法。

    8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至3中任一项所述的方法。


    技术总结
    本申请涉及一种人体动作识别方法、装置、计算机设备和存储介质,所述方法通过提取视频序列帧进行数据处理及分类。首先基于空间卷积注意力网络获取不同方向的局部空间特征,采用自注意力机制实现空间特征的增强;然后采用ConvGRU来提取视频的时间信息和空间信息,利用ConvGRU的卷积操作同时获取时间和空间信息;最后,使用多尺度网络和全局上下文建模模块对空间和时间信息和空间信息进行全局上下文建模,给不同特征以不同的权重,提高动作识别的准确率。

    技术研发人员:秦龙,尹路珈,艾川,曾俊杰,黄鹤松,尹全军,彭勇,李蔚清
    受保护的技术使用者:中国人民解放军国防科技大学
    技术研发日:
    技术公布日:2024/4/29
    转载请注明原文地址:https://wp.8miu.com/read-92554.html

    最新回复(0)