一种基于多模态数据融合的学习者行为识别方法与流程

专利2022-07-08 147

本申请涉及教育信息化技术领域，具体而言，涉及一种基于多模态数据融合的学习者行为识别方法。

背景技术：

课堂是教师授课和学生获取知识的重要场所，随着社会的不断发展及对学生教育的重视程度提升，对课堂教学质量进行智能化分析变得越发重要。用信息化技术对课堂中学生的行为进行检测、处理和分析，不仅可以提醒学生规范，还可以反映课堂活跃程度，帮助教师改善教学方式。并且如果在学生行为分析后除了给出适合学生的学习模式，进行有效学习建议反馈和学习路径推荐外，对学生进行一定的学习行为干预，将会对学生的学习绩效提升更有意义。

目前对学生行为识别的研究较少，研究方法主要集中在机器学习和深度学习上。主要的学生行为识别方法都是遵循以下两个步骤：(1)从原始视频或者图像数据中识别出学生；(2)对识别出的学生进行分类。然而，很多时候仅仅是单一的图片或者视频是不能够非常好地识别出学生行为的，其无法适应不同课堂环境和组成成分的多变性和复杂性。

中国专利申请号为201410337744.2的发明专利申请公开了一种基于多模态序列融合的动作识别方法，该方法的基本步骤包括：1.获得原始视频多种模态下的信息，并进行预处理，获取初始rgb图像序列、初始深度图像序列，以及获取骨架特征序列；2.对所述初始rgb图像序列进行背景建模，通过得到的背景建模结果来提取第一人体区域外接矩形，同时提取所述初始深度图像序列上相应位置的第二人体区域外接矩形；3.在第一、第二人体区域外接矩形上分别提取人体动作特征，得到rgb模态和深度模态下的rgb-lbp、d-lbp特征向量序列；4.根据所述rgb-lbp、d-lbp特征向量序列，以及所述骨架特征序列，通过多视角判别模型来进行动作识别。但是由于需要对初始rgb图像序列进行背景建模，过程非常复杂，增加了很多计算量。

技术实现要素：

为了解决上述问题，本申请实施例提供了一种基于多模态数据融合的学生行为识别方法。该方法对三种不同模态的数据分别用不同的网络模型进行了特征提取，分别进行降维后再用外积的方式进行融合，最后输入分类器得到最终的学生行为分类结果，从而达到复杂度低，实时性高、正确率高的目的。

第一方面，本申请实施例提供了一种基于多模态数据融合的学习者行为识别方法，所述方法包括：

(1)获取学生在信息空间的xapi活动流数据、在物理学习空间的视频数据和音频数据；

(2)对所述xapi活动流数据、视频数据以及音频数据进行预处理；

(3)将待识别的所述xapi活动流数据输入bert模型，将待识别的所述视频数据输入slowfast模型，将待识别的所述音频数据输入vggish模型，用以分别对不同模态数据进行特征提取；

(4)对三个模型进行特征提取后得到的特征向量分别进行pca降维，并对降维后的三个所述特征向量进行tfn特征向量融合，得到多模态特征向量；

(5)将所述多模态特征向量输入卷积神经网络分类器中进行学生行为的分类，得到学生行为分类结果。

优选的，所述步骤(3)之前，还包括：

设置并训练得到bert模型、slowfast模型、vggish模型。

具体的，输入层将样本活动流xapi文本模态数据、视频模态数据或音频模态数据输入对应的模型网络，得到用于后续分类的三种模态数据特征向量；

所述bert模型全称是：bidirectionalencoderrepresentationsfromtransformer，transformer是组成bert的核心模块，而attention机制又是transformer中最关键的部分。这里用到的是12层transformerencoder结构的bert模型。

所述slowfast模型是一个包含双通道的视频动作识别网络模型，使用了一个慢速高分辨率cnn(slow通道)来分析视频中的静态内容，同时使用一个快速低分辨率cnn(fast通道)来分析视频中的动态内容。

slow通道：使用一个较大的时序跨度(即每秒跳过的帧数)，通常设置为16，这意味着大约1秒可以采集2帧。

fast通道：使用一个非常小的时序跨度τ/α，其中α通常设置为8，以便1秒可以采集15帧。fast通道通过使用小得多的卷积宽度(使用的滤波器数量)来保持轻量化，通常设置为慢通道卷积宽度的1/8，这个值被标记为β。使用小一些的卷积宽度的原因是fast通道需要的计算量要比slow通道小4倍，虽然它的时序频率更高。

侧向连接：来自fast通道的数据通过侧向连接被送入slow通道，这使得slow通道可以了解fast通道的处理结果。

所述slow通道和fast通道都包含1个卷积层，1个平均池化层，4个残差块。

所诉vggish模型是从音频波形中提取具有语义和有意义的128维高维的特征向量，而128维高维特征向量可以作为下游模型的输入。

本申请中用到的是具有16个权重层的vggish，并用audioset进行预训练。vggish模型就是vgg网络的一种衍生网络，结构与vgg11的结构一致，包含8个卷积层、5个池化层和3个全连接层，每个全连接层使用3×3的卷积核。

优选的，所述步骤(5)之后，还包括：

基于卷积神经网络分类层计算所述学生行为分类结果与检测到的实际学生行为类别的误差；

将所述误差反向传播，计算每一层参数的梯度，根据所述梯度对连接每一层参数进行调整；

重复所述将所述误差反向传播的过程直至所述每一层参数达到分类输出的误差极小点，停止迭代。

优选的，所述将所述误差反向传播，计算每一层参数的梯度，包括：

通过下述公式计算每一层参数的梯度：

θt 1＝θt vt 1

其中，表示使用一个批量的样本数据训练后得到的误差l对于前一个迭代周期参数θt-1的梯度，vt是动量项，表示当前迭代累计的参数调整惯性，μ是冲量系数，ε表示学习速率。

优选的，所述基于卷积神经网络分类层计算所述学生行为分类结果与检测到的实际学生行为类别的误差，包括：

通过下述公式计算误差：

其中，x表示样本，n表示样本总数，求和是在所有的输入x上进行的，y是目标输出，通过迭代优化直至达到一个全局最优或者局部最优解。

优选的，所述步骤(4)中对三个模型进行特征提取后得到的特征向量分别进行pca降维，包括：

对特征向量去中心化后计算协方差矩阵；

通过特征值分解法计算所述协方差矩阵的特征值与特征向量；

对所述特征值由大到小进行排序，选择最大的k个所述特征值对应的k个所述特征向量分别作为行向量组成特征向量矩阵p；

将数据转换至所述特征向量矩阵p构建而成的空间中，得到降维后的特征向量矩阵。

优选的，所述步骤(4)中对降维后的三个所述特征向量进行tfn特征向量融合，包括：

通过下述公式对降维后的三个所述特征向量进行tfn特征向量融合：

其中，z^l、z^v、z^a分别表示三个不同模态分别输入不同网络模型后提取到的并进行降维后的一维特征向量，符号表示向量间的外积运算，该公式在数学上等同于z^l、z^v、z^a三个特征向量之间的可微分外积，运算后的特征维度为128×128×128，用以输入后续的卷积神经网络分类器中。

本发明的有益效果为：1.使用深度学习策略。本发明通过深度学习策略实现了端对端的课堂学生行为识别，客服了传统学生行为识别需要人工进行分类的缺点，在识别性能、效率等方面都有显著的优势。

2.使用了多模态的数据。传统的行为识别一般只使用单一模态的数据，本发明使用了三种不同的数据，有效克服了在单一模态识别方法在数据缺失时无法识别的缺点，增强了模型的鲁棒性和抗干扰性。

3.提出了有效的融合策略。本发明采用了一种新的多模态数据融合的办法，有效保留了每个模态数据的特点，使模型的分类准确率更高。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种基于多模态数据融合的学习者行为识别方法的流程示意图；

图2为本申请实施例提供的网络总体模型举例示意图；

图3为本申请实施例提供的处理视频数据的slowfast网络模型举例示意图；

图4为本申请实施例提供的处理音频数据的vggish网络模型举例示意图；

图5为本申请实施例提供的处理xapi数据的bert网络模型举例示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

在下述介绍中，术语“第一”、“第二”仅为用于描述的目的，而不能理解为指示或暗示相对重要性。下述介绍提供了本发明的多个实施例，不同实施例之间可以替换或者合并组合，因此本发明也可认为包含所记载的相同和/或不同实施例的所有可能组合。因而，如果一个实施例包含特征a、b、c，另一个实施例包含特征b、d，那么本发明也应视为包括含有a、b、c、d的一个或多个所有其他可能的组合的实施例，尽管该实施例可能并未在以下内容中有明确的文字记载。

下面的描述提供了示例，并且不对权利要求书中阐述的范围、适用性或示例进行限制。可以在不脱离本发明内容的范围的情况下，对描述的元素的功能和布置做出改变。各个示例可以适当省略、替代或添加各种过程或组件。例如所描述的方法可以以所描述的顺序不同的顺序来执行，并且可以添加、省略或组合各种步骤。此外，可以将关于一些示例描述的特征组合到其他示例中。

本发明的技术思路是：同时使用三种不同模态的数据：xapi数据，视频数据、音频数据，将三种数据分别输入对应的不同网络模型，对原始输入数据进行特征提取，再分别对提取到的特征进行主成分降维，然后对三种不同模态的数据进行融合，融合后的特征输入卷积神经网络分类器进行学生行为分类。本发明对三种不同模态的学生行为数据都能有效提取，降低了模型的计算复杂度，并且有效地解决了单个模态数据丢失时的分类错误，采用深度学习策略对不同模态的特征进行融合，提高了模型的准确率，使模型对不同场景的学生行为都有一定的识别能力。

参见图1、图2，三个不同模态的特征提取网络模型分别是slowfast网络模型、vggish网络模型图、bert网络模型图，特征向量的降维和融合策略分别是pca降维和tfn特征向量融合，后续的卷积神经网络分类器包括至少两次的交互堆叠的卷积层和池化层、softmax层。本发明使用的神经网络的构造和训练包括以下环节：

步骤一，xapi数据输入bert网络模型。

如图5所示，使用标注好的xapi数据输入bert网络模型，对一个xapi数据中的每一个词使用tokenembedding、segmentembedding、positionembedding三个表示相加，简单来说，embedding就是把字映射为多维空间的一个点，即一个向量，并且使用maskedlanguagemodel和nextsentenceprediction为优化目标，对字的三种表示进行优化，bert网络模型输出的结果就是提取过后的xapi模态数据的特征向量。

步骤二，视频数据输入slowfast网络模型。

如图3所示，对同一个课堂学生行为视频应用两个平行的卷积神经网络，一个slow通道，一个fast通道。slow通道采用慢速高分别率来分析视频中的静态内容，每16帧取1帧。fast通道采用快速低分辨率来分析视频中的动态内容，使用较小的卷积宽度来保持轻量化。slowfast网络模型输出的结果就是提取过后的视频模态数据的特征向量。

步骤三，音频数据输入vggish网络模型。

如图4所示，输入数据为wav音频文件，经过预处理计算mfcc特征、预加重、分帧、加窗、快速傅里叶变换、三角带通滤波器、计算每个滤波器组输出的对数能量、经离散余弦变换(dct)得到mfcc系数、计算对数能量、提取动态差分参数等步骤，得到128维的音频数据特征向量。标准的倒谱参数mfcc只反映了语音参数的静态特性，语音的动态特性可以用这些静态特征的差分谱来描述。vggish模型输出数据格式为[nums_frames，128]，其中nums_frames为帧长，nums_frames＝音频时长/0.96。

步骤四，对特征向量进行降维。

首先将三个模态的数据分别提取的特征进行pca降维。首先去平均值(即去中心化)，即每一位特征减去各自的平均值，第二步计算协方差矩阵，然后用特征值分解方法求协方差矩阵的特征值与特征向量，接着对特征值从大到小排序，选择其中最大的k个。然后将其对应的k个特征向量分别作为行向量组成特征向量矩阵p。最后将数据转换到k个特征向量构建的新空间中，即y＝px。所得到的矩阵y就是降维后的特征矩阵。

步骤五，融合不同模态数据的特征向量。

降维后的特征融合采用了外积相乘的方式，将三个一维向量进行两两相乘的外积运算，得到三维的特征图，所得的特征图不仅保留了每个模态数据提取到的不同特征，也没有增加很大的运算量，最后可以将三维特征输入后续的卷积神经网络分类网络。

步骤六，进行卷积神经网络分类。

将步骤五得到的特征图输入卷积神经网络分类层，如图2所示，卷积神经网络分类层中包含若干卷积层和池化层，最后得到对应的课堂学生行为类别。

以上所述者，仅为本公开的示例性实施例，不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰，皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践这里的公开后，将容易想到本公开的其实施方案。本发明旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的范围和精神由权利要求限定。

技术特征：

1.一种基于多模态数据融合的学习者行为识别方法，其特征在于，所述方法包括：

(1)获取学生在信息空间的xapi活动流数据、在物理学习空间的视频数据和音频数据；

(2)对所述xapi活动流数据、视频数据以及音频数据进行预处理；

(4)对三个模型进行特征提取后得到的特征向量分别进行pca降维，并对降维后的三个所述特征向量进行tfn特征向量融合，得到多模态特征向量；

(5)将所述多模态特征向量输入卷积神经网络分类器中进行学生行为的分类，得到学生行为分类结果。

2.根据权利要求1所述的方法，其特征在于，所述步骤(3)之前，还包括：

设置并训练得到bert模型、slowfast模型、vggish模型。

3.根据权利要求1所述的方法，其特征在于，所述步骤(5)之后，还包括：

基于卷积神经网络分类层计算所述学生行为分类结果与检测到的实际学生行为类别的误差；

将所述误差反向传播，计算每一层参数的梯度，根据所述梯度对连接每一层参数进行调整；

重复所述将所述误差反向传播的过程直至所述每一层参数达到分类输出的误差极小点，停止迭代。

4.根据权利要求3所述的方法，其特征在于，所述将所述误差反向传播，计算每一层参数的梯度，包括：

通过下述公式计算每一层参数的梯度：

θt 1＝θt vt 1

5.根据权利要求3所述的方法，其特征在于，所述基于卷积神经网络分类层计算所述学生行为分类结果与检测到的实际学生行为类别的误差，包括：

通过下述公式计算误差：

其中，x表示样本，n表示样本总数，求和是在所有的输入x上进行的，y是目标输出，通过迭代优化直至达到一个全局最优或者局部最优解。

6.根据权利要求1所述的方法，其特征在于，所述步骤(4)中对三个模型进行特征提取后得到的特征向量分别进行pca降维，包括：

对特征向量去中心化后计算协方差矩阵；

通过特征值分解法计算所述协方差矩阵的特征值与特征向量；

对所述特征值由大到小进行排序，选择最大的k个所述特征值对应的k个所述特征向量分别作为行向量组成特征向量矩阵p；

将数据转换至所述特征向量矩阵p构建而成的空间中，得到降维后的特征向量矩阵。

7.根据权利要求1所述的方法，其特征在于，所述步骤(4)中对降维后的三个所述特征向量进行tfn特征向量融合，包括：

通过下述公式对降维后的三个所述特征向量进行tfn特征向量融合：

技术总结
本发明公开了一种基于多模态数据融合的学习者行为识别方法，该方法包括对xAPI活动流数据、视频数据以及音频数据进行预处理；将待识别的所述xAPI活动流数据输入BERT模型，将待识别的所述视频数据输入SlowFast模型，将待识别的所述音频数据输入VGGish模型，用以分别对不同模态数据进行特征提取；对三个模型进行特征提取后得到的特征向量分别进行PCA降维，并对降维后的三个所述特征向量进行TFN特征向量融合，得到多模态特征向量；将所述多模态特征向量输入卷积神经网络分类器中进行学生行为的分类，得到学生行为分类结果。本发明采用了一种新的多模态数据融合的办法，有效保留了每个模态数据的特点，使模型的分类准确率更高。

技术研发人员：杨宗凯;廖盛斌;邓颖
受保护的技术使用者：华中师范大学
技术研发日：2020.11.27
技术公布日：2021.03.12

转载请注明原文地址:https://wp.8miu.com/read-19677.html

专利

最新回复(0)