本发明涉及人工智能、多模态情绪识别,尤其涉及一种基于最大化互信息和对比学习的多模态情绪识别方法及系统。
背景技术:
1、随着信息处理、大数据、人工智能等技术的发展,自动化分析用户对产品或服务的情绪的需求越来越大。尽管使用单模态进行情绪识别已经取得了很大的进展,但是单一数据源可能无法提供足够的信息来全面理解人的情绪,为提升情绪识别的准确性、鲁棒性以及应用性,多模态情绪识别成为一个重要的研究领域。
2、目前的多模态情绪识别方法大多采用复杂的融合策略,但是会引入大量的参数,可能会导致计算的复杂性增加,影响模型的效率;同时复杂的融合策略可能导致模型在训练数据上过度拟合,预测结果不准确。
技术实现思路
1、为了提高情绪识别结果的准确率,本发明提供一种基于最大化互信息和对比学习的多模态情绪识别方法及系统。
2、一方面,本发明提供的一种基于最大化互信息和对比学习的多模态情绪识别方法,包括:
3、步骤1:构建多模态情绪识别模型,包括最大化互信息模块、保留模态特定信息模块、融合网络和对比学习模块;
4、步骤2:构建多模态数据训练集,所述多模态数据训练集包含若干个对象的多模态数据,每个对象的所述多模态数据包括文本信号、音频信号和视频信号;
5、步骤3:采用预设的特征提取网络根据每个对象的所述多模态数据提取对应的文本特征、音频特征和视频特征,并输入至所述多模态情绪识别模型;
6、步骤4:采用最大化互信息模块最大化同一个对象的任意两个模态特征之间的互信息,并设计最大化互信息模块的损失函数;采用保留模态特定信息模块保留每个模态特征自身的特定信息,并设计保留模态特定信息模块的损失函数;采用融合网络将同一个对象的三个模态特征进行融合和预测,得到融合特征和情绪预测结果,并设计任务损失函数;采用对比学习模块根据不同对象的融合特征学习模态特征表示,并设计对比学习模块的损失函数;
7、步骤5:设计多模态情绪识别模型的总损失函数,所述总损失函数由最大化互信息模块的损失函数、保留模态特定信息模块的损失函数、任务损失函数和对比学习模块的损失函数组成;
8、步骤6:采用所述多模态训练集对所述多模态情绪识别模型进行训练,得到训练好的多模态情绪识别模型;
9、步骤7:根据待识别对象的多模态数据,采用训练好的情绪识别模型得到情绪识别预测结果。
10、进一步地,从视频数据中提取对象的多模态数据。
11、进一步地,所述预设的特征提取网络包括bert和slstm;其中,使用所述bert根据文本信号提取得到文本特征ft,使用所述slstm分别根据音频信号和视频信号提取得到音频特征fa和视频特征fv。
12、进一步地,步骤4中,采用最大互信模块最大化任意两个模态特征之间的互信息,具体包括:
13、计算两个模态特征之间的互信息的下界,利用所述互信息的下界近似计算两个模态特征之间的互信息;
14、
15、其中,x和y分别表示两个模态特征的特征向量,ep(x,y)[log q(y|x)]+h(y)为互信息的下界,符号为imi;q(y|x)表示近似分布,h(y)表示y的微分熵;ep(x,y)表示期望;
16、以及,所述最大化互信息模块的损失函数为:
17、
18、其中,表示文本特征和视频特征之间的互信息,表示文本特征和音频特征之间的互信息,表示视频特征和音频特征之间的互信息。
19、进一步地,步骤4中,采用保留模态特定信息模块保留每个模态特征自身的特定信息,具体包括:
20、将同一个对象的文本特征ft、音频特征fa和视频特征fv映射到相同维度,再分别进行l2归一化,得到新的文本特征音频特征和视频特征
21、以及,保留模态特定信息模块的损失函数为:
22、
23、其中,e表示n个对象的期望,a表示不同模态之间的模态差距。
24、进一步地,步骤4中,采用融合网络将同一个对象的三个模态特征进行融合,具体包括:
25、将同一个对象的文本特征ft、音频特征fa和视频特征fv按照列方向进行拼接,将拼接之后得到的特征输入到融合网络进行融合和预测;
26、以及,所述任务损失函数为:
27、ltask=mae(y′,y)
28、其中,mae表示平均绝对误差,y′表示融合网络的情绪预测值,y表示对象的真实情绪值。
29、进一步地,步骤4中,采用对比学习模块根据不同对象的融合特征学习模态特征表示,具体包括:
30、定义anchor、正样本和负样本,分别对anchor、正样本和负样本进行l2归一化得到
31、以及,所述对比学习模块的损失函数:
32、
33、其中,表示经过l2归一化后的anchor,表示经过l2归一化后的正样本,表示经过l2归一化后的正样本和负样本,1[k≠i]∈{0,1}表示一个指示函数,当k≠i时,取值为1,当k=i时,取值为0,z表示每个batch中的每个样本所对应的anchor、正样本和负样本。
34、具体地,对比学习中每个样本通常有一个正样本和若干个负样本,通过使正样本对的距离尽可能小,负样本对的距离尽可能大来定义损失。
35、进一步地,所述的定义anchor、正样本和负样本具体包括:
36、将同一个对象的文本特征、音频特征和视频特征按照列方向进行拼接并输入到融合网络,融合网络输出的融合特征作为anchor;
37、将同一个对象的文本特征、音频特征和视频特征进行数据增强,将数据增强后的文本特征、音频特征和视频特征按照列方向进行拼接并输入到融合网络,融合网络输出的融合特征作为正样本;
38、从一个对象中取出任意两种模态特征,从另一个对象中取出最后一种模态特征,将三种模态特征按照列方向进行拼接并输入到融合网络,融合网络输出的融合特征作为负样本。
39、进一步地,步骤5中,所述总损失函数为:
40、lmain=ltask+αlmi+βls+γln
41、其中,ltask表示任务损失,lmi表示最大化互信息模块的损失,ls表示保留模态特定信息模块的损失,ln表示对比学习模块的损失,α、β和γ表示控制损失函数影响的超参数。
42、另一方面,本发明提供一种基于最大化互信息和对比学习的多模态情绪识别系统,包括:
43、多模态情绪识别模型构建模块,用于构建多模态情绪识别模型,包括最大化互信息模块、保留模态特定信息模块、融合网络和对比学习模块;其中,采用最大化互信息模块最大化同一个对象的任意两个模态特征之间的互信息,并设计最大化互信息模块的损失函数;采用保留模态特定信息模块保留每个模态特征自身的特定信息,并设计保留模态特定信息模块的损失函数;采用融合网络将同一个对象的三个模态特征进行融合和预测,得到融合特征和情绪预测结果,并设计任务损失函数;采用对比学习模块根据不同对象的融合特征学习模态特征表示,并设计对比学习模块的损失函数;以及设计多模态情绪识别模型的总损失函数,所述总损失函数由最大化互信息模块的损失函数、保留模态特定信息模块的损失函数、任务损失函数和对比学习模块的损失函数组成;
44、训练集构建模块,用于构建多模态数据训练集,所述多模态数据训练集包含若干个对象的多模态数据,每个对象的所述多模态数据包括文本信号、音频信号和视频信号;
45、特征提取模块,用于采用预设的特征提取网络根据每个对象的所述多模态数据提取对应的文本特征、音频特征和视频特征,并输入至所述多模态情绪识别模型;
46、训练及预测模块,采用所述多模态训练集对所述多模态情绪识别模型进行训练,得到训练好的多模态情绪识别模型;根据待识别对象的多模态数据,采用训练好的情绪识别模型得到情绪识别预测结果。
47、本发明的有益效果:
48、本发明通过最大化模态之间的互信息并保留模态的特定信息,以减少有价值的相关任务信息的丢失,并利用对比学习区分不同对象来学习模态特征表示,利用该情绪识别方法预测情绪准确率更高。
1.一种基于最大化互信息和对比学习的多模态情绪识别方法,其特征在于,包括:
2.根据权利要求1所述的一种基于最大化互信息和对比学习的多模态情绪识别方法,其特征在于,从视频数据中提取对象的多模态数据。
3.根据权利要求1所述的一种基于最大化互信息和对比学习的多模态情绪识别方法,其特征在于,所述预设的特征提取网络包括bert和slstm;其中,使用所述bert根据文本信号提取得到文本特征ft,使用所述slstm分别根据音频信号和视频信号提取得到音频特征fa和视频特征fv。
4.根据权利要求1所述的一种基于最大化互信息和对比学习的多模态情绪识别方法,其特征在于,步骤4中,采用最大互信模块最大化任意两个模态特征之间的互信息,具体包括:
5.根据权利要求1所述的一种基于最大化互信息和对比学习的多模态情绪识别方法,其特征在于,步骤4中,采用保留模态特定信息模块保留每个模态特征自身的特定信息,具体包括:
6.根据权利要求1所述的一种基于最大化互信息和对比学习的多模态情绪识别方法,其特征在于,步骤4中,采用融合网络将同一个对象的三个模态特征进行融合,具体包括:
7.根据权利要求1所述的一种基于最大化互信息和对比学习的多模态情绪识别方法,其特征在于,步骤4中,采用对比学习模块根据不同对象的融合特征学习模态特征表示,具体包括:
8.根据权利要求7所述的一种基于最大化互信息和对比学习的多模态情绪识别方法,其特征在于,所述的定义anchor、正样本和负样本具体包括:
9.根据权利要求1所述的一种基于最大化互信息和对比学习的多模态情绪识别方法,其特征在于,步骤5中,所述总损失函数为:
10.一种基于最大化互信息和对比学习的多模态情绪识别系统,其特征在于,包括: