本发明属于智能设备技术领域,具体涉及一种基于gru的声音和图像识别的情绪安慰方法及系统。
背景技术:
随着社会的发展,人们生活的节奏越来越快。平时悲伤的情绪越来越无从倾泻,目前表情识别的应用领域虽然很广泛,但是直接运用在人类的情绪却很少。因为心理因素发生的悲剧层出不穷,尤其是在学生群体中。
人们出行普遍携带移动终端,使用移动终端的时间也呈逐年增长的趋势,与移动终端之间的交互也成为了人们表达观点,宣泄情绪的主要方式。
技术实现要素:
为解决上述技术问题,本发明提出了一种基于gru的情绪安慰方法、系统及移动终端,采用移动终端的摄像头实时拍照,采用移动终端的麦克风录音,将照片放到长短时记忆gru网络中进行训练,从而分类使用者处于何种情绪,根据判断结果控制移动终端使用多种可选的方法对使用者进行安慰。
一种基于gru的情绪安慰方法,包括如下步骤:
步骤1、将人的面部表情和声音录入系统中,将收集到的图片及声音数据放到gru网络算法中进行训练,从而实现识别使用者处于何种情绪;
步骤2、根据识别出的用户情绪,终端作出预设的安慰动作;
步骤3、移动终端记录使用者每一次情绪调节发生的时间、调节情绪所用的方式、调节时长以及使用者对调节效果的评价信息;
步骤4、将步骤3中反馈的信息带入gru网络中进行再学习,以适应不同使用者的行为偏好;
步骤5、定期生成数据报告。
优选的,步骤1中情绪识别具体包括如下步骤:
步骤11、输入视频和音频;
步骤12、将音频进行预处理,抽取43维有效特征;将视频进行处理提取其26维有效特征;
步骤13、将音频及视频的有效特征带入gru网络中进行训练;
步骤14、带入决策层融合算法中识别出使用者情绪。
优选的,步骤12中视频的处理方法包括如下步骤:
步骤121:图像帧抽取,每3帧抽取一张图片;
步骤122:采用dlib库从步骤121中提取出68个人脸特征点坐标;
步骤123:在这68个特征点坐标的基础上,选取26个两点间的距离长度作为表情特征;
步骤124:将26维特征送入gru网络训练和测试。
优选的,步骤12中语音有效特征提取包括如下步骤:
步骤125:对音频的预处理工作,分别设置窗口长度为0.025s,提取语音情感特征的时间间隔为0.01s;
步骤126:进行特征提取,总共提取了表征语音情感的43维特征向量,分别是13维mfcc特征、2维mfcc动态差分参数包括mfcc1阶差分和2阶差分、26维fbank特征和2维标准差包括mfcc和fbank的标准差。
优选的,步骤14中决策层融合算法包括如下步骤:
步骤141:将语音提取的43维特征向量和视频提取的26维特征向量拼接成59维情感特征向量并进行标准化。
步骤142:将标准化后的特征送入gru网络中进行训练和测试;
步骤143:利用加权的方式将gru输出的语音和面部表情情感识别结果进行整合。
优选的,步骤2中经过情绪识别,将情绪分类成6种,移动终端根据不同情绪种类将分别作出不同的反应:
若情绪识别为高兴,则移动终端将不做任何反应;
若情绪识别为惊奇,则移动终端会自动弹出网页搜索栏,让使用者对自己感到惊奇的事物进行搜索;
若情绪识别为恐惧、厌恶、悲伤或愤怒情绪,则移动终端播放轻快的音乐,或者播放搞笑视频,如果经过一定时间后,通过情绪识别,识别出该情绪依然是恐惧,移动终端自动联系预先设定的联系人以寻求进行人工心理安慰;
优选的,步骤4中移动终端记录每次情绪调节的方式以及使用者人工评价信息,经gru网络进行学习,个性化的确定每个使用者调节方式、情绪种类、调节效果和调节时长的关系,将相关数据存储于移动终端,供使用者下次使用时调用和再学习。
一种基于gru的情绪安慰系统,所述基于gru的情绪安慰系统,实现上述安慰方法的步骤。
一种基于gru的情绪安慰的移动终端,所述移动终端包括存储器、处理器、摄像头、屏幕、扬声器、麦克风、通信装置以及存储在存储器上并可以在所述处理器上运行的基于gru的情绪安慰程序,所述基于gru的情绪安慰程序被处理器执行时实现如上所述的基于gru的情绪安慰方法的步骤。
本发明的有益效果为:
情感计算中音/视频的情感识别对人机交互等领域的深层次认知具有重要应用价值,为克服单-模态模型识别精度依赖于情感类型这一问题,本文提出一种基于gru网络的多模态情感识别模型,采用双层次方向gru分别模拟人类听觉和视觉处理通路处理语音和面部表情的情感信息,gru既能克服rnn建模时梯度消失和爆炸的问题,又比lstm训练时间短,且出现的过拟合问题较少。在引入注意力机制后,能够提高重要时序特征的影响权重,抑制非重要时序特征,提升模型的分类效果。同时,考虑到传统离散情绪六分类法无法进行程度度量,且存在外在表现相似和多情感同时并存的问题。
附图说明
图1为本发明所述基于gru的情绪安慰方法的整体流程图;
图2为情绪识别的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种基于gru的情绪安慰方法,包括如下步骤:
步骤1、将人的面部表情和声音录入系统中,将收集到的图片及声音数据放到gru网络算法中进行训练,从而实现识别使用者处于何种情绪;
步骤2、根据识别出的用户情绪,终端作出预设的安慰动作;
步骤3、移动终端记录使用者每一次情绪调节发生的时间、调节情绪所用的方式、调节时长以及使用者对调节效果的评价信息;
步骤4、将步骤3中反馈的信息带入gru网络中进行再学习,以适应不同使用者的行为偏好;
步骤5、定期生成数据报告。
优选的,步骤1中情绪识别具体包括如下步骤:
步骤11、输入视频和音频;
步骤12、将音频进行预处理,抽取43维有效特征;将视频进行处理提取其26维有效特征;
步骤13、将音频及视频的有效特征带入gru网络中进行训练;
步骤14、带入决策层融合算法中识别出使用者情绪。
优选的,步骤12中视频的处理方法包括如下步骤:
步骤121:图像帧抽取,每3帧抽取一张图片;
步骤122:采用dlib库从步骤121中提取出68个人脸特征点坐标;
步骤123:在这68个特征点坐标的基础上,选取26个两点间的距离长度作为表情特征;
步骤124:将26维特征送入gru网络训练和测试。
优选的,步骤12中语音有效特征提取包括如下步骤:
步骤125:对音频的预处理工作,分别设置窗口长度为0.025s,提取语音情感特征的时间间隔为0.01s;
步骤126:进行特征提取,总共提取了表征语音情感的43维特征向量,分别是13维mfcc特征、2维mfcc动态差分参数包括mfcc1阶差分和2阶差分、26维fbank特征和2维标准差包括mfcc和fbank的标准差。
优选的,步骤14中决策层融合算法包括如下步骤:
步骤141:将语音提取的43维特征向量和视频提取的26维特征向量拼接成59维情感特征向量并进行标准化。
步骤142:将标准化后的特征送入gru网络中进行训练和测试;
步骤143:利用加权的方式将gru输出的语音和面部表情情感识别结果进行整合。
优选的,步骤2中经过情绪识别,将情绪分类成6种,移动终端根据不同情绪种类将分别作出不同的反应:
若情绪识别为高兴,则移动终端将不做任何反应;
若情绪识别为惊奇,则移动终端会自动弹出网页搜索栏,让使用者对自己感到惊奇的事物进行搜索;
若情绪识别为恐惧、厌恶、悲伤或愤怒情绪,则移动终端播放轻快的音乐,或者播放搞笑视频,如果经过一定时间后,通过情绪识别,识别出该情绪依然是恐惧,移动终端自动联系预先设定的联系人以寻求进行人工心理安慰;
优选的,步骤4中移动终端记录每次情绪调节的方式以及使用者人工评价信息,经gru网络进行学习,个性化的确定每个使用者调节方式、情绪种类、调节效果和调节时长的关系,将相关数据存储于移动终端,供使用者下次使用时调用和再学习。
本发明中的多模态情感识别方法主要依托双层次方向gru网络分别对音频数据和视频数据进行训练,双层次方向分别模拟人类的听觉和视觉处理通路处理语音和面部表情视频信息。图2为本设计的情绪识别模块。在整体设计上,为了提高训练和测试训练效率,本设计将抽取非常少的有效特征,音频通道抽取43维有效特征、视频通道将抽取26维有效特征,总共仅69维特征,模型能够完成实时进行的、性能优良的gru多模态情感识别。该模型在特征融合上选用决策层融合方法,从而最终将情绪分类出来。
一种基于gru的情绪安慰系统,所述基于gru的情绪安慰系统,实现上述安慰方法的步骤。
一种基于gru的情绪安慰的移动终端,所述移动终端包括存储器、处理器、摄像头、屏幕、扬声器、麦克风、通信装置以及存储在存储器上并可以在所述处理器上运行的基于gru的情绪安慰程序,所述基于gru的情绪安慰程序被处理器执行时实现如上所述的基于gru的情绪安慰方法的步骤。
1.一种基于gru的情绪安慰方法,其特征在于,包括如下步骤:
步骤1、将人的面部表情和声音录入系统中,将收集到的图片及声音数据放到gru网络算法中进行训练,从而实现识别使用者处于何种情绪;
步骤2、根据识别出的用户情绪,终端作出预设的安慰动作;
步骤3、移动终端记录使用者每一次情绪调节发生的时间、调节情绪所用的方式、调节时长以及使用者对调节效果的评价信息;
步骤4、将步骤3中反馈的信息带入gru网络中进行再学习,以适应不同使用者的行为偏好;
步骤5、定期生成数据报告。
2.根据权利要求1所述的一种基于gru的情绪安慰方法,其特征在于,步骤1中情绪识别具体包括如下步骤:
步骤11、输入视频和音频;
步骤12、将音频进行预处理,抽取43维有效特征;将视频进行处理提取其26维有效特征;
步骤13、将音频及视频的有效特征带入gru网络中进行训练;
步骤14、带入决策层融合算法中识别出使用者情绪。
3.根据权利要求2所述的一种基于gru的情绪安慰方法,其特征在于,步骤12中视频的处理方法包括如下步骤:
步骤121:图像帧抽取,每3帧抽取一张图片;
步骤122:采用dlib库从步骤121中提取出68个人脸特征点坐标;
步骤123:在这68个特征点坐标的基础上,选取26个两点间的距离长度作为表情特征;
步骤124:将26维特征送入gru网络训练和测试。
4.根据权利要求2所述的一种基于gru的情绪安慰方法,其特征在于,步骤12中语音有效特征提取包括如下步骤:
步骤125:对音频的预处理工作,分别设置窗口长度为0.025s,提取语音情感特征的时间间隔为0.01s;
步骤126:进行特征提取,总共提取了表征语音情感的43维特征向量,分别是13维mfcc特征、2维mfcc动态差分参数包括mfcc1阶差分和2阶差分、26维fbank特征和2维标准差包括mfcc和fbank的标准差。
5.根据权利要求2所述的一种基于gru的情绪安慰方法,其特征在于,步骤14中决策层融合算法包括如下步骤:
步骤141:将语音提取的43维特征向量和视频提取的26维特征向量拼接成59维情感特征向量并进行标准化;
步骤142:将标准化后的特征送入gru网络中进行训练和测试;
步骤143:利用加权的方式将gru输出的语音和面部表情情感识别结果进行整合。
6.根据权利要求1所述的一种基于gru的情绪安慰方法,其特征在于,步骤2中经过情绪识别,将情绪分类成6种,移动终端根据不同情绪种类将分别作出不同的反应:
若情绪识别为高兴,则移动终端将不做任何反应;
若情绪识别为惊奇,则移动终端会自动弹出网页搜索栏,让使用者对自己感到惊奇的事物进行搜索;
若情绪识别为恐惧、厌恶、悲伤或愤怒情绪,则移动终端播放轻快的音乐,或者播放搞笑视频,如果经过一定时间后,通过情绪识别,识别出该情绪依然是恐惧,移动终端自动联系预先设定的联系人以寻求进行人工心理安慰。
7.根据权利要求1所述的一种基于gru的情绪安慰方法,其特征在于,步骤4中移动终端记录每次情绪调节的方式以及使用者人工评价信息,经gru网络进行学习,个性化的确定每个使用者调节方式、情绪种类、调节效果和调节时长的关系,将相关数据存储于移动终端,供使用者下次使用时调用和再学习。
8.一种基于gru的情绪安慰系统,其特征在于,所述基于gru的情绪安慰系统,实现上述权利要求1至7所述基于gru的情绪安慰方法的步骤。
9.一种基于gru的情绪安慰的移动终端,其特征在于,所述移动终端包括存储器、处理器、摄像头、屏幕、扬声器、麦克风、通信装置以及存储在存储器上并可以在所述处理器上运行的基于gru的情绪安慰程序,所述基于gru的情绪安慰程序被处理器执行时实现如权利要求1至7所述的基于gru的情绪安慰方法的步骤。
技术总结