本申请涉及情感识别领域,具体涉及一种基于神经网络的情感识别方法、设备及介质。
背景技术:
:随着多媒体技术的发展,为如今大数据环境下的情感计算提供了重要的数据来源。通常情况下,情感计算主要针对采集到的不同数据,例如图像数据、语音数据和文字数据,来进行相应的识别处理。其中,对于语音数据的情感识别主要利用语音的声学特征和韵律学特征,对语音信号建模。但是这种传统的语音情感识别,仅仅对语音的声音信号进行分析,而忽略了语音当中包含的丰富的内容信息表达,并不能很好的描述情感表达结果。这也就使得现有的针对语音的情感识别结果不够准确。技术实现要素:为了解决上述问题,本申请提出了一种基于神经网络的情感识别方法,包括:确定用户对应的待识别语音;通过预先训练的声音识别模型,对所述待识别语音进行情感识别,得到声音识别结果;将所述待识别语音转换为文本,并对所述文本进行情感识别,得到文本识别结果;将所述声音识别结果与所述文本识别结果进行融合,得到所述待识别语音对应的最终结果。在一个示例中,通过预先训练的声音识别模型,对所述待识别语音进行情感识别,得到声音识别结果,包括:对所述待识别语音进行降噪预处理;提取所述待识别语音的谱特征以及韵律学特征;将所述谱特征以及所述韵律学特征进行耦合,得到所述待识别语音的声音特征;通过预先训练的声音识别模型,对所述声音特征进行情感识别,得到声音识别结果。在一个示例中,对所述待识别语音进行降噪预处理,包括:将所述待识别语音进行归一化处理;对所述待识别语音进行逐帧检测,计算每帧语音的过零率和短时能量;通过端点检测,将所述待识别语音划分成若干个语音段,以对所述待识别语音进行降噪预处理。在一个示例中,通过端点检测,将所述待识别语音划分成若干个语音段,包括:若存在相应帧的所述过零率高于预设的过零率门限阈值、所述短时能量高于预设的短时能量门限阈值,则将该相应帧作为起始帧;若在所述起始帧后,存在若干连续的语音帧的所述过零率都不高于所述过零率门限阈值、所述短时能量不高于预设的短时能量门限阈值,则将所述若干连续的语音帧的最后一帧作为结束帧;将所述起始帧与所述结束帧之间的部分作为一个语音段。在一个示例中,所述谱特征包括:梅尔频率倒谱系数mfcc;所述韵律学特征包括:语速、振幅特征、基因周期、共振峰中的至少一种。在一个示例中,对所述文本进行情感识别,得到文本识别结果,包括:将所述文本进行分词,得到若干个词汇;提取所述若干个词汇的文本特征,并通过预先训练的文本识别模型,对所述文本特征进行情感识别,得到第一文本识别结果;通过预设的情感词典,对所述若干个词汇进行情感识别,得到第二文本识别结果。在一个示例中,提取所述若干个词汇的文本特征,包括:基于文档频率df、互信息mi、卡方统计chi中的至少一种,提取所述若干个词汇的文本特征。在一个示例中,通过预设的情感词典,对所述若干个词汇进行情感识别,得到第二文本识别结果,包括:通过预设的情感词典,以及预设的不同情感所对应的权重,对所述若干个词汇进行情感识别,得到第二文本识别结果。另一方面,本申请还提出了一种基于神经网络的情感识别设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述任意一个示例所述的方法。另一方面,本申请还提出了一种基于神经网络的情感识别的非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:如上述任意一个示例所述的方法。通过本申请提出基于神经网络的情感识别方法能够带来如下有益效果:在通过用户的语音识别情感时,不只采用声音或者文本,而是将两者融合,通过双模态判断用户的情感,识别效果远好于单一模态的识别效果,保证了双模态融合情感识别的有效性。双模态信息融合相对比单一模态信息,更广泛的包含了语音当中的声音变化信息和语义信息,从而在模型训练和决策判断中可以更有利于交叉判断,并得到最优的情感识别结果。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为本申请实施例中基于神经网络的情感识别方法的流程示意图;图2为本申请实施例中基于神经网络的情感识别方法的流程框图;图3为本申请实施例中声音识别结果对应的流程框图;图4为本申请实施例中文本识别结果对应的流程框图;图5为本申请实施例中声音特征提取的流程图;图6为本申请实施例中声音识别模型的训练以及识别过程示意图;图7为本申请实施例中实验效果图;图8为本申请实施例中基于神经网络的情感识别设备的示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。以下结合附图,详细说明本申请各实施例提供的技术方案。首先需要说明的是,现有的情感数据并没有统一的录制标准和标注格式,其中比较常用的有dmo-db情感数据库、中科院语音情感数据库(casia)等。casia汉语情感语料库由中国科学院自动化所录制,共包含9600条语音,分为四个不同说话人表述,其中包含了愤怒、高兴、惊讶、恐惧、悲伤和平静共六种基本情感类别,在本申请实施例中可以将这种六种情感作为情感的分类。如图1以及图2所示,本申请实施例提供一种基于神经网络的情感识别方法,包括:s101、确定用户对应的待识别语音。为了能够通过语音对用户的情感进行识别,首先需要获取用户的语音,在此可以将该语音称作待识别语音。待识别语音可以是一段或者多段,通过相应的软件、设备来获取,在此对如何获取待识别语音进行限制。s102、通过预先训练的声音识别模型,对所述待识别语音进行情感识别,得到声音识别结果。如图3所示,为了能够有效的对待识别语音的情感进行识别,可以预先训练相应的声音识别模型,然后通过声音识别模型对待识别语音进行情感识别,得到声音相关的情感识别结果(在此称作声音识别结果)。在训练声音识别模型时,可以对语音数据进行预处理和特征提取工作,用得到的语音数据的单模态特征进行模型训练,利用浅层学习模型和深度学习模型进行分类学习,得到最优的识别结果来作为声音识别模型。具体地,在训练完成后的预处理降噪的过程中,为了保持语音数据的有用性,查找出有识别文本结果的语音,可以利用门限端点检测算法,标记出语音中所有语音片段的起点和终点。实现过程可以为:预先设置过零率门限阈值、短时能量门限阈值。将语音数据输入并进行归一化处理,然后进行逐帧检测,计算每一帧的过零率和短时能量。如果某帧过零率和短时能量超过了相应的门限阈值,即过零率高于过零率门限阈值、短时能量高于短时能量门限阈值,则将该帧标记为语音段起点。在该起始帧后,若有若干连续帧的过零率与短时能量都没有超过低相应的门限阈值,则将这若干连续帧结束帧位置标记为语音段终点,从而生成一个语音段。继续用同样方法扫描剩余语音数据,即可将待识别语音划分成为若干个语音段。经过端点检测可以有效的去除静音、高频杂音的等噪音,划分完整语音段。如图5所示,在特征提取过程中,可以高通滤波器以及汉明窗对待识别语音进行处理,然后通过mel滤波器组以及离散余弦变换得到静态mel参数、一阶mel参数以及二阶mel参数,并最终得到mfcc参数,将mfcc参数作为待识别语音的谱特征。同时提取待识别语音的韵律学特征,韵律学特征可以包括:语速、振幅特征、基因周期、共振峰等。然后将韵律学特征和整体语音特征进行耦合,并将耦合后的特征称作声音特征。其中,除了语速特征外,其他特征参数维数较多,进而提取其统计学参数特征。多维语音特征的具体参数可以如下表所示,主要选择mfcc参数和部分韵律学特征的统计量参数。当然,在训练声音识别模型时,可以如图6所示,从语料库中划分出训练集以及测试集,然后通过上述实施例预处理降噪中的方式进行预处理,然后通过训练集训练神经网络,并通过分类器与训练表情对比来对神经网络中的参数进行调整。再使用测试集对训练好的模型与测试标签进行对比,从而得到识别结果,来测试声音识别模型的准确度。在模型的构建过程中,可以采用lstm网络进行最终的模型构建。在训练过程中的预处理降噪的过程以及特征提取过程,与上述实施例中使用声音识别模型对待处理语音进行处理的过程基本类似,在此不再赘述。s103、将所述待识别语音转换为文本,并对所述文本进行情感识别,得到文本识别结果。如图4所示,除了对待识别语音的声音进行识别外,还可以对待识别语音对应的文本进行情感识别。即,首先通过语音识别,将待识别语音转换为文本,然后对该文本进行情感识别,得到相应的文本识别结果。具体地,可以先将文本进行分词处理,得到若干个词汇。然后针对每个词汇,提取其对应的文本特征。然后使用已经训练好的文本识别模型,来对文本特征进行情感识别,得到相应的文本识别结果(在此称作第一文本识别结果)。其中,在提取文本特征的过程时,可以运用文档频率特征df提取、互信息特征mi提取、卡方统计chi提取,对文本中的词进行特征选择。特征词选择的效果影响到文本的向量的表征能力,因此可以进行不同组实验进行选择最优组合。但是统计结果通常会包括一些停用词以及非常用的低频词,因此可以基于规则的停用词表去除停用词的影响。同时以便对比实验,可以对所有特征选择方法构建3000维特征向量,具体如下表所示。另一方面,在得到了若干个词汇后,除了通过文本特征来进行情感识别,还可以通过情感词典来进行情感识别,并将通过情感词典识别的识别结果称作第二文本识别结果。其中,目前公开的情感词典有知网(hownet)词典和台湾大学(ntusd)情感词典以及大连理工情感词汇文本库等,可以引入这些已经公开的情感词典作为基础词典,并在基础词典上进行改进,也可以自造词典,在此不对情感词典的具体内容做限制。若是通过引用词典的方式,考虑到其中多数词汇很少甚至没有出现在训练语料中,属于低频词,不是常用词。此时利用tf-idf对实验语料进行词频统计,并通过统计加权处理舍弃部分低频情感词汇。基于情感词典的文本情感分类,是对人的记忆和判断思维的最简单的模拟。在通过情感词典学习时,可以首先通过学习来记忆一些基本词汇,如否定词语有“不”,表示高兴的词语有“喜欢”、“爱”,表示愤怒的词语有“讨厌”、“恨”等,从而形成一个基本的语料库。然后再对训练输入的句子进行最直接的拆分,看词典中是否存在相应的词语,然后根据这个词语的类别来判断情感。基于情感词典的文本情感分类规则比较机械化,因此可以对不同情感附加不同权重,使用onehot形式表征,并且假设情感值满足线性叠加原理。然后将句子进行分词,如果句子分词后的词语向量包含相应的词语,就加上向前的权值,最后根据总权值的正负性来判断句子的情感。另外需要说明的是,步骤s102与步骤s103之间并没有严格的先后顺序,可以先执行步骤s102中有关声音方面的情感识别,也可以先执行步骤s103中有关文本方面的情感识别,在此不做限定。另外,在训练模型以及提取特征之前,还需要预先准备知识库,用来训练模型。可以选择进行情感识别的语音数据来源,确定数据库容量,然后使用语音识别接口得到语音中所表达的文本内容,构成文本库,然后对语音库和文本库进行情感标记处理,以便模型训练时作为训练数据,制定标记方案和标记准则,开发情感标记工具,简化标记过程,同时按照语音文本对应存储标记数据。s104、将所述声音识别结果与所述文本识别结果进行融合,得到所述待识别语音对应的最终结果。在获取了声音识别结果以及文本识别结果时,可以将这两者进行融合,即可得到待识别语音对应的最终结果,该最终结果即可表示待识别语音所表达出的用户的情感状况。其中,融合的方法可以根据不同的情况来分配不同的权重,例如,根据声音识别结果和文本识别结果所对应的情感状况来分配权重。融合的方法也可以是通过投票,选择得票最多的结果为最终结果。在一个实施例中,按照上述本申请实施例中方法进行了相应的实验。在实验过程中,下表为只考虑声音的情况下,每种情感的识别准确率和误识别率。对每种情感做了5次实验,取算术平均,其中对愤怒的识别率最高,达到79.58%。对惊讶的识别率最低,只有45.90%,其中误识别为高兴的概率很高,这是因为惊讶与高兴在语音的情感表达上很相似,极易混淆。而对六种情感的平均识别率为64.50%。angerfearhappyneutralsadsurprise平均anger79.58%4.75%8.98%1.93%2.47%2.59%fear7.35%68.67%4.20%6.36%7.40%6.02%happy16.09%5.17%52.57%2.61%6.08%17.48%neutral7.59%10.92%9.73%64.61%2.41%4.74%sad1.15%6.85%8.59%4.27%75.65%3.49%surprise9.82%7.21%22.94%9.18%4.93%45.90%64.50%而下表为只考虑文本的情况下,每种情感的识别准确率和误识别率。对每种情感做了5次实验,取算术平均,其中对愤怒的识别率最高,达到93.2%。对惊讶的识别率最低,只有81.3%,而对六种情感的平均识别率为87.50%。而通过双模态,即声音和文本模态进行情感识别时,对两种不同模态的识别结果进行融合,情感识别的最终结果可以如下表所示。情感分类准确率angry0.92fear0.94happy0.90sad0.89surprise0.90ave0.91从上表以及图7中可以明显观察到,双模态信息融合的识别结果中弱化了不同情感识别结果的差异,使每种情感的识别效果稳定,可以明显得到,双模态融合的情感识别效果远好于单一模态的识别效果,这也验证了双模态信息融合情感识别的有效性。双模态信息融合相对比单一模态信息,更广泛的包含了语音当中的声音变化信息和语义信息,从而在模型训练和决策判断中可以更有利于交叉判断,并得到最优的情感识别结果。如图8所示,本申请实施例还提供了一种基于神经网络的情感识别设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述任意一个实施例所述的方法。本申请实施例还提供了一种基于神经网络的情感识别的非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:如上述任意一个实施例所述的方法。本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备和介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。本申请实施例提供的设备和介质与方法是一一对应的,因此,设备和介质也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述设备和介质的有益技术效果。本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。当前第1页1 2 3 
技术特征:1.一种基于神经网络的情感识别方法,其特征在于,包括:
确定用户对应的待识别语音;
通过预先训练的声音识别模型,对所述待识别语音进行情感识别,得到声音识别结果;
将所述待识别语音转换为文本,并对所述文本进行情感识别,得到文本识别结果;
将所述声音识别结果与所述文本识别结果进行融合,得到所述待识别语音对应的最终结果。
2.根据权利要求1所述的方法,其特征在于,通过预先训练的声音识别模型,对所述待识别语音进行情感识别,得到声音识别结果,包括:
对所述待识别语音进行降噪预处理;
提取所述待识别语音的谱特征以及韵律学特征;
将所述谱特征以及所述韵律学特征进行耦合,得到所述待识别语音的声音特征;
通过预先训练的声音识别模型,对所述声音特征进行情感识别,得到声音识别结果。
3.根据权利要求2所述的方法,其特征在于,对所述待识别语音进行降噪预处理,包括:
将所述待识别语音进行归一化处理;
对所述待识别语音进行逐帧检测,计算每帧语音的过零率和短时能量;
通过端点检测,将所述待识别语音划分成若干个语音段,以对所述待识别语音进行降噪预处理。
4.根据权利要求3所述的方法,其特征在于,通过端点检测,将所述待识别语音划分成若干个语音段,包括:
若存在相应帧的所述过零率高于预设的过零率门限阈值、所述短时能量高于预设的短时能量门限阈值,则将该相应帧作为起始帧;
若在所述起始帧后,存在若干连续的语音帧的所述过零率都不高于所述过零率门限阈值、所述短时能量不高于预设的短时能量门限阈值,则将所述若干连续的语音帧的最后一帧作为结束帧;
将所述起始帧与所述结束帧之间的部分作为一个语音段。
5.根据权利要求2所述的方法,其特征在于,所述谱特征包括:梅尔频率倒谱系数mfcc;所述韵律学特征包括:语速、振幅特征、基因周期、共振峰中的至少一种。
6.根据权利要求1所述的方法,其特征在于,对所述文本进行情感识别,得到文本识别结果,包括:
将所述文本进行分词,得到若干个词汇;
提取所述若干个词汇的文本特征,并通过预先训练的文本识别模型,对所述文本特征进行情感识别,得到第一文本识别结果;
通过预设的情感词典,对所述若干个词汇进行情感识别,得到第二文本识别结果。
7.根据权利要求6所述的方法,其特征在于,提取所述若干个词汇的文本特征,包括:
基于文档频率df、互信息mi、卡方统计chi中的至少一种,提取所述若干个词汇的文本特征。
8.根据权利要求6所述的方法,其特征在于,通过预设的情感词典,对所述若干个词汇进行情感识别,得到第二文本识别结果,包括:
通过预设的情感词典,以及预设的不同情感所对应的权重,对所述若干个词汇进行情感识别,得到第二文本识别结果。
9.一种基于神经网络的情感识别设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-8中任意一项权利要求所述的方法。
10.一种基于神经网络的情感识别的非易失性计算机存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令设置为:如权利要求1-8中任意一项权利要求所述的方法。
技术总结本申请公开了一种基于神经网络的情感识别方法、设备及介质,方法包括:确定用户对应的待识别语音;通过预先训练的声音识别模型,对待识别语音进行情感识别,得到声音识别结果;将待识别语音转换为文本,并对文本进行情感识别,得到文本识别结果;将声音识别结果与文本识别结果进行融合,得到待识别语音对应的最终结果。在通过用户的语音识别情感时,不只采用声音或者文本,而是通过双模态判断用户的情感,识别效果远好于单模态的识别效果,保证了双模态融合情感识别的有效性。双模态信息融合相对比单模态信息,更广泛的包含了语音当中的声音变化信息和语义信息,从而在模型训练和决策判断中可以更有利于交叉判断,得到最优的情感识别结果。
技术研发人员:周文铠
受保护的技术使用者:浪潮通用软件有限公司
技术研发日:2020.11.09
技术公布日:2021.03.12