本申请实施例涉及声音识别技术领域,具体而言,涉及一种语音端点检测方法和装置。
背景技术:
端点检测,也叫语音活动检测(voiceactivitydetection,vad)它的目的是对语音和非语音的区域进行区分。通俗来理解,端点检测就是为了从带有噪声的语音中准确的定位出语音的开始点和结束点(开始点和结束点也称为端点),去掉静音的部分,去掉噪声的部分,找到一段语音真正有效的内容。
端点检测时语音识别的重要环节之一,是其不可或缺的一部分,并且其好坏会直接影响到语音识别的准确率。一个表现好且优秀的端点检测技术,既不能检测过少,也不能检测过多。检测的少了,会使得语音信息丢失,造成漏识别;检测的多了,会使得语音首位包含噪声,在可能造成误识别或多识别的同时也会增加语音识别的实时率。由此可见端点检测对于语音识别的整体流程是至关重要的。
现有的语音的端点检测一般是提取语音的特征对提取得到的特征进行判断进而判断其中的语音或者非语音,或者建立声学模型对声音进行二分类或者进行解码得到的全局信息来判断其中的语音或者非语音。但是这两种方法都只能对单一场景的环境噪音和语音进行判断,无法将其应用于其他场景,当变换场景时就需要重新对所使用模型进行训练,以适应场景中变化的噪音。
技术实现要素:
基于上述问题,本申请实施例提供一种语音端点检测方法和装置,旨在解决现有语音端点检测方法检测结果不准确和普适性差的缺点。
本申请实施例第一方面提供一种语音端点检测方法,所述方法包括:
对待检测语音进行语音特征提取,得到多个特征帧;
计算预先训练的语音模型与每一个所述特征帧的语音似然值以及计算预先训练的非语音模型与每一个所述特征帧的非语音似然值;
基于所述语音似然值和所述非语音似然值计算得到每一个所述特征帧的信噪似然比;
基于所述信噪似然比判断每一个所述特征帧对应在所述待检测语音中的帧为语音帧或非语音帧;
基于所有所述语音帧对所述语音模型进行自适应更新,以及基于所有所述非语音帧对所述非语音模型进行自适应更新;
使用更新后语音模型和更新后非语音模型分别计算每一个所述特征帧的最终语音似然值和最终非语音似然值;
基于所述最终语音似然值和所述最终非语音似然值计算得到每一个所述特征帧的最终信噪似然比,基于所述最终信噪似然比检测所述待检测语音的端点。
可选地,基于所有所述语音帧对所述语音模型进行自适应更新,以及基于所有所述非语音帧对所述非语音模型进行自适应更新,包括:
满足条件时,停止对所述语音模型和非语音模型的自适应更新;
所述条件包括以下至少一者:
直到所述特征帧的信噪似然比的结果稳定;
直到所述语音模型或所述非语音模型的更新误差小于预设阈值。
可选的,计算预先训练的语音模型与每一个所述特征帧的语音似然值以及计算预先训练的非语音模型与每一个所述特征帧的非语音似然值是通过以下任一算法计算的,所述算法包括:
最大后验概率算法、最大似然估计算法、最大期望算法。
可选的,所述方法还包括:
获取训练数据,所述训练数据包括非语音数据和语音数据;
使用所述非语音数据训练第一预设高斯混合模型得到所述非语音模型;
使用所述语音数据训练第二预设高斯混合模型得到所述语音模型;
基于所有所述语音帧对所述语音模型进行自适应更新,以及基于所有所述非语音帧对所述非语音模型进行自适应更新,其中,自适应更新的算法包括以下任意一者:
最大后验概率map、最大似然线性回归mllr。
可选的,对待检测语音进行语音特征提取,包括:
对所述待检测语音进行预加重,提升所述待检测语音的高频部分,得到预加重后待检测语音;
将所述预加重后待检测语音划分为多个初始语音帧;
将每一个所述初始语音帧乘以汉明窗,得到中间处理后信号;
对所述中间处理后信号进行快速傅里叶变换,得到所述语音帧的频谱以及能量分布;
通过一组梅尔mel尺度的三角形滤波器组对所述能量谱进行滤波,以对所述语音帧的频谱进行平滑化;
计算每个三角形滤波器组输出的对数能量,所述对数能量经离散余弦变换dct得到梅尔倒谱mfcc系数,将所述梅尔倒谱mfcc系数作为所述语音特征。
可选的,所述特征帧、所述语音帧或所述非语音帧中的帧的长度为20ms。
可选的,所述多个初始语音帧中,任意相邻的两个所述初始语音帧之间无交叠。
本申请实施例第二方面提供一种语音端点检测装置,所述装置包括:
特征提取模块,用于对待检测语音进行语音特征提取,得到多个特征帧;
语音似然值计算模块,用于计算预先训练的语音模型与每一个所述特征帧的语音似然值;
非语音似然值计算模块,用于计算预先训练的非语音模型与每一个所述特征帧的非语音似然值;
信噪似然比计算模块,用于基于所述语音似然值和所述非语音似然值计算得到每一个所述特征帧的信噪似然比;
语音帧判断模块,用于基于所述信噪似然比判断每一个所述特征帧对应在所述待检测语音中的帧为语音帧或非语音帧;
自适应更新模块,用于基于所有所述语音帧对所述语音模型进行自适应更新,以及基于所有所述非语音帧对所述非语音模型进行自适应更新;
端点检测模块,用于基于所述最终语音似然值和所述最终非语音似然值计算得到每一个所述特征帧的最终信噪似然比,基于所述最终信噪似然比检测所述待检测语音的端点;
其中,使用更新后语音模型和更新后非语音模型分别计算每一个所述特征帧的最终语音似然值和最终非语音似然值。
可选地,所述自适应更新模块,包括:
条件匹配子模块,用于满足条件时,停止对所述语音模型和非语音模型的自适应更新;
所述条件包括以下至少一者:
直到所述特征帧的信噪似然比的结果稳定;
直到所述语音模型或所述非语音模型的更新误差小于预设阈值。
可选地,在所述语音似然值计算模块和所述非语音似然值计算模块中,计算预先训练的语音模型与每一个所述特征帧的语音似然值以及计算预先训练的非语音模型与每一个所述特征帧的非语音似然值是通过以下任一算法计算的,所述算法包括:
最大后验概率算法、最大似然估计算法、最大期望算法。
采用本申请提供的语音端点检测方法和装置,首先,对待检测语音进行语音特征提取,然后,使用语音模型和非语音模型逐帧进行判断得到语音帧和非语音帧,基于所述语音帧和所述非语音帧分别对所述语音模型和所述非语音模型进行自适应更新,利用更新后语音模型和更新后非语音模型检测待检测语音的端点。上述训练过程使得初始语音模型和初始非语音模型能够使用较少的具体的场景下的数据量调整后,就能够精准检测具体场景下得语音和非语音,便于快速训练收敛和解码计算。同时针对具体场景进行得自适应训练,让语音模型和非语音模型能够根据具体的场景来变化,使得该语音端点检测方法和装置能够应用在较多的噪音场景,在多种噪音场景中能够检测出目标语音,并且还可以在应用到的所有场景中实现语音端点检测的准确率的提升。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提出的语音端点检测方法的流程图;
图2是本申请一实施例提出的自适应更新的流程图;
图3是本申请一实施例提出的待检测语音进行语音特征提取的流程图;
图4是本申请一实施例提出的语音端点检测装置的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
首先,对现有技术中语音端点检测的方法进行说明。
现有语音端点检测vad算法可以粗略的分为三类:基于阈值的vad、作为分类器的vad、模型vad。基于阈值的vad:通过提取时域(短时能量、短期过零率等)或频域(mfcc、谱熵等)特征,通过合理的设置门限,达到区分语音和非语音的目的,这是传统的vad方法。作为分类器的vad:可以将语音检测视作语音和非语音的两分类问题,进而用机器学习的方法训练分类器,达到检测语音的目的。模型vad:可以利用一个完整的声学模型(建模单元的粒度可以很粗),在解码的基础,通过全局信息,判别语音段和非语音段。
但是,噪声的种类是十分多样的,同时在很多情况下环境语音也算是噪声的一种(这种情况是因为我们需要提取主要对话片段,比如两个人在菜市场对话,非活动部分可能充斥着吆喝声,如果不把其他人的吆喝声剪切掉的话会对语音检测造成影响)。一个固定的vad分类方法很难照顾到所有的情况,而对于每种环境都专门做一种vad方法很显然是冗余复杂的。这时候传统的vad方法的局限之处就显现了出来。
参考图1,图1是本申请一实施例提出的语音端点检测方法的流程图。如图1所示,该方法包括以下步骤:
步骤s101、对待检测语音进行语音特征提取,得到多个特征帧。
提取待检测语音中的语音特征用于之后的判断,语音特征可以是幂归一化倒谱系数(power-normalizedcepstralcoefficients,pncc)特征,也可以是梅尔频率倒谱系数(mel-frequencycepstralcoefficients,mfcc)特征、滤波器组(filterbank,fblank)特征等特征。特征提取的步幅尺度为帧,逐帧进行特征提取即得到多个长度为帧的特征。
步骤s102、计算预先训练的语音模型与每一个所述特征帧的语音似然值以及计算预先训练的非语音模型与每一个所述特征帧的非语音似然值。
在进行端点检测前,先使用背景数据训练非语音模型,使用语音数据训练语音模型;语音数据是指待检测的目标人的语音数据,而背景数据则是不包含待检测的目标人的语音的其他语音数据,如其他人的说话声、汽车喇叭声、鸟叫声等。使用背景数据和语音数据对初始模型进行训练就可以得到语音模型和非语音模型,初始模型是各种形式的概率模型如欧拉模型、拉普拉斯模型、高斯模型,基于背景数据和语音数据,不同的模型选择相应的训练方法就可以得到可用于端点检测的语音模型和非语音模型,这个时候训练得到的语音模型和非语音模型分别表示了训练的语音数据和背景数据之间的特征分布。
逐个计算特征帧与语音模型之间的语音似然值,语音似然值越大代表该特征帧的分布越接近语音模型的分布。
逐个计算特征帧与非语音模型之间的非语音似然值,非语音似然值越大代表该特征帧的分布越接近非语音模型的分布。
步骤s103、基于所述语音似然值和所述非语音似然值计算得到每一个所述特征帧的信噪似然比。
基于上面步骤s102计算得到语音似然值和非语音似然值可以计算得到每一个特征帧的信噪似然比,信噪似然比表示该帧的信号可能性与噪声可能性之间的比率,该值表明了该帧更倾向于信号(即语音)还是更倾向于噪声(即非语音)。在本申请的一个实施例中,本申请的一个实施例中,直接用特征帧的语音似然值除以特征帧的非语音似然值得到特征帧的信噪似然比。
步骤s104、基于所述信噪似然比判断每一个所述特征帧对应在所述待检测语音中的帧为语音帧或非语音帧。
基于上面步骤s103得到的每一个特征帧的信噪似然比,当特征帧的信噪似然比大于预设阈值时,则可判断产生该特征帧对应的原待检测语音中的帧为语音帧,当特征帧的信噪似然比小于预设阈值时,则可判断产生该特征帧对应的的原待检测语音中的帧为非语音帧。
在本申请的一个实施例中,所述阈值为1,特征帧的信噪似然比大于1的所对应的待检测语音中的帧为语音帧,反之则为非语音帧。
步骤s105、基于所有所述语音帧对所述语音模型进行自适应更新,以及基于所有所述非语音帧对所述非语音模型进行自适应更新。
如图2所述,自适应更新的步骤为:s1501、将全部的语音帧拼接起来得到语音片段,将全部非语音帧拼接起来得到非语音片段,此时由于每个片段只由语音或非语音合成所以可认为该片段是单一的,在本申请的一个实施例中,并不是将全部的语音帧拼接成一个语音片段,而是将语音帧拼接为数个长度为3-5s的语音片段,相似的,将全部的非语音帧拼接成数个长度为3-5s的非语音片段。
使用拼接得到的语音片段对语音模型进行自适应更新,使用拼接得到非语音片段对非语音模型进行自适应更新。
s10502、使用拼接得到的语音片段对语音模型进行第一次更新,使用拼接得到非语音片段对非语音模型进行第一次更新。
应当注意,由于本申请的语音模型和非语音模型可以选择不同的初始模型训练得到,那么对于选择不同初始模型的语音模型和非语音模型所对应的具体如何实现更新的算法和过程也会不同。
s10503、使用第一次更新后的语音模型计算每一个所述特征帧的语音似然值,使用第一次更新后的非语音模型计算每一个所述特征帧的语音的非语音似然值。
s10504、判断是否满足条件,否则继续执行更新步骤;是则退出更新。
在本申请的一个实施例中,继续执行的更新步骤包括:
s10505、基于语音似然值和非语音似然值计算得到每一个特征帧的语音的新一轮信噪似然比。
s10506、基于新一轮信噪似然比判断所述每一个特征帧在待检测语音中的帧为语音帧或非语音帧,判断完成后跳转至步骤s1501。
在步骤s105中的上述语音模型和非语音模型进行自适应更新后。
步骤s106、使用更新后语音模型和更新后非语音模型分别计算每一个所述特征帧的最终语音似然值和最终非语音似然值。
使用自适应更新完后的语音模型来最后一次计算每一个特征帧的语音似然值,使用自适应更新完后的非语音模型来最后一次计算每一个特征帧的非语音似然值。
步骤s107、基于所述最终语音似然值和所述最终非语音似然值计算得到每一个所述特征帧的最终信噪似然比,基于所述最终信噪似然比检测所述待检测语音的端点。
基于上面步骤s106计算得到的最终语音似然值和最终非语音似然值可以计算得到每一个特征帧的信噪似然比,基于信噪似然比来最后一次判断每一个特征帧对应的在待检测语音中帧为语音帧或非语音帧。
基于最后一次判断得到的语音帧和非语音帧分布就可以检测到待检测语音的端点。
上述语音端点检测方法,对待检测语音进行语音特征提取,得到多个特征帧;计算预先训练的语音模型与每一个所述特征帧的语音似然值以及计算预先训练的非语音模型与每一个所述特征帧的非语音似然值;基于所述语音似然值和所述非语音似然值计算得到每一个所述特征帧的信噪似然比;基于所述信噪似然比判断每一个所述特征帧对应在所述待检测语音中的帧为语音帧或非语音帧;基于所有所述语音帧对所述语音模型进行自适应更新,以及基于所有所述非语音帧对所述非语音模型进行自适应更新;使用更新后语音模型和更新后非语音模型分别计算每一个所述特征帧的最终语音似然值和最终非语音似然值;基于所述最终语音似然值和所述最终非语音似然值计算得到每一个所述特征帧的最终信噪似然比,基于所述最终信噪似然比检测所述待检测语音的端点。通过自适应的训练语音和非语音两类分类模型,使得该语音端点检测方法和装置能够适应过多的噪音场景,并且还可以实现语音端点检测的准确率的提升。
在本申请的一个可选实施例中,对于步骤s105进行的自适应更新,基于所有所述语音帧对所述语音模型进行自适应更新,以及基于所有所述非语音帧对所述非语音模型进行自适应更新,包括:
满足条件时,停止对所述语音模型和非语音模型的自适应更新;
所述条件包括以下至少一者:
直到所述特征帧的信噪似然比的结果稳定;
直到所述语音模型或所述非语音模型的更新误差小于预设阈值。
在本申请的一个可选实施例中,步骤s102中,计算预先训练的语音模型与每一个所述特征帧的语音似然值以及计算预先训练的非语音模型与每一个所述特征帧的非语音似然值是通过以下任一算法计算的,所述算法包括:
最大后验概率算法、最大似然估计算法、最大期望算法。
在本申请的一个可选实施例中,所述方法还包括:
获取训练数据,所述训练数据包括非语音数据和语音数据;
使用所述非语音数据训练第一预设高斯混合模型得到所述非语音模型;
使用所述语音数据训练第二预设高斯混合模型得到所述语音模型;
基于所有所述语音帧对所述语音模型进行自适应更新,以及基于所有所述非语音帧对所述非语音模型进行自适应更新,其中,自适应更新的算法包括以下任意一者:
最大后验概率map、最大似然线性回归mllr。
在基于高斯混合模型的非语音模型和基于高斯混合模型的语音模型用于自适应更新的算法可以选择最大后验概率map、最大似然线性回归mllr等。
在本申请的一个可选实施例中,如图3所示步骤s101中对待检测语音进行语音特征提取,包括:
在本申请的一个实施例中,将提取待检测语音的mfcc特征,特征提取步骤包括:
步骤s301、对所述待检测语音进行预加重,提升所述待检测语音的高频部分,得到预加重后待检测语音。通过对待检测语音进行预加重来提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。
步骤s302、将所述预加重后待检测语音划分为多个初始语音帧。将待检测语音按照一定长度进行划分,划分得到多帧语音,此处语音并不具体指人的语音,是泛指记录在带检测语音中的任何声音,即,此处的语音帧泛指声音的帧。语音信号是一个非稳态的、时变的信号。但在短时间范围内可以认为语音信号是稳态的、暂时不变的。因此在进行语音信号处理时,为减少语音信号整体的非稳态、时变的影响,从而对语音信号进行分段处理,其中每一段称为一帧。进一步的,所述特征帧、所述语音帧或所述非语音帧中的帧的长度为20ms。以20ms为尺度将待检测语音划分为多个帧,后续的特征帧、语音帧、、非语音帧的帧长度都不会改变都与前面所划分的帧的长度相同。
进一步的,在所述多个初始语音帧中,任意相邻的两个所述初始语音帧之间无交叠。因为语音和噪声通常是前后帧不相关的,所以不需要做交叠,从而减少计算量。相邻两帧的起始位置的时间差称为帧移,一般在使用中帧移取值为10ms。
以帧为单位进行观测,根据帧长和采样频率不同,一个帧内有数目不同的采样点。在本申请的一个实施例中,对于一个16000hz采样、帧的长度为20ms的音频来说,一个帧长内有16000×0.020=320个点,因此帧也被称为n个采样点集合成的一个观测单位,帧移有16000×0.010=160个点。
步骤s303、将每一个所述初始语音帧乘以汉明窗,得到中间处理后信号。将每一帧乘以汉明窗,以增加帧左端和右端的连续性。
步骤s304、对所述中间处理后信号进行快速傅里叶变换,得到所述语音帧的频谱以及能量分布。
对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱及能量分布。
步骤s305、通过一组梅尔mel尺度的三角形滤波器组对所述能量谱进行滤波,以对所述语音帧的频谱进行平滑化。mel滤波器组,将能量谱通过一组mel尺度的三角形滤波器组,对频谱进行平滑化,并消除谐波的作用,突显原先语音的共振峰。
步骤s306、计算每个三角形滤波器组输出的对数能量,所述对数能量经离散余弦变换dct得到梅尔倒谱mfcc系数,将所述梅尔倒谱mfcc系数作为所述语音特征。
基于同一发明构思,本申请一实施例提供一种语音端点检测装置。参考图4,图4是本申请一实施例提出的语音端点检测装置的示意图。如图4所示,该装置包括:
特征提取模块401,用于对待检测语音进行语音特征提取,得到多个特征帧;
语音似然值计算模块402,用于计算预先训练的语音模型与每一个所述特征帧的语音似然值;
非语音似然值计算模块403,用于计算预先训练的非语音模型与每一个所述特征帧的非语音似然值;
信噪似然比计算模块404,用于基于所述语音似然值和所述非语音似然值计算得到每一个所述特征帧的信噪似然比;
语音帧判断模块405,用于基于所述信噪似然比判断每一个所述特征帧对应在所述待检测语音中的帧为语音帧或非语音帧;
自适应更新模块406,用于基于所有所述语音帧对所述语音模型进行自适应更新,以及基于所有所述非语音帧对所述非语音模型进行自适应更新;
端点检测模块407,用于基于所述最终语音似然值和所述最终非语音似然值计算得到每一个所述特征帧的最终信噪似然比,基于所述最终信噪似然比检测所述待检测语音的端点;
其中,使用更新后语音模型和更新后非语音模型分别计算每一个所述特征帧的最终语音似然值和最终非语音似然值。
在本申请的一个可选实施例中,所述自适应更新模块,包括:
条件匹配子模块,用于满足条件时,停止对所述语音模型和非语音模型的自适应更新;
所述条件包括以下至少一者:
直到所述特征帧的信噪似然比的结果稳定;
直到所述语音模型或所述非语音模型的更新误差小于预设阈值。
在本申请的一个可选实施例中,在所述语音似然值计算模块和所述非语音似然值计算模块中,计算预先训练的语音模型与每一个所述特征帧的语音似然值以及计算预先训练的非语音模型与每一个所述特征帧的非语音似然值是通过以下任一算法计算的,所述算法包括:
最大后验概率算法、最大似然估计算法、最大期望算法。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种语音端点检测方法和装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
1.一种语音端点检测方法,其特征在于,所述方法包括:
对待检测语音进行语音特征提取,得到多个特征帧;
计算预先训练的语音模型与每一个所述特征帧的语音似然值以及计算预先训练的非语音模型与每一个所述特征帧的非语音似然值;
基于所述语音似然值和所述非语音似然值计算得到每一个所述特征帧的信噪似然比;
基于所述信噪似然比判断每一个所述特征帧对应在所述待检测语音中的帧为语音帧或非语音帧;
基于所有所述语音帧对所述语音模型进行自适应更新,以及基于所有所述非语音帧对所述非语音模型进行自适应更新;
使用更新后语音模型和更新后非语音模型分别计算每一个所述特征帧的最终语音似然值和最终非语音似然值;
基于所述最终语音似然值和所述最终非语音似然值计算得到每一个所述特征帧的最终信噪似然比,基于所述最终信噪似然比检测所述待检测语音的端点。
2.根据权利要求1所述方法,其特征在于,基于所有所述语音帧对所述语音模型进行自适应更新,以及基于所有所述非语音帧对所述非语音模型进行自适应更新,包括:
满足条件时,停止对所述语音模型和非语音模型的自适应更新;
所述条件包括以下至少一者:
直到所述特征帧的信噪似然比的结果稳定;
直到所述语音模型或所述非语音模型的更新误差小于预设阈值。
3.根据权利要求1所述方法,其特征在于,计算预先训练的语音模型与每一个所述特征帧的语音似然值以及计算预先训练的非语音模型与每一个所述特征帧的非语音似然值是通过以下任一算法计算的,所述算法包括:
最大后验概率算法、最大似然估计算法、最大期望算法。
4.根据权利要求1所述方法,其特征在于,所述方法还包括:
获取训练数据,所述训练数据包括非语音数据和语音数据;
使用所述非语音数据训练第一预设高斯混合模型得到所述非语音模型;
使用所述语音数据训练第二预设高斯混合模型得到所述语音模型;
基于所有所述语音帧对所述语音模型进行自适应更新,以及基于所有所述非语音帧对所述非语音模型进行自适应更新,其中,自适应更新的算法包括以下任意一者:
最大后验概率map、最大似然线性回归mllr。
5.根据权利要求1所述方法,其特征在于,对待检测语音进行语音特征提取,包括:
对所述待检测语音进行预加重,提升所述待检测语音的高频部分,得到预加重后待检测语音;
将所述预加重后待检测语音划分为多个初始语音帧;
将每一个所述初始语音帧乘以汉明窗,得到中间处理后信号;
对所述中间处理后信号进行快速傅里叶变换,得到所述语音帧的频谱以及能量分布;
通过一组梅尔mel尺度的三角形滤波器组对所述能量谱进行滤波,以对所述语音帧的频谱进行平滑化;
计算每个三角形滤波器组输出的对数能量,所述对数能量经离散余弦变换dct得到梅尔倒谱mfcc系数,将所述梅尔倒谱mfcc系数作为所述语音特征。
6.根据权利要求1所述方法,其特征在于,所述特征帧、所述语音帧或所述非语音帧中的帧的长度为20ms。
7.根据权利要求5所述方法,其特征在于,在所述多个初始语音帧中,任意相邻的两个所述初始语音帧之间无交叠。
8.一种语音端点检测装置,其特征在于,所述装置包括:
特征提取模块,用于对待检测语音进行语音特征提取,得到多个特征帧;
语音似然值计算模块,用于计算预先训练的语音模型与每一个所述特征帧的语音似然值;
非语音似然值计算模块,用于计算预先训练的非语音模型与每一个所述特征帧的非语音似然值;
信噪似然比计算模块,用于基于所述语音似然值和所述非语音似然值计算得到每一个所述特征帧的信噪似然比;
语音帧判断模块,用于基于所述信噪似然比判断每一个所述特征帧对应在所述待检测语音中的帧为语音帧或非语音帧;
自适应更新模块,用于基于所有所述语音帧对所述语音模型进行自适应更新,以及基于所有所述非语音帧对所述非语音模型进行自适应更新;
端点检测模块,用于基于所述最终语音似然值和所述最终非语音似然值计算得到每一个所述特征帧的最终信噪似然比,基于所述最终信噪似然比检测所述待检测语音的端点;
其中,使用更新后语音模型和更新后非语音模型分别计算每一个所述特征帧的最终语音似然值和最终非语音似然值。
9.根据权利要求8所述装置,其特征在于,所述自适应更新模块,包括:
条件匹配子模块,用于满足条件时,停止对所述语音模型和非语音模型的自适应更新;
所述条件包括以下至少一者:
直到所述特征帧的信噪似然比的结果稳定;
直到所述语音模型或所述非语音模型的更新误差小于预设阈值。
10.根据权利要求8所述装置,其特征在于,在所述语音似然值计算模块和所述非语音似然值计算模块中,计算预先训练的语音模型与每一个所述特征帧的语音似然值以及计算预先训练的非语音模型与每一个所述特征帧的非语音似然值是通过以下任一算法计算的,所述算法包括:
最大后验概率算法、最大似然估计算法、最大期望算法。
技术总结