一种多语言连续语音流语音内容识别方法及系统与流程

    专利2022-07-08  101


    本发明涉及语音识别领域,具体而言,尤其涉及一种多语言连续语音流语音内容识别方法及系统。



    背景技术:

    随着隐马尔科夫技术以及深度神经网络等技术在自动语音识别领域的应用,自动语音识别技术得到了前所未有的发展。对于使用人数广泛的汉语以及英语等语言,相应的单语言语音识别系统的性能甚至可以达到人类的识别水平。随着世界各国间的经济贸易往来,世界各国间的经济文化加速交融,构建混合多语言语音识别系统已经成为应对多语言语音流内容检测的必要条件。

    传统的多语言语音识别系统是基于语种识别前端串接多个并行的单语言语音识别系统后端。一般来说语种识别前端针对整条语音的语音特征对语音的语言种类进行语句级别的分类判别。在多语言连续语音流的多语言识别任务中,这种基于语句级别的语种分类方法无法应对语音流中多语言并存的语种分类任务。



    技术实现要素:

    本发明的目的在于解决基于语句级别的语种分类方法无法应对语音流中多语言并存的语种分类任务的问题。

    为实现上述目的,本发明提出一种多语言连续语音流语音内容识别方法,所述方法包括:

    将待识别的多语言连续语音流输入帧级别语种分类模型,输出段级别语种特征向量;

    将段级别语种特征向量输入段级别语种分类模型,输出段级别语种状态的后验概率分布;

    根据段级别语种状态的后验概率分布,基于维特比检索算法,计算多语言连续语音流的最佳的语种状态路径;

    根据所述最佳语种状态路径对待识别的多语言连续语音流进行切分获得语种状态区间;

    将的语种状态区间送入多语言声学模型以及相应的多语言解码器中进行解码,得到所述多语言连续语音流的内容识别结果。

    作为所述方法的一种改进,所述方法还包括多语言声学模型的训练步骤,具体步骤为:

    步骤1-1)构建基于多任务学习框架的多语言声学模型,所述模型包括若干个共享隐含层和语言特定输出层;

    步骤1-2)基于多语言语音数据的声学状态标签提取训练集的多语言连续语音流的频谱特征,将所述频谱特征输入共享隐含层进行非线性变换;输出若干单语言的数据至若干语言特定输出层;

    步骤1-3)将单语言的数据在与输入的频谱特征对应的语言特定输出层计算误差损失函数值,则所述误差损失函数为:

    其中floss,i为第i个语言特定输出层的误差损失值,pmodel,i(xl)为第l个语言的频谱特征xl对应的在第l个语言特定输出层的输出,qlabel,l为频谱特征xl对应的声学状态标签;其它的输出层的误差损失函数值为零;

    步骤1-4)将所述误差损失值floss,i反向回传;每个语言特定输出层参数根据对应单语言的数据进行参数更新,计算语言特定输出层参数梯度δφi:

    其中φi为第i个语言特定输出层的参数;

    共享隐含层的参数由若干个语言特定输出层的回传的误差损失值floss,i计算:计算共享隐含层参数的梯度δφ:

    其中φ为共享隐含层的参数,l为多语言声学模型的特定语言输出层对应的语言种类数;

    步骤1-5)当floss,i>给定阈值,则转入步骤1-2),

    当floss,i<给定阈值,获得训练好的多语言声学模型。

    作为所述方法的一种改进,所述方法还包括帧级别语种分类模型的训练步骤,具体步骤为:

    步骤2-1)构建帧级别语种分类模型,所述帧级别语种分类模型为深度神经网络;

    步骤2-2)提取训练集的多语言连续语音流的帧级别频谱特征,将所述帧级别频谱特征输入帧级别语种分类模型,对当前隐含层的输出向量进行长时统计,计算当前隐含层输出向量的均值向量、方差向量和段级别语种特征向量;

    所述均值向量为:

    所述方差向量为:

    所述段级别语种特征向量:

    hsegment=append(μ,σ)(6)

    其中hi为当前隐含层在i时刻的输出向量,t为长时统计周期,μ为长时统计的均值向量,σ为长时统计的方差向量,hsegment为段级别语种特征向量,所述段级别语种特征向量是将均值向量和方差向量拼接在一起,其维度为hi维度的2倍;其中append(μ,σ)表示将μ和σ进行拼接构成高维向量;

    步骤2-3)将均值向量和方差向量作为下一隐含层的输入,根据帧级别语种标签通过误差计算和反向梯度回传过程训练,使每一个隐含层输出段级别语种特征向量,得到训练好的帧级别语种分类模型。

    作为所述方法的一种改进,所述方法还包括段级别语种分类模型的训练步骤,具体步骤为:

    步骤s2-1)构建段级别语种分类模型;

    步骤s2-2)提取训练集的多语言连续语音流的帧级别频谱特征,将所述帧级别频谱特征输入训练好的帧级别语种分类模型的隐含层,从训练好的帧级别语种分类模型的隐含层中提取段级别语种特征向量;

    步骤s2-3)为每一个段级别语种特征向量设置段级别语种标签,将段级别语种特征向量输入段级别语种分类模型,训练输出所述段级别语种标签对应的语种状态的后验概率分布,获得训练好的段级别语种分类模型。

    作为所述方法的一种改进,所述将待识别的多语言连续语音流输入帧级别语种分类模型,输出段级别语种特征向量;将段级别语种特征向量输入段级别语种分类模型输出语种状态的后验概率分布;具体包括:

    对待识别的多语言连续语音流提取待识别帧级别频谱特征;

    将待识别帧级别频谱特征根据特定的步长和窗长输入训练好的帧级别语种分类模型,输出段级别语种特征向量hsegment;

    将所述段级别语种特征向量hsegment输入训练好的段级别语种分类模型,输出段级别语种特征向量对应的语种状态的后验概率分布。

    作为所述方法的一种改进,根据语种状态的后验概率分布,基于维特比检索算法,计算多语言连续语音流的最佳的语种状态路径,具体包括:

    步骤3-1)根据语种状态的后验概率分布,设置维特比检索的语种状态的自转概率ploop和跳转概率pskip,得到语种状态的转移矩阵a为:

    其中,ploop表示语种状态的自转概率,pskip表示语种状态的跳转概率,各个语言的自转概率和跳转概率值相同,根据语种类别设置语种状态标号,所述语种状态标号为不相同的语种类别的标签,采用阿拉伯数字1,2,...,n为语种状态标号;转移矩阵a的各元素与语种状态标号的对应关系为:

    步骤3-2)对预测的语种状态序列进行维特比检索,计算基于维特比检索的目标函数:

    其中ptrans(st 1|st)表示由第t时刻多语言连续语音流的语种状态st到第t 1时刻语种状态st 1的转移概率:

    其中,语种状态st和语种状态st 1对应的语种分类标号在标注的语种分类标号范围内,t为段级别语种特征hsegment对应的统计周期;

    pemit(st 1|hsegment)表示对段级别语种特征hsegment在语种状态st 1上预测的后验概率:

    pemit(st 1|hsegment)=dnn-lid段级别(hsegment)(11)

    其中,dnn-lid为基于深度神经网络dnn的段级别语种分类器;

    步骤3-3)以目标函数值最大的语种状态序列为最佳语种状态序列,根据所述最佳语种状态序列进行语种状态回溯获得最佳的语种状态路径。

    本发明还提出一种多语言连续语音流语音内容识别系统,所述系统包括:

    段级别语种特征提取模块,用于将待识别的多语言连续语音流输入帧级别语种分类模型,输出段级别语种特征向量;

    语种状态的后验概率计算模块,将段级别语种特征向量输入段级别语种分类模型,输出段级别语种状态的后验概率分布;

    语种状态路径获取模块,用于根据段级别语种状态的后验概率分布,基于维特比检索算法,计算多语言语音流的最佳的语种状态路径;

    语种状态区间切分模块,用于根据所述最佳语种状态路径对待识别的多语言连续语音流进行切分获得语种状态区间;和

    多语言语音流的内容识别模块,用于将切分后的语种状态区间送入多语言声学模型以及相应的多语言解码器中进行解码,得到所述多语言语音流的内容识别结果。

    本发明还提出一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的方法。

    本发明还提出一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述任一项所述的方法。

    与现有技术相比,本发明的优势在于:

    1、本发明的多语言连续语音流语音内容识别方法及系统,通过将语种分类模型与维特比检索算法相融合,能够解决连续语音流中多语言内容并存的语言种类动态检测问题。

    2、本发明的多语言连续语音流语音内容识别方法,可以对连续语音流中的多语言内容进行动态的语种切换点判别以及相应的多语言内容识别。

    附图说明

    图1为本发明的多语言连续语音流语音内容识别方法的示意图。

    具体实施方式

    下面结合附图和具体实施例对本发明进行详细的说明。

    本发明提出了本发明的多语言连续语音流语音内容识别方法及系统,所述方法包括:

    步骤1)构建基于多任务学习的多语言声学模型;该声学模型将多语言的声学建模任务在一个基于多任务学习的神经网络分类框架下进行统一构建,同时利用多个语言的声学特征对多语言声学模型进行联合优化;具体包括:

    步骤1-1)构建基于多任务学习的神经网络分类框架的多语言声学模型,该模型由多个共享隐含层和语言特定输出层构成;其中共享隐含层的模型参数由多语言数据共同优化;语言特定输出层由各个单语言的数据进行优化;

    步骤1-2)在模型的前向计算过程中,多语言声学模型的共享隐含层以及语言特定输出层对输入的多语言频谱特征向量进行非线性变换,所有语言特定输出层均有信息输出;

    步骤1-3)在模型更新的误差损失函数计算过程中,根据频谱特征对应的声学状态标签,只在与频谱特征对应的语言特定输出层计算误差损失函数值,而其它的与频谱特征语言不对应的语言特定输出层计算的误差损失函数值为零;相应的损失函数计算公式如下:

    其中floss,i为第i个语言特定输出层的误差损失函数值,pmodel,i(xl)为第l个语言的频谱特征xl对应的在第l个语言特定输出层的声学模型输出,qlabel,l为频谱特征xl对应的声学状态标签;

    步骤1-4)在模型分类误差反向回传过程中,将所述误差损失值floss,i反向回传,每个语言特定输出层参数根据对应单语言的数据进行模型参数训练;共享隐含层的参数由若干个语言特定输出层的回传的误差损失值floss,i计算;

    语言特定输出层参数梯度计算公式为:

    其中φi为第i个语言特定输出层的参数。

    共享隐含层参数的梯度计算公式为:

    其中φ为共享隐含层的参数,l为多语言声学模型的特定语言输出层对应的语言种类数。

    步骤1-5)反复执行步骤1-2)-步骤1-4),直至模型参数收敛。

    步骤2)基于深度神经网络模型构建融合长时统计特征的帧级别语种分类模型;基于帧级别语种分类模型提取代表语言种类特征的语种特征向量;所述帧级别语种分类模型融合长时统计组件,在帧级别语种分类模型前向计算过程中,长时统计组件对前一隐含层的输出向量进行段级统计,计算前一隐含层输出向量的均值和方差统计量,并将均值和方差统计量的向量作为下一隐含层的输入,最后根据帧级别语种标签进行语种分类模型的误差计算和反向梯度回传过程进行模型更新;

    训练帧级别语种分类模型具体步骤包括:

    步骤2-1)构建帧级别语种分类模型,所述帧级别语种分类模型为深度神经网络;

    步骤2-2)提取训练集的多语言连续语音流的帧级别频谱特征,以所述帧级别频谱特征为输入特征输入帧级别语种分类模型,对当前隐含层的输出向量进行长时统计,计算当前隐含层输出向量的均值向量、方差向量和段级别语种特征向量;

    所述均值向量为:

    所述方差向量为:

    所述段级别语种特征向量为:

    hsegment=append(μ,σ)(6)

    其中hi为当前隐含层在i时刻的输出向量,t为长时统计周期,μ为长时统计的均值向量,σ为长时统计的方差向量,hsegment为段级别语种特征向量,所述段级别语种特征向量是将均值向量和方差向量拼接在一起,其维度为hi维度的2倍;其中append(μ,σ)表示将μ和σ进行拼接构成高维向量;

    步骤2-3)将均值向量和方差向量作为下一隐含层的输入,根据帧级别语种标签通过误差计算和反向梯度回传过程训练,使每一个隐含层输出段级别语种特征向量,得到训练好的帧级别语种分类模型。

    基于训练好的帧级别语种分类模型,从帧级别语种分类模型的隐含层中提取段级别语种特征向量,为每一个段级别语种特征向量构建段级别语种标签,根据段级别语种特征向量和段级别语种标签训练段级别语种分类模型。具体包括:

    步骤s2-1)构建段级别语种分类模型;

    步骤s2-2)提取训练集的多语言连续语音流的帧级别频谱特征,以所述帧级别频谱特征为输入特征输入训练好的帧级别语种分类模型的隐含层,从训练好的帧级别语种分类模型的隐含层中提取段级别语种特征向量;

    步骤s2-3)为每一个段级别语种特征向量设置段级别语种标签,将段级别语种特征向量输入段级别语种分类模型,训练输出所述段级别语种标签对应的语种状态的后验概率分布,获得训练好的段级别语种分类模型。

    步骤3)对待识别的多语言连续语音流的语音利用训练好的帧级别语种分类模型提取段级别语种特征向量,根据段级别语种分类模型对段级别语种特征向量进行语种分类,结合维特比检索算法,对多语言连续语音流进行语种切换点实时检测;最后根据语种检测结果,对连续语音流进行切分并通过多语言声学模型以及相应的解码器对多语言语音流进行内容识别。具体步骤包括:

    步骤3-1)对待识别的多语言连续语音流的语音的频谱特征根据特定的步长和窗长由所述帧级别语种分类模型提取段级别语种特征向量;

    通过段级别语种分类模型,对段级别语种特征向量进行分类,获取段级别语种特征向量对应的语种状态的后验概率分布;

    设置维特比检索的语种状态的自转概率和跳转概率,通过提高语种装填的自转概率来减小由于段级别语种分类模型的分类不精准造成的语种分类错误;包括:

    基于语种状态的后验概率分布,设置维特比检索的语种状态的自转概率和跳转概率,得到语种状态的转移矩阵a为:

    其中,ploop表示语种状态的自转概率,pskip表示语种状态的跳转概率,各个语言的自转概率和跳转概率值相同,根据语种类别设置语种状态标号,所述语种状态标号为不相同的语种类别的标签,采用阿拉伯数字1,2和n为语种状态标号;转移矩阵a的各元素与语种状态标号的对应关系为:

    步骤3-2)计算预测的段级别语种状态的后验概率pemit(st 1|hsegment),根据预先设定的语种状态的自转概率ploop和跳转概率pskip对预测的语种状态进行维特比检索,具体包括:

    基于维特比检索的目标函数计算连续语音流的最佳语种状态序列,所述目标函数为:

    其中ptrans(st 1|st)表示由第t时刻多语言连续语音流的语种状态st到第t 1时刻语种状态st 1的转移概率:

    其中,语种状态st和语种状态st 1对应的语种分类标号在标注的语种分类标号范围内,t为段级别语种特征hsegment对应的统计周期;

    pemit(st 1|hsegment)表示对段级别语种特征hsegment在语种状态st 1上预测的后验概率;

    pemit(st 1|hsegment)=dnn-lid段级别(hsegment)(11)

    其中,dnn-lid为基于深度神经网络dnn的段级别语种分类器;

    步骤3-3)通过以上递归公式,可以通过段级别语种分类模型预测的段级别语种状态的后验概率以及预先设定的语种状态的自转概率和跳转概率预测出最佳语种状态进行检索,最终目标函数值最大的序列为多语言连续语音流对应的最佳语种状态序列,由最佳语种状态序列进行语种状态回溯可以获得最佳的语种状态路径。

    步骤4)根据所述最佳语种状态路径可以对多语言语音流按照语种状态区间进行切分,将切分后的语种状态区间语音流送入多语言声学模型以及相应的多语言解码器进行解码,可以得到所述多语言连续语音流的对应的内容识别结果。

    本发明还提出一种多语言连续语音流语音内容识别系统,所述系统包括:

    段级别语种特征提取模块,用于将待识别的多语言连续语音流输入帧级别语种分类模型,输出段级别语种特征向量;

    语种状态的后验概率计算模块,将段级别语种特征向量输入段级别语种分类模型,输出段级别语种状态的后验概率分布;

    语种状态路径获取模块,用于根据段级别语种状态的后验概率分布,基于维特比检索算法,计算多语言语音流的最佳的语种状态路径;

    语种状态区间切分模块,用于根据所述最佳语种状态路径对待识别的多语言连续语音流进行切分获得语种状态区间;和

    多语言语音流的内容识别模块,用于将切分后的语种状态区间送入多语言声学模型以及相应的多语言解码器中进行解码,得到所述多语言语音流的内容识别结果。

    本发明还提出一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的方法。

    本发明还提出一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述任一项所述的方法。

    基于本发明的语音识别系统的合理性和有效性已经在实际系统上得到了验证,结果见表1:

    表1

    本发明的方法通过使用广东话、土耳其语以及越南语数据进行多语言声学模型联合训练,同时构建了基于三个语种的帧级别语种分类模型以及段级别语种分类模型,并利用基于维特比算法的多语言连续语音流语音内容识别方法对连续多语言语音进行语种分类以及语音内容识别。从表1可知通过本发明的方法将语种识别的精度从82.1%提高到了92.4%,验证了本发明的基于维特比算法的多语言连续语音流语音内容识别方法可以有效提升连续多语言语音流中语种检测的结果。

    最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。


    技术特征:

    1.一种多语言连续语音流语音内容识别方法,所述方法包括:

    将待识别的多语言连续语音流输入帧级别语种分类模型,输出段级别语种特征向量;

    将段级别语种特征向量输入段级别语种分类模型,输出段级别语种状态的后验概率分布;

    根据段级别语种状态的后验概率分布,基于维特比检索算法,计算多语言连续语音流的最佳的语种状态路径;

    根据所述最佳语种状态路径对待识别的多语言连续语音流进行切分获得语种状态区间;

    将语种状态区间输入多语言声学模型以及相应的多语言解码器中进行解码,得到所述多语言语音流的内容识别结果。

    2.根据权利要求1所述的多语言连续语音流语音内容识别方法,其特征在于,所述方法还包括多语言声学模型的训练步骤,具体步骤为:

    步骤1-1)构建基于多任务学习神经网络的多语言声学模型,所述模型包括若干个共享隐含层和语言特定输出层;

    步骤1-2)基于多语言连续语音数据的声学状态标签提取训练集的多语言连续语音流的频谱特征,将所述频谱特征输入共享隐含层进行非线性变换;输出若干单语言的数据至若干语言特定输出层;

    步骤1-3)将单语言的数据在与输入的频谱特征对应的语言特定输出层计算误差损失函数值:

    所述误差损失函数floss,i为:

    其中floss,i为第i个语言特定输出层的误差损失值,pmodel,i(xl)为第l个语言的频谱特征xl对应的在第l个语言特定输出层的输出,qlabel,l为频谱特征xl对应的声学状态标签;其它的输出层的误差损失函数值为零;

    步骤1-4)将所述误差损失值floss,i反向回传,每个语言特定输出层参数根据对应单语言的数据进行参数更新,计算语言特定输出层参数梯度δφi:

    其中,φi为第i个语言特定输出层的参数;

    共享隐含层的参数由若干个语言特定输出层的回传的误差损失值floss,i更新:计算共享隐含层参数的梯度δφ:

    其中φ为共享隐含层的参数,l为多语言声学模型的特定语言输出层对应的语言种类数;

    步骤1-5)当floss,i>给定阈值,则转入步骤1-2);

    当floss,i<给定阈值,获得训练好的多语言声学模型。

    3.根据权利要求1所述的多语言连续语音流语音内容识别方法,其特征在于,所述方法还包括帧级别语种分类模型的训练步骤,具体步骤为:

    步骤2-1)构建帧级别语种分类模型,所述帧级别语种分类模型为深度神经网络;

    步骤2-2)提取训练集的多语言连续语音流的帧级别频谱特征,将所述帧级别频谱特征输入帧级别语种分类模型,对当前隐含层的输出向量进行长时统计,计算当前隐含层输出向量的均值向量、方差向量和段级别语种特征向量;

    所述均值向量μ为:

    所述方差向量σ为:

    所述段级别语种特征向量hsegment为:

    hsegment=append(μ,σ)(6)

    其中hi为当前隐含层在i时刻的输出向量,t为长时统计周期,μ为长时统计的均值向量,σ为长时统计的方差向量,hsegment为段级别语种特征向量,所述段级别语种特征向量是将均值向量和方差向量拼接在一起,其维度为hi维度的2倍,其中append(μ,σ)表示将μ和σ进行拼接构成高维向量;

    步骤2-3)将均值向量和方差向量作为下一隐含层的输入,根据帧级别语种标签通过误差计算和反向梯度回传过程训练,使每一个隐含层输出段级别语种特征向量,得到训练好的帧级别语种分类模型。

    4.根据权利要求1所述的多语言连续语音流语音内容识别方法,其特征在于,所述方法还包括段级别语种分类模型的训练步骤,具体步骤为:

    步骤s2-1)构建段级别语种分类模型;

    步骤s2-2)提取训练集的多语言连续语音流的帧级别频谱特征,将所述帧级别频谱特征输入训练好的帧级别语种分类模型的隐含层,从训练好的帧级别语种分类模型的隐含层中提取段级别语种特征向量;

    步骤s2-3)为每一个段级别语种特征向量设置段级别语种标签,将段级别语种特征向量输入段级别语种分类模型,训练输出所述段级别语种标签对应的语种状态的后验概率分布,获得训练好的段级别语种分类模型。

    5.根据权利要求1所述的多语言连续语音流语音内容识别方法,其特征在于,所述将待识别的多语言连续语音流输入帧级别语种分类模型,输出段级别语种特征向量;将段级别语种特征向量输入段级别语种分类模型输出语种状态的后验概率分布;具体包括:

    对待识别的多语言连续语音流提取待识别帧级别频谱特征;

    将待识别帧级别频谱特征根据特定的步长和窗长输入训练好的帧级别语种分类模型,输出段级别语种特征向量hsegment;

    将所述段级别语种特征向量hsegment输入训练好的段级别语种分类模型,输出段级别语种特征向量对应的语种状态的后验概率分布。

    6.根据权利要求5所述的多语言连续语音流语音内容识别方法,其特征在于,根据语种状态的后验概率分布,基于维特比检索算法,计算多语言连续语音流的最佳的语种状态路径,具体包括:

    步骤3-1)根据语种状态的后验概率分布,设置维特比检索的语种状态的自转概率ploop和跳转概率pskip,得到语种状态的转移矩阵a为:

    其中,各个语言的自转概率和跳转概率值相同,根据语种类别设置语种状态标号,所述语种状态标号为不相同的语种类别的标签,采用阿拉伯数字1,2,...,n为语种状态标号;转移矩阵a的各元素与语种状态标号的对应关系为:

    步骤3-2)对预测的语种状态进行维特比检索,计算基于维特比检索的目标函数:

    其中ptrans(st 1|st)表示由第t时刻多语言连续语音流的语种状态st到第t 1时刻语种状态st 1的转移概率:

    其中,语种状态st和语种状态st 1对应的语种分类标号在标注的语种分类标号范围内,t为段级别语种特征hsegment对应的统计周期;

    pemit(st 1|hsegment)表示对段级别语种特征hsegment在语种状态st 1上预测的后验概率:

    pemit(st 1|hsegment)=dnnlid段级别(hsegment)(11)

    其中,dnnlid为基于深度神经网络dnn的段级别语种分类器;

    步骤3-3)以目标函数值最大的语种状态序列为最佳语种状态序列,根据所述最佳语种状态序列进行语种状态回溯获得最佳的语种状态路径。

    7.一种多语言连续语音流语音内容识别系统,所述系统包括:

    段级别语种特征提取模块,用于将待识别的多语言连续语音流输入帧级别语种分类模型,输出段级别语种特征向量;

    语种状态的后验概率计算模块,将段级别语种特征向量输入段级别语种分类模型,输出段级别语种状态的后验概率分布;

    语种状态路径获取模块,用于根据段级别语种状态的后验概率分布,基于维特比检索算法,计算多语言语音流的最佳语种状态路径;

    语种状态区间切分模块,用于根据所述最佳语种状态路径对待识别的多语言连续语音流进行切分获得语种状态区间;和

    多语言语音流的内容识别模块,用于将切分后的语种状态区间送入多语言声学模型以及相应的多语言解码器中进行解码,得到所述多语言语音流的内容识别结果。

    8.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-6中任一项所述的方法。

    9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行权利要求1-6中任一项所述的方法。

    技术总结
    本发明提出一种多语言连续语音流语音内容识别方法及系统,所述方法包括:将待识别的多语言连续语音流输入帧级别语种分类模型,输出段级别语种特征向量;将段级别语种特征向量输入段级别语种分类模型,输出段级别语种状态的后验概率分布;根据段级别语种状态的后验概率分布,基于维特比检索算法,计算多语言连续语音流的最佳的语种状态路径;根据所述最佳语种状态路径对待识别的多语言连续语音流进行切分获得语种状态区间;将切分后的语种状态区间送入多语言声学模型以及相应的多语言解码器中进行解码,得到所述多语言连续语音流的内容识别结果。本发明通过将语种分类模型与维特比检索算法相融合,解决了连续语音流中多语言内容并存的语言种类动态检测和识别的问题。

    技术研发人员:徐及;刘丹阳;张鹏远;颜永红
    受保护的技术使用者:中国科学院声学研究所;北京中科信利技术有限公司
    技术研发日:2019.08.23
    技术公布日:2021.03.12

    转载请注明原文地址:https://wp.8miu.com/read-14650.html

    最新回复(0)