语言的声学模型训练方法、装置、电子设备及计算机介质与流程

    专利2022-07-08  104


    本申请涉及语音识别技术领域,具体而言,本申请涉及一种语言的声学模型训练方法、装置、电子设备及计算机可读存储介质。



    背景技术:

    自动语音识别(automaticspeechrecognition,asr)是人工智能领域中较为活跃的研究课题。语音识别目的是将语音信号转变为对应的文本表示,其基本框架如图1所示。语音信号首先需要进行声学特征提取,将信息进行大幅度的压缩,转变为机器能更好划分的形式,然后将特征送入解码器解码出识别结果。而解码器则需要声学模型和语言模型以及发音字典的共同作用,才能对特征进行打分,得到最终的解码序列。

    声学模型的训练至关重要,而其中一项关键的工作就是选择合适的语料来训练,所选择的语料要尽可能的覆盖语言的发音现象,同时数据又不能太稀疏,而发音字典存储字到发音的映射关系,也是传统建模方法中连接声学模型和语言模型的桥梁。对于数据资源充足的语言,通常采用人工标注的方式获得大量的训练语料与发音字典,或者采用端到端建模方法直接以字符等建模单元进行声学模型建模,达到不需要发音字典的目的。

    虽然国内外语音识别技术的研究工作较多,但相关的研究工作主要集中在汉语、英语等数据资源较为丰富的通用语言上,语音数据量慢慢突破上万甚至上十万小时。但针对数据资源较少的目标语言(比如藏语)的语音识别却研究较少,同时目标语言由于数据资源稀缺,发音字典较难构建,导致相关研究的门槛较高,且集中在单个方言之中。

    现有的目标语言语音识别方法,其发音字典构建大多采用人工的标注形式,而采用端到端方法直接对音节或词进行声学模型建模在小数据集上难以达到最佳性能,于是发音字典构建目前为止仍是很重要的工作。另一方面,由于现有目标语言的语料资源稀缺,难以大量录制目标语言语音数据,导致语料规模小,同时,发音现象的覆盖较低、均衡度较低,使得采用语料训练得到声学模型的识别率也较低。



    技术实现要素:

    本申请提供了一种语言的声学模型训练方法、装置、电子设备及计算机可读存储介质,可以解决上述问题。所述技术方案如下:

    一方面,提供了一种语言的声学模型训练方法,该方法包括:

    对目标语言的文本集进行拉丁化,得到所述目标语言的发音字典;

    基于所述发音字典和所述文本集生成目标语言语料库;

    所述目标语言语料库中包括所述文本集对应的语音语料;

    根据所述目标语言语料库训练对所述目标语言进行识别的语音识别模型;

    基于所述目标语言的各种方言分别对应的方言语料,分别对所述语音识别模型再次训练,得到对所述各种方言进行识别的方言语音识别模型。

    优选地,所述文本集包括至少两条目标语言文本;

    所述对预设的目标语言的文本集进行拉丁化,得到所述目标语言的发音字典,包括:

    基于音节符对所述至少两条目标语言文本进行分割,得到至少两个音节;

    统计得到所述至少两个音节在所述文本集中各自对应的出现频率,并将所述至少两个音节中出现频率靠前的第一预设数量的音节作为目标音节;

    对各个目标音节进行拉丁化,得到各个目标音节各自对应的发音序列,并将各个发音序列的集合作为所述目标语言的发音字典。

    优选地,所述基于所述发音字典和所述文本集生成目标语言语料库,包括:

    从至少两条目标语言文本中确定出至少两条目标语言语句;其中,任一条目标语言文本包括至少一条目标语言语句;

    基于所述发音字典和所述至少两条目标语言语句确定出至少两条目标语言语句;

    基于所述至少两条目标语言语句生成目标语言语料库。

    优选地,所述从至少两条目标语言文本中确定出至少两条目标语言语句,包括:

    对所述至少两条目标语言文本进行去重,得到剩余的至少两条第一目标语言文本;

    对所述至少两条第一目标语言文本进行正则化,得到正则化后的至少两条第二目标语言文本;

    对所述至少两条第二目标语言文本进行语句分割,得到至少两条目标语言语句;

    确定出所述至少两条目标语言语句中音节数量超过第一音节数量阈值且不超过第二音节数量阈值的目标语言语句。

    优选地,所述基于所述发音字典和所述至少两条目标语言语句确定出至少两条目标语言语句,包括:

    采用所述发音字典对所述至少两条目标语言语句分别进行三音子转换,得到所述至少两条目标语言语句各自对应的三音子序列;

    计算得到各个三音子序列的信息熵,并将信息熵最大的三音子序列对应的目标语义语句作为目标语言语句;

    针对所述至少两条目标语言语句中除所述目标语言语句之外的其它目标语言语句,重复执行采用所述发音字典对所述至少两条目标语言语句分别进行三音子转换,得到所述至少两条目标语言语句各自对应的三音子序列,以及计算得到各个三音子序列的信息熵,并将信息熵最大的三音子序列对应的目标语义语句作为目标语言语句的步骤,直至目标语言语句的数量达到第二预设数量。

    优选地,所述基于所述至少两条目标语言语句生成目标语言语料库,包括:

    对所述至少两条目标语言语句进行音频录制,得到所述至少两条目标语言语句各自对应的音频数据;

    将所述至少两条目标语言语句和各自对应的音频数据进行存储,得到目标语言语料库。

    优选地,所述根据所述目标语言语料库训练对所述目标语言进行识别的语音识别模型,包括:

    从所述目标语言语料库中的各个音频数据中提取出40维梅尔倒谱系数特征和100维身份认证向量特征作为声学特征;

    采用所述声学特征和所述目标语言语料库中的各条目标语言语句对预设的高斯混合模型进行训练,得到目标语言的语音识别模型。

    优选地,所述基于所述目标语言的各种方言分别对应的方言语料,分别对所述语音识别模型再次训练,得到对所述各种方言进行识别的方言语音识别模型,包括:

    采用所述目标语言的各种方言分别对应的方言语料,分别对所述语音识别模型进行迁移学习,得到所述各种方言语料各自对应的对所述各种方言进行识别的方言声学模型。

    优选地,还包括:

    获取所述目标语言的待处理音频;

    采用所述至少一个方言语音识别模型对所述待处理音频进行语音识别,得到对应的目标语言文本。

    另一方面,提供了一种语言的声学模型训练装置,该装置包括:

    第一处理模块,用于对目标语言的文本集进行拉丁化,得到所述目标语言的发音字典;

    第二处理模块,用于基于所述发音字典和所述文本集生成目标语言语料库;所述目标语言语料库中包括所述文本集对应的语音语料;

    第三处理模块,用于根据所述目标语言语料库训练对所述目标语言进行识别的语音识别模型;

    第四处理模块,用于基于所述目标语言的各种方言分别对应的方言语料,分别对所述语音识别模型再次训练,得到对所述各种方言进行识别的方言语音识别模型。

    优选地,所述文本集包括至少两条目标语言文本;

    所述第一处理模块包括:

    分割子模块,用于基于音节符对所述至少两条目标语言文本进行分割,得到至少两个音节;

    统计子模块,用于统计得到所述至少两个音节在所述文本集中各自对应的出现频率,并将所述至少两个音节中出现频率靠前的第一预设数量的音节作为目标音节;

    转换子模块,用于对各个目标音节进行拉丁化,得到各个目标音节各自对应的发音序列,并将各个发音序列的集合作为所述目标语言的发音字典。

    优选地,所述第二处理模块包括:

    第一确定子模块,用于从至少两条目标语言文本中确定出至少两条目标语言语句;其中,任一条目标语言文本包括至少一条目标语言语句;

    第二确定子模块,用于基于所述发音字典和所述至少两条目标语言语句确定出至少两条目标语言语句;

    生成子模块,用于基于所述至少两条目标语言语句生成目标语言语料库。

    优选地,所述第一确定子模块包括:

    第一过滤单元,用于对所述至少两条目标语言文本进行去重,得到剩余的至少两条第一目标语言文本;

    正则化单元,用于对所述至少两条第一目标语言文本进行正则化,得到正则化后的至少两条第二目标语言文本;

    分割单元,用于对所述至少两条第二目标语言文本进行语句分割,得到至少两条目标语言语句;

    第二过滤单元,用于确定出所述至少两条目标语言语句中音节数量超过第一音节数量阈值且不超过第二音节数量阈值的目标语言语句。

    优选地,所述第二确定子模块包括:

    转换单元,用于采用所述发音字典对所述至少两条目标语言语句分别进行三音子转换,得到所述至少两条目标语言语句各自对应的三音子序列;

    计算单元,用于计算得到各个三音子序列的信息熵,并将信息熵最大的三音子序列对应的目标语义语句作为目标语言语句;

    针对所述至少两条目标语言语句中除所述目标语言语句之外的其它目标语言语句,重复调用所述转换单元、计算单元,直至目标语言语句的数量达到第二预设数量。

    优选地,所述生成子模块包括:

    录制单元,用于对所述至少两条目标语言语句进行音频录制,得到所述至少两条目标语言语句各自对应的音频数据;

    存储单元,用于将所述至少两条目标语言语句和各自对应的音频数据进行存储,得到目标语言语料库。

    优选地,所述第三处理模块包括:

    提取子模块,用于从所述目标语言语料库中的各个音频数据中提取出40维梅尔倒谱系数特征和100维身份认证向量特征作为声学特征;

    训练子模块,用于采用所述声学特征和所述目标语言语料库中的各条目标语言语句对预设的高斯混合模型进行训练,得到目标语言的语音识别模型。

    优选地,所述第四处理模块具体用于:采用所述目标语言的各种方言分别对应的方言语料,分别对所述语音识别模型进行迁移学习,得到所述各种方言语料各自对应的对所述各种方言进行识别的方言声学模型。

    优选地,还包括:

    获取模块,用于获取所述目标语言的待处理音频;

    识别模块,用于采用所述至少一个方言语音识别模型对所述待处理音频进行语音识别,得到对应的目标语言文本。

    另一方面,提供了一种电子设备,该电子设备包括:

    处理器、存储器和总线;

    所述总线,用于连接所述处理器和所述存储器;

    所述存储器,用于存储操作指令;

    所述处理器,用于通过调用所述操作指令,可执行指令使处理器执行如本申请的第一方面所示的语言的声学模型训练方法对应的操作。

    另一方面,提供了一种计算机可读存储介质,提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现本申请第一方面所示的语言的声学模型训练方法。

    本申请提供的技术方案带来的有益效果是:

    在本发明实施例中,对所述目标语言的文本集进行拉丁化,得到所述目标语言的发音字典,然后基于所述发音字典和所述文本集生成目标语言语料库;所述目标语言语料库中包括所述文本集对应的语音语料;再根据所述目标语言语料库训练对所述目标语言进行识别的语音识别模型,并基于所述目标语言的各种方言分别对应的方言语料,分别对所述语音识别模型再次训练,得到对所述各种方言进行识别的方言语音识别模型。这样,通过拉丁化即可构建得到目标语言的发音字典,不需要人工标注,节省了大量的人力成本和时间成本;而且,针对目标语言不同分支的方言,通过预设的多种方言语料训练得到每种方言各自对应的方言声学模型,提升了每种方言的识别率。

    附图说明

    为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

    图1为现有的语音识别框架示意图;

    图2为本申请一个实施例提供的一种语言的声学模型训练方法的流程示意图;

    图3为本申请藏语文字结构示意图;

    图4为本申请音节拉丁化的效果示意图;

    图5为本申请声学模型的迁移学习示意图;

    图6为本申请另一实施例提供的基于各种方言语音识别模型的语言的处理方法的流程示意图;

    图7为本申请又一实施例提供的一种语言的声学模型训练装置的结构示意图;

    图8为本申请又一实施例提供的一种语言的声学模型训练的电子设备的结构示意图。

    具体实施方式

    下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本发明的限制。

    本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

    为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。

    首先对本申请涉及的几个名词进行介绍和解释:

    人工智能(artificialintelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

    人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

    语音技术(speechtechnology)的关键技术有自动语音识别技术(automaticspeechrecognition,简称asr)和语音合成技术(tts)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。

    自然语言处理(naturelanguageprocessing,nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

    本申请提供的语言的声学模型训练和处理方法、装置、电子设备和计算机可读存储介质,旨在解决现有技术的如上技术问题。

    下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。

    在一个实施例中提供了一种语言的声学模型训练方法,如图2所示,该方法包括:

    步骤s201,对目标语言的文本集进行拉丁化,得到目标语言的发音字典;

    在实际应用中,世界通用语言是指在国际交往中充当会话媒介的语言,并不是指统一全世界的语言。在本发明实施例中,目标语言可以是除世界通用语言之外的任一其它语言。而且,由于某些世界通用语言中存在地方语言(后文简称“方言”),或者属于同一语系的不同分支语言,这些方言或分支语言的世界通用性也较小,所以,本发明实施例中的目标语言也可以包括这些方言和分支语言,比如,汉语中的粤语等属于汉语的方言,藏语属于汉藏语系的分支语言(汉语也属于汉藏语系的分支语言)。

    进一步,拉丁化(或称罗马化)是语言学的一个术语,指将不是拉丁字母(或称罗马字母)形式的拼音文字系统转换成拉丁文字系统的过程。

    其中,文本集中可以包括至少两条目标语言文本。在获取到文本集之后,即可对文本集的每条目标语言文本进行拉丁化,从而得到该目标语言的发音字典。

    步骤s202,基于发音字典和文本集生成目标语言语料库;目标语言语料库中包括文本集对应的语音语料;

    在构建得到目标语言的发音字典后,可以基于该发音字典和获取到的目标语言的文本集生成目标语言语料库。其中,目标语言语料库包括至少一条目标语言语料,一条目标语言语料包括一条目标语言文本和该条目标语言文本对应的发音。

    步骤s203,根据目标语言语料库训练对目标语言进行识别的语音识别模型;

    步骤s204,基于目标语言的各种方言分别对应的方言语料,分别对语音识别模型再次训练,得到对各种方言进行识别的方言语音识别模型。

    构建目标语言语料库完成后,可以采用该目标语言语料库和预设的至少一种方言语料训练得到每种方言语料各自对应的方言声学模型。其中,任一方言为该目标语言的分支语言。

    在本发明实施例中,对目标语言的文本集进行拉丁化,得到目标语言的发音字典,然后基于发音字典和文本集生成目标语言语料库;目标语言语料库中包括文本集对应的语音语料;再根据目标语言语料库训练对目标语言进行识别的语音识别模型,并基于目标语言的各种方言分别对应的方言语料,分别对语音识别模型再次训练,得到对各种方言进行识别的方言语音识别模型。这样,通过拉丁化即可构建得到目标语言的发音字典,不需要人工标注,节省了大量的人力成本和时间成本;而且,针对目标语言不同分支的方言,通过预设的多种方言语料训练得到每种方言各自对应的方言声学模型,提升了每种方言的识别率。

    在另一个实施例中继续对如图2所示的一种语言的声学模型训练方法进行详细说明。

    步骤s201,对目标语言的文本集进行拉丁化,得到目标语言的发音字典;

    在实际应用中,世界通用语言是指在国际交往中充当会话媒介的语言,并不是指统一全世界的语言。当今的世界,完全通用的语言,还不存在,只存在具有一定的通用程度的语言,相对而言,英语较大程度的起到了会话媒介的作用,但是,还有相当大的国际交往不使用英语做会话媒介,英语的通用性也不是占绝对的地位;通用程度较大的语言还有法语、汉语、西班牙语、俄语、阿拉伯语,汉语的使用人数迄今为止是最多的,但是主要的使用范围在中国、新加坡、马来西亚、文莱,世界通用性小。

    在本发明实施例中,目标语言可以是除世界通用语言之外的任一其它语言。而且,由于某些世界通用语言中存在地方语言(后文简称“方言”),或者属于同一语系的不同分支语言,这些方言或分支语言的世界通用性也较小,所以,本发明实施例中的目标语言也可以包括这些方言和分支语言,比如,汉语中的粤语等属于汉语的方言,藏语属于汉藏语系的分支语言(汉语也属于汉藏语系的分支语言)。

    为方便描述,在本发明实施例中以藏语作为目标语言进行详细说明。

    进一步,拉丁化(或称罗马化)是语言学的一个术语,指将不是拉丁字母(或称罗马字母)形式的拼音文字系统转换成拉丁文字系统的过程,即将被转换系统里的非拉丁字符,按照转写系统的规则和转写表,忠实地将字符(也包括字符的变音符号及单音素双字符)对号入座地转写成转换系统里的拉丁字符。

    而藏文是一种拼音文字,由30个辅音字母和4个元音字母组成。如图3所示为藏文的一个音节,是藏文的一个基本表意单位。一个藏文音节围绕着基字展开,分别由位于基字前后方向的“前加字”、“后加字”和“再后加字”,以及位于基字上下方向上的“上加字”、“上元音”、“下加字”和“下元音”组成,其中,“加字”皆为辅音字母。音节之间由“音节符”分割,词由单个或多个音节组成,即,一个词可以包括至少一个音节符。

    如果要构建词级别的发音字典,那么就需要进行藏文分词,但在藏文资源低的情况下,收集到大量藏文后再进行分词标注较为困难。而根据上述可知,藏文中的一个词由至少一个音节构成,同时,音节之间有明确的音节符,这样就可以基于音节符对收集到的藏文进行音节分割,不仅使得常用的藏文音节的规模可控,而且音节分割还省去了藏文分词的步骤。

    比如,为方便理解,以汉字为例进行举例说明。针对汉字文本“今天天气晴朗”,假设对其进行分词,得到“今天”、“天气”、“晴朗”三个词语,而对其进行分字,得到“今”、“天”、“气”、“晴”、“朗”五个字,很明显,分词的过程需要大量的计算,而分字的过程则省去了这个大量计算的过程。

    对应于藏文,一个汉字相当于一个音节,一个词语相当于一个词,所以,对藏文进行音节分割可以省去藏文分词的步骤。

    其中,文本集中可以包括至少两条目标语言文本,比如,大量的藏文文本。文本集可以通过收集网络上的藏文新闻、论坛文章等方式获取,也可以通过用户输入藏文文本的方式,还可以通过其它方式获取藏文文本,在实际应用中可以根据实际情况进行设置,本发明实施例对此不作限制。

    在获取到文本集之后,即可对文本集的每条目标语言文本进行拉丁化,从而得到该目标语言的发音字典。比如,针对藏文文本集中的各条藏文文本基于音节进行拉丁化,从而得到藏文的发音字典。

    在本发明一种优选实施例中,对预设的目标语言的文本集进行拉丁化,得到目标语言的发音字典,包括:

    基于音节符对至少两条目标语言文本进行分割,得到至少两个音节;

    统计得到至少两个音节在文本集中各自对应的出现频率,并将至少两个音节中出现频率靠前的第一预设数量的音节作为目标音节;

    对各个目标音节进行拉丁化,得到各个目标音节各自对应的发音序列,并将各个发音序列的集合作为目标语言的发音字典。

    具体而言,针对文本集中的每条目标语言文本,可以基于音节符进行分割,从而得到该文本集对应的所有音节,然后统计出每个音节在该文本集中的出现频率,并将出现频率靠前的第一预设数量的音节作为目标音节。

    比如,文本集包括3万条藏文文本,对三万条藏文文本分别基于音节进行分割后得到8000个音节,然后统计出8000个音节在3万条藏文文本中各自的出现频率,并将出现频率靠前的6000个音节作为目标音节。

    确定出目标音节后,对各个目标音节进行拉丁化,得到各个目标音节各自对应的发音序列,并将各个发音序列的集合作为目标语言的发音字典。由于藏文虽然是一种拼音文字,但其文字描述的文字系统和发音系统并不一致,业界承认的威利拉丁化方案设计为准确转写藏文字母,而不顾及藏语词汇的现代发音,难以直接使用构建发音字典。所以,本发明实施例采用了一种新的thl(tibetanandhimalayanlibrary,西藏与喜马拉雅图书馆)藏文拉丁化方案,thl藏文拉丁化方案在威利拉丁化方案基础上对发音进一步改进,并通过一定特殊规则使得拉丁化之后的文本更贴近现代藏语发音。本发明实施例使用thl藏文拉丁化方案对收集到的目标音节,比如6000个音节,分别生成发音得到发音序列,由此构建出一个6000大小的藏文发音字典。其中,发音字典中每个藏文音节都具有一一对应的音子。

    比如,针对某个藏文文本集,基于音节分割和统计出现频率后得到3个目标音节,然后采用thl藏文拉丁化方案对这3个目标音节进行拉丁化,得到每个目标音节的发音序列,如图4所示,由此构建出藏文发音字典。

    步骤s202,基于发音字典和文本集生成目标语言语料库;目标语言语料库中包括文本集对应的语音语料;

    在构建得到目标语言的发音字典后,可以基于该发音字典和获取到的目标语言的文本集生成目标语言语料库。其中,目标语言语料库包括至少一条目标语言语料,一条目标语言语料包括一条目标语言文本和该条目标语言文本对应的发音,应用于本发明实施例,目标语言语料库可以是藏语语料库。为方便理解,还是以汉语为例进行举例说明。比如,一条汉语语料包括汉语文本“你好”和“你好”的发音。

    在本发明一种优选实施例中,其特征在于,基于发音字典和文本集生成目标语言语料库,包括:

    从至少两条目标语言文本中确定出至少两条目标语言语句;其中,任一条目标语言文本包括至少一条目标语言语句;

    基于发音字典和至少两条目标语言语句确定出至少两条目标语言语句;

    基于至少两条目标语言语句生成目标语言语料库。

    在生成目标语言语料库时,可以先从文本集中的各条目标语言文本中确定出至少两条目标语言语句,其中,任一条目标语言文本包括至少一条目标语言语句。比如,藏文文本集包括3万条藏文文本,3万条藏文文本总共包括4万条藏文语句。

    然后基于发音字典从各条目标语句中确定出至少两条目标语言语句,并基于至少两条目标语言语句生成目标语言语料库。比如,基于发音字典从4万条藏文语句中确定出2万条目标藏文语句,然后基于这2万条目标藏文语句生成藏语语料库。

    在本发明一种优选实施例中,从至少两条目标语言文本中确定出至少两条目标语言语句,包括:

    对至少两条目标语言文本进行去重,得到剩余的至少两条第一目标语言文本;

    对至少两条第一目标语言文本进行正则化,得到正则化后的至少两条第二目标语言文本;

    对至少两条第二目标语言文本进行语句分割,得到至少两条目标语言语句;

    确定出至少两条目标语言语句中音节数量超过第一音节数量阈值且不超过第二音节数量阈值的目标语言语句。

    具体而言,由于获取到目标语言文本的来源不同,所以可能存在重复的目标语言文本,因此,可以先对文本集中的各条目标语言文本进行去重,将重复的目标语言文本保留一条即可,从而得到剩余的至少两条第一目标语言文本。再对至少两条第一目标语言文本进行正则化,得到正则化后的至少两条第二目标语言文本。

    然后对至少两条目标语言文本进行语句分割,得到至少两条目标语言语句。在本发明实施例中,对藏文文本进行语句分割可以基于单垂符和双垂符进行分割,其中,单垂符和双垂符相当于汉字中的标点符号。

    再确定出每条目标语言语句所包含的音节数量,并将音节数量超过第一音节数量阈值且不超过第二音节数量阈值的目标语言语句保留,作为最终的目标语言语句,即,将音节数量不超过第一音节数量阈值,或,超过第二音节数量阈值的目标语言语句删除。在本发明实施例中,由于藏文的一个词包括至少一个音节,所以,一条藏文语句可以包括多个音节。

    比如,藏文语句a包括3个词,每个词包括3个音节,藏文语句b包括4个词,每个词包括2个音节,藏文语句c包括5个词,每个词包括5个音节;那么,藏文语句a包括9个音节,藏文语句b包括8个音节,藏文语句a包括25个音节;其中,第一音节数量阈值为4,第二音节数量阈值为20。由于藏文语句c的音节数量超过了20,所以将其删除,保留藏文语句a和b。

    这样,可以保证选择出的目标语言语句的长度适中,不会过长或过短。当然,在实际应用中,第一音节数量阈值和第二音节数量阈值可以根据实际需求进行设置,本发明实施例对此不作限制。

    在本发明一种优选实施例中,基于发音字典和至少两条目标语言语句确定出至少两条目标语言语句,包括:

    采用发音字典对至少两条目标语言语句分别进行三音子转换,得到至少两条目标语言语句各自对应的三音子序列;

    计算得到各个三音子序列的信息熵,并将信息熵最大的三音子序列对应的目标语义语句作为目标语言语句;

    针对至少两条目标语言语句中除目标语言语句之外的其它目标语言语句,重复执行采用发音字典对至少两条目标语言语句分别进行三音子转换,得到至少两条目标语言语句各自对应的三音子序列,以及计算得到各个三音子序列的信息熵,并将信息熵最大的三音子序列对应的目标语义语句作为目标语言语句的步骤,直至目标语言语句的数量达到第二预设数量。

    具体而言,在确定出最终的各条目标语言语句后,采用构建得到的发音字典将最终的各条目标语言语句分别进行三音子转换,得到各条目标语言语句各自对应的三音子序列。其中,每条目标语言语句对应的三音子序列的数量可以是一个或多个。

    其中,“音子”是从语言的连续体当中通过各种方法提取出来的尽可能小的音段,通常音子可以看成是连续语音的最小单位,比如,如图4中的发音序列中,“k”、“a”、“ng”都是音子。

    由于连续语音的发声过程中,发音器官和发音部位的运动,造成了协同发音等一系列的影响,即连续语音当中的某一个音子会受到前m个和后n个音子的影响,使得单个的音子和连续语音当中音子的发音现象有着明显的区别。本申请的语音识别领域研究人员发现,以三音子为最小单位的识别系统表现的效果较好。

    为方便理解,以汉语拼音为例进行举例说明。比如,当汉语拼音中的音子“a”处于“h”和“o”之间时,发音现象为“hao”,当“a”处于“d”和“o”之间时,发音现象为“dao”。

    进一步,在进行三音子转换的时候,可以按照音子的顺序进行转换。为方便理解,还是以汉语拼音为例进行举例说明。比如,“本申请”的发音序列为“benshenqing”,在进行三音子转换的时候,可以得到“ben”、“ens”、“nsh”、“she”、“hen”…“ing”等多个三音子序列。

    也就是说,假设共有50个音子,从理论上来看会出现50的3次方即125000个三音子序列,但实际上这些三音子在实际应用中的出现几率有很大的差别,有的三音子甚至不存在。这样就会导致三音子在语料当中分布也极不均衡,进而导致使用这种语料训练出来的声学模型识别率较低。于是本申请提出了基于信息熵来保证三音子的均衡分布。

    其中,信息熵用来描述信息的不确定程度,通过其出现的概率来进行衡量,概率小的事件,出现次数就少,不确定性也大,信息量就大,反之亦然。信息熵代表了随机变量的不确定度的度量,设随机变量为x,每个变量x的产生概率为p(x),则信息熵的定义为:

    其中,x为一条目标语言语句,x为该条目标语言语句中的各个三音子序列。比如,接上例,x为“benshenqing”,x为“ben”、“ens”、“nsh”、“she”、“hen”…“ing”等多个三音子序列。

    得到每条目标语言语句对应的至少一个三音子序列后,针对每条目标语言语句,统计出每个三音子序列在文本集中的出现频率,并基于各个出现频率计算出各个三音子序列的信息熵,然后将信息熵最大的三音子序列对应的目标语义语句作为目标语言语句。

    然后从最终的目标语言语句中去除掉该条目标语言语句,得到除该条目标语言语句之外的其它目标语言语句,针对其它目标语言语句,重复执行采用发音字典对至少两条目标语言语句分别进行三音子转换,得到至少两条目标语言语句各自对应的三音子序列,以及计算得到各个三音子序列的信息熵,并将信息熵最大的三音子序列对应的目标语义语句作为目标语言语句的步骤,直至目标语言语句的数量达到第二预设数量。

    比如,假设第二预设数量为3万。在得到6万条最终的藏文语句后,对每条藏文语句进行三音子转换并计算信息熵,得到信息熵最大的三音子序列对应的藏文语句作为第一条目标藏文语句,然后从6万条藏文语句中去除掉第一条目标藏文语句,得到59999条藏文语句,再重复执行上述步骤,从而确定出第二条目标藏文语句、第三条目标藏文语句等等,直至确定出3万条目标藏文语句。

    在本发明一种优选实施例中,基于至少两条目标语言语句生成目标语言语料库,包括:

    对至少两条目标语言语句进行音频录制,得到至少两条目标语言语句各自对应的音频数据;

    将至少两条目标语言语句和各自对应的音频数据进行存储,得到目标语言语料库。

    具体而言,得到各条目标语言语句后,可以对每条目标语言语句进行音频录制,得到每条目标语言语句各自对应的音频数据。其中,音频录制可以通过人工的方式进行录制,也可以采用音源库的方式进行录制,还可以采用其它的方式进行录制,在实际应用中可以根据实际需求进行设置,本发明实施例对此不作限制。

    录制完成后,将每条目标语言语句和对应的音频数据作为一条语料,从而得到多条语料,并将多条语料进行存储,得到目标语言语料库。

    比如,针对获取到的藏文文本集,从多条藏文文本中确定出多条藏文语句,然后将多条目标藏文语句分别转换为多个三音子序列,再计算出各个三音子序列音子序列的信息熵,然后确定出信息熵最大的三音子序列对应的藏文语句作为目标藏文语句,并从多条藏文语句中去除掉目标藏文语句,得到剩余的多条藏文语句,重复执行将多条目标藏文语句分别转换为多个三音子序列,再计算出各个三音子序列音子序列的信息熵,然后确定出信息熵最大的三音子序列对应的藏文语句作为目标藏文语句的步骤,直至得到预设数量的目标藏文语句,然后对每条目标藏文语句进行音频录制,得到每条目标藏文语句的音频数据,将每条目标藏文语句和对应的音频数据作为一条语料进行存储,得到藏语语料库。

    步骤s203,根据目标语言语料库训练对目标语言进行识别的语音识别模型;

    构建目标语言语料库完成后,可以采用该目标语言语料库训练对目标语言进行识别的语音识别模型。

    在本发明一种优选实施例中,根据目标语言语料库训练对目标语言进行识别的语音识别模型,包括:

    从目标语言语料库中的各个音频数据中提取出40维梅尔倒谱系数特征和100维身份认证向量特征作为声学特征;

    采用声学特征和目标语言语料库中的各条目标语言语句对预设的高斯混合模型进行训练,得到目标语言的语音识别模型。

    具体而言,可以先从目标语言语料库中的各个音频数据中提取出40维维梅尔倒谱系数(mel-frequencycepstralcoefficients,简称mfcc)特征和100维身份认证向量(identity-vector,简称i-vector)特征作为声学特征,然后采用声学特征和目标语言语料库中的各条目标语言语句对预设的高斯混合模型(gaussianmixedmodel,简称gmm)进行训练,通过高斯混合模型进行声学特征对齐,并进一步训练得到目标语言的深度神经网络基础声学模型,并将深度神经网络基础声学模型作为目标语言的语音识别模型。

    步骤s204,基于目标语言的各种方言分别对应的方言语料,分别对语音识别模型再次训练,得到对各种方言进行识别的方言语音识别模型。

    训练得到语音识别模型后,可以采用至少一种方言语料训练得到每种方言语料各自对应的方言语音识别模型。其中,任一方言为该目标语言的分支语言。

    比如,以藏语为例,藏语主要包括卫藏方言、康巴方言和安多方言三个分支语言。由于藏语的三大方言发音差别较大,不同方言区用户大多只关注各自使用方言的识别准确率,因此需要针对三种主要方言分别训练出对应的方言声学模型。

    在本发明一种优选实施例中,基于目标语言的各种方言分别对应的方言语料,分别对语音识别模型再次训练,得到对各种方言进行识别的方言语音识别模型,包括:

    采用所述目标语言的各种方言分别对应的方言语料,分别对所述语音识别模型进行迁移学习,得到所述各种方言语料各自对应的对所述各种方言进行识别的方言声学模型。

    具体而言,采用任一种方言语料对该语音识别模型进行迁移学习,并将语音识别模型的学习率降低到预设的比例,得到该种方言对应的方言语音识别模型,依此类推,从而得到每种方言各自对应的语音识别模型。

    其中,在迁移学习时,可以将目标语言的语音识别模型的输出层替换成方言的输出层,即共享深度神经网络隐层权重矩阵,如图5所示。

    比如,以藏语为例,先采用藏语语料库对深度神经网络进行训练,得到藏语语音识别模型,然后采用卫藏方言语料对藏语语音识别模型进行训练,从而得到卫藏方言的语音识别模型;采用康巴方言语料对藏语语音识别模型进行训练,从而得到康巴方言的语音识别模型;采用安多方言语料对藏语语音识别模型进行训练,从而得到安多方言的语音识别模型。

    当然,在实际应用中,提取的特征、特征的维度、声学模型的类型、声学模型的训练方法都可以根据实际需要进行设置,本发明实施例对此不作限制。

    在本发明实施例中,对目标语言的文本集进行拉丁化,得到目标语言的发音字典,然后基于发音字典和文本集生成目标语言语料库;目标语言语料库中包括文本集对应的语音语料;再根据目标语言语料库训练对目标语言进行识别的语音识别模型,并基于目标语言的各种方言分别对应的方言语料,分别对语音识别模型再次训练,得到对各种方言进行识别的方言语音识别模型。这样,通过拉丁化即可构建得到目标语言的发音字典,不需要人工标注,节省了大量的人力成本和时间成本;而且,针对目标语言不同分支的方言,通过预设的多种方言语料训练得到每种方言各自对应的方言语音识别模型,提升了每种方言的识别率。

    进一步,在构建目标语言语料库时通过转换三音子序列并计算三音子序列信息熵的方式,实现了在目标语言文本的数据量较小的情况下保证了发音现象的均衡覆盖,尤其是提高了不常用的发音现象的数量,大大提升了采用该语料库训练得到的语音识别模型的模型精度,提升了识别率。

    在另一个实施例中提供了基于各种方言语音识别模型的语言处理方法,如图6所示,该方法包括:

    步骤s601,获取目标语言的待处理音频;

    具体而言,可以通过应用程序客户端、小程序等类型的程序来获取目标语言的待处理音频,待处理音频可以是将通过音频处理设备采集到的声音转换得到。其中,应用程序客户端、小程序等类型的程序可以安装在终端中,终端可以具有如下特点:

    (1)在硬件体系上,设备具备中央处理器、存储器、输入部件和输出部件,也就是说,设备往往是具备通信功能的微型计算机设备。另外,还可以具有多种输入方式,诸如键盘、鼠标、触摸屏、送话器和摄像头等,并可以根据需要进行调整输入。同时,设备往往具有多种输出方式,如受话器、显示屏等,也可以根据需要进行调整;

    (2)在软件体系上,设备必须具备操作系统,如windowsmobile、symbian、palm、android、ios等。同时,这些操作系统越来越开放,基于这些开放的操作系统平台开发的个性化应用程序层出不穷,如通信簿、日程表、记事本、计算器以及各类游戏等,极大程度地满足了个性化用户的需求;

    (3)在通信能力上,设备具有灵活的接入方式和高带宽通信性能,并且能根据所选择的业务和所处的环境,自动调整所选的通信方式,从而方便用户使用。设备可以支持gsm(globalsystemformobilecommunication,全球移动通信系统)、wcdma(widebandcodedivisionmultipleaccess,宽带码分多址)、cdma2000(codedivisionmultipleaccess,码分多址)、tdscdma(timedivision-synchronouscodedivisionmultipleaccess,时分同步码分多址)、wi-fi(wireless-fidelity,无线保真)以及wimax(worldwideinteroperabilityformicrowaveaccess,全球微波互联接入)等,从而适应多种制式网络,不仅支持语音业务,更支持多种无线数据业务;

    (4)在功能使用上,设备更加注重人性化、个性化和多功能化。随着计算机技术的发展,设备从“以设备为中心”的模式进入“以人为中心”的模式,集成了嵌入式计算、控制技术、人工智能技术以及生物认证技术等,充分体现了以人为本的宗旨。由于软件技术的发展,设备可以根据个人需求调整设置,更加个性化。同时,设备本身集成了众多软件和硬件,功能也越来越强大。

    步骤s602,采用至少一个方言语音识别模型对待处理音频进行语音识别,得到对应的目标语言文本;其中,至少一个方言语音识别模型通过如步骤s201~步骤s203的语言的声学模型训练方法训练得到。

    具体而言,程序在获取到待处理音频后,可以采用预设的至少一个方言语音识别模型对该待处理音频进行语音识别,得到该待处理音频对应的目标语言文本。比如,程序在获取到一条藏语音频后,采用卫藏方言的语音识别模型、康巴方言的语音识别模型、安多方言的语音识别模型分别对该条藏语进行语音识别,从而得到对应的一条藏文文本。

    其中,至少一个方言语音识别模型通过步骤s101~步骤s103训练得到,在此就不赘述了。

    在本发明实施例中,当获取到目标语言的待处理音频时,采用预设的至少一个方言语音识别模型对待处理音频进行语音识别,得到对应的目标语言文本。这样,针对目标语言的待处理音频,通过预设的多种方言语料训练得到每种方言各自对应的方言语音识别模型,提升了目标语言的识别率,尤其是每种方言的识别率。

    图7为本申请又一实施例提供的一种语言的声学模型训练装置的结构示意图,如图7所示,本实施例的装置可以包括:

    第一处理模块701,用于对目标语言的文本集进行拉丁化,得到目标语言的发音字典;

    第二处理模块702,用于基于发音字典和文本集生成目标语言语料库;

    第三处理模块703,用于根据目标语言语料库训练对目标语言进行识别的语音识别模型;

    第四处理模块704,用于基于目标语言的各种方言分别对应的方言语料,分别对语音识别模型再次训练,得到对各种方言进行识别的方言语音识别模型。

    在本发明一种优选实施例中,文本集包括至少两条目标语言文本;

    第一处理模块包括:

    分割子模块,用于基于音节符对至少两条目标语言文本进行分割,得到至少两个音节;

    统计子模块,用于统计得到至少两个音节在文本集中各自对应的出现频率,并将至少两个音节中出现频率靠前的第一预设数量的音节作为目标音节;

    转换子模块,用于对各个目标音节进行拉丁化,得到各个目标音节各自对应的发音序列,并将各个发音序列的集合作为目标语言的发音字典。

    在本发明一种优选实施例中,第二处理模块包括:

    第一确定子模块,用于从至少两条目标语言文本中确定出至少两条目标语言语句;其中,任一条目标语言文本包括至少一条目标语言语句;

    第二确定子模块,用于基于发音字典和至少两条目标语言语句确定出至少两条目标语言语句;

    生成子模块,用于基于至少两条目标语言语句生成目标语言语料库。

    在本发明一种优选实施例中,第一确定子模块包括:

    第一过滤单元,用于对至少两条目标语言文本进行去重,得到剩余的至少两条第一目标语言文本;

    正则化单元,用于对至少两条第一目标语言文本进行正则化,得到正则化后的至少两条第二目标语言文本;

    分割单元,用于对至少两条第二目标语言文本进行语句分割,得到至少两条目标语言语句;

    第二过滤单元,用于确定出至少两条目标语言语句中音节数量超过第一音节数量阈值且不超过第二音节数量阈值的目标语言语句。

    在本发明一种优选实施例中,第二确定子模块包括:

    转换单元,用于采用发音字典对至少两条目标语言语句分别进行三音子转换,得到至少两条目标语言语句各自对应的三音子序列;

    计算单元,用于计算得到各个三音子序列的信息熵,并将信息熵最大的三音子序列对应的目标语义语句作为目标语言语句;

    针对至少两条目标语言语句中除目标语言语句之外的其它目标语言语句,重复调用转换单元、计算单元,直至目标语言语句的数量达到第二预设数量。

    在本发明一种优选实施例中,生成子模块包括:

    录制单元,用于对至少两条目标语言语句进行音频录制,得到至少两条目标语言语句各自对应的音频数据;

    存储单元,用于将至少两条目标语言语句和各自对应的音频数据进行存储,得到目标语言语料库。

    在本发明一种优选实施例中,第三处理模块包括:

    提取子模块,用于从目标语言语料库中的各个音频数据中提取出40维梅尔倒谱系数特征和100维身份认证向量特征作为声学特征;

    训练子模块,用于采用声学特征和目标语言语料库中的各条目标语言语句对预设的高斯混合模型进行训练,得到目标语言的语音识别模型。

    优选地,第四处理模块具体用于:采用所述目标语言的各种方言分别对应的方言语料,分别对所述语音识别模型进行迁移学习,得到所述各种方言语料各自对应的对所述各种方言进行识别的方言声学模型。

    优选地,还包括:

    获取模块,用于获取目标语言的待处理音频;

    识别模块,用于采用至少一个方言语音识别模型对待处理音频进行语音识别,得到对应的目标语言文本。

    本实施例的语言的声学模型训练装置可执行本申请第一个实施例所示的语言的声学模型训练方法,其实现原理相类似,此处不再赘述。

    在本发明实施例中,对目标语言的文本集进行拉丁化,得到目标语言的发音字典,然后基于发音字典和文本集生成目标语言语料库;目标语言语料库中包括文本集对应的语音语料;再根据目标语言语料库训练对目标语言进行识别的语音识别模型,并基于目标语言的各种方言分别对应的方言语料,分别对语音识别模型再次训练,得到对各种方言进行识别的方言语音识别模型。这样,通过拉丁化即可构建得到目标语言的发音字典,不需要人工标注,节省了大量的人力成本和时间成本;而且,针对目标语言不同分支的方言,通过预设的多种方言语料训练得到每种方言各自对应的方言声学模型,提升了每种方言的识别率。

    进一步,在构建目标语言语料库时通过转换三音子序列并计算三音子序列信息熵的方式,实现了在目标语言文本的数据量较小的情况下保证了发音现象的均衡覆盖,尤其是提高了不常用的发音现象的数量,大大提升了采用该语料库训练得到的声学模型的模型精度,提升了识别率。

    本申请的又一实施例中提供了一种电子设备,该电子设备包括:存储器和处理器;至少一个程序,存储于存储器中,用于被处理器执行时,与现有技术相比可实现:对目标语言的文本集进行拉丁化,得到目标语言的发音字典,然后基于发音字典和文本集生成目标语言语料库;目标语言语料库中包括文本集对应的语音语料;再根据目标语言语料库训练对目标语言进行识别的语音识别模型,并基于目标语言的各种方言分别对应的方言语料,分别对语音识别模型再次训练,得到对各种方言进行识别的方言语音识别模型。这样,通过拉丁化即可构建得到目标语言的发音字典,不需要人工标注,节省了大量的人力成本和时间成本;而且,针对目标语言不同分支的方言,通过预设的多种方言语料训练得到每种方言各自对应的方言声学模型,提升了每种方言的识别率。

    在一个可选实施例中提供了一种电子设备,如图8所示,图8所示的电子设备8000包括:处理器8001和存储器8003。其中,处理器8001和存储器8003相连,如通过总线8002相连。可选地,电子设备8000还可以包括收发器8004。需要说明的是,实际应用中收发器8004不限于一个,该电子设备8000的结构并不构成对本申请实施例的限定。

    处理器8001可以是cpu,通用处理器,dsp,asic,fpga或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器8001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,dsp和微处理器的组合等。

    总线8002可包括一通路,在上述组件之间传送信息。总线8002可以是pci总线或eisa总线等。总线8002可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

    存储器8003可以是rom或可存储静态信息和指令的其他类型的静态存储设备,ram或者可存储信息和指令的其他类型的动态存储设备,也可以是eeprom、cd-rom或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。

    存储器8003用于存储执行本申请方案的应用程序代码,并由处理器8001来控制执行。处理器8001用于执行存储器8003中存储的应用程序代码,以实现前述任一方法实施例所示的内容。

    其中,电子设备包括但不限于:移动电话、笔记本电脑、数字广播接收器、pda(个人数字助理)、pad(平板电脑)、pmp(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字tv、台式计算机等等的固定终端。

    本申请的又一实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。与现有技术相比,对目标语言的文本集进行拉丁化,得到目标语言的发音字典,然后基于发音字典和文本集生成目标语言语料库;目标语言语料库中包括文本集对应的语音语料;再根据目标语言语料库训练对目标语言进行识别的语音识别模型,并基于目标语言的各种方言分别对应的方言语料,分别对语音识别模型再次训练,得到对各种方言进行识别的方言语音识别模型。这样,通过拉丁化即可构建得到目标语言的发音字典,不需要人工标注,节省了大量的人力成本和时间成本;而且,针对目标语言不同分支的方言,通过预设的多种方言语料训练得到每种方言各自对应的方言声学模型,提升了每种方言的识别率。

    应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

    以上仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

    本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行时实现如下情况:

    对目标语言的文本集进行拉丁化,得到目标语言的发音字典;

    基于发音字典和文本集生成目标语言语料库;所述目标语言语料库中包括所述文本集对应的语音语料;

    根据所述目标语言语料库训练对所述目标语言进行识别的语音识别模型;

    基于所述目标语言的各种方言分别对应的方言语料,分别对所述语音识别模型再次训练,得到对所述各种方言进行识别的方言语音识别模型。


    技术特征:

    1.一种语言的声学模型训练方法,其特征在于,包括:

    对目标语言的文本集进行拉丁化,得到所述目标语言的发音字典;

    基于所述发音字典和所述文本集生成目标语言语料库;所述目标语言语料库中包括所述文本集对应的语音语料;

    根据所述目标语言语料库训练对所述目标语言进行识别的语音识别模型;

    基于所述目标语言的各种方言分别对应的方言语料,分别对所述语音识别模型再次训练,得到对所述各种方言进行识别的方言语音识别模型。

    2.根据权利要求1所述的语言的声学模型训练方法,其特征在于,所述文本集包括至少两条目标语言文本;

    所述对目标语言的文本集进行拉丁化,得到所述目标语言的发音字典,包括:

    基于音节符对所述至少两条目标语言文本进行分割,得到至少两个音节;

    统计得到所述至少两个音节在所述文本集中各自对应的出现频率,并将所述至少两个音节中出现频率靠前的第一预设数量的音节作为目标音节;

    对各个目标音节进行拉丁化,得到各个目标音节各自对应的发音序列,并将各个发音序列的集合作为所述目标语言的发音字典。

    3.根据权利要求1或2所述的语言的声学模型训练方法,其特征在于,所述基于所述发音字典和所述文本集生成目标语言语料库,包括:

    从至少两条目标语言文本中确定出至少两条目标语言语句;其中,任一条目标语言文本包括至少一条目标语言语句;

    基于所述发音字典和所述至少两条目标语言语句确定出至少两条目标语言语句;

    基于所述至少两条目标语言语句生成目标语言语料库。

    4.根据权利要求3所述的语言的声学模型训练方法,其特征在于,所述从至少两条目标语言文本中确定出至少两条目标语言语句,包括:

    对所述至少两条目标语言文本进行去重,得到剩余的至少两条第一目标语言文本;

    对所述至少两条第一目标语言文本进行正则化,得到正则化后的至少两条第二目标语言文本;

    对所述至少两条第二目标语言文本进行语句分割,得到至少两条目标语言语句;

    确定出所述至少两条目标语言语句中音节数量超过第一音节数量阈值且不超过第二音节数量阈值的目标语言语句。

    5.根据权利要求3所述的语言的声学模型训练方法,其特征在于,所述基于所述发音字典和所述至少两条目标语言语句确定出至少两条目标语言语句,包括:

    采用所述发音字典对所述至少两条目标语言语句分别进行三音子转换,得到所述至少两条目标语言语句各自对应的三音子序列;

    计算得到各个三音子序列的信息熵,并将信息熵最大的三音子序列对应的目标语义语句作为目标语言语句;

    针对所述至少两条目标语言语句中除所述目标语言语句之外的其它目标语言语句,重复执行采用所述发音字典对所述至少两条目标语言语句分别进行三音子转换,得到所述至少两条目标语言语句各自对应的三音子序列,以及计算得到各个三音子序列的信息熵,并将信息熵最大的三音子序列对应的目标语义语句作为目标语言语句的步骤,直至目标语言语句的数量达到第二预设数量。

    6.根据权利要求3所述的语言的声学模型训练方法,其特征在于,所述基于所述至少两条目标语言语句生成目标语言语料库,包括:

    对所述至少两条目标语言语句进行音频录制,得到所述至少两条目标语言语句各自对应的音频数据;

    将所述至少两条目标语言语句和各自对应的音频数据进行存储,得到目标语言语料库。

    7.根据权利要求1所述的语言的声学模型训练方法,其特征在于,所述根据所述目标语言语料库训练对所述目标语言进行识别的语音识别模型,包括:

    从所述目标语言语料库中的各个音频数据中提取出40维梅尔倒谱系数特征和100维身份认证向量特征作为声学特征;

    采用所述声学特征和所述目标语言语料库中的各条目标语言语句对预设的高斯混合模型进行训练,得到目标语言的语音识别模型。

    8.根据权利要求1所述的语言的声学模型训练方法,其特征在于,所述基于所述目标语言的各种方言分别对应的方言语料,分别对所述语音识别模型再次训练,得到对所述各种方言进行识别的方言语音识别模型,包括:

    采用所述目标语言的各种方言分别对应的方言语料,分别对所述语音识别模型进行迁移学习,得到所述各种方言语料各自对应的对所述各种方言进行识别的方言声学模型。

    9.根据权利要求1所述的语言的声学模型训练方法,其特征在于,还包括:

    获取所述目标语言的待处理音频;

    采用所述至少一个方言声学模型对所述待处理音频进行语音识别,得到对应的目标语言文本。

    10.一种语言的声学模型训练装置,其特征在于,包括:

    第一处理模块,用于对目标语言的文本集进行拉丁化,得到所述目标语言的发音字典;

    第二处理模块,用于基于所述发音字典和所述文本集生成目标语言语料库;所述目标语言语料库中包括所述文本集对应的语音语料;

    第三处理模块,用于根据所述目标语言语料库训练对所述目标语言进行识别的语音识别模型;

    第四处理模块,用于基于所述目标语言的各种方言分别对应的方言语料,分别对所述语音识别模型再次训练,得到对所述各种方言进行识别的方言语音识别模型。

    11.一种电子设备,其特征在于,其包括:

    处理器、存储器和总线;

    所述总线,用于连接所述处理器和所述存储器;

    所述存储器,用于存储操作指令;

    所述处理器,用于通过调用所述操作指令,执行上述权利要求1-9中任一项所述的语言的声学模型训练方法。

    12.一种计算机可读存储介质,其特征在于,所述计算机存储介质用于存储计算机指令,当其在计算机上运行时,使得计算机可以执行上述权利要求1-9中任一项所述的语言的声学模型训练方法。

    技术总结
    本申请提供了一种语言的声学模型训练方法、装置、电子设备及计算机可读存储介质,涉及语音识别领域。该方法包括:对所述目标语言的文本集进行拉丁化,得到所述目标语言的发音字典;基于所述发音字典和所述文本集生成目标语言语料库;根据所述目标语言语料库训练对所述目标语言进行识别的语音识别模型;基于所述目标语言的各种方言分别对应的方言语料,分别对所述语音识别模型再次训练,得到对所述各种方言进行识别的方言语音识别模型。本申请不需要人工标注,节省了大量的人力成本和时间成本;而且,针对目标语言不同分支的方言,通过预设的多种方言语料训练得到每种方言各自对应的方言声学模型,提升了每种方言的识别率。

    技术研发人员:颜京豪;黄申
    受保护的技术使用者:腾讯科技(深圳)有限公司
    技术研发日:2020.11.17
    技术公布日:2021.03.12

    转载请注明原文地址:https://wp.8miu.com/read-14622.html

    最新回复(0)