用于在端到端模型中跨语言语音识别的基于音素的场境化的制作方法

    专利2025-04-09  26


    本公开涉及用于在端到端模型中的跨语言语音识别的基于音素的场境化(contextualization)。


    背景技术:

    1、识别语音的场境(context)是自动语音识别(asr)系统的目标。然而,鉴于人们可能讲出的各式各样的词以及口音和发音的许多变化,识别语音中的场境的能力是有挑战性的。在许多情况下,人讲出的词和短语的类型取决于该人他自己或她自己所处的场境而变化。

    2、场境自动语音识别(asr)涉及使语音识别向给定场境偏移(bias),诸如向用户自己的播放列表、联系人或地理地名偏移。场境信息通常包括要被识别的相关短语的列表,该列表经常包括在训练中不经常看到的罕见短语或甚至外语词。为了执行场境偏移,常规asr系统有时使用n元语法加权有限状态转换器(wfst)在独立场境语言模型(lm)中对场境信息进行建模,并且将独立场境lm与基线lm组成在一起以用于即时(otf)重新评分。

    3、近来,端到端(e2e)模型已经显示出用于asr的巨大希望,与常规设备上模型相比,展示出改进的词错误率(wer)和时延度量。将声学模型(am)、发音模型(pm)和lm合并到单个网络中以直接学习语音至文本映射的这些e2e模型与具有分开的am、pm和lm的常规asr系统相比已经显示出了有竞争性结果。代表性e2e模型包括基于词的连接主义时间分类(ctc)模型、循环神经网络转换器(rnn-t)模型以及诸如听、注意和拼写(las)的基于注意力的模型。因为e2e模型在波束搜索解码期间维持有限数量的识别候选,所以场境的asr对e2e模型来说能够是有挑战性的。


    技术实现思路

    1、本公开的一个方面提供一种用于使语音识别结果向偏移项列表中存在的项偏移的方法。该方法包括:在数据处理硬件处,接收对由第一语言的母语讲话者讲出的话语进行编码的音频数据;以及在数据处理硬件处,接收包括与第一语言不同的第二语言的一个或多个项的偏移项列表。该方法还包括:由数据处理硬件使用语音识别模型来处理从音频数据推导的声学特征,以生成第一语言的词条和对应音素序列两者的语音识别分数。该方法还包括:由数据处理硬件基于偏移项列表中的一个或多个项对音素序列的语音识别分数重新评分。该方法还包括:由数据处理硬件使用词条的语音识别分数和经重新评分的音素序列的语音识别分数来执行解码图以生成对话语的转录。

    2、本公开的实施方式可以包括以下任选的特征中的一个或多个。在一些实施方式中,对音素序列的语音识别分数重新评分包括使用偏移有限状态转换器(fst)对音素序列的语音识别分数重新评分。在这些实施方式中,该方法还可以包括:由数据处理硬件将偏移项列表中的每个项分词成第二语言的对应音素序列;由数据处理硬件将第二语言的对应音素序列映射到第一语言的对应音素序列;以及由数据处理硬件基于第一语言的每个对应音素序列该生成偏移fst。

    3、在一些示例中,语音识别模型包括端到端词条-音素模型。在特定示例中,端到端词条-音素模型包括循环神经网络-转换器(rnn-t)。

    4、在一些实施方式中,在解码图的执行期间,解码图使转录偏移以有利于偏移项列表中的一个或多个项中的任一个。语音识别模型可以在仅第一语言的训练话语上被训练。另外,没有该偏移项列表中的项可以被用于训练语音识别模型。

    5、数据处理硬件和语音识别模型可以驻留在用户设备或与该用户设备通信的远程计算设备上。当数据处理硬件和语音识别模型驻留在远程计算设备上时,接收对话语进行编码的音频数据可以包括从用户设备接收对话语进行编码的音频数据。

    6、本公开的另一方面提供一种用于使语音识别结果向偏移项列表中存在的项偏移的系统。该系统包括:数据处理硬件;以及存储器硬件,该存储器硬件与数据处理硬件通信并且存储指令,当在数据处理硬件上执行时,该指令使数据处理硬件执行操作。该操作包括:接收对由第一语言的母语讲话者讲出的话语进行编码的音频数据;接收包括与第一语言不同的第二语言的一个或多个项的偏移项列表;以及使用语音识别模型处理从音频数据推导的声学特征,以生成第一语言的词条和对应音素序列两者的语音识别分数。这些操作还包括:基于偏移项列表中的一个或多个项对音素序列的语音识别分数重新评分;以及使用词条的语音识别分数和重新评分的音素序列的语音识别分数来执行解码图以生成对话语的转录。

    7、该方面可以包括以下任选的特征中的一个或多个。在一些实施方式中,对音素序列的语音识别分数重新评分包括使用偏移有限状态转换器(fst)对音素序列的语音识别分数重新评分。在这些实施方式中,这些操作还可以包括:将偏移项列表中的每个项分词成第二语言的对应音素序列;将第二语言的对应音素序列映射到第一语言的对应音素序列;以及基于第一语言的每个对应音素序列来生成偏移fst。

    8、在一些示例中,语音识别模型包括端到端词条-音素模型。在特定示例中,端到端词条-音素模型包括循环神经网络-转换器(rnn-t)。

    9、在一些实施方式中,在解码图的执行期间,解码图使转录偏移以有利于偏移项列表中的一个或多个项中的任一个。语音识别模型可以在仅第一语言的训练话语上被训练。另外,没有偏移项列表中的项可以被用于训练语音识别模型。

    10、数据处理硬件和语音识别模型可以驻留在用户设备或与该用户设备通信的远程计算设备上。当数据处理硬件和语音识别模型驻留在远程计算设备上时,接收对话语进行编码的音频数据可以包括从用户设备接收对话语进行编码的音频数据。

    11、在附图和下面的描述中阐述了本公开的一种或多种实施方式的细节。从描述和附图以及从权利要求中,其他方面、特征和优点将是明显的。



    技术特征:

    1.一种计算机实现的方法,当由数据处理硬件接收时使所述数据处理硬件执行操作,所述操作包括:

    2.根据权利要求1所述的计算机实现的方法,其中,处理所述音频数据包括处理所述音频数据以生成所述第一语言中的所述音素序列的所述语音识别分数和所述第一语言中的词条的语音识别分数,作为来自所述语音识别模型的输出。

    3.根据权利要求2所述的计算机实现的方法,其中,在所述解码图的执行期间,所述解码图被配置为:

    4.根据权利要求1所述的计算机实现的方法,其中,所述语音识别模型包括端到端的词条-音素模型。

    5.根据权利要求4所述的计算机实现的方法,其中,所述端到端的词条-音素模型包括循环神经网络-转换器(rnn-t)。

    6.根据权利要求1所述的计算机实现的方法,其中,所述语音识别模型在仅所述第一语言的训练话语上被训练。

    7.根据权利要求1所述的计算机实现的方法,其中,所述偏移项列表中的任何项都不用于训练所述语音识别模型。

    8.根据权利要求1所述的计算机实现的方法,其中,所述数据处理硬件和所述语音识别模型驻留在用户设备上。

    9.根据权利要求1所述的计算机实现的方法,其中:

    10.根据权利要求1所述的计算机实现的方法,其中,对所述音素序列的所述语音识别分数重新评分包括使用偏移有限状态转换器(fst)以对所述音素序列的所述语音识别分数重新评分。

    11.一种系统,包括:

    12.根据权利要求11所述的系统,其中,处理所述音频数据包括处理所述音频数据以生成所述第一语言中的所述音素序列的所述语音识别分数和所述第一语言中的词条的语音识别分数,作为来自所述语音识别模型的输出。

    13.根据权利要求12所述的系统,其中,在所述解码图的执行期间,所述解码图被配置为:

    14.根据权利要求11所述的系统,其中,所述语音识别模型包括端到端的词条-音素模型。

    15.根据权利要求14所述的系统,其中,所述端到端的词条-音素模型包括循环神经网络-转换器(rnn-t)。

    16.根据权利要求11所述的系统,其中,所述语音识别模型在仅所述第一语言的训练话语上被训练。

    17.根据权利要求11所述的系统,其中,所述偏移项列表中的任何项都不用于训练所述语音识别模型。

    18.根据权利要求11所述的系统,其中,所述数据处理硬件和所述语音识别模型驻留在用户设备上。

    19.根据权利要求11所述的系统,其中:

    20.根据权利要求11所述的系统,其中,对所述音素序列的所述语音识别分数重新评分包括使用偏移有限状态转换器(fst)以对所述音素序列的所述语音识别分数重新评分。


    技术总结
    本申请公开了用于在端到端模型中跨语言语音识别的基于音素的场境化。一种方法(500)包括接收对由第一语言的母语讲话者(110)讲出的话语(106)进行编码的音频数据,以及接收包括不同于第一语言的第二语言的一个或多个项的偏移项列表(105)。该方法还包括使用语音识别模型(200)处理从音频数据推导的声学特征(105)以生成第一语言的词条和对应音素序列的语音识别分数。该方法还包括基于偏移项列表中的一个或多个项对音素序列的语音识别分数重新评分,以及使用词条的语音识别分数和音素序列的重新评分的语音识别分数执行解码图(400)以生成对话语的转录(116)。

    技术研发人员:胡珂,安托万·让·布吕盖,塔拉·N·赛纳特,罗希特·普拉卡什·普拉巴瓦尔卡尔,戈兰·蓬达克
    受保护的技术使用者:谷歌有限责任公司
    技术研发日:
    技术公布日:2024/4/29
    转载请注明原文地址:https://wp.8miu.com/read-85264.html

    最新回复(0)