由电子设备执行的方法和电子设备与流程

专利2025-04-29 51

本发明涉及语音合成领域，尤其涉及声音克隆/个性化语音合成技术。

背景技术：

1、语音合成是将输入文字转化为语音输出的一项技术，声音克隆是在此基础上利用目标说话人数据对语音合成系统进行定制化以实现该目标说话人声音的合成(例如用自己声音导航、做语音助手等)。根据目标说话人注册数据量不同，具体的声音克隆技术可能有所差异。

2、因此，需要提高合成语音的相似度。

技术实现思路

1、根据本发明实施例的一个方面，提供了一种由电子设备执行的方法，包括：获取待处理的数据；基于与目标说话人对应的注册数据来提取目标说话人的口音表示；以及基于所提取的口音表示，将待处理的数据生成与目标说话人对应的语音。

2、在一个例子中，基于所提取的口音表示，将待处理的数据生成与目标说话人对应的语音包括：基于待处理的数据的音素序列和目标说话人的口音表示，使用编码器网络，得到音素编码特征；基于所述音素编码特征，使用解码器网络，得到与目标说话人对应的声学特征。

3、在一个例子中，基于与目标说话人对应的注册数据来提取目标说话人的口音表示，包括：基于与目标说话人对应的注册数据来提取目标说话人的口音表示、说话人表示和韵律表示；并且其中，基于所提取的口音表示，将待处理的数据生成与目标说话人对应的语音，包括：基于所提取的口音表示、说话人表示和韵律表示，将待处理的数据生成与目标说话人对应的语音。

4、在一个例子中，基于所提取的口音表示、说话人表示和韵律表示，将待处理的数据生成与目标说话人对应的语音，包括：基于待处理的数据的音素序列和目标说话人的口音表示，使用编码器网络，得到音素编码特征；基于编码器网络输出的音素编码特征、所提取的说话人表示和韵律表示，使用解码器网络，得到与目标说话人对应的声学特征。

5、在一个例子中，基于编码器网络输出的音素编码特征、所提取的说话人表示和韵律表示，使用解码器网络，得到与目标说话人对应的声学特征，包括：基于待处理的数据的音素序列和所提取的韵律表示进行韵律预测，获得与音素对应的时长和韵律编码；利用预测得到的时长对所述音素编码特征进行长度扩展；以及基于扩展的音素编码特征、所提取的说话人表示和所述韵律编码，使用解码器网络，得到与目标说话人对应的声学特征。

6、在一个例子中，基于待处理的数据的音素序列和所提取的韵律表示进行韵律预测，获得与音素对应的韵律编码，包括：基于待处理的数据的音素序列和所提取的韵律表示进行韵律预测，获得韵律编码的均值和方差序列；基于所述均值和方差序列，确定与音素对应的韵律编码。

7、在一个例子中，提取目标说话人的口音表示包括：从注册数据中提取目标说话人的第一语音后验概率；根据与该注册数据对应的每个音素的时长，对所述第一语音后验概率进行音素级池化，得到第二语音后验概率；以及比较所述第二语音后验概率与目标发音概率，得到目标说话人的口音表示。

8、根据本发明实施例的另一方面，提供一种电子设备，包括：获取单元，被配置为获取待处理的数据；口音提取单元，被配置为基于与目标说话人对应的注册数据来提取目标说话人的口音表示；以及语音生成单元，被配置为基于所提取的口音表示，将待处理的数据生成与目标说话人对应的语音。

9、在一个例子中，所述语音生成单元进一步被配置为：基于待处理的数据的音素序列和目标说话人的口音表示，使用编码器网络，得到音素编码特征；基于所述音素编码特征，使用解码器网络，得到与目标说话人对应的声学特征。

10、在一个例子中，所述电子设备还包括：说话人提取单元，被配置为基于与目标说话人对应的注册数据来提取目标说话人的说话人表示；以及韵律表示提取单元，配置为基于与目标说话人对应的注册数据来提取目标说话人的韵律表示；并且其中，所述语音生成单元进一步被配置为基于所提取的口音表示、说话人表示和韵律表示，将待处理的数据生成与目标说话人对应的语音。

11、在一个例子中，所述语音生成单元还被配置为基于所提取的口音表示、说话人表示和韵律表示，将待处理的数据生成与目标说话人对应的语音，包括：基于待处理的数据的音素序列和目标说话人的口音表示，使用编码器网络，得到音素编码特征；基于编码器网络输出的音素编码特征、所提取的说话人表示和韵律表示，使用解码器网络，得到与目标说话人对应的声学特征。

12、在一个例子中，所述语音生成单元还被配置为基于编码器网络输出的音素编码特征、所提取的说话人表示和韵律表示，使用解码器网络，得到与目标说话人对应的声学特征包括：基于待处理的数据的音素序列和所提取的韵律表示进行韵律预测，获得与音素对应的时长和韵律编码；利用预测得到的时长对所述音素编码特征进行长度扩展；以及基于扩展的音素编码特征、所提取的说话人表示和所述韵律编码，使用解码器网络，得到与目标说话人对应的声学特征。

13、在一个例子中，基于待处理的数据的音素序列和所提取的韵律表示进行韵律预测，获得与音素对应的韵律编码，包括：基于待处理的数据的音素序列和所提取的韵律表示进行韵律预测，获得韵律编码的均值和方差序列；基于所述均值和方差序列，确定与音素对应的韵律编码。

14、在一个例子中，所述口音提取单元进一步被配置为：从注册数据中提取目标说话人的第一语音后验概率；根据与该注册数据对应的每个音素的时长，对所述第一语音后验概率进行音素级池化，得到第二语音后验概率；以及比较所述第二语音后验概率与目标发音概率，得到目标说话人的口音表示。

15、根据本发明实施例的再一方面，提供一种电子系统，包括：存储器，被配置为存储指令；以及处理器，与存储器耦接，并被配置为运行所述指令，以使所述电子系统执行前述任一项所述的方法。

16、根据本发明实施例的再一方面，提供一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现前述任一项所述的方法。

17、根据本发明实施例的再一方面，提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现前述任一项所述的音频信号处理方法。

18、因此，根据本发明实施例，在进行语音克隆时，提取目标说话人的口音，以学习发音人的口音特点。因此，与仅使用单一说话人音色表示的系统相比，可有效提升单样本声音克隆的说话人相似度。

技术特征：

1.一种由电子设备执行的方法，包括：

2.根据权利要求1所述的方法，其中，基于所提取的口音表示，将待处理的数据生成与目标说话人对应的语音包括：

3.根据权利要求1或2所述的方法，其中，基于与目标说话人对应的注册数据来提取目标说话人的口音表示，包括：

4.根据权利要求3所述的方法，其中，基于所提取的口音表示、说话人表示和韵律表示，将待处理的数据生成与目标说话人对应的语音，包括：

5.根据权利要求4所述的方法，其中，基于编码器网络输出的音素编码特征、所提取的说话人表示和韵律表示，使用解码器网络，得到与目标说话人对应的声学特征，包括：

6.根据权利要求5所述的方法，其中，基于待处理的数据的音素序列和所提取的韵律表示进行韵律预测，获得与音素对应的韵律编码，包括：

7.根据权利要求1至6中的任一项所述的方法，其中，提取目标说话人的口音表示包括：

8.一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要求1至7中任一项所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的音频信号处理方法。

技术总结
本公开提供了一种由电子设备执行的方法，包括：获取待处理的数据；基于与目标说话人对应的注册数据来提取目标说话人的口音表示；以及基于所提取的口音表示，将待处理的数据生成与目标说话人对应的语音。多个模块中的至少一个可以通过AI模型来实现。可以通过非易失性存储器、易失性存储器和处理器来执行与AI相关联的功能。

技术研发人员：卢春晖,文学,宋黎明,楼晓雁
受保护的技术使用者：北京三星通信技术研究有限公司
技术研发日：
技术公布日：2024/4/29

转载请注明原文地址:https://wp.8miu.com/read-86223.html

专利

最新回复(0)