语音转换方法、装置、电子设备及存储介质与流程

专利2026-05-13 6

本发明涉及语音数据处理领域，尤其涉及一种语音转换方法、装置、电子设备及存储介质。

背景技术：

1、随着深度神经网络的发展，声学模型(语音转换技术)在处理英语、中文等全球流通型的语种时已取得显著进步，声学模型的成功构建及其性能表现主要依赖于大规模且精心配对的语音样本(文本-音频样本)。

2、但是声学模型对于非流通型的小众语种(例如、粤语、上海话等地方方言)的支持有限，主要原因在于小众语种的高质量语音样本比较稀缺，在缺乏充足且高质量语音样本的支持下，导致声学模型在学习和泛化不同说话者的语音特征时面临困难，容易导致转换后的语音不自然或者无法体现目标说话人的个性特征。

3、例如在金融客服场景中，在广东地区，许多用户习惯使用粤语交流，而在上海，上海话是当地居民广泛使用的方言。若金融机构想要为其客户提供用方言进行交互的智能客服功能，则面临声学模型训练数据不足的问题，导致转换后的语音不自然或者无法体现当地方言的个性特征。

技术实现思路

1、鉴于以上内容，有必要提供一种语音转换方法，其目的在第一说话人不会说小众语种的基础上，将文本内容转换为具有第一说话人的音色特征的小众语种的合成语音。

2、本发明提供的语音转换方法，包括：

3、将第一说话人的第一语音样本的文本内容转化为音素序列，对所述音素序列执行编码得到音素序列特征，所述第一语音样本为流通型的第一语种的语音数据；

4、从所述第一语音样本中提取所述第一说话人的音色特征，获取第二说话人的第二语音样本，所述第二语音样本为非流通型的第二语种的语音数据；

5、从所述第二语音样本中提取所述第二说话人对于第二语种的发音特征，拼接所述音素序列特征与所述音色特征，得到第一拼接特征，拼接所述音素序列特征与所述发音特征，得到第二拼接特征；

6、对所述第一拼接特征和所述第二拼接特征进行域对抗处理，当计算所述第一拼接特征和所述第二拼接特征之间的概率分布值小于预设阈值时，得到第一特征序列，对所述第一特征序列进行重构波形，得到将所述文本内容转换为具有所述第一说话人的音色特征的第二语种的合成语音。

7、可选的，所述将第一说话人的第一语音样本的文本内容转化为音素序列，包括：

8、从所述第一语音样本中提取文本内容，对所述文本内容进行单词分割；

9、对分割后的单词标注音素标识，汇集标注后的所有单词得到所述音素序列。

10、可选的，所述对所述音素序列执行编码得到音素序列特征，包括：

11、对所述音素序列的每个音素进行编码，提取编码后的每个音素对应的单词之间的上下文关系，得到所述音素序列特征。

12、可选的，所述从所述第一语音样本中提取所述第一说话人的音色特征，包括：

13、计算所述第一语音样本的第一梅尔频率倒谱系数，从所述第一梅尔频率倒谱系数中提取所述第一说话人的音色特征。

14、可选的，所述从所述第二语音样本中提取所述第二说话人对于第二语种的发音特征，包括：

15、计算所述第二语音样本的第二梅尔频率倒谱系数，从所述第二梅尔频率倒谱系数中提取每个参数的时间变化特性，得到所述第二语种的发音特征，所述参数包括音素准确度、音段特征、韵律结构、连读现象、变音现象。

16、可选的，所述对所述第一特征序列进行重构波形之前，所述方法还包括：

17、对所述第一特征序列执行量化处理，将量化后的潜在特征映射至预设的码本上进行抽样，得到抽样后的第一特征序列。

18、可选的，所述对所述第一特征序列进行重构波形，得到将所述文本内容转换为具有所述第一说话人的音色特征的第二语种的合成语音，包括：

19、对所述第一特征序列执行解码，将解码后的第一特征序列还原为时间域信号；

20、根据所述时间域信号，将所述文本内容转换为具有所述第一说话人的音色特征的第二语种的合成语音。

21、为了解决上述问题，本发明还提供一种语音转换装置，所述装置包括：

22、编码模块，用于将第一说话人的第一语音样本的文本内容转化为音素序列，对所述音素序列执行编码得到音素序列特征，所述第一语音样本为流通型的第一语种的语音数据；

23、提取模块，用于从所述第一语音样本中提取所述第一说话人的音色特征，获取第二说话人的第二语音样本，所述第二语音样本为非流通型的第二语种的语音数据；

24、拼接模块，用于从所述第二语音样本中提取所述第二说话人对于第二语种的发音特征，拼接所述音素序列特征与所述音色特征，得到第一拼接特征，拼接所述音素序列特征与所述发音特征，得到第二拼接特征；

25、转换模块，用于对所述第一拼接特征和所述第二拼接特征进行域对抗处理，当计算所述第一拼接特征和所述第二拼接特征之间的概率分布值小于预设阈值时，得到第一特征序列，对所述第一特征序列进行重构波形，得到将所述文本内容转换为具有所述第一说话人的音色特征的第二语种的合成语音。

26、为了解决上述问题，本发明还提供一种电子设备，所述电子设备包括：

27、至少一个处理器；以及，

28、与所述至少一个处理器通信连接的存储器；其中，

29、所述存储器存储有可被所述至少一个处理器执行的语音转换程序，所述语音转换程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述语音转换方法。

30、为了解决上述问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有语音转换程序，所述语音转换程序可被一个或者多个处理器执行，以实现上述语音转换方法。

31、相较现有技术，本发明将第一说话人的第一语种流通语音样本对应的文本内容转化为音素序列，并对这个音素序列进行编码，得到能反映发音结构和模式的音素序列特征，从第一语音样本中提取第一说话人的个性化音色特征，从第二说话人的非流通型第二语种语音样本中提取出针对第二语种的发音特征，即目标语言特有的发音规律和特点。

32、将第一说话人的音色特征与音素序列特征结合形成第一拼接特征，同时将音素序列特征与第二说话人在第二语种上的发音特征结合得到第二拼接特征，实现了源语种发音信息与目标语种发音特点以及源说话人音色的初步融合。

33、通过域对抗训练的方式，调整第一拼接特征和第二拼接特征的概率分布，使生成的拼接特征可能接近真实，当两者之间的差异小于预设阈值时，表明已成功地在第一和第二拼接特征之间建立了转换关系。

34、对第一特征序列进行重构波形操作，生成的是具有第一说话人音色特征的第二语种合成语音。

35、本发明有效地解决了在缺乏大规模高质量的小众语言数据的情况下，将一种流通型语种的说话人的语音特性迁移到另一种非流通型小众语种的难题，为智能客服、语音翻译、虚拟助手等领域提供了有力的技术支持。

36、即使在不同的语言环境下，其也能成功地模拟出第一说话人在说第二语种时的声音表现，从而实现了个性化且跨语言的高质量语音合成。

技术特征：

1.一种语音转换方法，其特征在于，所述方法包括：

2.如权利要求1所述的语音转换方法，其特征在于，所述将第一说话人的第一语音样本的文本内容转化为音素序列，包括：

3.如权利要求1所述的语音转换方法，其特征在于，所述对所述音素序列执行编码得到音素序列特征，包括：

4.如权利要求1所述的语音转换方法，其特征在于，所述从所述第一语音样本中提取所述第一说话人的音色特征，包括：

5.如权利要求1所述的语音转换方法，其特征在于，所述从所述第二语音样本中提取所述第二说话人对于第二语种的发音特征，包括：

6.如权利要求1所述的语音转换方法，其特征在于，所述对所述第一特征序列进行重构波形之前，所述方法还包括：

7.如权利要求1所述的语音转换方法，其特征在于，所述对所述第一特征序列进行重构波形，得到将所述文本内容转换为具有所述第一说话人的音色特征的第二语种的合成语音，包括：

8.一种语音转换装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有语音转换程序，所述语音转换程序可被一个或者多个处理器执行，以实现如权利要求1至7任一项所述的语音转换方法。

技术总结
本发明涉及语音数据处理领域，揭露一种语音转换方法，包括：将第一语音样本的文本内容转化为音素序列，对音素序列执行编码得到音素序列特征；从第一语音样本中提取第一说话人的音色特征，从第二语音样本中提取第二说话人对于第二语种的发音特征，拼接音素序列特征与音色特征，得到第一拼接特征，拼接音素序列特征与发音特征，得到第二拼接特征；对第一拼接特征和第二拼接特征进行域对抗处理，当计算第一拼接特征和第二拼接特征之间的概率分布值小于预设阈值时，得到第一特征序列，对第一特征序列进行重构波形，得到合成语音。本发明应用于金融客服领域，其能够将文本内容转换为具有目标说话人的个性特征的第二语种的合成语音。

技术研发人员：陈闽川,马骏,王少军,肖京
受保护的技术使用者：平安科技（深圳）有限公司
技术研发日：
技术公布日：2024/4/29

转载请注明原文地址:https://wp.8miu.com/read-97085.html

专利

最新回复(0)