语音增强方法、语音增强装置以及计算机存储介质与流程

专利2025-04-14 58

本申请涉及语音处理领域，特别是涉及一种语音增强方法、语音增强装置以及计算机存储介质。

背景技术：

1、在日常生活中，经常会遇到在各种各样的噪声或背景声干扰下进行语音通信的情况，这会严重影响到用户的听觉体验，甚至导致用户根本听不清语音。因此，语音信号需要进行语音增强以提高目标语音的语义表达，使得目标语音从被噪声等污染的语音中提取出来。

2、语音增强涉及的应用领域十分广泛，包括语音通话、电话会议、场景录音、助听器设备和语音识别设备等。

3、在一应用场景中，在使用波束形成算法对输入的多通道语音信号进行增强时，通过抑制不需要的语音信号成分从而提高目标语音的信噪比。然而，在进行声源进行波束形成时，通常需要通过估计声源角度从而确定目标角度，并基于目标角度进行波束形成，当声源角度估计不准，或者目标在运动时候，将会引起角度估计的偏差，导致波束效果下降，从而造成语音增强效果不好。

技术实现思路

1、本申请主要解决的技术问题是如何减少噪音对语音增强过程中的干扰，对此，本申请提供一种语音增强方法、语音增强装置以及计算机存储介质。

2、为解决上述技术问题，本申请采用的一个技术方案是：提供一种语音增强方法，该方法包括：获取当前帧的待增强语音；基于待增强语音上一帧的观测信号协方差矩阵的逆矩阵以及遗忘因子获取待增强语音的观测信号协方差矩阵的逆矩阵；基于待增强语音的语音信号协方差矩阵以及待增强语音上一帧的语音信号协方差矩阵中的最大特征向量得到待增强语音的语音信号协方差矩阵中的最大特征向量,其中，最大特征向量为语音信号协方差矩阵中最大特征值对应的向量；基于待增强语音的观测信号协方差矩阵的逆矩阵和待增强语音的语音信号协方差矩阵中的最大特征向量得到待增强语音的增强权重；使用增强权重对待增强语音进行增强。

3、其中，在基于待增强语音上一帧的观测信号协方差矩阵的逆矩阵以及遗忘因子获取待增强语音的观测信号协方差矩阵的逆矩阵之前，语音增强方法还包括：基于待增强语音与上一帧之间的环境变化设置遗忘因子。

4、其中，基于待增强语音上一帧的观测信号协方差矩阵的逆矩阵以及遗忘因子获取待增强语音的观测信号协方差矩阵的逆矩阵，包括：对待增强语音进行共轭转置得到共轭转置矩阵；基于共轭转置矩阵和待增强语音对待增强语音上一帧的观测信号协方差矩阵的逆矩阵进行更新，并使用遗忘因子作为更新权重得到待增强语音的观测信号协方差矩阵的逆矩阵。

5、其中，在基于待增强语音的语音信号协方差矩阵以及待增强语音上一帧的语音信号协方差矩阵中的最大特征向量得到待增强语音的语音信号协方差矩阵中的最大特征向量之前，语音增强方法还包括：获取待增强语音的语音掩码；使用语音掩码对待增强语音进行估计求和处理，计算得到待增强语音对应的整体语音信号协方差矩阵。

6、其中，基于待增强语音的语音信号协方差矩阵以及待增强语音上一帧的语音信号协方差矩阵中的最大特征向量得到待增强语音的语音信号协方差矩阵中的最大特征向量，包括：基于整体语音信号协方差矩阵得到待增强语音的语音信号协方差矩阵；获取待增强语音上一帧的语音信号协方差矩阵中的最大特征向量；使用待增强语音上一帧的语音信号协方差矩阵中的最大特征向量与待增强语音的语音信号协方差矩阵相乘得到中间特征向量；对中间特征向量进行归一化处理得到待增强语音的语音信号协方差矩阵中的最大特征向量。

7、其中，在使用增强权重对待增强语音进行增强之后，语音增强方法还包括：计算待增强语音对应的通道中两两通道的频域相干函数；基于频域相干函数得到增益权重；使用增益权重对增强后的语音进行滤波得到最终的增强语音。

8、其中，在基于频域相干函数得到增益权重之后，还包括：使用两两通道的倒谱域自相干与互相干系数计算双通道倒频域系数；基于双通道倒频域系数对增益权重进行平滑处理以更新增益权重。

9、其中，使用增益权重对增强后的语音进行滤波得到最终的增强语音，包括：计算多个两两通道对应的增益权重的平均权重；使用平均权重对增强后的语音进行滤波得到最终的增强语音。

10、为解决上述技术问题，本申请采用的另一个技术方案是：提供一种语音增强装置，该语音增强装置包括处理器和存储器，存储器与处理器耦接，存储器存储有程序数据，处理器用于执行程序数据以实现如上述的语音增强方法。

11、为解决上述技术问题，本申请采用的另一个技术方案是：提供一种计算机可读存储介质，该计算机可读存储介质存储有程序数据，程序数据在被执行时，用于实现上述的语音增强方法。

12、本申请的有益效果是：区别于现有技术的情况，本申请提供的语音增强方法包括：获取当前帧的待增强语音；基于待增强语音上一帧的观测信号协方差矩阵的逆矩阵以及遗忘因子获取待增强语音的观测信号协方差矩阵的逆矩阵；基于待增强语音的语音信号协方差矩阵以及待增强语音上一帧的语音信号协方差矩阵中的最大特征向量得到待增强语音的语音信号协方差矩阵中的最大特征向量；基于待增强语音的观测信号协方差矩阵的逆矩阵和待增强语音的语音信号协方差矩阵中的最大特征向量得到待增强语音的增强权重；使用增强权重对待增强语音进行增强。通过上述方式，与常规的语音增强方法相比，本申请通过从待增强语音的语音信号协方差矩阵中获取语音的声源信息的方法，无需考虑声源角度与阵列等空间信息，从而避免了在估计声源角度与阵列过程中产生的误差对语音增强效果的影响，提高了语音增强的效果；且本申请基于待增强语音上一帧的语音信号协方差矩阵中的最大特征向量得到待增强语音的语音信号协方差矩阵中的最大特征向量，降低了获取最大特征向量的算法复杂度。

技术特征：

1.一种语音增强方法，其特征在于，所述语音增强方法包括：

2.根据权利要求1所述的语音增强方法，其特征在于，

3.根据权利要求1所述的语音增强方法，其特征在于，

4.根据权利要求1所述的语音增强方法，其特征在于，

5.根据权利要求4所述的语音增强方法，其特征在于，

6.根据权利要求1所述的语音增强方法，其特征在于，

7.根据权利要求6所述的语音增强方法，其特征在于，

8.根据权利要求6所述的语音增强方法，其特征在于，

9.一种语音增强装置，其特征在于，所述语音增强装置包括存储器以及与所述存储器耦接的处理器；

10.一种计算机存储介质，其特征在于，所述计算机存储介质用于存储程序数据，所述程序数据在被计算机执行时，用以实现如权利要求1至8任一项所述的语音增强方法。

技术总结
本申请公开了一种语音增强方法、语音增强装置以及计算机存储介质，该方法包括：获取当前帧的待增强语音；基于待增强语音上一帧的观测信号协方差矩阵的逆矩阵以及遗忘因子获取待增强语音的观测信号协方差矩阵的逆矩阵；基于待增强语音的语音信号协方差矩阵以及待增强语音上一帧的语音信号协方差矩阵中的最大特征向量得到待增强语音的语音信号协方差矩阵中的最大特征向量；基于待增强语音的观测信号协方差矩阵逆矩阵和待增强语音的语音信号协方差矩阵中的最大特征向量得到待增强语音的增强权重；使用增强权重对待增强语音进行增强。通过上述方式，无需考虑声源角度等信息就能得到待增强语音的声源特征信息，并计算增强权重实现对待增强语音的增强。

技术研发人员：毛亚朋,黄景标,方瑞东,林聚财,薛晗,黄威震,王国龙,殷俊
受保护的技术使用者：浙江大华技术股份有限公司
技术研发日：
技术公布日：2024/4/29

转载请注明原文地址:https://wp.8miu.com/read-85486.html

专利

最新回复(0)