一种音频信号处理方法、装置、设备和介质与流程

    专利2022-07-08  112


    本发明实施例涉及信号处理技术领域,尤其涉及一种音频信号处理方法、装置、设备和介质。



    背景技术:

    语音交互系统中的回声是指扬声器播放出来的声音经过外界环境反射后进入麦克风中形成的声音。回声会干扰本地语音。由于回声存在,导致语音交互系统无法得到干净的目标语音。通常需要对语音信号的处理之后在进行信号的传输,以提升用户体验。

    回声抑制装置对声音信号的处理通常包含线性处理和非线性处理。首先,通过线性处理模块对麦克风采集的信号和扬声器输出参考信号进行线性滤波处理,通常采用自适应线性滤波器的形式;然后,根据麦克风接收信号和扬声器输出参考信号的相关性进行非线性回声抑制。

    但是,在进行信号处理的过程中,直接采用麦克风接收信号和扬声器输出参考信号的全带信号确定非线性回声抑制系数,导致非线性滤波器的滤波误差较大,不能完全过滤掉非线性误差,对麦克风采集的本地语音造成的畸变严重,导致输出语音卡顿,用户体验不佳。



    技术实现要素:

    本发明实施例提供一种音频信号处理方法、装置、设备和介质,以实现分频段多尺度的方式对语音信号进行线性与非线性滤波处理,提高语音质量。

    第一方面,本发明实施例提供了一种音频信号处理方法,该方法包括:

    获取远端声音信号与近端声音信号,并根据预设频段分组对所述远端声音信号和所述近端声音信号分别进行分组得到多个频段的子信号;

    基于所述子信号得到多个频段对应的预测回声信号;

    根据所述近端信号与所述预测回声信号得到初始输出信号,并对所述初始输出信号进行非线性信号抑制,完成音频信号处理过程。

    可选的,所述根据预设频段分组对所述远端声音信号和所述近端声音信号分别进行分组得到多个频段的子信号,包括:

    将所述远端声音信号和所述近端声音信号分别转换为频域声音信号;

    按照预设频段分组将所述频域声音信号分组得到所述多个频段的子信号,其中,所述预设频段分组是预先按照人耳听觉敏感频域进行划分的。

    分别对各所述子信号在对应的频域内进行子波变换,得到所述远端声音信号的各频域子信号的子波变换信号和所述近端声音信号的各频域子信号的子波变换信号;

    根据所述远端声音信号的各频域子信号的子波变换信号和所述近端声音信号的各频域子信号的子波变换信号,确定自适应滤波器组的滤波系数;

    将所述远端声音信号的各频域子信号的子波变换信号输入至所述自适应滤波器组进行滤波,其中,所述自适应滤波器组中的滤波器数量与所示预设频段分组的数量相同;

    对滤波后的信号进行子波反变换,得到所述预测回声信号。

    可选的,所述预设频段分组中,不同的频率区域中,频段分组间隔是不同的。

    可选的,对所述初始输出信号进行非线性信号抑制,包括:

    对所述初始输出信号进行非线性拟合抑制处理。

    可选的,所述非线性拟合抑制中的非线性拟合抑制因子是通过机器学习方法预先确定的非线性拟合抑制曲线的参数。

    可选的,所述预设滤波器组包括一个低通滤波器和多个带通滤波器,所述预设滤波器组中各滤波器的系数为对应滤波频段的子波变换函数的相关系数。

    第二方面,本发明实施例还提供了一种音频信号处理装置,该装置包括:

    信号预处理模块,用于获取远端声音信号和近端声音信号,并根据预设频段分组对所述远端声音信号和所述近端声音信号分别进行分组得到多个频段的子信号;

    回声预测模块,用于基于所述子信号得到多个频段对应的预测回声信号;

    噪声抑制模块,用于所述近端信号与所述预测回声信号得到初始输出信号,并对所述初始输出信号进行非线性信号抑制,完成音频信号处理过程。

    可选的,信号预处理模块具体用于:

    将所述远端声音信号和所述近端声音信号分别转换为频域声音信号;

    按照预设频段分组将所述频域声音信号分组得到所述多个频段的子信号,其中,所述预设频段分组是预先按照人耳听觉敏感频域进行划分的。

    可选的,回声预测模块具体用于:

    分别对各所述子信号在对应的频域内进行子波变换,得到所述远端声音信号的各频域子信号的子波变换信号和所述近端声音信号的各频域子信号的子波变换信号;

    根据所述远端声音信号的各频域子信号的子波变换信号和所述近端声音信号的各频域子信号的子波变换信号,确定自适应滤波器组的滤波系数;

    将所述远端声音信号的各频域子信号的子波变换信号输入至所述自适应滤波器组进行滤波,其中,所述自适应滤波器组中的滤波器数量与所示预设频段分组的数量相同;

    对滤波后的信号进行子波反变换,得到所述预测回声信号。

    可选的,所述预设频段分组中,不同的频率区域中,频段分组间隔是不同的。

    可选的,噪声抑制模块具体用于:

    对所述初始输出信号进行非线性拟合抑制处理。

    可选的,所述非线性拟合抑制中的非线性拟合抑制因子是通过机器学习方法预先确定的非线性拟合抑制曲线的参数。

    可选的,所述预设滤波器组包括一个低通滤波器和多个带通滤波器,所述预设滤波器组中各滤波器的系数为对应滤波频段的子波变换函数的相关系数。

    第三方面,本发明实施例还提供了一种计算机设备,该计算机设备包括:

    一个或多个处理器;

    存储装置,用于存储一个或多个程序;

    当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例中任一所述的音频信号处理方法。

    第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如发明实施例中任一所述的音频信号处理方法。

    本发明实施例,通过根据预设频段分组对远端声音信号和近端声音信号进行分组得到多个频段的子信号;分别在各频段对子信号进行处理得到多个频段对应的预测回声信号,即对远端信号进行多尺度的滤波处理,根据麦克风采集到的近端信号与所述预测回声信号得到初始输出信号,并对所述初始输出信号进行非线性信号抑制,完成音频信号处理过程,解决了现有技术中非线性滤波器在全频段滤波,滤波结果误差较大,对麦克风采集的本地语音造成的畸变严重的问题;可以实现分频段多尺度的方式对语音信号进行线性与非线性滤波处理,提高语音质量,减少本地语音畸变,提升用户体验。

    附图说明

    图1是本发明实施例一中的音频信号处理方法的流程图;

    图2是本发明实施例一中的音频信号处理过程的示意图;

    图3是本发明实施例二中的音频信号处理装置的结构示意图;

    图4是本发明实施例三中的计算机设备的结构示意图。

    具体实施方式

    为使本发明的目的、技术方案和优点更加清楚,以下将参照本发明实施例中的附图,通过实施方式清楚、完整地描述本发明的技术方案,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。下述各实施例中,每个实施例中同时提供了可选特征和示例,实施例中记载的各个特征可进行组合,形成多个可选方案,不应将每个编号的实施例仅视为一个技术方案。

    实施例一

    图1为本发明实施例一提供的音频信号处理方法的流程图,本实施例可适用于语音交互过程中,实时的对语音信号进行处理,以噪声抑制的情况,该方法可以由音频信号处理装置实现,该装置配置于计算机设备中,具体可通过计算机设备中的软件和/或硬件来实施。

    如图1所示,音频信号处理方法具体包括:

    s110、获取远端声音信号与近端声音信号,并根据预设频段分组对所述远端声音信号和所述近端声音信号分别进行分组得到多个频段的子信号。

    具体的,远端声音信号是指在进行语音交互的双方中,对其中一方而言,对方的语音信号即为远端声音信号。例如,用户a和用户b通过便携式的终端进行语音通话,a说“123”,b的手机终端,接收到“123”并通过音响和扬声器进行播放,对于b的终端来说,“123”即为远端声音信号。b的终端采集到的b的语音以及终端播放出的“123”和其他的线性或非线性噪声信号即为近端声音信号。当然,可以理解的是,只有b的语音的近端信号时理想情况下的近端声音信号,而事实上是,b的终端播放出的“123”及回声信号也可能会被b的终端麦克风采集到,得到有噪声的近端声音信号。本实施例的目的也即把近端声音信号中的噪声滤除,使a清楚的听到b的语音。

    首先,将远端声音信号和近端声音信号转换为频域声音信号,示例性的,可以采用傅里叶变换等方式,将远端声音信号和近端声音信号转换为频域信号。

    然后,按照预设频段分组将频域声音信号分组得到所述多个频段的子信号,其中,所示预设频段分组是预先按照人耳对声音信号的敏感频域进行划分的。例如,将待进行信号处理的语音频率限定在80-4500hz之间,并根据人耳听觉特性,在80-4500hz的频域内划分为18个频段,并按顺序编号。其中,选择80hz作为选定频域下限主要是考虑到50hz工频会对扬声器播放的声音产生一定的影响,因此要避开工频信号的频域,当然,也可以选择60h或100hz等频率作为选定频域下限,在本实施例中80hz仅做示例性的说明。进一步的,在80-4500hz的频域内划分频段可以是在80-500hz范围内以ahz为间隔划分n1个频段,500-1000hz范围内以bhz为间隔划分n2个频段,1000-1500hz范围内以chz为间隔划分n3个频段,1500-200hz范围内以dhz为间隔划分n4个频段,2000-3000hz范围内以ehz为间隔划分n5个频段,3000-4500hz范围内以fhz为间隔划分n6个频段,总共为m=n1 n2 n3 n4 n5 n6个频段,m的值为18。尺度n1、n2、n3、n4、n5及n6可以根据频段所占比进行自适应调。也就是,在不同的频率区间中,划分频段的步长是不同的,在人耳声音敏感的频域内,可以划分更多的频段,例如在500-1000hz的范围内划分6个频段,在3000-4500hz范围内,只划分2个频段。在实际应用中,可以根据技术人员实际经验或是实验结果进行频段划分,例如,计算实验过程中,各子信号残差谱信号能量,根据预设定的各划分频段的子信号残差谱信号能量阈值进行划分。

    经过对频域声音信号分组,便可以得到所述多个频段的子信号,以进一步的,在不同频率尺度下,分别对各子信号进行处理。划分频率与线性频率间的变换函数关系可表示为:bi=f(f),其中,bi表示第i个频段。f(f)可以是一个以频率f为因变量的分段函数,可以根据频域声音信号的频率进行信号分组。

    s120、基于所述子信号得到多个频段对应的预测回声信号。

    具体的,首先,分别对各所述子信号在对应的频域内进行子波变换,得到所述远端声音信号的各频域子信号的子波变换信号和所述近端声音信号的各频域子信号的子波变换信号。在本实施例中,设定子波函数为:假定待处理非线性语音信号在所划分域上的频带宽度为[bi,bj],则有wk(b)=w(b-bi-kδb),其中k=0,1,2…,k-1,k表示子信号的个数,c为调整因子,如可取4ln2,i、j为所分频段数;δb=(bj-bi)/(k-1),k为尺度因子。则wk(b)转换到线性频率下的子波变换为:其中,s(f)为待处理信号的频谱,待处理语音信号包括远端声音信号与近端声音信号。

    采用多尺度子波变换,近端信号处理后将会出现以下几种情况:1、只含有部分原始信号频率成分;2、含有部分原始信号频率成分和与其相关的干扰成分;3、仅含有干扰成分;4、没有有效的频率成分。因为每个自适应滤波器是独立收敛,所以情况1将会正常收敛,情况2可以认为是含有加性噪声的线性辨识问题,其收敛将会受到加性噪声的影响,情况3将无法收敛,情况4中没有有效的信息,但是也没有残余回声。这样,根据人耳对不同频率的语音听觉效果不同,可以采用不同的滤波系数及抑制因子,无论效果还是收敛速度都优于全频段抑制方法。另外,滤波器仅在情况3下无法收敛,增强了回声抑制的鲁棒性。

    然后,根据所述远端声音信号的各频域子信号的子波变换信号和所述近端声音信号的各频域子信号的子波变换信号,确定自适应滤波器组的滤波系数,其中;滤波器组中的滤波器数量与所示预设频段分组的数量相同,当预设有m各频段时,滤波器组由m个滤波器构成,这些滤波器分别为:h0(n1t1),h1(n1t1),…,hk(n1t1),…,hm-1(n1t1),t1为采样间隔。其中,h0(n1t1)是一个低通滤波器,其余的滤波器具有如下的结构:其中,k=0,1,2…,m-1,k表示第k个频带或是第k个滤波器,bk为对应的子波相关系数。在本实施例中,各滤波器的系数,可以根据子波残差谱信号能量阈值自适应调整。进而,将远端声音信号的各频域子信号的子波变换信号输入至确定了滤波器系数的自适应滤波器组进行滤波。

    最后,对滤波后的各信号进行子波反变换,即可得到预测回声信号。

    s130、根据所述近端声音信号与所述预测回声信号得到初始输出信号,并对所述初始输出信号进行非线性信号抑制,完成音频信号处理过程。

    具体的,信号的处理过程,可以参考图2所示的声音信号处理过程。其中,x(n)表示远端声音信号,表示预测回声信号,y(n)表示近端信号,e(n)表示残差谱信号,即初始输出信号,还可以根据e(n)反馈调节自适应滤波器的系数。进而,对初始输出信号进行非线性拟合抑制处理,得到最终的输出信号为回声消除信号(acousticechocancellation)ace(n)。

    在一种实施方式中,非线性拟合抑制中的非线性拟合抑制因子可以通过机器学习预先确定的非线性拟合抑制曲线的参数。通过根据残差能量和输入信号能量比的增量,确定非线性拟合抑制因子。其中,残差能量是指对信号e(n)幅值的平方值,输入信号能量是指y(n)幅值的平方。例如,残差能量为:a1,a2,a3,a4,a5…,输入信号能量为:b1,b2,b3,b4,b5,则残差能量和输入信号能量比为:c1=a1/b1,c2=a2/b2,c3=a3/b3,c4=a4/b4,c5=a5/b5;残差能量和输入信号能量比的增量d1=c2-c1,d2=c3-c2,d3=c4-c3,d4=c5-c4。进而,可以根据d1、d2、d3和d4的调节并数值确定非线性拟合抑制因子。

    本实施例的技术方案,通过根据预设频段分组对远端声音信号和近端声音信号进行分组得到多个频段的子信号;分别在各频段对子信号进行处理得到多个频段对应的预测回声信号,即对远端声音信号和近端声音信号进行多尺度的滤波处理,根据麦克风采集到的近端信号与所述预测回声信号得到初始输出信号,并对所述初始输出信号进行非线性信号抑制,完成音频信号处理过程,解决了现有技术中非线性滤波器在全频段滤波,滤波结果误差较大,对麦克风采集的本地语音造成的畸变严重的问题;可以实现分频段多尺度的方式对语音信号进行线性与非线性滤波处理,提高语音质量,减少本地语音畸变,提升用户体验。

    实施例二

    图3为本发明实施例二提供的一种音频信号处理装置的结构示意图,本发明实施例可适用于语音交互过程中,实时的对语音信号进行处理,以噪声抑制的情况,与上述实施例中的音频信号处理方法属于同一发明构思。

    如图3所示,本发明实施例中音频信号处理装置,包括:信号预处理模块210、回声预测模块220和噪声抑制模块230。

    其中,信号预处理模块210,用于获取远端声音信号与近端声音信号,并根据预设频段分组对所述远端声音信号和所述近端声音信号分别进行分组得到多个频段的子信号;回声预测模块220,用于基于所述子信号得到多个频段对应的预测回声信号;噪声抑制模块230,用于根据所述近端声音信号与所述预测回声信号得到初始输出信号,并对所述初始输出信号进行非线性信号抑制,完成音频信号处理过程。

    本实施例的技术方案,通过根据预设频段分组对远端声音信号和近端声音信号进行分组得到多个频段的子信号;分别在各频段对子信号进行处理得到多个频段对应的预测回声信号,即对远端信号进行多尺度的滤波处理,根据麦克风采集到的近端信号与所述预测回声信号得到初始输出信号,并对所述初始输出信号进行非线性信号抑制,完成音频信号处理过程,解决了现有技术中非线性滤波器在全频段滤波,滤波结果误差较大,对麦克风采集的本地语音造成的畸变严重的问题;可以实现分频段多尺度的方式对语音信号进行线性与非线性滤波处理,提高语音质量,减少本地语音畸变,提升用户体验。

    可选的,信号预处理模块210具体用于:

    将所述远端声音信号转换为频域声音信号;

    按照预设频段分组将所述频域声音信号分组得到所述多个频段的子信号,其中,所述预设频段分组是预先按照人耳听觉敏感频域进行划分的。

    可选的,回声预测模块220具体用于:

    分别对各所述子信号在对应的频域内进行子波变换,得到所述远端声音信号的各频域子信号的子波变换信号和所述近端声音信号的各频域子信号的子波变换信号;

    根据所述远端声音信号的各频域子信号的子波变换信号和所述近端声音信号的各频域子信号的子波变换信号,确定自适应滤波器组的滤波系数;

    将所述远端声音信号的各频域子信号的子波变换信号输入至所述自适应滤波器组进行滤波,其中,所述自适应滤波器组中的滤波器数量与所示预设频段分组的数量相同;

    对滤波后的信号进行子波反变换,得到所述预测回声信号。

    可选的,所述预设频段分组中,不同的频率区域中,频段分组间隔是不同的。

    可选的,噪声抑制模块230具体用于:

    对所述初始输出信号进行非线性拟合抑制处理。

    可选的,所述非线性拟合抑制中的非线性拟合抑制因子是通过机器学习方法预先确定的非线性拟合抑制曲线的参数。

    可选的,所述预设滤波器组包括一个低通滤波器和多个带通滤波器,所述预设滤波器组中各滤波器的系数为对应滤波频段的子波变换函数的相关系数。

    本发明实施例所提供的音频信号处理装置可执行本发明任意实施例所提供的音频信号处理方法,具备执行方法相应的功能模块和有益效果。

    实施例三

    图4是本发明实施例三中的计算机设备的结构示意图。图4示出了适于用来实现本发明实施方式的示例性计算机设备412的框图。图4显示的计算机设备412仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。计算机设备可以是手机、智能手表、电脑或平板电脑等设备。

    如图4所示,计算机设备412以通用计算设备的形式表现。计算机设备412的组件可以包括但不限于:一个或者多个处理器或者处理单元414,系统存储器428,连接不同系统组件(包括系统存储器428和处理单元414)的总线418。

    总线418表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(isa)总线,微通道体系结构(mac)总线,增强型isa总线、视频电子标准协会(vesa)局域总线以及外围组件互连(pci)总线。

    计算机设备412典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备412访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。

    系统存储器428可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(ram)430和/或高速缓存存储器432。计算机设备412可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统434可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如cd-rom,dvd-rom或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线418相连。存储器428可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。

    具有一组(至少一个)程序模块442的程序/实用工具440,可以存储在例如存储器428中,这样的程序模块442包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块442通常执行本发明所描述的实施例中的功能和/或方法。

    计算机设备412也可以与一个或多个外部设备414(例如键盘、指向设备、显示器424等)通信,还可与一个或者多个使得用户能与该计算机设备412交互的设备通信,和/或与使得该计算机设备412能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口422进行。并且,计算机设备412还可以通过网络适配器420与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器420通过总线418与计算机设备412的其它模块通信。应当明白,尽管图4中未示出,可以结合计算机设备412使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。

    处理单元416通过运行存储在系统存储器428中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的音频信号处理方法,该方法主要包括:

    获取远端声音信号与近端声音信号,并根据预设频段分组对所述远端声音信号和所述近端声音信号分别进行分组得到多个频段的子信号;

    基于所述子信号得到多个频段对应的预测回声信号;

    根据所述近端声音信号与所述预测回声信号得到初始输出信号,并对所述初始输出信号进行非线性信号抑制,完成音频信号处理过程。

    实施例四

    本发明实施例四还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例所提供的音频信号处理方法,该方法主要包括:

    获取远端声音信号与近端声音信号,并根据预设频段分组对所述远端声音信号和所述近端声音信号分别进行分组得到多个频段的子信号;

    基于所述子信号得到多个频段对应的预测回声信号;

    根据所述近端声音信号与所述预测回声信号得到初始输出信号,并对所述初始输出信号进行非线性信号抑制,完成音频信号处理过程。

    本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是,但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

    计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

    计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、rf等等,或者上述的任意合适的组合。

    可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言诸如java、smalltalk、c ,还包括常规的过程式程序设计语言诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

    注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。


    技术特征:

    1.一种音频信号处理方法,其特征在于,包括:

    获取远端声音信号与近端声音信号,并根据预设频段分组对所述远端声音信号和所述近端声音信号分别进行分组得到多个频段的子信号;

    基于所述子信号得到多个频段对应的预测回声信号;

    根据所述近端声音信号与所述预测回声信号得到初始输出信号,并对所述初始输出信号进行非线性信号抑制,完成音频信号处理过程。

    2.根据权利要求1所述的方法,其特征在于,所述根据预设频段分组对所述远端声音信号和所述近端声音信号分别进行分组得到多个频段的子信号,包括:

    将所述远端声音信号和所述近端声音信号分别转换为频域声音信号;

    按照预设频段分组将所述频域声音信号分组得到所述多个频段的子信号,其中,所述预设频段分组是预先按照人耳听觉敏感频域进行划分的。

    3.根据权利要求1所述的方法,其特征在于,基于所述子信号得到多个频段对应的预测回声信号,包括:

    分别对各所述子信号在对应的频域内进行子波变换,得到所述远端声音信号的各频域子信号的子波变换信号和所述近端声音信号的各频域子信号的子波变换信号;

    根据所述远端声音信号的各频域子信号的子波变换信号和所述近端声音信号的各频域子信号的子波变换信号,确定自适应滤波器组的滤波系数;

    将所述远端声音信号的各频域子信号的子波变换信号输入至所述自适应滤波器组进行滤波,其中,所述自适应滤波器组中的滤波器数量与所示预设频段分组的数量相同;

    对滤波后的信号进行子波反变换,得到所述预测回声信号。

    4.根据权利要求1-3中任一所述的方法,其特征在于,所述预设频段分组中,不同的频率区域中,频段分组间隔是不同的。

    5.根据权利要求4所述的方法,其特征在于,对所述初始输出信号进行非线性信号抑制,包括:

    对所述初始输出信号进行非线性拟合抑制处理。

    6.根据权利要求5所述的方法,其特征在于,所述非线性拟合抑制中的非线性拟合抑制因子是通过机器学习方法预先确定的非线性拟合抑制曲线的参数。

    7.根据权利要求3所述的方法,其特征在于,所述预设滤波器组包括一个低通滤波器和多个带通滤波器,所述预设滤波器组中各滤波器的系数为对应滤波频段的子波变换函数的相关系数。

    8.一种音频信号处理装置,其特征在于,包括:

    信号预处理模块,用于获取远端声音信号与近端声音信号,并根据预设频段分组对所述远端声音信号和所述近端声音信号分别进行分组得到多个频段的子信号;

    回声预测模块,用于基于所述子信号得到多个频段对应的预测回声信号;

    噪声抑制模块,用于根据所述近端声音信号与所述预测回声信号得到初始输出信号,并对所述初始输出信号进行非线性信号抑制,完成音频信号处理过程。

    9.一种计算机设备,其特征在于,所述计算机设备包括:

    一个或多个处理器;

    存储装置,用于存储一个或多个程序;

    当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的音频信号处理方法。

    10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的音频信号处理方法。

    技术总结
    本发明实施例公开了一种音频信号处理方法、装置、设备和介质,其中,方法包括:获取远端声音信号与近端声音信号,并根据预设频段分组对所述远端声音信号和所述近端声音信号分别进行分组得到多个频段的子信号;基于所述子信号得到多个频段对应的预测回声信号;根据所述近端声音信号与所述预测回声信号得到初始输出信号,并对所述初始输出信号进行非线性信号抑制,完成音频信号处理过程。本发明实施例的技术方案解决了现有技术中非线性滤波器在全频段滤波,滤波结果误差较大,对麦克风采集的本地语音造成的畸变严重的问题;可以实现分频段多尺度的方式对语音信号进行线性与非线性滤波处理,提高语音质量,减少本地语音畸变,提升用户体验。

    技术研发人员:秦永红;李勇强
    受保护的技术使用者:北京融讯科创技术有限公司
    技术研发日:2020.11.30
    技术公布日:2021.03.12

    转载请注明原文地址:https://wp.8miu.com/read-14519.html

    最新回复(0)