本发明涉及信号处理技术领域,特别涉及一种音频信号的处理方法和装置。
背景技术:
随着人工智能技术的快速发展,智能音箱在大众中的普及程度越来越高。目前的智能音箱一般使用麦克风阵列来获取音频信号。其中,实际使用麦克风阵列时,以麦克风阵列所在的位置为基准,从不同的声源位置发出的声音,麦克风阵列录制得到的音频信号也不同。也就是说,麦克风阵列录制得到的音频信号会随着声源位置的变化而变化。
因此,现有技术中,在优化一种新型的智能音箱的唤醒模型时,一般需要利用这种智能音箱的麦克风阵列分别录制从多个不同的声源位置发出的声音,从而获得不同声源位置下的多个音频信号,再用这些音频信号训练唤醒模型。以确保在智能音箱实际使用时,唤醒模型能够准确的识别出麦克风阵列从不同声源位置录制得到的音频信号,从而获得更好的唤醒效果。
然而,频繁的改变声源位置,并在每个声源位置重复录制音频信号的过程需要耗费较长的时间,导致现有的这种训练智能音箱的唤醒模型的方法效率较低。
技术实现要素:
基于上述现有技术的缺点,本发明提供一种音频信号的处理方法和装置,以提高训练智能音箱的唤醒模型的效率。
本发明第一方面提供一种音频信号的处理方法,包括:
获取预先录制的源音频信号和预设的目标声源位置;
根据所述目标声源位置对所述源音频信号进行转换,得到麦克风对应的音频信号;其中,所述麦克风是麦克风阵列中的每一个麦克风;
组合每一个所述麦克风对应的音频信号,得到所述麦克风阵列的目标音频信号。
可选的,所述组合每一个所述麦克风对应的音频信号,得到所述麦克风阵列的目标音频信号之后,还包括:
利用所述目标音频信号,训练安装有所述麦克风阵列的智能音箱的唤醒模型。
可选的,所述根据所述目标声源位置对所述源音频信号进行转换,得到麦克风对应的音频信号,包括:
获取所述麦克风的冲激响应;其中,所述冲激响应根据所述目标声源位置预先生成;
根据所述目标声源位置对应的冲激响应计算所述源音频信号,得到麦克风对应的音频信号。
可选的,所述根据所述目标声源位置对所述源音频信号进行转换,得到麦克风对应的音频信号之前,还包括:
获取预设的目标场景的吸声量和所述目标场景的噪声数据;
其中,所述根据所述目标声源位置对所述源音频信号进行转换,得到麦克风对应的音频信号,包括:
根据所述目标声源位置,所述目标场景的吸声量,以及所述目标场景的噪声数据对所述源音频信号进行转换,得到麦克风对应的音频信号。
可选的,所述组合每一个所述麦克风对应的音频信号,得到所述麦克风阵列的目标音频信号之后,还包括:
复制所述目标音频信号,得到所述目标音频信号的多个副本;
根据预先采集的用户音调数据,调整每一个所述目标音频信号的副本的音调,得到多个调整后的音频信号;
其中,每一个所述调整后的音频信号的音调均是唯一的。
可选的,所述组合每一个所述麦克风对应的音频信号,得到所述麦克风阵列的目标音频信号之后,还包括:
复制所述目标音频信号,得到所述目标音频信号的多个副本;
根据预先采集的用户语速数据,调整每一个所述目标音频信号的副本的语速,得到多个调整后的音频信号;
其中,每一个所述调整后的音频信号的语速均是唯一的。
本发明第二方面提供一种音频信号的处理装置,包括:
获取单元,用于获取预先录制的源音频信号和预设的目标声源位置;
转换单元,用于根据所述目标声源位置对所述源音频信号进行转换,得到麦克风对应的音频信号;其中,所述麦克风是麦克风阵列中的每一个麦克风;
组合单元,用于组合每一个所述麦克风对应的音频信号,得到所述麦克风阵列的目标音频信号。
可选的,所述转换单元包括:
子获取单元,用于获取所述麦克风的冲激响应;其中,所述麦克风的冲激响应根据所述目标声源位置预先生成;
计算单元,用于根据所述目标声源位置对应的冲激响应计算所述源音频信号,得到麦克风对应的音频信号。
可选的,所述获取单元还用于:
获取预设的目标场景的吸声量和所述目标场景的噪声数据;
所述转换单元用于:
根据所述目标声源位置,所述目标场景的吸声量,以及所述目标场景的噪声数据对所述源音频信号进行转换,得到麦克风对应的音频信号。
可选的,所述处理装置还包括:
模拟单元,用于复制所述目标音频信号,得到所述目标音频信号的多个副本;
根据预先采集的用户音调数据,调整每一个所述目标音频信号的副本的音调,得到多个调整后的音频信号;
其中,每一个所述调整后的音频信号的音调均是唯一的。
本发明提供一种音频信号的处理方法和装置,获取预先录制的源音频信号和预设的目标声源位置;根据目标声源位置对源音频信号进行转换,得到麦克风对应的音频信号;其中,麦克风是麦克风阵列中的每一个麦克风;组合每一个麦克风对应的音频信号,得到麦克风阵列的目标音频信号。其中,根据目标声源位置处理得到的目标音频信号相当于麦克风阵列录制得到的,从目标声源位置发出的音频信号。因此本方案能够利用预先录制好的音频信号模拟出麦克风阵列从任意一个声源位置录制得到的音频信号,而不必频繁改变声源位置并针对每个声源位置重复录制音频信号,减少了获取训练智能音箱所需的音频样本的时间,从而减少训练智能音箱的唤醒模型所需的时间。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种音频信号的处理方法的流程图;
图2为本发明另一实施例提供的一种音频信号的处理方法的流程图;
图3为本发明又一实施例提供的一种音频信号的处理方法的流程图;
图4为本发明再一实施例提供的一种音频信号的处理方法的流程图;
图5为本发明实施例提供的一种音频信号的处理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
智能音箱是一种目前被广泛使用的电子设备,用户使用智能音箱时,可以通过说出特定的唤醒词,来唤醒休眠状态的智能音箱,使智能音箱进入激活状态,这就是智能音箱的唤醒过程。
在智能音箱的唤醒过程中,智能音箱接收到音频信号后,会利用自身的唤醒模型对音频信号进行语音识别,若唤醒模型从音频信号中识别出唤醒词,则智能音箱进入激活状态。
因此,唤醒模型的识别能力直接关系到,智能音箱的唤醒效果(可以认为是,智能音箱是否能有效地、及时地响应用户的唤醒指令)。
目前,为了获得一个识别能力较强的唤醒模型,一般需要用麦克风阵列录制声源从多个位置分别发出的语音,得到多个分别对应不同声源位置的音频信号,然后再利用这些分别从多个声源位置录制得到的音频信号训练唤醒模型。基于这种方法训练得到的唤醒模型,能够在智能音箱的实际使用过程中准确的识别用户从任意位置发出的远场语音,从而有效的对用户的唤醒指令做出响应。
然而,现有的这种方法需要频繁地改变声源的位置,并且,每变更一次声源位置,就要用麦克风阵列录制从当前的声源位置发出的声音,从而获得与当前的声源位置对应的音频信号。其中,声源位置是指声源相对于麦克风阵列的位置。具体的,声源位置可以表示成声源在一个三维坐标系中的坐标,并且,该三维坐标系是以麦克风阵列所在位置为参考建立的坐标系。
也就是说,现有的利用样本数据训练唤醒模型的方法中,为了确保样本数据中包括从多个声源位置录制得到的音频信号,需要在获取样本数据的阶段耗费较长的时间反复进行多次音频信号的录制,这就导致训练一个唤醒模型需要的时间较长,降低了训练唤醒模型的效率。
针对上述现有技术的问题,本申请实施例提供一种音频信号的处理方法,请参考图1,该方法包括下述步骤:
s101、获取预先录制的源音频信号和预设的目标声源位置。
其中,源音频信号是本次训练之前,预先录制并存储在数据库中的近场音频信号。用于录制源音频信号的录制设备,可以是多个麦克风组成的麦克风阵列,或者是单个麦克风。
一般的,用户手持一个麦克风,并对该麦克风说话之后,麦克风录制得到的音频信号,就可以作为一个源音频信号。显然,通过改变说话的人以及语句的内容,可以获得多个源音频信号。
为了方便理解,本申请任一实施例提供的音频信号的处理方法,以一个源音频信号为例进行介绍,基于实施例介绍的对一个源音频信号的处理方法,本领域技术人员能够对多个源音频信号分别利用该方法,从而实现对多个源音频信号的处理。
如前文所述,训练智能音箱的唤醒模型之前,需要获取从预先指定的多个不同的声源位置产生的音频信号作为样本数据。其中,每一个预先指定的,需要获取对应的音频信号的声源位置,都是一个目标声源位置。一般的,目标声源位置都是相对于智能音箱的远场位置,也就是说,目标声源位置与智能音箱之间的距离一般大于1米,或者接近1米。
例如,在以目标智能音箱(即,配置有需要训练的唤醒模型的智能音箱)所在的位置为参考建立的坐标系中,若获取样本的阶段需要获取声源位于a点时目标智能音箱录制得到的音频信号,那么a点就是一个目标声源位置。
s102、根据目标声源位置对源音频信号进行转换,得到麦克风对应的音频信号。
其中,上述麦克风指代目标智能音箱上安装的麦克风阵列中的每一个麦克风。
因此,可以理解的,步骤s102是指,对于目标智能音箱的麦克风阵列的每一个麦克风,进行步骤s102所述的转换,得到这个麦克风对应的音频信号。也就是说,通过步骤s102的处理,可以得到目标智能音箱的麦克风阵列中,每一个麦克风对应的音频信号。
用麦克风采集音频信号时,即使是同一个声源发出的同样的声音,麦克风录制的得到的音频信号也会随着声源与麦克风之间的位置关系的改变而改变。
目标声源位置,可以认为是一种描述声源和麦克风阵列之间的相对位置关系的信息,麦克风阵列中各个麦克风的位置是确定的。因此,对于一个特定的麦克风阵列,可以直接根据目标声源位置确定出声源和麦克风阵列中的每一个麦克风之间的位置关系,从而对源音频信号进行转换得到麦克风阵列中每一个麦克风对应的音频信号。并且,这些转换得到的音频信号,可以模拟直接用麦克风录制得到的,从目标声源位置产生的音频信号。
s103、组合每一个麦克风对应的音频信号,得到麦克风阵列的目标音频信号。
其中,目标音频信号作为麦克风阵列录制目标声音得到的音频信号,用于训练安装有麦克风阵列的智能音箱的唤醒模型;目标声音指代,从目标声源位置发出的声音。
一个麦克风阵列录制得到的音频信号,实际上就是这个麦克风阵列的各个麦克风录制得到的多个单通道音频信号组合而成的多通道数据。
步骤s102中转换得到的各个麦克风对应的音频信号相当于是各个麦克风直接从目标声源位置录制得到的音频信号,那么这些音频信号组合后得到的目标音频信号,就相当于是各个麦克风组成的目标麦克风阵列直接从目标声源位置录制得到的音频信号。本申请实施例提供的方法,相当于,通过对预先录制的源音频信号进行处理,用处理后的音频信号模拟目标麦克风阵列录制的音频信号。
因此,用步骤s103输出的目标音频信号训练得到的唤醒模型,在目标智能音箱被使用时,也能够准确的识别目标智能音箱的麦克风阵列录制得到的,从任意一个声源位置产生的音频信号。也就是说,基于本申请实施例处理得到的目标音频信号训练的唤醒模型,与利用麦克风阵列直接从目标声源位置录制得到的音频信号训练得到的唤醒模型,具有相同的识别能力。
为了方便理解本实施例提供的音频信号的处理方法,下面结合实际场景简要介绍本实施例的执行过程:
例如,用户a对手持麦克风发出语音“xxx”,手持麦克风录制得到的就是一个源音频信号。训练目标智能音箱的唤醒模型时,需要获取目标智能音箱的麦克风阵列录制得到的,用户a从位置b发出语音“xxx”对应的音频信号,这里的位置b就是一个目标声源位置。基于前述本实施例介绍的音频信号的处理方法,要获取这样的音频信号,可以根据目标声源位置,确定出麦克风阵列中每一个麦克风和位置b之间的位置关系,进而根据每一个麦克风和位置b之间的位置关系,将源音频信号转换成麦克风阵列中每一个麦克风对应的音频信号,将这些麦克风对应的音频信号组合,就得到目标智能音箱的麦克风阵列的目标音频信号。这个目标音频信号,就相当于直接用目标智能音箱的麦克风阵列录制得到的,用户a从位置b发出语音“xxx”对应的音频信号。
可以理解的,本实施例以一个源音频信号,以及一个目标声源位置为例介绍的将源音频信号转换成目标音频信号的过程,可以直接适用于任意一个预先录制好的音频信号,以及任意一个声源位置。因此,只要预先录制多个源音频信号,并设定多个声源位置,就可以利用本实施例提供的方法对针对每一个音频信号,每一个声源位置进行转换,得到能够满足训练唤醒模型所需的样本数量要求的多个目标音频信号。
例如,在上述例子中,若需要获取目标智能音箱的麦克风阵列录制得到的,用户a分别从位置b,位置c和位置d发出语音“xxx”对应的三个音频信号,则可以将位置b作为目标声源位置,基于本实施例提供的方法进行转换得到位置b对应的目标音频信号,然后依次将位置c和位置d作为目标声源位置,从而基于基于本实施例提供的方法进行转换得到位置c对应的目标音频信号,以及位置d对应的目标音频信号。
本发明提供一种音频信号的处理方法和装置,获取预先录制的源音频信号和预设的目标声源位置;根据目标声源位置对源音频信号进行转换,得到麦克风对应的音频信号;其中,麦克风是麦克风阵列中的每一个麦克风;组合每一个麦克风对应的音频信号,得到麦克风阵列的目标音频信号;其中,目标音频信号作为麦克风阵列录制目标声音得到的音频信号,用于训练安装有麦克风阵列的智能音箱的唤醒模型;目标声音指代,从目标声源位置发出的声音。本方案能够利用预先录制好的音频信号模拟出麦克风阵列从任意一个声源位置录制得到的音频信号,而不必频繁改变声源位置并在每个声源位置重复录制音频信号,因而有效的减少了训练智能音箱的唤醒模型所需的时间。
本申请另一实施例还提供一种音频信号的处理方法,用于结合目标声源位置以及环境参数对源音频信号进行处理,以模拟多种场景下麦克风阵列录制得到的音频信号,请参考图2,该方法包括:
s201、获取预先录制的源音频信号,预设的目标声源位置以及预设的环境参数。
其中,环境参数包括目标场景的吸声量和目标场景的噪声数据。
每一组环境参数均对应于一种特定的目标场景。针对任意一种目标场景,可以根据场景中各个物体的形状,尺寸,以及声学特性(例如,物体的吸声系数)计算出该场景下的吸声量。
例如,卧室环境包括地毯、柜子、玻璃、墙面和床,吸声系数是:地毯为0.9,柜子为0.3,玻璃为0.1,床为0.8,假设卧室为一个长方体形状的空间,四面墙壁的表面积分别为a1至a4,吸声系数分别为s1至s4,天花板表面积为a5,吸声系数为s5,地板表面积为a6,吸声系数为s6,那么可以依据下述公式(1)计算出目标卧室这一场景下的吸声量sa:
其中,aj表示目标场景中的物体的吸声量,具体在上述卧室环境中,地毯的吸声量为a1,柜子的吸声量为a2,玻璃的吸声量为a3,床的吸声量为a4。各个物体的吸声量可以根据物体的吸声系数和物体的形状,尺寸等信息计算得到。
其中,墙壁,天花板和地板的吸声系数根据建筑结构和表面涂料的不同而有所差异,一般将s1至s6均设置为接近0.4的数值,例如,可以设置在0.3至0.5之间。
另外,上述物体的吸声系数也可以根据物体的材料的不同在一定范围内进行调整,例如,地毯的吸声系数可以设置在0.8至0.95之间,柜子的吸声系数可以设置在0.2至0.4之间,玻璃的吸声系数可以设置在0.05至0.2之间,床的吸声系数可以设置在0.7至0.9之间。
下面再介绍几种环境下的物体及其吸声系数的可选的取值范围作为参考:
客厅环境包括电视沙发、阳台、茶几等,阳台的吸声系数为0.1至0.3,其余墙面(包括墙壁,天花板和地板)为0.3至0.5,沙发吸声系数为0.6至0.8,茶几吸声系数为0.2至0.4。
厨房环境包括柜子和墙面,柜子吸声系数为0.2至0.4,墙面吸声系数为0.3至0.5。
咖啡厅环境包括柱子和桌子,柱子吸声系数为0.2至0.4,桌子的吸声系数为0.1至0.3。
在上述任意一种目标场景中,可以从上述吸声系数的取值范围内确定出目标场景内的各个物体的吸声系数,然后计算出目标场景内的物体和墙面的吸声量,从而基于公式(1)计算出目标场景的吸声量。
目标场景的噪声数据,是指目标场景中的噪音,这些噪音可以是在实际的场景中采集得到的,也可以是针对特定场景进行模拟得到的。各个场景下的噪音情况包括但不限于:
卧室环境下的40-60分贝的窗外的车噪,1至5人不同方向的移动或交流产生的噪音。
客厅环境下的40-60分贝的窗外的车噪,2值10人不同方向的移动或交流产生的噪音,40-50分贝的空调运行噪声,40-70分贝电视节目的噪声。
厨房环境下,40-60分贝的水声,微波炉等电器运行的声音,1至5人不同方向的移动或交流产生的噪音。
咖啡厅环境下,10至60人不同方向的移动或交流产生的噪音(强度约为40-70分贝),以及40-50分贝的机器设备运行产生的噪声。
当然,上述噪音信号可以是录制得到的,也可以是模拟得到的。
可选的,环境参数中还可以包括正在播放的背景音乐,以模拟在播放背景音乐的场景下录制得到的音频信号。
s202、根据目标声源位置,目标场景的吸声量,以及目标场景的噪声数据对源音频信号进行转换,得到麦克风对应的音频信号。
同样的声音在不同场景下被麦克风采集,会得到不同的音频信号。其中,场景对音频信号的影响,主要体现在该场景的吸声量,以及该场景中的噪音这两方面,因此,通过步骤s202中结合目标声源位置,目标场景的吸声量,以及目标场景的噪声数据对源音频信号进行转换得到的转换后的音频信号,可以用于模拟麦克风在目标场景下录制得到的,从目标声源位置产生的音频信号。
例如,假设目前需要获取卧室环境下,声源位置与智能音箱距离为2米的情况下智能音箱录制的音频信号,那么步骤s202中的目标场景吸声量就是前述卧室环境下的吸声量,目标场景的噪声数据就是前述卧室环境下的噪音,根据卧室环境的吸声量和噪音,以及目标声源位置对源音频信号进行转换得到的麦克风对应的音频信号,就相当于麦克风在上述条件下实际录制得到的音频信号,智能音箱的麦克风阵列中各个麦克风对应的音频信号在下述步骤s203中组合得到的音频信号,就相当于智能音箱在上述条件下实际录制得到的音频信号。
s203、组合每一个麦克风对应的音频信号,得到麦克风阵列的目标音频信号。
本实施例提供的音频信号的处理方法,能够根据环境参数和目标声源位置对源音频信号进行转换,得到转换后的音频信号,转换后的音频信号可以用于模拟智能音箱在环境参数对应的场景下,从目标声源位置处录制得到的音频信号。因此,将本实施例提供的音频信号的处理方法产生的音频信号用于训练唤醒模型,可以有效的扩充被训练唤醒模型的识别范围,使唤醒模型能够针对多种场景下录制的音频信号都能进行准确的识别,进一步提高唤醒模型的识别能力。
本申请实施例提供的方法,主要涉及利用特定的参数(主要是目标声源位置,还可以包括环境参数)对源音频信号进行处理,用处理后的音频信号模拟智能音箱在实际情况下直接录制得到的音频信号,通过这种方法,不需要反复在多种情况下进行录音也能够获得不同声源位置,不同场景相匹配的多个样本。其中,根据目标声源位置(可选的,还包括环境参数)对源音频信号进行转换,主要是利用目标声源位置(和环境参数)对应的冲激响应对源音频信号进行计算实现的,参考图3,其具体过程如下:
s301、获取麦克风的目标冲激响应。
上述麦克风是智能音箱的麦克风阵列中的任意一个麦克风。
其中,目标冲激响应是根据目标声源位置和环境参数预先模拟得到的麦克风的冲激响应。对于一个麦克风阵列中的每一个麦克风,给定一个目标声源位置和一组环境参数,就可以模拟出每个麦克风的一个冲激响应。对于一个麦克风,不同的目标声源位置和环境参数,对应的冲激响应也不同。
可选的,在本申请的其他实施例中,若只需要模拟不同声源位置下智能音箱录制得到的音频信号,而不涉及模拟不同场景下的音频信号,那么,步骤s301中的环境参数可以固定的设置为一个空房间对应的环境参数。
冲激响应,是指一个系统在冲激函数的激励下产生的响应。具体在本申请中,智能音箱的麦克风阵列的每一个麦克风,都相当于一个系统,在某个位置扎破一个气球产生的声音相当于一个冲激响应的声音,用麦克风采集扎破气球产生的声音,就得到一个音频信号,这个音频信号就是在当前场景下,这个麦克风收到的在声源位置处扎破气球的声音。
对应的,针对给定的一个目标声源位置和一组环境参数模拟一个麦克风的冲激响应,就相当于模拟在这组环境参数对应的场景中,在目标声源位置处扎破气球后这个麦克风录制得到的音频信号。
s302、计算源音频信号和目标冲激响应的卷积,得到卷积结果。
步骤s302的具体实现过程是,分别对源音频信号和目标冲激响应进行傅里叶变换,得到变换后的源音频信号和变换后的目标冲激响应,将变换后的源音频信号和变换后的目标冲激响应相乘,然后再对得到的乘积进行反傅里叶变换,反傅里叶变换后得到的结果就是卷积结果。
源音频信号和目标冲激响应,可以认为是两个时域上的函数,计算这两个函数的卷积,得到的卷积结果也是一个时域上的函数,这个卷积结果就相当于步骤s301中提及的麦克风在环境参数对应的场景下,从目标声源位置处录制得到的音频信号。
本实施例提供的方法,对于麦克风阵列中的任意一个麦克风,可以用特定的目标声源位置和环境参数下该麦克风的冲激响应对源音频信号进行计算,得到该麦克风对应的音频信号。利用该方法计算出麦克风阵列中每一个麦克风对应的音频信号后,就可以将这些音频信号组合为麦克风阵列对应的目标音频信号。
本申请另一实施例,还提供一种音频信号的处理方法,用于在处理得到目标音频信号的基础上,结合预先采集的用户声调数据,用户语速数据,对目标音频信号进行进一步的处理,模拟出麦克风阵列在不同环境下录制不同用户的语音得到的音频信号,增加唤醒模型的训练样本中的音频信号的种类,进一步提高被训练的唤醒模型的识别能力。
请参考图4,本实施例包括下述步骤:
s401、获取源音频信号,目标声源位置和环境参数。
s402、根据目标声源位置和环境参数对源音频信号进行转换,得到麦克风对应的音频信号。
其中,上述麦克风是麦克风阵列中的每一个麦克风。
s403、组合每一个麦克风对应的音频信号,得到麦克风阵列的目标音频信号。
s404、复制目标音频信号,得到音频信号集。
音频信号集中包括对目标音频信号进行复制得到的目标音频信号的多个副本。也就是说,音频信号集包括多个音频信号,每一个音频信号均与步骤s403输出的目标音频信号一致。
其中,音频信号集内音频信号的数量,和预先采集的用户音调数据的种类的数量一致。若预先采集了m中用户音调数据,则步骤s404中将目标音频信号复制为m份,使得音频信号集由m个音频信号组成。
用户音调数据的种类根据对应的音调划分,一个音调对应一种用户音调数据。
s405、根据预先采集的用户音调数据,调整音频信号集中每一个音频信号,得到第一音频信号集。
步骤s405是指,对于音频信号集中的每一个音频信号,均用一种用户音调数据调整这个音频信号,使得调整后的音频信号,表现为这个用户音调数据对应的音调。并且,每一种用户音调数据均只用于调整一个音频信号,每一个音频信号均只被一种用户音调数据调整。所有调整后音频信号,就构成第一音频信号集。
其中,用户音调数据,是通过分析预先录制的特定音调的多个音频信号得到的,这个音频的频谱特征。用一种用户音调数据调整一个音频信号,就是指,根据这个用户音调数据记录的频谱特征,调整这个音频信号的频谱,使这个音频信号的音调转换为这个用户音调数据对应的音调。
s406、根据预先采集的用户语速数据,调整第一音频信号集中的每一个音频信号,得到第二音频信号集。
其中,预先采集的用户语速数据有若干个种类,每一个种类对应一个语速。
步骤s406具体包括:
假设有x种用户语速数据,其中的每一种用户语速数据,均用于调整第一音频信号集中的每一个音频信号的语速,得到这一种用户语速数据调整后的m个调整后的音频信号。所有的用户语速数据均进行调整后,得到m×x个调整后的音频信号,这些调整后的音频信号组成第二音频信号集。每一个被调整的音频信号,均表现为用于调整的用户语速数据对应的语速。
可以发现,第二音频信号集中的任意两个音频信号之间,必然有至少一个特征(语速和音调是一个音频信号的两个特征)不同。
利用用户语速数据调整音频信号的语速的过程,与步骤s405的调整音调的过程类似,都是预先分析频谱特征,然后根据用户语速数据记录的频谱特征调整音频信号的频谱。
可选的,上述步骤s405和步骤s406,可以根据实际使用需要进行取舍和组合。另外上述步骤的执行顺序也不限于本实施例介绍的顺序,而是可以任意调整。
可选的,为了提高用于训练唤醒模型的音频信号的质量,可以对第二音频信号集中的每一个音频信号按如下过程进行处理:
首先对音频信号进行信号增益调整,然后调整后的音频信号进行声学回声消除(acousticechocancellation,aec),再对消除回声后的音频信号执行波束生成处理,对经过波束生成后的音频信号进行噪声抑制和自动增益处理后,得到的音频信号再输入至唤醒模型。
结合本申请任一实施例提供的音频信号的处理方法,本申请实施例还提供一种音频信号的处理装置,请参考图5,该装置包括下述单元:
获取单元501,用于获取预先录制的源音频信号和预设的目标声源位置。
转换单元502,用于根据所述目标声源位置对所述源音频信号进行转换,得到麦克风对应的音频信号;其中,所述麦克风是麦克风阵列中的每一个麦克风。
组合单元503,用于组合每一个所述麦克风对应的音频信号,得到所述麦克风阵列的目标音频信号;其中,所述目标音频信号作为所述麦克风阵列录制目标声音得到的音频信号,用于训练安装有所述麦克风阵列的智能音箱的唤醒模型;所述目标声音指代,从所述目标声源位置发出的声音。
具体的,转换单元502包括:
子获取单元,用于获取所述目标声源位置对应的冲激响应;其中,所述目标声源位置对应的冲激响应根据所述目标声源位置预先生成。
计算单元,用于根据所述目标声源位置对应的冲激响应计算所述源音频信号,得到麦克风对应的音频信号。
其中,根据冲激响应和源音频信号计算得到麦克风对应的音频信号的过程,可以参考图3对应的实施例。
可选的,需要模拟不同场景中的音频信号时,子获取单元获取的冲激响应,可以是根据给定的目标声源位置和环境参数模拟得到的冲激响应。其中,环境参数包括目标场景的吸声量和目标场景的噪声数据。
可选的,所述获取单元501还用于:
获取预设的目标场景的吸声量和所述目标场景的噪声数据;
所述转换单元502用于:
根据所述目标声源位置,所述目标场景的吸声量,以及所述目标场景的噪声数据对所述源音频信号进行转换,得到麦克风对应的音频信号;
其中,所述目标音频信号作为所述麦克风阵列在所述目标场景下录制目标声音得到的音频信号,用于训练安装有所述麦克风阵列的智能音箱的唤醒模型。
可选的,所述处理装置还包括,模拟单元504,用于:
复制所述目标音频信号,得到所述目标音频信号的多个副本;
根据预先采集的用户音调数据,调整每一个所述目标音频信号的副本的音调,得到多个调整后的音频信号;
其中,每一个所述调整后的音频信号的音调均是唯一的,所述多个调整后的音频信号作为所述麦克风阵列,针对多个用户分别录制得到的音频信号,用于训练安装有所述麦克风阵列的智能音箱的唤醒模型。
可选的,模拟单元504还用于:
复制所述目标音频信号,得到所述目标音频信号的多个副本;
根据预先采集的用户语速数据,调整每一个所述目标音频信号的副本的语速,得到多个调整后的音频信号;
其中,每一个所述调整后的音频信号的语速均是唯一的,所述多个调整后的音频信号作为所述麦克风阵列,针对多个用户分别录制得到的音频信号,用于训练安装有所述麦克风阵列的智能音箱的唤醒模型。
需要说明的是,模拟单元504对目标音频信号的调整,如本申请实施例提供的音频信号的处理方法所述,可以根据需要任意进行组合。
本申请实施例提供的音频信号的处理装置,其具体工作原理参考本申请实施例的音频信号的处理方法,此处不再赘述。
本发明提供一种音频信号的处理装置,获取单元501获取预先录制的源音频信号和预设的目标声源位置;转换单元502根据目标声源位置对源音频信号进行转换,得到麦克风对应的音频信号;其中,麦克风是麦克风阵列中的每一个麦克风;组合单元503组合每一个麦克风对应的音频信号,得到麦克风阵列的目标音频信号;其中,目标音频信号作为麦克风阵列录制目标声音得到的音频信号,用于训练安装有麦克风阵列的智能音箱的唤醒模型;目标声音指代,从目标声源位置发出的声音。本方案能够利用预先录制好的音频信号模拟出麦克风阵列从任意一个声源位置录制得到的音频信号,而不必频繁改变声源位置并在每个声源位置重复录制音频信号,因而有效的减少了训练智能音箱的唤醒模型所需的时间。
专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
1.一种音频信号的处理方法,其特征在于,包括:
获取预先录制的源音频信号和预设的目标声源位置;
根据所述目标声源位置对所述源音频信号进行转换,得到麦克风对应的音频信号;其中,所述麦克风是麦克风阵列中的每一个麦克风;
组合每一个所述麦克风对应的音频信号,得到所述麦克风阵列的目标音频信号。
2.根据权利要求1所述的处理方法,其特征在于,所述组合每一个所述麦克风对应的音频信号,得到所述麦克风阵列的目标音频信号之后,还包括:
利用所述目标音频信号,训练安装有所述麦克风阵列的智能音箱的唤醒模型。
3.根据权利要求1所述的处理方法,其特征在于,所述根据所述目标声源位置对所述源音频信号进行转换,得到麦克风对应的音频信号,包括:
获取所述麦克风的冲激响应;其中,所述冲激响应根据所述目标声源位置预先生成;
根据所述目标声源位置对应的冲激响应计算所述源音频信号,得到麦克风对应的音频信号。
4.根据权利要求1所述的处理方法,其特征在于,所述根据所述目标声源位置对所述源音频信号进行转换,得到麦克风对应的音频信号之前,还包括:
获取预设的目标场景的吸声量和所述目标场景的噪声数据;
其中,所述根据所述目标声源位置对所述源音频信号进行转换,得到麦克风对应的音频信号,包括:
根据所述目标声源位置,所述目标场景的吸声量,以及所述目标场景的噪声数据对所述源音频信号进行转换,得到麦克风对应的音频信号。
5.根据权利要求1至4中任意一项所述的处理方法,其特征在于,所述组合每一个所述麦克风对应的音频信号,得到所述麦克风阵列的目标音频信号之后,还包括:
复制所述目标音频信号,得到所述目标音频信号的多个副本;
根据预先采集的用户音调数据,调整每一个所述目标音频信号的副本的音调,得到多个调整后的音频信号;
其中,每一个所述调整后的音频信号的音调均是唯一的。
6.根据权利要求1至4中任意一项所述的处理方法,其特征在于,所述组合每一个所述麦克风对应的音频信号,得到所述麦克风阵列的目标音频信号之后,还包括:
复制所述目标音频信号,得到所述目标音频信号的多个副本;
根据预先采集的用户语速数据,调整每一个所述目标音频信号的副本的语速,得到多个调整后的音频信号;
其中,每一个所述调整后的音频信号的语速均是唯一的。
7.一种音频信号的处理装置,其特征在于,包括:
获取单元,用于获取预先录制的源音频信号和预设的目标声源位置;
转换单元,用于根据所述目标声源位置对所述源音频信号进行转换,得到麦克风对应的音频信号;其中,所述麦克风是麦克风阵列中的每一个麦克风;
组合单元,用于组合每一个所述麦克风对应的音频信号,得到所述麦克风阵列的目标音频信号。
8.根据权利要求7所述的处理装置,其特征在于,所述转换单元包括:
子获取单元,用于获取所述麦克风的冲激响应;其中,所述麦克风的冲激响应根据所述目标声源位置预先生成;
计算单元,用于根据所述目标声源位置对应的冲激响应计算所述源音频信号,得到麦克风对应的音频信号。
9.根据权利要求7所述的处理装置,其特征在于,所述获取单元还用于:
获取预设的目标场景的吸声量和所述目标场景的噪声数据;
所述转换单元用于:
根据所述目标声源位置,所述目标场景的吸声量,以及所述目标场景的噪声数据对所述源音频信号进行转换,得到麦克风对应的音频信号。
10.根据权利要求7至9中任意一项所述的处理装置,其特征在于,所述处理装置还包括:
模拟单元,用于复制所述目标音频信号,得到所述目标音频信号的多个副本;
根据预先采集的用户音调数据,调整每一个所述目标音频信号的副本的音调,得到多个调整后的音频信号;
其中,每一个所述调整后的音频信号的音调均是唯一的。
技术总结