一种虚拟隔音通信系统与方法与流程

    专利2022-07-08  110


    本发明属于智能通信领域,尤其涉及一种虚拟隔音通信系统与方法。



    背景技术:

    众所周知,语音是人类最自然便捷的交流方式,也是人机交互中最直接的交互模式之一,被普遍认为是下一代人机交互革命的主角。伴随着以智能手机、平板电脑等为代表的嵌入式移动设备的普及,以及语音核心技术和应用环境的逐步成熟,语音交互在全球范围内正在被越来越多的用户接受和使用。

    自动语音识别技术(asr:automaticspeechrecognition)是解决人机语音交互问题的关键核心技术之一。智能终端的人机交互方式也朝着更加便捷精准的方向转变,移动手机终端控制和语音交互渐渐成为主流,主流的语音识别方案提供商如科大讯飞、搜狗、百度等提供了方便的语音识别开发接口,智能终端的开发者可以便捷的调用这些接口到各自的应用场景中。这些解决方案对于安静环境下的语音识别具有很好的识别效果,但是在更为复杂的使用场景下,例如现场直播、室外语音通话等,由于远场拾音、噪音干扰、等因素导致错误的发生,产生误唤醒、识别结果错误、输出音频质量欠佳等问题,效果不稳定。

    对于传统的移动终端而言,单麦克风是常见的拾音设备,麦克风采集到的语音信号是声场中各个信号的线性叠加,尽管信道中也可能存在乘性噪声,但仍可以通过一系列运算变为加性噪声。单麦克风语音增强算法无法将混合信号中的各个声音信号分离开,大多数算法根据人类发声频率设计滤波器通过对功率谱的抵消可以实现降低部分噪声。对于移动终端的语音降噪系统,要滤除传感器本身产生的噪声,而且麦克风采集到的语音信号经常信噪比很低,还要考虑对非稳态噪声的滤除,另外过于复杂的滤波算法会产生影响通话质量的时延,传统的单麦克风降噪算法变得无能为力。

    此外,在不同的交互性场景中,用户需要的语音识别效果是不同的。例如私密状态下的端对端语音通话,其实受噪声的影响较低甚至可以忽略不计;而在多方通话例如视频直播、免提/外放式通话等场景中,外部噪声又是最重要的干扰因素,需要不同的通话模式和拾音模式。

    对此,申请号为cn201910607790.2的中国发明专利申请提出一种虚拟隔音通信方法、装置、系统、电子设备、存储介质。基于光通信的虚拟隔音通信方法包括:基于光通信确定由光分隔而成的公共区域及私密区域;采集第一语音数据;自所述第一语音数据分离一个或多个声源的声源语音数据;根据所述声源语音数据确定该声源语音数据的声源位置;自所述第一语音数据中过滤声源位置位于所述私密区域的声源语音数据;以及利用过滤后的第一语音数据进行语音通信,从而实现音频通话和/或视频通话中的智能隔音;公布号为cn107148782a的申请,其公开了一种具有可配置区的音频系统,其基于用户、音频源和/或扬声器阵列的定位,可被配置为向独立区中输出表示针对一条或多条声音节目内容的信道的音频的波束。

    然而,上述现有技术仍然未能解决在不同的交互性场景中通话模式和拾音模式自动化切换和识别的问题。



    技术实现要素:

    为解决上述技术问题,本发明提出一种虚拟隔音通信系统,应用于移动终端,包括音频存储器、音频处理器、音频输出组件、拾音阵列、多个接近传感器与拾音模式切换模块;拾音阵列与所述音频存储器连接;多个接近传感器均连接所述拾音模式切换模块;拾音模式切换模块连接所述拾音阵列;拾音阵列包括第一拾音阵列与第二拾音阵列;拾音模式切换模块接收所述接近传感器的接近检测信号,基于接近检测信号控制所述第一拾音阵列和所述第二拾音阵列的状态。音频处理器为音频ai处理器,音频ai处理器包括至少一个可更新的音频ai识别模型。本发明还公开了基于所述系统在移动终端上实现的虚拟隔音通信方法。

    本发明的技术方案能够自适应的进行不同场景下的隔音消噪,并且在不同的交互性场景中实现通话模式和拾音模式自动化切换和识别。

    具体来说,在本发明的第一个方面,提供一种虚拟隔音通信系统,所述系统包括音频存储器、音频处理器、音频输出组件以及拾音阵列。

    作为本发明第一个优点,所述系统还包括多个接近传感器与拾音模式切换模块;所述拾音阵列与所述音频存储器连接;所述多个接近传感器均连接所述拾音模式切换模块;所述拾音模式切换模块连接所述拾音阵列;

    作为上述优点的具体实现方式,所述拾音阵列包括第一拾音阵列与第二拾音阵列;

    作为本发明第二个优点,所述拾音模式切换模块接收所述接近传感器的接近检测信号,基于所述接近检测信号控制所述第一拾音阵列和所述第二拾音阵列的状态。

    在一个场景中,所述拾音模式切换模块接收所述接近传感器的接近检测信号,基于所述接近检测信号控制所述第一拾音阵列和所述第二拾音阵列的状态,具体包括:

    若所述拾音模式切换模块接收未接收到接近检测信号,则保持所述所述第二拾音阵列的所述第三麦克风处于开启状态。

    在另一个场景中,所述拾音模式切换模块接收所述接近传感器的接近检测信号,基于所述接近检测信号控制所述第一拾音阵列和所述第二拾音阵列的状态,具体包括:

    若所述拾音模式切换模块接收未接收到接近检测信号,则保持所述所述第二拾音阵列的所述第三麦克风处于关闭状态。

    在具体应用中,所述系统可以用于交互式移动终端,所述交互式移动终端包括至少一个人机交互界面,所述人机交互交互界面提供设置选项,所述设置选项用于设置所述接近检测信号与所述拾音阵列的状态对应控制关系,所述状态对应控制关系包括不同场景下不同接近信号类型对应的所述拾音阵列的控制状态。

    作为本发明的第三个优点,所述音频处理器为音频ai处理器,所述音频ai处理器包括至少一个可更新的音频ai识别模型。

    更具体的,所述系统还包括自反馈模块,所述自反馈模块连接所述音频输出组件;所述自反馈模块对所述音频输出组件输出的音频进行质量评估,基于所述质量评估结果发送反馈信号给所述音频ai处理器,使得所述音频ai处理器判断是否更新音频ai识别模型。

    作为上述第一个方面的系统的一个具体应用,所述系统应用于一移动终端;

    所述移动终端在顶部边缘侧和左右边缘侧各设置一个接近传感器;

    所述第一拾音阵列位于所述移动终端的所述顶部边缘侧部分,所述第二拾音阵列位于所述移动终端的底部边缘侧部分。

    在本发明的第二个方面,提供一种虚拟隔音通信方法,所述方法应用于包括多个接近传感器和多个拾音阵列的移动终端。

    具体来说,所述方法包括如下步骤s901-s906:

    s901:判断所述移动终端是否处于交互状态,所述交互状态包括开启语音通话或开启视频通话;

    如果是,则进入步骤s902;

    s902:开启所述多个拾音阵列;

    s903:判断是否至少一个所述多个接近传感器检测到接近信号,

    如果是,则进入步骤s904;否则,进入步骤s905;

    s904:根据所述检测到的接近信号的类型,调节所述拾音阵列的状态,进入步骤s605;

    s905:通过所述拾音阵列采集音频输入信号,利用所述移动终端内置的音频ai处理器对其进行隔音处理后输出;

    s906:对所述输出信号进行质量评估,判断是否符合预设标准;

    如果是,则返回步骤s903;

    如果否,则发送反馈信号给所述音频ai处理器,使得所述音频ai处理器更新音频ai识别模型后,返回步骤s903。

    上述第二个方面提供的所述方法可以基于第一个方面提供的系统,在至少一个移动终端上自动化的实现,实现的方式可以是程序化指令等形式。

    本发明的优点和关键技术手段至少包括:

    (1)在移动终端上配置多个接近检测器和多个拾音阵列,能够自适应的感知当前使用场景以及切换到对应的拾音需求;

    (2)通过可更新识别模型的音频ai处理器进行音频识别处理,能够有效的融合现有的各种降噪识别技术;

    (3)拾音模式切换模块接收所述接近传感器的接近检测信号,基于接近检测信号控制所述第一拾音阵列和所述第二拾音阵列的状态,从而在不同的交互性场景中实现通话模式和拾音模式自动化切换和识别。

    本发明的进一步优点将结合说明书附图在具体实施例部分进一步详细体现。

    附图说明

    为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

    图1是本发明一个实施例的虚拟隔音通信系统的主体架构图

    图2是图1所述系统具体应用于移动终端的模块示意图

    图3-图5是图1所述系统基于接近检测信号控制所述第一拾音阵列和所述第二拾音阵列的状态的不同实施例示意图

    图6是基于图1所述系统实现的虚拟隔音通信方法的流程图

    图7是图1所述系统对音频输入信号进行预处理的原理图

    需要指出的是,图1-图7仅仅是示意性的说明,不代表实际结构的位置,不同位置或者大小仅仅是相对的说明。

    具体实施方式

    下面,结合附图以及具体实施方式,对发明做出进一步的描述。

    图1是本发明一个实施例的虚拟隔音通信系统的主体架构图。

    参见图1,所述系统包括音频存储器、音频处理器、音频输出组件以及拾音阵列。

    所述系统还包括多个接近传感器与拾音模式切换模块;

    所述拾音阵列与所述音频存储器连接;

    所述多个接近传感器均连接所述拾音模式切换模块;

    所述拾音模式切换模块连接所述拾音阵列;

    所述拾音阵列包括第一拾音阵列与第二拾音阵列;

    基于图1的实施例,所述第一拾音阵列包括第一麦克风和第二麦克风;所述第二拾音阵列包括第三麦克风;所述第三麦克风不同于所述第一麦克风或所述第二麦克风。

    在图1中,所述音频处理器为音频ai处理器,所述音频ai处理器包括至少一个可更新的音频ai识别模型。所述系统还包括音频预处理模块,所述音频预处理模块连接所述音频ai处理器与所述音频存储器。

    所述系统还包括自反馈模块,所述自反馈模块连接所述音频输出组件;

    所述自反馈模块对所述音频输出组件输出的音频进行质量评估,判断是否符合预设标准;如果否,则发送反馈信号给所述音频ai处理器,使得所述音频ai处理器更新音频ai识别模型。

    作为体现本发明相对于现有技术的核心贡献,所述拾音模式切换模块接收所述接近传感器的接近检测信号,基于所述接近检测信号控制所述第一拾音阵列和所述第二拾音阵列的状态。

    在图1基础上,参见图2。

    图1所述系统可应用于一移动终端;所述移动终端在顶部边缘侧和左右边缘侧各设置一个接近传感器;所述第一拾音阵列位于所述移动终端的所述顶部边缘侧部分,所述第二拾音阵列位于所述移动终端的底部边缘侧部分。

    此时,所述移动终端可以是包括至少一个人机交互界面的交互式移动终端,例如智能手机、便携式电脑等。

    所述人机交互交互界面提供设置选项,所述设置选项用于设置所述接近检测信号与所述拾音阵列的状态对应控制关系,所述状态对应控制关系包括不同场景下不同接近信号类型对应的所述拾音阵列的控制状态。

    作为示意性的例子,参见图3-图5,是图1所述系统基于接近检测信号控制所述第一拾音阵列和所述第二拾音阵列的状态的不同实施例示意图。

    在图3-图5中,采用实心表示对应的组件处于工作状态(开启状态、检测到对应信号),非实心表示对应的组件处于非工作状态(关闭状态、未检测到对应信号)。

    所述多个接近传感器包括设置于不同位置的第一接近传感器、第二接近传感器以及第三接近传感器;

    结合图3-图5,可以理解为,第一接近传感器为设置于所述移动终端右边缘侧的接近传感器,第二接近传感器为设置于所述移动终端左侧边缘侧的接近传感器;所述第三接近传感器为设置于所述移动终端顶部边缘侧的接近传感器。

    在一个场景中,若所述拾音模式切换模块接收未接收到任何传感器的接近检测信号,则保持所述所述第二拾音阵列的所述第三麦克风处于开启状态。

    在另一个场景中,若所述接近检测信号来自于所述第一接近传感器,则所述拾音模式切换模块关闭所述第一拾音阵列的第一麦克风;

    在一个场景中,若所述接近检测信号来自于所述第二接近传感器,则所述拾音模式切换模块关闭所述第一拾音阵列的第二麦克风

    上述关闭第一拾音阵列的一个麦克风的示意性的例子可参见图5;

    图3示出,在一个场景中,若所述接近检测信号来自于所述第三接近传感器,则所述拾音模式切换模块关闭所述第一拾音阵列的第一麦克风以及所述第二麦克风,同时开启所述所述第二拾音阵列的所述第三麦克风。

    图3的一个示意性例子在于私密通话状态;

    图4则示出,在一个场景中,若所述拾音模式切换模块接收未接收到任何传感器的接近检测信号,则保持所述所述第二拾音阵列的所述第三麦克风处于关闭状态,同时开启所述第一拾音阵列的第一麦克风和第二麦克风。

    图4或图5的一个示意性场景在于现场直播或者远场语音识别分析,此时需要双麦克风完成远端语音录入。

    基于图1-图5所述的实施例,参见图6-7。

    图6给出了一种虚拟隔音通信方法,所述方法应用于包括多个接近传感器和多个拾音阵列的移动终端。

    具体而言,参见图6,所述方法包括如下步骤:

    s901:判断所述移动终端是否处于交互状态,所述交互状态包括开启语音通话或开启视频通话;

    如果是,则进入步骤s902;

    s902:开启所述多个拾音阵列;

    s903:判断是否至少一个所述多个接近传感器检测到接近信号,

    如果是,则进入步骤s904;否则,进入步骤s905;

    s904:根据所述检测到的接近信号的类型,调节所述拾音阵列的状态,进入步骤s605;

    s905:通过所述拾音阵列采集音频输入信号,利用所述移动终端内置的音频ai处理器对其进行隔音处理后输出;

    s906:对所述输出信号进行质量评估,判断是否符合预设标准;

    如果是,则返回步骤s903;

    如果否,则发送反馈信号给所述音频ai处理器,使得所述音频ai处理器更新音频ai识别模型后,返回步骤s903。

    作为进一步的优选,参见图7。

    所述步骤s905采集所述音频输入信号之后,对所述音频输入信号进行预处理后输入所述音频ai处理器;所述预处理包括如下步骤:

    s9051:通过高通滤波器对所述音频输入信号进行预加重处理,所述高通滤波器的传递函数为:h(z)=1-αz-1,其中,0<α<1;z为传递函数变量;

    s9052:采用与所述高通滤波器相关联的滑动时间窗口对所述进行预加重处理后的音频输入信号进行分帧;

    所述滑动时间窗口函数表达式如下:

    n为每一帧的长度;

    s9053:采用谱减法对所述分帧后的序列进行去噪;

    s9054:对所述去噪后的序列进行端点检测,获取每两个相邻端点之间的音频频域特征。

    在上述实施例中,通过拾音阵列采集到音频输入信号并对此进行预处理之后,采用的所述音频ai处理器的音频ai识别模型进行降噪识别,包括单麦克风降噪、双麦克风降噪、近场语音识别、远场语音识别降噪等,在本领域有多种常见的方法,本发明对此不再赘述,具体可参见如下相关技术文献:

    jongheehan,sunhyunyook,kyoungwonnam.comparativeevaluationofvoiceactivitydetectorsinsinglemicrophonenoisereductionalgorithms[j].biomedenglett.2012(2):255-264

    姚健,麦克风阵列信号处理技术研究[d].哈尔滨工程大学,2012:7-32.

    张昕.基于移动终端的多mic降噪算法的研究[d].哈尔滨理工大学,2017.

    allenjb,berkleyda,blauertj.multimicrophonesignal-processingtechniquetoremoveroomreverberationfromspeechsignals[j].thejournaloftheacousticalsocietyofamerica,1977,62(4):912-915

    gillespiebw,malvarhs,florênciodaf.speechdereverberationviamaximum-kurtosissubbandadaptivefiltering[c]//proceedingsofthe2001ieeeinternationalconferenceonacoustics,speechandsignalprocessing(icassp'01),saltlakecity:ieeepress,2001:3701–3074.

    舒晓峰.远场语音识别系统中的语音增强技术研究[d].重庆邮电大学,2019.

    不过,需要指出的是,作为本发明的一个附带性的算法改进,需要指出的是,步骤s9052所采用的滑动时间窗口函数是本发明语音识别识别效率提高的一个重要改进之一,采用这种改进的滑动时间窗口函数,能够确保相邻帧序列重叠的序列长度d满足如下条件:

    即确保重叠长度大于帧长的一半,从而保证准确率与效率替身。

    相比之下,目前语音信号分帧常用的窗函数主要有常规的矩形窗函数和汉明窗函数两种,其重叠长度最多为帧长的一半,并且滑动时间窗口函数本身的参数与高通滤波器的传递函数的参数选择不存在关联,二者不相关。

    而在本发明的上述实施例中,滑动时间窗口函数本身的参数与高通滤波器的传递函数的参数选择存在强烈的关联性(即α),能够自适应变化,从而使得算法执行速度更快。

    在实践上,本发明可以通过在移动终端上配置多个接近检测器和多个拾音阵列,能够自适应的感知当前使用场景以及切换到对应的拾音需求;通过可更新识别模型的音频ai处理器进行音频识别处理,能够有效的融合现有的各种降噪识别技术;拾音模式切换模块接收所述接近传感器的接近检测信号,基于接近检测信号控制所述第一拾音阵列和所述第二拾音阵列的状态,从而在不同的交互性场景中实现通话模式和拾音模式自动化切换和识别。

    尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。


    技术特征:

    1.一种虚拟隔音通信系统,所述系统包括音频存储器、音频处理器、音频输出组件以及拾音阵列;其特征在于:

    所述系统还包括多个接近传感器与拾音模式切换模块;

    所述拾音阵列与所述音频存储器连接;

    所述多个接近传感器均连接所述拾音模式切换模块;

    所述拾音模式切换模块连接所述拾音阵列;

    所述拾音阵列包括第一拾音阵列与第二拾音阵列;

    所述拾音模式切换模块接收所述接近传感器的接近检测信号,基于所述接近检测信号控制所述第一拾音阵列和所述第二拾音阵列的状态。

    2.如权利要求1所述的一种虚拟隔音通信系统,其特征在于:

    所述第一拾音阵列包括第一麦克风和第二麦克风;所述第二拾音阵列包括第三麦克风;所述第三麦克风不同于所述第一麦克风或所述第二麦克风。

    3.如权利要求2所述的一种虚拟隔音通信系统,其特征在于:

    所述拾音模式切换模块接收所述接近传感器的接近检测信号,基于所述接近检测信号控制所述第一拾音阵列和所述第二拾音阵列的状态,具体包括:

    所述多个接近传感器包括设置于不同位置的第一接近传感器、第二接近传感器以及第三接近传感器;

    若所述接近检测信号来自于所述第一接近传感器,则所述拾音模式切换模块关闭所述第一拾音阵列的第一麦克风;

    若所述接近检测信号来自于所述第二接近传感器,则所述拾音模式切换模块关闭所述第一拾音阵列的第二麦克风;

    若所述接近检测信号来自于所述第三接近传感器,则所述拾音模式切换模块关闭所述第一拾音阵列的第一麦克风以及所述第二麦克风。

    4.如权利要求1所述的一种虚拟隔音通信系统,其特征在于:

    所述音频处理器为音频ai处理器,所述音频ai处理器包括至少一个可更新的音频ai识别模型。

    5.如权利要求4所述的一种虚拟隔音通信系统,其特征在于:

    所述系统还包括自反馈模块,所述自反馈模块连接所述音频输出组件;

    所述自反馈模块对所述音频输出组件输出的音频进行质量评估,基于所述质量评估结果发送反馈信号给所述音频ai处理器。

    6.如权利要求4所述的一种虚拟隔音通信系统,其特征在于:

    所述系统还包括音频预处理模块,所述音频预处理模块连接所述音频ai处理器与所述音频存储器。

    7.如权利要求2所述的一种虚拟隔音通信系统,其特征在于:

    所述拾音模式切换模块接收所述接近传感器的接近检测信号,基于所述接近检测信号控制所述第一拾音阵列和所述第二拾音阵列的状态,具体包括:

    若所述拾音模式切换模块接收未接收到接近检测信号,则保持所述所述第二拾音阵列的所述第三麦克风处于开启状态。

    8.如权利要求1-7任一项所述的一种虚拟隔音通信系统,其特征在于:

    所述系统应用于一移动终端;

    所述移动终端在顶部边缘侧和左右边缘侧各设置一个接近传感器;

    所述第一拾音阵列位于所述移动终端的所述顶部边缘侧部分,所述第二拾音阵列位于所述移动终端的底部边缘侧部分。

    9.一种虚拟隔音通信方法,所述方法应用于包括多个接近传感器和多个拾音阵列的移动终端,其特征在于,所述方法包括如下步骤:

    s901:判断所述移动终端是否处于交互状态,所述交互状态包括开启语音通话或开启视频通话;

    如果是,则进入步骤s902;

    s902:开启所述多个拾音阵列;

    s903:判断是否至少一个所述多个接近传感器检测到接近信号,

    如果是,则进入步骤s904;否则,进入步骤s905;

    s904:根据所述检测到的接近信号的类型,调节所述拾音阵列的状态,进入步骤s605;

    s905:通过所述拾音阵列采集音频输入信号,利用所述移动终端内置的音频ai处理器对其进行隔音处理后输出;

    s906:对所述输出信号进行质量评估,判断是否符合预设标准;

    如果是,则返回步骤s903;

    如果否,则发送反馈信号给所述音频ai处理器,使得所述音频ai处理器更新音频ai识别模型后,返回步骤s903。

    10.如权利要求9所述的方法,其特征在于:

    所述步骤s905采集所述音频输入信号之后,对所述音频输入信号进行预处理后输入所述音频ai处理器;所述预处理包括如下步骤:

    s9051:通过高通滤波器对所述音频输入信号进行预加重处理,所述高通滤波器的传递函数为:h(z)=1-αz-1,其中,0<α<1;z为传递函数变量;

    s9052:采用与所述高通滤波器相关联的滑动时间窗口对所述进行预加重处理后的音频输入信号进行分帧;

    s9053:采用谱减法对所述分帧后的序列进行去噪;

    s9054:对所述去噪后的序列进行端点检测,获取每两个相邻端点之间的音频频域特征。

    技术总结
    本发明公开一种虚拟隔音通信系统,应用于移动终端,包括音频存储器、音频处理器、音频输出组件、拾音阵列、多个接近传感器与拾音模式切换模块;拾音阵列与所述音频存储器连接;多个接近传感器均连接所述拾音模式切换模块;拾音模式切换模块连接所述拾音阵列;拾音阵列包括第一拾音阵列与第二拾音阵列;拾音模式切换模块接收所述接近传感器的接近检测信号,基于接近检测信号控制所述第一拾音阵列和所述第二拾音阵列的状态。音频处理器为音频AI处理器,音频AI处理器包括至少一个可更新的音频AI识别模型。本发明还公开了基于所述系统在移动终端上实现的虚拟隔音通信方法。本发明的技术方案能够自适应的进行不同场景下的隔音消噪。

    技术研发人员:盘正荣
    受保护的技术使用者:盘正荣
    技术研发日:2020.10.23
    技术公布日:2021.03.12

    转载请注明原文地址:https://wp.8miu.com/read-14511.html

    最新回复(0)