本发明属于智能通信领域,尤其涉及一种虚拟隔音通信系统及相关设备。
背景技术:
自动语音识别技术(asr:automaticspeechrecognition)是解决人机语音交互问题的关键核心技术之一。智能终端的人机交互方式也朝着更加便捷精准的方向转变,移动手机终端控制和语音交互渐渐成为主流,主流的语音识别方案提供商如科大讯飞、搜狗、百度等提供了方便的语音识别开发接口,智能终端的开发者可以便捷的调用这些接口到各自的应用场景中。这些解决方案对于安静环境下的语音识别具有很好的识别效果,但是在更为复杂的使用场景下,例如现场直播、室外语音通话等,由于远场拾音、噪音干扰、等因素导致错误的发生,产生误唤醒、识别结果错误、输出音频质量欠佳等问题,效果不稳定。
对于移动终端的语音降噪系统,要滤除传感器本身产生的噪声,而且麦克风采集到的语音信号经常信噪比很低,还要考虑对非稳态噪声的滤除,另外过于复杂的滤波算法会产生影响通话质量的时延,传统的单麦克风降噪算法变得无能为力。
此外,在不同的交互性场景中,用户需要的语音识别效果是不同的。例如私密状态下的端对端语音通话,其实受噪声的影响较低甚至可以忽略不计;而在多方通话例如视频直播、免提/外放式通话等场景中,外部噪声又是最重要的干扰因素,需要不同的通话模式和拾音模式。
对此,申请号为cn201910607790.2的中国发明专利申请提出一种虚拟隔音通信方法、装置、系统、电子设备、存储介质。基于光通信的虚拟隔音通信方法包括:基于光通信确定由光分隔而成的公共区域及私密区域;采集第一语音数据;自所述第一语音数据分离一个或多个声源的声源语音数据;根据所述声源语音数据确定该声源语音数据的声源位置;自所述第一语音数据中过滤声源位置位于所述私密区域的声源语音数据;以及利用过滤后的第一语音数据进行语音通信,从而实现音频通话和/或视频通话中的智能隔音;公布号为cn107148782a的申请,其公开了一种具有可配置区的音频系统,其基于用户、音频源和/或扬声器阵列的定位,可被配置为向独立区中输出表示针对一条或多条声音节目内容的信道的音频的波束。
然而,上述现有技术仍然未能解决在不同的交互性场景中通话模式和拾音模式自动化切换和识别的问题。
技术实现要素:
为解决上述技术问题,本发明提出一种虚拟隔音通信系统,应用于移动终端,包括音频存储器、音频处理器、音频输出组件、拾音阵列、多个接近传感器与拾音模式切换模块;拾音阵列与所述音频存储器连接;多个接近传感器均连接所述拾音模式切换模块;拾音模式切换模块连接所述拾音阵列;拾音阵列包括第一拾音阵列与第二拾音阵列;拾音模式切换模块接收所述接近传感器的接近检测信号,基于接近检测信号控制所述第一拾音阵列和所述第二拾音阵列的状态。音频处理器为音频ai处理器,音频ai处理器包括至少一个可更新的音频ai识别模型。本发明还公开了基于所述系统在移动终端上实现的虚拟隔音通信设备。
本发明的技术方案能够自适应的进行不同场景下的隔音消噪,并且在不同的交互性场景中实现通话模式和拾音模式自动化切换和识别。
具体来说,在本发明的第一个方面,提供一种虚拟隔音通信系统,所述系统包括音频存储器、音频处理器、音频输出组件以及拾音阵列。
作为本发明第一个优点,所述系统还包括多个接近传感器与拾音模式切换模块;所述拾音阵列与所述音频存储器连接;所述多个接近传感器均连接所述拾音模式切换模块;所述拾音模式切换模块连接所述拾音阵列;
作为上述优点的具体实现方式,所述拾音阵列包括第一拾音阵列与第二拾音阵列;
作为本发明第二个优点,所述拾音模式切换模块接收所述接近传感器的接近检测信号,基于所述接近检测信号控制所述第一拾音阵列和所述第二拾音阵列的状态。
在一个场景中,所述拾音模式切换模块接收所述接近传感器的接近检测信号,基于所述接近检测信号控制所述第一拾音阵列和所述第二拾音阵列的状态,具体包括:
若所述拾音模式切换模块接收未接收到接近检测信号,则保持所述所述第二拾音阵列的所述第三麦克风处于开启状态。
在另一个场景中,所述拾音模式切换模块接收所述接近传感器的接近检测信号,基于所述接近检测信号控制所述第一拾音阵列和所述第二拾音阵列的状态,具体包括:
若所述拾音模式切换模块接收未接收到接近检测信号,则保持所述所述第二拾音阵列的所述第三麦克风处于关闭状态。
在具体应用中,所述系统可以用于交互式移动终端,所述交互式移动终端包括至少一个人机交互界面,所述人机交互交互界面提供设置选项,所述设置选项用于设置所述接近检测信号与所述拾音阵列的状态对应控制关系,所述状态对应控制关系包括不同场景下不同接近信号类型对应的所述拾音阵列的控制状态。
作为本发明的第三个优点,所述音频处理器为音频ai处理器,所述音频ai处理器包括至少一个可更新的音频ai识别模型。
更具体的,所述系统还包括自反馈模块,所述自反馈模块连接所述音频输出组件;所述自反馈模块对所述音频输出组件输出的音频进行质量评估,基于所述质量评估结果发送反馈信号给所述音频ai处理器,使得所述音频ai处理器判断是否更新音频ai识别模型。
作为上述第一个方面的系统的一个具体应用,所述系统应用于一移动终端;
所述移动终端在顶部边缘侧和左右边缘侧各设置一个接近传感器;
所述第一拾音阵列位于所述移动终端的所述顶部边缘侧部分,所述第二拾音阵列位于所述移动终端的底部边缘侧部分。
在本发明的第二个方面,提供一种虚拟隔音通信设备,所述设备安装有所述的虚拟隔音通信系统的移动终端。
更具体的,所述设备包括人机交互界面,在所述人机交互界面上安装有至少一种可交互app,所述可交互app具备语音控制功能。
本发明的优点和关键技术手段至少包括:
(1)在移动终端上配置多个接近检测器和多个拾音阵列,能够自适应的感知当前使用场景以及切换到对应的拾音需求;
(2)拾音模式切换模块接收所述接近传感器的接近检测信号,基于接近检测信号控制所述第一拾音阵列和所述第二拾音阵列的状态,从而在不同的交互性场景中实现通话模式和拾音模式自动化切换和识别。
本发明的进一步优点将结合说明书附图在具体实施例部分进一步详细体现。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例的虚拟隔音通信系统的主体架构图
图2是图1所述系统具体应用于移动终端的模块示意图
图3-图5是图1所述系统基于接近检测信号控制所述第一拾音阵列和所述第二拾音阵列的状态的不同实施例示意图
需要指出的是,图1-图5仅仅是示意性的说明,不代表实际结构的位置,不同位置或者大小仅仅是相对的说明。
具体实施方式
下面,结合附图以及具体实施方式,对发明做出进一步的描述。
图1是本发明一个实施例的虚拟隔音通信系统的主体架构图。
参见图1,所述系统包括音频存储器、音频处理器、音频输出组件以及拾音阵列。
所述系统还包括多个接近传感器与拾音模式切换模块;
所述拾音阵列与所述音频存储器连接;
所述多个接近传感器均连接所述拾音模式切换模块;
所述拾音模式切换模块连接所述拾音阵列;
所述拾音阵列包括第一拾音阵列与第二拾音阵列;
基于图1的实施例,所述第一拾音阵列包括第一麦克风和第二麦克风;所述第二拾音阵列包括第三麦克风;所述第三麦克风不同于所述第一麦克风或所述第二麦克风。
在图1中,所述音频处理器为音频ai处理器,所述音频ai处理器包括至少一个可更新的音频ai识别模型。所述系统还包括音频预处理模块,所述音频预处理模块连接所述音频ai处理器与所述音频存储器。
所述系统还包括自反馈模块,所述自反馈模块连接所述音频输出组件;
所述自反馈模块对所述音频输出组件输出的音频进行质量评估,判断是否符合预设标准;如果否,则发送反馈信号给所述音频ai处理器,使得所述音频ai处理器更新音频ai识别模型。
作为体现本发明相对于现有技术的核心贡献,所述拾音模式切换模块接收所述接近传感器的接近检测信号,基于所述接近检测信号控制所述第一拾音阵列和所述第二拾音阵列的状态。
在图1基础上,参见图2。
图1所述系统可应用于一移动终端;所述移动终端在顶部边缘侧和左右边缘侧各设置一个接近传感器;所述第一拾音阵列位于所述移动终端的所述顶部边缘侧部分,所述第二拾音阵列位于所述移动终端的底部边缘侧部分。
此时,所述移动终端可以是包括至少一个人机交互界面的交互式移动终端,例如智能手机、便携式电脑等。
所述人机交互交互界面提供设置选项,所述设置选项用于设置所述接近检测信号与所述拾音阵列的状态对应控制关系,所述状态对应控制关系包括不同场景下不同接近信号类型对应的所述拾音阵列的控制状态。
作为示意性的例子,参见图3-图5,是图1所述系统基于接近检测信号控制所述第一拾音阵列和所述第二拾音阵列的状态的不同实施例示意图。
在图3-图5中,采用实心表示对应的组件处于工作状态(开启状态、检测到对应信号),非实心表示对应的组件处于非工作状态(关闭状态、未检测到对应信号)。
所述多个接近传感器包括设置于不同位置的第一接近传感器、第二接近传感器以及第三接近传感器;
结合图3-图5,可以理解为,第一接近传感器为设置于所述移动终端右边缘侧的接近传感器,第二接近传感器为设置于所述移动终端左侧边缘侧的接近传感器;所述第三接近传感器为设置于所述移动终端顶部边缘侧的接近传感器。
在一个场景中,若所述拾音模式切换模块接收未接收到任何传感器的接近检测信号,则保持所述所述第二拾音阵列的所述第三麦克风处于开启状态。
在另一个场景中,若所述接近检测信号来自于所述第一接近传感器,则所述拾音模式切换模块关闭所述第一拾音阵列的第一麦克风;
在一个场景中,若所述接近检测信号来自于所述第二接近传感器,则所述拾音模式切换模块关闭所述第一拾音阵列的第二麦克风
上述关闭第一拾音阵列的一个麦克风的示意性的例子可参见图5;
图3示出,在一个场景中,若所述接近检测信号来自于所述第三接近传感器,则所述拾音模式切换模块关闭所述第一拾音阵列的第一麦克风以及所述第二麦克风,同时开启所述所述第二拾音阵列的所述第三麦克风。
图3的一个示意性例子在于私密通话状态;
图4则示出,在一个场景中,若所述拾音模式切换模块接收未接收到任何传感器的接近检测信号,则保持所述所述第二拾音阵列的所述第三麦克风处于关闭状态,同时开启所述第一拾音阵列的第一麦克风和第二麦克风。
图4或图5的一个示意性场景在于现场直播或者远场语音识别分析,此时需要双麦克风完成远端语音录入。
在上述实施例中,通过拾音阵列采集到音频输入信号并对此进行预处理之后,采用的所述音频ai处理器的音频ai识别模型进行降噪识别,包括单麦克风降噪、双麦克风降噪、近场语音识别、远场语音识别降噪等,在本领域有多种常见的方法,本发明对此不再赘述,具体可参见如下相关技术文献:
jongheehan,sunhyunyook,kyoungwonnam.comparativeevaluationofvoiceactivitydetectorsinsinglemicrophonenoisereductionalgorithms[j].biomedenglett.2012(2):255-264
姚健,麦克风阵列信号处理技术研究[d].哈尔滨工程大学,2012:7-32.
张昕.基于移动终端的多mic降噪算法的研究[d].哈尔滨理工大学,2017.
allenjb,berkleyda,blauertj.multimicrophonesignal-processingtechniquetoremoveroomreverberationfromspeechsignals[j].thejournaloftheacousticalsocietyofamerica,1977,62(4):912-915
在实践上,本发明可以通过在移动终端上配置多个接近检测器和多个拾音阵列,能够自适应的感知当前使用场景以及切换到对应的拾音需求;通过可更新识别模型的音频ai处理器进行音频识别处理,能够有效的融合现有的各种降噪识别技术;拾音模式切换模块接收所述接近传感器的接近检测信号,基于接近检测信号控制所述第一拾音阵列和所述第二拾音阵列的状态,从而在不同的交互性场景中实现通话模式和拾音模式自动化切换和识别。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
1.一种虚拟隔音通信系统,所述系统包括音频存储器、音频处理器、音频输出组件以及拾音阵列;其特征在于:
所述系统还包括多个接近传感器与拾音模式切换模块;
所述拾音阵列与所述音频存储器连接;
所述多个接近传感器均连接所述拾音模式切换模块;
所述拾音模式切换模块连接所述拾音阵列;
所述拾音阵列包括第一拾音阵列与第二拾音阵列;
所述拾音模式切换模块接收所述接近传感器的接近检测信号,基于所述接近检测信号控制所述第一拾音阵列和所述第二拾音阵列的状态。
2.如权利要求1所述的一种虚拟隔音通信系统,其特征在于:
所述第一拾音阵列包括第一麦克风和第二麦克风;所述第二拾音阵列包括第三麦克风;所述第三麦克风不同于所述第一麦克风或所述第二麦克风。
3.如权利要求2所述的一种虚拟隔音通信系统,其特征在于:
所述拾音模式切换模块接收所述接近传感器的接近检测信号,基于所述接近检测信号控制所述第一拾音阵列和所述第二拾音阵列的状态,具体包括:
所述多个接近传感器包括设置于不同位置的第一接近传感器、第二接近传感器以及第三接近传感器;
若所述接近检测信号来自于所述第一接近传感器,则所述拾音模式切换模块关闭所述第一拾音阵列的第一麦克风;
若所述接近检测信号来自于所述第二接近传感器,则所述拾音模式切换模块关闭所述第一拾音阵列的第二麦克风;
若所述接近检测信号来自于所述第三接近传感器,则所述拾音模式切换模块关闭所述第一拾音阵列的第一麦克风以及所述第二麦克风。
4.如权利要求1所述的一种虚拟隔音通信系统,其特征在于:
所述音频处理器为音频ai处理器,所述音频ai处理器包括至少一个可更新的音频ai识别模型。
5.如权利要求4所述的一种虚拟隔音通信系统,其特征在于:
所述系统还包括自反馈模块,所述自反馈模块连接所述音频输出组件;
所述自反馈模块对所述音频输出组件输出的音频进行质量评估,
基于所述质量评估结果发送反馈信号给所述音频ai处理器。
6.如权利要求4所述的一种虚拟隔音通信系统,其特征在于:
所述系统还包括音频预处理模块,所述音频预处理模块连接所述音频ai处理器与所述音频存储器。
7.如权利要求2所述的一种虚拟隔音通信系统,其特征在于:
所述拾音模式切换模块接收所述接近传感器的接近检测信号,基于所述接近检测信号控制所述第一拾音阵列和所述第二拾音阵列的状态,具体包括:
若所述拾音模式切换模块接收未接收到接近检测信号,则保持所述所述第二拾音阵列的所述第三麦克风处于开启状态。
8.如权利要求1-7任一项所述的一种虚拟隔音通信系统,其特征在于:
所述系统应用于一移动终端;
所述移动终端在顶部边缘侧和左右边缘侧各设置一个接近传感器;
所述第一拾音阵列位于所述移动终端的所述顶部边缘侧部分,所述第二拾音阵列位于所述移动终端的底部边缘侧部分。
9.一种虚拟隔音通信设备,所述设备安装有权利要求1-8任一项所述的虚拟隔音通信系统,其特征在于:
所述设备包括人机交互界面,在所述人机交互界面上安装有至少一种可交互app,所述可交互app具备语音控制功能。
10.如权利要求9所述的虚拟隔音通信设备,其特征在于:
所述设备为移动终端。
技术总结