语音识别的方法、装置及存储介质与流程

专利2022-07-08 204

本公开涉及语音识别领域，尤其涉及一种语音识别的方法、装置及存储介质。

背景技术：

近年来，语音识别技术取得显著进步，通过语音进行人机交互的交互方式受到了广泛关注，且已经有大量基于语音交互的智能设备面世，如智能音箱、智能空调、语音助手等，用户可以通过说出唤醒词来唤醒设备，实际应用场景中，同一个空间内可能会存在多个智能设备，当用户输入唤醒音频后，可以采用分布式决策的方式在多个智能设备中筛选出距离用户最近的智能设备进行应答响应。

技术实现要素：

为克服相关技术中存在的问题，本公开提供一种语音识别的方法、装置及存储介质。

根据本公开实施例的第一方面，提供一种语音识别的方法，应用于目标终端，包括获取当前时间段采集的第一音频数据；在满足预设质量评价触发条件的情况下，获取所述第一音频数据的第一质量评价参数；接收所述目标终端所在的终端组网内除所述目标终端以外的其他终端发送的第二质量评价参数；根据所述第一质量评价参数和所述第二质量评价参数确定所述目标终端是否为数据上传终端；在确定所述目标终端为所述数据上传终端的情况下，向服务器发送待识别音频数据，以便所述服务器对所述待识别音频数据进行语音识别，所述待识别音频数据为目标时间段内采集的音频数据，所述目标时间段包括目标时刻及所述目标时刻之前的预设时间段，所述目标时刻为将所述目标终端确定为所述数据上传终端的时刻。

可选地，所述预设质量评价触发条件包括：所述当前时间段采集的所述第一音频数据中包括预设唤醒词；或者，接收到所述其他终端发送的第一质量评价指示消息，所述第一质量评价指示消息用于指示所述目标终端对所述第一音频数据进行音频质量分析。

可选地，在所述接收所述目标终端所在的终端组网内除所述目标终端以外的其他终端发送的第二质量评价参数之前，所述方法还包括：若所述第一音频数据中包括所述预设唤醒词，向所述其他终端发送第二质量评价指示消息，所述第二质量评价指示消息用于指示所述其他终端对第二音频数据进行音频质量分析；所述接收所述目标终端所在的终端组网内除所述目标终端以外的其他终端发送的第二质量评价参数包括：接收所述其他终端根据所述第二质量评价指示消息发送的所述第二质量评价参数。

可选地，所述第二质量评价参数包括至少一个质量评价参数，所述根据所述第一质量评价参数和所述第二质量评价参数确定所述目标终端是否为数据上传终端包括：在所述第一质量评价参数大于或者等于预设评价阈值的情况下，将所述目标终端作为所述数据上传终端；或者，在所述第一质量评价参数小于或者等于所述预设评价阈值的情况下，确定每个所述第二质量评价参数是否均小于或者等于所述第一质量评价参数，若每个所述第二质量评价参数均小于或者等于所述第一质量评价参数，将所述目标终端作为所述数据上传终端。

可选地，所述根据所述第一质量评价参数和所述第二质量评价参数确定所述目标终端是否为数据上传终端还包括：若所述第二质量评价参数中存在大于所述第一质量评价参数的目标质量评价参数，计算所述目标质量评价参数与所述第一质量评价参数的差值；若存在预设数量的所述差值小于或者等于预设差值阈值，将所述目标终端作为所述数据上传终端。

可选地，所述方法还包括：接收所述其他终端发送的唤醒数据；根据所述第一音频数据和所述唤醒数据确定是否唤醒所述目标终端；在确定唤醒所述目标终端的情况下，将所述目标终端作为所述数据上传终端。

可选地，在所述获取所述第一音频数据的第一质量评价参数之前，所述方法还包括：对所述第一音频数据中的干扰音频数据进行回声消除，得到目标音频数据；所述获取所述第一音频数据的第一质量评价参数包括：获取所述目标音频数据的所述第一质量评价参数。

可选地，在所述对所述第一音频数据中的干扰音频数据进行回声消除之前，所述方法还包括：接收所述其他终端发送的外部回声音频数据以及每帧外部回声音频数据对应的时间戳；和/或，获取所述目标终端本地缓存的回声音频数据以及每帧所述本地缓存回声音频数据的时间戳；所述对所述第一音频数据中的干扰音频数据进行回声消除包括：根据获取到的每帧所述回声音频数据的时间戳从所述第一音频数据中查找对应的音频数据，得到对齐音频数据；根据所述对齐音频数据与所述回声音频数据对所述第一音频数据进行回声消除，所述回声音频数据包括所述外部回声音频数据，和/或所述本地缓存回声音频数据。

根据本公开实施例的第二方面，提供一种语音识别的方法，应用于服务器，所述方法包括：接收终端组网内的至少一个终端发送的待识别音频数据；对每个所述待识别音频数据进行音频质量分析，得到第三质量评价参数；根据所述第三质量评价参数从至少一个所述终端发送的所述待识别音频数据中确定目标识别音频数据；对所述目标识别音频数据进行语音识别。

可选地，所述终端包括数据上传终端，所述接收终端组网内的至少一个终端发送的待识别音频数据包括：接收所述终端组网内的至少一个所述数据上传终端发送的所述待识别音频数据；所述数据上传终端为目标终端根据第一质量评价参数和第二质量评价参数确定的终端，所述第一质量评价参数为所述目标终端在满足预设触发条件的情况下对采集到的第一音频数据进行音频质量分析后得到的质量评价参数，所述第二质量评价参数为所述终端组网内除所述目标终端以外的其他终端对采集到的第二音频数据进行音频质量分析后得到的参数；所述对每个所述待识别音频数据进行音频质量分析，得到第三质量评价参数包括：对每个所述数据上传终端发送的所述待识别音频数据进行音频质量分析，得到所述第三质量评价参数。

可选地，所述待识别音频数据包括通过所述终端进行回声消除后得到的回声消除音频数据；所述对每个所述待识别音频数据进行音频质量分析，得到第三质量评价参数包括：对每个所述回声消除音频数据进行音频质量分析，得到所述第三质量评价参数。

根据本公开实施例的第三方面，提供一种语音识别装置，应用于目标终端，包括：第一获取模块，被配置为获取当前时间段采集的第一音频数据；第二获取模块，被配置为在满足预设质量评价触发条件的情况下，获取所述第一音频数据的第一质量评价参数；第一接收模块，被配置为接收所述目标终端所在的终端组网内除所述目标终端以外的其他终端发送的第二质量评价参数；第一确定模块，被配置为根据所述第一质量评价参数和所述第二质量评价参数确定所述目标终端是否为数据上传终端；第一发送模块，被配置为在确定所述目标终端为所述数据上传终端的情况下，向服务器发送待识别音频数据，以便所述服务器对所述待识别音频数据进行语音识别，所述待识别音频数据为目标时间段内采集的音频数据，所述目标时间段包括目标时刻及所述目标时刻之前的预设时间段，所述目标时刻为将所述目标终端确定为所述数据上传终端的时刻。

可选地，所述装置还包括：第二发送模块，被配置为若所述第一音频数据中包括所述预设唤醒词，向所述其他终端发送第二质量评价指示消息，所述第二质量评价指示消息用于指示所述其他终端对第二音频数据进行音频质量分析；所述第一接收模块，被配置为接收所述其他终端根据所述第二质量评价指示消息发送的所述第二质量评价参数。

可选地，所述第二质量评价参数包括至少一个质量评价参数，所述第一确定模块，被配置为在所述第一质量评价参数大于或者等于预设评价阈值的情况下，将所述目标终端作为所述数据上传终端；或者，在所述第一质量评价参数小于或者等于所述预设评价阈值的情况下，确定每个所述第二质量评价参数是否均小于或者等于所述第一质量评价参数，若每个所述第二质量评价参数均小于或者等于所述第一质量评价参数，将所述目标终端作为所述数据上传终端。

可选地，所述第一确定模块，被配置为若所述第二质量评价参数中存在大于所述第一质量评价参数的目标质量评价参数，计算所述目标质量评价参数与所述第一质量评价参数的差值；若存在预设数量的所述差值小于或者等于预设差值阈值，将所述目标终端作为所述数据上传终端。

可选地，所述装置还包括：第二接收模块，被配置为接收所述其他终端发送的唤醒数据；第二确定模块，被配置为根据所述第一音频数据和所述唤醒数据确定是否唤醒所述目标终端；在确定唤醒所述目标终端的情况下，将所述目标终端作为所述数据上传终端。

可选地，所述装置还包括：回声消除模块，被配置为对所述第一音频数据中的干扰音频数据进行回声消除，得到目标音频数据；所述第二获取模块，被配置为获取所述目标音频数据的所述第一质量评价参数。

可选地，所述装置还包括：第三接收模块，被配置为接收所述其他终端发送的外部回声音频数据以及每帧外部回声音频数据对应的时间戳；和/或，获取所述目标终端本地缓存的回声音频数据以及每帧所述本地缓存回声音频数据的时间戳；所述回声消除模块，被配置为根据获取到的每帧所述回声音频数据的时间戳从所述第一音频数据中查找对应的音频数据，得到对齐音频数据；根据所述对齐音频数据与所述回声音频数据对所述第一音频数据进行回声消除，所述回声音频数据包括所述外部回声音频数据，和/或所述本地缓存回声音频数据。

根据本公开实施例的第四方面，提供一种语音识别的装置，应用于服务器，所述装置包括：第四接收模块，被配置为接收终端组网内的至少一个终端发送的待识别音频数据；音频质量分析模块，被配置为对每个所述待识别音频数据进行音频质量分析，得到第三质量评价参数；第三确定模块，被配置为根据所述第三质量评价参数从至少一个所述终端发送的所述待识别音频数据中确定目标识别音频数据；语音识别模块，被配置为对所述目标识别音频数据进行语音识别。

可选地，所述终端包括数据上传终端，所述第四接收模块，被配置为接收所述终端组网内的至少一个所述数据上传终端发送的所述待识别音频数据；所述数据上传终端为目标终端根据第一质量评价参数和第二质量评价参数确定的终端，所述第一质量评价参数为所述目标终端在满足预设触发条件的情况下对采集到的第一音频数据进行音频质量分析后得到的质量评价参数，所述第二质量评价参数为所述终端组网内除所述目标终端以外的其他终端对采集到的第二音频数据进行音频质量分析后得到的参数；所述音频质量分析模块，被配置为对每个所述数据上传终端发送的所述待识别音频数据进行音频质量分析，得到所述第三质量评价参数。

可选地，所述待识别音频数据包括通过所述终端进行回声消除后得到的回声消除音频数据；所述音频质量分析模块，被配置为对每个所述回声消除音频数据进行音频质量分析，得到所述第三质量评价参数。

根据本公开实施例的第五方面，提供一种语音识别装置，应用于目标终端，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为：获取当前时间段采集的第一音频数据；在满足预设质量评价触发条件的情况下，获取所述第一音频数据的第一质量评价参数；接收所述目标终端所在的终端组网内除所述目标终端以外的其他终端发送的第二质量评价参数；根据所述第一质量评价参数和所述第二质量评价参数确定所述目标终端是否为数据上传终端；在确定所述目标终端为所述数据上传终端的情况下，向服务器发送待识别音频数据，以便所述服务器对所述待识别音频数据进行语音识别，所述待识别音频数据为目标时间段内采集的音频数据，所述目标时间段包括目标时刻及所述目标时刻之前的预设时间段，所述目标时刻为将所述目标终端确定为所述数据上传终端的时刻。

根据本公开实施例的第六方面，提供一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现本公开第一方面所述方法的步骤。

根据本公开实施例的第七方面，提供一种语音识别装置，应用于服务器，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为：接收终端组网内的至少一个终端发送的待识别音频数据；对每个所述待识别音频数据进行音频质量分析，得到第三质量评价参数；根据所述第三质量评价参数从至少一个所述终端发送的所述待识别音频数据中确定目标识别音频数据；对所述目标识别音频数据进行语音识别。

根据本公开实施例的第八方面，提供一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现本公开第二方面所述方法的步骤。

本公开的实施例提供的技术方案可以包括以下有益效果：可以通过目标终端获取当前时间段采集的第一音频数据；在满足预设质量评价触发条件的情况下，获取所述第一音频数据的第一质量评价参数；接收所述目标终端所在的终端组网内除所述目标终端以外的其他终端发送的第二质量评价参数；根据所述第一质量评价参数和所述第二质量评价参数确定所述目标终端是否为数据上传终端；在确定所述目标终端为所述数据上传终端的情况下，向服务器发送待识别音频数据，以便所述服务器对所述待识别音频数据进行语音识别，所述待识别音频数据为目标时间段内采集的音频数据，所述目标时间段包括目标时刻及所述目标时刻之前的预设时间段，所述目标时刻为将所述目标终端确定为所述数据上传终端的时刻，这样，可以在目标终端侧对当前时间段采集的第一音频数据进行音频质量分析，并结合其他终端对自己接收到音频数据的分析结果确定该目标终端是否为数据上传终端，并在确定所述目标终端为所述数据上传终端的情况下，再向服务器发送待识别音频数据，从而保证了数据上传终端上传的待识别音频数据的音频质量，进而提高了语音识别的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种终端组网的场景示意图；

图2是根据一示例性实施例示出的第一种语音识别方法的流程图；

图3是根据一示例性实施例示出的第二种语音识别方法的流程图；

图4是根据一示例性实施例示出的第三种语音识别方法的流程图；

图5是根据一示例性实施例示出的第一种语音识别的装置的框图；

图6是根据一示例性实施例示出的第二种语音识别的装置的框图；

图7是根据一示例性实施例示出的第三种语音识别的装置的框图；

图8是根据一示例性实施例示出的第四种语音识别的装置的框图；

图9是根据一示例性实施例示出的第五种语音识别的装置的框图；

图10是根据一示例性实施例示出的第六种语音识别的装置的框图；

图11是根据一示例性实施例示出的一种语音识别装置的框图；

图12是根据一示例性实施例示出的另一种语音识别装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

首先，对本公开的应用场景进行介绍，本公开主要应用于分布式设备组网环境下的语音唤醒场景中，例如，用户通过语音的方式对终端组网内的任一智能设备进行唤醒，并通过输入语音信息的方式实现人机交互的场景中，其中，该终端组网可以包括由至少两个智能设备组成的网络，例如，图1是一种终端组网的场景示意图，如图1所示，同一小米账号下绑定有多个智能设备(如智能音箱、笔记本电脑、电视、手表、手机等设备)，在该多个智能设备均处于联网的状态下，即可进行组网，当用户想要唤醒终端组网内的某一终端时，可以通过说出唤醒词来唤醒终端，终端组网根据就近唤醒的决策逻辑筛选出距离用户最近的终端设备进行应答响应。

相关技术中，智能设备在采集到输入音频后，一方面可以输入唤醒引擎，以通过唤醒引擎进行就近唤醒的流程，另一方面在就近唤醒判断当前设备唤醒后通过启动自动语音识别asr音频上传功能将该输入音频上传至服务器，以便通过服务器对该输入音频进行语音识别，从而实现人机交互。发明人发现和意识到，若唤醒设备的位置与用户输入音频指令的位置不一致，或者唤醒设备的麦克风采集的音频质量比其他没有唤醒设备采集的音频质量差，会影响服务器语音识别的准确性；另外，为进一步提高语音识别的准确性，相关技术中若目标终端(即终端组网内的任一终端)当前正在播放音乐，麦克风采集的音频数据可以先进行本地回声消除，消除音乐的干扰，然后再做降噪处理，如果该目标终端当前没有播放音乐，无需进行回声消除，直接进行降噪处理，并将降噪后的音频数据传输至唤醒引擎进行就近唤醒决策，但若同一空间内存在多个智能设备均在播放音乐(即终端组网内存在其他终端也在播放音乐)，目标终端采集的音频数据也会受到其它终端播放的音乐的干扰，若仅是进行本地回声消除(即将麦克风采集的音频数据中该目标终端播放的音频数据消除)，也会影响语音识别的准确性。

为解决上述存在的问题，本公开提供一种语音识别的方法、装置及存储介质，可以在目标终端侧对当前时间段采集的第一音频数据进行音频质量分析，得到第一质量评价参数，并结合其他终端对自己接收到音频数据的质量分析结果即第二质量评价参数确定该目标终端是否为数据上传终端，并在确定该目标终端为该数据上传终端的情况下，再向服务器发送待识别音频数据，从而保证了数据上传终端上传的待识别音频数据的音频质量，进而提高了语音识别的准确性；另外，本公开还可以在对采集的音频数据进行音频质量分析之前，以及将待识别音频数据上传至服务器之前，对该第一音频数据和该待识别音频数据进行全局回声消除，将接收到的其它终端播放的音频数据和目标终端播放的音频数据从麦克风采集的音频数据中全部消除，并将进行全局回声消除之后的待识别音频数据上传至服务器，从而进一步提高了语音识别的准确性。

下面结合附图对本公开的具体实施例进行详细说明。

图2是根据一示例性实施例示出的一种语音识别方法的流程图，该方法应用于目标终端中，该目标终端可以为终端组网内的任一终端，如图2所示，该方法包括以下步骤：

在步骤s201中，获取当前时间段采集的第一音频数据。

在本公开中，可以通过目标终端实时采集音频数据，该音频数据可以包括用户发出的唤醒音频(如唤醒词)、指令音频(如“今天天气怎么样？”)、环境噪声音频以及终端组网内的任意终端的播放音频(如音乐)中的一种或者几种音频数据。

在一种可能的实现方式中，可以通过该目标终端上的麦克风实时采集该音频数据，并且在实时采集该音频数据后，可以在该目标终端的缓存空间中进行覆盖式缓存，例如，假设该目标终端的缓存空间中可以缓存10秒的音频数据，在实时采集到第11秒的音频数据后，可以先将缓存空间中历史缓存的第1秒的音频数据从缓存空间中删除，然后将第11秒的音频数据存储至缓存空间中，这样，缓存空间中缓存的音频数据即变为第2秒采集的音频数据至第11秒采集的音频数据。

其中，该当前时间段可以包括与该目标终端的缓存空间对应的预设缓存时间段，例如，可以预先设置在该缓存空间中最多缓存10秒的音频数据，该当前时间段即为以当前时刻为结束时刻的历史10秒的时间段，这样，目标终端可以从缓存空间中获取到该当前时间段采集的该第一音频数据。

另外，为便于后续对采集的音频数据进行回声消除，本公开在采集到该音频数据后，可以记录每帧音频数据对应的时间戳，这样，可以将采集的音频数据以及每帧音频数据的时间戳进行缓存和记录。

在步骤s202中，在满足预设质量评价触发条件的情况下，获取该第一音频数据的第一质量评价参数。

其中，该第一质量评价参数可以为信噪比或者音频质量得分，该预设质量评价触发条件可以包括：该当前时间段采集的该第一音频数据中包括预设唤醒词(如“小爱同学”)；或者，接收到该其他终端发送的第一质量评价指示消息，该第一质量评价指示消息用于指示该目标终端对该第一音频数据进行音频质量分析。

考虑到终端组网内不同终端的唤醒引擎的性能也会有差异，性能较优的唤醒引擎可以最先识别到预设唤醒词，因此，为保证语音识别的时效性和准确性，在本公开中可以由终端组网内最先识别到预设唤醒词的终端，触发终端组网内的其它终端一并进行音频质量分析，这里，若终端组网内的其它终端先于目标终端识别到采集的第二音频数据中包括该预设唤醒词，该其它终端可以向该目标终端发送该第一质量评价指示消息，此时，该目标终端可以接收到该第一质量评价指示消息，从而根据该第一质量评价指示消息触发对该第一音频数据进行音频质量分析。

也就是说，本公开中目标终端在确定满足上述任一条件时，即可对该第一音频数据进行音频质量分析。

在步骤s203中，接收该目标终端所在的终端组网内除该目标终端以外的其他终端发送的第二质量评价参数。

其中，该第二质量评价参数可以包括对第二音频数据进行音频质量分析后得到的信噪比或者音频质量评分。

在本公开中，若该目标终端的唤醒引擎检测到该第一音频数据中包括该预设唤醒词，表示该目标终端为该终端组网内最先识别出该预设唤醒词的终端，此种情况下，可以由该目标终端触发组网内的其它终端对采集到的该第二音频数据进行音频质量分析，得到该第二质量评价参数，其他终端也可以将该第二质量评价参数发送至该目标终端，使得目标终端可以接收到该第二质量评价参数

在步骤s204中，根据该第一质量评价参数和该第二质量评价参数确定该目标终端是否为数据上传终端。

其中，该数据上传终端可以包括向服务器发送待识别音频数据的终端，该待识别音频数据可以包括用户输入的指令音频数据，如“今天天气怎么样”、“请播放一首儿歌”等指令音频数据。

在步骤s205中，在确定该目标终端为该数据上传终端的情况下，向服务器发送待识别音频数据，以便该服务器对该待识别音频数据进行语音识别。

其中，该待识别音频数据为目标时间段内采集的音频数据，该目标时间段包括目标时刻及该目标时刻之前的预设时间段，该目标时刻为将该目标终端确定为该数据上传终端的时刻，例如，该预设时间段可以设置为5秒，假设缓存空间中存储有最新采集的10秒钟的音频数据，该目标时刻为t1时刻，该目标终端可以从该缓存空间中缓存的10秒的音频数据截取t1时刻以及t1时刻之前5秒内采集的音频数据为该待识别音频数据。

采用上述方法，可以在目标终端侧对当前时间段采集的第一音频数据进行音频质量分析，并结合其他终端对自己接收到音频数据的分析结果确定该目标终端是否为数据上传终端，并在确定该目标终端为该数据上传终端的情况下，再向服务器发送待识别音频数据，从而保证了数据上传终端上传的待识别音频数据的音频质量，进而提高了语音识别的准确性。

图3是根据一示例性实施例示出的一种语音识别的方法的流程图，该方法可以应用于服务器，如图3所示，该方法包括以下步骤：

在步骤s301中，接收终端组网内的至少一个终端发送的待识别音频数据。

其中，待识别音频数据可以包括用户输入的指令音频数据，如“今天天气怎么样”、“请播放一首儿歌”等指令音频数据。

在步骤s302中，对每个该待识别音频数据进行音频质量分析，得到第三质量评价参数。

其中，该第三质量评价参数可以包括对该待识别音频数据进行音频质量分析后得到的信噪比或者音频质量评分。

在本步骤中，服务器可以通过以下两种方式对该待识别音频数据进行音频质量分析，得到该第三质量评价参数：

方式一、对该待识别音频数据进行信噪比分析，得到该第三质量评价参数。

方式二、可以通过预先训练得到的音频质量分析模型(如深度学习模型)对该待识别音频数据进行音频质量分析，得到该第三质量评价参数。

需要说明的是，上述两种方式的具体实现步骤可以参考相关技术中的描述，在此不作赘述。

在步骤s303中，根据该第三质量评价参数从至少一个该终端发送的该待识别音频数据中确定目标识别音频数据。

其中，该目标识别音频数据可以为该待识别音频数据中，对应最大质量评价参数的音频数据，该最大质量评价参数为该第三质量评价参数中的最大质量评价参数。

在步骤s304中，对该目标识别音频数据进行语音识别。

采用上述方法，服务器可以对终端组网内多个终端上传的待识别音频数据的音频质量进行分析，并选择音频质量最好的目标识别音频数据进行语音识别，可以提高语音识别的准确性，进而可以提高用户的使用体验。

图4是根据一示例性实施例示出的一种语音识别的方法的流程图，如图4所示，该方法包括以下步骤：

在步骤s401中，目标终端实时采集音频数据。

其中，该目标终端可以为终端组网内的任一终端，该音频数据可以包括用户发出的唤醒音频(如唤醒词)、指令音频(如“今天天气怎么样？”)、环境噪声音频以及终端组网内的任意终端的播放音频(如音乐)中的一种或者几种音频数据。

在一种可能的实现方式中，可以通过该目标终端上的麦克风实时采集该音频数据，并且在实时采集该音频数据后，可以在该目标终端的缓存空间中进行覆盖式缓存，例如，假设该目标终端的缓存空间中可以缓存10秒的音频数据，在实时采集到第11秒的音频数据后，可以先将缓存空间中历史缓存的将第1秒的音频数据从缓存空间中删除，然后将第11秒的音频数据存储至缓存空间中，这样，缓存空间中缓存的音频数据即变为第2秒采集的音频数据至第11秒采集的音频数据。

另外，为便于对采集的音频数据进行回声消除，本公开在采集到该音频数据后，可以记录每帧音频数据对应的时间戳，这样，可以将采集的音频数据以及每帧音频数据的时间戳进行缓存和记录。

在步骤s402中，目标终端对实时采集的音频数据进行回声消除。

在本公开中，为提高语音识别的准确性，可以对麦克风采集的音频数据进行回声消除，相关技术中，若目标终端在播放音乐，可以对麦克风采集的音频数据进行本地回声消除，消除音乐的干扰，本公开中考虑到终端组网内除了目标终端外的其它终端也可能正在播放音乐，此时若只消除目标终端播放的音乐干扰，其它终端播放的音乐也会影响待识别的音频信息的质量，因此，本公开为进一步提高语音识别的准确性，可以对目标终端麦克风采集的音频数据中的本地缓存回声音频数据(如目标终端播放的音乐)以及外部回声音频数据(如其他终端播放的音乐)全部进行回声消除。

在一种可能的实现方式中，终端组网内的任一终端(即目标终端)在播放音频的同时，可以记录音频播放开始的时间戳，例如，可以通过检测回声信号的有无判断音频播放开始的时间戳，根据最早检测到回声信号的时刻(即回声信号从无到有的时刻)记录音频播放开始的时间戳，之后可以按照预设时间间隔记录每帧音频数据(例如每10ms的数据为一帧)的时间戳，并且可以将每帧数据及其对应的时间戳向组网内的其他终端发送，与此同时，也可以将每帧数据及其对应的时间戳进行本地存储，这样，在本步骤中，目标终端可以接收其他终端发送的外部回声音频数据以及每帧外部回声音频数据对应的时间戳；和/或，获取该目标终端本地缓存的回声音频数据以及每帧该本地缓存回声音频数据的时间戳；这样，在进行回声消除的过程中，可以根据获取的每帧回声音频数据的时间戳从当前时间段采集的第一音频数据中查找对应的音频数据，得到对齐音频数据；然后根据该对齐音频数据与回声音频数据对该第一音频数据进行回声消除，其中，该回声音频数据包括该外部回声音频数据，和/或该本地缓存回声音频数据，该当前时间段可以包括该目标终端的缓存空间对应的预设缓存时间段，例如，可以预先设置在该缓存空间中最多缓存10秒的音频数据，该当前时间段即为以当前时刻为结束时刻的历史10秒的时间段。

还需说明的是，为保证基于每帧音频数据的时间戳进行音频数据对齐，进而实现回声消除的准确性，本公开中在记录每帧数据的时间戳之前，还需对终端组网内的每个终端以及该终端组网内的终端对应的服务器的时钟进行时间对齐，例如，可以通过ntp(networktimeprotocol，网络时间协议)进行时间同步。

另外，为进一步提高语音识别的准确性，本公开还可以对回声消除后的音频数据进行降噪处理，具体降噪方法可以参考相关技术中的描述，在此不作赘述。

考虑到相关技术中，在对采集的音频数据进行本地回声消除以及降噪处理后，仅是通过终端组网内基于就近唤醒逻辑筛选出的唤醒终端向服务器发送采集的指令音频，但发明人发现，若用户发出唤醒音频的位置与发出指令音频的位置不一致，或者唤醒终端的麦克风采集的音频质量比其他没有唤醒的终端采集的音频质量差的情况下，通过唤醒终端向服务器发送的音频数据质量较差，这会影响服务器语音识别的准确性，因此，为解决该技术问题，在本实施例中可以通过执行步骤s403对目标终端当前时间段采集的音频数据进行音频质量分析，得到第一质量评价参数，通过执行步骤s404-s405接收终端组网内的其它终端对自身采集的音频数据进行音频质量分析后得到的第二质量评价参数，使得目标终端可以通过执行步骤s406，根据该第一质量评价参数和该第二质量评价参数确定该目标终端是否为数据上传终端，并在确定该目标终端为数据上传终端的情况下，在通过该数据上传终端向服务器发送待识别音频数据，从而保证上传的待识别音频数据的音频质量，进而提高服务器进行语音识别的准确性。

在步骤s403中，在满足预设质量评价触发条件的情况下，目标终端获取对第一音频数据中的干扰音频数据进行回声消除后得到的目标音频数据，并获取该目标音频数据的第一质量评价参数。

其中，该第一音频数据为当前时间段采集的音频数据，该第一质量评价参数可以为信噪比或者音频质量得分，该预设质量评价触发条件可以包括：该当前时间段采集的该第一音频数据中包括预设唤醒词(如“小爱同学”)；或者，接收到该其他终端发送的第一质量评价指示消息，该第一质量评价指示消息用于指示该目标终端对该第一音频数据进行音频质量分析。

也就是说，本公开中目标终端在确定满足上述任一条件时，即可对该目标音频数据进行音频质量分析。

另外，在本步骤中可以通过以下两种方式对该目标音频数据进行音频质量分析，得到该第一质量评价参数：

方式一、对该目标音频数据进行信噪比分析，得到该第一质量评价参数。

方式二、可以通过预先训练得到的音频质量分析模型(如深度学习模型)对该目标音频数据进行音频质量分析，得到该第一质量评价参数。

需要说明的是，上述两种方式的具体实现步骤可以参考相关技术中的描述，在此不作赘述。

在步骤s404中，若该第一音频数据中包括该预设唤醒词，目标终端向其他终端发送第二质量评价指示消息，该第二质量评价指示消息用于指示该其他终端对第二音频数据进行音频质量分析。

在本步骤中，若该目标终端识别到该第一音频数据中包括该预设唤醒词，表示该目标终端为该终端组网内最先识别出该预设唤醒词的终端，此种情况下，可以由该目标终端触发组网内的其它终端对采集到的该第二音频数据进行音频质量分析，得到该第二质量评价参数。

在步骤s405中，目标终端接收该其他终端根据该第二质量评价指示消息发送的该第二质量评价参数。

其中，该第二质量评价参数可以包括对该第二音频数据进行音频质量分析后得到的信噪比或者音频质量评分。

在步骤s406中，目标终端根据该第一质量评价参数和该第二质量评价参数确定该目标终端是否为数据上传终端。

其中，该第二质量评价参数包括至少一个质量评价参数，通常情况下，该第二质量评价参数与该终端组网内的其他终端一一对应，一个该其它终端可以获取的一个对应的该第二质量评价参数，该数据上传终端可以包括向服务器发送待识别音频数据的终端，该待识别音频数据可以包括用户输入的指令音频数据，如“今天天气怎么样”、“请播放一首儿歌”等指令音频数据。

在本步骤中，可以在该第一质量评价参数大于或者等于预设评价阈值的情况下(该预设评价阈值可以为表征音频质量好坏的最小门限值)，将该目标终端作为该数据上传终端；或者，在该第一质量评价参数小于或者等于该预设评价阈值的情况下，确定每个该第二质量评价参数是否均小于或者等于该第一质量评价参数，若每个该第二质量评价参数均小于或者等于该第一质量评价参数，将该目标终端作为该数据上传终端。

另外，若该第二质量评价参数中存在大于该第一质量评价参数的目标质量评价参数，计算该目标质量评价参数与该第一质量评价参数的差值；若存在预设数量的该差值小于或者等于预设差值阈值，将该目标终端作为该数据上传终端。

示例地，假设当前的终端组网包括a、b、c三个终端，并且a终端为该目标终端，为便于描述，可以将a终端获取的该第一质量评价参数表示为xa，将b终端获取的该第二质量评价参数表示为xb，将c终端获取的该第二质量评价参数表示为xc，该预设评价阈值表示为n，若确定xa≥n，可以确定a终端(即目标终端)为该数据上传终端；若确定xa＜n，可以进一步确定xb和xc是否均小于xa，即确定a终端采集的音频是否为a、b、c三个终端中采集的音频中音频质量最好的终端，在确定xb和xc均小于xa的情况下，也可以将该a终端作为该数据上传终端；若xb和xc中存在大于或者等于xa的数据，即xb和xc中至少有一个大于或者等于xa，此种情况下，可以计算xa与目标质量评价参数(即xb和xc中大于或者等于xa的数据)之间的差值，若存在预设数量(本示例中，该预设数量可以设置为1或者2)的差值均小于或者等于预设差值阈值(此种情况可以理解为目标终端采集的音频数据的该第一质量评价参数与该目标质量评价参数相差不大)，也可以将该a终端作为该数据上传终端，上述示例也只是举例说明，本公开对此不作限定。

另外，在基于音频质量分析得到的质量评价参数确定该目标终端不是该数据上传终端的情况下，本公开还可以通过执行步骤s407-s408基于就近唤醒决策出的唤醒终端判断该目标终端是否作为该数据上传终端。

在步骤s407中，目标终端接收该其他终端发送的唤醒数据；并根据该第一音频数据和该唤醒数据确定是否唤醒该目标终端。

其中，该唤醒数据可以包括唤醒音频特征数据，例如，mfcc(melfrequencycepstrumcoefficient，梅尔频率倒谱系数)特征值。

在本步骤中，可以基于分布式唤醒决策方式根据第一音频数据和该唤醒数据确定是否唤醒该目标终端，具体实现步骤可以参考相关技术中的描述，在此不作赘述。

在步骤s408中，目标终端在根据该第一质量评价参数和该第二质量评价参数确定该目标终端不为该数据上传终端的情况下，若确定唤醒该目标终端，将该目标终端作为该数据上传终端。

在步骤s409中，目标终端在确定该目标终端为该数据上传终端的情况下，向服务器发送待识别音频数据，以便该服务器对该待识别音频数据进行语音识别。

其中，该待识别音频数据可以包括用户输入的指令音频数据，如“今天天气怎么样”、“请播放一首儿歌”等指令音频数据。

需要说明的是，目标终端可以从缓存空间中获取在目标时间段采集的音频数据为该待识别音频数据，该目标时间段包括目标时刻及该目标时刻之前的预设时间段，该目标时刻可以为将该目标终端确定为该数据上传终端的时刻。

示例地，该预设时间段可以设置为5秒，假设缓存空间中存储有最新采集的10秒钟的音频数据，该目标时刻为t1时刻，该目标终端可以从该缓存空间中缓存的10秒的音频数据截取t1时刻以及t1时刻之前5秒内采集的音频数据为该待识别音频数据。

还需说明的是，上述已经提及，目标终端在采集到音频数据后，可以先对采集的音频数据进行回声消除，因此，该待识别音频数据可以包括经过回声消除(本地回声消除以及外部回声消除)后的音频数据，使得目标终端可以向服务器发送经过回声消除后的音频数据，提高服务器语音识别的准确性。

在步骤s410中，服务器对每个该数据上传终端发送的该待识别音频数据进行音频质量分析，得到该第三质量评价参数。

其中，该第三质量评价参数可以包括对该待识别音频数据进行音频质量分析后得到的信噪比或者音频质量评分。

在步骤s411中，服务器根据该第三质量评价参数从至少一个该数据上传终端发送的该待识别音频数据中确定目标识别音频数据。

示例地，假设终端组网内的每个终端在执行步骤s401-s408后，确定a、b、c三个终端为该数据上传终端，那么服务器可以接收到a、b、c三个终端分别发送的该待识别音频数据，此时，为进一步提高语音识别的准确性，服务器可以对三个终端发送的该待识别音频数据再次进行质量分析，得到该第三质量评价参数，从而基于该第三质量评价参数从a、b、c三个终端发送的该待识别音频数据中确定音频质量最好的目标识别音频数据，进而对音频质量最好的该目标识别音频数据进行语音识别，可以显著提高语音识别的准确性，上述示例也只是举例说明，本公开对此不作限定。

在步骤s412中，服务器对该目标识别音频数据进行语音识别。

采用上述方法，可以在目标终端侧对当前时间段采集的第一音频数据进行音频质量分析，得到第一质量评价参数，并结合其他终端对自己接收到音频数据的质量分析结果即第二质量评价参数确定该目标终端是否为数据上传终端，并在确定该目标终端为该数据上传终端的情况下，再向服务器发送待识别音频数据，从而保证了数据上传终端上传的待识别音频数据的音频质量，进而提高了语音识别的准确性；另外，本公开还可以在对采集的音频数据进行音频质量分析之前，以及将待识别音频数据上传至服务器之前，对该第一音频数据和该待识别音频数据进行全局回声消除，将接收到的其它终端播放的音频数据和目标终端播放的音频数据从麦克风采集的音频数据中全部消除，并将进行全局回声消除之后的待识别音频数据上传至服务器，从而进一步提高了语音识别的准确性。

图5是根据一示例性实施例示出的一种语音识别的装置的框图，应用于目标终端，如图5所示，该装置包括：

第一获取模块501，被配置为获取当前时间段采集的第一音频数据；

第二获取模块502，被配置为在满足预设质量评价触发条件的情况下，获取该第一音频数据的第一质量评价参数；

第一接收模块503，被配置为接收该目标终端所在的终端组网内除该目标终端以外的其他终端发送的第二质量评价参数；

第一确定模块504，被配置为根据该第一质量评价参数和该第二质量评价参数确定该目标终端是否为数据上传终端；

第一发送模块505，被配置为在确定该目标终端为该数据上传终端的情况下，向服务器发送待识别音频数据，以便该服务器对该待识别音频数据进行语音识别，该待识别音频数据为目标时间段内采集的音频数据，该目标时间段包括目标时刻及该目标时刻之前的预设时间段，该目标时刻为将该目标终端确定为该数据上传终端的时刻。

可选地，该预设质量评价触发条件包括：

该当前时间段采集的该第一音频数据中包括预设唤醒词；或者，

接收到该其他终端发送的第一质量评价指示消息，该第一质量评价指示消息用于指示该目标终端对该第一音频数据进行音频质量分析。

可选地，图6是根据图5所示实施例示出的一种语音识别的装置的框图，如图6所示，该装置还包括：

第二发送模块506，被配置为若该第一音频数据中包括该预设唤醒词，向该其他终端发送第二质量评价指示消息，该第二质量评价指示消息用于指示该其他终端对第二音频数据进行音频质量分析；

该第一接收模块503，被配置为接收该其他终端根据该第二质量评价指示消息发送的该第二质量评价参数。

可选地，该第二质量评价参数包括至少一个质量评价参数，

该第一确定模块504，被配置为在该第一质量评价参数大于或者等于预设评价阈值的情况下，将该目标终端作为该数据上传终端；或者，在该第一质量评价参数小于或者等于该预设评价阈值的情况下，确定每个该第二质量评价参数是否均小于或者等于该第一质量评价参数，若每个该第二质量评价参数均小于或者等于该第一质量评价参数，将该目标终端作为该数据上传终端。

可选地，该第一确定模块504，被配置为若该第二质量评价参数中存在大于该第一质量评价参数的目标质量评价参数，计算该目标质量评价参数与该第一质量评价参数的差值；若存在预设数量的该差值小于或者等于预设差值阈值，将该目标终端作为该数据上传终端。

可选地，图7是根据图5所示实施例示出的一种语音识别的装置的框图，如图7所示，该装置还包括：

第二接收模块507，被配置为接收该其他终端发送的唤醒数据；

第二确定模块508，被配置为根据该第一音频数据和该唤醒数据确定是否唤醒该目标终端；在确定唤醒该目标终端的情况下，将该目标终端作为该数据上传终端。

可选地，图8是根据图5所示实施例示出的一种语音识别的装置的框图，如图8所示，该装置还包括：

回声消除模块509，被配置为对该第一音频数据中的干扰音频数据进行回声消除，得到目标音频数据；

该第二获取模块502，被配置为获取该目标音频数据的该第一质量评价参数。

可选地，图9是根据图8所示实施例示出的一种语音识别的装置的框图，如图9所示，该装置还包括：

第三接收模块510，被配置为接收该其他终端发送的外部回声音频数据以及每帧外部回声音频数据对应的时间戳；和/或，获取该目标终端本地缓存的回声音频数据以及每帧该本地缓存回声音频数据的时间戳；

该回声消除模块509，被配置为根据获取到的每帧回声音频数据的时间戳从该第一音频数据中查找对应的音频数据，得到对齐音频数据；根据该对齐音频数据与回声音频数据对该第一音频数据进行回声消除，该回声音频数据包括该外部回声音频数据，和/或该本地缓存回声音频数据。

采用上述装置，可以在目标终端侧对当前时间段采集的第一音频数据进行音频质量分析，得到第一质量评价参数，并结合其他终端对自己接收到音频数据的质量分析结果即第二质量评价参数确定该目标终端是否为数据上传终端，并在确定该目标终端为该数据上传终端的情况下，再向服务器发送待识别音频数据，从而保证了数据上传终端上传的待识别音频数据的音频质量，进而提高了语音识别的准确性；另外，本公开还可以在对采集的音频数据进行音频质量分析之前，以及将待识别音频数据上传至服务器之前，对该第一音频数据和该待识别音频数据进行全局回声消除，将接收到的其它终端播放的音频数据和目标终端播放的音频数据从麦克风采集的音频数据中全部消除，并将进行全局回声消除之后的待识别音频数据上传至服务器，从而进一步提高了语音识别的准确性。

图10是根据本公开一示例性实施例示出的一种语音识别的装置的框图，应用于服务器，如图10所示，该装置包括：

第四接收模块1001，被配置为接收终端组网内的至少一个终端发送的待识别音频数据；

音频质量分析模块1002，被配置为对每个该待识别音频数据进行音频质量分析，得到第三质量评价参数；

第三确定模块1003，被配置为根据该第三质量评价参数从至少一个该终端发送的该待识别音频数据中确定目标识别音频数据；

语音识别模块1004，被配置为对该目标识别音频数据进行语音识别。

可选地，该终端包括数据上传终端，该第四接收模块1001，被配置为接收该终端组网内的至少一个该数据上传终端发送的该待识别音频数据；该数据上传终端为目标终端根据第一质量评价参数和第二质量评价参数确定的终端，该第一质量评价参数为该目标终端在满足预设触发条件的情况下对采集到的第一音频数据进行音频质量分析后得到的质量评价参数，该第二质量评价参数为该终端组网内除该目标终端以外的其他终端对采集到的第二音频数据进行音频质量分析后得到的参数；

该音频质量分析模块1002，被配置为对每个该数据上传终端发送的该待识别音频数据进行音频质量分析，得到该第三质量评价参数。

可选地，该待识别音频数据包括通过该终端进行回声消除后得到的回声消除音频数据；

该音频质量分析模块1002，被配置为对每个该回声消除音频数据进行音频质量分析，得到该第三质量评价参数。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

采用上述装置，服务器可以对终端组网内多个终端上传的待识别音频数据的音频质量进行分析，并选择音频质量最好的目标识别音频数据进行语音识别，可以提高语音识别的准确性，进而可以提高用户的使用体验。

本公开还提供一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现本公开提供的语音识别的方法的步骤。

图11是根据一示例性实施例示出的一种用于语音识别的装置1100的框图。例如，装置1100可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图11，装置1100可以包括以下一个或多个组件：处理组件1102，存储器1104，电力组件1106，多媒体组件1108，音频组件1110，输入/输出(i/o)的接口1112，传感器组件1114，以及通信组件1116。

处理组件1102通常控制装置1100的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件1102可以包括一个或多个处理器1120来执行指令，以完成上述的语音识别的方法的全部或部分步骤。此外，处理组件1102可以包括一个或多个模块，便于处理组件1102和其他组件之间的交互。例如，处理组件1102可以包括多媒体模块，以方便多媒体组件1108和处理组件1102之间的交互。

存储器1104被配置为存储各种类型的数据以支持在装置1100的操作。这些数据的示例包括用于在装置1100上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1104可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。

电力组件1106为装置1100的各种组件提供电力。电力组件1106可以包括电源管理系统，一个或多个电源，及其他与为装置1100生成、管理和分配电力相关联的组件。

多媒体组件1108包括在所述装置1100和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1108包括一个前置摄像头和/或后置摄像头。当装置1100处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1110被配置为输出和/或输入音频信号。例如，音频组件1110包括一个麦克风(mic)，当装置1100处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1104或经由通信组件1116发送。在一些实施例中，音频组件1110还包括一个扬声器，用于输出音频信号。

i/o接口1112为处理组件1102和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1114包括一个或多个传感器，用于为装置1100提供各个方面的状态评估。例如，传感器组件1114可以检测到装置1100的打开/关闭状态，组件的相对定位，例如所述组件为装置1100的显示器和小键盘，传感器组件1114还可以检测装置1100或装置1100一个组件的位置改变，用户与装置1100接触的存在或不存在，装置1100方位或加速/减速和装置1100的温度变化。传感器组件1114可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1114还可以包括光传感器，如cmos或ccd图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1114还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1116被配置为便于装置1100和其他设备之间有线或无线方式的通信。装置1100可以接入基于通信标准的无线网络，如wifi，2g或3g，或它们的组合。在一个示例性实施例中，通信组件1116经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1116还包括近场通信(nfc)模块，以促进短程通信。例如，在nfc模块可基于射频识别(rfid)技术，红外数据协会(irda)技术，超宽带(uwb)技术，蓝牙(bt)技术和其他技术来实现。

在示例性实施例中，装置1100可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述语音识别方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1104，上述指令可由装置1100的处理器1120执行以完成上述语音识别方法。例如，所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的语音识别方法的代码部分。

图12是根据一示例性实施例示出的一种用于语音识别的装置1200的框图。例如，装置1200可以被提供为一服务器。参照图12，装置1200包括处理组件1222，其进一步包括一个或多个处理器，以及由存储器1232所代表的存储器资源，用于存储可由处理组件1222的执行的指令，例如应用程序。存储器1232中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1222被配置为执行指令，以执行上述语音识别方法。

装置1200还可以包括一个电源组件1226被配置为执行装置1200的电源管理，一个有线或无线网络接口1250被配置为将装置1200连接到网络，和一个输入输出(i/o)接口1258。装置1200可以操作基于存储在存储器1232的操作系统，例如windowsserver^tm，macosx^tm，unix^tm，linux^tm，freebsd^tm或类似。

本领域技术人员在考虑说明书及实践本公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

技术特征：

1.一种语音识别方法，其特征在于，应用于目标终端，包括：

获取当前时间段采集的第一音频数据；

在满足预设质量评价触发条件的情况下，获取所述第一音频数据的第一质量评价参数；

接收所述目标终端所在的终端组网内除所述目标终端以外的其他终端发送的第二质量评价参数；

根据所述第一质量评价参数和所述第二质量评价参数确定所述目标终端是否为数据上传终端；

在确定所述目标终端为所述数据上传终端的情况下，向服务器发送待识别音频数据，以便所述服务器对所述待识别音频数据进行语音识别，所述待识别音频数据为目标时间段内采集的音频数据，所述目标时间段包括目标时刻及所述目标时刻之前的预设时间段，所述目标时刻为将所述目标终端确定为所述数据上传终端的时刻。

2.根据权利要求1所述的方法，其特征在于，所述预设质量评价触发条件包括：

所述当前时间段采集的所述第一音频数据中包括预设唤醒词；或者，

接收到所述其他终端发送的第一质量评价指示消息，所述第一质量评价指示消息用于指示所述目标终端对所述第一音频数据进行音频质量分析。

3.根据权利要求2所述的方法，其特征在于，在所述接收所述目标终端所在的终端组网内除所述目标终端以外的其他终端发送的第二质量评价参数之前，所述方法还包括：

若所述第一音频数据中包括所述预设唤醒词，向所述其他终端发送第二质量评价指示消息，所述第二质量评价指示消息用于指示所述其他终端对第二音频数据进行音频质量分析；

所述接收所述目标终端所在的终端组网内除所述目标终端以外的其他终端发送的第二质量评价参数包括：

接收所述其他终端根据所述第二质量评价指示消息发送的所述第二质量评价参数。

4.根据权利要求1所述的方法，其特征在于，所述第二质量评价参数包括至少一个质量评价参数，所述根据所述第一质量评价参数和所述第二质量评价参数确定所述目标终端是否为数据上传终端包括：

在所述第一质量评价参数大于或者等于预设评价阈值的情况下，将所述目标终端作为所述数据上传终端；或者，

在所述第一质量评价参数小于或者等于所述预设评价阈值的情况下，确定每个所述第二质量评价参数是否均小于或者等于所述第一质量评价参数，若每个所述第二质量评价参数均小于或者等于所述第一质量评价参数，将所述目标终端作为所述数据上传终端。

5.根据权利要求4所述的方法，其特征在于，所述根据所述第一质量评价参数和所述第二质量评价参数确定所述目标终端是否为数据上传终端还包括：

若所述第二质量评价参数中存在大于所述第一质量评价参数的目标质量评价参数，计算所述目标质量评价参数与所述第一质量评价参数的差值；

若存在预设数量的所述差值小于或者等于预设差值阈值，将所述目标终端作为所述数据上传终端。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

接收所述其他终端发送的唤醒数据；

根据所述第一音频数据和所述唤醒数据确定是否唤醒所述目标终端；

在确定唤醒所述目标终端的情况下，将所述目标终端作为所述数据上传终端。

7.根据权利要求1至6任一项所述的方法，其特征在于，在所述获取所述第一音频数据的第一质量评价参数之前，所述方法还包括：

对所述第一音频数据中的干扰音频数据进行回声消除，得到目标音频数据；

所述获取所述第一音频数据的第一质量评价参数包括：

获取所述目标音频数据的所述第一质量评价参数。

8.根据权利要求7所述的方法，其特征在于，在所述对所述第一音频数据中的干扰音频数据进行回声消除之前，所述方法还包括：

接收所述其他终端发送的外部回声音频数据以及每帧外部回声音频数据对应的时间戳；和/或，获取所述目标终端本地缓存的回声音频数据以及每帧所述本地缓存回声音频数据的时间戳；

所述对所述第一音频数据中的干扰音频数据进行回声消除包括：

根据获取到的每帧所述回声音频数据的时间戳从所述第一音频数据中查找对应的音频数据，得到对齐音频数据；

根据所述对齐音频数据与所述回声音频数据对所述第一音频数据进行回声消除，所述回声音频数据包括所述外部回声音频数据，和/或所述本地缓存回声音频数据。

9.一种语音识别的方法，其特征在于，应用于服务器，所述方法包括：

接收终端组网内的至少一个终端发送的待识别音频数据；

对每个所述待识别音频数据进行音频质量分析，得到第三质量评价参数；

根据所述第三质量评价参数从至少一个所述终端发送的所述待识别音频数据中确定目标识别音频数据；

对所述目标识别音频数据进行语音识别。

10.根据权利要求9所述的方法，其特征在于，所述终端包括数据上传终端，所述接收终端组网内的至少一个终端发送的待识别音频数据包括：

接收所述终端组网内的至少一个所述数据上传终端发送的所述待识别音频数据；所述数据上传终端为目标终端根据第一质量评价参数和第二质量评价参数确定的终端，所述第一质量评价参数为所述目标终端在满足预设触发条件的情况下对采集到的第一音频数据进行音频质量分析后得到的质量评价参数，所述第二质量评价参数为所述终端组网内除所述目标终端以外的其他终端对采集到的第二音频数据进行音频质量分析后得到的参数；

所述对每个所述待识别音频数据进行音频质量分析，得到第三质量评价参数包括：

对每个所述数据上传终端发送的所述待识别音频数据进行音频质量分析，得到所述第三质量评价参数。

11.根据权利要求9或10所述的方法，其特征在于，所述待识别音频数据包括通过所述终端进行回声消除后得到的回声消除音频数据；

所述对每个所述待识别音频数据进行音频质量分析，得到第三质量评价参数包括：

对每个所述回声消除音频数据进行音频质量分析，得到所述第三质量评价参数。

12.一种语音识别装置，其特征在于，应用于目标终端，包括：

第一获取模块，被配置为获取当前时间段采集的第一音频数据；

第二获取模块，被配置为在满足预设质量评价触发条件的情况下，获取所述第一音频数据的第一质量评价参数；

第一接收模块，被配置为接收所述目标终端所在的终端组网内除所述目标终端以外的其他终端发送的第二质量评价参数；

第一确定模块，被配置为根据所述第一质量评价参数和所述第二质量评价参数确定所述目标终端是否为数据上传终端；

第一发送模块，被配置为在确定所述目标终端为所述数据上传终端的情况下，向服务器发送待识别音频数据，以便所述服务器对所述待识别音频数据进行语音识别，所述待识别音频数据为目标时间段内采集的音频数据，所述目标时间段包括目标时刻及所述目标时刻之前的预设时间段，所述目标时刻为将所述目标终端确定为所述数据上传终端的时刻。

13.根据权利要求12所述的装置，其特征在于，所述预设质量评价触发条件包括：

所述当前时间段采集的所述第一音频数据中包括预设唤醒词；或者，

接收到所述其他终端发送的第一质量评价指示消息，所述第一质量评价指示消息用于指示所述目标终端对所述第一音频数据进行音频质量分析。

14.根据权利要求13所述的装置，其特征在于，所述装置还包括：

第二发送模块，被配置为若所述第一音频数据中包括所述预设唤醒词，向所述其他终端发送第二质量评价指示消息，所述第二质量评价指示消息用于指示所述其他终端对第二音频数据进行音频质量分析；

所述第一接收模块，被配置为接收所述其他终端根据所述第二质量评价指示消息发送的所述第二质量评价参数。

15.根据权利要求12所述的装置，其特征在于，所述第二质量评价参数包括至少一个质量评价参数，

所述第一确定模块，被配置为在所述第一质量评价参数大于或者等于预设评价阈值的情况下，将所述目标终端作为所述数据上传终端；或者，在所述第一质量评价参数小于或者等于所述预设评价阈值的情况下，确定每个所述第二质量评价参数是否均小于或者等于所述第一质量评价参数，若每个所述第二质量评价参数均小于或者等于所述第一质量评价参数，将所述目标终端作为所述数据上传终端。

16.根据权利要求15所述的装置，其特征在于，所述第一确定模块，被配置为若所述第二质量评价参数中存在大于所述第一质量评价参数的目标质量评价参数，计算所述目标质量评价参数与所述第一质量评价参数的差值；若存在预设数量的所述差值小于或者等于预设差值阈值，将所述目标终端作为所述数据上传终端。

17.根据权利要求12所述的装置，其特征在于，所述装置还包括：

第二接收模块，被配置为接收所述其他终端发送的唤醒数据；

第二确定模块，被配置为根据所述第一音频数据和所述唤醒数据确定是否唤醒所述目标终端；在确定唤醒所述目标终端的情况下，将所述目标终端作为所述数据上传终端。

18.根据权利要求12至17任一项所述的装置，其特征在于，所述装置还包括：

回声消除模块，被配置为对所述第一音频数据中的干扰音频数据进行回声消除，得到目标音频数据；

所述第二获取模块，被配置为获取所述目标音频数据的所述第一质量评价参数。

19.根据权利要求18所述的装置，其特征在于，所述装置还包括：

第三接收模块，被配置为接收所述其他终端发送的外部回声音频数据以及每帧外部回声音频数据对应的时间戳；和/或，获取所述目标终端本地缓存的回声音频数据以及每帧所述本地缓存回声音频数据的时间戳；

所述回声消除模块，被配置为根据获取到的每帧所述回声音频数据的时间戳从所述第一音频数据中查找对应的音频数据，得到对齐音频数据；根据所述对齐音频数据与所述回声音频数据对所述第一音频数据进行回声消除，所述回声音频数据包括所述外部回声音频数据，和/或所述本地缓存回声音频数据。

20.一种语音识别的装置，其特征在于，应用于服务器，所述装置包括：

第四接收模块，被配置为接收终端组网内的至少一个终端发送的待识别音频数据；

音频质量分析模块，被配置为对每个所述待识别音频数据进行音频质量分析，得到第三质量评价参数；

第三确定模块，被配置为根据所述第三质量评价参数从至少一个所述终端发送的所述待识别音频数据中确定目标识别音频数据；

语音识别模块，被配置为对所述目标识别音频数据进行语音识别。

21.根据权利要求20所述的装置，其特征在于，所述终端包括数据上传终端，所述第四接收模块，被配置为接收所述终端组网内的至少一个所述数据上传终端发送的所述待识别音频数据；所述数据上传终端为目标终端根据第一质量评价参数和第二质量评价参数确定的终端，所述第一质量评价参数为所述目标终端在满足预设触发条件的情况下对采集到的第一音频数据进行音频质量分析后得到的质量评价参数，所述第二质量评价参数为所述终端组网内除所述目标终端以外的其他终端对采集到的第二音频数据进行音频质量分析后得到的参数；

所述音频质量分析模块，被配置为对每个所述数据上传终端发送的所述待识别音频数据进行音频质量分析，得到所述第三质量评价参数。

22.根据权利要求20或21所述的装置，其特征在于，所述待识别音频数据包括通过所述终端进行回声消除后得到的回声消除音频数据；

所述音频质量分析模块，被配置为对每个所述回声消除音频数据进行音频质量分析，得到所述第三质量评价参数。

23.一种语音识别装置，其特征在于，应用于目标终端，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取当前时间段采集的第一音频数据；在满足预设质量评价触发条件的情况下，获取所述第一音频数据的第一质量评价参数；接收所述目标终端所在的终端组网内除所述目标终端以外的其他终端发送的第二质量评价参数；根据所述第一质量评价参数和所述第二质量评价参数确定所述目标终端是否为数据上传终端；在确定所述目标终端为所述数据上传终端的情况下，向服务器发送待识别音频数据，以便所述服务器对所述待识别音频数据进行语音识别，所述待识别音频数据为目标时间段内采集的音频数据，所述目标时间段包括目标时刻及所述目标时刻之前的预设时间段，所述目标时刻为将所述目标终端确定为所述数据上传终端的时刻。

24.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该程序指令被处理器执行时实现权利要求1～8中任一项所述方法的步骤。

25.一种语音识别装置，其特征在于，应用于服务器，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：接收终端组网内的至少一个终端发送的待识别音频数据；对每个所述待识别音频数据进行音频质量分析，得到第三质量评价参数；根据所述第三质量评价参数从至少一个所述终端发送的所述待识别音频数据中确定目标识别音频数据；对所述目标识别音频数据进行语音识别。

26.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该程序指令被处理器执行时实现权利要求9～11中任一项所述方法的步骤。

技术总结
本公开涉及一种语音识别的方法、装置及存储介质，可以获取当前时间段采集的第一音频数据；在满足预设质量评价触发条件的情况下，获取第一音频数据的第一质量评价参数；接收目标终端所在的终端组网内除目标终端以外的其他终端发送的第二质量评价参数；根据第一质量评价参数和第二质量评价参数确定目标终端是否为数据上传终端；在确定目标终端为数据上传终端的情况下，向服务器发送待识别音频数据，以便服务器对待识别音频数据进行语音识别，待识别音频数据为目标时间段内采集的音频数据，目标时间段包括目标时刻及目标时刻之前的预设时间段，目标时刻为将目标终端确定为数据上传终端的时刻。

技术研发人员：程思
受保护的技术使用者：北京小米松果电子有限公司
技术研发日：2020.11.16
技术公布日：2021.03.12

转载请注明原文地址:https://wp.8miu.com/read-14571.html

专利

最新回复(0)