语音交互方法、系统、电子设备及介质与流程

    专利2022-07-08  118


    本发明涉及语音识别技术领域,尤其是涉及一种语音交互方法、系统、电子设备及介质。



    背景技术:

    语音识别技术(automaticspeechrecognition,asr),其目标是将人类的语音中的词汇内容转换为计算机可读的输入技术,例如:智能音箱、智能电视、车载音箱等智能设备均集成了具有语音识别技术的语音系统,用户可以通过语音控制上述智能设备。

    在相关技术中,智能音箱、智能电视、车载音箱等智能设备均可以用于播放音频,而与音频相关的语音系统大多相似,但每个智能设备却均需要集成语音系统,从而导致单个智能设备的成本较高。

    目前针对相关技术中每个智能设备集成语音系统导致其成本较高的问题,尚未提出有效的解决方案。



    技术实现要素:

    为了克服相关技术的不足,本发明的目的在于提供一种语音交互方法、系统、电子设备及介质,其降低了单个客户端的成本,且便于对于语音系统进行维护。

    本发明的目的之一采用如下技术方案实现:

    一种语音交互方法,包括:

    客户端采集语音请求并上传至云端;

    所述云端接收所述语音请求,并基于第一语音系统将所述语音请求转化为计算机可读的标准请求,其中,所述云端保存有所述第一语音系统;

    所述云端将所述标准请求反馈于所述客户端。

    在其中一些实施例中,所述客户端在上传所述语音请求的情况下,所述客户端的音频播放器处于运行状态,所述方法还包括:

    所述客户端接收所述标准请求,并基于所述标准请求调整所述音频播放器的播放进度。

    在其中一些实施例中,所述云端建立有与所述音频播放器关联的虚拟播放器,所述方法还包括:

    所述云端根据所述标准请求调整所述虚拟播放器的播放进度,其中,所述虚拟播放器的播放进度和所述音频播放器的播放进度相同。

    在其中一些实施例中,所述方法还包括;

    所述客户端接收调整请求并上传至云端;

    所述客户端根据所述调整请求调整所述音频播放器的播放进度;

    所述云端根据所述调整请求调整所述虚拟播放器的播放进度。

    在其中一些实施例中,一个所述虚拟播放器对应一个以上的所述音频播放器,且各个音频播放器的用户账号相同、客户端类型不同。

    在其中一些实施例中,所述云端与所述客户端基于websocket建立连接,或所述云端与所述客户端对应的服务器设备基于websocket建立连接。

    在其中一些实施例中,在所述音频播放器未处于运行状态的情况下,所述方法还包括:

    所述客户端将所述语音请求记为第一请求并上传至云端;

    所述云端基于第二语音系统将所述第一请求转化为文字信息,所述云端还保存有所述第二语音系统;

    所述云端将所述文字信息反馈于所述客户端。

    本发明的目的之二采用如下技术方案实现:

    一种语音交互系统,包括:客户端和云端,所述客户端与所述云端通信连接;

    所述客户端用于采集语音请求并上传至云端;

    所述云端用于接收所述语音请求,并基于第一语音系统将所述语音请求转化为计算机可读的标准请求,其中,所述云端保存有所述第一语音系统;

    所述云端用于将所述标准请求反馈于所述客户端。

    本发明的目的之三在于提供执行发明目的之一的电子设备,其包括存储器和处理器,所处存储器中存储有计算机程序,所述处理器被设置为执行所述计算机程序时实现上述的方法。

    本发明的目的之四在于提供存储发明目的之一的计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法。

    相比相关技术,本发明的有益效果在于:通过设置第一语音系统,则各个客户端可以不需要集成相应的语音系统,只需要执行上传语音请求和接收标准请求即可,不仅降低了客户端的成本,还释放了相应语音系统运行时占用的内存;该第一语音系统设置于云端,因此可以对第一语音系统进行维护,从而省略了客户端更新相应的语音系统等步骤,以节约了维护成本。

    附图说明

    此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

    图1是本申请实施例一所示语音交互方法的流程图;

    图2是本申请实施例二所示语音交互方法的流程图;

    图3是本申请实施例五所示电子设备的结构框图。

    具体实施方式

    为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。

    可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。

    实施例一

    本实施例一提供了一种语音交互方法,旨在解决相关技术中每个智能设备集成语音系统导致其成本较高的问题。

    图1是本申请实施例一所示语音交互方法的流程图,参照图1所示,本方法包括步骤s101至步骤s104。

    步骤s101、客户端采集语音请求。可以理解,该客户端可以是智能音箱、智能电视、车载音箱等智能设备,具体在此不做限定,主要该客户端安装有录音装置以实现语音请求的采集即可。

    步骤s102、客户端将语音请求上传至云端。相应地,该语音请求为语音包。该客户端可以直接与云端通信连接,即客户端-云端;该客户端也可以经由服务器设备与云端通信连接,即客户端-服务端-云端。在此值得说明的是,云端与客户端优选基于websocket建立连接,或云端与客户端对应的服务器设备优选基于websocket建立连接。

    步骤s103、云端接收语音请求,基于第一语音系统将语音请求转化为计算机可读的标准请求。其中,云端保存有第一语音系统,当然,云端保存的语音系统可以不限于该第一语音系统。该第一语音系统是可以执行语音识别技术,因此可以得到计算机可读的标准请求,其具体在此不做赘述。

    步骤s104、云端将标准请求反馈于客户端。该客户端应当为上述步骤s101中的客户端,即语音请求和标准请求均携带有该客户端的ip地址和id信息。

    综上,通过设置第一语音系统,则各个客户端可以不需要集成相应的语音系统,只需要执行上传语音请求和接收标准请求即可,不仅降低了客户端的成本,还释放了相应语音系统运行时占用的内存;该第一语音系统设置于云端,因此可以对第一语音系统进行维护,从而省略了客户端更新相应的语音系统等步骤,以节约了维护成本。

    可以理解,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

    实施例二

    本实施例二提供了一种语音交互方法,本实施例二是在实施例一的基础上进行的。图2是本申请实施例二所示语音交互方法的流程图。

    参照图1和图2所示,该方法可以包括步骤s201至步骤s207,其中步骤s201与实施例一中的步骤s101相同,步骤s203至步骤s205与实施例一种步骤s102至步骤s104对应相同,具体在此不做赘述。

    步骤s202、客户端判断音频播放器是否处于运行状态,若是,则执行步骤s203;若否,则可以暂时不做处理,即不执行步骤s203及之后的相关步骤。

    步骤s203至步骤s205是在客户端的音频播放器处于运行状态下执行的。可以理解,该客户端安装有音频播放器,且该音频播放器被允许配合该语音交互方法,音频播放器在打开、正在播放音乐、后台运行、休眠等均视为处于运行状态。

    步骤s206、客户端接收标准请求,并基于标准请求调整音频播放器的播放进度。该步骤s206是在步骤s205之后执行的。在此值得说明的是,该语音交互方法与音频播放器结合使用,则标准请求是用于控制音频播放器的相关命令,其应当不作用于其他的播放器。例如:语音请求是“快进10s”,则客户端根据相应的标准请求控制音频播放器基于正在播放的音频快进10s,或客户端根据相应的标准请求控制音频播放器基于暂停的音频快进10s并继续播放。

    在此值得说明的是,在实施例一所示的语音交互方法中,客户端在接收标准信息之后还需要判断该标准请求是作用于哪个播放器,若标准请求缺少重要信息,则客户端可能无法响应该标准请求。但是,本技术方案将语音交互方法与音频播放器结合,其主要是考虑到在客户端通常在音频播放器处于运行状态时,相应的语音请求通常是用于控制音频播放器的,因此,本实施例便直接将标准请求作用于音频播放器,以省略了部分步骤,从而提高运行效率。

    作为可选的技术方案,该第一语音系统可以具有语音识别模块、关键字词提取模块、标准请求生成模块。其中语音识别模块用于将语音请求转换为文字信息,关键字词提取模块用于提起文字信息中的关键字词,标准请求生成模块用于将该关键字词按照标准格式生成标准请求,相应的操作方式在此不做限定。

    在此值得说明的是:文字信息、关键字词以及标准请求均是计算机可读的信息,但是客户端可以在接收标准请求之后直接控制音频播放器执行相应的操作,即标准请求应当携带有音频播放器信息和相应命令,该标准请求的具体格式可以参照音频播放器对应的服务器向该客户端下发的命令格式,以降低开发难度和执行难度。

    作为可选的技术方案,该语音交互方法还可以包括步骤s207至步骤s209,且该步骤s207至步骤s209均在上述步骤s202中判定音频播放器未处于运行状态的情况之后执行。

    步骤s207、客户端将语音请求记为第一请求并上传至云端。具体可以参考步骤s101的相关说明,具体在此不做赘述。

    步骤s208、云端基于第二语音系统将第一请求转化为文字信息。云端还保存有第二语音系统。

    步骤s209、云端将所述文字信息反馈于所述客户端。

    可以理解,第一语音系统和第二语音系统的词库可以相同,也可以不同,具体在此不做限制。但该第一语音系统优选与音频播放器适配,即第一语音系统的词库可以较小,以减少该第一语音系统占用的内存,相应地,该第二语音系统的词库也较大,因此可以在满足音频播放器的控制速度时,还可以保证语音识别的全面性。当然,客户端在接收该文字信息时还需要确认相应的播放器。

    进一步地,若在步骤s204中云端无法基于第一语音系统将语音请求转换为标准请求,则可以直接执行步骤s207至步骤s209,以避免请求的遗漏。

    实施例三

    本实施例三提供一种语音交互方法,参照图2所示,云端建立有虚拟播放器,在此值得说明的是,该虚拟播放器并不播放具体的音频流,而音频播放器是要播放具体的音频流的,即音频播放器需要根据播放进度调整音频流的播放情况。

    该语音交互方法还可以包括第一同步步骤,其是在步骤s206之后、步骤s205之后且步骤s206之前、与步骤s206同步中的任意一种情况下执行,具体地:云端根据标准请求调整虚拟播放器的播放进度。可以理解,该虚拟播放器尽管不播放具体的音频流,但是,其具有播放进度,而该播放进度包括播放曲目和播放状态。

    可以理解,当虚拟播放器的播放曲目暂停、播放、快进、快退、退出等依靠外界刺激才能执行的操作均视为对播放状态的调整,相应地,播放曲目和/或播放状态的调整均视为对播放进度的调整。

    在此值得说明的是,虚拟播放器的播放进度和音频播放器的播放进度相同,具体可以表现为:播放曲目相同,播放状态状态相同,且曲目的进度也相同。

    作为可选的技术方案,该语音交互方法还可以包括第二同步步骤,其可以与上述步骤不相关,具体地:客户端接收调整请求并上传至云端;客户端根据调整请求调整音频播放器的播放进度;云端根据调整请求调整虚拟播放器的播放进度。

    在此值得说明的是,调整请求是音频播放器基于外界刺激生成的,例如用户采用触摸或遥控的方式选中暂停、快进、下一曲、上一曲、快退、播放、退出等项目。在此值得说明的是,让用户选择上一曲或下一曲时,该调整请求还包括上一曲或下一曲的基本信息;当语音请求涉及曲目的切换时,则上述实施例二中的第一同步步骤在步骤s206之后且自客户端获取切换曲目的基本信息之后执行,以便于虚拟播放器更好地模拟音频播放器。云端和客户端对播放进度的调整在此不做赘述,具体可以参考步骤s207和第一同步步骤的说明。通过该技术方案,用户可以更好的实现云端和客户端同步。

    作为可选的技术方案,一个虚拟播放器对应一个以上的音频播放器,且各个音频播放器的用户账号相同、客户端类型不同。例如:车载音箱、智能电视、智能音箱均安装有音频播放器,则用户在第一天使用车载音箱并经由语音控制,当用户第二天使用智能电视时,可以直接经由云端实现同步并继续利用语音控制,从而可以实现不同类型的智能设备之间的播放进度同步,并克服了部分智能设备不能安装语音系统的问题。

    实施例四

    本实施例四提供一种语音交互系统。该系统包括客户端和云端,客户端与云端通信连接。

    客户端用于采集语音请求并上传至云端。

    云端用于接收语音请求,并基于第一语音系统将语音请求转化为计算机可读的标准请求,其中,云端保存有第一语音系统。

    云端用于将标准请求反馈于客户端。

    该系统用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。

    实施例五

    本实施例五提供了一种电子设备,图3是本申请实施例五所示电子设备的结构框图,参照图3所示,该电子设备包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行实现上述实施例中的任意一种语音交互方法,具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。

    可选地,上述电子设备还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。

    另外,结合上述实施例中的语音交互方法,本申请实施例五可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种语音交互方法,该方法包括:

    客户端采集语音请求并上传至云端;

    云端接收语音请求,并基于第一语音系统将语音请求转化为计算机可读的标准请求,其中,云端保存有第一语音系统;

    云端将标准请求反馈于客户端。

    如图3所示,以一个处理器为例,电子设备中的处理器、存储器、输入装置和输出装置可以通过总线或其他方式连接,图3中以通过总线连接为例。

    存储器作为一种计算机可读存储介质,可以包括高速随机存取存储器、非易失性存储器等,可用于存储操作系统、软件程序、计算机可执行程序和数据库,如本发明实施例一的语音交互方法对应的程序指令/模块,还可以包括内存,可用于为操作系统和计算机程序提供运行环境。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。

    处理器用于提供计算和控制能力,可以包括中央处理器(cpu),或者特定集成电路(applicationspecificintegratedcircuit,简称为asic),或者可以被配置成实施本申请实施例的一个或多个集成电路。处理器通过运行存储在存储器中的计算机可执行程序、软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现实施例一的语音交互方法。

    该电子设备的输出装置可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。

    该电子设备还可包括网络接口/通信接口,该电子设备的网络接口用于与外部的终端通过网络连接通信。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

    本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

    本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)、dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

    值得注意的是,在该语音交互方法的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。

    除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。

    以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。


    技术特征:

    1.一种语音交互方法,其特征在于,所述方法包括:

    客户端采集语音请求并上传至云端;

    所述云端接收所述语音请求,并基于第一语音系统将所述语音请求转化为计算机可读的标准请求,其中,所述云端保存有所述第一语音系统;

    所述云端将所述标准请求反馈于所述客户端。

    2.根据权利要求1所述的方法,其特征在于,所述客户端在上传所述语音请求的情况下,所述客户端的音频播放器处于运行状态,所述方法还包括:

    所述客户端接收所述标准请求,并基于所述标准请求调整所述音频播放器的播放进度。

    3.根据权利要求2所述的方法,其特征在于,所述云端建立有与所述音频播放器关联的虚拟播放器,所述方法还包括:

    所述云端根据所述标准请求调整所述虚拟播放器的播放进度,其中,所述虚拟播放器的播放进度和所述音频播放器的播放进度相同。

    4.根据权利要求3所述的方法,其特征在于,所述方法还包括;

    所述客户端接收调整请求并上传至云端;

    所述客户端根据所述调整请求调整所述音频播放器的播放进度;

    所述云端根据所述调整请求所述调整虚拟播放器的播放进度。

    5.根据权利要求3所述的方法,其特征在于,一个所述虚拟播放器对应一个以上的所述音频播放器,且各个音频播放器的用户账号相同、客户端类型不同。

    6.根据权利要求2至5中任意一项所述的方法,其特征在于,所述云端与所述客户端基于websocket建立连接,或所述云端与所述客户端对应的服务器设备基于websocket建立连接。

    7.根据权利要求2至5中任意一项所述的方法,其特征在于,在所述音频播放器未处于运行状态的情况下,所述方法还包括:

    所述客户端将所述语音请求记为第一请求并上传至云端;

    所述云端基于第二语音系统将所述第一请求转化为文字信息,所述云端还保存有所述第二语音系统;

    所述云端将所述文字信息反馈于所述客户端。

    8.一种语音交互系统,其特征在于,包括:客户端和云端,所述客户端与所述云端通信连接;

    所述客户端用于采集语音请求并上传至云端;

    所述云端用于接收所述语音请求,并基于第一语音系统将所述语音请求转化为计算机可读的标准请求,其中,所述云端保存有所述第一语音系统;

    所述云端用于将所述标准请求反馈于所述客户端。

    9.一种电子设备,其包括存储器和处理器,其特征在于,所处存储器中存储有计算机程序,所述处理器被设置为执行所述计算机程序时实现权利要求1至7中任意一项所述的方法。

    10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任意一项所述的方法。

    技术总结
    本发明公开了一种语音交互方法、系统、电子设备及介质,涉及语音识别技术领域,用于解决相关技术中每个智能设备集成语音系统导致其成本较高的问题。该方法具体包括:客户端采集语音请求并上传至云端;云端接收语音请求,并基于第一语音系统将语音请求转化为计算机可读的标准请求,其中,云端保存有第一语音系统;云端将标准请求反馈于客户端。本发明降低了单个客户端的成本,且便于对语音系统进行维护。

    技术研发人员:金凌琳;余锋;胡文涛
    受保护的技术使用者:当趣网络科技(杭州)有限公司
    技术研发日:2020.11.12
    技术公布日:2021.03.12

    转载请注明原文地址:https://wp.8miu.com/read-14555.html

    最新回复(0)