手势控制方法及系统与流程

专利2022-07-08 199

本发明涉及智能语音领域，尤其涉及一种手势控制方法及系统。

背景技术：

随着智能语音技术的发展，越来越多的智能设备具备语音控制的功能，为了提高与用户的交互效率，在语音交互的基础上，引入了手势控制，提升交互体验。

例如，语音结合静态图片的手势实现电视机的控制，比如:语音唤醒电视机后，静态手势ok，实现某个选定电影或电视节目的播放操作。考虑到有的用户不爱说话，仅仅使用静态图片的手势实现电视机控制，未结合语音。语音结合静态图片的手势实现电视机的控制，语音唤醒后，每一帧图片输入，输出一个手势动作，都使用图像识别相关算法；结合静态图片的手势实现电视机控制，未结合语音，一样也都使用了图像识别相关算法。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

1、语音唤醒后，如果每一帧图片输入，都有一个手势动作输出，存在多次触发手势动作的可能，比如上面ok的手势，如果视频持续采集，图片持续输入，会有多个ok手势输出，可能会触发多个动作输出；

2、同时基于静态图片的手势输出，无法满足精确需要触发连续两个相同手势动作输出的场景，比如，想通过手势，连续触发两次翻页操作操作；

3、基于静态图片的手势输出，手势动作输出时，无容错处理，一旦某个手势识别错误，识别成了其他手势，就会有误触发。

4、通常这类技术，从语音开始唤醒后，手势识别开启，如果算法不做场景限制，会存在一直触发手势结果输出的可能，尤其是存在图片误识别的问题，比如，当前语音唤醒后，当前不再列表选择状态，但是触发了翻页的动作(因为图片误识别或人为无意的手势操作)。

如果是结合静态图片的手势实现电视机控制，未结合语音，这种一般是，电视开机后，就调用了摄像头，这种一个是有误触发的可能，第二对于电视机来说，提高了cpu占用，第三，对于用户来说，持续的采集图片，个人隐私问题未得到保护。

技术实现要素：

为了至少解决现有技术中语音结合静态图片的手势实现电视机的控制，是基于静态图片的手势输出，是一帧图片输出一个手势动作，多帧图片会有多个手势输出，这样会触发多个动作，基于静态图片的手势，不考虑前后手势的相关性；同时，一般手势识别启动后，不会做结合手势场景的限制。结合静态图片的手势实现电视机控制，未结合语音，这种手势识别启动的时机只能是开机即启动，易误触发、cpu占用高的问题。

第一方面，本发明实施例提供一种手势控制方法，包括：

响应于用户输入的唤醒词，启动摄像头采集所述用户的手势；

根据采集到所述用户的动态手势，判断是否输出对应的动作。

第二方面，本发明实施例提供一种用于电子设备的手势控制系统，包括：

手势采集程序模块，用于响应于用户输入的唤醒词，启动摄像头采集所述用户的手势；

动作输出程序模块，用于根据采集到所述用户的动态手势，判断是否输出对应的动作。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的手势控制方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的手势控制方法的步骤。

本发明实施例的有益效果在于：在语音唤醒后启动手势识别，而不是电视开机就开始启动摄像，有效降低了平时未唤醒状态下，电视机的cpu使用。同时考虑到静态手势容易误触发，使用了更加精准的动态手势，避免误触发、误识别，提高手势命中率，提高用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种手势控制方法的流程图；

图2是本发明一实施例提供的一种手势控制方法的动态手势过程示意图；

图3是本发明一实施例提供的一种手势控制方法的操作流程图；

图4是本发明一实施例提供的一种手势控制方法的动态手势状态示意图；

图5是本发明一实施例提供的一种用于电子设备的手势控制系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种手势控制方法的流程图，包括如下步骤：

s11：响应于用户输入的唤醒词，启动摄像头采集所述用户的手势；

s12：根据采集到所述用户的动态手势，判断是否输出对应的动作。

在本实施方式中，可以将本方法适配在各种电子设备中，例如，智能电视、智能手机、智能平板等电子设备中。通常情况下，智能电视使用手势的情况比较多，以下举例中，以智能电视为例。

对于步骤s11，智能电视在播放媒体内容，此时用户希望控制电视，首先对智能电视进行语音唤醒。考虑到cpu的使用率，并不是从智能电视机开机的时候就启动摄像，而是在语音唤醒后，才启动手势识别，这有效的降低了平时未唤醒状态下智能电视机的使用，只有语音唤醒后，才启动手势识别。

例如，智能电视正在播放某个视频，此时的智能电视处于实时语音采集状态，通过麦克风持续录音(语音的sdk启动，实时将录音的音频给语音sdk)。当用户说出智能电视机的唤醒词“你好，小a”时，又或者有的智能电视的遥控器也具有唤醒的功能，用户通过按住遥控器，也可以进行唤醒。

考虑到智能电视在播放时声音较大，可以考虑在遥控器上配置麦克风来采集用户的声音，这样，通过电视和遥控器可以双向采集用户的声音，进一步提高唤醒的效率。

对于步骤s12，在确认用户输入唤醒词后，启动手势sdk，开启摄像头，来采集用户做出的动态手势。通过对采集的用户的动态手势进行识别判断，确定是否输出动态手势对应的动作。

通过该实施方式可以看出，在语音唤醒后启动手势识别，而不是电视开机就开始启动摄像，有效降低了平时未唤醒状态下，电视机的cpu使用。同时考虑到静态手势容易误触发，使用了更加精准的动态手势，避免误触发、误识别，提高手势命中率，提高用户体验。

作为一种实施方式，在本实施例中，所述动态手势由多个静态手势构成。

在本实施方式中，一次动态手势是由多个静态构成，例如，如果没有检测到手势，即没有手势输出定义为nogesture，存在手势输出时，输出对应手势，比如handleft/handright等。

定义一次动态手势过程，以handleft手势为例，如图2所示。一次动态手势，一定是以nogesture(连续三次(具体数量不限制，三次仅为举例))开始，以nogesture(连续三次)结束，在其中首次出现三个连续相同手势输出时，归一化输出唯一动作，后续直到nogesture不再输出手势动作。

例如，以最简单的下一个台，或者下一集的动态手势为连续多个nogesture静态图像，再连续多个“一个手指头朝右”的静态手势，最后以多个nogesture结束。

考虑到一些复杂的操作，单个静态手势可能难以承担，又例如难以以一个类型的动态手势表示的“加关注”、“点赞”、“投币”等操作。该动态手势可以设置为以nogesture连续多次开始，再连续多个“一个手指头左指45°”的静态手势(实际情况下，可以设置为区间，这样可以提高识别率)，再连续多个的“一个手指头右指45°”的静态手势，最后以多个nogesture结束。

作为一种实施方式，当采集到预定数量的多个连续静态手势相同时，对所述多个连续静态手势作归一化处理。

考虑到智能电视是实时采集的，如果频率过快，可能会采集到多个相同的手势，例如，用户“一个手指头朝右”的静态手势摆了1秒，但是采集的频率是0.2s，这样就会连续采集5个相同的手势，避免这种重复的相同手势，对这些相同的手势进行归一化处理。将这5个相同的手势确定为1个手势。避免出现“nogesture”→“右指”→“右指”→“右指”→“右指”→“nogesture”这种情况，通过归一化处理，可以得到“nogesture”→“右指”→“nogesture”。这一个动作手势。

实际情况中，各动态手势对应的动作可以预先设置好，也可以给予用户自定义的权限，让用户使用的更得心应手，提高用户交互体验。并且，归一化动态手势可以防止误触发，误识别，提高了用户手势的命中率。

对于手势归一化，可以针对于不同的场景进行不同的设定，例如，考虑到部分手势应用的场景，并不需要归一化输出，比如定义了twofingerup/twofingerdown来实现电视机上音量调大、音量调下的动作，此时期望持续输出手势动作。此时，不进行归一化，即可实现。进一步地对于手势sdk，处理最好统一，功能为输入图片，输出对应的手势，应用层结合不同场景做不同处理。基于此专门抽象出一个手势处理模块，对于不同的手势不同处理，部分手势需要归一化，部分手势不需要归一化。

作为一种实施方式，在本实施例中，所述根据采集到所述用户的动态手势，判断是否输出对应的动作包括：

识别所述用户的动态手势所对应的场景类型；

当所述场景类型与电子设备的当前场景一致时，判断所述动态手势是否属于当前场景下的已注册手势；

若是，输出所述动态手势对应的动作。

当所述场景类型与电子设备的当前场景不一致时，不响应所述动态手势输出对应的动作。

在本实施方式中，考虑到有的场景下，没有部分动态指令对应的动作，即使识别出来了，也无法实现。例如，使用智能电视看在线的cctv电视，例如少儿频道，科技频道等。这种类型的播放区别于其他视频平台录制好供他人观看的视频。这种直播有线电视频道通常是没有“点赞”、“加关注”、“投币”等操作。考虑到这种情况，只有当前的场景类型与动态手势的场景一致时，才会判断是否已注册。否则即使动态手势已注册了，但是由于该场景下使用不了所述动态手势，那也是无用功。

如果用户当前的场景为多媒体控件类型，例如，其他平台这种录制好的视频通常是由许许多多的媒体控件，在这种情况下，用户“加关注”的手势所对应的场景(多媒体控件类型)与当前的场景(也就是用户正在播放的其他平台，具有多媒体控件)一致。此时，输出动态手势对应的动作，对所观看视频的主播进行加关注。

更详细的，可以将场景分为如下场景：

文本控件类型：表示展示的数据包含文本即可；

内容卡片控件类型：表示展示的数据中除了包含文本信息外，还存在额外的描述信息，比图标信息，显示信息等；

列表控件类型：代表当前数据中是多个内容卡片信息；

多媒体控件类型：跟列表控件类似，只是其中每一项代表跟多媒体相关的信息

自定义控件类型：返回的数据格式不限定。

通过该实施方式可以看出，考虑到不同场景可能会有不同的手势，对场景进行了划分，并通过场景对动态手势进行进一步的限制，使得不同场景模式下，有着不同的识别结果与状态，从而实现了多模态的控制。

以简洁的方式，对本方法进行整体说明，如图3所示，为动态手势的整体操作流程图。

开机：智能电视开机；

录音机持续收音：智能电视的录音机收音，开启后语音的sdk启动，录音机持续送音频给语音sdk；

语音唤醒：用户通过远场或按住遥控器，语音输入唤醒词，比如“input：你好小s”

手势sdk初始化：智能电视被唤醒后，初始化手势sdk；

手势结果回调函数注册：智能电视通过注册手势结果的回调函数，后有手势结果返回时，会回调此函数；

手势注册：当前需要用到的手势注册，注册后，只响应注册的手势，未注册的手势不响应；

开启摄像头：智能电视启动摄像头

手势sdk图片输入：智能电视的手势sdk提供的图片feed接口；

手势结果回调：手势结果回调；

手势结果处理：流程如图4所示(以handleft为例)：

状态1:nogesture从此开始，当前测试连续三次nogesture时，状态1可以切换到状态2；

状态2:handleft，状态1可以切换到状态2时，连续遇到三次handleft手势，此时输出手势handleft，后续其他情况不输出手势；

状态3:nogesture连续三次为结束，后自动切换到状态1。

场景过滤：定义手势响应的场景，不在对应场景时，即使输出对应手势，做过滤，

手势输出：输出用户的动态手势；

输出动作：将动态手势映射的动作输出(例如下一集、下一频道、加关注等)。

如图5所示为本发明一实施例提供的一种用于电子设备的手势控制系统的结构示意图，该系统可执行上述任意实施例所述的手势控制方法，并配置在终端中。

本实施例提供的一种用于电子设备的手势控制系统10包括：手势采集程序模块11和动作输出程序模块12。

其中，手势采集程序模块11用于响应于用户输入的唤醒词，启动摄像头采集所述用户的手势；动作输出程序模块12用于根据采集到所述用户的动态手势，判断是否输出对应的动作。

进一步地，所述系统还用于：所述动态手势由多个静态手势构成。

进一步地，所述动作输出程序模块用于：

识别所述用户的动态手势所对应的场景类型；

当所述场景类型与电子设备的当前场景一致时，判断所述动态手势是否属于当前场景下的已注册手势；

若是，输出所述动态手势对应的动作。

进一步地，所述动作输出程序模块还用于：

识别所述用户的动态手势所对应的场景类型；

当所述场景类型与电子设备的当前场景不一致时，不响应所述动态手势输出对应的动作。

进一步地，所述系统还用于：当采集到预定数量的多个连续静态手势相同时，对所述多个连续静态手势作归一化处理。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的手势控制方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

响应于用户输入的唤醒词，启动摄像头采集所述用户的手势；

根据采集到所述用户的动态手势，判断是否输出对应的动作。

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的手势控制方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的手势控制方法的步骤。

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:pda、mid和umpc设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理功能的电子装置。

在本文中，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征：

1.一种手势控制方法，应用于电子设备，包括：

响应于用户输入的唤醒词，启动摄像头采集所述用户的手势；

根据采集到所述用户的动态手势，判断是否输出对应的动作。

2.根据权利要求1所述的方法，其中，所述动态手势由多个静态手势构成。

3.根据权利要求1-2中任一项所述的方法，其中，所述根据采集到所述用户的动态手势，判断是否输出对应的动作包括：

识别所述用户的动态手势所对应的场景类型；

当所述场景类型与电子设备的当前场景一致时，判断所述动态手势是否属于当前场景下的已注册手势；

若是，输出所述动态手势对应的动作。

4.根据权利要求1-2中任一项所述的方法，其中，所述根据采集到所述用户的动态手势，判断是否输出对应的动作包括：

识别所述用户的动态手势所对应的场景类型；

当所述场景类型与电子设备的当前场景不一致时，不响应所述动态手势输出对应的动作。

5.根据权利要求1-2中任一项所述的方法，其中，所述方法包括：当采集到预定数量的多个连续静态手势相同时，对所述多个连续静态手势作归一化处理。

6.一种用于电子设备的手势控制系统，包括：

手势采集程序模块，用于响应于用户输入的唤醒词，启动摄像头采集所述用户的手势；

动作输出程序模块，用于根据采集到所述用户的动态手势，判断是否输出对应的动作。

7.根据权利要求6所述的系统，其中，所述动态手势由多个静态手势构成。

8.根据权利要求6-7中任一项所述的系统，其中，所述动作输出程序模块用于：

识别所述用户的动态手势所对应的场景类型；

当所述场景类型与电子设备的当前场景一致时，判断所述动态手势是否属于当前场景下的已注册手势；

若是，输出所述动态手势对应的动作。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-5中任一项所述方法的步骤。

技术总结
本发明实施例提供一种手势控制方法。该方法包括：响应于用户输入的唤醒词，启动摄像头采集用户的手势；根据采集到用户的动态手势，判断是否输出对应的动作。本发明实施例还提供一种用于电子设备的手势控制系统。本发明实施例在语音唤醒后启动手势识别，而不是电视开机就开始启动摄像，有效降低了平时未唤醒状态下，电视机的cpu使用。同时考虑到静态手势容易误触发，使用了更加精准的动态手势，避免误触发、误识别，提高手势命中率，提高用户体验。考虑到不同场景可能会有不同的手势，对场景进行了划分，并通过场景对动态手势进行进一步的限制，使得不同场景模式下，有着不同的识别结果与状态，从而实现了多模态的控制。

技术研发人员：朱成亚;樊帅;宋洪博;吴卫
受保护的技术使用者：苏州思必驰信息科技有限公司
技术研发日：2020.11.27
技术公布日：2021.03.12

转载请注明原文地址:https://wp.8miu.com/read-19653.html

专利

最新回复(0)