一种基于声源定位控制摄像头转动的方法和装置与流程

专利2022-07-07 266

本发明涉及摄像头控制技术领域，特别是涉及一种基于声源定位控制摄像头转动的方法和装置。

背景技术：

目前，通过麦克风阵列的声源定位技术愈发的成熟，市面上也涌现出大量基于该技术的应用产品。

现常用的声源定位方法中有如tdoa(timedifferenceofarrival)，是一种利用时间差定位的方法，通过测量声源信号到达的时间和距离，进而确定信号的位置。

但是这种方法容易在混响条件下不能精准的识别所测量的声源信号，造成定位精度下降，进而难以精准转动控制摄像头，影响使用体验。

技术实现要素：

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于声源定位控制摄像头转动的方法和装置。

为了解决上述问题，本发明实施例公开了一种基于声源定位控制摄像头转动的方法，包括：

确定所采集的多路音频数据中人声声能最大的一路音频数据的方位信息，确定用于采集该路音频数据的麦克风的方位信息；

获取摄像头的方位信息，结合所述麦克风的方位信息，确定所述摄像头将要转动的第一角度信息，驱动所述摄像头转动；

实时采集图像信息，进行图像识别，确定人体在图像中的方位信息，计算图像中人体与图像中心的距离信息；

获取所述摄像头的视场角信息，根据所述距离信息，确定所述摄像头再次转动的第二角度信息，驱动所述摄像头再次转动。

进一步的，所述确定所采集的多路音频数据中人声声能最大的一路音频数据的方位信息，确定用于采集该路音频数据的麦克风的方位信息，之前，包括：

获取多路麦克风同时采集的声源信号；

对每路声源信号对应输出为音频数据，将每一路音频数据与同一时间轴对齐；

通过参考信号对多路对齐的音频数据进行线性回声消除处理；

对未被回声消除的信号进行降噪抑制，采用自动增益得到可识别的人声数据。

进一步的，所述确定所采集的多路音频数据中人声声能最大的一路音频数据的方位信息，确定用于采集该路音频数据的麦克风的方位信息，包括：

采用波束形成算法对每路音频数据中的人声数据进行处理，确定人声声能最大的方位信息；

根据该路声能最大的方位信息，确定与该路人声数据相邻的两路麦克风的方位信息；

分别计算声能最大的方位与相邻的两路麦克风的方位之间的夹角，确定所得夹角最小的一路麦克风的方位信息。

进一步的，所述实时采集图像信息，进行图像识别，确定人体在图像中的方位信息，计算图像中人体与图像中心的距离信息，包括：

调用预设的人体识别算法对所述摄像头采集的每一帧图像进行人体识别，当识别到当前帧图像中存在人体目标，确定所述人体目标在当前帧图像中的方位信息；

根据所述人体目标的方位信息，计算所述人体目标与所述当前帧图像中心的水平距离，得到所述距离信息。

进一步的，所述获取所述摄像头的视场角信息，根据所述距离信息，确定所述摄像头再次转动的第二角度信息，驱动所述摄像头再次转动，包括：

获取所述摄像头的水平视场角大小和图像的水平方向的像素点大小；

计算所述水平视场角与所述像素点之间的比值，得到水平转动比；

根据所述水平转动比得到所述距离信息对应转动的所述第二角度信息。

还提供一种基于声源定位控制摄像头转动的装置，包括：

方位确定模块，用于确定所采集的多路音频数据中人声声能最大的一路音频数据的方位信息，确定用于采集该路音频数据的麦克风的方位信息；

第一角度确定模块，用于获取摄像头的方位信息，结合所述麦克风的方位信息，确定所述摄像头将要转动的第一角度信息，驱动所述摄像头转动；

距离确定模块，用于实时采集图像信息，进行图像识别，确定人体在图像中的方位信息，计算图像中人体与图像中心的距离信息；

第二角度确定模块，用于获取所述摄像头的视场角信息，根据所述距离信息，确定所述摄像头再次转动的第二角度信息，驱动所述摄像头再次转动。

进一步的，所述方位确定模块，还包括：

声源信号采集模块，用于获取多路麦克风同时采集的声源信号；

音频数据对齐模块，用于对每路声源信号对应输出为音频数据，将每一路音频数据与同一时间轴对齐；

回声消除模块，用于通过参考信号对多路对齐的音频数据进行线性回声消除处理；

增益模块，用于对未被回声消除的信号进行降噪抑制，采用自动增益得到可识别的人声数据。

进一步的，所述距离确定模块，包括：

人体识别模块，用于调用预设的人体识别算法对所述摄像头采集的每一帧图像进行人体识别，当识别到当前帧图像中存在人体目标，确定所述人体目标在当前帧图像中的方位信息；

距离计算模块，用于根据所述人体目标的方位信息，计算所述人体目标与所述当前帧图像中心的水平距离，得到所述距离信息。

还提供一种电子设备，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现所述的基于声源定位控制摄像头转动的方法。

还提供一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现所述的基于声源定位控制摄像头转动的方法。

本发明实施例包括以下优点：

本申请实施例基于麦克风阵列和图像识别，控制摄像头两次转动，以达到使摄像头对发声的人体目标精准定位效果，采用波速形成算法对环境中人声声能最大的方位进行寻向定位，确定其中一路麦克风作为第一次转动的参照，结合图像识别定位计算第二次转动的角度，将摄像头的拍摄中心快速、精准的转动至人体目标上。

附图说明

图1是本发明的一种基于声源定位控制摄像头转动的方法实施例的步骤流程图；

图2是本发明的一种基于声源定位控制摄像头转动的装置实施例的结构框图。

图3是本发明的一种基于声源定位控制摄像头转动的计算机设备的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明实施例的基于声源定位控制摄像头转动的方法可以应用于任何配置了语音功能和图像识别功能的终端设备，例如，智能手机、平板电脑、智能家居等终端设备，本发明对此不作限制，从而能够使得用户在使用这些终端设备的过程中获得更及时准确的响应。

下面结合附图对本发明作进一步详细的说明。

图1示出了一种基于声源定位控制摄像头转动的方法实施例的步骤流程图。如图1所示，本申请实施例步骤如下，包括：

s100，确定所采集的多路音频数据中人声声能最大的一路音频数据的方位信息，确定用于采集该路音频数据的麦克风的方位信息；

s200，获取摄像头的方位信息，结合所述麦克风的方位信息，确定所述摄像头将要转动的第一角度信息，驱动所述摄像头转动；

s300，实时采集图像信息，进行图像识别，确定人体在图像中的方位信息，计算图像中人体与图像中心的距离信息；

s400，获取所述摄像头的视场角信息，根据所述距离信息，确定所述摄像头再次转动的第二角度信息，驱动所述摄像头再次转动。

在步骤s100，确定所采集的多路音频数据中人声声能最大的一路音频数据的方位信息，确定用于采集该路音频数据的麦克风的方位信息，之前，包括：

获取多路麦克风同时采集的声源信号；

具体的，由多路麦克风组成的麦克风阵列采集声源信号，每一路麦克风将所采集的声源信号输出为音频数据。环境中，在特定的角度内，无论是某一处说话，还是多处说话，所发出的声源信号均能被每一个麦克风采集，形成不同路的音频数据。还需对所形成的音频数据作进一步处理。

对每路声源信号对应输入为音频数据，将每一路音频数据与同一时间轴对齐；

通过参考信号对多路对齐的音频数据进行线性回声消除处理；

具体的，麦克风采集到的声源信号一方面来自环境，另一方面来自扬声器，形成回声，可以从扬声器中获取参考信号，也可以从声卡驱动中获取参考信号，以将麦克风所输出的音频信号中的回声进行抵消。

对未被回声消除的信号进行环境噪声降噪抑制，采用自动增益得到可识别的人声数据；

具体的，回声消除处理通常无法完全消除回声，对未完全消除的回声进行非线性抑制，同时对回声消除后的音频数据进行自适应降噪，方便得到可靠的增益信号，以便得到更加精准可识别的人声数据。

在步骤s100中，所述确定所采集的多路音频数据中人声声能最大的一路音频数据的方位信息，确定用于采集该路音频数据的麦克风的方位信息，包括：

采用波束形成算法对每路音频数据中的人声数据进行处理，确定人声声能最大的方位信息；

根据该路声能最大的方位信息，确定与该路人声数据相邻的两路麦克风的方位信息；

具体的，通过波束形成算法对每路所采集得到的人声数据进行处理，得到声能最大的方位，在麦克风阵列中，可能出现其中相邻的两路的声能大小趋近，为便于判断以快速确定其中一路为声能最大的一路，

分别计算声能最大的方位与相邻的两路麦克风的方位之间的夹角，确定所得夹角最小的一路麦克风的方位信息。

开启可360度驱动旋转的摄像头，可得到摄像头实时拍摄的方位信息，结合所述麦克风的方位信息，确定所述摄像头将要转动的第一角度信息，所述的第一角度为锐角，即摄像头可转动的最小角度。

发送第一角度信息至控制系统，控制系统根据所得的第一角度信息驱动所述摄像头进行转动，本申请实施例中，摄像头为水平转动，声能最大的方位信息可以是多维角度，难以作为摄像头转动的参考信息，因此选取最有可能采集该最大声能数据的麦克风作为参考，其数据计算量更小，驱动摄像头转动的反应时间更快。

在一实施例中，所述实时采集图像信息，进行图像识别，确定人体在图像中的方位信息，计算图像中人体与图像中心的距离信息，包括：

根据所述人体目标的方位信息，计算所述人体目标与所述当前帧图像中心的水平距离，得到第一距离信息，驱动所述摄像头转动；

摄像头根据上述的距离信息进行再次转动，在人体目标保持不动的情况下，从而使将要采集的下一帧图像中心对准人体目标。

实际情况中，摄像头完成第二次转动或将开始采集下一帧图像，若人体目标发生位置偏移，则在下一帧图像中，人体目标仍未处于图像中心，按照上述机制，摄像头将再次转动，如此频率的转动可能使摄像头损坏，影响使用寿命。

对此，对所采集的下一帧图像重新进行图像识别，确定所述人体在所述下一帧图像中的方位信息，计算下一帧图像中人体与下一帧图像中心的第二距离；

比较所述第一距离和所述第二距离值的大小，若第二距离小于第一距离，则不驱动所述摄像头转动，以避免摄像头作不必要的转动。

在一实施例中，根据步骤s300所得的距离信息还不能直接应用与摄像头转动，但可以据此，结合摄像头的成像原理得到摄像头的转动方向。进一步地，所述获取所述摄像头的视场角信息，根据所述距离信息，确定所述摄像头再次转动的第二角度信息，驱动所述摄像头再次转动，包括：

获取所述摄像头的水平视场角大小和图像的水平方向的像素点大小；

计算所述水平视场角与所述像素点之间的比值，得到水平转动比；

根据所述水平转动比得到所述距离信息对应转动的所述第二角度信息。

例如，摄像头的水平视场角为90度，图像的水平像素点大小为1024，得到每1度视场角占90\1024个像素大小，再用距离信息中的值除以90\1024个像素大小得到将要转动的第二角度信息。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图2，示出了本发明的一种基于声源定位控制摄像头转动的装置实施例的结构框图，具体可以包括如下模块：

方位确定模块100，用于确定所采集的多路音频数据中人声声能最大的一路音频数据的方位信息，确定用于采集该路音频数据的麦克风的方位信息；

第一角度确定模块200，用于获取摄像头的方位信息，结合所述麦克风的方位信息，确定所述摄像头将要转动的第一角度信息，驱动所述摄像头转动；

距离确定模块300，用于实时采集图像信息，进行图像识别，确定人体在图像中的方位信息，计算图像中人体与图像中心的距离信息；

第二角度确定模块400，用于获取所述摄像头的视场角信息，根据所述距离信息，确定所述摄像头再次转动的第二角度信息，驱动所述摄像头再次转动。

在一实施例中，所述方位确定模块，还包括：

声源信号采集模块，用于获取多路麦克风同时采集的声源信号；

音频数据对齐模块，用于对每路声源信号对应输出为音频数据，将每一路音频数据与同一时间轴对齐；

回声消除模块，用于通过参考信号对多路对齐的音频数据进行线性回声消除处理；

增益模块，用于对未被回声消除的信号进行降噪抑制，采用自动增益得到可识别的人声数据。

在一实施例中，所述距离确定模块，包括：

距离计算模块，用于根据所述人体目标的方位信息，计算所述人体目标与所述当前帧图像中心的水平距离，得到所述距离信息。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

如图3，示出了本发明的一种基于声源定位控制摄像头转动的计算机设备，具体可以包括如下：

在本发明实施例中，本发明还提供一种计算机设备，上述计算机设备12以通用计算设备的形式表现，计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线18结构中的一种或多种，包括存储器总线18或者存储器控制器，外围总线18，图形加速端口，处理器或者使用多种总线18结构中的任意总线18结构的局域总线18。举例来说，这些体系结构包括但不限于工业标准体系结构(isa)总线18，微通道体系结构(mac)总线18，增强型isa总线18、音视频电子标准协会(vesa)局域总线18以及外围组件互连(pci)总线18。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(ram)31和/或高速缓存存储器32。计算机设备12可以进一步包括其他移动/不可移动的、易失性/非易失性计算机体统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(通常称为“硬盘驱动器”)。尽管图3中未示出，可以提供用于对可移动非易失性磁盘(如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如cd～rom，dvd～rom或者其他光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块42，这些程序模块42被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具41，可以存储在例如存储器中，这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其他程序模块42以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24、摄像头等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(lan))，广域网(wan)和/或公共网络(例如因特网)通信。如图所示，网络适配器21通过总线18与计算机设备12的其他模块通信。应当明白，尽管图中未示出，可以结合计算机设备12使用其他硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元16、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统34等。

处理单元16通过运行存储在系统存储器28中的程序，执行各种功能应用以及数据处理，例如实现本发明实施例所提供的一种基于声源定位控制摄像头转动的方法。

即上述处理单元16执行上述程序时实现：确定所采集的多路音频数据中人声声能最大的一路音频数据的方位信息，确定用于采集该路音频数据的麦克风的方位信息；获取摄像头的方位信息，结合所述麦克风的方位信息，确定所述摄像头将要转动的第一角度信息，驱动所述摄像头转动；实时采集图像信息，进行图像识别，确定人体在图像中的方位信息，计算图像中人体与图像中心的距离信息；获取所述摄像头的视场角信息，根据所述距离信息，确定所述摄像头再次转动的第二角度信息，驱动所述摄像头再次转动。

在本发明实施例中，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请所有实施例提供的一种基于声源定位控制摄像头转动的方法。

也即，给程序被处理器执行时实现：确定所采集的多路音频数据中人声声能最大的一路音频数据的方位信息，确定用于采集该路音频数据的麦克风的方位信息；获取摄像头的方位信息，结合所述麦克风的方位信息，确定所述摄像头将要转动的第一角度信息，驱动所述摄像头转动；实时采集图像信息，进行图像识别，确定人体在图像中的方位信息，计算图像中人体与图像中心的距离信息；获取所述摄像头的视场角信息，根据所述距离信息，确定所述摄像头再次转动的第二角度信息，驱动所述摄像头再次转动。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机克顿信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦可编程只读存储器(epom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd～rom)、光存储器件、磁存储器件或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，改计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言——诸如java、smalltalk、c ，还包括常规的过程式程序设计语言——诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行或者完全在远程计算机或者服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)——连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种基于声源定位控制摄像头转动的方法，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

技术特征：

1.一种基于声源定位控制摄像头转动的方法，其特征在于，包括：

确定所采集的多路音频数据中人声声能最大的一路音频数据的方位信息，确定用于采集该路音频数据的麦克风的方位信息；

获取摄像头的方位信息，结合所述麦克风的方位信息，确定所述摄像头将要转动的第一角度信息，驱动所述摄像头转动；

实时采集图像信息，进行图像识别，确定人体在图像中的方位信息，计算图像中人体与图像中心的距离信息；

获取所述摄像头的视场角信息，根据所述距离信息，确定所述摄像头再次转动的第二角度信息，驱动所述摄像头再次转动。

2.根据权利要求1所述的方法，其特征在于，所述确定所采集的多路音频数据中人声声能最大的一路音频数据的方位信息，确定用于采集该路音频数据的麦克风的方位信息，之前，包括：

获取多路麦克风同时采集的声源信号；

对每路声源信号对应输出为音频数据，将每一路音频数据与同一时间轴对齐；

通过参考信号对多路对齐的音频数据进行线性回声消除处理；

对未被回声消除的信号进行降噪抑制，采用自动增益得到可识别的人声数据。

3.根据权利要求1所述的方法，其特征在于，所述确定所采集的多路音频数据中人声声能最大的一路音频数据的方位信息，确定用于采集该路音频数据的麦克风的方位信息，包括：

采用波束形成算法对每路音频数据中的人声数据进行处理，确定人声声能最大的方位信息；

根据该路声能最大的方位信息，确定与该路人声数据相邻的两路麦克风的方位信息；

分别计算声能最大的方位与相邻的两路麦克风的方位之间的夹角，确定所得夹角最小的一路麦克风的方位信息。

4.根据权利要求1所述的方法，其特征在于，所述实时采集图像信息，进行图像识别，确定人体在图像中的方位信息，计算图像中人体与图像中心的距离信息，包括：

根据所述人体目标的方位信息，计算所述人体目标与所述当前帧图像中心的水平距离，得到所述距离信息。

5.根据权利要求1所述的方法，其特征在于，所述获取所述摄像头的视场角信息，根据所述距离信息，确定所述摄像头再次转动的第二角度信息，驱动所述摄像头再次转动，包括：

获取所述摄像头的水平视场角大小和图像的水平方向的像素点大小；

计算所述水平视场角与所述像素点之间的比值，得到水平转动比；

根据所述水平转动比得到所述距离信息对应转动的所述第二角度信息。

6.一种基于声源定位控制摄像头转动的装置，其特征在于，包括：

方位确定模块，用于确定所采集的多路音频数据中人声声能最大的一路音频数据的方位信息，确定用于采集该路音频数据的麦克风的方位信息；

第一角度确定模块，用于获取摄像头的方位信息，结合所述麦克风的方位信息，确定所述摄像头将要转动的第一角度信息，驱动所述摄像头转动；

距离确定模块，用于实时采集图像信息，进行图像识别，确定人体在图像中的方位信息，计算图像中人体与图像中心的距离信息；

第二角度确定模块，用于获取所述摄像头的视场角信息，根据所述距离信息，确定所述摄像头再次转动的第二角度信息，驱动所述摄像头再次转动。

7.根据权利要求6所述的装置，其特征在于，所述方位确定模块，还包括：

声源信号采集模块，用于获取多路麦克风同时采集的声源信号；

音频数据对齐模块，用于对每路声源信号对应输出为音频数据，将每一路音频数据与同一时间轴对齐；

回声消除模块，用于通过参考信号对多路对齐的音频数据进行线性回声消除处理；

增益模块，用于对未被回声消除的信号进行降噪抑制，采用自动增益得到可识别的人声数据。

8.根据权利要求6所述的装置，其特征在于，所述距离确定模块，包括：

距离计算模块，用于根据所述人体目标的方位信息，计算所述人体目标与所述当前帧图像中心的水平距离，得到所述距离信息。

9.电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的基于声源定位控制摄像头转动的方法。

10.计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的基于声源定位控制摄像头转动的方法。

技术总结
本发明涉及摄像头控制技术领域，特别是涉及一种基于声源定位控制摄像头转动的方法和装置，其方法包括，确定所采集的多路音频数据中人声声能最大的一路音频数据的方位信息，确定用于采集该路音频数据的麦克风的方位信息；获取摄像头的方位信息，结合所述麦克风的方位信息，确定摄像头将要转动的第一角度信息，驱动摄像头转动；实时采集图像信息，进行图像识别，确定人体在图像中的方位信息，计算图像中人体与图像中心的距离信息；获取摄像头的视场角信息，根据距离信息，确定摄像头再次转动的第二角度信息，驱动摄像头再次转动，基于麦克风阵列和图像识别，控制摄像头两次转动，以达到使摄像头对发声的人体目标精准定位效果。

技术研发人员：陈均
受保护的技术使用者：深圳卡多希科技有限公司
技术研发日：2020.11.30
技术公布日：2021.03.12

转载请注明原文地址:https://wp.8miu.com/read-6849.html

专利

最新回复(0)