本发明涉及摄像头装置控制技术领域,特别是涉及一种多人视频中发言人的识别方法和装置。
背景技术:
在目前技术飞速发展进步的背景下,提供了更多的视音频智能分析技术,以便完成视像和音频的结构化数据输出,并通过结构化数据与视音频数据的融合呈现,可提供更为人性化的应用体验。
在存在多人的音视频数据中,同画面显示时,系统无法确定当前视频流中具体的发言者,也就无法自动体现结构化的音视频数据,往往都是在录制的音视频数据中,通过后期人共处理融合而成,难以适应于实时的直播应用。
技术实现要素:
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种多人视频中发言人的识别方法和装置。
为了解决上述问题,本发明实施例公开了一种多人视频中发言人的识别方法,包括:
获取摄像头所采集的图像数据,调用预设的人脸识别模型对每一帧所述图像数据进行识别,确定所获取到的每一人脸特征在所属图像数据中的位置参数;
获取麦克风阵列所采集的多路音频数据,采用预设的语音识别模型确定其中一路人声声能最强的音频数据的位置参数;
根据所述音频数据的位置参数确定发言人在所述图像中的位置参数;
根据发言人在所述图像中的位置参数,获取对所述发言人人脸的图像截取数据,对所述图像截取数据中图像进行像素放大。
进一步的,所述调用预设的人脸识别模型对每一帧所述图像数据进行识别,包括:
提取样本图像中的人脸特征;
将所述人脸特征以及样本图像数据输入至识别网络中,确定人脸识别框的位置信息和所述人脸识别框中的人脸图像信息;
对所述人脸识别框中的人脸图像进行截取,得到人脸截图框,并将所述人脸截图框中的图像数据输入至所述识别网络中;
通过所述识别网络对所述人脸识别框和所述人脸截图框进行训练得到所述人脸识别模型。
进一步的,所述获取麦克风阵列所采集的多路音频数据,采用预设的语音识别模型确定其中一路人声声能最强的音频数据的位置参数,包括:
对所采集的每路所述音频数据中根据参考信号进行回声消除处理;具体的,参考信号可从扬声器或声卡驱动中获取参考信号;
对未被回声消除的信号进行降噪抑制,采用自动增益得到可识别的人声数据;
对每路音频数据中人声数据采用波束形成算法处理,得到多路波束信号;
分别对每路波束信号进行语音识别,确定人声声能最强的波束信号,得到与该波束信号对应的音频数据的位置参数。
进一步的,所述分别对每路波束信号进行语音识别,包括:
分别对每路波束信号中的关键词进行语音识别,对检测到其中一路波束信号中的关键词信息与预设关键词训练结果相匹配时,则该路波束信号为关键词波束信号。
进一步的,所述通过所述识别网络对所述人脸识别框和所述人脸截图框进行训练得到所述人脸识别模型,包括:
获取图像放大区域的像素占比数据;
根据图像截取数据中的像素占比数据计算所截取图像放大至所述图像放大区域中的放大系数;
对所述图像截取数据中图像根据所述放大系数进行像素放大。
还提供一种多人视频中发言人的识别装置,包括:
人脸识别模块,用于获取摄像头所采集的图像数据,调用预设的人脸识别模型对每一帧所述图像数据进行识别,确定所获取到的每一人脸特征在所属图像数据中的位置参数;
语音识别模块,获取麦克风阵列所采集的多路音频数据,采用预设的语音识别模型确定其中一路人声声能最强的音频数据的位置参数;
位置确认模块,用于根据所述音频数据的位置参数确定发言人在所述图像中的位置参数;
像素放大模块,用于根据发言人在所述图像中的位置参数,获取对所述发言人人脸的图像截取数据,对所述图像截取数据中图像进行像素放大
进一步的,所述人脸识别模块,包括:
提取样本图像中的人脸特征;
将所述人脸特征以及样本图像数据输入至识别网络中,确定人脸识别框的位置信息和所述人脸识别框中的人脸图像信息;
对所述人脸识别框中的人脸图像进行截取,得到人脸截图框,并将所述人脸截图框中的图像数据输入至所述识别网络中;
通过所述识别网络对所述人脸识别框和所述人脸截图框进行多卷积层结构的训练得到所述人脸识别模型。
进一步的,所述像素放大模块,包括:
放大区域获取模块,用于获取图像放大区域的像素占比数据;
放大系数计算模块,用于根据图像截取数据中的像素占比数据计算所截取图像放大至所述图像放大区域中的放大系数;
放大子模块,用于对所述图像截取数据中图像根据所述放大系数进行像素放大。
还提供一种电子设备,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现所述的多人视频中发言人的识别方法。
还提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现所述的多人视频中发言人的识别方法。
本发明实施例包括以下优点:
本申请运用人脸识别技术对图像中所有人脸目标进行定位,结合麦克风阵列定位到具体发言人位置信息,从而具体定位到发言人在图像中的具体位置,通过图像计算图像放大系数将发言人的人脸图像进行放大,使实时直播中视频画面结构化能自动实现,提高了直播的趣味性,增强了人机交互的能力。
附图说明
图1是本发明的一种多人视频中发言人的识别方法实施例的步骤流程图;
图2是本发明的一种多人视频中发言人的识别装置实施例的结构框图;
图3是本发明的一种多人视频中发言人的识别的计算机设备的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明实施例的基于声源定位控制摄像头转动的方法可以应用于任何配置了语音功能和图像识别功能的终端设备,例如,智能手机、平板电脑、智能家居等终端设备,本发明对此不作限制,从而能够使得用户在使用这些终端设备的过程中获得更及时准确的响应。
本申请实施例中所应用到的摄像头可以为一个,则仅对一个方位进行拍摄,对应的,麦克风阵列呈线性阵列;摄像头也可以为多个,多个摄像头则呈环形阵列,对应的,麦克风也为环形阵列。
本申请实施例的应用场景之一为,在多人同时出现的同一视频画面中,识别实际发言者,如图1,提供一种多人视频中发言人的识别方法,具体方法步骤如下:
s100,获取摄像头所采集的图像数据,调用预设的人脸识别模型对每一帧所述图像数据进行识别,确定所获取到的每一人脸特征在所属图像数据中的位置参数;
s200,获取麦克风阵列所采集的多路音频数据,采用预设的语音识别模型确定其中一路人声声能最强的音频数据的位置参数;
s300,根据所述音频数据的位置参数确定发言人在所述图像中的位置参数;
s400,根据发言人在所述图像中的位置参数,获取对所述发言人人脸的图像截取数据,对所述图像截取数据中图像进行像素放大。
在步骤s100中,预设的人脸识别模型是基于卷积神经网络不断对带有人脸特征的样本图像进行训练而得,具体的,包括:
提取样本图像中的人脸特征;主要包括真实人脸在所述样本图样中的位置信息,可以利用现有的图像特征选取工具提取出人脸在样本图样中的坐标数据和像素占比数据。
将所述人脸特征以及样本图像数据输入至识别网络中,确定人脸识别框的位置信息和所述人脸识别框中的人脸图像信息;
对所述人脸识别框中的人脸图像进行截取,得到人脸截图框,并将所述人脸截图框中的图像数据输入至所述识别网络中;
通过所述识别网络对所述人脸识别框和所述人脸截图框进行多卷积层结构的训练得到所述人脸识别模型;
需要说明的是,上述识别网络为卷积神经网络,其结构不仅限于卷积层,还包括池化层、全连接层等,无论结合哪种结构方式进行训练,其目的在于,通过向本申请实施例中的人脸识别模型中输入带有人脸特征的图像数据即可得到图像中人脸的位置信息和人脸截图框的图像数据。
在步骤s200中,图像数据采集和音频数据采集同步进行,而图像数据采集基于人脸识别模型可快速识别定位,音频数据的识别过程中则需要进行预处理,具体的,包括:
对所采集的每路所述音频数据中根据参考信号进行回声消除处理;具体的,参考信号可从扬声器或声卡驱动中获取参考信号;
对未被回声消除的信号进行降噪抑制,采用自动增益得到可识别的人声数据。其中,人声的发声频率为20hz-20khz。
对所采集的音频数据进行预处理后,得到处理后的人声数据,音频数据的识别过程如下:
对每路音频数据中人声数据采用波束形成算法处理,得到多路波束信号;波束形成,是对麦克风阵列中各麦克风输出的音频信号进行时延或相位补偿、幅度加权处理,以形成指向特定方向的波束;
分别对每路波束信号进行语音识别,确定人声声能最强的波束信号,得到与该波束信号对应的音频数据的位置参数。
在一实施例中,所述波束信号中还包括关键词信息,所述分别对每路波束信号进行语音识别,还包括:
分别对每路波束信号中的关键词进行语音识别,对检测到其中一路波束信号中的关键词信息与预设关键词训练结果相匹配时,则该路波束信号为关键词波束信号。
上述实施例中,多路音频数据中通过预处理后得到的人声数据中,经语音识别模型训练的关键词结果检测到某一路中存在与该结果相匹配的关键词信息,则该路音频数据的位置参数即视为人声声能最强的音频数据的位置参数,将以具有关键词信息的音频数据的位置参数作为后续的定位的参考参数据。
在确定其中一路人声声能最强的音频数据的位置参数后,通过波束形成算法寻向找到该音频数据的角度方位,从而确定与之接近的麦克风阵列中的其中一只麦克风,获取该麦克风的位置参数,即可得到真实发言人与该麦克风的对应关系。
具体的,若采用4个麦克风进行线性阵列,相邻麦克风夹角角度为45度,正好每个麦克风对应一个人,则图像中应识别出4个人脸识别框。假定每个人都展示发言状态,系统此时是无法通过人脸识别技术识别出实际发言人的,通过本申请实施例中的获取人声声能最强的音频数据的位置参数后,即可定位到具体哪一路麦克风所采集的人声声能最强,结合可以判定人脸识别框中实际的发言人的位置参数。
在步骤s400中,所采集的图像数据中包括图像放大区域,即将所识别的图像在指定的所述图像放大区域中进行放大,具体的,包括:
获取图像放大区域的像素占比数据;
根据图像截取数据中的像素占比数据计算所截取图像放大至所述图像放大区域中的放大系数;
对所述图像截取数据中图像根据所述放大系数进行像素放大。
以此,实现在多人视频画面中将实际发言者在图像中进行放大显示,提高了多人视频中的互动性,扩宽了多人视频更广泛的应用。
如图2,本申请实施例还提供一种多人视频中发言人的识别的装置,包括:
人脸识别模块100,用于获取摄像头所采集的图像数据,调用预设的人脸识别模型对每一帧所述图像数据进行识别,确定所获取到的每一人脸特征在所属图像数据中的位置参数;
语音识别模块200,获取麦克风阵列所采集的多路音频数据,采用预设的语音识别模型确定其中一路人声声能最强的音频数据的位置参数;
位置确认模块300,用于根据所述音频数据的位置参数确定发言人在所述图像中的位置参数;
像素放大模块400,用于根据发言人在所述图像中的位置参数,获取对所述发言人人脸的图像截取数据,对所述图像截取数据中图像进行像素放大
在一实施例中,所述人脸识别模块100,包括:
提取样本图像中的人脸特征;
将所述人脸特征以及样本图像数据输入至识别网络中,确定人脸识别框的位置信息和所述人脸识别框中的人脸图像信息;
对所述人脸识别框中的人脸图像进行截取,得到人脸截图框,并将所述人脸截图框中的图像数据输入至所述识别网络中;
通过所述识别网络对所述人脸识别框和所述人脸截图框进行多卷积层结构的训练得到所述人脸识别模型。
在一实施例中,所述像素放大模块400,包括:
放大区域获取模块,用于获取图像放大区域的像素占比数据;
放大系数计算模块,用于根据图像截取数据中的像素占比数据计算所截取图像放大至所述图像放大区域中的放大系数;
放大子模块,用于对所述图像截取数据中图像根据所述放大系数进行像素放大
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
参照图3,示出了本发明的一种多人视频中发言人的识别的计算机设备,具体可以包括如下:
在本发明实施例中,本发明还提供一种计算机设备,上述计算机设备12以通用计算设备的形式表现,计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线18结构中的一种或多种,包括存储器总线18或者存储器控制器,外围总线18,图形加速端口,处理器或者使用多种总线18结构中的任意总线18结构的局域总线18。举例来说,这些体系结构包括但不限于工业标准体系结构(isa)总线18,微通道体系结构(mac)总线18,增强型isa总线18、音视频电子标准协会(vesa)局域总线18以及外围组件互连(pci)总线18。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(ram)31和/或高速缓存存储器32。计算机设备12可以进一步包括其他移动/不可移动的、易失性/非易失性计算机体统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(通常称为“硬盘驱动器”)。尽管图3中未示出,可以提供用于对可移动非易失性磁盘(如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如cd~rom,dvd~rom或者其他光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块42,这些程序模块42被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具41,可以存储在例如存储器中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其他程序模块42以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24、摄像头等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(lan)),广域网(wan)和/或公共网络(例如因特网)通信。如图所示,网络适配器21通过总线18与计算机设备12的其他模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其他硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元16、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统34等。
处理单元16通过运行存储在系统存储器28中的程序,执行各种功能应用以及数据处理,例如实现本发明实施例所提供的一种多人视频中发言人的识别的方法。
即上述处理单元16执行上述程序时实现:获取摄像头所采集的图像数据,调用预设的人脸识别模型对每一帧所述图像数据进行识别,确定所获取到的每一人脸特征在所属图像数据中的位置参数;获取麦克风阵列所采集的多路音频数据,采用预设的语音识别模型确定其中一路人声声能最强的音频数据的位置参数;根据所述音频数据的位置参数确定发言人在所述图像中的位置参数;根据发言人在所述图像中的位置参数,获取对所述发言人人脸的图像截取数据,对所述图像截取数据中图像进行像素放大。
在本发明实施例中,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请所有实施例提供的一种多人视频中发言人的识别的方法。
也即,给程序被处理器执行时实现:获取摄像头所采集的图像数据,调用预设的人脸识别模型对每一帧所述图像数据进行识别,确定所获取到的每一人脸特征在所属图像数据中的位置参数;获取麦克风阵列所采集的多路音频数据,采用预设的语音识别模型确定其中一路人声声能最强的音频数据的位置参数;根据所述音频数据的位置参数确定发言人在所述图像中的位置参数;根据发言人在所述图像中的位置参数,获取对所述发言人人脸的图像截取数据,对所述图像截取数据中图像进行像素放大。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机克顿信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦可编程只读存储器(epom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd~rom)、光存储器件、磁存储器件或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,改计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言——诸如java、smalltalk、c ,还包括常规的过程式程序设计语言——诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行或者完全在远程计算机或者服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种多人视频中发言人的识别的方法,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
1.一种多人视频中发言人的识别方法,其特征在于,包括:
获取摄像头所采集的图像数据,调用预设的人脸识别模型对每一帧所述图像数据进行识别,确定所获取到的每一人脸特征在所属图像数据中的位置参数;
获取麦克风阵列所采集的多路音频数据,采用预设的语音识别模型确定其中一路人声声能最强的音频数据的位置参数;
根据所述音频数据的位置参数确定发言人在所述图像中的位置参数;
根据发言人在所述图像中的位置参数,获取对所述发言人人脸的图像截取数据,对所述图像截取数据中图像进行像素放大。
2.根据权利要求1所述的方法,其特征在于,所述调用预设的人脸识别模型对每一帧所述图像数据进行识别,包括:
提取样本图像中的人脸特征;
将所述人脸特征以及样本图像数据输入至识别网络中,确定人脸识别框的位置信息和所述人脸识别框中的人脸图像信息;
对所述人脸识别框中的人脸图像进行截取,得到人脸截图框,并将所述人脸截图框中的图像数据输入至所述识别网络中;
通过所述识别网络对所述人脸识别框和所述人脸截图框进行训练得到所述人脸识别模型。
3.根据权利要求1所述的方法,其特征在于,所述获取麦克风阵列所采集的多路音频数据,采用预设的语音识别模型确定其中一路人声声能最强的音频数据的位置参数,包括:
对所采集的每路所述音频数据中根据参考信号进行回声消除处理;具体的,参考信号可从扬声器或声卡驱动中获取参考信号;
对未被回声消除的信号进行降噪抑制,采用自动增益得到可识别的人声数据;
对每路音频数据中人声数据采用波束形成算法处理,得到多路波束信号;
分别对每路波束信号进行语音识别,确定人声声能最强的波束信号,得到与该波束信号对应的音频数据的位置参数。
4.根据权利要求1所述的方法,其特征在于,所述分别对每路波束信号进行语音识别,包括:
分别对每路波束信号中的关键词进行语音识别,对检测到其中一路波束信号中的关键词信息与预设关键词训练结果相匹配时,则该路波束信号为关键词波束信号。
5.根据权利要求1所述的方法,其特征在于,所述通过所述识别网络对所述人脸识别框和所述人脸截图框进行训练得到所述人脸识别模型,包括:
获取图像放大区域的像素占比数据;
根据图像截取数据中的像素占比数据计算所截取图像放大至所述图像放大区域中的放大系数;
对所述图像截取数据中图像根据所述放大系数进行像素放大。
6.一种多人视频中发言人的识别装置,其特征在于,包括:
人脸识别模块,用于获取摄像头所采集的图像数据,调用预设的人脸识别模型对每一帧所述图像数据进行识别,确定所获取到的每一人脸特征在所属图像数据中的位置参数;
语音识别模块,获取麦克风阵列所采集的多路音频数据,采用预设的语音识别模型确定其中一路人声声能最强的音频数据的位置参数;
位置确认模块,用于根据所述音频数据的位置参数确定发言人在所述图像中的位置参数;
像素放大模块,用于根据发言人在所述图像中的位置参数,获取对所述发言人人脸的图像截取数据,对所述图像截取数据中图像进行像素放大。
7.根据权利要求6所述的装置,其特征在于,所述人脸识别模块,包括:
提取样本图像中的人脸特征;
将所述人脸特征以及样本图像数据输入至识别网络中,确定人脸识别框的位置信息和所述人脸识别框中的人脸图像信息;
对所述人脸识别框中的人脸图像进行截取,得到人脸截图框,并将所述人脸截图框中的图像数据输入至所述识别网络中;
通过所述识别网络对所述人脸识别框和所述人脸截图框进行多卷积层结构的训练得到所述人脸识别模型。
8.根据权利要求6所述的装置,其特征在于,所述像素放大模块,包括:
放大区域获取模块,用于获取图像放大区域的像素占比数据;
放大系数计算模块,用于根据图像截取数据中的像素占比数据计算所截取图像放大至所述图像放大区域中的放大系数;
放大子模块,用于对所述图像截取数据中图像根据所述放大系数进行像素放大。
9.电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的多人视频中发言人的识别方法。
10.计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的多人视频中发言人的识别方法。
技术总结