本发明涉及人脸追踪技术领域,特别是涉及一种人脸追踪方法、系统、终端及存储介质。
背景技术:
人脸追踪即在检测到人脸的前提下,在后续帧中继续捕获人脸的位置及大小等信息。目前,人脸追踪技术已广泛应用于金融、安防、零售等多个领域,满足身份核验、人脸考勤、闸机通行等业务需求。以人脸考勤为例,目前人脸门禁考勤场景中使用人脸1:n识别算法,具体为,在每帧进行视频解帧之后分别进行人脸检测、人脸关键点检测、活体识别以及人脸识别操作。该算法的弊端在于,同一个人需要重复识别,会浪费大量算力。另外,同一个人站在镜头前的时候,由于受姿态、动作、互相遮挡、光照变化等影响会存在质量较差的帧,容易导致人脸识别错误。
为了改进上述不足,通过在人脸检测之后加入一个人脸追踪模块,根据前后帧的人脸检测框之间的相对位置来判断哪些人脸属于同一个人,其识别流程如图1所示。但由于人脸检测模型需要对整个画面进行扫描,当画面分辨率比较高时,需要的算力会比较大,难以在门禁面板机等小型嵌入式设备上执行,否则容易引起跳帧等问题,降低识别能力,影响用户体验。
技术实现要素:
本发明提供了一种人脸追踪方法、系统、终端及存储介质,能够在一定程度上解决现有技术中存在的不足。
为解决上述技术问题,本发明采用的技术方案为:
一种人脸追踪方法,包括:
对当前图像帧进行人脸检测,得到第一人脸检测框,并根据所述第一人脸检测框剪裁得到人脸区域;
将所述人脸区域输入训练好的第一检测模型,通过所述第一检测模型输出带有置信度的人脸关键点;
将所述人脸区域以及所述人脸关键点输入训练好的第二检测模型,通过所述第二检测模型输出所述人脸关键点的坐标;
将所述人脸关键点的坐标按照设定比例进行外扩,得到人脸关键点外扩框,并将所述人脸关键点外扩框作为第二人脸检测框,根据所述第二人脸检测框对下一帧视频图像进行人脸追踪。
本发明实施例采取的技术方案还包括:所述对当前图像帧进行人脸检测,得到第一人脸检测框包括:
判断所述当前图像帧是否是强制检测帧;其中,所述强制检测帧为每间隔预设帧数后需要进行人脸检测的图像帧;
如果是,则进行人脸检测,并对上一次人脸检测得到的人脸检测框进行更新,以得到第一人脸检测框;否则,无需进行人脸检测,并使用上一次人脸检测得到的人脸检测框作为第一人脸检测框。
本发明实施例采取的技术方案还包括:所述第一检测模型的训练数据包括两种生成方式生成的人脸区域;
第一种为:根据人脸图像的人脸检测框裁剪得到的人脸区域;
第二种为:对人脸图像进行关键点标注,得到关键点外接矩形,将所述关键点外接矩形按照设定比例进行外扩后裁剪得到的人脸区域。
本发明实施例采取的技术方案还包括:所述第一检测模型的训练过程为:
将所述两种生成方式生成的人脸区域输入第一检测模型,所述第一检测模型通过卷积层、bn层、relu层和池化层对输入图像进行深度学习,并输出使用低分辨率的设定个数的通道的热图,所述热图表示每个人脸关键点在对应位置的概率,每个热图中概率最大的点的位置作为对应人脸关键点的预测坐标,最大概率值作为预测置信度。
本发明实施例采取的技术方案还包括:所述将所述人脸区域以及所述人脸关键点输入训练好的第二检测模型前还包括:
判断所述人脸关键点的置信度是否大于设定阈值;
若大于设定阈值,则判定所述人脸关键点为可信关键点,将所述人脸区域以及所述人脸关键点输入训练好的第二检测模型。
本发明实施例采取的技术方案还包括:所述将将所述人脸关键点外扩框作为第二人脸检测框,根据所述第二人脸检测框对下一帧视频图像进行人脸追踪还包括:
判断所述人脸关键点外扩框与所述第一人脸检测框的交并比是否大于设定阈值;
若大于预设阈值,认为人脸追踪成功,将所述人脸追踪成功的图像帧输入人脸质量评估模型进行人脸质量评分,并将质量分数高于设定阈值的图像帧与对应的人脸关键点一起放入人脸候选队列,用于下一帧视频图像的人脸追踪。
本发明实施例采取的技术方案还包括:所述人脸质量评估模型包括人脸姿态模块、模糊检测模块、光照检测模块以及一个3层的融合回归模型,所述人脸姿态模块、模糊检测模块和光照检测模块分别对输入的图像帧进行人脸姿态、模糊程度和光照程度检测,得到所述图像帧的人脸姿态、模糊程度和光照程度的输出值,所述融合回归模型将所述图像帧的人脸姿态、模糊程度和光照程度的输出值进行融合,得到所述图像帧的质量分数。
本发明实施例采取的另一技术方案为:一种人脸追踪系统,包括:
人脸检测模块:用于对当前图像帧进行人脸检测,得到第一人脸检测框,并根据所述第一人脸检测框剪裁得到人脸区域;
第一关键点检测模块:用于将所述人脸区域输入训练好的第一检测模型,通过所述第一检测模型输出带有置信度的人脸关键点;
第二关键点检测模块:用于将所述人脸区域以及所述人脸关键点输入训练好的第二检测模型,通过所述第二检测模型输出所述人脸关键点的坐标;
关键点外扩模块:用于将所述人脸关键点的坐标按照设定比例进行外扩,得到人脸关键点外扩框,并将所述人脸关键点外扩框作为第二人脸检测框,根据所述第二人脸检测框对下一帧视频图像进行人脸追踪。
本发明实施例采取的又一技术方案为:一种终端,所述终端包括处理器、与所述处理器耦接的存储器,其中,
所述存储器存储有用于实现上述的人脸追踪方法的程序指令;
所述处理器用于执行所述存储器存储的所述程序指令以执行所述人脸追踪操作。
本发明实施例采取的又一技术方案为:一种存储介质,存储有处理器可运行的程序指令,所述程序指令用于执行上述的人脸追踪方法。
本发明的有益效果是:本发明实施例的人脸追踪方法、系统、终端及存储介质通过使用人脸检测框剪裁得到的人脸区域和使用关键点外扩框剪裁得到的人脸区域为样本训练得到第一检测模型,并进行初步的人脸关键点识别;并以第一检测模型的输出训练一个不带置信度输出的第二检测模型,通过第二检测模型的输出对第一检测模型进行快速修正,从而得到更精确的人脸关键点,实现更高精度的人脸追踪。同时,由于检测模型基于人脸关键点进行人脸检测,不需要扫描整张图像,因此运算速度较快;并且通过人脸质量评估模型选出最优图像帧进行下一帧的人脸检测,无需在每一帧图像上做人脸检测,因此,加快了系统运行速度,改善用户体验。
附图说明
图1是现有人脸识别算法流程图;
图2是本发明第一实施例的人脸追踪方法的流程示意图;
图3为本发明实施例的第一检测模型结构示意图;
图4是本发明实施例的第二检测模型结构示意图;
图5是本发明第二实施例的人脸追踪方法的流程示意图;
图6是本发明实施例的人脸质量评估模型训练过程示意图;
图7是本发明实施例人脸追踪系统的结构示意图;
图8是本发明实施例的本发明实施例的终端结构示意图;
图9是本发明实施例的存储介质结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
请参阅图2,是本发明第一实施例的人脸追踪方法的流程示意图。本发明第一实施例的人脸追踪方法包括以下步骤:
s100:对图像帧进行人脸检测,得到第一人脸检测框;
本步骤中,人脸检测方式具体为:获取视频图像,对视频图像进行解帧处理后,使用人脸检测器对解帧后的图像帧进行人脸检测。本申请实施例中,人脸检测器包括但不限于vj人脸检测器、blazeface等。
进一步地,在本申请实施例中,为了保证人脸追踪的准确性,在第一帧图像帧中直接进行人脸检测,得到第一人脸检测框;在后续图像帧中,每间隔预设帧数(本申请设定该帧数为五帧)设定一帧图像为强制检测帧(所述强制检测帧即为每间隔预设帧数后需要进行人脸检测的图像帧),在人脸追踪过程中,如果人脸追踪成功,每检测到一帧强制检测帧则进行一次人脸检测,如果人脸追踪失败,则在下一帧中重新进行人脸检测。因此,所述对当前图像帧进行人脸检测还包括:
s101:判断当前图像帧是否是第一帧,如果是第一帧,执行s102;否则,执行s103;
s102:对当前图像帧进行人脸检测,得到第一人脸检测框;
s103:判断上一帧图像帧中人脸追踪是否成功,如果追踪成功,执行s104;否则,重新执行s102;
s104:判断当前图像帧是否是强制检测帧,如果是,重新执行s102;否则,执行s105;
s105:使用上一次人脸追踪成功后得到的第二人脸检测框作为当前视频帧的人脸检测框。
s110:对第一人脸检测框进行人脸区域检测,根据检测结果从第一人脸检测框中剪裁得到人脸区域;
本步骤中,人脸区域检测算法包括但不限于opencv等。
s120:将所述人脸区域输入训练好的第一检测模型,通过所述第一检测模型输出带有置信度的人脸关键点;
本步骤中,第一检测模型结构如图3所示,第一检测模型的训练数据包括两类,一类为:使用人脸检测器对人脸图像样本数据进行人脸检测,将输出的人脸检测框进行裁剪后得到的人脸区域;另一类为:对人脸图像样本数据进行关键点标注,得到关键点外接矩形,将关键点外接矩形按照设定比例(本申请实施例设定该比例为50%,具体可根据实际操作进行设定)进行外扩,将该关键点外扩框进行裁剪得到的人脸区域。
第一检测模型的训练过程为:将两类人脸区域构成的训练数据输入第一检测模型,第一检测模型通过卷积层、bn层、relu层和池化层对输入特征进行深度学习,并输出使用低分辨率的设定个数(本申请实施例中设定该个数为106个,具体也可以是81或1000等)的channel(通道)的heatmap(热图),heatmap表示每个人脸关键点在对应位置的概率,每个heatmap中概率最大的点的位置作为对应关键点的预测位置,最大概率值作为预测置信度。
基于上述,本申请实施例通过使用人脸检测框剪裁得到的人脸区域和使用关键点外扩框剪裁得到的人脸区域为样本训练得到第一检测模型,使其能够适应人脸检测框和关键点外扩框的输入,并进行初步的人脸关键点识别。
s130:将所述人脸区域以及所述人脸关键点输入训练好的第二检测模型,通过所述第二检测模型输出所述人脸关键点的坐标;
本步骤中,将所述人脸区域以及所述人脸关键点输入训练好的第二检测模型之前还包括:
判断106个人脸关键点的置信度是否均大于设定阈值,如果是,判定所述106个人脸关键点为可信关键点;否则,认为人脸追踪失败,执行s12对下一帧图像重新进行人脸检测。
进一步地,第二检测模型结构如图4所示,第二检测模型的训练数据为第一检测模型输出的人脸关键点的坐标和置信度,以及标注有正确的人脸关键点的人脸图像样本数据,输出为106个人脸关键点的坐标。
s140:将所述人脸关键点的坐标按照设定比例进行外扩,得到人脸关键点外扩框,并将所述人脸关键点外扩框作为第二人脸检测框,根据所述第二人脸检测框对下一帧视频图像进行人脸追踪;
本步骤中,人脸关键点的坐标外扩比例为50%,具体可根据实际应用进行设定。通过人脸关键点外扩框对第一人脸检测框进行更新,根据更新后的人脸检测框作为下一帧非强制检测帧(所述非强制检测帧即为当前视频帧与下一个强制检测帧之间无需进行人脸检测的图像帧)的人脸检测框,实现了采用第二检测模型的输出对第一检测模型的修正,使得人脸关键点检测具有更高的精确度。
请参阅图5,是本发明第二实施例的人脸追踪方法的流程示意图。本发明第二实施例的人脸追踪方法包括以下步骤:
s200:对图像帧进行人脸检测,得到第一人脸检测框;
本步骤中,人脸检测方式具体为:获取视频图像,对视频图像进行解帧处理后,使用人脸检测器对解帧后的图像帧进行人脸检测。本申请实施例中,人脸检测器包括但不限于vj人脸检测器、blazeface等。
进一步地,在本申请实施例中,为了保证人脸追踪的准确性,在第一帧图像帧中直接进行人脸检测,得到第一人脸检测框;在后续图像帧中,每间隔预设帧数(本申请设定该帧数为五帧)设定一帧图像为强制检测帧(所述强制检测帧即为每间隔预设帧数后需要进行人脸检测的图像帧),在人脸追踪过程中,如果人脸追踪成功,每检测到一帧强制检测帧则进行一次人脸检测,如果人脸追踪失败,则在下一帧中重新进行人脸检测。具体人脸检测与第一实施例相同,本实施例将不再赘述。
s210:对第一人脸检测框进行人脸区域检测,根据检测结果从第一人脸检测框中剪裁得到人脸区域;
s220:将所述人脸区域输入训练好的第一检测模型,通过所述第一检测模型输出带有置信度的人脸关键点;
本步骤中,第一检测模型的训练数据包括两类,一类为:使用人脸检测器对人脸图像样本数据进行人脸检测,将输出的人脸检测框进行裁剪后得到的人脸区域;另一类为:对人脸图像样本数据进行关键点标注,得到关键点外接矩形,将关键点外接矩形按照设定比例(本申请实施例设定该比例为50%,具体可根据实际操作进行设定)进行外扩,将该关键点外扩框进行裁剪得到的人脸区域。
第一检测模型的训练过程为:将两类人脸区域构成的训练数据输入第一检测模型,第一检测模型通过卷积层、bn层、relu层和池化层对输入特征进行深度学习,并输出使用低分辨率的设定个数(本申请实施例中设定该个数为106个,具体也可以是81或1000等)的channel(通道)的heatmap(热图),heatmap表示每个人脸关键点在对应位置的概率,每个heatmap中概率最大的点的位置作为对应关键点的预测位置,最大概率值作为预测置信度。
基于上述,本申请实施例通过使用人脸检测框剪裁得到的人脸区域和使用关键点外扩框剪裁得到的人脸区域为样本训练得到第一检测模型,使其能够适应人脸检测框和关键点外扩框的输入,并进行初步的人脸关键点识别。
s230:将所述人脸区域以及所述人脸关键点输入训练好的第二检测模型,通过所述第二检测模型输出所述人脸关键点的坐标;
本步骤中,将所述人脸区域以及所述人脸关键点输入训练好的第二检测模型之前还包括:
判断106个人脸关键点的置信度是否均大于设定阈值,如果是,判定所述106个人脸关键点为可信关键点;否则,认为人脸追踪失败,执行s12对下一帧图像重新进行人脸检测。
进一步地,第二检测模型的训练数据为第一检测模型输出的人脸关键点的坐标和置信度,以及标注有正确的人脸关键点的人脸图像样本数据,输出为106个人脸关键点的坐标。
s240:将所述人脸关键点的坐标按照设定比例进行外扩,得到人脸关键点外扩框,并将所述人脸关键点外扩框作为第二人脸检测框,根据所述第二人脸检测框对下一帧视频图像进行人脸追踪;
本步骤中,人脸关键点的坐标外扩比例为50%,具体可根据实际应用进行设定。通过人脸关键点外扩框对第一人脸检测框进行更新,根据更新后的人脸检测框作为下一帧非强制检测帧(所述非强制检测帧即为当前视频帧与下一个强制检测帧之间无需进行人脸检测的图像帧)的人脸检测框,实现了采用第二检测模型的输出对第一检测模型的修正,使得人脸关键点检测具有更高的精确度。
s250:判断关键点外扩框与人脸检测框的交并比是否大于设定阈值,如果是则认为人脸追踪成功,并执行s260;否则,认为人脸追踪失败,并执行s270;
本步骤中,交并比(intersection-over-union,iou)是指两个矩形交集与并集的比值;当iou=0时,表示两个矩形没有交集,此时结果最差;当iou=1时,表示两个矩形重合,此时结果最好。本申请实施例中,设定关键点外扩框与人脸检测框的交并比阈值为60%,即当关键点外扩框与人脸检测框的交并比大于60%时认为人脸追踪成功。
s260:将人脸追踪成功的图像帧输入人脸质量评估模型q进行人脸质量评分,并将质量分数高于设定阈值的图像帧与对应的人脸关键点一起放入人脸候选队列,供后续人脸追踪过程中的人脸识别和活体识别使用;
本申请实施例中,人脸质量评估模型包括人脸姿态模块、模糊检测模块和光照检测模块三个前置子模块,以及一个3层的融合回归模型。人脸质量评估模型的训练过程如图6所示,具体包括:人脸姿态模块以俯仰角、偏航角和翻滚角等不同角度的人脸区域样本数据作为训练数据,并输出人脸姿态预测值;模糊检测模块和光照检测模块分别以不同模糊程度以及光照程度的人脸区域样本数据作为训练数据,并分别输出模糊程度以及光照程度预测值;融合回归模型以三个前置子模块输出的人脸姿态预测值、模糊程度预测值、光照程度预测值以及标注有质量分数的人脸区域样本数据为输入,通过将三个前置子模块输出的预测值进行融合,并输出质量分数预测值。
s270:在下一帧图像帧中重新进行人脸检测。
基于上述,本发明实施例的人脸追踪方法通过使用人脸检测框剪裁得到的人脸区域和使用关键点外扩框剪裁得到的人脸区域为样本训练得到第一检测模型lm1,使其能够适应人脸检测框和关键点外扩框的输入,并进行初步的人脸关键点识别;然后,以第一检测模型的输出训练一个不带置信度输出的第二检测模型lm2,通过lm2的输出对lm1进行快速修正,得到更精确的人脸关键点;最后,通过人脸质量评估模型对输出的人脸关键点进行质量评分,根据人脸关键点以及质量评分挑选最合适的人脸进行后续的人脸识别和活体识别。本申请实施例在提高人脸追踪精度的同时,由于人脸关键点检测不需要扫描整张图片,运算速度更快,加快了系统运行速度,改善用户体验。
在一个可选的实施方式中,还可以:将所述的人脸追踪方法的结果上传至区块链中。
具体地,基于所述的人脸追踪方法的结果得到对应的摘要信息,具体来说,摘要信息由所述的人脸追踪方法的结果进行散列处理得到,比如利用sha256s算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户可以从区块链中下载得该摘要信息,以便查证所述的人脸追踪方法的结果是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
请参阅图7,是本发明实施例人脸追踪系统的结构示意图。本发明实施例人脸追踪系统40包括:
人脸检测模块41:用于对当前图像帧进行人脸检测,得到第一人脸检测框,并根据所述第一人脸检测框剪裁得到人脸区域;
第一关键点检测模块42:用于将所述人脸区域输入训练好的第一检测模型,通过所述第一检测模型输出带有置信度的人脸关键点;
第二关键点检测模块43:用于将所述人脸区域以及所述人脸关键点输入训练好的第二检测模型,通过所述第二检测模型输出所述人脸关键点的坐标;
关键点外扩模块44:用于将所述人脸关键点的坐标按照设定比例进行外扩,得到人脸关键点外扩框,并将所述人脸关键点外扩框作为第二人脸检测框,根据所述第二人脸检测框对下一帧视频图像进行人脸追踪。
请参阅图8,为本发明实施例的终端结构示意图。该终端50包括处理器51、与处理器51耦接的存储器52。
存储器52存储有用于实现上述人脸追踪方法的程序指令。
处理器51用于执行存储器52存储的程序指令以执行人脸追踪操作。
其中,处理器51还可以称为cpu(centralprocessingunit,中央处理单元)。处理器51可能是一种集成电路芯片,具有信号的处理能力。处理器51还可以是通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
请参阅图9,图9为本发明实施例的存储介质的结构示意图。本发明实施例的存储介质存储有能够实现上述所有方法的程序文件61,其中,该程序文件61可以以软件产品的形式存储在上述存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。以上仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
1.一种人脸追踪方法,其特征在于,包括:
对当前图像帧进行人脸检测,得到第一人脸检测框,并根据所述第一人脸检测框剪裁得到人脸区域;
将所述人脸区域输入训练好的第一检测模型,通过所述第一检测模型输出带有置信度的人脸关键点;
将所述人脸区域以及所述人脸关键点输入训练好的第二检测模型,通过所述第二检测模型输出所述人脸关键点的坐标;
将所述人脸关键点的坐标按照设定比例进行外扩,得到人脸关键点外扩框,并将所述人脸关键点外扩框作为第二人脸检测框,根据所述第二人脸检测框对下一帧视频图像进行人脸追踪。
2.根据权利要求1所述的人脸追踪方法,其特征在于,所述对当前图像帧进行人脸检测,得到第一人脸检测框包括:
判断所述当前图像帧是否是强制检测帧;其中,所述强制检测帧为每间隔预设帧数后需要进行人脸检测的图像帧;
如果是,则进行人脸检测,并对上一次人脸检测得到的人脸检测框进行更新,以得到第一人脸检测框;否则,无需进行人脸检测,并使用上一次人脸检测得到的人脸检测框作为第一人脸检测框。
3.根据权利要求1所述的人脸追踪方法,其特征在于,所述第一检测模型的训练数据包括两种生成方式生成的人脸区域,
第一种为:根据人脸图像的人脸检测框裁剪得到的人脸区域;
第二种为:对人脸图像进行关键点标注,得到关键点外接矩形,将所述关键点外接矩形按照设定比例进行外扩后裁剪得到的人脸区域。
4.根据权利要求3所述的人脸追踪方法,其特征在于,所述第一检测模型的训练过程为:
将所述两种生成方式生成的人脸区域输入第一检测模型,所述第一检测模型通过卷积层、bn层、relu层和池化层对输入图像进行深度学习,并输出使用低分辨率的设定个数的通道的热图,所述热图表示每个人脸关键点在对应位置的概率,每个热图中概率最大的点的位置作为对应人脸关键点的预测坐标,最大概率值作为预测置信度。
5.根据权利要求1所述的人脸追踪方法,其特征在于,所述将所述人脸区域以及所述人脸关键点输入训练好的第二检测模型前还包括:
判断所述人脸关键点的置信度是否大于设定阈值;
若大于设定阈值,则判定所述人脸关键点为可信关键点,将所述人脸区域以及所述人脸关键点输入训练好的第二检测模型。
6.根据权利要求1至5任一项所述的人脸追踪方法,其特征在于,所述将将所述人脸关键点外扩框作为第二人脸检测框,根据所述第二人脸检测框对下一帧视频图像进行人脸追踪还包括:
判断所述人脸关键点外扩框与所述第一人脸检测框的交并比是否大于设定阈值;
若大于预设阈值,认为人脸追踪成功,将所述人脸追踪成功的图像帧输入人脸质量评估模型进行人脸质量评分,并将质量分数高于设定阈值的图像帧与对应的人脸关键点一起放入人脸候选队列,用于下一帧视频图像的人脸追踪。
7.根据权利要求6所述的人脸追踪方法,其特征在于,所述人脸质量评估模型包括人脸姿态模块、模糊检测模块、光照检测模块以及一个3层的融合回归模型,所述人脸姿态模块、模糊检测模块和光照检测模块分别对输入的图像帧进行人脸姿态、模糊程度和光照程度检测,得到所述图像帧的人脸姿态、模糊程度和光照程度的预测值,所述融合回归模型将所述图像帧的人脸姿态、模糊程度和光照程度的预测值进行融合,得到所述图像帧的质量分数。
8.一种人脸追踪系统,其特征在于,包括:
人脸检测模块:用于对当前图像帧进行人脸检测,得到第一人脸检测框,并根据所述第一人脸检测框剪裁得到人脸区域;
第一关键点检测模块:用于将所述人脸区域输入训练好的第一检测模型,通过所述第一检测模型输出带有置信度的人脸关键点;
第二关键点检测模块:用于将所述人脸区域以及所述人脸关键点输入训练好的第二检测模型,通过所述第二检测模型输出所述人脸关键点的坐标;
关键点外扩模块:用于将所述人脸关键点的坐标按照设定比例进行外扩,得到人脸关键点外扩框,并将所述人脸关键点外扩框作为第二人脸检测框,根据所述第二人脸检测框对下一帧视频图像进行人脸追踪。
9.一种终端,其特征在于,所述终端包括处理器、与所述处理器耦接的存储器,其中,
所述存储器存储有用于实现权利要求1~7任一项所述的人脸追踪方法的程序指令;
所述处理器用于执行所述存储器存储的所述程序指令以执行所述人脸追踪方法。
10.一种存储介质,其特征在于,存储有处理器可运行的程序指令,所述程序指令用于执行权利要求1~7任一项所述的人脸追踪方法。
技术总结