本发明涉及多媒体信息取证,具体涉及一种基于整体伪造痕迹和局部细节信息提取的换脸视频检测方法及系统。
背景技术:
1、在换脸视频检测领域,大多数检测算法在库内都能取得不错的检测效果,但是跨库检测效果不佳。目前针对这个问题,已有不少的换脸视频检测算法被提出,但是这些算法大多通过鼓励网络学习全局域不变特征来促使算法泛化性能的提升,而忽略了网络观察细节能力的重要性;除此之外,虽然目前也有算法提出用辅助监督检测的方式来进行局部篡改像素级别定位,从而鼓励模型关注局部区域,但是这类算法还是需要借助额外的掩膜或者边界框对网络进行辅助监督训练,这种额外标签的获取是耗时费力的;再者,目前大多数网络结构的设计仅在神经网络的最后一层进行监督,这种设计既未充分利用浅层特征,又可能导致中间网络层难以有效优化。
2、近期,深度监督的提出为解决这一问题提供了一种可能性,该方法通过在神经网络中间层添加辅助分类器来对低层次特征进行分类,然而,值得注意的是,这些辅助分类器所需的是高级语义特征,而非低层次特征,这可能导致网络中信息传递仍然受到一定限制,特别是在处理复杂任务和捕捉抽象特征时;对于人脸伪造检测这一任务,如何合理地利用低层次特征和高级语义特征,以及全局特征和局部特征,依然值得深入探究,新的网络架构需要能够更有效地整合这些特征,以提高模型性能并增强对不同伪造方法的泛化能力。
技术实现思路
1、为了克服现有技术存在的缺陷与不足,本发明提供一种基于整体伪造痕迹和局部细节信息提取的换脸视频检测方法及系统,本发明基于多个掩膜、目标人脸和源人脸自融合得到增强后的图像,从而创建更一般化、更难以识别的高质量假样本来鼓励模型学习更鲁棒的特征表示;并搭建了对比深度监督框架,并设计了相应适配的映射头,来鼓励网络模型学习数据经过压缩后数据的增强不变性,从而使得网络模型在应对高压缩率的检测样本时依然表现出色,拥有较为优异的鲁棒性;基于人脸真伪标签及预测概率矩阵计算提案约束损失,仅借助真伪标签实现伪造痕迹明显区域的提取,从而增强模型观察细节挖掘细节特征的能力,计算结构建模损失,促进模型感知上下文信息,以捕获局部语义之间的结构交互信息,获取图像补丁进行局部特征的提取,计算区域分类损失,从而鼓励网络模型观察细节挖掘细节特征的能力,从而提高模型的泛化性能,本发明在库内和跨库测试中均具有优异的检测性能。
2、为了达到上述目的,本发明采用以下技术方案:
3、本发明提供一种基于整体伪造痕迹和局部细节信息提取的换脸视频检测方法,包括下述步骤:
4、将待检测视频进行分帧,提取人脸关键点并从视频帧中裁剪人脸图像;
5、根据输入图像标签,判断图像真假,若判定图像为真则按照设定概率进行多样化掩膜自融合增强操作以获得输入图像,若判定图像为假则直接将其作为输入图像,多样化掩膜自融合增强操作具体包括:组合不同关键点获得不同点集,计算各个点集的凸包,基于各个点集的凸包获得多个掩膜,获取目标人脸、源人脸,基于掩膜、目标人脸和源人脸自融合得到增强后的图像作为输入图像;
6、构建用于图像特征提取的主干网络及压缩特征提取网络,基于主干网络对输入图像进行不同层级的特征提取,计算真假预测概率,基于真假预测概率和真假标签计算整体分类损失;
7、对输入图像进行压缩操作,基于压缩特征提取网络对压缩后的图像进行不同层级的特征提取,将未压缩的图像的各层级特征经对应的映射头映射为第一特征向量,压缩后图像的各层级特征经对应的映射头映射为第二特征向量,计算第一特征向量和第二特征向量之间的整体对比深度监督损失;
8、截断主干网络获取中间特征图,计算预测概率矩阵,获取预测概率值最大的元素点所对应原图的感受野区域坐标,基于所述感受野区域坐标裁剪原图,获取图像补丁;
9、基于人脸真伪标签及预测概率矩阵计算提案约束损失,获取中间特征图对应的空间注意力图,空间自注意力图中最大值点为极点,计算结构建模损失;
10、基于主干网络对图像补丁进行不同层级局部特征的提取,获取真假预测概率,计算区域分类损失;
11、对图像补丁进行压缩操作,基于压缩特征提取网络对压缩后的图像补丁进行不同层级的局部特征提取,将未压缩的图像补丁的各层级特征经对应的映射头映射为第三特征向量,压缩后图像补丁的各层级特征经对应的映射头映射为第四特征向量,计算第三特征向量和第四特征向量之间的区域对比深度监督损失;
12、将整体分类损失、整体对比深度监督损失、提案约束损失、结构建模损失、区域分类损失、区域对比深度监督损失组合得到总损失;
13、基于总损失训练主干网络,基于训练后的主干网络得到二分类预测概率,输出预测结果。
14、作为优选的技术方案,所述基于掩膜、目标人脸和源人脸自融合得到增强后的图像作为输入图像,具体包括:随机生成概率值并设定概率阈值,若判定概率值小于等于概率阈值,则将原始人脸依次经过色调变换、饱和度调整、亮度变换、对比度比变换、颜色变换、图像锐化操作获得目标人脸,同时直接将原始人脸当作源人脸;
15、若判定概率值大于概率阈值,将原始人脸依次经过色调变换、饱和度调整、亮度变换、对比度比变换、颜色变换、图像锐化、仿射变换、平移、缩放操作获得源人脸,同时直接将原始人脸当作目标人脸;
16、所述掩膜依次经过仿射变换、弹性变换、随机缩放、高斯模糊、归一化获得模糊的掩膜;
17、增强后的图像表示为:
18、iblend=mb×isource×ratio+(1-mb)×itarget
19、其中,iblend表示增强后的图像,mb表示模糊的掩膜,ratio表示融合比例,isource表示源人脸,itarget表示目标人脸。
20、作为优选的技术方案,所述构建用于图像特征提取的主干网络及压缩特征提取网络,采用efficientnet-b4作为主干网络,采用efficientnet-b4作为压缩特征提取网络,所述压缩特征提取网络与主干网络权值共享。
21、作为优选的技术方案,所述基于真假预测概率和真假标签计算整体分类损失,具体表示为:
22、
23、其中,pi表示一个批次b中的某个预测概率值,yi表示真实标签的取值,pi(yi)表示预测为标签yi的概率。
24、作为优选的技术方案,所述计算第一特征向量和第二特征向量之间的整体对比深度监督损失,具体包括:
25、
26、其中,zi,j表示第一特征向量,zi+n,j表示第二特征向量,j代表不同的层级,i表示一个批次中的图像序号,n表示批次的大小,m表示映射头的数量,表示指标函数,如果k≠i,则指标函数的值为1,否则为0,τ是温度系数,weightj表示不同层对比损失函数的权重;
27、和/或,所述计算第三特征向量和第四特征向量之间的区域对比深度监督损失,具体包括:
28、
29、其中,zpi,j表示第三特征向量,zpi+n,j表示第四特征向量。
30、作为优选的技术方案,所述获取图像补丁,具体包括:
31、根据人脸真伪标签获取预测概率矩阵中相应通道的预测概率值,并获取预测概率值最大的元素点所对应的坐标,基于所述坐标在感受野区域存储字典中获取该像素点所对应原图的感受野区域,并根据原图的感受野区域的坐标对原图进行裁剪,获取图像补丁。
32、作为优选的技术方案,所述基于人脸真伪标签及预测概率矩阵计算提案约束损失,具体包括:
33、对中间特征图的特征的通道维度进行下采样,获得预测概率矩阵;
34、将人脸真伪标签扩充成与其长宽一致的标签矩阵;
35、提案约束损失表示为:
36、
37、其中,pi表示预测概率矩阵p某个元素值,yi为在标签矩阵y中对应位置的取值,pi(yi)表示预测为标签yi的概率。
38、作为优选的技术方案,计算结构建模损失,具体包括:
39、所述空间自注意力图经极坐标预测器生成对应的极径和极角;
40、获取空间注意力图的最大值所对应的坐标,根据该坐标获得坐标预测图;
41、所述坐标预测图经极径预测器获得预测极径,计算极径损失,具体表示为:
42、
43、
44、(x0,y0)=argmaxx,y(sa)
45、其中,i∈[1,n],j∈[1,n],n为空间注意力图的大小,ρij表示(i,j)位置的极径,saij表示空间注意力图中(i,j)位置的注意力值,ρ′ij表示(i,j)位置的预测极径,(xo,y0)表示空间注意力图的最大值所对应的坐标,ldistance表示极径损失;
46、所述坐标预测图经极角预测器获得预测极角,计算极角损失,具体表示为:
47、
48、
49、
50、其中,θij表示(i,j)位置的极角,表示(i,j)位置的预测极角;
51、将极径损失和极角损失相加得到结构建模损失,具体表示为:
52、lsm=ldistance+langle
53、其中,lsm表示结构建模损失。
54、作为优选的技术方案,所述计算区域分类损失,具体表示为:
55、
56、其中,pi表示一个批次b中的某个预测概率值,yi表示真实标签的取值,pi(yi)表示预测为标签yi的概率。
57、本发明还提供一种基于整体伪造痕迹和局部细节信息提取的换脸视频检测系统,包括:视频预处理模块、多样化掩膜自融合增强模块、特征提取网络构建模块、特征提取模块、整体分类损失计算模块、图像压缩增强模块、特征映射模块、整体对比深度监督损失计算模块、图像补丁获取模块、区域提案模块、区域分类损失计算模块、区域对比深度监督损失计算模块、总损失构建模块、训练模块、预测模块;
58、所述视频预处理模块用于将待检测视频进行分帧,提取人脸关键点并从视频帧中裁剪人脸图像;
59、所述多样化掩膜自融合增强模块用于按设定概率对真实人脸进行多样化掩膜自融合增强操作,具体包括:组合不同关键点获得不同点集,计算各个点集的凸包,基于各个点集的凸包获得多个掩膜,获取目标人脸、源人脸,基于掩膜、目标人脸和源人脸自融合得到增强后的图像作为输入图像;
60、所述特征提取网络构建模块用于构建图像特征提取的主干网络及压缩特征提取网络;
61、所述特征提取模块用于基于主干网络对输入图像进行不同层级的特征提取;
62、所述整体分类损失计算模块用于基于真假预测概率和真假标签计算整体分类损失;
63、所述图像压缩增强模块用于对输入图像行压缩操作;
64、所述特征提取模块用于基于压缩特征提取网络对压缩后的图像进行不同层级的特征提取;
65、所述特征映射模块用于将未压缩的图像的各层级特征经对应的映射头映射为第一特征向量,压缩后图像的各层级特征经对应的映射头映射为第二特征向量;
66、所述整体对比深度监督损失计算模块用于计算第一特征向量和第二特征向量之间的整体对比深度监督损失;
67、所述图像补丁获取模块用于获取图像补丁,截断主干网络获取中间特征图,计算预测概率矩阵,获取预测概率值最大的元素点所对应原图的感受野区域坐标,基于所述坐标裁剪原图得到图像补丁;
68、所述区域提案模块用于基于人脸真伪标签及预测概率矩阵计算提案约束损失,获取中间特征图对应的空间注意力图,以空间自注意力图中最大值点为极点计算结构建模损失;
69、所述特征提取模块用于基于主干网络对图像补丁进行不同层级局部特征的提取,获取真假预测概率;
70、所述区域分类损失计算模块用于基于真假预测概率计算区域分类损失;
71、所述图像压缩增强模块用于对图像补丁进行压缩操作;
72、所述特征提取模块用于基于压缩特征提取网络对压缩后的图像补丁进行不同层级的局部特征提取;
73、所述特征映射模块用于将未压缩的图像补丁的各层级特征经对应的映射头映射为第三特征向量,压缩后图像补丁的各层级特征经对应的映射头映射为第四特征向量;
74、所述区域对比深度监督损失计算模块用于计算第三特征向量和第四特征向量之间的区域对比深度监督损失;
75、所述总损失构建模块用于将整体分类损失、整体对比深度监督损失、提案约束损失、结构建模损失、区域分类损失、区域对比深度监督损失组合得到总损失;
76、所述训练模块用于基于总损失训练主干网络;
77、所述预测模块用于基于训练后的主干网络得到二分类预测概率,输出预测结果。
78、本发明与现有技术相比,具有如下优点和有益效果:
79、(1)本发明按照设定概率对真实人脸进行多样化掩膜自融合增强操作,基于多个掩膜、目标人脸和源人脸自融合得到增强后的图像,与传统的图像增强方式不同,自融合增强不是简单的对图像进行变换,而是生成新式假样本,从而创建更一般化、更难以识别的高质量假样本来鼓励模型学习更鲁棒的特征表示。
80、(2)本发明采用对比深度监督框架来鼓励网络模型学习数据经过jpeg压缩和webp压缩后的数据增强不变性,从而使得算法模型在应对高压缩率的检测样本时依然表现出色。
81、(3)本发明基于人脸真伪标签及预测概率矩阵计算提案约束损失,仅借助真伪标签实现伪造痕迹明显区域的提取,从而增强模型观察细节挖掘细节特征的能力,计算结构建模损失,促进模型感知上下文信息,以捕获局部语义之间的结构交互信息,获取真伪判别信息最为丰富的图像补丁进行局部特征的提取,计算区域分类损失,从而鼓励网络模型观察细节挖掘细节特征的能力,从而提高模型的泛化性能,本发明在库内和跨库测试中均具有优异的检测性能。
1.一种基于整体伪造痕迹和局部细节信息提取的换脸视频检测方法,其特征在于,包括下述步骤:
2.根据权利要求1所述的基于整体伪造痕迹和局部细节信息提取的换脸视频检测方法,其特征在于,所述基于掩膜、目标人脸和源人脸自融合得到增强后的图像作为输入图像,具体包括:随机生成概率值并设定概率阈值,若判定概率值小于等于概率阈值,则将原始人脸依次经过色调变换、饱和度调整、亮度变换、对比度比变换、颜色变换、图像锐化操作获得目标人脸,同时直接将原始人脸当作源人脸;
3.根据权利要求1所述的基于整体伪造痕迹和局部细节信息提取的换脸视频检测方法,其特征在于,所述构建用于图像特征提取的主干网络及压缩特征提取网络,采用efficientnet-b4作为主干网络,采用efficientnet-b4作为压缩特征提取网络,所述压缩特征提取网络与主干网络权值共享。
4.根据权利要求1所述的基于整体伪造痕迹和局部细节信息提取的换脸视频检测方法,其特征在于,所述基于真假预测概率和真假标签计算整体分类损失,具体表示为:
5.根据权利要求1所述的基于整体伪造痕迹和局部细节信息提取的换脸视频检测方法,其特征在于,所述计算第一特征向量和第二特征向量之间的整体对比深度监督损失,具体包括:
6.根据权利要求1所述的基于整体伪造痕迹和局部细节信息提取的换脸视频检测方法,其特征在于,所述获取图像补丁,具体包括:
7.根据权利要求1所述的基于整体伪造痕迹和局部细节信息提取的换脸视频检测方法,其特征在于,所述基于人脸真伪标签及预测概率矩阵计算提案约束损失,具体包括:
8.根据权利要求1所述的基于整体伪造痕迹和局部细节信息提取的换脸视频检测方法,其特征在于,计算结构建模损失,具体包括:
9.根据权利要求1所述的基于整体伪造痕迹和局部细节信息提取的换脸视频检测方法,其特征在于,所述计算区域分类损失,具体表示为:
10.一种基于整体伪造痕迹和局部细节信息提取的换脸视频检测系统,其特征在于,包括:视频预处理模块、多样化掩膜自融合增强模块、特征提取网络构建模块、特征提取模块、整体分类损失计算模块、图像压缩增强模块、特征映射模块、整体对比深度监督损失计算模块、图像补丁获取模块、区域提案模块、区域分类损失计算模块、区域对比深度监督损失计算模块、总损失构建模块、训练模块、预测模块;
