一种图像翻译方法与流程

    专利2022-07-08  184


    本发明属于图像翻译技术领域,更具体地说,是涉及一种图像翻译方法。



    背景技术:

    现有图像的翻译是将输入图像翻译到相应的输出图像,比如图像处理和计算机视觉的许多情况都是需要将输入图像翻译到相应的输出图像,才能达到所需求的图像。

    图像翻译任务目前大都采用基于监督学习的深度卷积网络回归算法,该方法利用成对的样本训练图像翻译模型,然而在现实的环境条件下,大量的成对训练数据获取是很困难,而且需要大量手动标注或花费巨额费用,从而提高了训练成本;如果采用无监督图像翻译算法不需要成对数据,由于生成对抗网络的生成器与判别器互相博弈导致对抗网络模型训练运算量大,收敛速度慢,效果不佳,而且生成对抗网络在训练中容易陷入振荡模式,使生成对抗网络训练过程中遇到的不收敛问题,即模式崩溃现象,最常见的是部分模式崩溃现象,进而使得翻译图像的准确率降低。



    技术实现要素:

    本发明的目的在于提供一种图像翻译方法,旨在解决图像翻译需要大量的成对训练数据,而且需要大量手动标注,进而导致训练成本高的问题。

    为实现上述目的,本发明采用的技术方案是:提供一种图像翻译方法,包括:

    步骤1:首先获取成对图像数据集和非成对图像数据集;

    步骤2:将所述成对图像数据集分别训练成对偶的两个生成对抗网络模型,即所述成对图像数据集x和y,x映射y,y映射x;

    步骤3:将所述非成对图像数据集利用对偶学习循环一致性优化训练后的所述生成对抗网络模型,从而获得图像翻译识别模型,利用所述图像翻译识别模型输出图像翻译结果。

    优选地,所述步骤2包括:

    步骤201:将所述成对图像数据分别训练两个所述生成对抗网络模型中的两个对偶生成器及其对应的判别器;

    步骤202:在所述生成器生成图像任务中使用绝对偏差l1损失函数,l1损失函数表达式为:

    其中,x输入图像,y为目标图像,g为生成器,g(x)为x的生成图像;

    步骤203:每对所述生成器与所述判别器互相博弈进行训练,即x映射y或y映射x;

    步骤204:通过迭代次数的增加,缩小所述生成器输出图像和目标图像的距离,促使所述判别器指导所述生成器输出图像与目标图像一致,完成所述生成对抗网络模型的训练。

    优选地,在步骤203中所述每对所述生成器与所述判别器互相博弈进行训练,两个对偶的所述生成器在对抗所述判别器时的损失函数表达式为分别为:

    其中,x和y为成对图像数据,g和f为生成器,d表示x的判别器,d表示y的判别器,f(y)为y的生成图像,g(x)为x的生成图像。

    优选地,在步骤203中所述每对所述生成器与所述判别器互相博弈进行训练,对抗所述生成器的两个所述判别器的损失函数表达式为分别为:

    其中,x和y为成对图像数据,dx表示x的判别器,dy表示y的判别器,f(y)为y的生成图像;g(x)为x的生成图像。

    优选地,所述步骤3包括:

    步骤301:将所述非成对图像数据集输入练后的所述生成对抗网络模型;

    步骤302:两个所述生成对抗网络模型:所述生成器g和f,g:x→y和f:y→x应满足循环一致性;

    步骤303:循环一次对抗两个所述判别器用来判别输出图像和目标图像真实数据差异,促使所述生成器输出图像与目标图像一致,完成所述生成对抗网络模型的优化,从而获得所述图像翻译识别模型,利用所述图像翻译识别模型输出图像翻译结果。

    优选地,在步骤302中所述g:x→y和f:y→x满足循环一致性,需要将两个所述生成器的损失函数和循环一致性的损失函数作为所述图像翻译识别模型的生成器总损失函数,其损失函数表达式的推导过程为:

    两个所述生成器的对抗损失函数分别为:

    其中,x和y为输入图像,dx表示x的判别器,dy表示y的判别器,f(y)为y的生成图像,g(x)为x的生成图像;

    循环一致性的损失函数为:

    其中,x和y为输入图像,f(y)为y的生成图像;g(x)为x的生成图像;

    同时优化对抗损失和循环一致损失函数来训练所述图像翻译识别模型,生成器总损失函数为:

    其中,x和y输入图像,dx表示x的判别器,dy表示y的判别器,f(y)为y的生成图像;g(x)为x的生成图像。

    优选地,在步骤303中所述循环一次对抗两个所述判别器用来判别输出图像和目标图像真实数据差异,两个所述判别器的目标函数分别为:

    其中,dx表示x的判别器,dy表示y的判别器,f(y)为y的生成图像;g(x)为x的生成图像。

    优选地,所述生成器使用u-net结构,所述u-net结构包括编码器和解码器:

    所述编码器以卷积的形式进行下采样输入的原始图像信息进行编码;

    所述解码器以反卷积的形式进行上采样还原生成图像;

    在所述编码器和所述解码器中加入了跳转连接,将编码后的特征和解码之后同样大小特征的图像通道连接在一起,用于补充输入图像的信息。

    优选地,所述判别器使用全卷积网络,在卷积层后使用批归一化处理,并用带泄露整流函数(leakyrelu)作为激活函数。

    优选地,在步骤203中所述每对所述生成器与所述判别器互相博弈进行训练,采用交替训练所述判别器和所述生成器,并通过过去所述生成器输出的图像用于训练所述判别器。

    本发明提供的一种图像翻译方法的有益效果在于:与现有技术相比,本发明一种图像翻译方法首先获取成对图像数据集和非成对图像数据集;将所述成对图像数据集分别训练对偶的两个生成对抗网络模型,即所述成对图像数据集x和y,x映射y,y映射x;将所述非成对图像数据集利用对偶学习循环一致性优化训练后的所述生成对抗网络模型,从而获得图像翻译识别模型,利用所述图像翻译识别模型输出图像翻译结果,该方法利用多尺度对抗损失函数来提高模型复原图像细节的能力,提高了图像翻译准确率,同时半监督的训练方式只需要少量的成对图像数据集,减少对成对图像数据集的需求,降低了训练模型的成本。

    附图说明

    为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

    图1为本发明实施例提供的一种图像翻译方法的流程框图;

    图2为对偶的两个生成对抗网络模型训练结构图;

    图3为对偶学习循环一致性结构图;

    图4为u-net结构图;

    图5为示例图像输出对比图。

    具体实施方式

    为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

    请一并参阅图1及图4,现对本发明提供的一种图像翻译方法进行说明。所述一种图像翻译方法,包括:

    s101:首先获取成对图像数据集和非成对图像数据集。

    具体的是,首先获取成对图像数据集{xi,yi}和非成对数据集,由x域图像{xi}及y域图像{yi}两部部分组成,目标是完成从图像域x到图像域y的映射。

    s102:将成对图像数据集分别训练成对偶的两个生成对抗网络模型,即成对图像数据集x和y,x映射y,y映射x;

    本实施例中,s201将成对图像数据组成的数据集{xi,yi},其中xi∈x,yi∈y,生成对抗网络模型包括生成器和判别器,同时训练两个生成对抗网络模型中的对偶两个生成器g和f及其对应的判别器。

    本实施例中,s202在生成器生成图像任务中使用绝对偏差l1损失函数,促使输入图像与生成图像保持一致性的映射关系,同时使生成图像捕捉低频部分,会使生成模糊的结果,则使生成对抗网络模型能够生成逼真的图像,更好的获取图像高频的部分,l1损失函数表达式为:

    其中,x输入图像,y为目标图像,g为生成器,g(x)为x的生成图像。

    本实施例中,s203每对生成器与判别器互相博弈进行训练中,生成器使用u-net结构,u-net结构包括编码器和解码器,编码器以卷积的形式进行下采样输入的图像信息进行编码,解码器以反卷积的形式进行上采样还原生成图像;在编码器和解码器中加入了跳转连接,这样能使解码器在解码阶段利用图像的低层特征,避免编码器得到的高级特征丢失了很多图像的细节特征,u-net结构将编码后的特征和解码之后同样大小特征的图像通道连接在一起,用于补充输入图像的信息,从而提高了图像翻译的准确率。判别器为全卷积网络,在卷积层后使用批归一化处理,并用带泄露整流函数(leakyrelu)作为激活函数,从抽象的特征中恢复出每一个像素所属的类别,根据不同的像素级别判别出整张图的每个图像块的真假,从而使判别器指导生成器输出图像与目标图像一致,进而提高了图像翻译的准确率。利用交替训练判别器和生成器,采用批随机梯度下降和自适应矩估计(adam)优化器,并通过过去生成器输出的图像训练判别器,这样能够减少生成对抗网络崩溃的情况。生成器g输出的图像g(x)需要能够被判别器dy判断为目标图像y,则生成器g对抗判别器dy的损失函数表达式为:

    其中,x输入图像,y为目标图像,g为生成器,d表示y的判别器,g(x)为x的生成图像。

    本实施例中,判别器dy尽可能的将生成器g输出的图像g(x)与目标图像y区分,则判别器dy对抗生成器g的的损失函数表达式为:

    其中,x输入图像,y为目标图像,dy表示y的判别器,g(x)为x的生成图像。

    本实施例中,生成器f输出的图像f(y)需要被判别器dx判断为目标图像x,则生成器f对抗判别器dx的损失函数表达式为:

    其中,y输入图像,x为目标图像,f为生成器,d表示x的判别器,f(y)为y的生成图像。

    本实施例中,判别器dx尽可能的将生成器f输出的图像f(y)与目标图像x区分,则判别器dx对抗生成器f的的损失函数表达式为:

    其中,y输入图像,x为目标图像,dx表示x的判别器,f(y)为y的生成图像。

    本实施例中,s204通过迭代次数的增加,缩小生成器输出图像和目标图像的距离,促使所述判别器指导生成器输出图像与目标图像一致,完成生成对抗网络模型的训练。利用少量的成对图像数据很快的完成两个生成对抗网络模型的训练,从而提高了训练速度。

    s103:将非成对图像数据集利用对偶学习循环一致性优化训练后的生成对抗网络模型,从而获得图像翻译识别模型,利用图像翻译识别模型输出图像翻译结果。

    本实施例中,s301将非成对图像数据集由x域图像{xi}及y域图像{yi}两部部分组成输入练后的所述生成对抗网络模型;

    本实施例中,s302两个生成对抗网络模,其中生成器g和f,g:x→y和f:y→x应满足循环一致性;g和f构成可一个映射闭环,对任意一个,x经过生成器g后变换得到输出图像g(x),g(x)在经过逆变生成器f输出图像为f(g(x))要与输入图像x保持一致,即,对于任意的,y经过生成器f后变换得到输出图像f(y),f(y)在经过逆变生成器g输出图像为g(f(y))要与输入图像y保持一致,即,需要将两个生成器的损失函数加上循环一致性的损失函数作为图像翻译识别模型的生成器总损失函数,图像翻译识别模型的生成器总损失函数表达式的推导过程为:

    两个生成器的对抗损失函数分别为:

    其中,x输入图像,y为目标图像,g为生成器,d表示y的判别器,g(x)为x的生成图像。

    其中,y输入图像,x为目标图像,dx表示x的判别器,f(y)为y的生成图像。

    循环一致性的损失函数为:

    其中,x和y为输入图像,f(y)为y的生成图像;g(x)为x的生成图像。该损失函数进一步缩小了映射函数的可能空间范围,同时保证了输出含有某些能够复原输入的特征。

    故,图像翻译识别模型的生成器总损失函数为:

    其中,x和y为输入图像,dx表示x的判别器,dy表示y的判别器,f(y)为y的生成图像;g(x)为x的生成图像,λ为超参数。

    具体的是,生成器对抗损促使生成数据的分布拟合目标域数据的分布,循环一致损失项保证生成图像保持输入的某些特征及映射的唯一性,用超参数λ控制生成器损失和循环一致损失函数的比率,从而实现对生成器g和f,g:x→y和f:y→x应满足循环一致性;对于任意的,对于任意的应该满足

    本实施中,s303循环一次对抗两个判别器用来判别输出图像和目标图像真实数据差异,促使生成器输出图像与目标图像一致,完成生成对抗网络模型的优化,从而获得图像翻译识别模型,利用图像翻译识别模型输出图像翻译结果,使用多尺度判别器损目标函数来提高模型复原图像细节的能力,提高了图像翻译准确率。判别器指导生成器输出图像与目标图像一致,故判别器dx和dy的目标函数分别为:

    判别器dy的目标函数为:

    其中,x输入图像,y为目标图像,dy表示y的判别器,g(x)为x的生成图像。

    判别器dx的目标函数为:

    其中,y输入图像,x为目标图像,dx表示y的判别器,f(y)为y的生成图像。

    综上所述,该种图像翻译方法,多尺度对抗损失函数来提高模型复原图像细节的能力,提高了图像翻译准确率,同时半监督的训练方式只需要少量的成对图像数据集,减少对成对图像数据集的需求,降低了训练模型的成本。

    示例性的:语义标签对街景图像进行翻译,实验时间为2020年9月,cityscapes数据集包含50个不同城市的立体街景图像及相应的语义标签。基于监督学习的图像翻译算法,选取80%数据用于监督训练,10%用于验证集,10%用于测试集;基于半监督学习的图像翻译算法,选取20%成对数据用于监督训练,60%非成对数据用于无监督训练,10%用于验证,10%用于测试算法的性能。

    具体的实行步骤是,设置实验组与对照组,其中,实验组为该种图像翻译方法,对照组1:l1 dual使用对偶学习和绝对偏差l1损失函数训练模型,对照组2:pix2pix(l1 cgan)使用绝对偏差l1损失函数和生成对抗网络训练模型;对照组3:l1/msd-gan使用绝对偏差l1损失函数和多尺度判别生成对抗网络模型,其中,对照组1和2为基于监督学习的图像翻译算法,对照组3和实验组为基于半监督学习的图像翻译算法,在实验中,算法中参数λ设置为λ=100,批大小为1。在第一阶段,学习率为0.0002,训练轮数为epochs=100。在第二阶段,学习率为0.00005,训练轮数为epochs=200。并采用测试集中模型输出与对应的真实标签之间的l1距离来评估算法的性能,如图5所示,得到如下实验结果:

    不同图像翻译算法在语义标签⟶街景图像翻译性能对比表

    通过对比,最终得出结论:实验组相较于对照组1和2在监督训练集占比明显减少,但是图像识别准确率明显提高,实验组相较于对照3相同的训练数据,但是图像识别准确率高于对照组3。

    由上述数据可见,应用该种图像翻译方法在监督训练集占比明显减少,而且提高了输出图像与目标图像的距离,效果十分显著。

    以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。


    技术特征:

    1.一种图像翻译方法,其特征在于,包括:

    步骤1:首先获取成对图像数据集和非成对图像数据集;

    步骤2:将所述成对图像数据集分别训练成对偶的两个生成对抗网络模型,即所述成对图像数据集x和y,x映射y,y映射x;

    步骤3:将所述非成对图像数据集利用对偶学习循环一致性优化训练后的所述生成对抗网络模型,从而获得图像翻译识别模型,利用所述图像翻译识别模型输出图像翻译结果。

    2.如权利要求1所述的一种图像翻译方法,其特征在于,所述步骤2包括:

    步骤201:将所述成对图像数据集分别训练两个所述生成对抗网络模型,所述生成对抗网络模型包括生成器和判别器,其中所述成对图像数据集同时分别训练对偶的两个所述生成器;

    步骤202:在所述生成器生成图像任务中使用绝对偏差l1损失函数,l1损失函数表达式为:

    其中,x输入图像,y为目标图像,g为生成器,g(x)为x的生成图像;

    步骤203:每对所述生成器与所述判别器互相博弈进行训练,即x映射y或y映射x;

    步骤204:通过迭代次数的增加,缩小所述生成器输出图像和目标图像的距离,促使所述判别器指导所述生成器输出图像与目标图像一致,完成所述生成对抗网络模型的训练。

    3.如权利要求2所述的一种图像翻译方法,其特征在于,在步骤203中所述每对所述生成器与所述判别器互相博弈进行训练,两个对偶的所述生成器在对抗所述判别器时的损失函数表达式为分别为:

    其中,x和y为成对图像数据,g和f为生成器,d表示x的判别器,d表示y的判别器,f(y)为y的生成图像,g(x)为x的生成图像。

    4.如权利要求3所述的一种图像翻译方法,其特征在于,在步骤203中所述每对所述生成器与所述判别器互相博弈进行训练,对抗所述生成器的两个所述判别器的损失函数表达式为分别为:

    其中,x和y为成对图像数据,dx表示x的判别器,dy表示y的判别器,f(y)为y的生成图像;g(x)为x的生成图像。

    5.如权利要求4所述的一种图像翻译方法,其特征在于,所述步骤3包括:

    步骤301:将所述非成对图像数据集输入练后的所述生成对抗网络模型;

    步骤302:两个所述生成对抗网络模型:所述生成器g和f,g:x→y和f:y→x应满足循环一致性;

    步骤303:循环一次对抗两个所述判别器用来判别输出图像和目标图像真实数据差异,促使所述生成器输出图像与目标图像一致,完成所述生成对抗网络模型的优化,从而获得所述图像翻译识别模型,利用所述图像翻译识别模型输出图像翻译结果。

    6.如权利要求5所述的一种图像翻译方法,其特征在于,在步骤302中所述g:x→y和f:y→x满足循环一致性,需要将两个所述生成器的损失函数和循环一致性的损失函数作为所述图像翻译识别模型的生成器总损失函数,其损失函数表达式的推导过程为:

    两个所述生成器的对抗损失函数分别为:

    其中,x和y为输入图像,dx表示x的判别器,dy表示y的判别器,f(y)为y的生成图像,g(x)为x的生成图像;

    循环一致性的损失函数为:

    其中,x和y为输入图像,f(y)为y的生成图像;g(x)为x的生成图像;

    同时优化对抗损失和循环一致损失函数来训练所述图像翻译识别模型,生成器总损失函数为:

    其中,x和y输入图像,dx表示x的判别器,dy表示y的判别器,f(y)为y的生成图像;g(x)为x的生成图像。

    7.如权利要求6所述的一种图像翻译方法,其特征在于,在步骤303中所述循环一次对抗两个所述判别器用来判别输出图像和目标图像真实数据差异,两个所述判别器的目标函数分别为:

    其中,dx表示x的判别器,dy表示y的判别器,f(y)为y的生成图像;g(x)为x的生成图像。

    8.如权利要求7所述的一种图像翻译方法,其特征在于,所述生成器使用u-net结构,所述u-net结构包括编码器和解码器:

    所述编码器以卷积的形式进行下采样输入的原始图像信息进行编码;

    所述解码器以反卷积的形式进行上采样还原生成图像;

    在所述编码器和所述解码器中加入了跳转连接,将编码后的特征和解码之后同样大小特征的图像通道连接在一起,用于补充输入图像的信息。

    9.如权利要求8所述的一种图像翻译方法,其特征在于,所述判别器使用全卷积网络,在卷积层后使用批归一化处理,并用带泄露整流函数(leakyrelu)作为激活函数。

    10.如权利要求9所述的一种图像翻译方法,其特征在于,在步骤203中所述每对所述生成器与所述判别器互相博弈进行训练,采用交替训练所述判别器和所述生成器,并通过过去所述生成器输出的图像用于训练所述判别器。

    技术总结
    本发明提供了一种图像翻译方法,属于图像翻译技术领域,该方法首先获取成对图像数据集和非成对图像数据集;将所述成对图像数据集分别训练成对偶的两个生成对抗网络模型,即所述成对图像数据集X和Y,X映射Y,Y映射X;将所述非成对图像数据集利用对偶学习循环一致性优化训练后的所述生成对抗网络模型,从而获得图像翻译识别模型,利用所述图像翻译识别模型输出图像翻译结果,本发明提供的一种图像翻译方法,利用多尺度对抗损失函数来提高模型复原图像细节的能力,提高了图像翻译准确率,同时半监督的训练方式只需要少量的成对图像数据集,减少对成对图像数据集的需求,降低了训练模型的成本。

    技术研发人员:冷勇
    受保护的技术使用者:北京享云智汇科技有限公司
    技术研发日:2020.12.18
    技术公布日:2021.03.12

    转载请注明原文地址:https://wp.8miu.com/read-18822.html

    最新回复(0)