基于改进深度可分离卷积神经网络的图像着色方法与流程

    专利2022-07-08  118


    本发明属于图像处理技术及深度学习领域,特别涉及一种基于改进深度可分离卷积神经网络的图像着色方法。



    背景技术:

    人眼对灰度图像的敏感程度远远低于彩色图像。当灰度图像相邻像素点之间的差异较小时,人眼将无法捕捉到图像中的具体细节。相比灰度图像,彩色图像能展现出更丰富的环境信息和物体的细节纹理,更有利于算法对图像特征的提取。因此,对灰度图像进行高效的彩色化处理,在计算机视觉领域研究中日益受到重视。

    灰度图像着色算法主要分为三种类型,分别为传统的基于着色线条扩展的图像着色方法、基于颜色传递的图像着色方法,以及逐渐兴起的基于深度学习的图像着色算法。基于着色线条扩展的着色算法极度依赖着色线条的准确性:对于图像中纹理相似但是颜色不同的区域,该方法可能会产生混色现象。基于颜色传递的图像着色方法需要一到数张彩色样本图像作为参考,按照样本图像的色彩对待着色图像进行颜色的传递,该方法能在简单场景下取得较好的效果,但它很大程度上依赖参考图像的质量以及参考图像与灰度图像场景的相似性。

    近年来,随着大数据、并行计算的发展,深度学习技术尤其是卷积神经网络在图像处理、计算机视觉等方面取得了突破性的进展,基于深度学习的方法有效解决了传统的着色方法花费时间长、效率低、效果差的问题,已逐渐成为图像着色研究的新突破口。但是,目前提出的模型往往使用了更多的卷积结构和更深的网络层数,这些模型结构尽管获得了更好的着色性能,但往往造成了内存消耗和内存成本的急剧增加,使得网络计算效率低下,不适合实时处理,制约了工业领域的应用。



    技术实现要素:

    本发明的目的在于提供一种基于改进深度可分离卷积神经网络的图像着色方法。

    实现本发明目的的技术解决方案为:一种基于改进深度可分离卷积神经网络的图像着色方法,包括以下步骤:

    步骤1,构建图像数据集;

    步骤2,构造改进深度可分离卷积着色神经网络:

    步骤2-1,构造像素特征提取网络,用于提取输入灰度图像的局部特征;

    步骤2-2,构造语义特征提取网络,用于提取输入灰度图像的全局特征;

    步骤2-3,构造语义特征和像素特征提取网络的融合结构,用于混合输入灰度图像的全局及局部特征;

    步骤2-4,构造着色预测网络,用于计算lab色彩空间下的输入图像的a、b通道,并与输入的图像的l通道组合复原彩色图像;

    步骤3,训练改进深度可分离卷积着色神经网络;

    步骤4,将待着色灰度图像输入至训练后的改进深度可分离卷积着色神经网络,获得图像彩色化结果。

    本发明方法与现有方法相比,其显著优点为:1)现有的多数方法网络结构深、参数量庞大,本发明的方法利用改进深度可分离卷积残差结构,提出了一个轻量级的着色神经网络,该轻量级体现在保证着色精度的情况下,大幅减少了参数计算数量,并同时提升着色速度;2)本发明的方法利用放缩扩展模块的思想对深度可分离卷积结构进行改进,在大幅减少参数量的情况下,有效提升了着色精度;3)本发明的方法将坐标卷积应用于图像着色领域,使得方法对图像特征捕捉更为精确;4)本发明的方法结合l1损失函数和l2损失函数的优点,在图像着色领域使用了一种新的损失函数,着色效果较好;

    下面结合附图对本发明作进一步详细描述。

    附图说明

    图1为基于改进深度可分离卷积神经网络的图像着色方法的流程图。

    图2为一个实施例中基于改进深度可分离卷积神经网络的图像着色方法的结构示意图。

    图3为一个实施例中坐标卷积层结构图。

    图4为一个实施例中的放缩扩展模块(senet)网络结构图。

    图5为一个实施例中的改进深度可分离卷积模块结构图。

    图6为一个实施例中的图像着色效果定量对比图,其中第一列为原彩色图像,第二列至第五列依次为zhang、lizuka、su和本发明的方法的图像着色结果图。

    图7为一个实施例中的图像着色效果定性对比图,其中图(a)为灰度测试图像,图(b)为对测试图像对应的彩色图像块,图(c)至图(f)依次为zhang、lizuka、su和本发明方法对应的图像着色结果图。

    具体实施方式

    基于深度学习的图像着色方法近几年取得了一定的成果,但其中大多数方法需要耗费大量的计算资源及计算时间,在移动或嵌入式设备上部署困难。本发明提出一种使用少量参数,同时基本不影响着色效果的高效方法。本发明的网络结构对全局语义特征和局部像素特征进行综合考虑,并使用残差、深度可分离卷积、通道加权等方式减小参数并提高性能。

    结合图1,一种基于改进深度可分离卷积神经网络的图像着色方法,包括以下步骤:

    步骤1,构建图像数据集;

    步骤2,构造改进深度可分离卷积着色神经网络;结合图2,构造过程包括:

    步骤2-1,构造像素特征提取网络,用于提取输入灰度图像的局部特征;

    步骤2-2,构造语义特征提取网络,用于提取输入灰度图像的全局特征;

    步骤2-3,构造语义特征和像素特征提取网络的融合结构,用于混合输入灰度图像的全局及局部特征;

    步骤2-4,构造着色预测网络,用于计算lab色彩空间下的输入图像的a、b通道,并与输入的图像的l通道组合复原彩色图像;

    步骤3,训练改进深度可分离卷积着色神经网络;

    步骤4,将待着色灰度图像输入至训练后的轻量级着色神经网络,获得图像彩色化结果。

    进一步地,在其中一个实施例中,步骤1构建图像数据集,具体过程包括:

    步骤1-1,采集图像样本构建图像数据集;

    步骤1-2,将图像样本按比例p1:p2=8:2随机划分为训练集和验证集。

    进一步地,在其中一个实施例中,结合图2、图3、图4和图5,步骤2-1中像素特征提取网络及步骤2-2中语义特征提取网络均各由数个改进深度可分离残差模块组成,每层模块依次包含坐标卷积模块、1*1卷积、senet模块、3*3可分离卷积、1*1逐点卷积各一个。结合图3,坐标卷积层用于扩展图像的通道数,具体添加两个通道,分别为每个像素点在宽度和高度上的坐标信息通道。

    这里,坐标卷积层的工作过程为:

    ilr图像作为浅特征提取网络的输入,坐标卷积层(coordconv)先添加额外p(i,j)坐标信息通道,再经由一层conv卷积处理,这一过程表示为:

    fcoord=hcoord*ilr(1)

    式中,hcoord为坐标卷积运算,fcoord为坐标卷积层的输出。

    坐标卷积层输出后再传入下一层conv层进行进一步的浅处理。该conv层生成若干个特征图,用于接下来的全局残差学习,经过该卷积层的输出表示为:

    式中,h0为卷积运算,表示这个输出将用作金字塔第一级的输入。

    进一步地,在其中一个实施例中,结合图2和图4,步骤2-1及2-2的改进可分离卷积网络结构中,为使结构能获得充足信息判断通道间的重要性,该网络通过全局平均池化对每个通道进行压缩,将w×h×c大小的多维向量压缩至1×1×c的一维向量,以此获得整个空间特征编码的全局特征。并通过relu和sigmoid两个非线性分类器自适应计算各通道间的权重关系,使网络最终计算出各通道的加权比例。此外,为了确保输出层的三维空间结构与输入层一致,senet将各通道间的比值与原始通道特征相乘,以此获得该结构的最终输出

    sc=σ(g(zc,w))σ(w2relu(w1zc))(4)

    其计算公式如上所示,式(3)为压缩步骤,式中h、w表示输入层的向量大小,uc为输入层的对应向量,zc为该对应向量的计算结果,下标c表示该向量属于维度大小为c的向量集合rc。公式(4)是加权步骤的计算公式,w1,w2为自适应的权重系数,relu和σ分别为relu和sigmoid两个非线性函数。式(5)为放缩操作,sc,uc分别对应加权步骤的向量输出和输入层的向量输入。

    进一步地,步骤2-3所述的融合结构,在像素特征提取网络大小m*m的条件下,从语义特征网络里提取出任意长度的一维特征向量,将其复制m*m次后按像素特征网络的输出尺寸组合,并与像素特征网络的输出层进行拼接。

    在其中一个实施例中,结合图2,步骤2-3为使全局语义特征和局部像素特征充分融合,网络从语义特征网络里提取出1×1×k大小的特征向量,将其复制28×28次后,沿空间深度坐标轴与像素特征网络的输出进行拼接,形成着色预测网络的输入,该过程如下所示:

    式中,yp和yg分别表示像素特征网络和语义特征网络的输出,w与b分别表示网络迭代过程中计算出的权重与偏差,σ表示激活函数relu。

    进一步地,步骤2-4所述的着色预测网络,其结构由数层上采样网络组成,每层依次包含数个3*3卷积层和一个上采样层;同时,该网络最后一层上采样网络的最后一个卷积层的卷积算子为tanh,且该网络最终输出2个通道。

    进一步地,在其中一个实施例中,上述步骤3训练轻量级着色神经网络,具体过程包括:

    步骤3-1,初始化轻量级着色神经网络的参数和迭代次数阈值n1;

    步骤3-2,选取优化器与损失函数;

    步骤3-3,对训练集图像进行预处理获得低分辨率图像;

    步骤3-4,将低分辨率图像输入轻量级着色神经网络进行前向传播得预估值;

    步骤3-5,从输出层开始进行误差逆传播,计算损失函数并利用优化器更新网络参数;

    步骤3-6,判断当前迭代次数是否超过迭代次数阈值n1,若是,则执行下一步,反之返回执行步骤3-4;

    步骤3-7,利用验证集验证损失是否收敛,若是,结束训练过程,否则,重新设置迭代次数阈值为n2,返回执行步骤3-4,直至收敛,n2<n1。

    进一步优选地,在其中一个实施例中,上述步骤3-2中选取的优化器为adam优化器;

    选取的损失函数为:

    式中,h、w为相应图像的高和宽,f(zi,j)为对应图像像素点上的损失。xi,j和yi,j分别表示真实图像与着色图像的对应像素点上的数值。

    作为一种具体示例,对本发明的方法进行验证。本示例在视觉上比较分析的对象为如图6所示的定量对比图像和如图7所示定图像。本示例还将本发明方法与现有的zhang、lizuka、su方法在指标上进行对比实现验证,对比评判指标包括:

    (1)psnr。一般psnr指标越高,说明图像质量越好。psnr表达式如下:

    其中,n为每像素的比特数,mse是均方误差。

    (2)ssim。一般ssim的值越大,表示图像失真程度越小。ssim表达式如下:

    ssim(x,y)=l(x,y)*c(x,y)*s(x,y)(10)

    其中l(x,y)、c(x,y)、s(x,y)的表达式如下:

    其中μx和μy表示图像的像素均值,σx和σy表示图像像素的标准值,σxy代表图像x和图像y的协方差。c1,c2和c3为常数项。

    具体试验过程包括:

    初始化神经网络的参数如下表1所示。

    表1着色神经网络的参数初始化

    利用本发明的方法以及zhang、lizuka、su方法对两种图片进行处理,视觉效果比较如图6、图7所示。从imagenet数据集中选取数个种类数据,与上述方法进行比较,如表2所示。表中加粗数值表示对应方法在对应数据集上对应指标最优。

    表2图像着色结果对比

    通过表2的比较结果分析可以看出,本发明的方法极大缩小了模型参数数量,模型大小与推理速度相较其余算法也有了较大提升;在指标上,本发明方法也可以与其余算法匹配。通过图6和图7的视觉比较可以看出,本发明的方法对图像色彩还原的视觉效果也相对优异。

    综上,本发明的轻量级图像着色方法,通过改进深度可分离卷积网络,大大减小了网络的参数量,并使得计算更加高效;通过引入坐标卷积使得特征提取网络对图像特征的解析能力大大提高。本发明的方法实现了网络轻量化且保持较高着色效果的目的,同时有着更小的模型体积与更快的执行速度。


    技术特征:

    1.一种基于改进深度可分离卷积神经网络的图像着色方法,其特征在于,包括以下步骤:

    步骤1,构建图像数据集;

    步骤2,构造改进深度可分离卷积着色神经网络:

    步骤2-1,构造像素特征提取网络,用于提取输入灰度图像的局部特征;

    步骤2-2,构造语义特征提取网络,用于提取输入灰度图像的全局特征;

    步骤2-3,构造语义特征和像素特征提取网络的融合结构,用于混合输入灰度图像的全局及局部特征;

    步骤2-4,构造着色预测网络,用于计算lab色彩空间下的输入图像的a、b通道,并与输入的图像的l通道组合复原彩色图像;

    步骤3,训练改进深度可分离卷积着色神经网络;

    步骤4,将待着色灰度图像输入至训练后的改进深度可分离卷积着色神经网络,获得图像彩色化结果。

    2.根据权利要求1所述的基于改进深度可分离卷积神经网络的图像着色方法,其特征在于,步骤1所述构建图像数据集,具体过程包括:

    步骤1-1,采集图像样本构建图像数据集;

    步骤1-2,将图像样本按比例p1:p2=8:2随机划分为训练集和验证集。

    3.根据权利要求1所述的基于改进深度可分离卷积着色网络的图像着色方法,其特征在于,步骤2-1所述像素特征提取网络和步骤2-2所述语义特征提取网络均各由数个改进深度可分离残差模块组成,每层模块依次包含坐标卷积模块、1*1卷积、senet模块、3*3可分离卷积、1*1逐点卷积各一个。

    4.根据权利要求1所述的基于改进深度可分离卷积神经网络的图像着色方法,其特征在于,步骤2-3所述的融合结构,在像素特征提取网络大小m*m的条件下,从语义特征网络里提取出任意长度的一维特征向量,将其复制m*m次后按像素特征网络的输出尺寸组合,并与像素特征网络的输出层进行拼接。

    5.根据权利要求1所述的基于改进深度可分离卷积神经网络的图像着色方法,其特征在于,步骤2-4所述的着色预测网络,其结构由数层上采样网络组成,每层依次包含数个3*3卷积层和一个上采样层;同时,该网络最后一层上采样网络的最后一个卷积层的卷积算子为tanh,且该网络最终输出2个通道。

    6.根据权利要求1所述的基于改进深度可分离卷积神经网络的图像着色方法,其特征在于,步骤3所述训练改进深度可分离卷积着色神经网络,具体过程包括:

    步骤3-1,初始化改进深度可分离卷积神经网络的参数和迭代次数阈值n1;

    步骤3-2,选取优化器与损失函数;

    步骤3-3,对训练集图像进行预处理获得灰度图像;

    步骤3-4,将灰度图像输入神经网络进行前向传播得预估值;

    步骤3-5,从输出层开始进行反向传播,计算损失函数并利用优化器更新网络参数;

    步骤3-6,判断当前迭代次数是否超过迭代次数阈值n1,若是,则执行下一步,反之返回执行步骤3-4;

    步骤3-7,利用测试集验证损失是否收敛,若是,结束训练过程,否则,重新设置迭代次数阈值为n2,返回执行步骤3-4,直至收敛,n2<n1。

    7.根据权利要求6所述的基于改进深度可分离卷积神经网络的图像着色方法,其特征在于,步骤3-2中选取的优化器为adam优化器;

    选取的损失函数为:

    式中,h、w为相应图像的高和宽,f(zi,j)为对应图像像素点上的损失;xi,j和yi,j分别表示真实图像与着色图像的对应像素点上的数值。

    技术总结
    本发明公开了一种基于改进深度可分离卷积神经网络的图像着色方法,包括以下步骤:构建图像数据集;构造改进深度可分离卷积着色神经网络;训练改进深度可分离卷积着色神经网络;将待着色灰度图像输入至训练后的轻量级着色神经网络,获得图像彩色化结果。本发明的网络结构对全局语义特征和局部像素特征进行综合考虑,并使用残差、深度可分离卷积、通道加权等方式减小参数并提高性能。

    技术研发人员:徐昱琨;王清华;李振华
    受保护的技术使用者:南京理工大学
    技术研发日:2020.12.07
    技术公布日:2021.03.12

    转载请注明原文地址:https://wp.8miu.com/read-16049.html

    最新回复(0)