一种基于光流插值的超分辨率处理方法与流程

    专利2022-07-08  104


    本发明涉及图像处理技术领域,具体为一种基于光流插值的超分辨率处理方法。



    背景技术:

    在生活中,像我们用智能手机拍的视频,记录下生活中很多美好,总有那么一些细节,你瞪大双眼拼了命想看清却依然奈何不了,因此需要通过慢速回放功能来观看,而在现有技术中用于提高视频帧率的方法主要有以下三种:使用高速摄像头拍摄运动视频;使用手机记录标准帧速率来记录视频;使用计算机视觉算法处理;其中高速摄像机是一种能够以小于1/1000秒的曝光或超过每秒250帧的帧速率捕获运动图像的设备;而手机记录,是通过视频处理软件将标准帧视频转换为更高的帧速率;使用计算机处理,主要使用视频插值算法实现平滑的视图转换;

    但是现有的技术方案均有各自的缺点和局限,使用高速摄像头的拍摄方案,存在高速摄像设备价格高昂、设备沉重、不便携、对高速摄像设备存储空间要求高的问题;

    使用手机的拍摄方案存在对手机内存要求高、拍摄过程中耗电量巨大、手机拍摄的视频需要经过帧率转换处理才可播放;

    基于视频插值的方法,存在不能直接用于生成任意高帧率视频。



    技术实现要素:

    本发明提供一种基于光流插值的超分辨率处理方法,可以有效解决上述背景技术中提出的问题。

    为实现上述目的,本发明提供如下技术方案:一种基于光流插值的超分辨率处理方法,具体包括如下步骤:

    s1、给定两个连续帧,在两个连续帧之间的任意时间步长进行任意时刻光流插值;

    s2、使用u-net架构计算输入图像之间的双向光流;

    s3、在每个时间步长线性地组合这些流以近似中间双向光流;

    s4、两个输入图像被扭曲并线性融合以形成每个中间帧,以合成中间帧图像。

    基于上述技术方案,优选的,所述s1中,在视频内插帧,旨在生成中间帧以形成空间和时间相干的视频序列,提出一种用于可变长度多帧视频插值的端到端卷积神经网络,其中运动解释和遮挡推理是联合建模的;

    所述s2中,u-net神经网络模型是一个全卷积网络,由解码器和编码器组成,在每一部分我们采用由两层卷积和一层平滑relu构成的结构,共6层,在每一层最后采用一个步长为2的平均值池化层,用以降低特征维度,实现光流计算和光流插值网络。

    基于上述技术方案,优选的,所述s3中,近似中间双向光流仅适用于局部平滑区域并在运动边界周围产生伪影,为了解决这个缺点,我们采用另一个u-net来改进近似流并预测软可见性图;

    所述s4中,中间帧图像合成之前将可见性图应用于变形图像,排除了被遮挡像素对内插中间帧的贡献以避免伪像,使学习的网络参数不依赖于时间,方便根据需要生成尽可能多的中间帧。

    基于上述技术方案,优选的,所述合成中间帧图像:给到i0,i1两个时刻的图像,以及我们想要预测的中间时刻t∈(0,1),目标是要预测中间时刻t=t的图像帧最直接的方式是训练一个可以直接预测图像帧中每个像素的神经网络模型,为做到预测每一个像素值,网络模型不仅需要学习视频人物的运动模式,更需要学习如何表达两张图像内容,由于rgb图像丰富的颜色空间,这种方式难以生成高清的中间图像,借鉴单帧中间插值方法的研究进展,提出融合两个时刻的输入图像,得到中间t时刻图像的方法:

    假设ft→0与ft→1分别为输入图像it到i0的光流和输入图像it到i1的光流,当获得这两个光流后,我们便可以合成中间时刻t的图像,公式如下:

    其中,g(·,·)是一个后向变形函数,可以使用双向插值实现,同时也是可微的,参数α0控制两幅图像的比率,大小取决于时序一致性和空间一致性,表示逐像素相乘,实现算法对图像内容的关注,时序一致性方面,时刻t=t和时刻t=0越接近,i0对的贡献就越大。

    基于上述技术方案,优选的,所述视频插帧中,一个重要的定律是:如果一个像素p在t=t时刻是可见的,则该像素至少在时刻t=0或t=1时刻可见,因此,模糊问题在视频插帧中是可以解决的,我们引入可见图的概念;

    假设在时刻t=0和时刻t=1,可见图分别为:vt←0和vt←1,vt←0(p)∈[0,1]表示像素p在时刻0到时刻t是否保持可见状态,数值0表示完全不可见,把像素状态整合进图像帧生成过程中,得到如下公式:

    其中正则化参数z=(1-t)vt→0 tvt→1。

    基于上述技术方案,优选的,所述任意时刻光流插值:由于中间帧图像it不是输入图像,我们很难直接计算光流ft→0和ft→1,为了解决这个问题,我们能够通过两张输入图像之间的光流f0→1,f1→0来生成中间光流ft→0,ft→1。

    基于上述技术方案,优选的,所述插值平滑化:减少在运动边界上的“伪影”现象导致的图像合成效果差的问题,使用模型学习的方法完善初始的预估结果,在层级光流预测方法的基础上,设计一个光流插帧预测子网络,该网络的输入包括两张输入图像i0与i1,输入图像之间的光流f0→1和f1→0,光流预估以及两个整合后的光流预测结果输出优化后的中间光流场ft→1和ft→0。

    与现有技术相比,本发明的有益效果:本发明基于卷积神经网络模型,实现了端到端的可变长多帧视频插值,通过视频插值提高运动视频帧率,同时可以在两帧之间的任意时间步长进行插值,实现让手机拍摄的视频也能够高清慢速播放,相较目前普遍使用的单帧插值方法,所学习的网络参数都不依赖于时间,因此本方法能够根据需要生成尽可能多的中间帧,可直接用于生成任意高帧率的视频;

    另外,通过深度神经网络,对视频中缺失的帧进行预测并补全,从而生成连续慢速回放的效果,且能够排除原视频帧当中被遮挡的像素,从而避免在生成的内插中间帧里产生模糊的伪像。

    其次,本发明无须使用高昂的高速摄像机拍摄视频,使用手机或任意摄像设备完成运动视频拍摄即可;

    避免了被遮挡像素对内插中间帧的贡献,有效避免了视频帧插值过程中由于运动遮挡造成的“伪影”问题。

    附图说明

    附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:

    图1是本发明处理方法的步骤流程图;

    图2是本发明的中间帧光流预估示意图;

    图3是本发明光流插值结果的预测示意图;

    图4是本发明可见图的效果示意图;

    图5是本发明的u-net网络结构示意图。

    具体实施方式

    以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。

    实施例:如图1所示,本发明提供一种技术方案,一种基于光流插值的超分辨率处理方法,具体包括如下步骤:

    s1、给定两个连续帧,在两个连续帧之间的任意时间步长进行任意时刻光流插值;

    s2、使用u-net架构计算输入图像之间的双向光流;

    s3、在每个时间步长线性地组合这些流以近似中间双向光流;

    s4、两个输入图像被扭曲并线性融合以形成每个中间帧,以合成中间帧图像。

    基于上述技术方案,s1中,在视频内插帧,旨在生成中间帧以形成空间和时间相干的视频序列,提出一种用于可变长度多帧视频插值的端到端卷积神经网络,其中运动解释和遮挡推理是联合建模的;

    如图5所示,s2中,u-net神经网络模型是一个全卷积网络,由解码器和编码器组成,在每一部分我们采用由两层卷积和一层平滑relu构成的结构,共6层,在每一层最后采用一个步长为2的平均值池化层,用以降低特征维度,实现光流计算和光流插值网络。

    基于上述技术方案,s3中,近似中间双向光流仅适用于局部平滑区域并在运动边界周围产生伪影,为了解决这个缺点,我们采用另一个u-net来改进近似流并预测软可见性图;

    s4中,中间帧图像合成之前将可见性图应用于变形图像,排除了被遮挡像素对内插中间帧的贡献以避免伪像,使学习的网络参数不依赖于时间,方便根据需要生成尽可能多的中间帧。

    基于上述技术方案,合成中间帧图像:给到i0,i1两个时刻的图像,以及我们想要预测的中间时刻t∈(0,1),目标是要预测中间时刻t=t的图像帧最直接的方式是训练一个可以直接预测图像帧中每个像素的神经网络模型,为做到预测每一个像素值,网络模型不仅需要学习视频人物的运动模式,更需要学习如何表达两张图像内容,由于rgb图像丰富的颜色空间,这种方式难以生成高清的中间图像,借鉴单帧中间插值方法的研究进展,提出融合两个时刻的输入图像,得到中间t时刻图像的方法:

    假设ft→0与ft→1分别为输入图像it到i0的光流和输入图像it到i1的光流,当获得这两个光流后,我们便可以合成中间时刻t的图像,公式如下:

    其中,g(·,·)是一个后向变形函数,可以使用双向插值实现,同时也是可微的,参数α0控制两幅图像的比率,大小取决于时序一致性和空间一致性,表示逐像素相乘,实现算法对图像内容的关注,时序一致性方面,时刻t=t和时刻t=0越接近,i0对的贡献就越大。

    基于上述技术方案,视频插帧中,一个重要的定律是:如果一个像素p在t=t时刻是可见的,则该像素至少在时刻t=0或t=1时刻可见,因此,模糊问题在视频插帧中是可以解决的,我们引入可见图的概念;

    假设在时刻t=0和时刻t=1,可见图分别为:vt←0和vt←1,vt←0(p)∈[0,1]表示像素p在时刻0到时刻t是否保持可见状态,数值0表示完全不可见,把像素状态整合进图像帧生成过程中,得到如下公式:

    其中正则化参数z=(1-t)vt→0 tvt→1。

    基于上述技术方案,任意时刻光流插值:由于中间帧图像it不是输入图像,我们很难直接计算光流ft→0和ft→1,为了解决这个问题,我们能够通过两张输入图像之间的光流f0→1,f1→0来生成中间光流ft→0,ft→1;

    如图2所示,每一列表示一个时刻,每个点表示一个特定像素点,对图中点p,我们希望生成该点在t=1时刻的光流,一种可行的方式是借用该点对应的t=0和t=1时刻的光流信息;

    因此,ft→1(p)可由如下公式计算得到:

    这里我们从相同或相反方向计算两张输入图像的光流,与rgb图像生成中的时序一致性类似,我们公式合并两张输入图像两个方向的光流,从而预测中间帧的光流,如下:

    基于上述技术方案,插值平滑化:减少在运动边界上的“伪影”现象导致的图像合成效果差的问题,使用模型学习的方法完善初始的预估结果,在层级光流预测方法的基础上,设计一个光流插帧预测子网络,该网络的输入包括两张输入图像i0与i1,输入图像之间的光流f0→1和f1→0,光流预估以及两个整合后的光流预测结果输出优化后的中间光流场ft→1和ft→0。

    如图3所示,示例结果,其中t=0.5,整个画面是向左移动的,同时摩托车相对画面向左移动,最后一行的结果显示我们光流插值模型对运动边界的优化效果,图中像素白度越高,说明优化效果越好;

    可见图对于处理模糊问题非常有效,因此,我们使用光流模型同时预测了两张可见图vt←0,vt←1,两者之间满足如下的约束关系:

    vt←0=1-vt←1(6)

    实际上,vt←0(p)=0意味着vt←1(p)=1,即像素点p在t=0时刻是被遮挡的,但在t=1时刻释放,因为很少有像素点在t=t时刻被遮挡时,同时在t=0,t=1时刻也被遮挡,使用了可见图后,当像素点p在i0,i1均可见时,我们将融合两张图像的信息;

    如图4所示,t=0.5,从t=0到t=1时刻,图中运动员胳膊往下方移动,所以对于运动员胳膊右上方的区域,若在t=0可见,则在t时刻也可见;

    若在t=1时刻的右上方区域,在t时刻不可见,图3中第四列的图像较好的反应了这一点,vt←0中胳膊附近的白色区域表示i0中的这些像素对生成贡献较大。

    为了做光流插值,我们首先需要计算两张输入图像之间的双向插值,使用深度学习的光流计算方法最近取得了突破,我们通过训练一个光流计算卷积网络,接收两张输入图像,同时预估前向光流f0→1以及后向光流f1→0,为了实现光流计算和光流插值网络,我们采用了unet神经网络模型。

    本发明的工作原理及使用流程:

    最后应说明的是:以上所述仅为本发明的优选实例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。


    技术特征:

    1.一种基于光流插值的超分辨率处理方法,其特征在于:具体包括如下步骤:

    s1、给定两个连续帧,在两个连续帧之间的任意时间步长进行任意时刻光流插值;

    s2、使用u-net架构计算输入图像之间的双向光流;

    s3、在每个时间步长线性地组合这些流以近似中间双向光流;

    s4、两个输入图像被扭曲并线性融合以形成每个中间帧,以合成中间帧图像。

    2.根据权利要求1所述的一种基于光流插值的超分辨率处理方法,其特征在于:所述s1中,在视频内插帧,旨在生成中间帧以形成空间和时间相干的视频序列,提出一种用于可变长度多帧视频插值的端到端卷积神经网络,其中运动解释和遮挡推理是联合建模的;

    所述s2中,u-net神经网络模型是一个全卷积网络,由解码器和编码器组成,在每一部分我们采用由两层卷积和一层平滑relu构成的结构,共6层,在每一层最后采用一个步长为2的平均值池化层,用以降低特征维度,实现光流计算和光流插值网络。

    3.根据权利要求1所述的一种基于光流插值的超分辨率处理方法,其特征在于:所述s3中,近似中间双向光流仅适用于局部平滑区域并在运动边界周围产生伪影,为了解决这个缺点,我们采用另一个u-net来改进近似流并预测软可见性图;

    所述s4中,中间帧图像合成之前将可见性图应用于变形图像,排除了被遮挡像素对内插中间帧的贡献以避免伪像,使学习的网络参数不依赖于时间,方便根据需要生成尽可能多的中间帧。

    4.根据权利要求1所述的一种基于光流插值的超分辨率处理方法,其特征在于:所述合成中间帧图像:给到i0,i1两个时刻的图像,以及我们想要预测的中间时刻t∈(0,1),目标是要预测中间时刻t=t的图像帧最直接的方式是训练一个可以直接预测图像帧中每个像素的神经网络模型,为做到预测每一个像素值,网络模型不仅需要学习视频人物的运动模式,更需要学习如何表达两张图像内容,由于rgb图像丰富的颜色空间,这种方式难以生成高清的中间图像,借鉴单帧中间插值方法的研究进展,提出融合两个时刻的输入图像,得到中间t时刻图像的方法:

    假设ft→0与ft→1分别为输入图像it到i0的光流和输入图像it到i1的光流,当获得这两个光流后,我们便可以合成中间时刻t的图像,公式如下:

    其中,g(·,·)是一个后向变形函数,可以使用双向插值实现,同时也是可微的,参数α0控制两幅图像的比率,大小取决于时序一致性和空间一致性,⊙表示逐像素相乘,实现算法对图像内容的关注,时序一致性方面,时刻t=t和时刻t=0越接近,i0对的贡献就越大。

    5.根据权利要求4所述的一种基于光流插值的超分辨率处理方法,其特征在于:所述视频插帧中,一个重要的定律是:如果一个像素p在t=t时刻是可见的,则该像素至少在时刻t=0或t=1时刻可见,因此,模糊问题在视频插帧中是可以解决的,我们引入可见图的概念;

    假设在时刻t=0和时刻t=1,可见图分别为:vt←0和vt←1,vt←0(p)∈[0,1]表示像素p在时刻0到时刻t是否保持可见状态,数值0表示完全不可见,把像素状态整合进图像帧生成过程中,得到如下公式:

    其中正则化参数z=(1-t)vt→0 tvt→1。

    6.根据权利要求1所述的一种基于光流插值的超分辨率处理方法,其特征在于:所述任意时刻光流插值:由于中间帧图像it不是输入图像,我们很难直接计算光流ft→0和ft→1,为了解决这个问题,我们能够通过两张输入图像之间的光流f0→1,f1→0来生成中间光流ft→0,ft→1。

    7.根据权利要求1所述的一种基于光流插值的超分辨率处理方法,其特征在于:所述插值平滑化:减少在运动边界上的“伪影”现象导致的图像合成效果差的问题,使用模型学习的方法完善初始的预估结果,在层级光流预测方法的基础上,设计一个光流插帧预测子网络,该网络的输入包括两张输入图像i0与i1,输入图像之间的光流f0→1和f1→0,光流预估以及两个整合后的光流预测结果输出优化后的中间光流场ft→1和ft→0。

    技术总结
    本发明公开了一种基于光流插值的超分辨率处理方法,将输入的两幅图像扭曲到特定的时间步长,然后自适应地融合这两幅扭曲图像,生成中间图像,其中的运动解释和遮挡推理在单个端到端可训练网络中建模,本发明基于卷积神经网络模型,实现了端到端的可变长多帧视频插值,通过视频插值提高运动视频帧率,同时可以在两帧之间的任意时间步长进行插值,实现让手机拍摄的视频也能够高清慢速播放,相较目前普遍使用的单帧插值方法,所学习的网络参数都不依赖于时间,因此本方法能够根据需要生成尽可能多的中间帧,可直接用于生成任意高帧率的视频,另外通过深度神经网络,对视频中缺失的帧进行预测并补全。

    技术研发人员:陈建兵;吴丹;孙伟;田鹏飞
    受保护的技术使用者:亿景智联(北京)科技有限公司
    技术研发日:2020.12.08
    技术公布日:2021.03.12

    转载请注明原文地址:https://wp.8miu.com/read-16779.html

    最新回复(0)