一种基于深度学习的上下文感知多视图三维重建系统及其方法与流程

    专利2022-07-08  133


    本发明属于基于多视图重建物体三维形状的技术领域,涉及一种基于深度学习的上下文感知多视图三维重建系统及其方法。

    技术背景

    传统三维重建方法,如:多视图重建、从运动中恢复结构(structurefrommotion:sfm)、同步定位与建图(simultaneouslocalizationandmapping:slam)等,均采用跨视图图像特征匹配、多视几何约束等技术解决。但是当多张视图之间的间隔较大时,由于外观变化或自遮挡的原因,特征匹配变得非常困难。为克服这些限制,已开发出许多基于深度学习的方法来重建对象的三维形状,包括3d-r2n2【choy等,3d-r2n2:aunifiedapproachforsingleandmulti-view3dobjectreconstruction.eccv2016.】、lsm【kar等,learningamulti-viewstereomachine.nips2017】等。

    为重建三维形状,3d-r2n2和lsm将多视图三维重建作为序列学习问题(sequencelearningproblem),并使用循环神经网络(recurrentneuralnetworks:rnn)融合共享编码器从输入图像中提取的多个特征图(featuremap)。然而,基于rnn的方法受到三个限制:首先,当给定具有不同次序的同组图像时,rnn重建对象的三维形状可能不一致;第二,由于rnn的长期记忆损失(long-termmemoryloss),无法充分利用输入图像以优化重建结果;最后,基于rnn的方法是耗时的,因为输入图像顺序地处理而无法并行处理。



    技术实现要素:

    本发明的目的在于克服现有技术存在的不足之处,利用深度学习技术,从二维图像中学习对象的三维形状,提供一种基于深度学习的上下文感知多视图三维重建系统及其方法,具有更高的系统鲁棒性和重建精度。本方法对于给定具有不同次序的同组图像,其重建对象具有很高的一致性,可充分利用输入图像以优化重建结果,同时可以并行处理输入图像。

    为解决上述技术问题,本发明采用以下技术方案。

    本发明的一种基于深度学习的上下文感知多视图三维重建系统,包括:

    编码器,即共享参数编码器,用于根据n个输入图像生成n个特征图;

    解码器,即共享参数解码器,用于将每个特征图作为输入,重建n个初始的三维形状;

    上下文感知融合模块,用于将初始的三维形状作为输入,并自适应地选择每个初始三维形状的质量较高的重建部分进行融合,获得融合的三维形状;

    精化器,用于将融合的三维形状作为输入,进一步更正重建的错误部分,进而重建出最终的三维形状;

    网络损失函数,被定义为重建的三维形状和基准三维形状之间的体素级二元交叉熵的均值,包括在初始的三维形状、最终的三维形状下分别定义的两个损失函数loss1和loss2。

    本发明的一种基于深度学习的上下文感知多视图三维重建方法,采用一种基于深度学习的上下文感知多视图三维重建系统,包括编码器、解码器、上下文融合模块、精化器、网络损失函数;

    所述方法包括:

    根据多个rgb图像重建对象的三维形状;对象的三维形状用三维体素网格表示:空单元格用0表示,被占单元格用1表示;

    所述的编码器,即共享参数编码器,根据n个输入图像,生成n个特征图;具体为:所述的编码器计算输入图像的一组低维度特征,从而恢复物体的三维形状;将所述的编码器设置为:包括11个二维卷积层,卷积层记作conv2d,前10个卷积层的卷积核大小是32,最后一个卷积层的卷积核是12;11个二维卷积层的输出通道数分别是64,64,128,128,256,256,256,512,512,512,256;在第2、4、7、10个卷积层后面设置最大池化层即maxpool层,池化层中核的大小分别是22,22,22,32;编码器最终输出2048*23维的特征向量。

    所述的解码器,即共享参数解码器,以每个特征图作为输入,重建n个初始的三维形状;其具体为:所述的解码器将2048*23维特征向量的信息转换为三维形状;将所述的解码器设置为:包括五个三维转置卷积层:前四个转置卷积层的内核尺寸为43,步幅stride为2,填充padding为1;最后一个转置卷积层的内核尺寸是13;四个转置卷积层后设置一个批量归一化层即bn层和一个relu激活函数,最后的转置卷积层后设置一个sigmoid函数;五个转置卷积层的输出通道数分别为512、128、32、8和1;所述的解码器输出一个分辨率为323的体素化三维形状。

    所述的上下文感知融合模块,根据初始的三维形状,自适应地选择每个初始三维形状的质量较高的重建部分,并进行融合获得融合的三维形状;即:所述上下文融合模块从不同的初始三维形状自适应地选择高质量的重建部分,然后融合所选定的高质量重建部分,最后生成高质量的完整对象的三维形状,其具体过程包括:

    ①通过连接解码器中最后两层的输出,生成第r个初始三维形状的上下文cr;

    ②上下文评分模块为第r个初始三维形状的上下文生成分数图mr;上下文评分模块由5组三维卷积层组成,每个三维卷积层它的内核大小为33,步幅为1,然后通过批量归一化,即bn,以及leakyrelu激活函数,卷积层的输出信道数目分别是9、16、8、4和1;

    ③分数归一化模块对所有分数图mr进行归一化,选择softmax作为归一化函数,第r个三维形状中位置(i,j,k)处的归一化分数可以计算为:

    其中,n表示视图的数量;

    ④将初始三维形状和对应的归一化分数相乘并累加,便得到融合的三维形状vf如下式(2)所示:

    所述的精化器,对融合后的三维形状进行细化,重建出最终的三维形状;即:所述精化器采用残差网络,用于更正三维形状的错误重建部分;将所述精化器设置为:采用基于u-net三维的编码器和解码器,借助基于u-net三维的编码器和解码器之间的u-net连接,保存融合体积中的局部结构;所述的基于u-net三维的编码器包括3个三维卷积层,每个三维卷积层的卷积核为43,其后跟随批量归一化层bn、leakyrelu激活函数和内核大小为23的最大池化层;卷积层的输出通道数分别是32、64和128;所述的基于u-net三维的编码器最后跟随两个维度为4096和10240的全连接层;所述的基于u-net三维的解码器由三个转置卷积层,每个卷积层卷积核为43、填充为2、步幅为1。

    所述的网络损失函数,定义为重建的三维形状和基准三维形状之间的体素级二元交叉熵的均值。其公式为:

    其中,n表示基准中的体素数,pi和gti代表预测的占用率和相应的基准,l值越小,预测结果就越接近基准;将在初始三维形状、最终的三维形状,分别定义两个损失函数loss1和loss2均为l,即:

    loss1=loss2=l(4)。

    与现有技术相比,本发明具有以下优点和有益效果:

    1.本发明为多视图三维重建提出了一个新的框架系统,该框架包括编码器、解码器、上下文感知融合模块和精化器,编码器将高维图像信息编码到低维空间,解码器从低维空间解析出相应的三维形状结构,上下文感知融合模块将不同视图产生的三维形状进行融合,精化器将融合结果进行优化,得到最优的三维模型,相比与其他方法,该方法提出的框架在特征提取、重建融合、形状优化方面更加稳定,使得方法具有更高的鲁棒性。

    2.本发明提出了一种自适应的上下文感知融合模块,该模块从多个视图重建的三维模型中,利用深度神经网络,根据提取的显著特征,选择高质量的三维重建部分并进行融合,生成整个对象的融合重建结果,相比与其他方法,因为该方法择优选择了各个视图重建的最优部分,因此具有更高的重建精度。

    3.本发明利用深度学习技术,从二维图像中学习对象的三维形状,提供一种基于深度学习的上下文感知多视图三维重建方法,对于给定具有不同次序的同组图像,其重建对象具有很高的一致性,即输入的图像不受顺序影响,因此可充分利用输入图像以优化重建结果,同时可以并行处理输入图像,加快重建的速度并提高重建的效率。

    4.本发明提供了一种无接触、方便、从多个角度拍摄的视图中快速重建物体三维形状的技术,易于推广应用,适用于船舶综合保障、装备虚拟维修、交互式电子技术手册、电影、动画、虚拟现实、增强现实、工业制造等多个领域,可以精确地从多个图像中获取物体的三维形状,为增强现实技术的大众化、工业过程建模的普及化提供技术支撑,具有广阔的市场前景。

    附图说明

    图1是本发明的一种实施例的方法原理图。

    图2是本发明的一种实施例的系统网络结构图。

    图3是本发明的一种实施例的上下文感知融合模块原理框图。

    具体实施方式

    本发明的一种基于深度学习的上下文感知多视图三维重建系统及其方法,包括编码器、解码器、上下文融合模块、精化器,及相应的网络损失函数。编码器根据n个输入图像生成n个特征图;解码器,以每个特征图作为输入,重建n个初始的三维形状;上下文融合模块将初始的三维形状作为输入,并自适应地选择每个初始三维形状的质量较高的重建部分进行融合,获得融合的三维形状;精化器将融合的三维形状作为输入,进一步修正重建的错误部分,进而重建出最终的三维形状。本发明提供了一种无接触、方便的、从多个角度拍摄的视图中快速重建物体三维形状的技术。

    下面结合附图,对本发明做进一步详细说明。

    图1是本发明的基于深度学习的上下文感知多视图三维重建方法的一种实施例的原理图,图2是本发明的一种实施例的系统网络结构图。本发明旨在根据多个rgb图像重建对象的三维形状,对象的三维形状用三维体素网格表示:空单元格用0表示,被占单元格用1表示。如图1所示,本发明原理包括:

    编码器:图1中所画的编码器属于参数共享编码器,即三个编码器实际为同一个编码器,编码器根据n个输入图像,生成n个特征图;

    解码器:图1中所画的解码器也是共享参数解码器,即三个解码器实际为同一个解码器,解码器以每个特征图作为输入,重建n个初始的三维形状;

    上下文感知融合模块:根据初始的三维形状,自适应地选择每个初始三维形状的质量较高的重建部分,并进行融合获得融合的三维形状;

    精化器:对融合后的三维形状进行细化,重建出最终的三维形状。

    网络损失函数:定义为重建的三维形状和基准三维形状之间的体素级二元交叉熵的均值。

    图2是本发明的一种实施例的系统网络结构图。如图2所示,编码器(图2中的解码器为图1中编码器的详细结构):计算输入图像的一组特征,以恢复物体的三维形状,包括11个二维卷积层,卷积层记作conv2d,前10个卷积层的卷积核大小是32,最后一个卷积层的卷积核是12;11个二维卷积层的输出通道数分别是64,64,128,128,256,256,256,512,512,512,256;在第2、4、7、10个卷积层后面设置最大池化层(即maxpool层),池化层中核的大小分别是22,22,22,32。编码器最终输出2048*23维的特征向量。

    解码器(图2中的解码器为图1中解码器的详细结构):将2048*23维特征向量的信息转换为三维形状。本发明的此处设置包括五个三维转置卷积层:前四个转置卷积层的内核尺寸为43,步幅(stride)为2,填充(padding)为1;最后一个转置卷积层的内核尺寸是13。前四个转置卷积层后设置一个批量归一化层(即bn层)和一个relu激活函数,最后的转置卷积层后设置一个sigmoid函数。五个转置卷积层的输出通道数分别为512、128、32、8和1。解码器输出一个分辨率为323的体素化三维形状。

    上下文感知融合模块:图3是本发明的一种实施例的上下文感知融合模块原理图。如图3所示,从不同的初始三维形状自适应地选择高质量的重建部分,然后融合所选定的高质量重建部分,最后生成高质量的完整对象的三维形状。其具体原理包括:

    ①通过连接解码器中最后两层的输出,生成第r个初始三维形状的上下文cr;

    ②上下文评分模块为第r个初始三维形状的上下文生成分数图mr。上下文评分模块由5组三维卷积层组成,每个三维卷积层它的内核大小为33,步幅为1,然后通过批量归一化(即bn)和leakyrelu激活函数,卷积层的输出信道数目分别是9、16、8、4和1;

    ③分数归一化模块对所有分数图mr进行归一化,本发明选择softmax作为归一化函数,第r个三维形状中位置(i,j,k)处的归一化分数可以计算为:

    其中,n表示视图的数量。

    ④将初始三维形状和对应的归一化分数相乘并累加,便得到融合的三维形状vf如公式2所示。

    精化器(图2中的精化器为图1中精化器的详细结构):采用残差网络,其目的在于更正三维形状的错误重建部分。本发明的设置为:采用基于u-net的三维编码器-解码器,借助编码器和解码器之间的u-net连接,可以保存融合体积中的局部结构。具体而言,编码器包括3个三维卷积层,每个三维卷积层的卷积核为43,其后跟随批量归一化层bn、leakyrelu激活函数和内核大小为23的最大池化层。卷积层的输出通道数分别是32、64和128。编码器最后跟随两个维度为4096和10240的全连接层。解码器包括三个转置卷积层,每个卷积层卷积核为43、填充为2、步幅为1。

    网络损失函数:定义为重建的三维形状和基准三维形状之间的体素级二元交叉熵(voxel-wisebinarycrossentropies)的均值:

    其中,n表示基准中的体素数。pi和gti代表预测的占用率和相应的基准。l值越小,预测结果就越接近基准。本发明在初始三维形状、最终的三维形状,分别定义两个损失函数loss1和loss2,二者都定义为l,即:

    loss1=loss2=l(4)

    综上所述,本发明为多视图三维重建提出了一个新的框架系统,该框架包括编码器、解码器、上下文感知融合模块和精化器,编码器将高维图像信息编码到低维空间,解码器从低维空间解析出相应的三维形状结构,上下文感知融合模块将不同视图产生的三维形状进行融合,精化器将融合结果进行优化,得到最优的三维模型,相比与其他方法,该方法提出的框架在特征提取、重建融合、形状优化方面更加稳定,使得方法具有更高的鲁棒性。本发明提出了一种自适应的上下文感知融合模块,该模块从多个视图重建的三维模型中,利用深度神经网络,根据提取的显著特征,选择高质量的三维重建部分并进行融合,生成整个对象的融合重建结果,相比与其他方法,因为该方法择优选择了各个视图重建的最优部分,因此具有更高的重建精度。本发明利用深度学习技术,从二维图像中学习对象的三维形状,提供一种基于深度学习的上下文感知多视图三维重建方法,对于给定具有不同次序的同组图像,其重建对象具有很高的一致性,即输入的图像不受顺序影响,因此可充分利用输入图像以优化重建结果,同时可以并行处理输入图像,加快重建的速度并提高重建的效率。本发明提供了一种无接触、方便、从多个角度拍摄的视图中快速重建物体三维形状的技术,易于推广应用,适用于船舶综合保障、装备虚拟维修、交互式电子技术手册、电影、动画、虚拟现实、增强现实、工业制造等多个领域,可以精确地从多个图像中获取物体的三维形状,为增强现实技术的大众化、工业过程建模的普及化提供技术支撑,具有广阔的市场前景。


    技术特征:

    1.一种基于深度学习的上下文感知多视图三维重建系统,其特征在于,包括:

    编码器,即共享参数编码器,用于根据n个输入图像生成n个特征图;

    解码器,即共享参数解码器,用于将每个特征图作为输入,重建n个初始的三维形状;

    上下文感知融合模块,用于将初始的三维形状作为输入,并自适应地选择每个初始三维形状的质量较高的重建部分进行融合,获得融合的三维形状;

    精化器,用于将融合的三维形状作为输入,进一步更正重建的错误部分,进而重建出最终的三维形状;

    网络损失函数,被定义为重建的三维形状和基准三维形状之间的体素级二元交叉熵的均值,包括在初始的三维形状、最终的三维形状下分别定义的两个损失函数loss1和loss2。

    2.一种基于深度学习的上下文感知多视图三维重建方法,其特征在于:

    采用一种基于深度学习的上下文感知多视图三维重建系统,包括编码器、解码器、上下文融合模块、精化器、网络损失函数;

    所述方法包括:

    根据多个rgb图像重建对象的三维形状;对象的三维形状用三维体素网格表示:空单元格用0表示,被占单元格用1表示;

    所述的编码器,即共享参数编码器,根据n个输入图像,生成n个特征图;

    所述的解码器,即共享参数解码器,以每个特征图作为输入,重建n个初始的三维形状;

    所述的上下文感知融合模块,根据初始的三维形状,自适应地选择每个初始三维形状的质量较高的重建部分,并进行融合获得融合的三维形状;

    所述的精化器,对融合后的三维形状进行细化,重建出最终的三维形状;

    所述的网络损失函数,定义为重建的三维形状和基准三维形状之间的体素级二元交叉熵的均值。

    3.根据权利要求2所述的一种基于深度学习的上下文感知多视图三维重建方法,其特征在于:所述的编码器计算输入图像的一组低维度特征,从而恢复物体的三维形状;将所述的编码器设置为:包括11个二维卷积层,卷积层记作conv2d,前10个卷积层的卷积核大小是32,最后一个卷积层的卷积核是12;11个二维卷积层的输出通道数分别是64,64,128,128,256,256,256,512,512,512,256;在第2、4、7、10个卷积层后面设置最大池化层即maxpool层,池化层中核的大小分别是22,22,22,32;编码器最终输出2048*23维的特征向量。

    4.根据权利要求2所述的一种基于深度学习的上下文感知多视图三维重建方法,其特征在于,所述的解码器将2048*23维特征向量的信息转换为三维形状;将所述的解码器设置为:包括五个三维转置卷积层:前四个转置卷积层的内核尺寸为43,步幅stride为2,填充padding为1;最后一个转置卷积层的内核尺寸是13;四个转置卷积层后设置一个批量归一化层即bn层和一个relu激活函数,最后的转置卷积层后设置一个sigmoid函数;五个转置卷积层的输出通道数分别为512、128、32、8和1;所述的解码器输出一个分辨率为323的体素化三维形状。

    5.根据权利要求2所述的一种基于深度学习的上下文感知多视图三维重建方法,其特征在于,所述上下文融合模块从不同的初始三维形状自适应地选择高质量的重建部分,然后融合所选定的高质量重建部分,最后生成高质量的完整对象的三维形状,其具体过程包括:

    ①通过连接解码器中最后两层的输出,生成第r个初始三维形状的上下文cr;

    ②上下文评分模块为第r个初始三维形状的上下文生成分数图mr;上下文评分模块由5组三维卷积层组成,每个三维卷积层它的内核大小为33,步幅为1,然后通过批量归一化,即bn,以及leakyrelu激活函数,卷积层的输出信道数目分别是9、16、8、4和1;

    ③分数归一化模块对所有分数图mr进行归一化,选择softmax作为归一化函数,第r个三维形状中位置(i,j,k)处的归一化分数可以计算为:

    其中,n表示视图的数量;

    ④将初始三维形状和对应的归一化分数相乘并累加,便得到融合的三维形状vf如下式(2)所示:

    6.根据权利要求2所述的一种基于深度学习的上下文感知多视图三维重建方法,其特征在于,所述精化器采用残差网络,用于更正三维形状的错误重建部分;将所述精化器设置为:采用基于u-net三维的编码器和解码器,借助基于u-net三维的编码器和解码器之间的u-net连接,保存融合体积中的局部结构;所述的基于u-net三维的编码器包括3个三维卷积层,每个三维卷积层的卷积核为43,其后跟随批量归一化层bn、leakyrelu激活函数和内核大小为23的最大池化层;卷积层的输出通道数分别是32、64和128;所述的基于u-net三维的编码器最后跟随两个维度为4096和10240的全连接层;所述的基于u-net三维的解码器由三个转置卷积层,每个卷积层卷积核为43、填充为2、步幅为1。

    7.根据权利要求2所述的一种基于深度学习的上下文感知多视图三维重建方法,其特征在于,所述的网络损失函数定义为重建的三维形状和基准三维形状之间的体素级二元交叉熵的均值,其公式表达式如下:

    其中,n表示基准中的体素数,pi和gti代表预测的占用率和相应的基准,l值越小,预测结果就越接近基准;将在初始三维形状、最终的三维形状,分别定义两个损失函数loss1和loss2均为l,即:

    loss1=loss2=l(4)。

    技术总结
    本发明公开了一种基于深度学习的上下文感知多视图三维重建系统及其方法,该方法包括编码器、解码器、上下文融合模块、精化器、网络损失函数。编码器根据n个输入图像生成n个特征图;解码器以每个特征图作为输入,重建n个初始的三维形状;上下文融合模块将初始的三维形状作为输入,并自适应地选择每个初始三维形状的质量较高的重建部分进行融合,获得融合的三维形状;精化器将融合的三维形状作为输入,进一步更正重建的错误部分,进而重建出最终的三维形状。本发明提供了一种无接触、简便、从多个角度拍摄的视图中快速重建物体三维形状的技术,具有较高的系统鲁棒性和重建精度。

    技术研发人员:白素琴;史金龙;乔亚茹;钱强;茅凌波;束鑫;欧镇;田朝晖
    受保护的技术使用者:江苏科技大学
    技术研发日:2020.11.30
    技术公布日:2021.03.12

    转载请注明原文地址:https://wp.8miu.com/read-15881.html

    最新回复(0)