图像处理方法和装置以及图像处理模型的训练方法和装置与流程

    专利2025-08-04  14


    本公开涉及图像处理领域,更具体地,涉及一种图像处理方法和装置以及图像处理模型的训练方法和装置。


    背景技术:

    1、如何合成逼真的图像和视频是图像处理(尤其是计算机图形学)技术的核心,也是近来研究的热点。相关的新视角合成技术是在给定一组输入图像以及相应的相机位姿的基础上,根据新的相机位姿渲染出场景中相应的新视角图像的技术。传统的新视角图像合成技术通常使用渲染算法来生成图像,例如,使用光栅化和光线跟踪等技术。近年来,可微渲染技术或神经渲染技术掀起了新视角图像合成的新高潮。以神经辐射场(neural radiancefield,nerf)为代表的神经渲染技术通过结合经典计算机图形学和机器学习的思想,创建了从真实世界观测合成图像的途径。然而,现有的图像合成技术在很多场景下仍然有一定的局限性,例如,无法对动态场景进行建模,存储开销过大等。因此,需要一种能够实现连续时间上的动态场景建模的图像处理技术。

    2、上述信息仅作为背景技术信息呈现,以帮助理解本公开。关于上述内容中的任何一个是否可作为关于本公开的相关技术适用,尚未作出任何决定和断言。


    技术实现思路

    1、本公开的实施例提供一种图像处理方法和装置以及图像处理模型的训练方法和装置以至少解决上述问题和/或缺点。

    2、根据本公开的实施例的第一方面,提供了一种图像处理方法,所述图像处理方法包括:获取多个输入图像;确定包括在所述多个输入图像中的点云在规范空间下的规范属性信息和结构特征信息;基于所述结构特征信息,通过使用变换网络将所述规范属性信息变换为所述点云在时域空间下的时域属性信息;基于所述时域属性信息获得所述多个输入图像的渲染图像。

    3、可选地,确定包括在所述多个输入图像中的点云在规范空间下的规范属性信息的步骤包括:确定与所述点云对应的三维高斯点集合中的每一个三维高斯点在规范空间下的规范属性信息,其中,所述规范属性信息和/或所述时域属性信息包括位置信息、旋转信息和大小信息中的至少一个。

    4、可选地,确定包括在所述多个输入图像中的点云在规范空间下的结构特征信息的步骤包括:基于每一个三维高斯点的所述位置信息,进行特征提取和特征融合来获得每一个三维高斯点的结构特征信息。

    5、可选地,基于所述结构特征信息,通过使用变换网络将所述规范属性信息变换为所述点云在时域空间下的时域属性信息的步骤包括:通过使用所述变换网络,基于每一个三维高斯点的所述规范属性信息和所述结构特征信息进行特征解码以确定每一个三维高斯点的所述时域属性信息。

    6、可选地,基于每一个三维高斯点的所述位置信息,进行特征提取和特征融合来获得每一个三维高斯点的结构特征信息的步骤包括:基于每一个三维高斯点的所述位置信息,通过使用unet结构对一个或多个三维高斯点进行特征提取获得体素的结构信息;基于每一个三维高斯点的所述位置信息,通过使用第一神经网络模型对每一个三维高斯点进行特征提取获得三维高斯点的点特征信息;基于体素的结构信息和三维高斯点的点特征信息,通过使用第二神经网络模型进行特征融合获得每一个三维高斯点的结构特征信息。

    7、可选地,通过使用所述变换网络,基于每一个三维高斯点的所述规范属性信息和所述结构特征信息进行特征解码以确定每一个三维高斯点的所述时域属性信息的步骤包括:基于所述结构特征信息,通过使用第三神经网络模型对所述规范属性信息执行高斯变换,确定每一个三维高斯点的基于时间的变化属性信息;基于每一个三维高斯点的所述规范属性信息和基于时间的所述变化属性信息确定每一个三维高斯点的基于时间的所述时域属性信息,其中,基于时间的所述变化属性信息包括位置变化信息、旋转变化信息和大小变化信息中的至少一个。

    8、可选地,所述多个输入图像包括不同时间和/或不同位置捕捉的多个单目图像。

    9、根据本公开的实施例的第二方面,提供了一种图像处理模型的训练方法,所述训练方法包括:获取多个训练图像;针对所述多个训练图像,使用所述图像处理模型执行如上所述的图像处理方法;基于通过所述图像处理方法获得的渲染图像和所述多个训练图像中的与所述渲染图像对应的训练图像,计算损失;通过基于所述损失对所述图像处理模型的参数进行调整,对所述图像处理模型进行训练。

    10、可选地,通过基于所述损失对所述图像处理模型的参数进行调整,对所述图像处理模型进行训练的步骤包括:在对所述图像处理模型进行训练时,确定每一次训练的与所述点云对应的三维高斯点集合中的三维高斯点的梯度信息;基于所述时域属性信息和所述梯度信息确定是否执行密度控制操作,其中,所述密度控制操作包括改变三维高斯点的数量。

    11、根据本公开的实施例的第三方面,提供了一种图像处理装置,所述图像处理装置包括:图像获取单元,被配置为获取多个输入图像;属性确定单元,被配置为确定包括在所述多个输入图像中的点云在规范空间下的规范属性信息和结构特征信息;变换处理单元,被配置为基于所述结构特征信息,通过使用变换网络将所述规范属性信息变换为所述点云在时域空间下的时域属性信息;图像渲染单元,被配置为基于所述时域属性信息获得所述多个输入图像的渲染图像。

    12、可选地,属性确定单元被配置为通过以下操作来确定包括在所述多个输入图像中的点云在规范空间下的规范属性信息:确定与所述点云对应的三维高斯点集合中的每一个三维高斯点在规范空间下的规范属性信息,其中,所述规范属性信息和/或所述时域属性信息包括位置信息、旋转信息和大小信息中的至少一个。

    13、可选地,属性确定单元被配置为通过以下操作来确定包括在所述多个输入图像中的点云在规范空间下的结构特征信息:基于每一个三维高斯点的所述位置信息,进行特征提取和特征融合来获得每一个三维高斯点的结构特征信息。

    14、可选地,变换处理单元被配置为通过以下操作来基于所述结构特征信息,通过使用变换网络将所述规范属性信息变换为所述点云在时域空间下的时域属性信息:通过使用所述变换网络,基于每一个三维高斯点的所述规范属性信息和所述结构特征信息进行特征解码以确定每一个三维高斯点的所述时域属性信息。

    15、可选地,属性确定单元被配置为通过以下操作来基于每一个三维高斯点的所述位置信息,进行特征提取和特征融合来获得每一个三维高斯点的结构特征信息:基于每一个三维高斯点的所述位置信息,通过使用unet结构对一个或多个三维高斯点进行特征提取获得体素的结构信息;基于每一个三维高斯点的所述位置信息,通过使用第一神经网络模型对每一个三维高斯点进行特征提取获得三维高斯点的点特征信息;基于体素的结构信息和三维高斯点的点特征信息,通过使用第二神经网络模型进行特征融合获得每一个三维高斯点的结构特征信息。

    16、可选地,变换处理单元被配置为通过以下操作来通过使用所述变换网络,基于每一个三维高斯点的所述规范属性信息和所述结构特征信息进行特征解码以确定每一个三维高斯点的所述时域属性信息:基于所述结构特征信息,通过使用第三神经网络模型对所述规范属性信息执行高斯变换,确定每一个三维高斯点的基于时间的变化属性信息;基于每一个三维高斯点的所述规范属性信息和基于时间的所述变化属性信息确定每一个三维高斯点的基于时间的所述时域属性信息,其中,基于时间的所述变化属性信息包括位置变化信息、旋转变化信息和大小变化信息中的至少一个。

    17、可选地,所述多个输入图像包括不同时间和/或不同位置捕捉的多个单目图像。

    18、根据本公开的实施例的第四方面,提供了一种图像处理模型的训练装置,所述训练装置包括:图像获取单元,被配置为获取多个训练图像;模型预测单元,被配置为针对所述多个训练图像,使用所述图像处理模型执行如上所述的图像处理方法;损失计算单元,被配置为基于所述渲染图像和所述多个训练图像中的与所述渲染图像对应的训练图像计算损失;参数调整单元,被配置为通过基于所述损失对所述图像处理模型的参数进行调整,对所述图像处理模型进行训练。

    19、可选地,参数调整单元被配置为通过以下操作来通过基于所述损失对所述图像处理模型的参数进行调整,对所述图像处理模型进行训练:在对所述图像处理模型进行训练时,确定每一次训练的与所述点云对应的三维高斯点集合中的三维高斯点的梯度信息;基于所述时域属性信息和所述梯度信息确定是否执行密度控制操作,其中,所述密度控制操作包括改变三维高斯点的数量。

    20、根据本公开的实施例的第五方面,提供了一种电子设备,所述电子设备包括:至少一个处理器;至少一个存储计算机可执行指令的存储器,其中,所述计算机可执行指令在被所述至少一个处理器运行时,促使所述至少一个处理器执行如上所述的方法。

    21、根据本公开的实施例的第六方面,提供了一种计算机可读存储介质,其中,当所述计算机可读存储介质中的指令被至少一个处理器运行时,促使所述至少一个处理器执行如上所述的方法。

    22、根据本公开的实施例的图像处理方法和装置以及图像处理模型的训练方法和装置能够实现连续时间上的动态场景的建模,确定规范空间与时域空间之间的映射变换关系,从而实现准确的变化和运动预测,并且节省存储开销。根据本公开的实施例的图像处理方法和装置以及图像处理模型的训练方法和装置还能够在时间和位置(或视角)同时变化的动态场景下进行建模,例如,能够在输入图像的场景下,从不同角度,或不同时间观察渲染图像。根据本公开的实施例的图像处理方法和装置以及图像处理模型的训练方法和装置还能够仅基于单目图像或视频实现新视角图像合成。

    23、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。


    技术特征:

    1.一种图像处理方法,包括:

    2.根据权利要求1所述的图像处理方法,其中,确定包括在所述多个输入图像中的点云在规范空间下的规范属性信息的步骤包括:

    3.根据权利要求2所述的图像处理方法,其中,确定包括在所述多个输入图像中的点云在规范空间下的结构特征信息的步骤包括:基于每一个三维高斯点的所述位置信息,进行特征提取和特征融合来获得每一个三维高斯点的结构特征信息,以及

    4.根据权利要求3所述的图像处理方法,其中,基于每一个三维高斯点的所述位置信息,进行特征提取和特征融合来获得每一个三维高斯点的结构特征信息的步骤包括:

    5.根据权利要求3所述的图像处理方法,其中,通过使用所述变换网络,基于每一个三维高斯点的所述规范属性信息和所述结构特征信息进行特征解码以确定每一个三维高斯点的所述时域属性信息的步骤包括:

    6.根据权利要求1至5中任意一项所述的图像处理方法,其中,所述多个输入图像包括不同时间和/或不同位置捕捉的多个单目图像。

    7.一种图像处理模型的训练方法,包括:

    8.根据权利要求7所述的训练方法,其中,通过基于所述损失对所述图像处理模型的参数进行调整,对所述图像处理模型进行训练的步骤包括:

    9.一种图像处理装置,包括:

    10.一种图像处理模型的训练装置,包括:

    11.一种电子设备,包括:

    12.一种计算机可读存储介质,其中,当所述计算机可读存储介质中的指令被至少一个处理器运行时,促使所述至少一个处理器执行如权利要求1至8中任一项所述的方法。


    技术总结
    本公开提供了一种图像处理方法和装置以及图像处理模型的训练方法和装置。所述图像处理方法包括:获取多个输入图像;确定包括在所述多个输入图像中的点云在规范空间下的规范属性信息和结构特征信息;基于所述结构特征信息,通过使用变换网络将所述规范属性信息变换为所述点云在时域空间下的时域属性信息;基于所述时域属性信息获得所述多个输入图像的渲染图像。

    技术研发人员:戴玉超,惠乐,卢致澄,陈天睿,郭相,杨敏,唐晓
    受保护的技术使用者:三星(中国)半导体有限公司
    技术研发日:
    技术公布日:2024/4/29
    转载请注明原文地址:https://wp.8miu.com/read-90460.html

    最新回复(0)