视频处理方法、装置、可读介质及电子设备与流程

    专利2022-07-07  101


    本公开涉及计算机领域,具体地,涉及一种视频处理方法、装置、可读介质及电子设备。



    背景技术:

    在现实场景中构建虚拟物体时,会存在由于光照而导致构建的虚拟物体真实度不够的问题,尤其是在连续的视频中的,由于光照可能会不断变化,更加会影响所构建的虚拟物体的真实度。



    技术实现要素:

    提供该发明内容部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。

    第一方面,本公开提供一种视频处理方法,所述方法包括:

    获取待处理视频;

    获取所述待处理视频中的多个目标视频帧分别投影得到的单帧全景图;

    根据所述多个目标视频帧分别对应的所述单帧全景图,通过预训练好的预测网络,确定所述目标全景图。

    第二方面,本公开提供一种视频处理装置,所述装置包括:

    第一获取模块,用于获取待处理视频;

    第二获取模块,用于获取所述待处理视频中的多个目标视频帧分别投影得到的单帧全景图;

    第一确定模块,用于根据所述多个目标视频帧分别对应的所述单帧全景图,通过预训练好的预测网络,确定所述目标全景图。

    第三方面,本公开提供一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现以上所述方法的步骤。

    第四方面,本公开提供一种电子设备,包括:

    存储装置,其上存储有计算机程序;

    处理装置,用于执行所述存储装置中的所述计算机程序,以实现以上所述方法的步骤。

    通过上述技术方案,能够通过该待处理视频中的多个视频帧分别投影得到的单帧全景图以及预训练好的预测网络来确定该待处理视频所对应的目标全景图,从而就能够使该目标全景图能够根据该视频中的场景中的更多特征来进行完善,确定得到与该视频对应的更加精确的目标全景图,进而也就能够提供与该视频对应的更加精确的环境光照,使得在该视频中所添加的虚拟物体或效果贴纸等虚拟对象的效果更加真实。

    本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

    附图说明

    结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。在附图中:

    图1是根据本公开一示例性实施例示出的一种视频处理方法的流程图。

    图2是根据本公开又一示例性实施例示出的一种视频处理方法的流程图。

    图3是根据本公开又一示例性实施例示出的一种视频处理方法的流程图。

    图4是根据本公开又一示例性实施例示出的一种视频处理方法的流程图。

    图5是根据本公开一示例性实施例示出的一种视频处理装置的结构框图。

    图6其示出了适于用来实现本公开实施例的电子设备的结构示意图。

    具体实施方式

    下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。

    应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

    本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

    需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

    需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。

    本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。

    图1是根据本公开一示例性实施例示出的一种视频处理方法的流程图。如图1所示,所述方法包括步骤101和步骤102。

    在步骤101中,获取待处理视频。

    在步骤102中,根据所述待处理视频中的多个目标视频帧确定所述待处理视频对应的目标全景图。

    该待处理视频可以为通过任意拍摄设备拍摄得到的一段完整的视频,也可以是用户使用任意拍摄设备正在拍摄中的视频。例如,用户可以对一段已经拍摄完成的视频进行该目标全景图的获取,也可以根据对正在拍摄中的一段视频实时地进行该目标全景图的获取。

    该待处理视频中的多个目标视频帧可以是在该待处理视频中的多个视频帧中随机选取的,也可以是根据固定周期,例如每秒视频中选取一帧的方式所确定得到的,本公开中对该多个目标视频帧的确定方法不进行限定。

    在获取到该目标全景图后,可以将该目标全景图作为该待处理视频中的环境光照,进而能够根据该环境光照来对需要在该待处理视频中添加的虚拟物体进行绘制,使得该虚拟物体在该待处理视频中的绘制效果能够更加逼真。

    例如,用户若需要在一段已经拍摄完成的视频中的某段时刻的某一位置添加一个虚拟物体,则可以将该段时刻所对应的视频作为该待处理视频,并在该待处理视频中确定多个目标视频帧,并分别根据该多个目标视频帧确定该待处理视频对应的目标全景图,也即该待处理视频中的环境光照,进而根据该环境光照对该虚拟物体进行绘制。

    再例如,用户还可以在一段正在拍摄的视频中实时添加虚拟物体或者效果贴纸等虚拟对象,此时可以将实时拍摄到的视频作为该待处理视频,也即,该待处理视频可以是实时更新的,从该待处理视频中确定的到的多个目标视频帧也是实时更新的,比如说用户当前拍摄了两秒视频,则可以将当前拍摄到的两秒视频作为该待处理视频,确定该两秒视频中的多个目标视频帧进而来获取该两秒视频对应的目标全景图,从而对这两秒视频中所要添加的虚拟物体或效果贴纸等虚拟对象进行绘制;随着用户拍摄视频的动作的持续,例如当前用户已经拍摄了三秒视频,则可以将当前拍摄到的三秒视频作为该待处理视频,并确定该三秒视频中的多个目标视频帧进而确定该三秒视频所对应的目标全景图等。其中,该正在拍摄的视频可是通过用户的移动终端拍摄的视频,也可以是例如ar(augmentedreality,增强现实)眼镜所实时获取到的周围环境的视频。

    图2是根据本公开又一示例性实施例示出的一种视频处理方法的流程图。如图2所示,所述方法包括步骤201和步骤202。

    在步骤201中,获取待处理视频中的多个目标视频帧分别投影得到的单帧全景图。

    在步骤202中,根据所述多个目标视频帧分别对应的所述单帧全景图,通过预训练好的预测网络,确定所述目标全景图。

    多个目标视频帧的投影方法可以为任意方法,只要能够将该多个目标视频帧中的每个目标视频帧都都投影到与其相对应的单帧全景图中即可,且与每个目标视频帧对应的该单帧全景图中仅包括与之对应的该目标视频帧中的图像特征,也即,在该目标视频帧投影到该单帧全景图中之前,该单帧全景图为空白全景图。

    该预测网络可以为u-net类型的神经网络。该预测网络的训练数据可以是通过在创建的三维虚拟场景中,根据设定的相机轨迹,分别渲染得到的全景图和相机拍摄的视频中的视频帧等虚拟数据。

    在分别得到每个目标视频帧分别对应的单帧全景图之后,将其输入与训练好的该预测网络中,从而便可以根据多个目标视频帧预测得到一张更加精准地目标全景图。

    通过上述技术方案,能够通过该待处理视频中的多个视频帧分别投影得到的单帧全景图以及预训练好的预测网络来确定该待处理视频所对应的目标全景图,从而就能够使该目标全景图能够根据该视频中的场景中的更多特征来进行完善,确定得到与该视频对应的更加精确的目标全景图,进而也就能够提供与该视频对应的更加精确的环境光照,使得在该视频中所添加的虚拟物体或效果贴纸等虚拟对象的效果更加真实。

    其中,通过多个目标视频帧分别对应的单帧全景图得到该目标全景图的方法可以是,分别将该目标视频帧分别对应的单帧全景图一一输入该预测网络中,然后分别得到通过每个目标视频帧投影得到的单帧全景图所预测得到的多个预测全景图,然后对该多个预测全景图进行融合以得到该目标全景图。或者还可以是如图3所示的方法。

    图3是根据本公开又一示例性实施例示出的一种视频处理方法的流程图。如图3所示,所述方法包括步骤301至步骤304。

    在步骤301中,按照多个目标视频帧在待处理视频中的先后顺序,分别将还未处理得到预测全景图的目标视频帧作为当前正在处理的目标视频帧。

    步骤302中,判断所述当前正在处理的目标视频帧是否为所述待处理视频中的首个目标视频帧,若是,则转至步骤303,若否,则转至步骤304。

    在步骤303中,将当前正在处理的目标视频帧投影得到的单帧全景图和预置全景图输入所述预测网络中,以得到与当前正在处理的目标视频帧对应的预测全景图。

    在步骤304中,将当前正在处理的目标视频帧投影得到的单帧全景图和当前正在处理的目标视频帧的上一个目标视频帧对应的预测全景图输入所述预测网络中,以得到与当前正在处理的目标视频帧对应的预测全景图。

    在步骤305中,判断待处理视频中是否还存在未处理得到预测全景图的目标视频帧,若是,则转至步骤301,若否,则转至步骤306。

    也即,在获取到多个目标视频帧分别投影得到的单帧全景图之后,会按照所述多个目标视频帧在所述待处理视频中的先后顺序,分别确定所述多个目标视频帧对应的预测全景图。

    并且,在当前正在处理的目标视频帧不为该待处理视频中的首帧目标视频帧的情况下,能够将当前正在处理的目标视频帧的上一个目标视频帧所对应的预测全景图,与当前正在处理的目标视频帧同时输入该预测网络中,以预测得到当前正在处理的目标视频帧所对应的预测全景图。这样,就能够使得预测当前正在处理的目标视频帧所对应的预测全景图时,还能够参考该待处理视频中的之前的目标视频帧所预测得到的预测全景图,使得根据当前正在处理的目标视频帧所预测得到的预测全景图的图像细节更加真实,丰富。

    在当前正在处理的目标视频帧为该待处理视频中的首帧目标视频帧的情况下,由于没有已经预测得到的预测全景图作为参考,因此,可以直接将空白全景图作为该预置全景图,与当前正在处理的目标视频帧投影得到的单帧全景图一同输入该预测网络中。或者,该预置全景图也可以为包括其他预置图像信息的全景图。在本公开中不对该预置全景图的图像内容进行限定。

    在一种可能的实施方式中,在该待处理视频为实时拍摄的视频的情况下,根据已经拍摄到的视频中确定得到的一个或多个目标视频帧,也可以作为对后来拍摄得到的视频进行处理时所确定的目标视频帧。例如,若用于在实时拍摄过程中需要在拍摄的视频画面中添加虚拟物体,则在用户开始对视频画面进行拍摄时起,拍摄到的视频都会被实时地作为该待处理视频,并确定其中的目标视频帧,例如在拍摄的前两秒视频中,选取了四帧视频帧作为该目标视频帧,则当视频拍摄到3秒时,对该时长3秒的待处理视频中的前两秒视频所确定的目标视频帧也可以为之前已经选取得到的四帧视频帧,此时只需要在新拍摄到的1秒视频中再确定一个或多个视频帧作为新增的目标视频帧即可。因此,在该待处理视频为实时拍摄过程中的视频的情况下,对于实时确定的待处理视频中的重复部分无需再进行重复处理,只需要在新拍摄得到的新的视频中确定新增的目标视频帧,并根据已经确定的目标视频帧和新增的目标视频帧,来对当前已经拍摄到的视频的目标全景图进行获取即可。这样就能够快速地对实时拍摄中的视频进行目标全景图的获取,在保证该目标全景图的真实和特征丰富程度的情况下提高视频的处理速度。

    在步骤306中,根据所述多个目标视频帧分别对应的所述预测全景图确定所述目标全景图。

    在确定了多个目标视频帧分别对应的预测全景图的情况下,可以选择多个预测全景图中,对应的目标视频帧在该待处理视频中处于最后的预测全景图作为该目标全景图。但该目标全景图的选取可以根据实际应用来确定,本公开对此不进行限定。

    图4是根据本公开又一示例性实施例示出的一种视频处理方法的流程图。如图4所示,所述方法包括步骤401至步骤406。

    在步骤401中,确定与所述多个目标视频帧分别对应的,用于拍摄所述待处理视频的相机的位姿信息。

    在步骤402中,分别确定所述多个目标视频帧的深度信息。

    也即,在获取该待处理视频时,还可以同时获取该待处理视频被拍摄时,拍摄设备也即相机的位姿信息。该位姿信息可以是通过例如imu(inertialmeasurementunit,惯性测量单元)直接获取得到的,也可以是通过例如独立的陀螺仪和加速度传感器等间接获取到的。本公开中对于该位姿信息的获取方法不做限定,只要是能够保证该位姿信息能够与该待处理视频中的多个目标视频帧分别对应即可,也即,至少每个目标视频帧被相机拍下时,该相机当时的位姿信息都可以被获取到。

    确定该多个目标视频帧的深度信息的可以为通过相关的几何关系计算得到的各个像素之间的相对深度,也可以是根据该位姿信息,通过slam(simultaneouslocalizationandmapping,同步定位与建图)方法获取到的各个目标视频帧中各个像素的真实深度。

    在步骤302中,判断当前正在处理的目标视频帧是否为待处理视频中的首个目标视频帧,若是,则转至步骤406,若否,则转至步骤403。

    在步骤403中,将当前正在处理的目标视频帧的上一个目标视频帧对应的预测全景图转换为高动态范围图像格式的预测全景图。

    由于常规相机拍摄的视频中的各个视频帧的图像格式通常为ldr(low-dynamicrange,低动态范围图像),因此,将当前正在处理的目标视频帧的上一个目标视频帧对应的预测全景图输入该预测网络中,以为当前正在处理的目标视频帧提供更多的目标全景图的图像特征之前,可以先将当前正在处理的目标视频帧的上一个目标视频帧对应的预测全景图转换为hdr(high-dynamicrange,高动态范围图像),以获得更多的图像细节。

    其中,步骤403中在执行之前,对当前正在处理的目标视频帧的上一个目标视频帧对应的预测全景图的图像格式不进行限制,也即,无论当前正在处理的目标视频帧的上一个目标视频帧对应的预测全景图是否为ldr图像格式,都可以进行转换。

    在步骤404中,根据当前正在处理的目标视频帧对应的相机的位姿信息和深度信息,对高动态范围图像格式的预测全景图进行转换,以使转换后的预测全景图所对应的相机的位姿信息与当前正在处理的目标视频帧对应的相机的位姿信息一致。

    由于该待处理视频在拍摄过程中,相机位置并不一定,例如,用户在用移动设备拍摄视频时,可以是一边移动一边拍摄,或者,用户在使用例如ar眼镜时,所在位置也可以随意移动,因此,通过该待处理视频中的各个目标视频帧所分别预测得到的预测全景图之间可能并不能对齐。为了提高该预测网络的精准度,在将当前正在处理的目标视频帧的上一个目标视频帧对应的预测全景图输入该预测网络中,以为当前正在处理的目标视频帧提供更多的目标全景图的图像特征之前,还可以根据该当前正在处理的目标视频帧对应的相机的位姿信息和深度信息,对当前正在处理的目标视频帧的上一个目标视频帧对应的预测全景图进行转换,使得转换后的预测全景图所对应的相机的位姿信息与当前正在处理的目标视频帧对应的相机的位姿信息一致。这样,就能够进一步提高根据该当前正在处理的目标视频帧预测得到的预测全景图的精度,提高该预测全景图的真实性。

    在步骤405中,将转换后的预测全景图和当前正在处理的目标视频帧投影得到的单帧全景图输入所述预测网络中,以得到与当前正在处理的目标视频帧对应的预测全景图。

    在一种可能的实施方式中,在将当前正在处理的目标视频帧的上一个目标视频帧对应的预测全景图输入预测网络中之前,可以如步骤403和步骤404,先将该预测全景图转换为hdr图像格式,然后根据当前正在处理的目标视频帧对应的相机的位姿信息和深度信息,对转换后的hdr图像格式的预测全景图进一步进行旋转、扭曲等转换,使得转换后的预测全景图所对应的相机的位姿信息与当前正在处理的目标视频帧对应的相机的位姿信息一致;另外,也可以仅仅只将该预测全景图转换为hdr图像格式,然后直接将所述高动态范围(hdr)图像格式的预测全景图和所述目标视频帧投影得到的单帧全景图输入所述预测网络中,以得到与所述目标视频帧对应的预测全景图;或者,还可以仅仅只根据所述目标视频帧对应的相机的所述位姿信息和所述深度信息,对当前正在处理的目标视频帧的上一个目标视频帧对应的预测全景图进行转换,以使转换后的预测全景图所对应的相机的位姿信息与所述目标视频帧对应的相机的所述位姿信息一致,然后直接将转换后的预测全景图和当前正在处理的目标视频帧投影得到的所述单帧全景图输入所述预测网络中,以得到与所述目标视频帧对应的预测全景图。

    在步骤406中,将当前正在处理的目标视频帧投影得到的单帧全景图转换为高动态范围图像格式的单帧全景图,并将高动态范围图像格式的单帧全景图确定为预置全景图。

    也即,在当前正在处理的目标视频帧为待处理视频中的首个目标视频帧的情况下,与当前正在处理的目标视频帧一同输入预测网络中的预置全景图,可以为转换为高动态范围(hdr)图像格式的当前正在处理的目标视频帧投影得到的单帧全景图。这样,也能够在一定程度上提高该预测网络预测得到的该预测全景图的精度。

    图5是根据本公开一示例性实施例示出的一种视频处理装置的结构框图。如图5所示,所述装置包括:第一获取模块10,用于获取待处理视频;第二获取模块20,用于获取所述待处理视频中的多个目标视频帧分别投影得到的单帧全景图;第一确定模块30,用于根据所述多个目标视频帧分别对应的所述单帧全景图,通过预训练好的预测网络,确定所述目标全景图。

    通过上述技术方案,能够通过该待处理视频中的多个视频帧分别投影得到的单帧全景图以及预训练好的预测网络来确定该待处理视频所对应的目标全景图,从而就能够使该目标全景图能够根据该视频中的场景中的更多特征来进行完善,确定得到与该视频对应的更加精确的目标全景图,进而也就能够提供与该视频对应的更加精确的环境光照,使得在该视频中所添加的虚拟物体或效果贴纸等虚拟对象的效果更加真实。

    在一种可能的实施方式中,所述第二获取模块20包括:第一确定子模块,用于按照所述多个目标视频帧在所述待处理视频中的先后顺序,分别确定所述多个目标视频帧对应的预测全景图,其中,在所述目标视频帧为所述待处理视频中的首个目标视频帧的情况下,将所述目标视频帧投影得到的单帧全景图和预置全景图输入所述预测网络中,以得到与所述目标视频帧对应的预测全景图;在所述目标视频帧不为所述待处理视频中的首个目标视频帧的情况下,将所述目标视频帧投影得到的单帧全景图和所述目标视频帧的上一个目标视频帧对应的预测全景图输入所述预测网络中,以得到与所述目标视频帧对应的预测全景图;第二确定子模块,用于根据所述多个目标视频帧分别对应的所述预测全景图确定所述目标全景图。

    在一种可能的实施方式中,所述第一确定子模块还用于:在所述目标视频帧不为所述待处理视频中的首个目标视频帧的情况下,将所述目标视频帧的上一个目标视频帧对应的预测全景图转换为高动态范围图像格式的预测全景图;将所述高动态范围图像格式的预测全景图和所述目标视频帧投影得到的单帧全景图输入所述预测网络中,以得到与所述目标视频帧对应的预测全景图。

    在一种可能的实施方式中,所述装置还包括:第二确定模块,用于确定与所述多个目标视频帧分别对应的,用于拍摄所述待处理视频的相机的位姿信息;第三确定模块,用于分别确定所述多个目标视频帧的深度信息;所述第一确定子模块还用于:在所述目标视频帧不为所述待处理视频中的首个目标视频帧的情况下,根据所述目标视频帧对应的相机的所述位姿信息和所述深度信息,对所述目标视频帧的上一个目标视频帧对应的预测全景图进行转换,以使转换后的预测全景图所对应的相机的位姿信息与所述目标视频帧对应的相机的所述位姿信息一致;将转换后的预测全景图和所述目标视频帧投影得到的所述单帧全景图输入所述预测网络中,以得到与所述目标视频帧对应的预测全景图。

    在一种可能的实施方式中,所述第一确定子模块还用于:在所述目标视频帧不为所述待处理视频中的首个目标视频帧的情况下,将所述目标视频帧的上一个目标视频帧对应的预测全景图转换为高动态范围图像格式的预测全景图;根据所述目标视频帧对应的相机的所述位姿信息和所述深度信息,对所述高动态范围图像格式的预测全景图进行转换,以使转换后的预测全景图所对应的相机的位姿信息与所述目标视频帧对应的相机的所述位姿信息一致。

    在一种可能的实施方式中,所述第一确定子模块还用于:在所述目标视频帧为所述待处理视频中的首个目标视频帧的情况下,将所述目标视频帧投影得到的单帧全景图转换为高动态范围图像格式的单帧全景图,并将所述高动态范围图像格式的单帧全景图确定为所述预置全景图。

    下面参考图6,其示出了适于用来实现本公开实施例的电子设备600的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、pda(个人数字助理)、pad(平板电脑)、pmp(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字tv、台式计算机等等的固定终端。图6示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。

    如图6所示,电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601,其可以根据存储在只读存储器(rom)602中的程序或者从存储装置608加载到随机访问存储器(ram)603中的程序而执行各种适当的动作和处理。在ram603中,还存储有电子设备600操作所需的各种程序和数据。处理装置601、rom602以及ram603通过总线604彼此相连。输入/输出(i/o)接口605也连接至总线604。

    通常,以下装置可以连接至i/o接口605:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606;包括例如液晶显示器(lcd)、扬声器、振动器等的输出装置607;包括例如磁带、硬盘等的存储装置608;以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备600,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

    特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置609从网络上被下载和安装,或者从存储装置608被安装,或者从rom602被安装。在该计算机程序被处理装置601执行时,执行本公开实施例的方法中限定的上述功能。

    需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、rf(射频)等等,或者上述的任意合适的组合。

    在一些实施方式中,客户端、服务器可以利用诸如http(hypertexttransferprotocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“lan”),广域网(“wan”),网际网(例如,互联网)以及端对端网络(例如,adhoc端对端网络),以及任何当前已知或未来研发的网络。

    上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。

    上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取待处理视频;根据所述待处理视频中的多个目标视频帧确定所述待处理视频对应的目标全景图。

    可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如java、smalltalk、c ,还包括常规的过程式程序设计语言——诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

    附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

    描述于本公开实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块的名称在某种情况下并不构成对该模块本身的限定,例如,获取模块还可以被描述为“获取待处理视频的模块”。

    本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、片上系统(soc)、复杂可编程逻辑设备(cpld)等等。

    在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

    根据本公开的一个或多个实施例,示例1提供了一种视频处理方法,所述方法包括:

    获取待处理视频;

    获取所述待处理视频中的多个目标视频帧分别投影得到的单帧全景图;

    根据所述多个目标视频帧分别对应的所述单帧全景图,通过预训练好的预测网络,确定所述目标全景图。

    根据本公开的一个或多个实施例,示例2提供了示例1的方法,所述根据所述多个目标视频帧分别对应的所述单帧全景图,通过预训练好的预测网络,确定所述目标全景图包括:

    按照所述多个目标视频帧在所述待处理视频中的先后顺序,分别确定所述多个目标视频帧对应的预测全景图,其中,

    在所述目标视频帧为所述待处理视频中的首个目标视频帧的情况下,将所述目标视频帧投影得到的单帧全景图和预置全景图输入所述预测网络中,以得到与所述目标视频帧对应的预测全景图;

    在所述目标视频帧不为所述待处理视频中的首个目标视频帧的情况下,将所述目标视频帧投影得到的单帧全景图和所述目标视频帧的上一个目标视频帧对应的预测全景图输入所述预测网络中,以得到与所述目标视频帧对应的预测全景图;

    根据所述多个目标视频帧分别对应的所述预测全景图确定所述目标全景图。

    根据本公开的一个或多个实施例,示例3提供了示例2的方法,所述在所述目标视频帧不为所述待处理视频中的首个目标视频帧的情况下,将所述目标视频帧投影得到的单帧全景图和所述目标视频帧的上一个目标视频帧对应的预测全景图输入所述预测网络中,以得到与所述目标视频帧对应的预测全景图包括:

    在所述目标视频帧不为所述待处理视频中的首个目标视频帧的情况下,将所述目标视频帧的上一个目标视频帧对应的预测全景图转换为高动态范围图像格式的预测全景图;

    将所述高动态范围图像格式的预测全景图和所述目标视频帧投影得到的单帧全景图输入所述预测网络中,以得到与所述目标视频帧对应的预测全景图。

    根据本公开的一个或多个实施例,示例4提供了示例2的方法,所述方法还包括:

    确定与所述多个目标视频帧分别对应的,用于拍摄所述待处理视频的相机的位姿信息;

    分别确定所述多个目标视频帧的深度信息;

    所述在所述目标视频帧不为所述待处理视频中的首个目标视频帧的情况下,将所述目标视频帧投影得到的单帧全景图和所述目标视频帧的上一个目标视频帧对应的预测全景图输入所述预测网络中,以得到与所述目标视频帧对应的预测全景图包括:

    在所述目标视频帧不为所述待处理视频中的首个目标视频帧的情况下,根据所述目标视频帧对应的相机的所述位姿信息和所述深度信息,对所述目标视频帧的上一个目标视频帧对应的预测全景图进行转换,以使转换后的预测全景图所对应的相机的位姿信息与所述目标视频帧对应的相机的所述位姿信息一致;

    将转换后的预测全景图和所述目标视频帧投影得到的所述单帧全景图输入所述预测网络中,以得到与所述目标视频帧对应的预测全景图。

    根据本公开的一个或多个实施例,示例5提供了示例4的方法,所述在所述目标视频帧不为所述待处理视频中的首个目标视频帧的情况下,根据所述目标视频帧对应的相机的所述位姿信息和所述深度信息,对所述目标视频帧的上一个目标视频帧对应的预测全景图进行转换,以使转换后的预测全景图所对应的相机的位姿信息与所述目标视频帧对应的相机的所述位姿信息一致包括:

    在所述目标视频帧不为所述待处理视频中的首个目标视频帧的情况下,将所述目标视频帧的上一个目标视频帧对应的预测全景图转换为高动态范围图像格式的预测全景图;

    根据所述目标视频帧对应的相机的所述位姿信息和所述深度信息,对所述高动态范围图像格式的预测全景图进行转换,以使转换后的预测全景图所对应的相机的位姿信息与所述目标视频帧对应的相机的所述位姿信息一致。

    根据本公开的一个或多个实施例,示例6提供了示例2-5中任一示例的方法,所述在所述目标视频帧为所述待处理视频中的首个目标视频帧的情况下,将所述目标视频帧投影得到的单帧全景图和预置全景图输入所述预测网络中,以得到与所述目标视频帧对应的预测全景图包括:

    在所述目标视频帧为所述待处理视频中的首个目标视频帧的情况下,将所述目标视频帧投影得到的单帧全景图转换为高动态范围图像格式的单帧全景图,并将所述高动态范围图像格式的单帧全景图确定为所述预置全景图。

    根据本公开的一个或多个实施例,示例7提供了一种视频处理装置,所述装置包括:

    第一获取模块,用于获取待处理视频;

    第二获取模块,用于获取所述待处理视频中的多个目标视频帧分别投影得到的单帧全景图;

    第一确定模块,用于根据所述多个目标视频帧分别对应的所述单帧全景图,通过预训练好的预测网络,确定所述目标全景图。

    根据本公开的一个或多个实施例,示例8提供了示例7的装置,所述第二获取模块包括:

    第一确定子模块,用于按照所述多个目标视频帧在所述待处理视频中的先后顺序,分别确定所述多个目标视频帧对应的预测全景图,其中,

    在所述目标视频帧为所述待处理视频中的首个目标视频帧的情况下,将所述目标视频帧投影得到的单帧全景图和预置全景图输入所述预测网络中,以得到与所述目标视频帧对应的预测全景图;

    在所述目标视频帧不为所述待处理视频中的首个目标视频帧的情况下,将所述目标视频帧投影得到的单帧全景图和所述目标视频帧的上一个目标视频帧对应的预测全景图输入所述预测网络中,以得到与所述目标视频帧对应的预测全景图;

    第二确定子模块,用于根据所述多个目标视频帧分别对应的所述预测全景图确定所述目标全景图。

    根据本公开的一个或多个实施例,示例9提供了一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理装置执行时实现示例1-6中任一项所述方法的步骤。

    根据本公开的一个或多个实施例,示例10提供了一种电子设备,其特征在于,包括:

    存储装置,其上存储有计算机程序;

    处理装置,用于执行所述存储装置中的所述计算机程序,以实现示例1-6中任一项所述方法的步骤。

    以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

    此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

    尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。


    技术特征:

    1.一种视频处理方法,其特征在于,所述方法包括:

    获取待处理视频;

    获取所述待处理视频中的多个目标视频帧分别投影得到的单帧全景图;

    根据所述多个目标视频帧分别对应的所述单帧全景图,通过预训练好的预测网络,确定所述目标全景图。

    2.根据权利要求1所述的方法,其特征在于,所述根据所述多个目标视频帧分别对应的所述单帧全景图,通过预训练好的预测网络,确定所述目标全景图包括:

    按照所述多个目标视频帧在所述待处理视频中的先后顺序,分别确定所述多个目标视频帧对应的预测全景图,其中,

    在所述目标视频帧为所述待处理视频中的首个目标视频帧的情况下,将所述目标视频帧投影得到的单帧全景图和预置全景图输入所述预测网络中,以得到与所述目标视频帧对应的预测全景图;

    在所述目标视频帧不为所述待处理视频中的首个目标视频帧的情况下,将所述目标视频帧投影得到的单帧全景图和所述目标视频帧的上一个目标视频帧对应的预测全景图输入所述预测网络中,以得到与所述目标视频帧对应的预测全景图;

    根据所述多个目标视频帧分别对应的所述预测全景图确定所述目标全景图。

    3.根据权利要求2所述的方法,其特征在于,所述在所述目标视频帧不为所述待处理视频中的首个目标视频帧的情况下,将所述目标视频帧投影得到的单帧全景图和所述目标视频帧的上一个目标视频帧对应的预测全景图输入所述预测网络中,以得到与所述目标视频帧对应的预测全景图包括:

    在所述目标视频帧不为所述待处理视频中的首个目标视频帧的情况下,将所述目标视频帧的上一个目标视频帧对应的预测全景图转换为高动态范围图像格式的预测全景图;

    将所述高动态范围图像格式的预测全景图和所述目标视频帧投影得到的单帧全景图输入所述预测网络中,以得到与所述目标视频帧对应的预测全景图。

    4.根据权利要求2所述的方法,其特征在于,所述方法还包括:

    确定与所述多个目标视频帧分别对应的,用于拍摄所述待处理视频的相机的位姿信息;

    分别确定所述多个目标视频帧的深度信息;

    所述在所述目标视频帧不为所述待处理视频中的首个目标视频帧的情况下,将所述目标视频帧投影得到的单帧全景图和所述目标视频帧的上一个目标视频帧对应的预测全景图输入所述预测网络中,以得到与所述目标视频帧对应的预测全景图包括:

    在所述目标视频帧不为所述待处理视频中的首个目标视频帧的情况下,根据所述目标视频帧对应的相机的所述位姿信息和所述深度信息,对所述目标视频帧的上一个目标视频帧对应的预测全景图进行转换,以使转换后的预测全景图所对应的相机的位姿信息与所述目标视频帧对应的相机的所述位姿信息一致;

    将转换后的预测全景图和所述目标视频帧投影得到的所述单帧全景图输入所述预测网络中,以得到与所述目标视频帧对应的预测全景图。

    5.根据权利要求4所述的方法,其特征在于,所述在所述目标视频帧不为所述待处理视频中的首个目标视频帧的情况下,根据所述目标视频帧对应的相机的所述位姿信息和所述深度信息,对所述目标视频帧的上一个目标视频帧对应的预测全景图进行转换,以使转换后的预测全景图所对应的相机的位姿信息与所述目标视频帧对应的相机的所述位姿信息一致包括:

    在所述目标视频帧不为所述待处理视频中的首个目标视频帧的情况下,将所述目标视频帧的上一个目标视频帧对应的预测全景图转换为高动态范围图像格式的预测全景图;

    根据所述目标视频帧对应的相机的所述位姿信息和所述深度信息,对所述高动态范围图像格式的预测全景图进行转换,以使转换后的预测全景图所对应的相机的位姿信息与所述目标视频帧对应的相机的所述位姿信息一致。

    6.根据权利要求2-5中任一权利要求所述的方法,其特征在于,所述在所述目标视频帧为所述待处理视频中的首个目标视频帧的情况下,将所述目标视频帧投影得到的单帧全景图和预置全景图输入所述预测网络中,以得到与所述目标视频帧对应的预测全景图包括:

    在所述目标视频帧为所述待处理视频中的首个目标视频帧的情况下,将所述目标视频帧投影得到的单帧全景图转换为高动态范围图像格式的单帧全景图,并将所述高动态范围图像格式的单帧全景图确定为所述预置全景图。

    7.一种视频处理装置,其特征在于,所述装置包括:

    第一获取模块,用于获取待处理视频;

    第二获取模块,用于获取所述待处理视频中的多个目标视频帧分别投影得到的单帧全景图;

    第一确定模块,用于根据所述多个目标视频帧分别对应的所述单帧全景图,通过预训练好的预测网络,确定所述目标全景图。

    8.根据权利要求7所述的装置,其特征在于,所述第二获取模块20包括:

    第一确定子模块,用于按照所述多个目标视频帧在所述待处理视频中的先后顺序,分别确定所述多个目标视频帧对应的预测全景图,其中,

    在所述目标视频帧为所述待处理视频中的首个目标视频帧的情况下,将所述目标视频帧投影得到的单帧全景图和预置全景图输入所述预测网络中,以得到与所述目标视频帧对应的预测全景图;

    在所述目标视频帧不为所述待处理视频中的首个目标视频帧的情况下,将所述目标视频帧投影得到的单帧全景图和所述目标视频帧的上一个目标视频帧对应的预测全景图输入所述预测网络中,以得到与所述目标视频帧对应的预测全景图;

    第二确定子模块,用于根据所述多个目标视频帧分别对应的所述预测全景图确定所述目标全景图。

    9.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理装置执行时实现权利要求1-6中任一项所述方法的步骤。

    10.一种电子设备,其特征在于,包括:

    存储装置,其上存储有计算机程序;

    处理装置,用于执行所述存储装置中的所述计算机程序,以实现权利要求1-6中任一项所述方法的步骤。

    技术总结
    本公开涉及一种视频处理方法、装置、可读介质及电子设备,包括:获取待处理视频;获取待处理视频中的多个目标视频帧分别投影得到的单帧全景图;根据多个目标视频帧分别对应的单帧全景图,通过预训练好的预测网络,确定目标全景图。通过上述技术方案,能够通过该待处理视频中的多个视频帧分别投影得到的单帧全景图以及预训练好的预测网络来确定该待处理视频所对应的目标全景图,从而就能够使该目标全景图能够根据该视频中的场景中的更多特征来进行完善,确定得到与该视频对应的更加精确的目标全景图,进而也就能够提供与该视频对应的更加精确的环境光照,使得在该视频中所添加的虚拟物体或效果贴纸等虚拟对象的效果更加真实。

    技术研发人员:王光伟
    受保护的技术使用者:北京字跳网络技术有限公司
    技术研发日:2020.11.26
    技术公布日:2021.03.12

    转载请注明原文地址:https://wp.8miu.com/read-6784.html

    最新回复(0)