本公开涉及自动驾驶领域、计算机视觉,本公开尤其涉及一种基于环视图像的深度信息获取方法、装置、电子设备、存储介质及计算机程序产品。
背景技术:
1、深度估计是自动驾驶和机器人系统感知中的一项基本且具有挑战性的任务。由于深度传感器的成本较高,因此出现了使用卷积神经网络(cnn)从图像推断深度图的研究。利用带注释的深度,我们可以训练回归cnn来预测单个图像上每个像素的深度值。
2、然而,由于缺乏用于监督学习的大规模精确密集的真实(ground truth)深度,因此,从立体帧对或单目视频中寻找监督信号的自监督方法开始兴起。这些方法将深度估计任务视为一种新颖的视图合成问题,并最大限度地减少图像重建损失。因为收集立体数据需要复杂的配置和数据处理,大多数方法专注于仅需要单目视频数据的自监督方法的研究。
3、对相关技术方案进行介绍:
4、技术方案1:论文《digging into self-supervised monocular depthestimation》做出了以下改进:1)提出了最小重投影损失,将多个源图像的重投影误差从取平均改为取最小,这种做法有效解决了只出现在部分源图像中的遮挡像素的遮挡问题;2)提出自动掩码固定像素方法,将前后帧中没有发生变化的像素用掩码进行遮挡避免参与损失计算。该掩码可以让网络忽略场景中与自车移动速度相同的物体,以及当自车停止运动时忽略整个帧,避免这些场景污染光度重投影损失。该方法提出的最小重投影损失简单且有效的解决了物体遮挡问题,在之后的各种方法中被广泛引用。但是缺乏对场景中动态物体的处理,只通过掩码忽略掉了与自车运动相对静止的物体。
5、技术方案2:论文《self-supervised object motion and depth estimationfrom video》主要对动态物体进行处理,方法步骤如下:1)引入实例分割网络,将2d图像的像素划分为静态背景像素和动态物体像素;2)引入新的物体运动估计网络对每个动态像素实例的运动进行预测;3)合成目标图像时将背景像素视为静态区域,物体像素视为动态区域,分别使用相机位姿和预测位姿进行合成。该方法通过物体位姿估计网络,很好地对场景中刚性物体的运动进行了建模,有效改进了自监督方法对图像动态区域的深度预测。然而该方法基于单目视频序列,难以处理在自车多个摄像头间运动的物体。并且原文中也没有解决运动物体带来的遮挡问题。
6、技术方案3:论文《bevscope:enhancing self-supervised depth estimationleveraging bird's-eye-view in dynamic scenarios》从单目设置扩展到环视设置进行深度估计,并主张利用bev特征所具有的几何结构线索来辅助增强图像的深度估计。核心思想是将环视图像特征与bev特征进行融合,然后通过自注意力操作让图像特征从bev特征中学习场景几何结构线索,最后从图像特征中解码得到预测的深度图。这篇论文首次将bev特征引入到深度估计中,但是论文的实验结果对比之前的方法提升有限,文章所提出的融合方法并不能很好的让图像特征学习到bev场景下几何结构线索。
7、技术方案4:论文《unsupervised learning of depth and ego-motion frommonocular video using 3d geometric constraints》,这篇文章的主要贡献是将3d点云信息纳入到深度估计当中,明确考虑了整个场景的推理的3d几何形状对深度估计的约束。从估计的深度得到3d点云后,通过icp算法对两个3d点云之间进行最佳匹配,然后计算3d点云一致性损失。3d几何结构信息的引入有效的提升了深度估计的准确度,但是点云匹配中使用的icp算法计算量大,难以从单目扩展到环视深度估计中。
8、结合相关技术来看,目前,基于光度重投影损失的自监督深度估计方法仍存在以下不足:
9、(1)对多摄像头信息的交叉利用:大多数方法(技术方案1、2、4)仍停留在单目深度估计上,而最近环视方法多数通过环视特征图之间的注意力交互以获取多视角之间的信息,也有将2d图像特征与bev特征进行注意力交互的方法(技术方案3),这些方法都利用注意力机制,计算量大。
10、(2)对场景中几何结构信息的利用:技术方案4首次将对3d结构预测的一致性引入到深度估计中,并取得了不错的效果。但是使用的方法计算量大,很难从单目扩展到环视。而技术方案3希望通过自注意力机制让图像特征从bev特征中学习场景几何信息,但是实验效果并不好。
11、(3)对动态物体的处理:单目设置下涌现出了许多对动态物体的处理方法,例如技术方案2通过位姿网络建模动态实例的运动。但是在环视设置下,对动态物体的处理仍是一片空白,如果直接将单目方法扩展到环视多目,会导致高计算量且难以处理在多相机视角间运动的物体。
技术实现思路
1、本公开提供了一种基于环视图像的深度信息获取方法、装置、电子设备、存储介质及计算机程序产品。
2、根据本公开的一个方面,提供了一种基于环视图像的深度信息获取方法,包括:
3、获取环视图像;
4、基于单目深度估计模型对所述环视图像进行单目深度估计,获取第一深度损失;
5、基于环视深度估计模型对所述环视图像进行环视深度估计,获取深度一致性损失;
6、根据所述第一深度损失和所述深度一致性损失获取总损失;
7、基于所述总损失对所述环视深度估计模型进行模型参数调整,获得调整后环视深度估计模型;
8、基于所述调整后环视深度估计模型获取所述环视图像的深度信息。
9、根据本公开的至少一个实施方式的基于环视图像的深度信息获取方法,获取环视图像,包括:
10、获取单目图像序列;
11、将各单目图像序列的同一帧时刻的单目图像的集合作为环视图像,获得环视图像序列。
12、根据本公开的至少一个实施方式的基于环视图像的深度信息获取方法,基于单目深度估计模型对环视图像进行单目深度估计,获取第一深度损失,包括:
13、基于单目视觉获取环视目标图像中单目目标图像的深度图,获取单目目标图像与单目源图像之间的相对位姿;
14、基于单目目标图像对应的所述深度图和所述相对位姿,从所述单目源图像采样像素重建所述单目目标图像,获取单目合成图像;
15、基于单目目标图像与该单目目标图像对应的单目合成图像之间的误差,获取所述第一深度损失。
16、根据本公开的至少一个实施方式的基于环视图像的深度信息获取方法,基于单目目标图像对应的所述深度图和所述相对位姿,从所述单目源图像采样像素重建所述单目目标图像,获取单目合成图像,包括:
17、获取单目目标图像对应的相机内参矩阵和单目目标图像的像素齐次坐标;
18、根据所述深度图、所述相对位姿、所述相机内参矩阵和所述像素齐次坐标获取像素投影坐标,所述像素投影坐标表征所述像素齐次坐标在单目源图像上的投影;
19、基于所述像素齐次坐标和所述像素投影坐标进行双线性插值计算,获取采样像素值;
20、根据所述采样像素值对所述单目目标图像进行重建,获取所述单目合成图像。
21、根据本公开的至少一个实施方式的基于环视图像的深度信息获取方法,所述单目目标图像与单目目标图像对应的单目合成图像之间的误差通过光度重投影损失进行衡量。
22、根据本公开的至少一个实施方式的基于环视图像的深度信息获取方法,基于单目目标图像与该单目目标图像对应的单目合成图像之间的误差,获取所述第一深度损失,包括:
23、基于不同的单目源图像重建所述单目目标图像,获得不同的单目合成图像;
24、基于所述单目目标图像与不同的单目合成图像之间的误差分别计算光度重投影损失,获得光度重投影损失集合;
25、获取所述光度重投影损失集合中的最小光度重投影损失作为所述第一深度损失。
26、根据本公开的至少一个实施方式的基于环视图像的深度信息获取方法,基于环视深度估计模型对所述环视图像进行环视深度估计,获取深度一致性损失,包括:
27、基于所述环视图像获取鸟瞰图视角特征;
28、对所述鸟瞰图视角特征进行特征识别,获取运动物体,对所述运动物体进行运动估计,获取物体运动信息;
29、基于所述物体运动信息、本车运动信息及所述鸟瞰图视角特征进行特征重建,获得合成鸟瞰图特征;
30、基于所述鸟瞰图视角特征与所述合成鸟瞰图特征之间的相似性,获得所述深度一致性损失。
31、根据本公开的至少一个实施方式的基于环视图像的深度信息获取方法,对所述鸟瞰图视角特征进行特征识别,获取运动物体,对所述运动物体进行运动估计,获取物体运动信息,包括:
32、基于环视目标图像的目标鸟瞰图视角特征获取目标运动物体,基于环视源图像的源鸟瞰图视角特征获取源运动物体;
33、对获取自环视目标图像的目标运动物体与获取自环视源图像的源运动物体进行匹配,获取相同运动物体;
34、基于所述相同运动物体获取所述物体运动信息。
35、根据本公开的至少一个实施方式的基于环视图像的深度信息获取方法,基于所述物体运动信息、本车运动信息及所述鸟瞰图视角特征进行特征重建,获得合成鸟瞰图特征,包括:
36、基于物体运动信息和本车运行信息对源bev特征和目标bev特征进行坐标对齐;
37、从坐标对齐后的所述源bev特征中进行像素采样,对坐标对齐后的目标bev特征进行特征重建,获得所述合成鸟瞰图特征。
38、根据本公开的至少一个实施方式的基于环视图像的深度信息获取方法,基于所述鸟瞰图视角特征与所述合成鸟瞰图特征之间的相似性,获得所述深度一致性损失,包括:
39、基于不同的环视源图像重建环视目标图像,获得不同的合成鸟瞰图特征;
40、基于所述环视目标图像的鸟瞰图视角特征与不同的合成鸟瞰图特征之间的误差分别计算bev特征一致性损失,获得bev特征一致性损失集合;
41、获取所述bev特征一致性损失集合中的最小bev特征一致性损失作为所述深度一致性损失。
42、根据本公开的另一个方面,提供一种电子设备,包括:存储器,所述存储器存储执行指令;以及处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行本公开任一个实施方式的基于环视图像的深度信息获取方法。
43、根据本公开的又一个方面,提供一种可读存储介质,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现本公开任一个实施方式的基于环视图像的深度信息获取方法。
44、根据本公开的再一个方面,提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现本公开任一个实施方式的基于环视图像的深度信息获取方法。
1.一种基于环视图像的深度信息获取方法,其特征在于,包括:
2.根据权利要求1所述的基于环视图像的深度信息获取方法,其特征在于,获取环视图像,包括:
3.根据权利要求1或2所述的基于环视图像的深度信息获取方法,其特征在于,基于单目深度估计模型对环视图像进行单目深度估计,获取第一深度损失,包括:
4.根据权利要求3所述的基于环视图像的深度信息获取方法,其特征在于,基于单目目标图像对应的所述深度图和所述相对位姿,从所述单目源图像采样像素重建所述单目目标图像,获取单目合成图像,包括:
5.根据权利要求3所述的基于环视图像的深度信息获取方法,其特征在于,所述单目目标图像与单目目标图像对应的单目合成图像之间的误差通过光度重投影损失进行衡量。
6.根据权利要求4所述的基于环视图像的深度信息获取方法,其特征在于,基于单目目标图像与该单目目标图像对应的单目合成图像之间的误差,获取所述第一深度损失,包括:
7.根据权利要求1所述的基于环视图像的深度信息获取方法,其特征在于,基于环视深度估计模型对所述环视图像进行环视深度估计,获取深度一致性损失,包括:
8.一种电子设备,其特征在于,包括:
9.一种可读存储介质,其特征在于,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现权利要求1至7中任一项所述的基于环视图像的深度信息获取方法。
10.一种计算机程序产品,其特征在于,包括计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现权利要求1至7中任一项所述的基于环视图像的深度信息获取方法。
