一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

估计物体姿态的方法和装置、电子设备与流程

2022-07-10 15:03:24 来源:中国专利 TAG:


1.本技术总体说来涉及增强显示技术领域,更具体地讲,涉及基于单阶段深度神经网络估计物体的姿态的方法和装置、电子设备。


背景技术:

2.增强现实技术通过在用户面前的现实场景中添加虚拟内容来为用户提供真实的信息体验。在三维(3d)空间中,增强现实技术需要对周围物体的3d状态具有高精度的实时处理和理解,以在用户面前呈现出高质量的虚实融合效果。
3.为了更准确地构建3d空间中的物体实例,需要准确且实时地估计物体实例的6自由度姿态和尺寸,现有技术中提出了诸多估计方法,例如早期提出的基于rgb-d(rgb-depth)图像的未知物体6自由度姿态和尺寸估计方法,该方法通过基于mask r-cnn(region-cnn)框架的深度网络模型的输出以及深度图像,利用姿态拟合方法估算对象的6自由度姿态和尺寸,但是,该方法利用二阶段网络结构来预测对象级的标准化物体坐标空间(normalized object coordinate space(nocs))图,因此执行速度较慢进而难以满足实时需求。另外,该方法依赖于rgb-d图像输入,在深度数据缺失或者存在噪声时无法估计出物体实例的姿态和尺寸。为了满足实时需求,现有技术提出了另一种能够在移动设备上实时运行的未知物体的6自由度姿态估计方法,该方法采用了对移动设备友好的两个深度网络模型,然而,该方法由于设计原理而只使用单帧rgb图像,无法估计未知物体的尺寸,只能估计出尺度意义下的物体姿态。另外,现有技术提出了一种能够解决实例级的物体姿态估计问题的方法,但是该方法要求物体已知无纹理cad模型,且该方法依赖于2d检测模型结果,无法满足增强现实技术应用中实时性的需求。
4.因此,需要一种能够准确且实时地估计未知物体的姿态的方法和装置。


技术实现要素:

5.为了至少解决现有技术中存在的上述问题,本发明提供了一种基于单阶段深度神经网络估计物体姿态的方法和装置、电子设备。
6.本发明的一方面在于提供一种估计物体姿态的方法,包括:通过利用单阶段深度神经网络对输入的单帧图像进行处理来获得实例分割图像和标准化物体坐标空间nocs图;根据nocs图和实例分割图像来获得2d-3d映射关系;根据所述2d-3d映射关系来确定所述单帧图像中的物体实例的姿态。
7.所述方法还可包括:利用单阶段深度神经网络对所述单帧图像进行处理来获得像素坐标误差图,其中,获得2d-3d映射关系的步骤包括:通过利用nocs图和实例分割图像来获得在所述单帧图像中的所述物体实例内部的像素点和所述像素点的nocs点以建立所述物体实例的初步2d-3d映射关系;以及利用像素坐标误差图去除所述初步2d-3d映射关系中的异常2d-3d映射来获得所述2d-3d映射关系。
8.像素坐标误差图中的每个误差值可表示针对所述单帧图像中的每个像素点预测
的nocs坐标值与真实的nocs坐标值之间的差异。
9.利用像素坐标误差图去除所述初步2d-3d映射关系中的异常2d-3d映射来获得所述2d-3d映射关系的步骤可包括:确定像素坐标误差图中比预定阈值大的误差值;从所述初步2d-3d映射关系中去除对应于与比所述预定阈值大的误差值相应的nocs点的2d-3d映射以获得所述2d-3d映射关系。
10.利用单阶段深度神经网络对输入的单帧图像进行处理的步骤可包括:利用单阶段深度神经网络中的特征提取模块对所述单帧图像进行特征提取处理来获得多个尺度下的图像特征。
11.获得nocs图的步骤可包括:通过利用单阶段深度神经网络中的多级特征融合模块对所述多个尺度下的图像特征进行融合处理来获得单个尺度下的图像特征;通过利用单阶段深度神经网络中的第一卷积模块对所述单个尺度下的图像特征进行卷积处理来获得nocs图。
12.利用单阶段深度神经网络对所述单帧图像进行处理来获得像素坐标误差图的步骤可包括:通过利用所述第一卷积模块对所述单个尺度下的图像特征进行卷积处理来获得像素坐标误差图。
13.获得实例分割图像的步骤可包括:通过利用单阶段深度神经网络中的第二卷积模块对所述单个尺度下的图像特征进行卷积处理来获得掩膜特征图像;通过利用单阶段深度神经网络中的第三卷积模块分别对所述多个尺度下的图像特征中的每个尺度的图像特征进行对应的卷积处理来获得每个尺度下的物体类别图像和掩膜卷积权重;通过对掩膜特征图像和多个尺度下的掩膜卷积权重进行卷积处理来获得多个尺度下的实例掩膜图像;通过利用所述多个尺度下的实例掩膜图像和多个尺度下的物体类别图像来获得实例分割图像。
14.根据所述2d-3d映射关系来确定所述单帧图像中的物体实例的姿态的步骤可包括:如果存在与所述单帧图像对应的深度图像,则根据所述2d-3d映射关系和所述深度图像来确定3d-3d映射关系,并通过利用所述3d-3d映射关系来确定所述物体实例的姿态和尺寸。
15.根据所述2d-3d映射关系和所述深度图像来确定3d-3d映射关系的步骤可包括:通过利用所述深度图像进行2d到3d投影来获得每个像素点的3d空间坐标;根据获得的每个像素点的3d空间坐标将所述2d-3d映射关系转换为所述3d-3d映射关系。
16.根据所述2d-3d映射关系来确定所述单帧图像中的物体实例的姿态的步骤可包括:如果不存在与所述单帧图像对应的深度图像,则通过利用所述2d-3d映射关系确定相机坐标系和物体坐标系之间的3d旋转和3d平移变换,以确定所述物体实例在特定尺寸下的姿态。
17.本发明的另一方面提供了一种估计物体姿态的方法,所述方法包括:获得单帧图像的实例分割图像、标准化物体坐标空间nocs图和像素坐标误差图;根据实例分割图像、nocs图和像素坐标误差图来获得去除了异常2d-3d映射的2d-3d映射关系;根据所述2d-3d映射关系来确定所述单帧图像中的物体实例的姿态。
18.本发明的另一方面提供了一种估计物体姿态的方法,所述方法可包括:通过利用深度神经网络获得多帧图像中的每一帧图像的实例分割图像和2d-3d映射关系;计算所述多帧图像中的两帧图像之间的相机运动参数;根据与所述两帧图像对应的相机运动参数、
实例分割图像和2d-3d映射关系来确定所述两帧图像中同一物体实例的3d-3d映射关系;通过利用所述3d-3d映射关系来确定所述同一物体实例的姿态和尺寸。
19.通过利用深度神经网络获得每一帧图像的实例分割图像和2d-3d映射关系的步骤可包括:通过利用单阶段深度神经网络对所述每一帧图像进行处理来获得所述每一帧图像的实例分割图像和标准化物体坐标空间nocs图;根据所述每一帧图像的nocs图和和实例分割图像获得所述每一帧图像的所述2d-3d映射关系。
20.所述方法还可包括:利用单阶段深度神经网络对所述每一帧图像进行处理来获得像素坐标误差图,其中,获得所述每一帧图像的所述2d-3d映射关系的步骤包括:通过利用nocs图和实例分割图像来获得在所述每一帧图像中的所述物体实例内部的像素点和所述像素点的nocs点以建立所述物体实例的初步2d-3d映射关系;以及利用像素坐标误差图去除所述初步2d-3d映射关系中的异常2d-3d映射来获得所述2d-3d映射关系。
21.计算所述多帧图像中的两帧图像之间的相机运动参数的步骤可包括:根据所述多帧图像来确定相机运动信息;根据所述相机运动信息计算所述多帧图像中的所述两帧图像之间的相机运动参数。
22.根据与所述两帧图像对应的相机运动参数、实例分割图像和2d-3d映射关系来确定所述两帧图像中同一物体实例的3d-3d映射关系的步骤可包括:根据实例分割图像和2d-3d映射关系来确定所述两帧图像中属于所述同一物体实例的像素点之间的对应关系;利用所述对应关系以及所述相机运动参数来计算属于所述同一物体实例的像素点在现实场景中的深度从而获取3d坐标;根据属于所述同一物体实例的像素点在现实场景中的3d坐标以及所述2d-3d映射关系建立3d-3d映射关系。
23.本发明的另一方面提供了一种估计物体姿态的装置,所述装置可包括:图像处理单元,被配置为通过利用单阶段深度神经网络对输入的单帧图像进行处理来获得实例分割图像和标准化物体坐标空间nocs图;映射关系确定单元,被配置为根据nocs图和实例分割图像来获得2d-3d映射关系;以及姿态确定单元,被配置为根据所述2d-3d映射关系来确定所述单帧图像中的物体实例的姿态。
24.图像处理单元还可被配置为利用单阶段深度神经网络对所述单帧图像进行处理来获得像素坐标误差图,其中,映射关系确定单元还被配置为:通过利用nocs图和实例分割图像来获得在所述单帧图像中的所述物体实例内部的像素点和所述像素点的nocs点以建立所述物体实例的初步2d-3d映射关系;以及利用像素坐标误差图去除所述初步2d-3d映射关系中的异常2d-3d映射来获得所述2d-3d映射关系。
25.像素坐标误差图中的每个误差值可表示针对所述单帧图像中的每个像素点预测的nocs坐标值与真实的nocs坐标值之间的差异。
26.映射关系确定单元可被配置为通过以下操作获得去除异常2d-3d映射来获得所述2d-3d映射关系:确定像素坐标误差图中比预定阈值大的误差值;从所述初步2d-3d映射关系中去除对应于与比所述预定阈值大的误差值相应的nocs点的2d-3d映射以获得所述2d-3d映射关系。
27.图像处理单元可被配置为通过利用单阶段深度神经网络中的特征提取模块对所述单帧图像进行特征提取处理来获得多个尺度下的图像特征。
28.图像处理单元可被配置为通过以下操作来获得nocs图:通过利用单阶段深度神经
网络中的多级特征融合模块对所述多个尺度下的图像特征进行融合处理来获得单个尺度下的图像特征;通过利用单阶段深度神经网络中的第一卷积模块对所述单个尺度下的图像特征进行卷积处理来获得nocs图。
29.图像处理单元可被配置为通过利用所述第一卷积模块对所述单个尺度下的图像特征进行卷积处理来获得像素坐标误差图。
30.图像处理单元可被配置为通过以下操作来获得实例分割图像:通过利用单阶段深度神经网络中的第二卷积模块对所述单个尺度下的图像特征进行卷积处理来获得掩膜特征图像;通过利用单阶段深度神经网络中的第三卷积模块分别对所述多个尺度下的图像特征中的每个尺度的图像特征进行对应的卷积处理来获得每个尺度下的物体类别图像和掩膜卷积权重;通过对掩膜特征图像和多个尺度下的掩膜卷积权重进行卷积处理来获得多个尺度下的实例掩膜图像;通过利用所述多个尺度下的实例掩膜图像和多个尺度下的物体类别图像来获得实例分割图像。
31.姿态确定单元可被配置为通过以下操作来确定所述单帧图像中的物体实例的姿态:如果存在与所述单帧图像对应的深度图像,则根据所述2d-3d映射关系和所述深度图像来确定3d-3d映射关系,并通过利用所述3d-3d映射关系来确定所述物体实例的姿态和尺寸。
32.姿态确定单元可被配置为通过以下操作来确定3d-3d映射关系:通过利用所述深度图像进行2d到3d投影来获得每个像素点的3d空间坐标;根据获得的每个像素点的3d空间坐标将所述2d-3d映射关系转换为所述3d-3d映射关系。
33.姿态确定单元可被配置为通过以下操作来确定所述单帧图像中的物体实例的姿态:如果不存在与所述单帧图像对应的深度图像,则通过利用所述2d-3d映射关系确定相机坐标系和物体坐标系之间的3d旋转和3d平移变换,以确定所述物体实例在特定尺寸下的姿态。
34.本发明的另一方面提供了一种估计物体姿态的装置,所述装置可包括:图像处理单元,被配置为获得单帧图像的实例分割图像、标准化物体坐标空间nocs图和像素坐标误差图;映射关系确定单元,被配置为根据实例分割图像、nocs图和像素坐标误差图来获得去除了异常2d-3d映射的2d-3d映射关系;姿态确定单元,被配置为根据所述2d-3d映射关系来确定所述单帧图像中的物体实例的姿态。
35.本发明的另一方面提供了一种估计物体姿态的装置,所述装置可包括:图像处理和映射单元,被配置为通过利用深度神经网络获得多帧图像中的每一帧图像的实例分割图像和2d-3d映射关系;相机运动确定单元,被配置为计算所述多帧图像中的两帧图像之间的相机运动参数;对应关系建立单元,被配置为根据与所述两帧图像对应的相机运动参数、实例分割图像和2d-3d映射关系来建立所述两帧图像中同一物体实例的3d-3d映射关系;姿态确定单元,被配置为通过利用所述3d-3d映射关系来确定所述同一物体实例的姿态和尺寸。
36.图像处理和映射单元可包括:图像处理单元,被配置为通过利用单阶段深度神经网络对所述每一帧图像进行处理来获得所述每一帧图像的实例分割图像和标准化物体坐标空间nocs图;映射关系确定单元,被配置为根据所述每一帧图像的nocs图和和实例分割图像获得所述每一帧图像的所述2d-3d映射关系。
37.图像处理单元还可被配置为利用单阶段深度神经网络对所述每一帧图像进行处
理来获得像素坐标误差图,其中,映射关系确定单元被配置为通过利用nocs图和实例分割图像来获得在所述每一帧图像中的所述物体实例内部的像素点和所述像素点的nocs点以建立所述物体实例的初步2d-3d映射关系;以及利用像素坐标误差图去除所述初步2d-3d映射关系中的异常2d-3d映射来获得所述2d-3d映射关系。
38.相机运动确定单元可被配置为通过以下操作计算所述多帧图像中的两帧图像之间的相机运动参数:根据所述多帧图像来确定相机运动信息;根据所述相机运动信息计算所述多帧图像中的所述两帧图像之间的相机运动参数。
39.对应关系建立单元可被配置为通过以下操作来建立所述3d-3d映射关系:根据实例分割图像和2d-3d映射关系来确定所述两帧图像中属于所述同一物体实例的像素点之间的对应关系;利用所述对应关系以及所述相机运动参数来计算属于所述同一物体实例的像素点在现实场景中的深度从而获取3d坐标;根据属于所述同一物体实例的像素点在现实场景中的3d坐标以及所述2d-3d映射关系建立3d-3d映射关系。
40.本发明的一方面在于提供一种存储有程序的计算机可读存储介质,所述程序在被处理器执行时实现以上所述的方法。
41.本发明的一方面在于提供一种包括存储有计算机程序的可读介质的计算机,所述计算机程序在被计算机执行时实现以上所述的方法。
42.本发明的一方面在于提供一种电子设备,所述电子设备可包括存储器和处理器;所述存储器中存储有计算机程序;所述处理器,用于在运行所述计算机程序时执行以上所述的方法。
43.本发明通过在单阶段深度神经网络中加入nocs预测结构来构建一个实时的类别级的物体姿态和尺寸估计的深度网络模型,能够对物体实例在没有精确的3d模型或没有在场景中出现过等情况下的物体姿态和尺寸进行估计。另外,本发明通过在单阶段深度神经网络中加入像素级误差预测结构,抑制了低质量的2d-3d映射关系估计,从而提高了本发明的效率以及对成像条件变化的鲁棒性。另外,为了提高鲁棒性,在深度数据缺失或存在噪声的情况下,本发明通过利用单阶段深度神经网络的预测结果以及相机运动,仅根据图像来估计未知物体的姿态和尺寸。本发明能够在计算存储资源和能耗都受限的移动平台上具有高效的处理能力,并能够满足精度和鲁棒性的要求。本发明可以使得增强现实系统根据基于本发明得到的物体的姿态和尺寸控制增强现实系统中渲染的虚体物体,让真实物体和虚拟物体产生真实自然的交互。
附图说明
44.从下面结合附图对本技术实施例的详细描述中,本技术的这些和/或其他方面和优点将变得更加清楚并更容易理解,其中:
45.图1是示出根据本发明的一个示例性实施例的估计物体姿态的方法的总流程图;
46.图2是示出根据本发明的示例性实施例的通过利用单阶段深度神经网络对输入的单帧图像进行处理以获得实例分割图像和标准化物体坐标空间nocs图的过程的详细流程图;
47.图3是示出根据本发明的示例性实施例的根据所述2d-3d映射关系确定所述单帧图像中的物体实例的姿态的过程的详细流程图;
48.图4a和图4b分别是示出根据本发明的示例性实施例的与图3的方法对应的估计物体实例的姿态的过程的示意图;
49.图5是示出根据本发明的另一示例性实施例的估计物体姿态的方法的总流程图。
50.图6a和图6b分别是示出根据本发明的示例性实施例的与图5的方法对应的估计物体实例的姿态的过程的示意图。
51.图7是示出根据本发明的示例性实施例的另一个示例性实施例的估计物体实例的姿态和尺寸的方法的总流程图;
52.图8是示出图7中所示出的估计物体实例的姿态和尺寸的方法的详细流程图;
53.图9是示出根据本发明的一个示例性实施例的估计物体姿态的装置的框图;
54.图10是示出根据本发明的另一个示例性实施例的估计物体姿态的装置的框图;
55.图11是示出根据本发明的另一个示例性实施的估计物体姿态的方法的流程图;
56.图12是示出根据本发明的一个示例性实施例的估计物体实例的姿态的过程的示意图;
57.图13是示出根据本发明的另一示例性实施例的估计物体姿态的装置的框图。
具体实施方式
58.现在将详细参照本公开的示例性实施例,所述实施例的示例在附图中示出,其中,相同的标号始终指示相同的部件。以下将通过参照附图来说明所述实施例,以便于解释本发明。
59.图1是示出根据本发明的一个示例性实施例的估计物体姿态的方法的总流程图。
60.如图1中所示,在步骤s101,通过利用单阶段深度神经网络对输入的单帧图像进行处理来获得实例分割图像和标准化物体坐标空间nocs图。其中,输入的单帧图像可以是彩色图像(例如rgb图像),也可以是灰度图像。下面将参照图2对步骤s101进行详细描述。
61.图2是示出根据本发明的示例性实施例的通过利用单阶段深度神经网络对输入的单帧图像进行处理以获得实例分割图像和标准化物体坐标空间nocs图的过程的详细流程图。
62.在步骤s1011,利用单阶段深度神经网络中的特征提取模块对所述单帧图像进行特征提取处理来获得多个尺度下的图像特征。具体地讲,如图4a和图4b中所示,将单帧图像输入到单阶段深度神经网络中的特征提取模块(即,图像卷积网络)来获得单帧图像在多个尺度下的图像特征。
63.在步骤s1012,通过利用单阶段深度神经网络中的多级特征融合模块对所述多个尺度下的图像特征进行融合处理来获得单个尺度下的图像特征。具体地讲,如图4a和图4b中所示,从特征提取模块(即,图像卷积网络)输出的多尺度下的图像特征被输入到多级特征融合模块,然后由多级特征融合模块对输入的多尺度下的图像特征进行融合处理来获得融合后的一个尺度下的图像特征。具体地,可通过上采样方式将多个尺度下的图像特征分别采样到同一尺度,然后通过特征拼接以及卷积操作来输出融合后的该同一尺度下的图像特征。
64.在步骤s1013,通过利用单阶段深度神经网络中的第一卷积模块对所述单个尺度下的图像特征进行卷积处理来获得nocs图。具体地讲,如图4a和图4b中所示,从单阶段深度
神经网络中的多级特征融合模块输出的融合后的一个尺度下的图像特征被输入到单阶段深度神经网络中的第一卷积模块(即卷积结构)进行卷积处理,进而获得nocs图。其中,nocs图中的每个像素的三个通道代表了该像素位置对应的nocs点的3d坐标。nocs图预测了与输入场景中的每个物体实例内部的像素点对应的nocs点。
65.在步骤s1014,通过利用单阶段深度神经网络中的第二卷积模块对所述单个尺度下的图像特征进行卷积处理来获得掩膜特征图像。具体地讲,如图4a中所示,从单阶段深度神经网络中的多级特征融合模块输出的融合后的一个尺度下的图像特征还被输入到单阶段深度神经网络中的第二卷积模块(即卷积结构)进行卷积处理,进而提取出掩膜特征图像。
66.在步骤s1015,通过利用单阶段深度神经网络中的第三卷积模块分别对所述多个尺度下的图像特征中的每个尺度的图像特征进行对应的卷积处理来获得每个尺度下的物体类别图像和掩膜卷积权重。具体地讲,如图4a和图4b中所示,从单阶段深度神经网络中的特征提取模块输出的多尺度下的图像特征被输入到第三卷积模块以进行卷积处理,其中,第三卷积模块具有多个卷积结构,每个尺度下的图像特征被输入到第三卷积模块中的相应的一个卷积结构以生成该尺度下的物体类别图像以及掩膜卷积权重。其中,物体类别图像代表了输入的单帧图像中的不同位置处的物体实例所属的类别,例如,在输入的单帧图像中包括一个桌子和树,则针对该单帧图像生成的物体类别图像代表了位于与桌子和树相应的位置处的物体实例分别属于“桌子”和“树”类别。
67.在步骤s1016,通过对掩膜特征图像和多个尺度下的掩膜卷积权重进行卷积处理来获得多个尺度下的实例掩膜图像。具体地讲,如图4a和图4b中所示,通过将从单阶段深度神经网络中的第二卷积模块输出的掩膜特征图像分别与从单阶段深度神经网络中的第三卷积模块输出的多个尺度下的掩膜卷积权重中的每一个尺度下的掩膜卷积权重进行卷积操作来生成多个尺度下的实例掩膜图像,其中,实例掩膜图像表示单帧图像中属于某个物体实例的图像区域,换句话说,实例掩膜图像仅能表示出属于某个物体实例的图像区域,但是不能表示该某个物体实例的类别,例如,实例掩膜图像仅能表示出属于与“桌子”相应的物体实例的图像区域,但是不能表示该物体实例属于“桌子”类别。
68.在步骤s1017,通过利用所述多个尺度下的实例掩膜图像和多个尺度下的物体类别图像来获得实例分割图像。具体地讲,如图4a和图4b中所述,通过对多个尺度下的实例掩膜图像与多个尺度下的物体类别图像进行索引来获得实例分割图像,该实例分割图像表示在输入的单帧图像中不同位置处的某个类别的物体实例的图像区域,换句话说,该实例分割图像既表示单帧图像中不同位置处的物体实例的类别,也表示出单帧图像中属于不同位置处的物体实例的图像区域。
69.至此,可获得实例分割图像和nocs图,虽然图2示出了在步骤s1011和s1012之后通过步骤s1013获得了nocs图,然后再获得实例分割图像,但是本发明不对步骤s1013的具体位置进行限定,该步骤s1013可位于步骤s1014-s1017中的任何一个步骤之后。
70.返回参照图1,在步骤s102,根据nocs图和实例分割图像来获得2d-3d映射关系。
71.具体地讲,通过实例分割图像可获得单帧图像中的属于某个类别的物体实例内部的像素点的2d坐标,通过nocs图可获得与单帧图像中的该像素点对应的nocs点的3d坐标,然后根据获得的该像素点的2d坐标以及与该像素点对应的nocs点的3d坐标来建立该像素
点的2d-3d映射关系。
72.在步骤s103,根据所述2d-3d映射关系来确定所述单帧图像中的物体实例的姿态。下面参照图3对此进行详细描述。
73.图3是示出根据本发明的示例性实施例的根据所述2d-3d映射关系确定所述单帧图像中的物体实例的姿态的过程的详细流程图。
74.如图3中所示,在步骤s1031,判断是否存在与单帧图像对应的深度图像,其中,该深度图像与单帧图像进行了像素对齐。当存在与单帧图像对应的深度图像时,会执行图4a中的标号420a所指示的虚线框中的操作,即,标号420a所指示的虚线框中的操作表示当存在深度图像时根据深度图像以及2d-3d映射关系确定物体实例的姿态的过程;当不存在与单帧图像对应的深度图像时,会执行图4b中的标号420b所指示的虚线框中的操作,即,标号420b所指示的虚线框中的操作表示当不存在深度图像时仅根据2d-3d映射关系确定物体实例的姿态。图4b中的标号410b所指示的虚线框中的所有操作与图4a中的标号410a所指示的虚线框中的所有操作相同,而图4a中的420a和图4b中的420b所指示的虚线框中的操作不同,换句话说,本示例性实施例可根据是否存在与当前输入的单帧图像对应的深度图像来选择执行图4a中的420a所指示的虚线框中的操作,或者选择执行图4b中的420b所指示的虚线框中的操作。下面将结合图4a中的标号420a和图4b中的标号420b所指示的虚线框中的操作进行详细描述。
75.如果存在与单帧图像对应的深度图像,则在步骤s1033根据所述2d-3d映射关系和所述深度图像来确定3d-3d映射关系,如图4a中所示,由深度图像与2d-3d映射关系获得3d-3d映射关系。
76.具体地讲,根据所述2d-3d映射关系和所述深度图像来确定3d-3d映射关系的步骤可包括:通过利用所述深度图像进行2d到3d投影来获得每个像素点的3d空间坐标;根据获得的每个像素点的3d空间坐标将所述2d-3d映射关系转换为3d-3d映射关系,例如,在根据深度图像获得一个像素的3d空间坐标之后,根据该一个像素的2d坐标从2d-3d映射关系确定与该一个像素对应的nocs点的3d坐标,进而将根据深度图像获得的该一个像素的3d空间坐标与从2d-3d映射关系确定的与该一个像素对应的nocs点的3d坐标进行映射,进而获得该一个像素的3d-3d映射关系。
77.在确定了3d-3d映射关系之后,在步骤s1034,通过利用所述3d-3d映射关系来确定所述物体实例的姿态和尺寸,即获得未知物体实例的姿态和尺寸,具体地讲,如图4a中所示,获得的3d-3d映射关系作为输入值被输入到姿态拟合方法以进行姿态拟合。
78.如果不存在与所述单帧图像对应的深度图像,则在步骤s1032,利用所述2d-3d映射关系确定相机坐标系和物体坐标系之间的3d旋转和3d平移变换,以确定所述物体实例在特定尺寸下的姿态,即获得所述物体实例在某个尺寸下的姿态,如图4b中所示的标号420b所指示的操作,虽然该步骤可能并不能确定所述物体实例的真正尺寸,但是能够确定出所述物体实例在某一个特定尺寸下的姿态。
79.以上描述的图4a和图4b的方法在单阶段深度神经网络中均加入了图像级的nocs映射预测结构(用于预测nocs图),从而可进行实时的物体的姿态估计。另外,图4a所示出的方法通过将该单阶段深度神经网络与深度图像相结合,利用姿态拟合算法估算出未知物体的姿态和真实的尺寸,从而可提高估计未知物体姿态和尺寸的效率和精度。图4b所示出的
方法可在不存在深度图像时,利用epnp算法根据单阶段深度神经网络的预测结果来估算对象在某个尺寸下的姿态,从而提高了系统估计未知物体姿态的鲁棒性。
80.在以上参照图1至图4b描述的实施例中,由nocs图预测的nocs点的3d坐标值中可能存在不准确的预测值,为了消除该不准确的预测值导致的精度问题,本技术的另一示例性实施例可在以上描述的图1的方法中进一步引入像素级别的像素误差预测结构来去除nocs图中的不准确的预测值,从而可提高nocs图预测的nocs点的3d坐标值的质量,减少异常映射。下面将参照图5至图6b来对此进行详细描述。
81.图5是示出根据本发明的另一示例性实施例的估计物体姿态的方法的总流程图。
82.如图5中所示,在步骤s501,通过利用单阶段深度神经网络对输入的单帧图像进行处理来获得实例分割图像和标准化物体坐标空间nocs图。由于该步骤s501所执行的操作与图1中的步骤s101相同,因此,此处不再对获得示例分割图像和nocs图的过程进行赘述。
83.在步骤s502,利用单阶段深度神经网络对所述单帧图像进行处理来获得像素坐标误差图,其中,像素坐标误差图中的每个坐标误差值代表了针对所述单帧图像中的每个像素点预测的nocs坐标值与真实的nocs坐标值之间的差异,差异越大,则表明nocs图预测的不确定性或错误率越大,例如,像素坐标误差图中的每个坐标误差值可表示为针对相应像素预测的nocs坐标值与真实的nocs坐标值之间的差值的平方和。
84.具体地讲,利用单阶段深度神经网络对所述单帧图像进行处理来获得像素坐标误差图的步骤可包括:通过利用单阶段深度神经网络中的第一卷积模块对所述单个尺度下的图像特征进行卷积处理来获得像素坐标误差图。其中,获得像素坐标误差图的操作可在图2中所描述的步骤s1012之后的任何位置处执行。下面将参照图6a和图6b对此进行详细描述。如图6a和图6b中所示,在标号610a和620a所指示的虚线框中,从多级特征融合模块输出的单个尺度下的图像特征被输入到第一卷积模块,与图4a和图4b所示出的方法相比较,图6a和图6b中的第一卷积模块除了可产生nocs图之外,还可以通过对所述单个尺度下的图像特征进行卷积处理来获得像素坐标误差图。
85.在步骤s503,根据nocs图和实例分割图像获得2d-3d映射关系。具体地讲,获得2d-3d映射关系的步骤可包括:通过利用nocs图和实例分割图像来获得在单帧图像中的物体实例内部的像素点和所述像素点的nocs点以建立所述物体实例的初步2d-3d映射关系。具体地讲,通过实例分割图像可获得单帧图像中的属于某个类别的物体实例内部的像素点的2d坐标,通过nocs图可获得与单帧图像中的该像素点对应的nocs点的3d坐标,然后根据获得的该像素点的2d坐标以及与该像素点对应的nocs点的3d坐标来建立该像素点的初步2d-3d映射关系。
86.获得2d-3d映射关系的步骤还可包括:利用像素坐标误差图去除所述初步2d-3d映射关系中的异常2d-3d映射来获得2d-3d映射关系。利用像素坐标误差图去除所述初步2d-3d映射关系中的异常2d-3d映射来获得所述2d-3d映射关系的步骤可包括:确定像素坐标误差图中比预定阈值大的误差值;从所述初步2d-3d映射关系中去除对应于与比所述预定阈值大的误差值相应的nocs点的2d-3d映射以获得所述2d-3d映射关系。
87.具体地讲,如上所述,像素坐标误差图代表了针对单帧图像中的每个像素点预测的nocs坐标值与真实的nocs坐标值之间的差异,差异越大,则表明nocs图预测的不确定性或错误率越大。可通过将像素坐标误差图中的每个误差值与预定阈值进行比较,如果某个
误差值小于或等于预定阈值,则表明与该误差值对应的nocs点的预测的nocs坐标值的准确程度可以被接受,然而,如果某个误差值大于预定阈值,则表明与该误差值对应的nocs点的预测的nocs坐标值不准确的程度较高,因此,需要将与该nocs点对应的2d-3d映射从在以上获得的初步2d-3d映射关系中去除,从而可获得可靠的能够表达物体姿态的2d-3d映射关系。与图4a和图4b不同,如图6a和图6b中所示,可通过利用nocs图、像素坐标误差图和实例分割图像进行异常点去除操作来获得最终的2d-3d映射关系。也就是说,图4a与图6a的不同点在于,图6a的第一卷积模块除了输出nocs图之外,还输出了像素坐标误差图,并且图6a还利用nocs图、像素坐标误差图和实例分割图像获得去除了异常2d-3d映射的2d-3d映射关系,并且图4b与图6b之间也存在以上差异。
88.此后,在步骤s504,根据所述2d-3d映射关系来确定所述单帧图像中的物体实例的姿态。与图1的步骤s103相比,除了步骤s504使用的2d-3d映射关系是去除了异常2d-3d映射的2d-3d映射关系之外,其它的操作均与图1中的步骤s103相同,因此,这里不再进行赘述。
89.参照图5至图6b所描述的示例性实施例在参照图1至图4b所描述的示例性实施例中进一步引入了像素级别的像素误差预测结构(用于预测像素坐标误差图),从而去除了nocs图中的不准确的预测的nocs坐标值,可提高映射预测的质量,减少异常映射。
90.下面将参照图7描述根据本发明的示例性实施例的另一种估计物体实例的姿态和尺寸的方法。
91.图7是示出根据本发明的示例性实施例的另一个示例性实施例的估计物体实例的姿态和尺寸的方法的总流程图。
92.如图7中所示,在步骤s701,通过利用深度神经网络获得多帧图像中的每一帧图像的实例分割图像和2d-3d映射关系。输入的多帧图像可以是多帧彩色图像(例如rgb图像),也可以是多帧灰度图像。
93.具体地讲,通过利用深度神经网络获得每一帧图像的实例分割图像和2d-3d映射关系的步骤可包括:通过利用单阶段深度神经网络对所述每一帧图像进行处理来获得所述每一帧图像的实例分割图像和标准化物体坐标空间nocs图;根据所述每一帧图像的nocs图和和实例分割图像获得所述每一帧图像的所述2d-3d映射关系。由于获得所述每一帧图像的实例分割图像和标准化物体坐标空间nocs图的过程以及获得所述每一帧图像的所述2d-3d映射关系的过程与以上参照图1描述的步骤s101和步骤s102的过程完全相同,因此,此处不再进行重复描述。
94.此外,由于nocs图预测的nocs点的3d坐标值中可能存在不准确的预测值,为了消除该不准确的预测值导致的精度问题,本技术的另一示例性实施例可进一步引入像素级别的像素误差预测结构来去除nocs图中的不准确的预测值,从而可提高nocs图预测的nocs点的3d坐标值的质量,减少异常映射。具体地讲,在获得所述每一帧图像的实例分割图像和标准化物体坐标空间nocs图的步骤之前或之后,图7的方法还可包括:利用单阶段深度神经网络对所述每一帧图像进行处理来获得像素坐标误差图。在这种情况下,获得所述每一帧图像的所述2d-3d映射关系的步骤可包括:通过利用nocs图和实例分割图像来获得在所述每一帧图像中的所述物体实例内部的像素点和所述像素点的nocs点以建立所述物体实例的初步2d-3d映射关系;以及利用像素坐标误差图去除所述初步2d-3d映射关系中的异常2d-3d映射来获得所述2d-3d映射关系。由于获得像素坐标误差图、建立所述物体实例的初步
2d-3d映射关系以及利用像素坐标误差图去除所述初步2d-3d映射关系中的异常2d-3d映射来获得所述2d-3d映射关系的过程与以上参照图5描述的步骤s502和s503的过程完全相同,因此,此处不再进行赘述。也就是说,在以下步骤中所使用的2d-3d映射关系可以是根据图1的步骤s101和步骤s102获得的存在异常2d-3d映射的2d-3d映射关系,也可以是根据图5的步骤s502和s503获得的去除了异常2d-3d映射的2d-3d映射关系。
95.在步骤s702,计算所述多帧图像中的两帧图像之间的相机运动参数。
96.在步骤s703,根据与所述两帧图像对应的相机运动参数、实例分割图像和2d-3d映射关系来确定所述两帧图像中同一物体实例的3d-3d映射关系。
97.在步骤s704,通过利用所述3d-3d映射关系来确定所述同一物体实例的姿态和尺寸。
98.下面参照图8对图7中所示出的估计物体实例的姿态和尺寸的方法进行详细描述。
99.在步骤s801,通过利用深度神经网络获得多帧图像中的每一帧图像的实例分割图像和2d-3d映射关系。由于步骤s801与步骤s701的操作完全相同,因此,这里省略其重复描述。
100.接下来在步骤s802至步骤s804,根据所述多帧图像来确定相机运动信息。具体地讲,在步骤s802,判断在当前系统中是否存在slam算法。
101.如果当前系统中存在slam算法,则在步骤s803,直接通过利用所述多帧图像根据slam算法来计算所述相机运动信息,即计算相机的运动参数。
102.如果当前系统中不存在slam算法,则在步骤s804,通过利用实例分割图像和所述2d-3d映射关系根据epnp算法来计算同一物体实例在所述多帧图像中的姿态以获得所述相机运动信息。具体地讲,在当前系统不存在slam时,假设实例分割图像中的一个物体实例的尺寸已知,通过利用epnp算法求出该物体实例在多帧图像中的姿态,从而获得相机运动信息。
103.在以上描述中,通过步骤s802至步骤s804可确定相机运动信息。
104.接下来,在步骤s805,根据所述相机运动信息计算所述多帧图像中的两帧图像之间的相机运动参数。具体地讲,根据预定标准从所述多帧图像中选择两帧图像作为一个立体像对,然后计算这一个立体像对间的相机运动参数,其中,所述预定标准要求同一物体实例在所选择的两帧图像中需要具有一定的平移和旋转并且在所选择的两帧图像中具有一定的重叠区域。此外,以上描述的步骤s802至步骤s805是图7的步骤s702的详细过程。
105.在步骤s806,根据实例分割图像和2d-3d映射关系来确定所述两帧图像中属于同一物体实例的像素点之间的对应关系。具体地讲,根据所述两帧图像的两个2d-3d映射关系来确定与同一个nocs点的3d坐标对应的分别属于两帧图像中同一物体实例(该同一物体实例根据实例分割图像被确定)的相应像素的2d坐标,进而获得两帧图像中属于同一物体实例的像素点之间的对应关系。
106.然后,在步骤s807,利用所述对应关系以及所述相机运动参数来计算属于所述同一物体实例的像素点在现实场景中的深度从而获取3d坐标。例如,根据三角测量法利用所述对应关系以及所述相机运动参数来计算属于所述同一物体实例的像素点在现实场景中的深度从而获取3d坐标。
107.在步骤s808,根据属于所述同一物体实例的像素点在现实场景中的3d坐标以及所
述2d-3d映射关系建立3d-3d映射关系。具体地讲,在确定了一个像素点在现实场景中的3d坐标之后,根据该像素点的2d坐标从2d-3d映射关系确定与该一个像素点对应的nocs点的3d坐标,进而将该像素点在现实场景中的3d坐标与从2d-3d映射关系确定的与该像素点对应的nocs点的3d坐标建立3d-3d映射关系。
108.在步骤s809,通过利用所述3d-3d映射关系根据姿态拟合方法来确定所述同一物体实例的姿态和尺寸,其中,该步骤s809与步骤s704相同。
109.以上参照图7和图8描述的方法,能够在深度图像缺失或者存在噪声的情况下,通过将单阶段深度神经网络与相机运动相结合,利用多帧图像来估计未知物体的姿态和尺寸。
110.以下将参照图9和图10描述与以上参照图1至图8描述的方法相对应的装置。
111.图9是示出根据本发明的一个示例性实施例的估计物体姿态的装置10的框图。图9的装置10可执行以上参照图1至图6b所描述的方法。
112.如图9中所示,装置10包括图像处理单元110、映射关系确定单元120、以及姿态确定单元130。
113.图像处理单元110可被配置为通过利用单阶段深度神经网络对输入的单帧图像进行处理来获得实例分割图像和标准化物体坐标空间nocs图。其中,输入的单帧图像可以是彩色图像(例如rgb图像),也可以是灰度图像。
114.具体地讲,首先,图像处理单元110可通过利用单阶段深度神经网络中的特征提取模块对所述单帧图像进行特征提取处理来获得多个尺度下的图像特征。由于以上已经参照图2的步骤s1011对此进行了详细描述,因此,此处不再进行赘述。
115.此后,图像处理单元110可被配置为通过以下操作来获得nocs图:通过利用单阶段深度神经网络中的多级特征融合模块对所述多个尺度下的图像特征进行融合处理来获得单个尺度下的图像特征;通过利用单阶段深度神经网络中的第一卷积模块对所述单个尺度下的图像特征进行卷积处理来获得nocs图。由于以上参照图2的步骤s1012和s1013对此进行了详细描述,因此,此处不再进行赘述。
116.然后,图像处理单元110可被配置为通过以下操作来获得实例分割图像:通过利用单阶段深度神经网络中的第二卷积模块对所述单个尺度下的图像特征进行卷积处理来获得掩膜特征图像;通过利用单阶段深度神经网络中的第三卷积模块分别对所述多个尺度下的图像特征中的每个尺度的图像特征进行对应的卷积处理来获得每个尺度下的物体类别图像和掩膜卷积权重;通过对掩膜特征图像和多个尺度下的掩膜卷积权重进行卷积处理来获得多个尺度下的实例掩膜图像;通过利用所述多个尺度下的实例掩膜图像和多个尺度下的物体类别图像来获得实例分割图像。由于以上参照图2的步骤s1014至s1017对此进行了详细描述,因此,此处不再进行赘述。
117.映射关系确定单元120可被配置为根据nocs图和实例分割图像来获得2d-3d映射关系。
118.具体地讲,映射关系确定单元120可通过实例分割图像获得单帧图像中的属于某个类别的物体实例内部的像素点的2d坐标,通过nocs图可获得与单帧图像中的该像素点对应的nocs点的3d坐标,然后根据获得的该像素点的2d坐标以及与该像素点对应的nocs点的3d坐标来建立该像素点的2d-3d映射关系。此外,由于nocs图预测的nocs点的3d坐标值中可
能存在不准确的预测值,为了消除该不准确的预测值导致的精度问题,本技术的另一示例性实施例可在图9的装置10中进一步引入像素级别的像素误差预测结构来去除nocs图中的不准确的预测值,从而可提高nocs图预测的nocs点的3d坐标值的质量,减少异常映射。
119.具体地讲,图像处理单元110还可被配置为利用单阶段深度神经网络对所述单帧图像进行处理来获得像素坐标误差图。其中,图像处理单元110可被配置为通过利用所述第一卷积模块对所述单个尺度下的图像特征进行卷积处理来获得像素坐标误差图。像素坐标误差图中的每个坐标误差值代表了针对所述单帧图像中的每个像素点预测的nocs坐标值与真实的nocs坐标值之间的差异,差异越大,则表明nocs图预测的不确定性或错误率越大,例如,像素坐标误差图中的每个坐标误差值可表示为针对相应像素预测的nocs坐标值与真实的nocs坐标值之间的差值的平方和。
120.在产生了像素坐标误差图的情况下,映射关系确定单元120还可被配置为:通过利用nocs图和实例分割图像来获得在所述单帧图像中的所述物体实例内部的像素点和所述像素点的nocs点以建立所述物体实例的初步2d-3d映射关系;以及利用像素坐标误差图去除所述初步2d-3d映射关系中的异常2d-3d映射来获得所述2d-3d映射关系。具体地讲,映射关系确定单元120可被配置为通过以下操作获得去除异常2d-3d映射来获得所述2d-3d映射关系:确定像素坐标误差图中比预定阈值大的误差值;从所述初步2d-3d映射关系中去除对应于与比所述预定阈值大的误差值相应的nocs点的2d-3d映射以获得所述2d-3d映射关系。由于以上已经参照图5的步骤s502和s503描述了获得去除异常2d-3d映射的2d-3d映射关系的过程,因此,此处不再进行赘述。在以下的描述中所使用的2d-3d映射关系可以是存在异常2d-3d映射的2d-3d映射关系,也可以是去除了异常2d-3d映射的2d-3d映射关系。
121.姿态确定单元130可被配置为根据2d-3d映射关系来确定所述单帧图像中的物体实例的姿态。
122.具体地讲,姿态确定单元130可判断是否存在与单帧图像对应的深度图像,其中,该深度图像与单帧图像进行了像素对齐。
123.如果存在与所述单帧图像对应的深度图像,则姿态确定单元130可根据所述2d-3d映射关系和所述深度图像来确定3d-3d映射关系,并通过利用所述3d-3d映射关系来确定所述物体实例的姿态和尺寸。具体地讲,姿态确定单元130被配置为通过以下操作来确定3d-3d映射关系:通过利用所述深度图像进行2d到3d投影来获得每个像素点的3d空间坐标;根据获得的每个像素点的3d空间坐标将所述2d-3d映射关系转换为所述3d-3d映射关系。
124.如果不存在与所述单帧图像对应的深度图像,则姿态确定单元130可通过利用所述2d-3d映射关系确定相机坐标系和物体坐标系之间的3d旋转和3d平移变换,以确定所述物体实例在特定尺寸下的姿态。例如,姿态确定单元130可通过利用所述2d-3d映射关系根据epnp算法来确定相机坐标系和物体坐标系之间的3d旋转和3d平移变换。由于以上已经参照图3对此进行了详细描述,因此,此处不再进行赘述。
125.以上描述的图9的装置10在单阶段深度神经网络中均加入了图像级的nocs映射预测结构(用于预测nocs图),从而可进行实时的未知物体姿态和尺寸估计。另外,当存在深度图像时,图9所示出的装置10可通过将该单阶段深度神经网络与深度图像相结合,利用姿态拟合算法估算对象的姿态和尺寸,从而可提高估计未知物体姿态的效率和精度。此外,在不存在深度图像时,图9所示出的装置10可结合单阶段深度神经网络和相机运动来估算对象
的尺寸以及姿态,从而提高了系统估计未知物体姿态的鲁棒性。
126.下面将参照图10描述根据本发明的示例性实施例的另一种估计物体姿态的装置20。图10的装置20可执行以上参照图7至图8所描述的方法。
127.如图10中所示,装置20包括图像处理和映射单元210、相机运动确定单元220、对应关系建立单元230、以及姿态确定单元240。
128.图像处理和映射单元210可被配置为通过利用深度神经网络获得多帧图像中的每一帧图像的实例分割图像和2d-3d映射关系。输入的多帧图像可以是多帧彩色图像(例如rgb图像),也可以是多帧灰度图像。
129.具体地讲,图像处理和映射单元210可包括图像处理单元211和映射关系确定单元212,其中,图像处理单元211可被配置为通过利用单阶段深度神经网络对所述每一帧图像进行处理来获得所述每一帧图像的实例分割图像和标准化物体坐标空间nocs图,映射关系确定单元212可被配置为根据所述每一帧图像的nocs图和和实例分割图像获得所述每一帧图像的所述2d-3d映射关系。图像处理单元211还可被配置为利用单阶段深度神经网络对所述每一帧图像进行处理来获得像素坐标误差图,在此情况下,映射关系确定单元212可被配置为通过利用nocs图和实例分割图像来获得在所述每一帧图像中的所述物体实例内部的像素点和所述像素点的nocs点以建立所述物体实例的初步2d-3d映射关系;以及利用像素坐标误差图去除所述初步2d-3d映射关系中的异常2d-3d映射来获得所述2d-3d映射关系。这里,图像处理单元221和映射关系确定单元212可分别执行与图9中的图像处理单元110和映射关系确定单元120相同的操作,因此,这里不再对图像处理单元211和映射关系确定单元212的操作进行重复描述。
130.相机运动确定单元220可被配置为计算所述多帧图像中的两帧图像之间的相机运动参数。具体地讲,相机运动确定单元220可被配置为通过以下操作计算所述多帧图像中的两帧图像之间的相机运动参数:根据所述多帧图像来确定相机运动信息;根据所述相机运动信息计算所述多帧图像中的所述两帧图像之间的相机运动参数。
131.相机运动确定单元220可被配置为通过以下操作来确定所述相机运动信息:如果当前系统中存在同步定位与地图构建slam算法,则通过利用所述多帧图像根据slam算法来计算所述相机运动信息;如果当前系统中不存在slam算法,则通过利用实例分割图像和所述2d-3d映射关系来计算所述同一物体实例在所述多帧图像中的姿态以获得所述相机运动信息,例如,通过利用实例分割图像和所述2d-3d映射关系根据epnp算法来计算计算所述同一物体实例在所述多帧图像中的姿态以获得所述相机运动信息。由于以上已经参照图8中的步骤s802至s805对此进行了详细描述,因此此处不再进行赘述。
132.对应关系建立单元230可被配置为根据与所述两帧图像对应的相机运动参数、实例分割图像和2d-3d映射关系来建立所述两帧图像中同一物体实例的3d-3d映射关系。
133.具体地讲,对应关系建立单元230可被配置为通过以下操作来建立所述3d-3d映射关系:根据实例分割图像和2d-3d映射关系来确定所述两帧图像中属于所述同一物体实例的像素点之间的对应关系;利用所述对应关系以及所述相机运动参数来计算属于所述同一物体实例的像素点在现实场景中的深度从而获取3d坐标;根据属于所述同一物体实例的像素点在现实场景中的3d坐标以及所述2d-3d映射关系建立3d-3d映射关系。由于以上已参照图8中的步骤s806至s808对此进行了详细描述,因此此处不再进行赘述。
134.姿态确定单元240可被配置为通过利用所述3d-3d映射关系来确定所述同一物体实例的姿态和尺寸。
135.以上参照图10描述的装置20,能够在深度图像缺失或者存在噪声的情况下,通过将单阶段深度神经网络与相机运动相结合,利用多帧图像来估计未知物体的姿态和尺寸。
136.图11是示出根据本发明的另一个示例性实施的估计物体姿态的方法的流程图。
137.如图11中所示,在步骤s1111,获得单帧图像的实例分割图像、标准化物体坐标空间nocs图和像素坐标误差图。其中,单帧图像可以是彩色图像(例如rgb图像),也可以是灰度图像。
138.具体地讲,可按照图5中的步骤s501和s502那样通过单阶段深度神经网络获得单帧图像的实例分割图像、标准化物体坐标空间nocs图和像素坐标误差图,也可以如图12中所示通过两阶段深度神经网络对单帧图像进行处理来获得实例分割图像、标准化物体坐标空间nocs图和像素坐标误差图。下面将对图12进行详细描述。
139.如图12中所示,单帧图像首先经过特征提取模块来获得多个尺度下的图像特征,然后多尺度的图像特征被分别输入到区域候选网络和感兴趣区域池化(region of interest(roi)align/pooling)模块,其中,区域候选网络用于确定roi并将关于确定的roi的信息输入到roi池化模块,roi池化模块根据从特征提取模块接收到的多尺度的图像特征和从区域候选模块接收到的关于确定的roi的信息来输出与每个roi对应的图像特征。第一卷积模块利用从roi池化模块输出的与每个roi对应的图像特征来获得nocs图和像素坐标误差图,其中,nocs图是对象级别的nocs图,像素坐标误差图中的每个误差值表示针对所述单帧图像中的每个像素点预测的nocs坐标值与真实的nocs坐标值之间的差异。此外,第二卷积模块利用从roi池化模块输出的图像特征来获得实例分割图像。
140.在步骤s1112,根据实例分割图像、nocs图和像素坐标误差图来获得去除了异常2d-3d映射的2d-3d映射关系。
141.具体地讲,可按照图5中的步骤s503那样利用图像级别的nocs图和实例分割图像来获得初步2d-3d映射关系并然后利用像素坐标误差图来去除初步2d-3d映射关系中的异常2d-3d映射,也可以按照图12中所示的那样来利用对象级别的nocs图和实例分割图像来获得初步2d-3d映射关系,然后利用像素坐标误差图来去除初步2d-3d映射关系中的异常2d-3d映射,虽然图12中所获得的nocs图是对象级别的nocs图,图5中所获得的nocs图是图像级别的nocs图,但是利用对象级别的nocs图和实例分割图像来获得初步2d-3d映射关系,并然后利用像素坐标误差图去除初步2d-3d映射关系中的异常2d-3d映射的过程实际上与参照图5所描述的利用图像级别的nocs图和实例分割图像来获得初步2d-3d映射关系,然后利用像素坐标误差图来去除初步2d-3d映射关系中的异常2d-3d映射的过程是相同的,因此,此处对根据实例分割图像、nocs图和像素坐标误差图来获得去除了异常2d-3d映射的2d-3d映射关系的过程不再进行赘述。
142.在步骤s1113,根据所述2d-3d映射关系来确定所述单帧图像中的物体实例的姿态。由于该过程与图5的步骤s504的操作相同,因此,这里不再进行赘述。
143.以上描述的方法通过引入像素级别的像素误差预测结构来去除nocs图中的不准确的预测值,从而可提高nocs图预测的nocs点的3d坐标值的质量,减少异常映射。
144.图13是示出根据本发明的另一示例性实施例的估计物体姿态的装置30的框图。
145.如图13中所示,装置30可包括图像处理单元1310、映射关系确定单元1320和姿态确定单元1330。
146.图像处理单元1310被配置为获得单帧图像的实例分割图像、标准化物体坐标空间nocs图和像素坐标误差图。映射关系确定单元1320可被配置为根据实例分割图像、nocs图和像素坐标误差图来获得去除了异常2d-3d映射的2d-3d映射关系。姿态确定单元1330可被配置为根据所述2d-3d映射关系来确定所述单帧图像中的物体实例的姿态。也就是说,图像处理单元1310、映射关系确定单元1320和姿态确定单元1330可分别执行以上参照图11描述的步骤s1111、s1112和s1113的操作,因此,这里不再进行重复描述。
147.此外,本发明还提供了一种存储有程序的计算机可读存储介质,所述程序在被处理器执行时实现以上所述的估计姿态和尺寸的方法。
148.此外,本发明的一方面在于提供一种包括存储有计算机程序的可读介质的计算机,所述计算机程序在被计算机执行时实现以上所述的估计姿态和尺寸的方法。
149.本发明的一方面在于提供一种电子设备,所述电子设备包括存储器和处理器;所述存储器中存储有计算机程序;所述处理器,用于在运行所述计算机程序时执行所述的估计姿态和尺寸的方法。
150.根据本发明,在电子设备中,估计物体的姿态和尺寸的方法可以通过将图像数据作为人工智能模型的输入数据来获得识别图像或图像中的物体的姿态和尺寸的输出数据。
151.人工智能模型可以通过训练获得。这里,“通过训练获得”是指通过训练算法训练具有多个训练数据的基本人工智能模型,从而获得预定义的操作规则或人工智能模型,所述操作规则或人工智能模型配置为执行所需的特征(或目的)。
152.人工智能模型可以包括多个神经网络层。所述多个神经网络层中的每一个包括多个权重值,并且通过在前一层的计算结果和所述多个权重值之间的计算来执行神经网络计算。
153.视觉理解与人类视觉一样,是一种识别和处理事物的技术,包括例如物体识别、物体跟踪、图像检索、人类识别、场景识别、三维重建/定位或图像增强。以上描述了本发明的各示例性实施例,应理解,上述描述仅是示例性的,并非穷尽性的,本发明不限于所披露的各示例性实施例。在不偏离本发明的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此,本发明的保护范围应该以权利要求的范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献