一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据处理方法、装置、电子设备及可读存储介质

2022-06-11 06:46:21 来源:中国专利 TAG:


1.本发明实施例涉及计算机视觉技术领域,尤其涉及一种数据处理方法、装置、电子设备及可读存储介质。


背景技术:

2.近年来,基于神经网络的深度学习技术发展迅猛。在目标识别技术领域,已有大量基于深度学习的方案被提出。除此之外,目前无人驾驶技术也广受关注,而对环境中目标进行识别则是无人驾驶中的一项基本任务。
3.目前目标识别技术主要依赖于单一传感器或传感器的浅层融合实现。由于各种传感器在技术上各有特点,使得识别能力受到单一传感器能力的限制。而浅层融合方案则只将各传感器数据的处理结果进行融合,在融合过程中,对原始感知数据的利用十分有限,不能充分发掘原始数据中的信息,两种方案均存在对目标识别的性能差的问题。


技术实现要素:

4.本发明实施例提供一种数据处理方法、装置、电子设备及可读存储介质,以解决现有目标识别性能差的问题。
5.为了解决上述技术问题,本发明是这样实现的:
6.第一方面,本发明的实施例提供了一种数据处理方法,包括:
7.获取第一视觉图像和第一雷达点云数据,所述第一雷达点云数据为与所述第一视觉图像对应的雷达点云数据;
8.将所述第一视觉图像和所述第一雷达点云数据输入至训练后的目标检测网络,获得所述第一视觉图像上第一目标所在第一约束框的三维位置信息,所述第一约束框为三维约束框;
9.根据所述三维位置信息,确定所述第一目标的三维识别信息。
10.其中,所述获取第一视觉图像和第一雷达点云数据之前,所述方法还包括:
11.获取用于网络训练的第二视觉图像和第二雷达点云数据,所述第二雷达点云数据为与所述第二视觉图像对应的雷达点云数据;
12.根据所述第二视觉图像和所述第二雷达点云数据,获取融合特征图;
13.将所述融合特征图输入目标检测网络,得到所述第二视觉图像上第二目标的预测值;
14.根据所述第二目标的预测值和预先标记的所述第二目标的真实值训练所述目标检测网络,得到所述训练后的目标检测网络。
15.其中,所述根据所述第二视觉图像和所述第二雷达点云数据,获取融合特征图,包括:
16.根据所述第二雷达点云数据,获取对应所述第二雷达点云数据的深层雷达特征图;
17.根据所述第二视觉图像,获取对应所述第二视觉图像的图像特征图;
18.将所述深层雷达特征图和所述图像特征图进行特征融合,得到融合特征图。
19.其中,所述根据所述第二雷达点云数据,获取对应所述第二雷达点云数据的深层雷达特征图,包括:
20.对所述第二雷达点云数据进行坐标转换,得到坐标转换后的第三雷达点云数据;
21.根据预设内参,获取所述第三雷达点云数据投影至二维图像平面上的第一映射数据,所述第一映射数据包括雷达点的深度、水平方向速度和垂直方向速度;
22.根据所述第一映射数据进行预设渲染处理,得到对应所述第二雷达点云数据的原始雷达特征图;
23.根据所述原始雷达特征图,获取所述深层雷达特征图。
24.其中,所述根据所述第二视觉图像,获取对应所述第二视觉图像的图像特征图,包括:
25.对所述第二视觉图像进行特征提取,得到多个不同尺度的特征图;
26.将所述多个不同尺度的特征图进行插值处理,得到多个相同尺度的特征图;
27.对所述多个相同尺度的特征图进行融合处理,得到对应所述第二视觉图像的图像特征图。
28.其中,所述将所述融合特征图输入目标检测网络,得到所述第二视觉图像上第二目标的预测值,包括:
29.在所述目标检测网络包括多个检测网络的情况下,将所述融合特征图分别输入所述多个检测网络,得到所述第二目标的预测值;
30.其中,所述第二目标的预测值包括第一热力图上所述第二目标的中心点的预测值、第二热力图上所述第二目标的顶点的预测值、所述顶点相对所述中心点的预测偏移值、所述中心点的预测偏移误差值、所述顶点的预测偏移误差值、所述第二目标的预测维度、所述第二目标的预测深度、所述第二目标在所述第二视觉图像上的预测二维尺寸。
31.其中,所述方法还包括:
32.若所述第二目标的顶点的预测值超出所述预测二维尺寸,则将第二约束框上目标点的值更新为所述第二目标的顶点的预测值,其中,所述第二约束框为二维约束框,且与所述预测二维尺寸对应,所述目标点的值为所述第二约束框上距离所述第二目标的顶点最近的点。
33.其中,所述根据所述第二目标的预测值和预先标记的所述第二目标的真实值训练所述目标检测网络,得到所述训练后的目标检测网络,包括:
34.根据所述第二目标的预测值和所述第二目标的真实值,计算所述目标检测网络的损失函数;
35.基于所述损失函数训练所述目标检测网络,得到训练后的目标检测网络。
36.其中,所述三维位置信息包括顶点位置信息、维度信息和深度信息;
37.所述根据所述三维位置信息,确定所述第一目标的三维识别信息,包括:
38.根据所述顶点位置信息、维度信息和深度信息,获取所述第一目标的第一位置信息和旋转角度信息;
39.确定所述第一目标的三维识别信息,所述三维识别信息包括所述维度信息、所述
深度信息、所述第一位置信息和所述旋转角度信息。
40.其中,所述根据所述顶点位置信息、维度信息和深度信息,获取所述第一目标的第一位置信息和旋转角度信息,包括:
41.根据所述顶点位置信息、所述维度信息和所述深度信息,计算得到顶点投影至二维图像平面上的第二映射数据;
42.根据所述第二映射数据、所述顶点位置信息、所述维度信息和第一目标的位姿信息,计算得到所述第一位置信息和所述旋转角度信息。
43.第二方面,本发明的实施例还提供了一种数据处理装置,包括:
44.第一获取模块,用于获取第一视觉图像和第一雷达点云数据,所述第一雷达点云数据为与所述第一视觉图像对应的雷达点云数据;
45.第一处理模块,用于将所述第一视觉图像和所述第一雷达点云数据输入至训练后的目标检测网络,获得所述第一视觉图像上第一目标所在第一约束框的三维位置信息,所述第一约束框为三维约束框;
46.第二处理模块,用于根据所述三维位置信息,确定所述第一目标的三维识别信息。
47.第三方面,本发明实施例还提供了一种电子设备,包括处理器和收发器,所述收发器在处理器的控制下接收和发送数据,所述处理器用于执行以下操作:
48.获取第一视觉图像和第一雷达点云数据,所述第一雷达点云数据为与所述第一视觉图像对应的雷达点云数据;
49.将所述第一视觉图像和所述第一雷达点云数据输入至训练后的目标检测网络,获得所述第一视觉图像上第一目标所在第一约束框的三维位置信息,所述第一约束框为三维约束框;
50.根据所述三维位置信息,确定所述第一目标的三维识别信息。
51.第四方面,本发明实施例还提供了一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的数据处理方法的步骤。
52.第五方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的数据处理方法的步骤。
53.本发明实施例的上述方案中,通过获取第一视觉图像和第一雷达点云数据,第一雷达点云数据为与第一视觉图像对应的雷达点云数据;然后将第一视觉图像和第一雷达点云数据输入至训练后的目标检测网络,获得第一视觉图像上第一目标所在第一约束框的三维位置信息,第一约束框为三维约束框;最后根据三维位置信息,确定第一目标的三维识别信息,如此,通过在特征级别上对视觉图像和雷达点云数据进行融合,突破单一传感器的限制,不仅可以估计出目标的大小位置,而且目标识别结果不易受到环境的影响,进而提升三维目标识别的性能。
附图说明
54.图1为本发明实施例提供的数据处理方法的流程示意图;
55.图2为本发明实施例的目标网络检测网络的训练步骤流程示意图;
56.图3为本发明实施例的雷达特征提取网络的结构示意图;
57.图4为本发明实施例的关键点金字塔网络的结构示意图;
58.图5为本发明实施例的数据处理装置的组成结构示意图;
59.图6为本发明实施例提供的电子设备的结构示意图。
具体实施方式
60.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
61.传统的三维目标识别解决方案存在以下不利因素:
62.首先,基于单传感器的三维目标识别方案受到传感器功能特点限制,都有一定的难以克服的缺点。毫米波雷达可以探测目标的距离,速度等信息,但由于其获得雷达点较少,不能获取目标的轮廓信息,难以估计目标大小。
63.视觉传感器,如rgb传感器,可以获取环境rgb图片,进而估计目标的信息,但是单一rgb传感器无法获取深度信息,这对三维目标识别极为不利,同时基于rgb图像的目标识别方法容易受到雨雪等天气影响,并对小目标的识别能力较差。
64.其次,现有的基于信息融合的方案中,都是对已经处理后的传感器信息进行融合。在处理过程中,已有大量原始信息丢失,这样就限制了融合时对传感器信息的使用,进而影响了融合的效果。
65.以上问题都能在本发明实施例中找到有效的解决方案。
66.如图1所示,为本发明实施例提供的数据处理方法的流程示意图。下面就该图具体说明该方法的具体实施过程。
67.步骤101,获取第一视觉图像和第一雷达点云数据,第一雷达点云数据为与第一视觉图像对应的雷达点云数据。
68.这里,可通过视觉传感器获取第一视觉图像,通过毫米波雷达获取对应第一视觉图像的第一雷达点云数据。
69.可选地,视觉传感器为rgb传感器,相应的,第一视觉图像为rgb图像。其中,rgb图像是包括r(red)、g(green)和b(blue)三个通道的全彩图。
70.步骤102,将第一视觉图像和第一雷达点云数据输入至训练后的目标检测网络,获得第一视觉图像上第一目标所在第一约束框的三维位置信息,第一约束框为三维约束框。
71.可选地,三维位置信息包括顶点位置信息、维度信息和深度信息。即第一约束框的顶点位置信息、维度信息和深度信息。
72.这里,第一目标可以是一个物体也可以是多个物体,具体视第一视觉图像而定,不做具体限定。相应的,第一约束框可以是一个约束框也可以是多个约束框。
73.需要说明的是,通过训练后的目标检测网络将第一视觉图像和第一雷达点云数据在特征级别上进行融合,突破单一传感器的限制,不仅可以估计出不易受环境影响的目标的深度信息,还可以估计出目标的大小位置,进而提升三维目标识别的性能。
74.步骤103,根据三维位置信息,确定第一目标的三维识别信息。
75.可选的,三维识别信息包括维度信息、深度信息、第一位置信息和旋转角度信息。其中,第一位置信息为第一目标的二维位置信息,旋转角度信息为第一目标的旋转角度信息。
76.本步骤中,首先,基于第一目标所在第一约束框的顶点位置信息、维度信息和深度信息,利用最小化投影误差估计计算得到第一目标的第一位置信息和旋转角度信息,最后,上述得到的维度信息、深度信息、第一位置信息和旋转角度信息确定为第一目标的三维识别信息,这样可以避免直接使用目标检测网络预测较难预测的第一位置信息和旋转角度信息,简化了目标识别的步骤,提升了工作效率。具体实现方式可详见实施例四部分。
77.上述图1所示的实现方式的步骤102中,将第一视觉图像和第一雷达点云数据输入至训练后的目标检测网络,获得第一视觉图像上第一目标所在第一约束框的三维位置信息,说明在执行图1所示的方法之前需要预先对目标检测网络进行训练以得到训练后的目标检测网络。下述具体阐述目标检测网络的训练过程。
78.在一种可能的实现方式中,如图2所示,在方法步骤101之前,本发明实施例的方法还可包括:
79.步骤201,获取用于网络训练的第二视觉图像和第二雷达点云数据,第二雷达点云数据为与第二视觉图像对应的雷达点云数据。
80.其中,第二视觉图像和第二雷达点云数据作为训练目标检测网络的训练数据。需要说明的是,用于训练目标检测网络的第二视觉图像和第二雷达点云数据是大量的,可以分批次进行迭代训练。
81.同样的,第二视觉图像可通过视觉传感器采集得到,第二雷达点云数据可通过毫米波雷达测得。训练数据对应的采集场景可以是道路路口、产品检测、身份识别等多样化的采集场景。
82.步骤202,根据第二视觉图像和第二雷达点云数据,获取融合特征图。
83.其中,首先将第二雷达点云数据转换为三通道的原始雷达特征图,然后使用雷达特征提取网络对原始雷达特征图进行特征提取,得到深层雷达特征图。
84.之后,将第二视觉图像经过特征提取骨干网络,得到处于不同层次的多尺度的特征图,然后再将多尺度的特征图融合为第二视觉图像的图像特征图。
85.最后,将深层雷达特征图和第二视觉图像的图像特征图进行融合处理得到融合特征图,具体的,将深层雷达特征图和第二视觉图像的图像特征图串联拼接起来得到融合特征图,具体实现方式详见实施例一部分。
86.步骤203,将融合特征图输入目标检测网络,得到第二视觉图像上第二目标的预测值。
87.可选地,目标检测网络包括多个检测网络。不同的检测网络分别预测需要的信息,即从不同维度检测得到第二目标的不同预测值。具体实现方式详见实施例二部分。
88.步骤204,根据第二目标的预测值和预先标记的第二目标的真实值训练目标检测网络,得到训练后的目标检测网络。
89.需要说明的是,由于第二目标的预测值是对应不同维度的预测值,这样基于第二目标的不同预测值得到的训练后的目标检测网络,能够提升检测精度和检测准确率。这里,本步骤的具体实现方式详见实施例三部分。
90.实施例一
91.在一种可能的实现方式中,本发明方法步骤202可包括:
92.步骤2021,根据第二雷达点云数据,获取对应第二雷达点云数据的深层雷达特征图。
93.其中,本步骤2021可具体包括:
94.步骤s1,对第二雷达点云数据进行坐标转换,得到坐标转换后的第三雷达点云数据。
95.由于毫米波雷达和视觉传感器(一般为rgb传感器)处于不同坐标系内,所以利用雷达坐标系到rgb传感器坐标系的旋转矩阵r和平移矩阵t将第二雷达点云数据从雷达坐标系转换到rgb传感器坐标系,得到坐标转换后的第三雷达点云数据。
96.步骤s2,根据预设内参,获取第三雷达点云数据投影至二维图像平面上的第一映射数据,第一映射数据包括雷达点的深度、水平方向速度和垂直方向速度。
97.可选地,预设内参为rgb传感器内参。
98.这里,利用rgb传感器内参将第三雷达点云数据投影到二维图像平面上,得到对应的第一映射数据。其中,第一映射数据用于表征第三雷达点云数据对应的雷达点投影至二维图像平面上的位置。
99.步骤s3,根据第一映射数据进行预设渲染处理,得到对应第二雷达点云数据的原始雷达特征图。
100.这里,基于第一映射数据,采用下述公式(1)、公式(2)和公式(3)以r为半径渲染一个圆,得到对应的第二雷达点云数据的原始雷达特征图。
[0101][0102]
[0103][0104]
其中,z表示雷达点的深度,v
x
表示雷达点的水平方向速度,vy表示雷达点的垂直方向速度;μz和σz为训练数据中目标(如车辆)深度均值和标准差。
[0105]
需要说明的是,速度则根据大小转化为(-1,1)范围内的数据。渲染时使用的半径r可根据实际应用调整。当使用较小的半径进行渲染时,生成的雷达特征影响范围较小,不利于进行特征提取;使用较大的渲染半径时,雷达点之间会产生重叠,相互影响。
[0106]
有上述公式可知,渲染时使用的三个通道(rfi,i∈(1,2,3))的值由雷达点的深度z,水平方向速度v
x
和垂直方向速度vy决定。
[0107]
步骤s4,根据原始雷达特征图,获取深层雷达特征图。
[0108]
具体的,本步骤s4可以包括:利用雷达特征提取网络对原始雷达特征图进行特征提取,得到深层雷达特征图。
[0109]
如图3所示,可选地,雷达特征提取网络由三部分组成,第一部分包括一个7
×
7的卷积层和一个3
×
3的最大池化层,其中,7
×
7的卷积层的卷积步长为3。第二部分包括有两个3
×
3的卷积层组成的残差块,两个3
×
3的卷积层的卷积步长为1,且该残差块包含一条短路路径,其连接位置为池化层的输出,连接到relu激活层之前。第三部分包括一个3
×
3的卷积层的残差块,其中包含一条短路路径,连接位置与第二部分的相同;其中,每个卷积层后紧接着一个批归一化层和relu激活层。
[0110]
需要说明的是,第三部分的卷积层大小可以根据实际运用进行调节。可选地,所有神经网络层的输出均为16通道。
[0111]
本发明实施例的对雷达数据的处理方式,即将雷达点云数据转换为类似rgb图像的特征图,可直接使用卷积神经网络对其进行处理,同时在转换时,对深度信息利用了训练数据集的统计信息,使其特征更加显著,对于速度信息转换为较小的数量值,保证了网络训练时的稳定性。本发明实施例的雷达特征提取网络,结构简单,可用于提取雷达数据特征,且不会大量增加计算量。
[0112]
步骤2022,根据第二视觉图像,获取对应第二视觉图像的图像特征图。
[0113]
可选地,本步骤2022可具体包括:
[0114]
步骤s11,对第二视觉图像进行特征提取,得到多个不同尺度的特征图。
[0115]
可选地,利用特征提取骨干网络对第二视觉图像进行特征提取,得到多个不同尺度的特征图。
[0116]
在一示例中,利用dla-34网络对第二视觉图像进行特征提取,获得不同深度下,通道数为32、64、128、256的四张不同大小的特征图。其中,这四张特征图分别为第二视觉图像
下采样4、8、16、32倍后的大小。
[0117]
步骤s12,将多个不同尺度的特征图进行插值处理,得到多个相同尺度的特征图。
[0118]
步骤s13,对多个相同尺度的特征图进行融合处理,得到对应第二视觉图像的图像特征图。
[0119]
需要说明的是,利用关键点特征金字塔网络,实现步骤s12和s13。
[0120]
如图4所示,为关键点特征金字塔网络的网络结构。首先,将多个不同尺度的特征图经过大小调整网络,得到多个相同尺度的特征图,即对多个不同尺度的特征图进行插值处理,得到多个相同尺度的特征图。也就是,将不同尺寸的特征图插值到统一大小,如为第二视觉图像下采样4倍后的大小。
[0121]
之后,利用一个卷积层调整所有特征图的通道数,使之具有相同的通道数和大小。比如,利用一个大小为1
×
1,步长为1,输出为256通道的卷积层,将所有特征图的通道数调整为256。
[0122]
然后,利用softmax函数计算多个相同尺度的特征图对应位置上的权值,最后,利用计算出的权值对多个相同尺度的特征图进行加权求和,得到一张具有预设通道数的特征图。这里,若按照上述示例中的卷积层进行通道数调整后,经过加权求和处理,得到的是一张具有256通道的特征图。
[0123]
步骤2023,将深层雷达特征图和图像特征图进行特征融合,得到融合特征图。
[0124]
具体的,将深层雷达特征图和第二视觉图像的图像特征图串联拼接起来得到融合特征图。比如前述示例中,将16通道的深层雷达特征图和256通道的图像特征图串联拼接起来,得到272通道的融合特征图。
[0125]
实施例二
[0126]
在一种可能的实现方式中,本发明方法步骤203可包括:
[0127]
步骤2031,在目标检测网络包括多个检测网络的情况下,将融合特征图分别输入多个检测网络,得到第二目标的预测值。
[0128]
其中,第二目标的预测值包括第一热力图上第二目标的中心点的预测值、第二热力图上第二目标的顶点的预测值、顶点相对中心点的预测偏移值、中心点的预测偏移误差值、顶点的预测偏移误差值、第二目标的预测维度、第二目标的预测深度、第二目标在第二视觉图像上的预测二维尺寸。
[0129]
可选地,目标检测网络包括8个检测网络,8个检测网络分别从不同维度检测第二目标。
[0130]
相应的,每个检测网络均由一个3
×
3的卷积层和一个1
×
1的卷积层组成,两个卷积层的步长均为1,其中3
×
3的卷积层输出为256通道,1
×
1的卷积层根据对应第二目标的预测数据不同,输出通道数不同。
[0131]
需要说明的是,第一热力图用于预测第二目标的中心点,第二热力图用于预测第二目标的顶点。
[0132]
首先,有两个检测网络分别预测第一热力图和第二热力图,其输出分别为1通道和8通道,预测每个融合特征图上点为第二目标的中心点和第二目标所在三维约束框的顶点的概率。其中,将预测值大于预设阈值的点视为有效点。
[0133]
然后,为了匹配预测的中心点和顶点,利用一个检测网络对于每个中心点,预测八
个顶点相对于该中心点的偏移量,其中,该偏移量是预测第二目标所在三维约束框的八个顶点距离第二目标的中心点的距离,其输出为8个通道。
[0134]
其中,第二目标的中心点与其第二目标所在三维约束框顶点的匹配过程如下:首先在第一热力图上找到一有效点,则认为该点存在一第二目标;之后利用检测网络预测该点出八个顶点相对中心点的偏移量,根据偏移量在对应的第二热力图上查找距离偏移量最近的有效点,即视为该第二目标的顶点。这样即可获得第二目标的中心点及其对应的顶点在第二视觉图像上的位置。
[0135]
进一步的,为了提高检测结果的稳定性,本发明实施例还对目标在视觉图像上的二维尺寸,即宽度和高度进行了预测,具体的,在一种可能的实现方式中,本发明实施例的方法还可包括:
[0136]
若第二目标的顶点的预测值超出预测二维尺寸,则将第二约束框上目标点的值更新为第二目标的顶点的预测值,其中,第二约束框为二维约束框,且与预测二维尺寸对应,目标点的值为第二约束框上距离第二目标的顶点最近的点。
[0137]
通过本实现方式的处理,即将所有预测后超出第二约束框的顶点限制在第二约束框边界上,这样能够提升预测顶点的位置的准确度。
[0138]
除此之外,本发明实施例还利用两个检测网络分别预测中心点的偏移误差和顶点的偏移误差,以弥补下采样带来的位置偏移,检测网络的输出分别为2通道和16通道,对应中心点和八个顶点的横向偏移和纵向偏移。
[0139]
本发明实施例还利用两个检测网络分别预测第二目标的维度(即长、宽、高信息)和深度信息。为了更加准确的预测深度和维度信息,深度和长宽高经过下面的公式(4)和公式(5)转换后再进行预测:
[0140]
z=μz δzσzꢀꢀꢀ
(4)
[0141][0142]
其中,μz和σz为训练数据中目标深度均值和标准差,为训练数据上的平均值。
[0143]
最终预测值即为δz和[δh,δw,δ
l
]
t
,则检测网络的输出分别为1通道和3通道。
[0144]
需要说明的是,出于对训练稳定性的考虑,对热力图和维度信息的预测输出进行了激活处理,激活函数使用sigmoid函数,具体的参见如下公式(6)、公式(7)和公式(8)。
[0145][0146][0147]
[0148]
其中,公式(6)为sigmoid函数的表达式,oh表示热力图的预测输出,[oh,ow,o
l
]
t
表示维度信息的预测输出。
[0149]
实施例三
[0150]
在一种可能的实现方式中,本发明方法步骤204可以包括:
[0151]
步骤2041,根据第二目标的预测值和第二目标的真实值,计算目标检测网络的损失函数。
[0152]
由上述可选的实现方式可知,目标检测网络包括多个检测网络,检测网络分别从不同维度检测第二目标。目标检测网络的损失函数包括多个检测网络对应的损失函数。
[0153]
具体的,根据第二目标的预测值和第二目标的真实值,分别计算对应检测网络的损失函数;将各个检测网络的损失函数进行加权求和得到目标检测网络的损失函数。
[0154]
网络训练时,基于下述公式(9)即热力图的损失函数,计算热力图上每个点的预测值与真实值的差距。
[0155][0156]
其中,为预测的热力图上一点的值,h
xyc
为真实值,(x,y,c)分别为热力图的横纵坐标与通道值。α与β是用来调整正负样本训练时对模型影响的超参数。
[0157]
需要说明的是,第一热力图的损失函数和第二热力图的损失函数均采用上述公式计算。
[0158]
其中,热力图的真实值的生成方法如下:
[0159]
以每个真实点(比如第二目标的中心点)为中心,生成一片以高斯核函数定义的区域,其中σ
p
为训练数据的标准差。
[0160]
除了热力图之外,其他预测值均使用l1距离计算损失,具体如公式(10):
[0161][0162]
其中,n为正样本总数,和yi为对应的预测值和真实值。
[0163]
可选的,目标检测网络的损失函数由下述公式(11)表示:
[0164][0165]
其中,l
cen
表示第一热力图的损失,l
ver
表示第二热力图的损失,l
cor
表示顶点相对中心的偏移的损失,lz表示目标深度的损失,l
dim
表示目标维度的损失,l
cen-off
目标中心的偏移误差的损失,l
ver-off
表示顶点的偏移误差的损失,l
wh
表示目标二维尺寸的损失,w为各项损失对应的加权系数。
[0166]
步骤2042,基于损失函数训练目标检测网络,得到训练后的目标检测网络。
[0167]
具体的,基于损失函数更新目标检测网络的网络参数,之后根据用于下一轮训练的训练数据对参数更新后的目标检测网络进行训练,直到训练次数达到预设次数,或者损
失值为最小,得到训练后的目标检测网络。
[0168]
在一示例中,目标检测网络训练时使用adam优化器,学习动量设置为0.9,为防止过拟合,可设置网络参数的权值衰减为0.01,初始学习率设置为0.002,根据学习过程进行衰减。模型使用的dla-34网络利用在imagenet上与训练的参数进行初始化。使用一定量数据对模型训练后,即可得到训练后模型。
[0169]
实施例四
[0170]
在一种可能的实现方式中,三维位置信息包括顶点位置信息、维度信息和深度信息;相应的,本发明方法的步骤103可以包括:
[0171]
步骤1031,根据顶点位置信息、维度信息和深度信息,获取第一目标的第一位置信息和旋转角度信息。
[0172]
可选地,本步骤1031具体包括:
[0173]
步骤s111,根据顶点位置信息、维度信息和深度信息,计算得到顶点投影至二维图像平面上的第二映射数据。
[0174]
经过上述目标检测网络后,可以获得第一目标所在第一约束框的维度信息即[h,w,l]
t
和深度信息z,此时需要估计第一目标的第一位置信息和旋转角度信息。
[0175]
可选地,可通过最小化投影误差估计第一目标的第一位置信息和旋转角度信息。
[0176]
首先,根据顶点位置信息和维度信息,计算得到顶点在物体坐标系下的位置坐标。具体采用下述公式(12)计算得到顶点在物体坐标系下的位置坐标:
[0177][0178]
其中,cori即为顶点坐标矩阵cor的第i列,
[0179]
然后,将上述顶点变换到rgb传感器坐标系中,rgb传感器坐标系与物体坐标系的变换矩阵:平移矩阵t与旋转矩阵r,可由物体在rgb传感器坐标系下的坐标(x,y,z)与旋转角θ计算得到,具体参见下述公式(13):
[0180][0181]
其中,
[0182]
最后,利用相机内参k将上述顶点投影到二维图像平面上,得到第二映射数据,具体计算如下述公式(14)
[0183]
[0184]
其中,表示顶点投影到二维图像平面上对应的第二映射数据。
[0185]
步骤s112,根据第二映射数据、顶点位置信息、维度信息和第一目标的位姿信息,计算得到第一位置信息和旋转角度信息。
[0186]
这里,可以计算顶点对应的投影点和目标检测网络估计的顶点之间的距离,具体如下述公式(15)
[0187][0188]
其中,x
*
,y
*

*
为未知量,通过最小化顶点对应的投影点和目标检测网络估计的顶点之间的距离来估算上述三个未知量。
[0189]
具体的,利用李代数se3求解,求解时计算误差与各个变量的雅克比行列式。
[0190]
其中,
[0191]
利用李代数,对位姿和维度进行求导得到的雅克比行列式为:
[0192][0193][0194]
将上述各个公式联合起来,可以得到投影点与各变量的关系式。
[0195]
其中的ε∈se3,是由目标(这里指的是第一目标)的位姿信息映射得到,f
x
和fy为rgb传感器内参中的横向和纵向焦距。
[0196]
由雅克比行列式后,即可通过高斯牛顿(gaussnewton)或者列文伯格-马夸尔特(levenberg-marquardt)优化算法进行求解,求解时保证其他变量不变,仅求解(x,y,θ)。
[0197]
步骤1032,确定第一目标的三维识别信息,三维识别信息包括维度信息、深度信息、第一位置信息和旋转角度信息。
[0198]
其中,三维识别信息具体可表示为(x,y,z,h,w,l,θ)。
[0199]
本发明实施例的数据处理方法,其三维目标识别效率高,稳定性强,在无人驾驶等相关领域都具有较好的表现。
[0200]
基于上述方法,本发明实施例提供一种用以实现上述方法的数据处理装置。
[0201]
如图5所示,为本发明实施例提供的数据处理装置的结构示意图。本发明实施例提供的数据处理装置可以包括:
[0202]
第一获取模块501,用于获取第一视觉图像和第一雷达点云数据,所述第一雷达点云数据为与所述第一视觉图像对应的雷达点云数据。
[0203]
第一处理模块502,用于将所述第一视觉图像和所述第一雷达点云数据输入至训练后的目标检测网络,获得所述第一视觉图像上第一目标所在第一约束框的三维位置信息,所述第一约束框为三维约束框。
[0204]
第二处理模块503,用于根据所述三维位置信息,确定所述第一目标的三维识别信息。
[0205]
可选地,数据处理装置还包括:
[0206]
第二获取模块,用于获取用于网络训练的第二视觉图像和第二雷达点云数据,第二雷达点云数据为与第二视觉图像对应的雷达点云数据。
[0207]
第三获取模块,用于根据第二视觉图像和第二雷达点云数据,获取融合特征图。
[0208]
第三处理模块,用于将融合特征图输入目标检测网络,得到第二视觉图像上第二目标的预测值。
[0209]
网络训练模块,用于根据第二目标的预测值和预先标记的第二目标的真实值训练目标检测网络,得到训练后的目标检测网络。
[0210]
可选地,第三获取模块包括:
[0211]
第一获取单元,用于根据第二雷达点云数据,获取对应第二雷达点云数据的深层雷达特征图。
[0212]
第二获取单元,用于根据第二视觉图像,获取对应第二视觉图像的图像特征图。
[0213]
特征融合单元,用于将深层雷达特征图和图像特征图进行特征融合,得到融合特征图。
[0214]
可选地,第一获取单元具体用于:
[0215]
对第二雷达点云数据进行坐标转换,得到坐标转换后的第三雷达点云数据;
[0216]
根据预设内参,获取第三雷达点云数据投影至二维图像平面上的第一映射数据,第一映射数据包括雷达点的深度、水平方向速度和垂直方向速度。
[0217]
根据第一映射数据进行预设渲染处理,得到对应第二雷达点云数据的原始雷达特征图。
[0218]
根据原始雷达特征图,获取深层雷达特征图。
[0219]
可选地,第二获取单元具体用于:
[0220]
对第二视觉图像进行特征提取,得到多个不同尺度的特征图。
[0221]
将多个不同尺度的特征图进行插值处理,得到多个相同尺度的特征图。
[0222]
对多个相同尺度的特征图进行融合处理,得到对应第二视觉图像的图像特征图。
[0223]
可选地,第三处理模块包括:
[0224]
第一处理单元,用于在目标检测网络包括多个检测网络的情况下,将融合特征图分别输入多个检测网络,得到第二目标的预测值;其中,第二目标的预测值包括第一热力图上第二目标的中心点的预测值、第二热力图上第二目标的顶点的预测值、顶点相对中心点的预测偏移值、中心点的预测偏移误差值、顶点的预测偏移误差值、第二目标的预测维度、第二目标的预测深度、第二目标在第二视觉图像上的预测二维尺寸。
[0225]
可选地,本发明实施例的装置还包括:
[0226]
数据更新模块,用于在第二目标的顶点的预测值超出预测二维尺寸,则将第二约束框上目标点的值更新为第二目标的顶点的预测值,其中,第二约束框为二维约束框,且与
预测二维尺寸对应,目标点的值为第二约束框上距离第二目标的顶点最近的点。
[0227]
可选地,网络训练模块包括:
[0228]
计算单元,用于根据第二目标的预测值和第二目标的真实值,计算目标检测网络的损失函数。
[0229]
网络训练单元,用于基于损失函数训练目标检测网络,得到训练后的目标检测网络。
[0230]
可选地,三维位置信息包括顶点位置信息、维度信息和深度信息;相应的,第二处理模块503包括:
[0231]
第三获取单元,用于根据顶点位置信息、维度信息和深度信息,获取第一目标的第一位置信息和旋转角度信息。
[0232]
第二处理单元,用于确定第一目标的三维识别信息,三维识别信息包括维度信息、深度信息、第一位置信息和旋转角度信息。
[0233]
可选地,第三获取单元具体用于:
[0234]
根据顶点位置信息、维度信息和深度信息,计算得到顶点投影至二维图像平面上的第二映射数据。
[0235]
根据第二映射数据、顶点位置信息、所述维度信息和第一目标的位姿信息,计算得到所述第一位置信息和所述旋转角度信息。
[0236]
本发明实施例提供的数据处理装置能够实现图1至图4的方法实施例中的各个过程,为避免重复,这里不再赘述。
[0237]
本发明实施例提供的数据处理装置,通过获取第一视觉图像和第一雷达点云数据,第一雷达点云数据为与第一视觉图像对应的雷达点云数据;然后将第一视觉图像和第一雷达点云数据输入至训练后的目标检测网络,获得第一视觉图像上第一目标所在第一约束框的三维位置信息,第一约束框为三维约束框;最后根据三维位置信息,确定第一目标的三维识别信息,如此,通过在特征级别上对视觉图像和雷达点云数据进行融合,突破单一传感器的限制,不仅可以估计出目标的大小位置,而且目标识别结果不易受到环境的影响,进而提升三维目标识别的性能。
[0238]
如图6所示,本发明实施例还提供一种电子设备,包括处理器600和收发器610,收发器在处理器的控制下接收和发送数据,处理器600用于执行以下操作:
[0239]
获取第一视觉图像和第一雷达点云数据,第一雷达点云数据为与第一视觉图像对应的雷达点云数据;
[0240]
将第一视觉图像和第一雷达点云数据输入至训练后的目标检测网络,获得第一视觉图像上第一目标所在第一约束框的三维位置信息,第一约束框为三维约束框;
[0241]
根据三维位置信息,确定第一目标的三维识别信息。
[0242]
可选地,处理器600还用于:
[0243]
获取用于网络训练的第二视觉图像和第二雷达点云数据,第二雷达点云数据为与第二视觉图像对应的雷达点云数据;
[0244]
根据第二视觉图像和第二雷达点云数据,获取融合特征图;
[0245]
将融合特征图输入目标检测网络,得到第二视觉图像上第二目标的预测值;
[0246]
根据第二目标的预测值和预先标记的第二目标的真实值训练目标检测网络,得到
训练后的目标检测网络。
[0247]
可选地,处理器600还用于:
[0248]
根据第二雷达点云数据,获取对应第二雷达点云数据的深层雷达特征图;
[0249]
根据第二视觉图像,获取对应第二视觉图像的图像特征图;
[0250]
将深层雷达特征图和图像特征图进行特征融合,得到融合特征图。
[0251]
可选地,处理器600还用于:
[0252]
对第二雷达点云数据进行坐标转换,得到坐标转换后的第三雷达点云数据;
[0253]
根据预设内参,获取第三雷达点云数据投影至二维图像平面上的第一映射数据,第一映射数据包括雷达点的深度、水平方向速度和垂直方向速度。
[0254]
根据第一映射数据进行预设渲染处理,得到对应第二雷达点云数据的原始雷达特征图。
[0255]
根据原始雷达特征图,获取深层雷达特征图。
[0256]
可选地,处理器600还用于:
[0257]
对第二视觉图像进行特征提取,得到多个不同尺度的特征图。
[0258]
将多个不同尺度的特征图进行插值处理,得到多个相同尺度的特征图。
[0259]
对多个相同尺度的特征图进行融合处理,得到对应第二视觉图像的图像特征图。
[0260]
可选地,处理器600还用于:
[0261]
在目标检测网络包括多个检测网络的情况下,将融合特征图分别输入多个检测网络,得到第二目标的预测值;其中,第二目标的预测值包括第一热力图上第二目标的中心点的预测值、第二热力图上第二目标的顶点的预测值、顶点相对中心点的预测偏移值、中心点的预测偏移误差值、顶点的预测偏移误差值、第二目标的预测维度、第二目标的预测深度、第二目标在第二视觉图像上的预测二维尺寸。
[0262]
可选地,处理器600还用于:
[0263]
在第二目标的顶点的预测值超出预测二维尺寸,则将第二约束框上目标点的值更新为第二目标的顶点的预测值,其中,第二约束框为二维约束框,且与预测二维尺寸对应,目标点的值为第二约束框上距离第二目标的顶点最近的点。
[0264]
可选地,处理器600还用于:
[0265]
根据第二目标的预测值和第二目标的真实值,计算目标检测网络的损失函数。
[0266]
基于损失函数训练目标检测网络,得到训练后的目标检测网络。
[0267]
可选地,三维位置信息包括顶点位置信息、维度信息和深度信息;相应的,处理器600还用于:
[0268]
根据顶点位置信息、维度信息和深度信息,获取第一目标的第一位置信息和旋转角度信息。
[0269]
确定第一目标的三维识别信息,三维识别信息包括维度信息、深度信息、第一位置信息和旋转角度信息。
[0270]
可选地,处理器600还用于:
[0271]
根据顶点位置信息、维度信息和深度信息,计算得到顶点投影至二维图像平面上的第二映射数据。
[0272]
根据第二映射数据、顶点位置信息、所述维度信息和第一目标的位姿信息,计算得
到所述第一位置信息和所述旋转角度信息。
[0273]
本发明实施例的电子设备,通过获取第一视觉图像和第一雷达点云数据,第一雷达点云数据为与第一视觉图像对应的雷达点云数据;然后将第一视觉图像和第一雷达点云数据输入至训练后的目标检测网络,获得第一视觉图像上第一目标所在第一约束框的三维位置信息,第一约束框为三维约束框;最后根据三维位置信息,确定第一目标的三维识别信息,如此,通过在特征级别上对视觉图像和雷达点云数据进行融合,突破单一传感器的限制,不仅可以估计出目标的大小位置,而且目标识别结果不易受到环境的影响,进而提升三维目标识别的性能。
[0274]
本发明实施例还提供一种电子设备,包括处理器,存储器,存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述数据处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
[0275]
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述数据处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(read-only memory,简称rom)、随机存取存储器(random access memory,简称ram)、磁碟或者光盘等。
[0276]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0277]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
[0278]
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献