一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种三维目标检测模型的确定方法、装置及电子设备与流程

2022-11-19 10:29:44 来源:中国专利 TAG:


1.本技术涉及三维目标检测技术领域,尤其涉及一种三维目标检测模型的确定方法、装置及电子设备。


背景技术:

2.三维(3d)目标检测技术能够提供物体在三维场景下的长、宽、高、深度、旋转角度等重要信息,在路径规划和避免碰撞等任务中具有至关重要的作用。目前主流3d目标检测方法包括基于单目rgb图像、基于双目rgb图像、基于激光点云、基于图像点云融合四类方法。基于激光点云方法及基于图像点云融合方法需要使用点云图,点云图由高精度激光雷达采集,这两种方法识别精度较高但成本昂贵。基于单目rgb图像方法仅需单目摄像头即可,成本最低、运行速度也最快,但精度有待提高。
3.近年来,不少研究通过改善单目3d目标检测模型的结构提高了单目3d目标检测的准确率和性能。然而这些研究都是通过研究人员手工设计深度神经网络的结构,来提高单目3d目标检测的准确率和性能,极大程度上依赖于研究人员的经验,需要花费研究人员不少的精力和时间,且针对不同硬件及不同应用场景,需要设计的深度神经网络结构也不相同。
4.因此,有必要提出一种能够自动搜索出适合特定应用场景下的单目3d目标检测模型结构的方法。


技术实现要素:

5.有鉴于此,本技术实施例通过提供一种三维目标检测模型的确定方法、装置及电子设备,用以至少解决现有技术中存在的上述技术问题。
6.根据本技术第一方面,本技术实施例提供了一种三维目标检测模型的确定方法,包括:获取训练样本;训练样本包括目标场景下的单目rgb样本图像及对应的标签信息;获取初始神经网络,初始神经网络包括特征提取模块、特征融合模块和检测头模块,特征提取模块包括多个基本特征提取单元,每个基本特征提取单元包括多个候选特征提取操作,多个候选特征提取操作的输出进行加权求和后,作为基本特征提取单元的输出;采用训练样本对初始神经网络进行训练,确定各个候选特征提取操作对应的权重,并得到初始检测模型;根据各个候选特征提取操作对应的权重及初始检测模型确定目标场景下的单目三维目标检测模型。
7.可选地,多个候选特征提取操作包括:3*3卷积网络、5*5卷积网络、7*7卷积网络、3*3可形变卷积网络、5*5可形变卷积网络、7*7可形变卷积网络、3*3深度可分离卷积网络。
8.可选地,多个基本特征提取单元被划分为依次相连的多个阶段特征提取模块,同一个阶段特征提取模块中各基本特征提取单元的输出通道数相同。
9.可选地,阶段特征提取模块的个数为n,特征融合模块包括m个特征层,其中,m>n,第1至第n个特征层的输入数据分别包括与该特征层对应的阶段特征提取模块的输出数据,
以及该特征层的下一个特征层的输出数据的上采样数据;第n 1至第m个特征层的输入数据分别为该特征层的上一个特征层的输出数据的下采样数据。
10.可选地,初始神经网络训练时的损失函数通过延迟损失函数及内存占用损失函数进行加权计算得到。
11.可选地,三维目标检测模型的确定方法还包括:采用训练样本对单目三维目标检测模型进行训练,得到最终的单目三维目标检测模型。
12.可选地,三维目标检测模型的确定方法还包括:获取待检测单目rgb图像;基于最终的单目三维目标检测模型对待检测单目rgb图像进行处理,得到三维目标检测结果。
13.根据本技术第二方面,本技术实施例提供了一种三维目标检测模型的确定装置,包括:第一获取模块,用于获取训练样本;训练样本包括目标场景下的单目rgb样本图像及对应的标签信息;第二获取模块,用于获取初始神经网络,初始神经网络包括特征提取模块、特征融合模块和检测头模块,特征提取模块包括多个基本特征提取单元,每个基本特征提取单元包括多个候选特征提取操作,多个候选特征提取操作的输出进行加权求和后,作为基本特征提取单元的输出;训练模块,用于采用训练样本对初始神经网络进行训练,确定各个候选特征提取操作对应的权重,并得到初始检测模型;确定模块,用于根据各个候选特征提取操作对应的权重及初始检测模型确定目标场景下的单目三维目标检测模型。
14.根据本技术第三方面,本技术实施例提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器执行如第一方面或第一方面任意实施方式中的三维目标检测模型的确定方法。
15.根据本技术第四方面,本技术实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使计算机执行如第一方面或第一方面任意实施方式中的三维目标检测模型的确定方法。
16.本技术实施例提供的三维目标检测模型的确定方法、装置及电子设备,通过获取训练样本;训练样本包括目标场景下的单目rgb样本图像及对应的标签信息;获取初始神经网络,初始神经网络包括特征提取模块、特征融合模块和检测头模块,特征提取模块包括多个基本特征提取单元,每个基本特征提取单元包括多个候选特征提取操作,多个候选特征提取操作的输出进行加权求和后,作为基本特征提取单元的输出;采用训练样本对初始神经网络进行训练,确定各个候选特征提取操作对应的权重,并得到初始检测模型;根据各个候选特征提取操作对应的权重及初始检测模型确定目标场景下的单目三维目标检测模型;如此,只要设置好适合目标场景下的单目三维目标检测的初始神经网络,并在初始神经网络中设置所有候选的网络结构,即设置好搜索空间,就可以自动从适合单目三维目标检测的搜索空间中搜索出最佳的特征提取网络,从而得到适合单目三维目标检测的单目三维目标检测模型,节省人力手工设计网络的时间和成本。
17.上述说明仅是本技术技术方案的概述,为了能够更清楚了解本技术的技术手段,而可依照说明书的内容予以实施,并且为了让本技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本技术的具体实施方式。
附图说明
18.图1为本技术实施例中一种三维目标检测模型的确定方法的流程示意图;
19.图2为本技术实施例中包含多个候选特征提取操作的基本特征提取模块结构示意图;
20.图3为本技术实施例中一种初始神经网络的结构示意图;
21.图4为本技术实施例中内存占用回归器根据输入的二值化体系结构编码预测占用的内存的流程示意图;
22.图5为本技术实施例中一种三维目标检测模型的确定装置的结构示意图;
23.图6为本技术实施例中一种电子设备的硬件结构示意图。
具体实施方式
24.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
25.本技术实施例提供了一种三维目标检测模型的确定方法,可应用于路径规划和避免碰撞等自动驾驶领域,如图1所示,三维目标检测模型的确定方法包括:
26.s101,获取训练样本;训练样本包括目标场景下的单目rgb样本图像及对应的标签信息。
27.在本技术实施例中,目标场景包括但不限于路径规划和避免碰撞等领域的场景,例如自动驾驶场景。
28.单目rgb样本图像为利用单个摄像头采集的图像,标签信息为对车辆、行人等进行的3d边框标注,3d边框标注能够给出目标车辆或行人的大小、与摄像头的距离以及旋转角度等信息。
29.针对自动驾驶场景,在一些实施例中,使用的训练样本可选自kitti3d目标检测数据集。kitti3d目标检测数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合制作,是目前国际上最大的自动驾驶场景下的算法评测数据集。kitti3d目标检测数据集包含市区、乡村和高速公路等场景采集的真实图像数据,每张图像中最多达15辆车和30个行人,还有各种程度的遮挡与截断。整个数据集由389对立体图像和光流图,39.2km视觉测距序列以及超过20万张3d边框标注物体的单目rgb图像组成。我们只选取其中的包含3d边框标注物体的单目rgb图像作为自动驾驶场景下的三维目标检测模型的训练数据集,其中,3d边框标注作为标签信息,并将训练数据集按照6:1:3的比例划为分为训练样本、验证样本和测试样本。
30.s102,获取初始神经网络,初始神经网络包括特征提取模块、特征融合模块和检测头模块,特征提取模块包括多个基本特征提取单元,每个基本特征提取单元包括多个候选特征提取操作,多个候选特征提取操作的输出进行加权求和后,作为基本特征提取单元的输出。
31.在本实施例中,由于通过对神经网络进行训练,能够得到进行三维目标检测的模型,因此,构建的初始神经网络需要包括特征提取模块、特征融合模块和检测头模块。特征
提取模块用于提取图像中的车辆、行人特征。特征融合模块用于对特征提取模块提取的车辆、行人等特征进行融合,得到融合特征;检测头模块用于对融合特征进行检测,得到三维目标检测结果。而为了实现通过自动搜索的方式得到单目三维目标检测模型,初始神经网络的结构需要包括所有候选操作的超网结构。候选操作包括特征提取模块中的候选操作,特征融合模块中的候选操作和检测头模块中的候选操作。
32.在本实施例中,针对单目三维目标检测,由于特征提取模块的候选操作较多,而特征融合模块和检测头模块的候选操作较少,因此,可在特征提取模块中设置多个基本特征提取单元,每个基本特征提取单元包括多个候选特征提取操作,并设置多个候选特征提取操作的输出进行加权求和后,作为基本特征提取单元的输出,也即每个基本特征提取单元的输入数据会分别输入到每个候选特征提取操作,这些候选特征提取操作的输出结果都会乘上架构权重α并进行求和后,作为该基本特征提取单元的输出。然后选定常用的或符合需求的特征融合模块和检测头模块结构,形成初始神经网络。
33.在一些实施例中,特征融合模块包括多个特征层。检测头模块包括多个检测头,每个检测头的输入数据为对应特征层的输出数据。
34.在一些实施例中,每个检测头可包括3*3卷积层和1*1卷积层。即每个检测头的输入数据通过3*3卷积核和1*1卷积核后得到最终的三维目标检测结果。
35.s103,采用训练样本对初始神经网络进行训练,确定各个候选特征提取操作对应的权重,并得到初始检测模型。
36.在本实施例中,由于基本特征提取单元中各个候选特征提取操作引入了架构权重,并进行加权求和,从而采用训练样本对初始神经网络进行训练,确定各个候选特征提取操作对应的权重时,可以使用梯度下降算法对各个候选特征提取操作对应的权重进行优化。确定了各个候选特征提取操作对应的权重及初始神经网络的网络参数,即完成对初始神经网络的训练,训练后的初始神经网络即为初始检测模型。
37.s104,根据各个候选特征提取操作对应的权重及初始检测模型确定目标场景下的单目三维目标检测模型。
38.在本实施例中,确定了各个候选特征提取操作对应的权重后,可以选择权重较高的一个或几个候选特征提取操作,作为各个基本特征提取单元的结构,从而得到目标场景下的单目三维目标检测模型。
39.在一些实施方式中,为了简化各个基本特征提取单元的结构,可以确定权重最高的候选特征提取操作作为各个基本特征提取单元的结构,从而得到目标场景下的单目三维目标检测模型。
40.本技术实施例提供的三维目标检测模型的确定方法,通过获取训练样本;训练样本包括目标场景下的单目rgb样本图像及对应的标签信息;获取初始神经网络,初始神经网络包括特征提取模块、特征融合模块和检测头模块,特征提取模块包括多个基本特征提取单元,每个基本特征提取单元包括多个候选特征提取操作,多个候选特征提取操作的输出进行加权求和后,作为基本特征提取单元的输出;采用训练样本对初始神经网络进行训练,确定各个候选特征提取操作对应的权重,并得到初始检测模型;根据各个候选特征提取操作对应的权重及初始检测模型确定目标场景下的单目三维目标检测模型;如此,只要设置好适合目标场景下的单目3d目标检测的初始神经网络,并在初始神经网络中设置所有候选
的网络结构,即设置好搜索空间,就可以自动从适合单目3d目标检测的搜索空间中搜索出最佳的特征提取网络,从而得到适合单目3d目标检测的单目三维目标检测模型,节省人力手工设计网络的时间和成本。
41.在一个可选的实施例中,多个候选特征提取操作如图2所示,包括:3*3卷积网络、5*5卷积网络、7*7卷积网络、3*3可形变卷积网络、5*5可形变卷积网络、7*7可形变卷积网络、3*3深度可分离卷积网络。
42.在本实施例中,每个基本特征提取单元包括3*3卷积网络、5*5卷积网络、7*7卷积网络、3*3可形变卷积网络、5*5可形变卷积网络、7*7可形变卷积网络、3*3深度可分离卷积网络。每个特征提取单元的输入数据分别进行3*3卷积操作、5*5卷积操作、7*7卷积操作、3*3可形变卷积操作、5*5可形变卷积操作、7*7可形变卷积操作、3*3深度可分离卷积操作,得到对应的输出特征图,然后将这些输出特征图分别进行bn(batch-normalization)和线性整流函数(linear rectification function,relu)激活操作后,乘上架构权重α,并进行求和,得到该特征提取单元的输出数据。
43.其中,3*3卷积网络、5*5卷积网络、7*7卷积网络为普通的卷积网络。3*3可形变卷积网络、5*5可形变卷积网络、7*7可形变卷积网络不同于普通卷积网络,它的网格形状是可变形的,每个网格点都可以通过一个可学习的偏移量移动,而权重和卷积操作作用于这些移动的网格点。可形变卷积可以解决传统的卷积由于规则形状固定,不能完全适应目标的形状的缺点。在自动驾驶领域常有由于目标角度变化在图像上形状大幅改变的情况,可形变卷积能在轻微增加计算量的条件下提高自动驾驶领域单目3d目标检测的性能。3*3深度可分离卷积网络可分为3*3的逐通道卷积网络和逐点卷积网络两部分,输入数据先经过3*3的逐通道卷积操作后再通过逐点卷积操作得到输出特征图。逐通道卷积的每一个通道只被一个卷积核卷积,经过逐通道卷积操作后的输出特征图的输出通道数与输入数据通道数完全一样。逐点卷积即为卷积核尺寸为1*1的卷积操作。3*3深度可分离卷积能显著减少计算量。
44.在本实施例中,通过将多个候选特征提取操作设置为3*3卷积网络、5*5卷积网络、7*7卷积网络、3*3可形变卷积网络、5*5可形变卷积网络、7*7可形变卷积网络、3*3深度可分离卷积网络,可以使得基本特征提取单元的候选结构中既包括普通的卷积网络、又包括可变形的卷积网络和深度可分离卷积网络,增加基本特征提取单元的候选结构的多样性。
45.在一个可选的实施例中,如图3所示,多个基本特征提取单元被划分为依次相连的多个阶段特征提取模块,同一个阶段特征提取模块中各基本特征提取单元的输出通道数相同。
46.在本实施例中,阶段特征提取模块的个数为n,n个阶段特征提取模块依次相连,依次记为c1-cn,n的值可根据实际情况的需要调整,当需要模型更小,速度更快但不需要过高的精度时可适当减少n的值,反之可增大n的值。在一些实施例中,优选地,n的值为5。
47.每个阶段特征提取模块包括a个依次相连的基本特征提取单元,a的值可根据实际情况手动调整。在一些实施例中,优选地,c1-c5阶段特征提取模块中的基本特征提取单元的个数分别为4,8,16,32,16。
48.在本实施例中,为了防止特征通道数过多造成大量重复特征带来的计算,则可以设置同一个阶段特征提取模块中各基本特征提取单元的输出通道数相同,并按顺序在不同
阶段按倍数增长。在一些实施例中,优先地,c1-c5阶段特征提取模块中基本特征提取单元的输出通道数分别为16,32,64,128,128。
49.在一些实施方式中,为了防止特征通道数过多造成大量重复特征带来的计算,则可以设置同一个阶段特征提取模块中各基本特征提取单元的输出通道数相同,并按顺序在不同阶段按倍数增长。
50.在本实施例中,通过将多个基本特征提取单元被划分为依次相连的多个阶段特征提取模块,并使得同一个阶段特征提取模块中各基本特征提取单元的输出通道数相同,可以使得特征提取模块由多个阶段特征提取模块组成,且便于同一个阶段特征提取模块中各基本特征提取单元对其输入数据的处理,从而快速得到多个阶段性、多个尺度的输出特征图及不同的细节信息,能够提高三维目标检测结果的准确性。
51.在一些实施方式中,如图3所示,阶段特征提取模块的个数为n,特征融合模块包括m个特征层,其中,m>n,第1至第n个特征层的输入数据分别包括与该特征层对应的阶段特征提取模块的输出数据,以及该特征层的下一个特征层的输出数据的上采样数据;第n 1至第m个特征层的输入数据分别为该特征层的上一个特征层的输出数据的下采样数据。
52.具体实施时,针对第1至第n个特征层中的每个特征层,首先可以得到该特征层对应的阶段特征提取模块的输出数据,以及该特征层的下一个特征层的输出数据的上采样数据,然后将得到的这两个数据进行逐元素相加后,得到该特征层的输入数据。
53.在本实施例中,通过设置特征融合模块的特征层的数量大于阶段特征提取模块的数量,可以使得特征融合模块不仅能够对每个阶段特征提取模块的输出数据进行特征融合,得到更多的特征信息,还可以进一步对尺度较小的输出特征图进一步进行下采样并融合,得到更加细节的特征信息,提高三维目标检测结果的准确性。
54.在一些实施例中,优选地,m的数值可为n 1。
55.在一个可选的实施例中,初始神经网络训练时的损失函数通过延迟损失函数及内存占用损失函数进行加权计算得到。
56.具体实施时,初始神经网络训练时的损失函数为正则化损失函数。
57.其计算式如下:
58.min l
val
(w
*
(a),a)=λmax(memreg(ε(a))-target,0) l
lat
(w
*
(a),a);
59.s.t.w
*
(a)=argminwl
train
(w,a)。
60.其中,l
val
代表验证样本的交叉熵损失;l
lat
代表延迟损失函数,延迟损失为先测算出每个候选特征提取操作的延迟,然后直接计算出训练后的整体初始神经网络结构的延迟;a为经过训练样本训练后的初始神经网络的网络参数;w代表训练后的初始神经网络的网络权重;λ是正则化因子;memreg代表内存占用回归器,如图4所示,内存占用回归器会根据输入的二值化体系结构编码预测占用的内存;target代表目标内存占用大小;ε代表一个不可微的二值化函数,它将训练后的初始神经网络的网络参数a作为输入,并输出一个二值化体系结构编码;l
train
(w,a)代表训练集上的交叉熵损失函数。
61.在一些实施方式中,在从搜索空间中搜索合适的特征提取网络前,需要先在搜索空间中采样一些特征提取网络结构,并在实际硬件平台上跑出占用内存,得到内存占用回归器的训练数据,然后用内存占用回归器的训练数据训练神经网络,得到内存占用回归器,应用于后续的搜索阶段。
62.在本实施例中,通过在损失函数中引入延迟损失和占用内存损失,可以使得单目三维目标检测模型能满足较低的延迟和内存占用的条件,满足实际应用情况。
63.在一个可选的实施例中,三维目标检测模型的确定方法还包括:采用训练样本对单目三维目标检测模型进行训练,得到最终的单目三维目标检测模型。
64.具体实施时,由于单目三维目标检测模型是基于所有的候选特征提取操作进行同时训练后得到,因此,得到的单目三维目标检测模型可能还存在一些网络参数不是最优的,因此,可以采用训练样本对单目三维目标检测模型进行训练,以优化单目三维目标检测模型,得到最终的单目三维目标检测模型。
65.在一个可选的实施例中,三维目标检测模型的确定方法还包括:获取待检测单目rgb图像;基于最终的单目三维目标检测模型对待检测单目rgb图像进行处理,得到三维目标检测结果。
66.具体实施时,在得到最终的单目三维目标检测模型后,就可以进行目标场景下的三维目标检测。因此,可以将待检测单目rgb图像输入到最终的单目三维目标检测模型中,得到三维目标检测结果。三维目标检测结果具体可以为目标在待检测单目rgb图像中的三维包围框的8个顶点的坐标信息。
67.下述以一具体实施例对本技术三维目标检测模型的确定方法进行介绍:
68.1、获取训练样本;例如多张分辨率为1392
×
512的单目rgb图像,包括车辆和行人的三维标注框;
69.2、构建包含所有可能操作的初始神经网络,即超网结构,该超网结构包括特征提取模块、特征融合模块和检测头模块。特征提取模块包括c1-c5阶段特征提取模块,各个阶段特征提取模块的基本特征提取单元数分别为4,8,16,32,16,每个基本特征提取单元包括候选的3*3卷积网络、5*5卷积网络、7*7卷积网络、3*3可形变卷积网络、5*5可形变卷积网络、7*7可形变卷积网络、3*3深度可分离卷积网络。3*3卷积网络、5*5卷积网络、7*7卷积网络、3*3可形变卷积网络、5*5可形变卷积网络、7*7可形变卷积网络、3*3深度可分离卷积网络输出进行加权求和后,作为基本特征提取单元的输出。
70.特征融合模块包括p1-p7特征层,在每个阶段特征提取模块完成了其内部个数的基本特征提取单元的操作后得到的输出特征图,会送入对应的特征融合模块中进行特征融合。对于p1-p5特征层,输入数据为对应阶段提取模块的输出特征图和下一层特征层的输出特征图经上采样后,进行逐元素相加后得到。对于p6-p7特征层,输入特征图为上一层特征图的下采样的结果。
71.检测头模块包括h1-h7这7个检测头,每个检测头包括3*3卷积层和1*1卷积层。每个特征层的输出特征图会进入相应的检测头模块,即输入数据通过3*3卷积核和1*1卷积核后得到最终的三维目标检测结果,三维目标检测结果为目标在单目rgb图像中的3d包围框的8个顶点的坐标信息。
72.3、采用训练数据对初始神经网络进行训练。首先进行预训练,预训练只优化卷积核和bn层的权重和网络参数,而3*3卷积网络、5*5卷积网络、7*7卷积网络、3*3可形变卷积网络、5*5可形变卷积网络、7*7可形变卷积网络、3*3深度可分离卷积网络的架构权重均固定为1,训练时只计算真实值和预测值的交叉熵损失,直到损失值不再下降时停止训练。随后在得到的预训练模型上,优化架构权重。最后在模型收敛时,在每个基本特征提取单元中
选取架构权重最大的作为最优的特征提取网络,使得每个基本特征提取单元仅包括最优的特征提取网络,得到单目三维目标检测模型。
73.在搜索网络时使用以下正则化损失函数。其计算式如下:
74.min l
val
(w
*
(a),a)=λmax(memreg(ε(a))-target,0) l
lat
(w
*
(a),a);
75.s.t.w
*
(a)=argminwl
train
(w,a)。
76.其中,l
val
代表验证样本的交叉熵损失;l
lat
代表延迟损失函数,延迟损失为先测算出每个候选特征提取操作的延迟,然后直接计算出训练后的整体初始神经网络结构的延迟;a为经过训练样本训练后的初始神经网络的网络参数;w代表训练后的初始神经网络的网络权重;λ是正则化因子;memreg代表内存占用回归器,内存占用回归器会根据输入的二值化体系结构编码预测占用的内存;target代表目标内存占用大小;ε代表一个不可微的二值化函数,它将训练后的初始神经网络的网络参数a作为输入,并输出一个二值化体系结构编码;l
train
(w,a)代表训练集上的交叉熵损失。通过在损失函数中引入延迟损失和占用内存损失,使得最终训练的单目三维目标检测模型能满足较低的延迟和内存占用的条件,满足实际应用情况。
77.4、最后再采用训练样本对单目三维目标检测模型进行调优预测,得到最终的单目三维目标检测模型。
78.本技术实施例还提供了一种三维目标检测模型的确定装置,如图5所示,包括:
79.第一获取模块51,用于获取训练样本;训练样本包括目标场景下的单目rgb样本图像及对应的标签信息;
80.第二获取模块52,用于获取初始神经网络,初始神经网络包括特征提取模块、特征融合模块和检测头模块,特征提取模块包括多个基本特征提取单元,每个基本特征提取单元包括多个候选特征提取操作,多个候选特征提取操作的输出进行加权求和后,作为基本特征提取单元的输出;
81.训练模块53,用于采用训练样本对初始神经网络进行训练,确定各个候选特征提取操作对应的权重,并得到初始检测模型;
82.确定模块54,用于根据各个候选特征提取操作对应的权重及初始检测模型确定目标场景下的单目三维目标检测模型。
83.本技术实施例提供的三维目标检测模型的确定装置,通过获取训练样本;训练样本包括目标场景下的单目rgb样本图像及对应的标签信息;获取初始神经网络,初始神经网络包括特征提取模块、特征融合模块和检测头模块,特征提取模块包括多个基本特征提取单元,每个基本特征提取单元包括多个候选特征提取操作,多个候选特征提取操作的输出进行加权求和后,作为基本特征提取单元的输出;采用训练样本对初始神经网络进行训练,确定各个候选特征提取操作对应的权重,并得到初始检测模型;根据各个候选特征提取操作对应的权重及初始检测模型确定目标场景下的单目三维目标检测模型;如此,只要设置好适合目标场景下的单目3d目标检测的初始神经网络,并在初始神经网络中设置所有候选的网络结构,即设置好搜索空间,就可以自动从适合单目3d目标检测的搜索空间中搜索出最佳的特征提取网络,从而得到适合单目3d目标检测的单目三维目标检测模型,节省人力手工设计网络的时间和成本。
84.在一些实施例中,多个候选特征提取操作包括:3*3卷积网络、5*5卷积网络、7*7卷
积网络、3*3可形变卷积网络、5*5可形变卷积网络、7*7可形变卷积网络、3*3深度可分离卷积网络。
85.在一些实施例中,多个基本特征提取单元被划分为依次相连的多个阶段特征提取模块,同一个阶段特征提取模块中各基本特征提取单元的输出通道数相同。
86.在一些实施例中,阶段特征提取模块的个数为n,特征融合模块包括m个特征层,其中,m>n,第1至第n个特征层的输入数据分别包括与该特征层对应的阶段特征提取模块的输出数据,以及该特征层的下一个特征层的输出数据的上采样数据;第n 1至第m个特征层的输入数据分别为该特征层的上一个特征层的输出数据的下采样数据。
87.在一些实施例中,初始神经网络训练时的损失函数通过延迟损失函数及内存占用损失函数进行加权计算得到。
88.在一些实施例中,三维目标检测模型的确定装置还包括:第二训练模块55,用于采用训练样本对单目三维目标检测模型进行训练,得到最终的单目三维目标检测模型。
89.在一些实施例中,三维目标检测模型的确定装置还包括:处理模块56,用于获取待检测单目rgb图像;基于最终的单目三维目标检测模型对待检测单目rgb图像进行处理,得到三维目标检测结果。
90.根据本技术的实施例,本技术还提供了一种电子设备和一种可读存储介质。
91.图6示出了可以用来实施本技术的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本技术的实现。
92.如图6所示,设备800包括计算单元801,其可以根据存储在只读存储器(rom)802中的计算机程序或者从存储单元808加载到随机访问存储器(ram)803中的计算机程序,来执行各种适当的动作和处理。在ram 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、rom 802以及ram 803通过总线804彼此相连。输入/输出(i/o)接口805也连接至总线804。
93.设备800中的多个部件连接至i/o接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
94.计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如三维目标检测模型的确定方法。例如,在一些实施例中,三维目标检测模型的确定方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由rom 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到ram 803并由计算单元801执行时,可以执行上文描
述的三维目标检测模型的确定方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行三维目标检测模型的确定方法。
95.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、片上系统(soc)、复杂可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
96.用于实施本技术的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
97.在本技术的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
98.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
99.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
100.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计
算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
101.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本技术公开的技术方案所期望的结果,本文在此不进行限制。
102.此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本技术的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
103.以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以所述权利要求的保护范围为准。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献