一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

目标检测方法、装置、存储介质、电子设备及车辆与流程

2022-07-31 07:43:17 来源:中国专利 TAG:


1.本公开涉及智能网联汽车技术领域,尤其涉及一种目标检测方法、装置、存储介质、电子设备及车辆。


背景技术:

2.目标检测是一种基于目标几何统计及特征的图像分割技术,其应用领域十分广泛,例如,可以应用于机器人或者自动驾驶等领域。现阶段,2d目标检测技术逐渐趋于成熟,部分学术成果已投入商用。但由于缺少深度、尺寸等现实世界几何信息,2d目标检测并不能很好地满足实际应用需求。并且,在物理世界里,物体往往包含有长度、宽度、高度以及朝向角度等几何信息。
3.相关技术中,在2d目标检测的基础上提供目标在三维空间里的尺寸、姿态等真实信息,以实现3d目标检测。但是,3d目标检测对遮挡、截断物体检测的准确率比较低,因此,如何提高目标检测的准确率成为亟待解决的问题。


技术实现要素:

4.为克服相关技术中存在的问题,本公开提供一种目标检测方法、装置、存储介质、电子设备及车辆。
5.根据本公开实施例的第一方面,提供一种目标检测方法,所述方法包括:
6.获取待检测图像对应的特征图和深度估计图;
7.根据所述特征图和所述深度估计图,确定深度卷积核;
8.根据所述特征图和所述深度卷积核,通过预先训练的区域候选网络模型,确定所述待检测图像中的候选区域;
9.根据所述候选区域,检测所述待检测图像中的目标物体。
10.可选地,所述获取待检测图像对应的特征图包括:
11.将所述待检测图像输入预先训练的特征图获取模型,以获取所述特征图获取模型输出的所述特征图。
12.可选地,所述根据所述特征图和所述深度估计图,确定深度卷积核包括:
13.将所述特征图和所述深度估计图输入预先训练的卷积核生成模型,以获取所述卷积核生成模型输出的所述深度卷积核。
14.可选地,所述区域候选网络模型包括卷积层,所述根据所述特征图和所述深度卷积核,通过预先训练的区域候选网络模型,确定所述待检测图像中的候选区域包括:
15.将所述特征图和所述深度卷积核输入所述区域候选网络模型,以便所述区域候选网络模型的卷积层按照所述深度卷积核对所述特征图进行卷积处理,得到所述待检测图像中的候选区域。
16.可选地,所述根据所述候选区域,检测所述待检测图像中的目标物体包括:
17.将所述候选区域输入预先训练的目标检测模型,以获取所述目标检测模型输出的
所述目标物体的类型和边框。
18.根据本公开实施例的第二方面,提供一种目标检测装置,所述装置包括:
19.获取模块,被配置为获取待检测图像对应的特征图和深度估计图;
20.卷积核确定模块,被配置为根据所述特征图和所述深度估计图,确定深度卷积核;
21.区域确定模块,被配置为根据所述特征图和所述深度卷积核,通过预先训练的区域候选网络模型,确定所述待检测图像中的候选区域;
22.检测模块,被配置为根据所述候选区域,检测所述待检测图像中的目标物体。
23.可选地,所述获取模块,还被配置为:
24.将所述待检测图像输入预先训练的特征图获取模型,以获取所述特征图获取模型输出的所述特征图。
25.可选地,所述卷积核确定模块,还被配置为:
26.将所述特征图和所述深度估计图输入预先训练的卷积核生成模型,以获取所述卷积核生成模型输出的所述深度卷积核。
27.可选地,所述区域候选网络模型包括卷积层,所述区域确定模块,还被配置为:
28.将所述特征图和所述深度卷积核输入所述区域候选网络模型,以便所述区域候选网络模型的卷积层按照所述深度卷积核对所述特征图进行卷积处理,得到所述待检测图像中的候选区域。
29.可选地,所述检测模块,还被配置为:
30.将所述候选区域输入预先训练的目标检测模型,以获取所述目标检测模型输出的所述目标物体的类型和边框。
31.可选地,所述区域候选网络模型通过以下方式训练得到:
32.获取多个样本集,所述样本集包括样本图像对应的样本特征图和样本深度估计图;
33.通过多个所述样本集对目标神经网络模型进行训练,得到所述区域候选网络模型。
34.根据本公开实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开第一方面所提供的目标检测方法的步骤。
35.根据本公开实施例的第四方面,提供一种电子设备,包括:
36.存储器,其上存储有计算机程序;
37.处理器,用于执行所述存储器中的所述计算机程序,以实现本公开第一方面所提供的目标检测方法的步骤。
38.根据本公开实施例的第五方面,提供一种车辆,包括:车身及第四方面所述的电子设备。
39.本公开的实施例提供的技术方案可以包括以下有益效果:通过获取待检测图像对应的特征图和深度估计图;根据所述特征图和所述深度估计图,确定深度卷积核;根据所述特征图和所述深度卷积核,通过预先训练的区域候选网络模型,确定所述待检测图像中的候选区域;根据所述候选区域,检测所述待检测图像中的目标物体。也就是说,本公开可以根据待检测图像对应的特征图和深度估计图确定深度卷积核,并按照该深度卷积核对该待
检测图像对应的特征图进行处理,由于该深度卷积核能够感知该待检测图像的深度信息,从而克服了二维卷积的局限性,能够准确识别该待检测图像中的半遮挡物体,提高了目标检测的准确率。
40.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
41.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
42.图1是根据本公开一示例性实施例示出的一种目标检测方法的流程图;
43.图2是根据本公开一示例性实施例示出的一种目标检测示意图;
44.图3是根据本公开一示例性实施例示出的一种边框示意图;
45.图4是根据本公开一示例性实施例示出的另一种目标检测方法的流程图;
46.图5是根据本公开一示例性实施例示出的一种目标检测装置的框图;
47.图6是根据本公开一示例性实施例示出的一种电子设备的框图。
具体实施方式
48.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
49.需要说明的是,本技术中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下,并获得由相应装置所有者给予授权的情况下进行的。
50.在详细介绍本公开的具体实施方式之前,首先对本公开的应用场景进行说明。目前,基于单目图像的3d目标检测包括直接的目标检测方法和增加额外信息的目标检测方法。直接的目标检测方法是通过几何约束回归三维框,未显式表达单目图像缺少的深度信息,所以严重依赖先验知识和2d目标检测的准确性,基于此,直接的目标检测方法的误差比较大、精度比较低。增加额外信息的目标检测方法是将二维图像预测的深度估计图,转换为伪激光雷达数据或bev(bird eye view,鸟瞰图)。相比直接的目标检测方法,增加额外信息的目标检测方法的检测性能有所提升,但是,本公开的发明人发现,增加额外信息的目标检测方法受限于预测深度与真实世界深度的差距,目标检测的准确率仍然比较低,并且,这种方法不能有效地利用从rgb图像中提取的高级语义信息,导致红绿灯标志、车道线等目标会出现误检的情况。
51.为了克服以上相关技术中存在的技术问题,本公开提供了一种目标检测方法、装置、存储介质、电子设备及车辆,可以根据待检测图像对应的特征图和深度估计图确定深度卷积核,并按照该深度卷积核对该待检测图像对应的特征图进行处理,由于该深度卷积核能够感知该待检测图像的深度信息,从而克服了二维卷积的局限性,能够准确识别该待检测图像中的半遮挡物体,提高了目标检测的准确率。
52.下面结合具体实施例对本公开进行说明。
53.图1是根据本公开一示例性实施例示出的一种目标检测方法的流程图,如图1所示,该方法可以包括:
54.s101、获取待检测图像对应的特征图和深度估计图。
55.其中,该待检测图像可以是rgb图像,以自动驾驶场景为例,该待检测图像可以是车辆在行驶过程中拍摄的rgb图像;该特征图可以是能够体现该待检测图像中的待检测物体特征的图像,该待检测物体可以根据应用场景确定,示例地,若该应用场景为自动驾驶,则该待检测物体可以是汽车、行人、信号灯等。
56.在本步骤中,在获取该待检测图像后,可以将该待检测图像输入预先训练的特征图获取模型,以获取该特征图获取模型输出的该特征图。其中,该特征图获取模型可以是根据imagenet分类数据集,通过现有技术的模型训练方法,基于第一神经网络模型训练得到的模型,此处不再赘述。该第一神经网络模型可以包括resnet-50网络模型中除最后的全卷积层和池化层之外的模块,本公开的第一神经网络模型还可以在resnet-50网络模型的基础上嵌入注意力机制,基于该注意力机制,通过该特征图获取模型获取的特征图能够联系该待检测图像中目标物体邻近像素的上下文信息。
57.需要说明的是,上述获取该待检测图像对应的特征图的方法只是一种实现方式,也可以通过相关技术的其它方法获取该特征图,本公开对此不作限定。
58.在获取该待检测图像后,可以通过dorn算法获取该待检测图像对应的深度估计图。另外,本公开对获取该特征图和该深度估计图的顺序不作限定。
59.s102、根据该特征图和该深度估计图,确定深度卷积核。
60.在本步骤中,在得到该待检测图像对应的特征图和深度估计图后,可以将该特征图和该深度估计图输入预先训练的卷积核生成模型,以获取该卷积核生成模型输出的该深度卷积核。其中,该卷积核生成模型可以是通过现有技术的模型训练方法,基于第二神经网络模型训练得到的模型,此处不再赘述。该第二神经网络模型可以包括resnet-50网络模型中的前三个模块(conv1,conv2_x,conv3_x,conv4_x)。
61.s103、根据该特征图和该深度卷积核,通过预先训练的区域候选网络模型,确定该待检测图像中的候选区域。
62.其中,该区域候选网络模型可以包括卷积层。
63.在本步骤中,在得到该深度卷积核后,可以将该特征图和该深度卷积核输入该区域候选网络模型,以便该区域候选网络模型的卷积层按照该深度卷积核对该特征图进行卷积处理,得到该待检测图像中的候选区域。
64.示例地,图2是根据本公开一示例性实施例示出的一种目标检测示意图,如图2所示,将该待检测图像输入该特征图获取模型后,得到该待检测图像对应的特征图,将该特征图和该深度估计图输入该卷积核生成模型后,得到该目标卷积核,将该特征图和该目标卷积核输入该区域候选网络模型,得到该待检测图像中的候选区域。
65.其中,该区域候选网络模型可以通过以下方式训练得到:获取多个样本集,该样本集包括样本图像对应的样本特征图和样本深度估计图;通过多个样本集对目标神经网络模型进行训练,得到该区域候选网络模型。
66.示例地,在获取多个样本集后,可以循环执行模型训练步骤,直至根据目标候选区
域确定训练后的目标神经网络模型满足预设停止迭代条件,将训练后的目标神经网络模型作为该区域候选网络模型,其中,多个样本集可以是kitti和nuscenes数据集,该预设停止迭代条件可以是相关技术中常用的停止迭代的条件,本公开对此不作限定。该模型训练步骤可以包括:
67.s1、将该样本特征图和该样本深度估计图输入该目标神经网络模型,以获取该目标神经网络模型输出的目标候选区域。
68.s2、在根据该目标候选区域确定该目标神经网络模型不满足该预设停止迭代条件的情况下,根据该目标候选区域确定目标损失值,根据该目标损失值更新该目标神经网络模型的参数,得到训练后的目标神经网络模型,并将该训练后的目标神经网络模型作为新的目标神经网络模型。示例地,可以通过sgd(stochastic gradient descent,随机梯度下降)算法更新该目标神经网络模型的参数。
69.s104、根据该候选区域,检测该待检测图像中的目标物体。
70.在本步骤中,在确定该待检测图像中的候选区域后,可以从该候选区域中筛选出具有较高概率属于前景的目标区域,并确定该目标区域中的物体的类型和该物体对应的边框。图3是根据本公开一示例性实施例示出的一种边框示意图,如图3所示,物体的类型为汽车,白色线条框为物体对应的边框,该边框为可视化三维框。
71.采用上述方法,可以根据待检测图像对应的特征图和深度估计图确定深度卷积核,并按照该深度卷积核对该待检测图像对应的特征图进行处理,由于该深度卷积核能够感知该待检测图像的深度信息,从而克服了二维卷积的局限性,能够准确识别该待检测图像中的半遮挡物体,提高了目标检测的准确率。
72.图4是根据本公开一示例性实施例示出的另一种目标检测方法的流程图,如图4所示,该方法可以包括:
73.s401、将待检测图像输入预先训练的特征图获取模型,以获取该特征图获取模型输出的特征图。
74.其中,该待检测图像可以是rgb图像,以自动驾驶场景为例,该待检测图像可以是车辆在行驶过程中拍摄的rgb图像;该特征图可以是能够体现该待检测图像中的待检测物体特征的图像,该待检测物体可以根据应用场景确定,示例地,若该应用场景为自动驾驶,则该待检测物体可以是汽车、行人、信号灯等。
75.s402、获取该待检测图像对应的深度估计图。
76.s403、将该特征图和该深度估计图输入预先训练的卷积核生成模型,以获取该卷积核生成模型输出的深度卷积核。
77.s404、将该特征图和该深度卷积核输入区域候选网络模型,以便该区域候选网络模型的卷积层按照该深度卷积核对该特征图进行卷积处理,得到该待检测图像中的候选区域。
78.其中,该区域候选网络模型可以包括卷积层。
79.s405、将该候选区域输入预先训练的目标检测模型,以获取该目标检测模型输出的该目标物体的类型和边框。
80.其中,该目标检测模型可以是基于yolo(you only look once)的2d-3d单级检测,通过相关技术的模型训练方法训练得到的模型,此处不再赘述。
81.采用上述方法,可以根据待检测图像对应的特征图和深度估计图确定深度卷积核,并按照该深度卷积核对该待检测图像对应的特征图进行处理,由于该深度卷积核能够感知该待检测图像的深度信息,从而克服了二维卷积的局限性,能够准确识别该待检测图像中的半遮挡物体,提高了目标检测的准确率。进一步地,本公开获取的特征图能够联系该待检测图像中目标物体邻近像素的上下文信息,使得根据该特征图获取的深度卷积核能够有效提取半遮挡物体局部上下文信息的特征,对半遮挡物体的识别更加准确,从而进一步提高了目标检测的准确率,并且,本公开的目标检测方法简化了网络结构,使得检测过程中的计算开销比较小,从而可以节省计算资源。
82.图5是根据本公开一示例性实施例示出的一种目标检测装置的框图,如图5所示,该装置可以包括:
83.获取模块501,被配置为获取待检测图像对应的特征图和深度估计图;
84.卷积核确定模块502,被配置为根据该特征图和该深度估计图,确定深度卷积核;
85.区域确定模块503,被配置为根据该特征图和该深度卷积核,通过预先训练的区域候选网络模型,确定该待检测图像中的候选区域;
86.检测模块504,被配置为根据该候选区域,检测该待检测图像中的目标物体。
87.可选地,该获取模块501,还被配置为:
88.将该待检测图像输入预先训练的特征图获取模型,以获取该特征图获取模型输出的该特征图。
89.可选地,该卷积核确定模块502,还被配置为:
90.将该特征图和该深度估计图输入预先训练的卷积核生成模型,以获取该卷积核生成模型输出的该深度卷积核。
91.可选地,该区域候选网络模型包括卷积层,该区域确定模块503,还被配置为:
92.将该特征图和该深度卷积核输入该区域候选网络模型,以便该区域候选网络模型的卷积层按照该深度卷积核对该特征图进行卷积处理,得到该待检测图像中的候选区域。
93.可选地,该检测模块504,还被配置为:
94.将该候选区域输入预先训练的目标检测模型,以获取该目标检测模型输出的该目标物体的类型和边框。
95.可选地,该区域候选网络模型通过以下方式训练得到:
96.获取多个样本集,该样本集包括样本图像对应的样本特征图和样本深度估计图;
97.通过多个该样本集对目标神经网络模型进行训练,得到该区域候选网络模型。
98.通过上述装置,可以根据待检测图像对应的特征图和深度估计图确定深度卷积核,并按照该深度卷积核对该待检测图像对应的特征图进行处理,由于该深度卷积核能够感知该待检测图像的深度信息,从而克服了二维卷积的局限性,能够准确识别该待检测图像中的半遮挡物体,提高了目标检测的准确率。
99.关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
100.本公开还提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开提供的目标检测方法的步骤。
101.图6是根据本公开一示例性实施例示出的一种电子设备600的框图。例如,电子设
备600可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
102.参照图6,电子设备600可以包括以下一个或多个组件:处理组件602,存储器604,电力组件606,多媒体组件608,音频组件610,输入/输出(i/o)的接口612,传感器组件614,以及通信组件616。
103.处理组件602通常控制电子设备600的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令,以完成上述的目标检测方法的全部或部分步骤。此外,处理组件602可以包括一个或多个模块,便于处理组件602和其他组件之间的交互。例如,处理组件602可以包括多媒体模块,以方便多媒体组件608和处理组件602之间的交互。
104.存储器604被配置为存储各种类型的数据以支持在电子设备600的操作。这些数据的示例包括用于在电子设备600上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。
105.电力组件606为电子设备600的各种组件提供电力。电力组件606可以包括电源管理系统,一个或多个电源,及其他与为电子设备600生成、管理和分配电力相关联的组件。
106.多媒体组件608包括在所述电子设备600和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件608包括一个前置摄像头和/或后置摄像头。当电子设备600处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
107.音频组件610被配置为输出和/或输入音频信号。例如,音频组件610包括一个麦克风(mic),当电子设备600处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中,音频组件610还包括一个扬声器,用于输出音频信号。
108.i/o接口612为处理组件602和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
109.传感器组件614包括一个或多个传感器,用于为电子设备600提供各个方面的状态评估。例如,传感器组件614可以检测到电子设备600的打开/关闭状态,组件的相对定位,例如所述组件为电子设备600的显示器和小键盘,传感器组件614还可以检测电子设备600或电子设备600一个组件的位置改变,用户与电子设备600接触的存在或不存在,电子设备600方位或加速/减速和电子设备600的温度变化。传感器组件614可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器,
如cmos或ccd图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件614还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
110.通信组件616被配置为便于电子设备600和其他设备之间有线或无线方式的通信。电子设备600可以接入基于通信标准的无线网络,如wifi,2g或3g,或它们的组合。在一个示例性实施例中,通信组件616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件616还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。
111.在示例性实施例中,电子设备600可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述目标检测方法。
112.在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器604,上述指令可由电子设备600的处理器620执行以完成上述目标检测方法。例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
113.在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的目标检测方法的代码部分。
114.根据本公开实施例还提供一种车辆,包括:车身及上述电子设备600。
115.本领域技术人员在考虑说明书及实践本公开后,将容易想到本公开的其它实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
116.应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献