一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

目标检测方法、装置、电子设备和存储介质与流程

2022-02-19 03:29:21 来源:中国专利 TAG:


1.本公开涉及人工智能领域,具体涉及计算机视觉和深度学习技术,可用于目标检测和视频分析场景下,尤其涉及目标检测方法、装置、电子设备和存储介质。


背景技术:

2.在智慧城市、智能交通、视频分析场景下,对视频中的车辆、行人、物体等事物或目标进行精准检测,可以为异常事件检测、犯人追踪、车辆统计等任务提供帮助。因此,如何实现对视频中的目标进行检测是非常重要的。


技术实现要素:

3.本公开提供了一种用于目标检测方法、装置、电子设备和存储介质。
4.根据本公开的一方面,提供了一种目标检测方法,包括:获取目标图像,以及获取多个类别的特征均值;对所述目标图像进行特征提取,以得到目标特征图;采用目标识别模型的映射网络对所述目标特征图进行特征映射,以得到多个维度的映射特征;针对每个维度的映射特征,分别确定与多个类别的特征均值之间的相似度;根据所述相似度,将每个维度的所述映射特征与所述多个类别的特征均值进行融合,以得到各维度的融合特征;根据各维度的融合特征进行目标检测。
5.根据本公开的另一方面,提供了一种目标检测装置,包括:获取模块,用于获取目标图像,以及获取多个类别的特征均值;提取模块,用于对所述目标图像进行特征提取,以得到目标特征图;映射模块,用于采用目标识别模型的映射网络对所述目标特征图进行特征映射,以得到多个维度的映射特征;第一确定模块,用于针对每个维度的映射特征,分别确定与多个类别的特征均值之间的相似度;融合模块,用于根据所述相似度,将每个维度的所述映射特征与所述多个类别的特征均值进行融合,以得到各维度的融合特征;检测模块,用于根据各维度的融合特征进行目标检测。
6.根据本公开的又一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开上述一方面提出的目标检测方法。
7.根据本公开的再一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本公开上述一方面提出的目标检测方法。
8.根据本公开的还一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开上述一方面提出的目标检测方法。
9.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
10.附图用于更好地理解本方案,不构成对本公开的限定。其中:
11.图1为本公开实施例一所提供的目标检测方法的流程示意图;
12.图2为本公开实施例二所提供的目标检测方法的流程示意图;
13.图3为本公开实施例三所提供的目标检测方法的流程示意图;
14.图4为本公开实施例四所提供的目标检测方法的流程示意图;
15.图5为本公开实施例所提供的目标识别模型的结构示意图;
16.图6为本公开实施例五所提供的目标检测方法的流程示意图;
17.图7为本公开实施例六所提供的目标检测方法的流程示意图;
18.图8为本公开实施例所提供的目标特征图与位置图的融合过程示意图;
19.图9为本公开实施例七所提供的目标检测方法的流程示意图;
20.图10为本公开实施例所提供的目标识别模型的映射网络对目标特征图特征映射过程示意图;
21.图11为本公开实施例八所提供的目标检测装置的结构示意图;
22.图12示出了可以用来实施本公开的实施例的示例电子设备1200的示意性框图。
具体实施方式
23.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
24.目前,主要通过基于快速候选区域(fast rcnn)和transformer的进行视频帧中的目标进行检测。上述两种方式虽然结合的当前帧前后的特征,但是,每次帧数有限,帧间增强的特征能力有限,效果优化上限限制明显,类间的差异性明显不够,导致不能增强特征。
25.针对上述问题,本公开提出一种目标检测方法、装置、电子设备和存储介质。
26.下面参考附图描述本公开实施例的目标检测方法、装置、电子设备和存储介质。
27.图1为本公开实施例一所提供的目标检测方法的流程示意图。
28.本公开实施例以该目标检测方法被配置于目标检测装置中来举例说明,该目标检测装置可以应用于任一电子设备中,以使该电子设备可以执行目标检测功能。
29.其中,电子设备可以为任一具有计算能力的设备,例如可以为个人电脑、移动终端、服务器等,移动终端例如可以为车载设备、手机、平板电脑、个人数字助理、穿戴式设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。
30.如图1所示,该目标检测方法可以包括以下步骤:
31.步骤101,获取目标图像,以及获取多个类别的特征均值。
32.在本公开实施例中,目标图像为需要进行目标检测的图像,该目标图像可以为在线采集的图像,比如可以通过网络爬虫技术,在线采集待检测的目标图像,或者,目标图像也可以为线下采集的图像,或者,目标图像也可以为实时采集的图像,或者,目标图像也可以为人工合成的图像,等等,本公开实施例对此并不做限制。
33.另外,目标图像也可以为视频中的某一帧视频帧,可以从视频中提取目标图像。
34.在本公开实施例中,多个类别的特征均值可为目标图像中的多个类别的特征均值。
35.作为一种示例,多个类别的特征均值可为m*c的向量,m可表示目标图像中的目标数据集,目标数据集包括目标的类别,c可为预测框或目标的特征维度,在目标识别模型训练过程中,通过匹配策略,确定与样本图像标注的真实物体匹配的目标产生的特征,并通过指数移动平均的方式对上一轮训练过程中预测的多个类别的特征均值进行更新,以使在整个目标数据集上学到所有目标类别的特征并通过平均的方式进行记录。其中,目标可以包括车辆、人、物体、动物等任一目标对象,类别可以包括车辆、人等类别。
36.作为另一种示例,多个类别的特征均值可为设定的特征均值。
37.步骤102,对目标图像进行特征提取,以得到目标特征图。
38.在本公开实施例中,可对该目标图像进行特征提取,得到该目标图像对应的目标特征图。
39.在本公开实施例的一种可能的实现方式中,为了提升特征提取结果的准确性和可靠性,可以基于深度学习技术,对目标图像进行特征提取,得到该目标图像对应的目标特征图。
40.作为一种示例,可以使用主流的主干网络(backbone)对目标图像进行特征提取,得到目标特征图。例如,主干网络可以包括残差网络(resnet)系列(比如resnet 34,resnet 50,resnet 101等网络)、darknet(使用c和cuda编写的开源的神经网络框架)系列(比如darknet19,darknet53)等。
41.在本公开实施例的一种可能的实现方式中,为了实现兼顾特征提取结果的准确性和节省资源,可以根据视频业务的应用场景,选择合适的主干网络对目标图像进行特征提取。例如,可以将主干网络划分为轻量级的结构(比如resnet18,resnet34,darknet19等)、中型结构(比如resnet50,resnext(resnext是resnet和inception(一种卷积神经网络)的结合体)50,darknet53等)、重型结构(比如resnet101,resnext152),可以根据应用场景,选择具体的网络结构。
42.步骤103,采用目标识别模型的映射网络对目标特征图进行特征映射,以得到多个维度的映射特征。
43.作为一种示例,可将目标特征图与对应的位置图进行融合,得到输入特征图,将输入特征图输入目标识别模型,可将目标识别模型输出的多个待预测目标的解码特征,作为多个维度的映射特征。
44.作为另一种示例,可将目标特征图输入目标识别模型的rpn网络进行感兴趣区域预测,以得到多个感兴趣区域的特征图,并将多个感兴趣区域的特征图输入目标识别模型的池化层进行尺寸调整,进而确定对应维度的映射特征。
45.步骤104,针对每个维度的映射特征,分别确定与多个类别的特征均值之间的相似度。
46.在本公开实施例中,针对每个维度的映射特征,可采用相似度算法确定该映射特征与多个类别的特征均值之间的相似度。
47.步骤105,根据相似度,将每个维度的映射特征与多个类别的特征均值进行融合,以得到各维度的融合特征。
48.作为一种示例,可从多个类别的特征均值中,选取目标类别的特征均值,将目标类别的特征均值与该一维的映射特征进行融合,从而得到各维度的融合特征。
49.作为另一种示例,可确定各类别的特征均值对应的权重,进而,根据各类别的特征均值对应的权重,将各类别的特征均值与该一个维度的映射特征进行融合,得到该一个维度的融合特征。
50.步骤106,根据各维度的融合特征进行目标检测。
51.在本公开实施例中,可对各维度的融合特征进行目标检测,得到对应的检测结果,比如,可以基于目标检测算法,对各维度的融合特征进行目标检测,得到对应的检测结果。其中,检测结果可以包括预测框的预测位置和预测框内目标所属的预测类别。
52.在本公开实施例的一种可能的实现方式中,为了提升目标检测结果的准确性和可靠性,可以基于深度学习技术,对各维度的融合特征进行目标检测,得到对应的检测结果
53.综上,通过获取目标图像,以及获取多个类别的特征均值;对目标图像进行特征提取,以得到目标特征图;采用目标识别模型的映射网络对目标特征图进行特征映射,以得到多个维度的映射特征;针对每个维度的映射特征,分别确定与多个类别的特征均值之间的相似度;根据相似度,将每个维度的映射特征与多个类别的特征均值进行融合,以得到各维度的融合特征;根据各维度的融合特征进行目标检测。由此,利用多个类别的特征均值与每个维度的映射特征进行融合,可增强类别之间的差异性,提高了目标检测结果的准确度,可避免目标检测结果的误分类。
54.为了清楚说明上述实施例中是如何根据相似度,将每个维度的映射特征与多个类别的特征均值进行融合的,本公开还提出一种目标检测方法。
55.图2为本公开实施例二所提供的目标检测方法的流程示意图。
56.如图2所示,该目标检测方法可包括如下步骤:
57.步骤201,获取目标图像,以及获取多个类别的特征均值。
58.步骤202,对目标图像进行特征提取,以得到目标特征图。
59.步骤203,采用目标识别模型的映射网络对目标特征图进行特征映射,以得到多个维度的映射特征。
60.步骤204,针对每个维度的映射特征,分别确定与多个类别的特征均值之间的相似度。
61.步骤205,针对任意的一个维度的映射特征,根据与多个类别的特征均值之间的相似度,从多个类别的特征均值中,选取目标类别的特征均值。
62.在本公开实施例中,针对任意的一个维度的映射特征,可采用相似度算法计算该一个维度的映射特征分别与多个类别的特征均值之间的相似度,从多个类别的特征均值中,选取与该一个维度的映射特征相似度最高的类别的特征均值,将该类别的特征均值作为目标类别的特征均值。
63.步骤206,将目标类别的特征均值与一个维度的映射特征进行融合,以得到一个维度的融合特征。
64.在本公开实施例中,可将目标类别的特征均值与一个维度的映射特征进行相加,将相加结果作为一个维度的融合特征。
65.步骤207,根据各维度的融合特征进行目标检测。
66.需要说明的是,步骤201至204、步骤207的执行过程可以参见上述实施例的执行过程,在此不做赘述。
67.综上,通过针对任意的一个维度的映射特征,根据与多个类别的特征均值之间的相似度,从多个类别的特征均值中,选取目标类别的特征均值,将目标类别的特征均值与一个维度的映射特征进行融合,以得到一个维度的融合特征,由此,通过目标类别的特征均值与一个维度的映射特征进行融合,可增强各维度的融合特征,从而进一步提升目标检测结果的准确性和可靠性。
68.为了清楚说明上述实施例中是如何根据相似度,将每个维度的映射特征与多个类别的特征均值进行融合的,本公开还提出一种目标检测方法。
69.图3为本公开实施例三所提供的目标检测方法的流程示意图。
70.如图3所示,该目标检测方法可包括如下步骤:
71.步骤301,获取目标图像,以及获取多个类别的特征均值。
72.步骤302,对目标图像进行特征提取,以得到目标特征图。
73.步骤303,采用目标识别模型的映射网络对目标特征图进行特征映射,以得到多个维度的映射特征。
74.步骤304,针对每个维度的映射特征,分别确定与多个类别的特征均值之间的相似度。
75.步骤305,针对任意的一个维度的映射特征,根据与多个类别的特征均值之间的相似度,确定各类别的特征均值对应的权重。
76.在本公开实施例中,针对任意的一个维度的映射特征,可根据相似度算法计算该任意的一个维度的映射特征与多个类别的特征均值中的各个类别的特征均值的相似度,根据该任意的一个维度的映射特征与多个类别的特征均值中的各个类别的特征均值的相似度,确定各个类别的特征均值对应的权重,比如,该任意的一个维度的映射特征与多个类别的特征均值中的一个类别的特征均值的相似度较高,可将该类别的特征均值对应的权重设置为较大。又比如,可将该任意的一个维度的映射特征与多个类别的特征均值中的各个类别的特征均值的相似度,作为各个类别的特征均值对应的权重。
77.步骤306,根据各类别的特征均值对应的权重,将各类别的特征均值与一个维度的映射特征进行融合,以得到一个维度的融合特征。
78.进一步地,可将各个类别的特征对应的权重与各个类别的特征均值进行加权求和,并将加权求和后的各个类别的特征均值与一个维度的映射特征进行相加,将相加结果作为该一个维度的融合特征。
79.步骤307,根据各维度的融合特征进行目标检测。
80.需要说明的是,步骤301至304、步骤307的执行过程可以参见上述实施例的执行过程,在此不做赘述。
81.综上,通过针对任意的一个维度的映射特征,根据与多个类别的特征均值之间的相似度,确定各类别的特征均值对应的权重;根据各类别的特征均值对应的权重,将各类别的特征均值与一个维度的映射特征进行融合,以得到一个维度的融合特征。由此,根据各类别的特征均值对应的权重,将各类别的特征均值与一个维度的映射特征进行融合,可增强各维度的融合特征,从而进一步提升目标检测结果的准确性和可靠性。
82.为了清楚说明上述实施例中是如何根据各维度的融合特征进行目标检测,本公开还提出一种目标检测方法。
83.图4为本公开实施例四所提供的目标检测方法的流程示意图。
84.如图4所示,该目标检测方法可包括如下步骤:
85.步骤401,获取目标图像,以及获取多个类别的特征均值。
86.步骤402,对目标图像进行特征提取,以得到目标特征图。
87.步骤403,采用目标识别模型的映射网络对目标特征图进行特征映射,以得到多个维度的映射特征。
88.步骤404,针对每个维度的映射特征,分别确定与多个类别的特征均值之间的相似度。
89.步骤405,根据相似度,将每个维度的映射特征与多个类别的特征均值进行融合,以得到各维度的融合特征。
90.步骤406,将各维度的融合特征分别输入目标识别模型中对应的预测层进行目标检测,以确定预测框的预测位置,以及预测框内的目标所属的预测类别。
91.应当理解的是,目标识别模型可以识别数量较多的目标,然而受限于图像或视频帧的取景画面,图像中包含的目标个数有限,为了兼顾目标检测结果的准确性,以及避免资源浪费,可以根据预测维度的个数,确定预测层的个数。其中,预测层的个数与预测维度的个数相同。
92.在本公开实施例中,可以将各维度的融合特征分别输入至对应的预测层,以得到各预测层输出的预测框的预测位置。
93.在本技术实施例中,可以根据各预测层所预测类别,确定对应预测层输出的预测框内目标所属的预测类别。
94.作为一种示例,以目标识别模型为以transformer为基本结构的模型进行示例性说明,目标识别模型的结构可以如图5所示,预测层为ffn(feed

forward network,前馈网络)。
95.其中,目标特征图为h
×
w
×
c的立体特征,可以对立体的目标特征图进行分块处理,得到序列化的特征向量序列(即将融合后的目标特征图转化为token(特征图中的元素)),即转化为h
×
w个c维特征向量,序列化的特征向量输入至编码器进行注意力学习(注意力机制可以达到帧间增强效果),得到的特征向量序列再输入至解码器,解码器根据输入的特征向量序列进行注意力学习,得到的解码特征再使用ffn进行最终的目标检测,即可以由ffn进行分类和回归的预测,得到检测结果。其中,ffn输出的box即为预测框的预测位置,可以根据预测框的预测位置确定预测框;ffn输出的class即为预测框内目标所属的预测类别;no object是指没有目标。也就是说,可以将解码特征输入ffn,由ffn进行目标的回归预测,以得到预测框的预测位置,并由ffn进行目标的类别预测,以得到预测框内的目标所属的预测类别。
96.作为一种示例,假设融合特征的个数为4个,如图5所示,可以通过4个ffn进行目标的类别预测,得到4个类别(class)。
97.需要说明的是,步骤401至405的执行过程可以参见上述实施例的执行过程,在此不做赘述。
98.综上,通过将各维度的融合特征分别输入目标识别模型中对应的预测层进行目标检测,以确定预测框的预测位置,以及预测框内的目标所属的预测类别,由此,可准确地确定预测框的预测位置,以及预测框内的目标所属的预测类别,提高了目标检测结果的准确性和可靠性。
99.为了清楚地说明实际类别对应的特征均值如何学习到所有类别的特征均值,本公开还提出一种目标检测方法。
100.图6为本公开实施例五所提供的目标检测方法的流程示意图。
101.如图6所示,该目标检测方法可包括如下步骤:
102.步骤601,获取目标图像,以及获取多个类别的特征均值。
103.步骤602,对目标图像进行特征提取,以得到目标特征图。
104.步骤603,采用目标识别模型的映射网络对目标特征图进行特征映射,以得到多个维度的映射特征。
105.步骤604,针对每个维度的映射特征,分别确定与多个类别的特征均值之间的相似度。
106.步骤605,根据相似度,将每个维度的映射特征与多个类别的特征均值进行融合,以得到各维度的融合特征。
107.步骤606,将各维度的融合特征分别输入目标识别模型中对应的预测层进行目标检测,以确定预测框的预测位置,以及预测框内的目标所属的预测类别。
108.步骤607,从各预测层中,确定预测类别与实际类别匹配的目标预测层。
109.在本公开实施例中,可将各预测层输出的预测类别与实际类别进行匹配,可将与实际类别匹配的预测类别对应的预测层作为目标预测层。比如,在解码器的输出有4个不同颜色的特征,如果其中某个颜色的特征经过ffn之后预测出的预测框内的目标所属的预测类别与实际类别匹配,则将与实际类别匹配的预测类别对应的预测层作为目标预测层。
110.步骤608,根据目标预测层所输入的融合特征,更新实际类别对应的特征均值。
111.进而,可根据目标预测层所输入的融合特征,对实际类别对应的特征均值进行更新,可对实际类别进行动态更新和维护。
112.需要说明的是,步骤601至606的执行过程可以参见上述实施例的执行过程,在此不做赘述。
113.综上,通过从各预测层中,确定预测类别与实际类别匹配的目标预测层,根据目标预测层所输入的融合特征,更新实际类别对应的特征均值。由此,可对实际类别进行动态更新和维护,可使目标识别模型学习到所有类别的特征均值,提高目标识别模型的特征表达能力,从而提高了目标检测结果的准确性和可靠性。
114.为了清楚地说明如何采用目标识别模型的映射网络对目标特征图进行特征映射,以得到多个维度的映射特征,本公开还提出一种目标检测方法。
115.图7为本公开实施例六所提供的目标检测方法的流程示意图。
116.如图7所示,该目标检测方法可包括如下步骤:
117.步骤701,获取目标图像,以及获取多个类别的特征均值。
118.步骤702,对目标图像进行特征提取,以得到目标特征图。
119.步骤703,将目标特征图与对应的位置图进行融合,以得到输入特征图。
120.在本公开实施例中,位置图中的各元素与目标特征图中的各元素一一对应,其中,位置图中的每个元素,用于指示目标特征图中对应元素在目标图像中的坐标。
121.在本公开实施例的一种可能的实现方式中,可以将目标特征图与对应的位置图进行拼接,得到输入特征图。
122.作为一种示例,以目标识别模型为以transformer为基本结构的模型进行示例,本公开的目标检测原理可以如图5所示,可以将cnn输出的目标特征图与位置图相加或拼接,得到输入特征图。
123.在本公开实施例的一种可能的实现方式中,可以将目标特征图与对应的位置图进行拼接,得到拼接特征图,将拼接特征图输入卷积层,以融合得到输入特征图。
124.作为一种示例,可以通过如图8所示的卷积层,对将目标特征图与对应的位置图进行融合,以得到输入特征图。图8中,位置图中的i分量(i coordinate)是指各元素在目标图像中的坐标中的x轴分量,j分量(j coordinate)是指各元素在目标图像中的坐标中的y轴分量。
125.也就是说,可以将目标特征图w
×
h
×
c与对应的位置图中的i分量和j分量进行拼接,得到拼接特征图w
×
h
×
(c 2),将拼接特征图输入卷积层,以融合得到输入特征图w
’×
h
’×
c’。w为目标特征图中的多个宽度分量,h为目标特征图中多个高度分量,c为目标特征图中的多个维度分量,w’为输入特征图中的多个宽度分量,h’为输入特征图中多个高度分量,c’为输入特征图中的多个维度分量。
126.步骤704,将输入特征图输入目标识别模型的编码器进行编码,以得到编码特征。
127.步骤705,将编码特征输入目标识别模型的解码器进行解码,以得到目标图像中多个待预测目标的解码特征。
128.在本公开实施例的一种可能的实现方式中,可以采用目标识别模型中的编码器对输入特征图进行编码,得到编码特征,并采用目标识别模型中的解码器对编码特征进行解码,以得到目标图像中多个待预测目标的解码特征。例如,可以根据解码器中的模型参数对编码特征执行矩阵乘法运算,得到注意力机制中的q、k、v分量,根据q、k、v分量,确定目标图像中多个待预测目标的解码特征。
129.由此,采用编码器

解码器的结构,对输入特征图进行处理,即可以基于注意力机制,比如自注意力机制(self

attention)和多头注意力机制(multi

headattention)对输入特征图进行特征交互,输出增强后的特征,即解码特征,可以提升模型的预测效果。
130.步骤706,将多个待预测目标的解码特征作为多个维度的映射特征。
131.进而,将多个待预测目标的解码特征作为多个维度的映射特征。
132.步骤707,针对每个维度的映射特征,分别确定与多个类别的特征均值之间的相似度。
133.步骤708,根据相似度,将每个维度的映射特征与多个类别的特征均值进行融合,以得到各维度的融合特征。
134.步骤709,根据各维度的融合特征进行目标检测。
135.需要说明的是,步骤701至702、步骤707至709的执行过程可以参见上述实施例的执行过程,在此不做赘述。
136.综上,通过将目标特征图与对应的位置图进行融合,以得到输入特征图;将输入特
征图输入目标识别模型的编码器进行编码,以得到编码特征;将编码特征输入目标识别模型的解码器进行解码,以得到目标图像中多个待预测目标的解码特征;将多个待预测目标的解码特征作为多个维度的映射特征。由此,结合位置图和特征图,可准确地确定多个维度的映射特征,进而可以提升目标检测结果的准确性。
137.为了清楚地说明如何采用目标识别模型的映射网络对所述目标特征图进行特征映射,以得到多个维度的映射特征,本公开还提出一种目标检测方法。
138.图9为本公开实施例七所提供的目标检测方法的流程示意图。
139.如图9所示,该目标检测方法可包括如下步骤:
140.步骤901,获取目标图像,以及获取多个类别的特征均值。
141.步骤902,对目标图像进行特征提取,以得到目标特征图。
142.步骤903,将目标特征图输入目标识别模型的rpn网络进行感兴趣区域预测,以得到多个感兴趣区域的特征图。
143.在本公开实施例中,如图10所示,可将目标特征图输入目标识别模型的rpn网络(regionproposal network,区域生成网络)进行感兴趣区域预测,以得到多个感兴趣区域的特征图。
144.步骤904,将多个感兴趣区域的特征图输入目标识别模型的池化层进行尺寸调整,以得到各感兴趣区域符合固定尺寸的目标特征图。
145.进而,将多个感兴趣区域的特征图输入目标识别模型的池化层,池化层可对非均匀尺寸的感兴趣区域的特征图执行最大池化,进行尺寸调整,以得到各感兴趣区域符合固定尺寸的目标特征图。图10中roi pooling表示目标识别模型的池化层。
146.步骤905,根据各感兴趣区域的目标特征图,确定对应维度的映射特征。
147.进一步地,可将各感兴趣区域的目标特征图输入至目标识别模型的全连接层,全连接层可输出对应维度的映射特征。图10中的fc可表示全连接层。
148.步骤906,针对每个维度的映射特征,分别确定与多个类别的特征均值之间的相似度。
149.步骤907,根据相似度,将每个维度的映射特征与多个类别的特征均值进行融合,以得到各维度的融合特征。
150.步骤908,根据各维度的融合特征进行目标检测。
151.需要说明的是,步骤901至902、步骤906至908的执行过程可以参见上述实施例的执行过程,在此不做赘述。
152.综上,通过将目标特征图输入目标识别模型的rpn网络进行感兴趣区域预测,以得到多个感兴趣区域的特征图;将多个感兴趣区域的特征图输入目标识别模型的池化层进行尺寸调整,以得到各感兴趣区域符合固定尺寸的目标特征图;根据各感兴趣区域的目标特征图,确定对应维度的映射特征。由此,可准确地确定对应维度的映射特征,进而可以提升目标检测结果的准确性。
153.本公开实施例的目标检测方法,通过获取目标图像,以及获取多个类别的特征均值;对目标图像进行特征提取,以得到目标特征图;采用目标识别模型的映射网络对目标特征图进行特征映射,以得到多个维度的映射特征;针对每个维度的映射特征,分别确定与多个类别的特征均值之间的相似度;根据相似度,将每个维度的映射特征与多个类别的特征
均值进行融合,以得到各维度的融合特征;根据各维度的融合特征进行目标检测。由此,利用多个类别的特征均值与每个维度的映射特征进行融合,可增强类别之间的差异性,进而提高了目标检测准确度,可避免目标检测结果的误分类。
154.与上述图1至图10实施例提供的目标检测方法相对应,本公开还提供一种目标检测装置,由于本公开实施例提供的目标检测装置与上述图1至图10实施例提供的目标检测方法相对应,因此目标检测方法的实施方式也适用于本公开实施例提供的目标检测装置,在本公开实施例中不再详细描述。
155.图11为本公开实施例八所提供的目标检测装置的结构示意图。
156.如图11所示,该目标检测装置1100可以包括:获取模块1110、提取模块1120、映射模块1130、第一确定模块1140、融合模块1150和检测模块1160。
157.其中,获取模块1110,用于获取目标图像,以及获取多个类别的特征均值;提取模块1120,用于对目标图像进行特征提取,以得到目标特征图;映射模块,用于采用目标识别模型的映射网络对目标特征图进行特征映射,以得到多个维度的映射特征;第一确定模块1140,用于针对每个维度的映射特征,分别确定与多个类别的特征均值之间的相似度;融合模块1150,用于根据相似度,将每个维度的映射特征与多个类别的特征均值进行融合,以得到各维度的融合特征;检测模块1160,用于根据各维度的融合特征进行目标检测。
158.在本公开实施例的一种可能的实现方式中,融合模块1150,用于:针对任意的一个维度的映射特征,根据与多个类别的特征均值之间的相似度,从多个类别的特征均值中,选取目标类别的特征均值;将目标类别的特征均值与一个维度的映射特征进行融合,以得到一个维度的融合特征。
159.在本公开实施例的一种可能的实现方式中,融合模块1150,还用于:针对任意的一个维度的映射特征,根据与多个类别的特征均值之间的相似度,确定各类别的特征均值对应的权重;根据各类别的所述特征均值对应的所述权重,将各类别的特征均值与一个维度的映射特征进行融合,以得到一个维度的融合特征。
160.在本公开实施例的一种可能的实现方式中,检测模块1160,用于:将各维度的融合特征分别输入目标识别模型中对应的预测层进行目标检测,以确定预测框的预测位置,以及预测框内的目标所属的预测类别。
161.在本公开实施例的一种可能的实现方式中,目标图像标注有实际类别,目标检测装置还包括:第二确定模块和更新模块。
162.其中,第二确定模块,用于从各预测层中,确定预测类别与实际类别匹配的目标预测层;更新模块,用于根据目标预测层所输入的融合特征,更新实际类别对应的特征均值。
163.在本公开实施例的一种可能的实现方式中,映射模块1130,用于:将目标特征图与对应的位置图进行融合,以得到输入特征图,其中,位置图中各元素与目标特征图中各元素一一对应,位置图中的元素,用于指示目标特征图中对应元素在目标图像中的坐标;将输入特征图输入目标识别模型的编码器进行编码,以得到编码特征;将编码特征输入目标识别模型的解码器进行解码,以得到目标图像中多个待预测目标的解码特征;将多个待预测目标的解码特征作为多个维度的映射特征。
164.在本公开实施例的一种可能的实现方式中,映射模块1130,还用于:将目标特征图输入目标识别模型的rpn网络进行感兴趣区域预测,以得到多个感兴趣区域的特征图;将多
个感兴趣区域的特征图输入目标识别模型的池化层进行尺寸调整,以得到各感兴趣区域符合固定尺寸的目标特征图;根据各感兴趣区域的目标特征图,确定对应维度的映射特征。
165.本公开实施例的目标检测装置,通过获取目标图像,以及获取多个类别的特征均值;对目标图像进行特征提取,以得到目标特征图;采用目标识别模型的映射网络对目标特征图进行特征映射,以得到多个维度的映射特征;针对每个维度的映射特征,分别确定与多个类别的特征均值之间的相似度;根据相似度,将每个维度的映射特征与多个类别的特征均值进行融合,以得到各维度的融合特征;根据各维度的融合特征进行目标检测。由此,利用多个类别的特征均值与每个维度的映射特征进行融合,可增强类别之间的差异性,进而提高了目标检测准确度,可避免目标检测结果的误分类。
166.为了实现上述实施例,本公开还提供一种电子设备,该电子设备可以包括至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开上述任一实施例提出的目标检测方法。
167.为了实现上述实施例,本公开还提供一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开上述任一实施例提出的目标检测方法。
168.为了实现上述实施例,本公开还提供一种计算机程序产品,该计算机程序产品包括计算机程序,计算机程序在被处理器执行时实现本公开上述任一实施例提出的目标检测方法的步骤。
169.根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
170.图12示出了可以用来实施本公开的实施例的示例电子设备1200的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
171.如图12所示,设备1200包括计算单元1201,其可以根据存储在rom(read

only memory,只读存储器)1202中的计算机程序或者从存储单元1208加载到ram(random access memory,随机访问/存取存储器)1203中的计算机程序,来执行各种适当的动作和处理。在ram 1203中,还可存储设备1200操作所需的各种程序和数据。计算单元1201、rom 1202以及ram 1203通过总线1204彼此相连。i/o(input/output,输入/输出)接口1205也连接至总线1204。
172.设备1200中的多个部件连接至i/o接口1205,包括:输入单元1206,例如键盘、鼠标等;输出单元1207,例如各种类型的显示器、扬声器等;存储单元1208,例如磁盘、光盘等;以及通信单元1209,例如网卡、调制解调器、无线通信收发机等。通信单元1209允许设备1200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
173.计算单元1201可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1201的一些示例包括但不限于cpu(central processing unit,中央处理单元)、gpu
(graphic processing units,图形处理单元)、各种专用的ai(artificial intelligence,人工智能)计算芯片、各种运行机器学习模型算法的计算单元、dsp(digital signal processor,数字信号处理器)、以及任何适当的处理器、控制器、微控制器等。计算单元1201执行上文所描述的各个方法和处理,例如目标检测方法。例如,在一些实施例中,目标检测方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1208。在一些实施例中,计算机程序的部分或者全部可以经由rom 1202和/或通信单元1209而被载入和/或安装到设备1200上。当计算机程序加载到ram1203并由计算单元1201执行时,可以执行上文描述的目标检测方法的一个或多个步骤。备选地,在其他实施例中,计算单元1201可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行目标检测方法。
174.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、fpga(field programmable gate array,现场可编程门阵列)、asic(application

specific integrated circuit,专用集成电路)、assp(application specific standard product,专用标准产品)、soc(system on chip,芯片上系统的系统)、cpld(complex programmable logic device,复杂可编程逻辑设备)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
175.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
176.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、ram、rom、eprom(electrically programmable read

only

memory,可擦除可编程只读存储器)或快闪存储器、光纤、cd

rom(compact disc read

only memory,便捷式紧凑盘只读存储器)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
177.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(cathode

ray tube,阴极射线管)或者lcd(liquid crystal display,液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
178.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:lan(local area network,局域网)、wan(wide area network,广域网)、互联网和区块链网络。
179.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端

服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务("virtual private server",或简称"vps")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
180.其中,需要说明的是,人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
181.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
182.上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献