一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种目标检测方法、装置、电子设备及存储介质与流程

2022-06-16 02:12:22 来源:中国专利 TAG:


1.本公开涉及计算机技术领域,具体而言,涉及一种目标检测方法、装置、电子设备及存储介质。


背景技术:

2.随着目标检测技术的不断发展,目标检测被广泛应用于各个领域,例如自动驾驶、智能安防等领域。为了实现对待检测目标的良好检测,需要事先为待检测目标准备大量的图像样本,并利用图像样本对目标检测网络进行训练,从而得到待检测目标的目标检测网络。
3.在进行目标检测的过程中,不仅需要提取到候选框进行目标定位,还需要对候选框做出正确的分类。然而,在图像样本比较少的情况下,提取到的候选框不够准确,这使得分类结果也受到影响。


技术实现要素:

4.本公开实施例至少提供一种目标检测方法、装置、电子设备及存储介质。
5.第一方面,本公开实施例提供了一种目标检测方法,包括:
6.获取待检测图像;
7.对所述待检测图像进行特征提取,得到所述待检测图像的图像特征;
8.基于所述图像特征对所述待检测图像进行目标检测,得到针对所述待检测图像的初始对象检测框;
9.基于所述图像特征对所述初始对象检测框进行修正,得到修正对象检测框,并基于所述图像特征对所述修正对象检测框进行目标类别检测,确定所述修正对象检测框所指示目标对象的类别信息。
10.采用上述目标检测方法,在获取到待检测图像的情况下,首先可以对待检测图像进行特征提取。在基于提取得到的图像特征对待检测图像进行目标检测,得到针对待检测图像的初始对象检测框。而后,可以基于所述图像特征对初始对象检测框进行修正,并可以基于图像特征对修正对象检测框进行目标类别检测,从而确定修正对象检测框所指示目标对象的类别信息。本公开可以基于图像特征进行检测框的修正,修正得到的检测框能够更好的逼近目标对象所处的图像坐标范围,从而提升后续进行定位的准确度,在定位的准确度比较高的情况下,后续进行类别检测的准确度也得以提升。
11.在一种可能的实施方式中,所述方法通过目标检测网络实现。
12.在一种可能的实施方式中,所述目标检测网络包括预先训练好的回归层,所述基于所述图像特征对所述初始对象检测框进行修正,得到修正对象检测框,包括:
13.从所述图像特征中选取与所述初始对象检测框对应的第一目标图像特征;
14.利用预先训练好的回归层对所述第一目标图像特征进行偏移量预测,确定所述初始对象检测框对应的坐标偏移量;
15.基于所述初始对象检测框对应的坐标偏移量对所述目标检测框进行修正,得到修正对象检测框。
16.这里,可以利用预先训练好的回归层实现坐标偏移量的预测,而后基于初始对象检测框及其对应的坐标偏移量进行检测框修正,这样可以快速且准确的得到修正结果,从而便于实现高准确度的目标定位。
17.在一种可能的实施方式中,所述目标检测网络还包括第一特征特征解耦层,所述第一特征解耦层与所述回归层连接;所述利用预先训练好的回归层对所述第一目标图像特征进行偏移量预测,确定所述初始对象检测框对应的坐标偏移量,包括:
18.通过所述第一特征解耦层学习得到的针对每个特征通道的第一注意力权重对所述第一目标图像特征进行解耦操作,得到解耦后的第一目标图像特征;
19.利用预先训练好的回归层对所述解耦后的第一目标图像特征进行偏移量预测,确定所述初始对象检测框对应的坐标偏移量。
20.这里,为了实现更为准确的偏移量预测,可以在利用第一特征解耦层对第一目标图像特征进行特征解耦后,再对解耦后的第一目标图像特征进行偏移量的预测。由于解耦出的第一目标图像特征更为有利于进行目标定位,这样所确定出的偏移量也更为准确。
21.在一种可能的实施方式中,所述目标检测网络包括预先训练好的分类层,所述基于所述图像特征对所述修正对象检测框进行目标类别检测,确定所述修正对象检测框所指示目标对象的类别信息,包括:
22.从所述图像特征中选取与所述修正对象检测框对应的第二目标图像特征;
23.利用预先训练好的分类层对所述第二目标图像特征进行目标类别检测,确定所述修正目标对象检测所指示目标对象的类别信息。
24.这里,可以利用预先训练好的分类层对修正对象检测框对应的第二目标图像特征进行目标类别检测,这样可以快速且准确的进行目标分类,分类结果更为准确。
25.在一种可能的实施方式中,所述目标检测网络还包括第二特征解耦层,所述第二特征解耦层与所述分类层连接;所述利用预先训练好的分类层对所述第二目标图像特征进行目标类别检测,确定所述修正目标对象检测所指示目标对象的类别信息,包括:
26.通过所述第二特征解耦层学习得到的针对每个特征通道的第二注意力权重对所述第二目标图像特征进行解耦操作,得到解耦后的第二目标图像特征;
27.利用预先训练好的分类层对所述解耦后的第二目标图像特征进行目标类别检测,确定所述修正目标对象检测所指示目标对象的类别信息。
28.这里,为了实现更为准确的目标分类,可以在利用第二特征解耦层对第二目标图像特征进行特征解耦后,再对解耦后的第二目标图像特征进行目标类别检测。由于解耦出的第二目标图像特征更为有利于进行目标分类,这样所确定出的类别信息也更为准确。
29.在一种可能的实施方式中,按照如下步骤训练所述目标检测网络:
30.获取图像样本,以及针对所述图像样本中的目标对象的类别标注结果;
31.基于所述目标检测网络包括的特征提取层对所述待检测图像进行特征提取,得到所述图像样本的图像样本特征,并基于所述图像样本特征对所述图像样本进行目标检测,得到针对所述图像样本的初始样本对象检测框;
32.从所述图像样本特征中选取与所述初始样本对象检测框对应的第一目标图像样
本特征,并利用所述目标检测网络包括的回归层对所述第一目标图像样本特征进行偏移量预测,得到所述回归层输出的坐标偏移量;
33.基于所述坐标偏移量以及所述初始样本对象检测框,确定修正样本对象检测框;以及,从所述图像样本特征中选取与所述修正样本对象检测框对应的第二目标图像样本特征,并利用所述目标检测网络包括的分类层对所述第二目标图像样本特征进行目标类别检测,得到所述分类层输出的预测结果;
34.在所述分类层输出的预测结果与针对所述图像样本中的目标对象的类别标注结果不匹配的情况下,对所述目标检测网络包括的特征提取层、回归层、分类层中至少一者的网络参数值进行调整,直至达到网络迭代截止条件。
35.这里,利用分类层输出的预测结果与针对所述图像样本中的目标对象的类别标注结果的匹配结果实现一轮或多轮的网络训练,使得所训练得到的目标检测网络的性能更佳,便于进行在高准确度的目标定位的前提下,实现更为准确的目标分类。
36.在一种可能的实施方式中,所述目标检测网络还包括与所述回归层连接的第一特征解耦层、以及与所述分类层连接的第二特征解耦层;
37.所述利用所述目标检测网络包括的回归层对所述第一目标图像样本特征进行偏移量预测,得到所述回归层输出的坐标偏移量,包括:
38.将所述第一目标图像样本特征输入至所述第一特征解耦层,得到所述第一特征解耦层输出的针对每个特征通道的第一注意力权重;
39.将所述第一目标图像样本特征以及所述第一注意力权重的第一乘积结果输入到所述目标检测网络包括的回归层,得到所述回归层输出的坐标偏移量;
40.所述利用所述目标检测网络包括的分类层对所述第二目标图像样本特征进行目标类别检测,得到所述分类层输出的预测结果,包括:
41.将所述第二目标图像样本特征输入至所述第二特征解耦层,得到所述第二特征解耦层输出的针对每个特征通道的第二注意力权重;
42.将所述第二目标图像样本特征以及所述第二注意力权重的第二乘积结果输入到所述目标检测网络包括的分类层,得到所述分类层输出的预测结果。
43.在一种可能的实施方式中,所述第一特征解耦层和所述第二特征解耦层为结构相同的特征解耦层,所述特征解耦层包括依次连接的池化层、第一仿射变换层、激活层以及第二仿射变换层。
44.第二方面,本公开实施例还提供了一种目标检测装置,包括:
45.获取模块,用于获取待检测图像;
46.提取模块,用于对所述待检测图像进行特征提取,得到所述待检测图像的图像特征;
47.第一检测模块,用于基于所述图像特征对所述待检测图像进行目标检测,得到针对所述待检测图像的初始对象检测框;
48.第二检测模块,用于基于所述图像特征对所述初始对象检测框进行修正,得到修正对象检测框,并基于所述图像特征对所述修正对象检测框进行目标类别检测,确定所述修正对象检测框所指示目标对象的类别信息。
49.第三方面,本公开实施例还提供了一种电子设备,包括:处理器、存储器和总线,所
述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如第一方面及其各种实施方式任一所述的目标检测方法的步骤。
50.第四方面,本公开实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如第一方面及其各种实施方式任一所述的目标检测方法的步骤。
51.关于上述目标检测装置、电子设备、及计算机可读存储介质的效果描述参见上述目标检测方法的说明,这里不再赘述。
52.为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
53.为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
54.图1示出了本公开实施例所提供的一种目标检测方法的流程图;
55.图2示出了本公开实施例所提供的一种目标检测方法的应用示意图;
56.图3示出了本公开实施例所提供的一种目标检测装置的示意图;
57.图4示出了本公开实施例所提供的一种电子设备的示意图。
具体实施方式
58.为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
59.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
60.本文中术语“和/或”,仅仅是描述一种关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括a、b、c中的至少一种,可以表示包括从a、b和c构成的集合中选择的任意一个或多个元素。
61.经研究发现,为了实现对待检测目标的良好检测,需要事先为待检测目标准备大量的图像样本,并利用图像样本对目标检测网络进行训练,从而得到待检测目标的目标检测网络。例如,可以从单阶段的yolo系列到双阶段的faster rcnn系列网络,再到最近热门
的transformer等网络架构作为目标检测网络。
62.在进行目标检测的过程中,不仅需要提取到候选框进行目标定位,还需要对候选框做出正确的分类。然而,在图像样本比较少(即小样本检测任务)的情况下,主要存在以下问题:一来是提取到的候选框定位不够准确;而来是在缺乏样本的情况下,分类器难以对提取出来的候选框做出正确的分类;再者是分类和定位问题之间存在矛盾,使用同一份特征训练会损害两者的性能。
63.基于上述研究,本公开至少提供了一种基于检测框修正进行目标检测的方案,检测的准确度较高。
64.为便于对本实施例进行理解,首先对本公开实施例所公开的一种目标检测方法进行详细介绍,本公开实施例所提供的目标检测方法的执行主体一般为具有一定计算能力的电子设备,该电子设备例如包括:终端设备或服务器或其它处理设备,终端设备可以为用户设备(user equipment,ue)、移动设备、用户终端、个人数字助理(personal digital assistant,pda)、手持设备、计算设备等。在一些可能的实现方式中,该目标检测方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
65.参见图1所示,为本公开实施例提供的目标检测方法的流程图,方法包括步骤s101~s104,其中:
66.s101:获取待检测图像;
67.s102:对待检测图像进行特征提取,得到待检测图像的图像特征;
68.s103:基于图像特征对待检测图像进行目标检测,得到针对待检测图像的初始对象检测框;
69.s104:基于图像特征对初始对象检测框进行修正,得到修正对象检测框,并基于图像特征对修正对象检测框进行目标类别检测,确定修正对象检测框所指示目标对象的类别信息。
70.为了便于理解本公开实施例提供的目标检测方法,接下来首先对该方法的应用场景进行简单介绍。本公开实施例提供的目标检测方法主要可以应用于目标检测相关领域,尤其是小样本目标检测领域,例如,可以应用于视频监控场景下的行人检测,还可以应用于自动驾驶场景下的车辆检测等。
71.考虑到传统的两阶段目标检测步骤如下:对于输入图像,经过骨干网络层(即backbone)抽取特征,送入区域生成网络(region proposal network)可以得到类别无关的检测框信息。在roi-align阶段,根据检测框在图中的位置,找到对应的检测框特征,经过一次卷积以及展平操作后,将特征并行送入分类分支和回归分支分别得到检测框的类别和位置。
72.然而这种处理方式在小样本目标检测中却并不适用,因为小样本目标检测的主要困难在于分类不够准确。而传统的检测网络送入分类器的特征基于rpn阶段得到的检测框位置,这会显著损害分类网络的性能。同时,分类和回归网络使用相同的输入特征会导致梯度回传过程中,不同的任务对同一特征的更新产生矛盾,以此损害整个检测网络的性能。
73.正是为了解决上述问题,本公开实施例才提供了一种基于检测框修正进行分类检测的目标检测方法,以提升检测结果的精准度。
74.其中,基于不同的应用场景,这里所获取的待检测图像也不同。在确定需要对待检
测图像进行目标检测的情况下,可以首先对待检测图像进行特征提取,而后基于提取得到的待检测图像的图像特征对检测图像进行目标检测,从而得到针对待检测图像的初始对象检测框。
75.在得到初始对象检测框的情况下,可以基于图像特征对初始对象检测框进行修正,使得所得到的修正对象检测框可以更为准确的涵盖到待检测图像中的目标对象,在这种情况下,再对修正对象检测框进行目标类别检测,可以使得所确定的类别信息更为精准。
76.在实际应用中,可以是利用诸如resnet 101等backbone网络架构来提取有关待检测图像的图像特征,除此之外,还可以基于其它图像处理方法得到有关待检测图像的图像特征。考虑到backbone这一骨干网络在进行特征提取的过程中可以挖掘出更为更层次的图像特征,基于此,这里可以采用backbone进行特征提取。
77.针对提取得到的图像特征而言,本公开实施例首先可以进行类别无关的目标检测,可以得到初始对象检测框。有关初始对象检测框所框选的目标对象是无法区分类别的,在实际应用中,可以利用rpn来实现有关无差别的检测。
78.考虑到在小样本情形下,有关检测框所对应定位结果可能对分类器性能产生较大损害,因而,本公开实施例提出了一种基于分类特征增强的小样本目标检测方案,该方案在得到初始对象检测框的情况下,可以先对初始对象检测框进行修正,在得到修正对象检测框的情况下,再利用修正对象检测框所对应的局部图像特征进行目标类别检测,以提升所确定类别信息的准确度。
79.考虑到检测框修正以及目标类别检测对于本公开实施例所提供的目标检测方法的关键作用,接下来可以通过如下两个方面对上述两个过程进行描述。
80.第一方面:本公开实施例可以按照如下步骤进行检测框修正:
81.步骤一、从图像特征中选取与初始对象检测框对应的第一目标图像特征;
82.步骤二、利用预先训练好的回归层对第一目标图像特征进行偏移量预测,确定初始对象检测框对应的坐标偏移量;
83.步骤三、基于初始对象检测框对应的坐标偏移量对目标检测框进行修正,得到修正对象检测框。
84.这里,可以首先从整个待检测图像的图像特征中选取出与初始对象检测框对应的第一目标图像特征,该第一目标图像特征作为局部图像特征,可以实现后续更为精准的目标定位。
85.需要说明的是,上述有关第一目标图像特征的选取过程可以是基于roi-align所对应的特征框选操作实现的,在此不再赘述。
86.本公开实施例中,可以先通过一个训练好的回归层,得到初始对象检测框对应的坐标偏移量,而后利用该坐标偏移量对初始对象检测框进行修正操作,得到修正对象检测框。其中,这里的坐标偏移量用于指示的是修正对象检测框相对初始对象检测框的偏移量,偏移量越大,说明初始预测结果越不准确,反之,偏移量越小,说明初始预测结果更为准确。在实际应用中,可以基于初始对象检测框所对应四个顶角的初始坐标与坐标偏移量之间的求和运算,来确定修正对象检测框所对应的坐标位置范围,该坐标位置范围可以用于进行更为准确的目标定位。
87.第二方面:本公开实施例可以按照如下步骤进行目标类别检测:
88.步骤一、从图像特征中选取与修正对象检测框对应的第二目标图像特征;
89.步骤二、利用预先训练好的分类层对第二目标图像特征进行目标类别检测,确定修正目标对象检测所指示目标对象的类别信息。
90.这里,可以首先从整个待检测图像的图像特征中选取出与修正对象检测框对应的第二目标图像特征,该第二目标图像特征作为局部图像特征,可以实现后续更为精准的目标类别检测。
91.需要说明的是,上述有关第二目标图像特征的选取过程也可以是基于roi-align所对应的特征框选操作实现的,在此不再赘述。
92.本公开实施例中,再通过一次定位操作修正检测框位置的情况下,可以基于修正对象检测框提取出该检测框对应的局部图像特征,而后对分类器用该局部图像特征进行目标检测。
93.考虑到对于分类层主要关注的是输入特征中的细节特征(诸如颜色、纹理等特征)来区分相似的特征,而对于回归层则主要关注的是输入特征中的整体特征(诸如目标对象的轮廓等特征)来确定目标的位置,而基于不同的目的,所需选取的特征并不完全相同,换言之,如果仍以相关技术中对于分类和回归均采用同一特征的情况下,将导致定位效果不佳的同时,目标检测的准确度也无法得以保证。
94.为了同时满足分类与检测的双重需求,本公开实施例提供了一种特征解耦模块以实现特征的解耦合操作。其中,特征解耦模块可以包括与回归层连接的第一特征解耦层、以及与分类层连接的第二特征解耦层。
95.两个特征解耦层(即第一特征解耦层和第二特征解耦层)可以具备相同的网络结果,例如,可以包括依次连接的池化层、第一仿射变换层、激活层以及第二仿射变换层。在具体应用中,可以对输入特征进行全局池化操作,然后学习一个仿射变换,在经过一个激活层后,再学习另一个仿射变换,最后可以经过相关函数(如σ函数)后得到输入特征在每个通道上的注意力权重。该注意力权重与原输入特征结合后就可以得到经过通道注意力机制强化后的特征。
96.本公开实施例中,可以使用第一特征解耦层的通道注意力机制对进行目标定位的第一目标图像特征进行变换,使其更适配回归任务,同样可以使用第二特征解耦层的通道注意力机制对进行目标检测的第二目标图像特征进行变换,使其更适配分类任务,从而可以很好的兼顾两个任务,更具适用性。
97.为了便于进一步理解上述目标检测方法,接下来可以结合图2进行示例说明。
98.如图2所示,针对输入的待检测图像而言,这里可以基于骨干网络层backbone获取到有关待检测图像的图像特征,基于该图像特征可以确定初始对象检测框。而后在roi-align阶段,根据初始对象检测框在图中的位置,找到对应的检测框特征(对应第一目标图像特征)以及根据修正对象检测框在图中的位置,找到对应的检测框特征(对应第二目标图像特征),经过一次卷积(即conv)操作后,即可以利用两个特征解耦模块(feature disentangle module,fdm),分别实现有关第一目标图像特征的加权操作以及有关第二目标图像特征的加权操作,利用特征修正模块(feature rectification module,frm)可以在确保目标定位准确度的情况下,提升目标检测的精度。
99.其中,两个fdm对应两个特征解耦层,frm则主要包括有回归层(即reg-head)以及
分类层(即cls-head),其中,基于reg-head可以确定对应的修正对象检测框,最后可以得到如图2所框选的目标检测结果。
100.需要说明的是,有关frm还可以具有其他的变形结构,例如,可以在reg-head之后直接连接有cls-head,此时cls-head对应的可以是有关初始对象检测框的目标损失函数值;再如,可以在修正对象检测框之后直接连接有reg-head,此时reg-head可以对应的是有关检测框之间的目标损失函数值,除此之外,还可以具有其他变形结构,在此不进行具体的限制。
101.为了便于进行网络训练,上述特征提取层、回归层、分类层、第一特征解耦层以及第二特征解耦层均可以作为目标检测网络的组成部分,在实际应用中,可以按照如下步骤进行网络训练:
102.步骤一、获取图像样本,以及针对图像样本中的目标对象的类别标注结果;
103.步骤二、基于目标检测网络包括的特征提取层对待检测图像进行特征提取,得到图像样本的图像样本特征,并基于图像样本特征对图像样本进行目标检测,得到针对图像样本的初始样本对象检测框;
104.步骤三、从图像样本特征中选取与初始样本对象检测框对应的第一目标图像样本特征,并利用目标检测网络包括的回归层对第一目标图像样本特征进行偏移量预测,得到回归层输出的坐标偏移量;
105.步骤四、基于坐标偏移量以及初始样本对象检测框,确定修正样本对象检测框;以及,从图像样本特征中选取与修正样本对象检测框对应的第二目标图像样本特征,并利用目标检测网络包括的分类层对第二目标图像样本特征进行目标类别检测,得到分类层输出的预测结果;
106.步骤五、在分类层输出的预测结果与针对图像样本中的目标对象的类别标注结果不匹配的情况下,对目标检测网络包括的特征提取层、回归层、分类层中至少一者的网络参数值进行调整,直至达到网络迭代截止条件。
107.这里,可以基于与目标检测相似的步骤先进行特征提取以进行有关初始对象检测框的确定。而后可以利用回归层对第一目标图像样本特征进行偏移量预测,并可以基于坐标偏移量以及初始样本对象检测框,确定修正样本对象检测框。最后,在利用分类层对第二目标图像样本特征进行目标类别检测,得到分类层输出的预测结果的情况下,可以基于分类层输出的预测结果与针对图像样本中的目标对象的类别标注结果匹配结果进行网络训练。
108.其中,在分类层输出的预测结果与针对图像样本中的目标对象的类别标注结果不匹配的情况下,说明网络训练性能不佳,此时可以通过多轮网络训练来提升网络训练性能,直至达到网络迭代截止条件的情况下,可以停止训练,得到训练好的目标检测网络。
109.这里的网络迭代截止条件可以是迭代次数达到预设次数(例如,100次),还可以是所有的图像样本被遍历一遍,还可以是目标损失函数值小于预设阈值,还可以是其它条件,本公开实施例可以结合不同的应用需求来选取,这里不做具体的限制。
110.在训练目标检测网络的过程中,有关与回归层连接的第一特征解耦层、以及与分类层连接的第二特征解耦层也可以同时进行训练,以使得所提取出的注意力权重更为贴合具体的任务,例如,所确定的有关第一注意力权重更为关注目标轮廓等相关图像特征,再
如,所确定的有关第二注意力权重更为关注目标细节等相关图像特征,从而兼顾各个任务的同步进行。
111.本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
112.基于同一发明构思,本公开实施例中还提供了与目标检测方法对应的目标检测装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述目标检测方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
113.参照图3所示,为本公开实施例提供的一种目标检测装置的示意图,装置包括:获取模块301、提取模块302、第一检测模块303和第二检测模块304;其中,
114.获取模块301,用于获取待检测图像;
115.提取模块302,用于对待检测图像进行特征提取,得到待检测图像的图像特征;
116.第一检测模块303,用于基于图像特征对待检测图像进行目标检测,得到针对待检测图像的初始对象检测框;
117.第二检测模块304,用于基于图像特征对初始对象检测框进行修正,得到修正对象检测框,并基于图像特征对修正对象检测框进行目标类别检测,确定修正对象检测框所指示目标对象的类别信息。
118.采用上述目标检测装置,在获取到待检测图像的情况下,首先可以对待检测图像进行特征提取。在基于提取得到的图像特征对待检测图像进行目标检测,得到针对待检测图像的初始对象检测框。而后,可以基于图像特征对初始对象检测框进行修正,并可以基于图像特征对修正对象检测框进行目标类别检测,从而确定修正对象检测框所指示目标对象的类别信息。本公开可以基于图像特征进行检测框的修正,修正得到的检测框能够更好的逼近目标对象所处的图像坐标范围,从而提升后续进行定位的准确度,在定位的准确度比较高的情况下,后续进行类别检测的准确度也得以提升。
119.在一种可能的实施方式中,上述装置通过目标检测网络实现。
120.在一种可能的实施方式中,目标检测网络包括预先训练好的回归层,第二检测模块304,用于按照如下步骤基于图像特征对初始对象检测框进行修正,得到修正对象检测框:
121.从图像特征中选取与初始对象检测框对应的第一目标图像特征;
122.利用预先训练好的回归层对第一目标图像特征进行偏移量预测,确定初始对象检测框对应的坐标偏移量;
123.基于初始对象检测框对应的坐标偏移量对目标检测框进行修正,得到修正对象检测框。
124.在一种可能的实施方式中,目标检测网络还包括第一特征特征解耦层,第一特征解耦层与回归层连接;第二检测模块304,用于按照如下步骤利用预先训练好的回归层对第一目标图像特征进行偏移量预测,确定初始对象检测框对应的坐标偏移量:
125.通过第一特征解耦层学习得到的针对每个特征通道的第一注意力权重对第一目标图像特征进行解耦操作,得到解耦后的第一目标图像特征;
126.利用预先训练好的回归层对解耦后的第一目标图像特征进行偏移量预测,确定初
始对象检测框对应的坐标偏移量。
127.在一种可能的实施方式中,目标检测网络包括预先训练好的分类层,第二检测模块304,用于按照如下步骤基于图像特征对修正对象检测框进行目标类别检测,确定修正对象检测框所指示目标对象的类别信息:
128.从图像特征中选取与修正对象检测框对应的第二目标图像特征;
129.利用预先训练好的分类层对第二目标图像特征进行目标类别检测,确定修正目标对象检测所指示目标对象的类别信息。
130.在一种可能的实施方式中,目标检测网络还包括第二特征解耦层,第二特征解耦层与分类层连接;第二检测模块304,用于按照如下步骤利用预先训练好的分类层对第二目标图像特征进行目标类别检测,确定修正目标对象检测所指示目标对象的类别信息:
131.通过第二特征解耦层学习得到的针对每个特征通道的第二注意力权重对第二目标图像特征进行解耦操作,得到解耦后的第二目标图像特征;
132.利用预先训练好的分类层对解耦后的第二目标图像特征进行目标类别检测,确定修正目标对象检测所指示目标对象的类别信息。
133.在一种可能的实施方式中,第二检测模块304,用于按照如下步骤训练目标检测网络:
134.获取图像样本,以及针对图像样本中的目标对象的类别标注结果;
135.基于目标检测网络包括的特征提取层对待检测图像进行特征提取,得到图像样本的图像样本特征,并基于图像特征对图像样本样本进行目标检测,得到针对图像样本的初始样本对象检测框;
136.从图像样本特征中选取与初始样本对象检测框对应的第一目标图像样本特征,并利用目标检测网络包括的回归层对第一目标图像样本特征进行偏移量预测,得到回归层输出的坐标偏移量;
137.基于坐标偏移量以及初始样本对象检测框,确定修正样本对象检测框;以及,从图像样本特征中选取与修正样本对象检测框对应的第二目标图像样本特征,并利用目标检测网络包括的分类层对第二目标图像样本特征进行目标类别检测,得到分类层输出的预测结果;
138.在分类层输出的预测结果与针对图像样本中的目标对象的类别标注结果不匹配的情况下,对目标检测网络包括的特征提取层、回归层、分类层中至少一者的网络参数值进行调整,直至达到网络迭代截止条件。
139.在一种可能的实施方式中,目标检测网络还包括与回归层连接的第一特征解耦层、以及与分类层连接的第二特征解耦层;
140.第二检测模块304,用于按照如下步骤利用目标检测网络包括的回归层对第一目标图像样本特征进行偏移量预测,得到回归层输出的坐标偏移量:
141.将第一目标图像样本特征输入至第一特征解耦层,得到第一特征解耦层输出的针对每个特征通道的第一注意力权重;
142.将第一目标图像样本特征以及第一注意力权重的第一乘积结果输入到目标检测网络包括的回归层,得到回归层输出的坐标偏移量;
143.第二检测模块304,用于按照如下步骤利用目标检测网络包括的分类层对第二目
标图像样本特征进行目标类别检测,得到分类层输出的预测结果:
144.将第二目标图像样本特征输入至第二特征解耦层,得到第二特征解耦层输出的针对每个特征通道的第二注意力权重;
145.将第二目标图像样本特征以及第二注意力权重的第二乘积结果输入到目标检测网络包括的分类层,得到分类层输出的预测结果。
146.在一种可能的实施方式中,第一特征解耦层和第二特征解耦层为结构相同的特征解耦层,特征解耦层包括依次连接的池化层、第一仿射变换层、激活层以及第二仿射变换层。
147.关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
148.本公开实施例还提供了一种电子设备,如图4所示,为本公开实施例提供的电子设备结构示意图,包括:处理器401、存储器402、和总线403。存储器402存储有处理器401可执行的机器可读指令(比如,图3中的装置中获取模块301、提取模块302、第一检测模块303、第二检测模块304对应的执行指令等),当电子设备运行时,处理器401与存储器402之间通过总线403通信,机器可读指令被处理器401执行时执行如下处理:
149.获取待检测图像;
150.对待检测图像进行特征提取,得到待检测图像的图像特征;
151.基于图像特征对待检测图像进行目标检测,得到针对待检测图像的初始对象检测框;
152.基于图像特征对初始对象检测框进行修正,得到修正对象检测框,并基于图像特征对修正对象检测框进行目标类别检测,确定修正对象检测框所指示目标对象的类别信息。
153.本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的目标检测方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
154.本公开实施例还提供一种计算机程序产品,该计算机程序产品承载有程序代码,所述程序代码包括的指令可用于执行上述方法实施例中所述的目标检测方法的步骤,具体可参见上述方法实施例,在此不再赘述。
155.其中,上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(software development kit,sdk)等等。
156.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,
可以是电性,机械或其它的形式。
157.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
158.另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
159.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
160.最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献