一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据处理方法、装置、电子设备及存储介质与流程

2021-12-14 20:48:00 来源:中国专利 TAG:


1.本发明实施例涉及计算机技术领域,尤其涉及一种数据处理方法、装置、电子设备及计算机存储介质。


背景技术:

2.随着计算机视觉技术的发展,目标检测即利用计算机图像处理技术对图像中的目标对象进行检测的应用越来越广泛。通过目标检测,可以将图像中的目标对象有效地识别出来以进行相应处理。
3.但在很多检测场景中,待检测的目标对象相对来说比较细小且多为细长形状,或者不易与图像中的一些背景干扰相区分。例如,在工业制造的许多场景中,细小的瑕疵可能对工业产品的质量分级造成很大的影响。为了采集细小瑕疵,往往使用高精度高分辨率的采集设备。在此情况下,工业产品本身的花纹、纹理等都会被高精度高分辨率的采集设备采集。以轮胎细小瑕疵的检测为例,轮胎质检图像分辨率是图像宽约1600像素,图像长在3000像素到10000像素不等,且轮胎花纹也会被采集,这些都会严重影响到对轮胎上的细小瑕疵的检测。再以电池细小瑕疵的检测为例,在光伏行业的近红外电池质检中,图像分辨率的长宽约1200像素,并且电池上还有背景暗纹,也影响到细小瑕疵的检测。另外,在化纤丝质检中,在图像分辨率的宽约4000像素、长约3000像素的图像中,在背景花纹下存在大量宽度只有不到10个像素的瑕疵不易被检测。
4.上述细小瑕疵检测困难的问题在其它类似检测场景,尤其是工业检测场景中也普遍存在。


技术实现要素:

5.有鉴于此,本发明实施例提供一种数据处理方案,以至少部分解决上述问题。
6.根据本发明实施例的第一方面,提供了一种数据处理方法,包括:获取待检测图像,其中,所述待检测图像中包括有待检测的目标对象,所述目标对象包括第一维度值;将待检测图像输入目标检测模型,其中,所述目标检测模型生成与所述待检测图像对应的多个层级的特征图;获取与所述目标对象的第一维度值对应的层级的特征图进行目标对象检测输出的检测结果。
7.根据本发明实施例的第二方面,提供了一种数据处理方法,包括:获取用于训练目标检测模型的样本图像,其中,所述样本图像包括标注框及目标对象,所述标注框包括第一维度值;将所述样本图像输入所述目标检测模型的卷积层,获得多个层级的特征图;在与所述第一维度值对应的层级的特征图中,对所述目标对象进行边界框预测;根据所述边界框预测的结果和损失函数,对所述目标检测模型进行训练。
8.根据本发明实施例的第三方面,提供了一种数据处理方法,包括:获取目标检测模型的模型训练请求;根据所述模型训练请求,获取用于训练所述目标检测模型的样本图像,其中,所述样本图像包括标注框及目标对象,所述标注框包括第一维度值;将所述样本图像
输入所述目标检测模型的卷积层,获得多个层级的特征图;在与所述第一维度值对应的层级的特征图中,对所述目标对象进行边界框预测;根据所述边界框预测的结果和损失函数,对所述目标检测模型进行训练。
9.根据本发明实施例的第四方面,提供了一种数据处理装置,包括:第一获取模块,用于获取用于训练目标检测模型的样本图像,其中,所述样本图像包括标注框及目标对象,所述标注框包括第一维度值;第二获取模块,用于将所述样本图像输入所述目标检测模型的卷积层,获得多个层级的特征图;预测模块,用于在与所述第一维度值对应的层级的特征图中,对所述目标对象进行边界框预测;训练模块,用于根据所述边界框预测的结果和损失函数,对所述目标检测模型进行训练。
10.根据本发明实施例的第五方面,提供了一种数据处理装置,包括:第三获取模块,用于获取待检测图像,其中,所述待检测图像中包括有待检测的目标对象,所述目标对象包括第一维度值;输入模块,用于将待检测图像输入目标检测模型,其中,所述目标检测模型生成与所述待检测图像对应的多个层级的特征图;第四获取模块,用于获取与所述目标对象的第一维度值对应的层级的特征图进行目标对象检测输出的检测结果。
11.根据本发明实施例的第六方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第一方面所述的数据处理方法对应的操作;或者,执行如第二方面或者第三方面所述的数据处理方法对应的操作。
12.根据本发明实施例的第七方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的数据处理方法;或者,实现如第二方面或者第三方面所述的数据处理方法。
13.根据本发明实施例提供的一种数据处理方案,可以将目标检测模型及其训练均部署于服务端,由服务端根据客户端的模型训练请求获取样本图像,基于样本图像中的标注框及其第一维度值,以及样本图像中的目标对象,通过与第一维度值对应的层级的特征图进行边界框预测,进而基于预测结果和损失函数对目标检测模型进行训练,实现了对客户端资源或性能无要求条件下的目标检测模型的训练,保证了训练效果和效率。
14.根据本发明实施例提供的另一种数据处理方案,在对待检测图像进行目标对象检测时,通过目标检测模型从多个层级的特征图中,对与目标对象的第一维度值对应的层级的特征图进行目标对象检测,进而可获得输出的较为准确的检测结果。这是因为,对于采用了多尺度策略的目标检测模型来说,不同的目标对象在不同的检测层级上会有不同的检测效果,其中,高尺度下语义特征更强,而低尺度下回归点更多,上下文特征更强。而目标对象的第一维度值可在一定程度上可以指导目标对象的适用检测层级,以获得更为准确的检测结果。
15.而根据本发明实施例提供的再一种数据处理方案,在对具有多尺度策略的目标检测模型进行训练时,充分考虑了标注目标对象的标注框的第一维度值,来确定可对目标对象进行边界框预测的更适当的层级的特征图,以使用该层级的特征图进行检测训练,达到更好的训练效果。
附图说明
16.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
17.图1a为根据本发明实施例一的一种数据处理方法的步骤流程图;
18.图1b为图1a所示实施例中的一种场景示例的示意图;
19.图2a为根据本发明实施例二的一种数据处理方法的步骤流程图;
20.图2b为图2a所示实施例中的一种示例性目标检测模型的结构示意图;
21.图3a为根据本发明实施例三的一种数据处理方法的步骤流程图;
22.图3b为图3a所示实施例中的一种场景示例的示意图;
23.图4a为根据本发明实施例四的一种数据处理方法的步骤流程图;
24.图4b为图4a所示实施例中的一种场景示例的示意图;
25.图5为根据本发明实施例五的一种数据处理装置的结构框图;
26.图6为根据本发明实施例六的一种数据处理装置的结构框图;
27.图7为根据本发明实施例七的一种电子设备的结构示意图。
具体实施方式
28.为了使本领域的人员更好地理解本发明实施例中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明实施例一部分实施例,而不是全部的实施例。基于本发明实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本发明实施例保护的范围。
29.下面结合本发明实施例附图进一步说明本发明实施例具体实现。
30.为了便于理解本发明实施例提供的方案,以下首先对本发明实施例中使用的目标检测模型的训练涉及的数据处理过程进行说明,继而基于训练完成的目标检测模型对本发明实施例提供的目标检测涉及的数据处理方案进行说明。
31.实施例一
32.参照图1a,示出了根据本发明实施例一的一种数据处理方法的步骤流程图。
33.本实施例的数据处理方法可用于目标检测模型训练,该数据处理方法包括以下步骤:
34.步骤s102:获取用于训练目标检测模型的样本图像。
35.其中,所述样本图像包括标注框及目标对象,所述标注框包括第一维度值。
36.所述标注框用来标注目标对象,在一个样本图像中,至少具有一个目标对象及该目标对象对应的标注框。本发明实施例中,所述标注框还包括第一维度值,该第一维度值可以为适当的、能够辅助确定对目标对象进行检测所使用的层级的特征图的数据,包括但不限于:长宽比或者宽长比、长高比或者高长比、标注框的坐标信息等等。
37.步骤s104:将样本图像输入所述目标检测模型的卷积层,获得多个层级的特征图。
38.目标检测模型是一种可将输入图像中的目标区域检测出来,并且输出该目标区域的目标对象的类别的模型。本发明实施例中,目标检测模型可以为任意适当的使用多尺度
策略的模型,尤其是一阶段目标检测模型,包括但不限于:fcos(fully convolutional one-stage object detection)模型、yolo(you only look once)模型、ssd(single shot multibox detector)模型、retina-net模型等。
39.在诸如上述的目标检测模型中,一般多使用多尺度策略,从不同的特征提取层级上,以不同尺度对目标对象进行特征提取及检测。可选地,多尺度策略可以使用fpn(feature pyramid network,特征金字塔网络)结构,以进行多个尺度的预测输出。
40.在图像如训练过程中的样本图像输入目标检测模型后,通常会进行特征提取处理,获得相应的特征图feature map。在一种可行方式中,可以通过目标检测模型,对样本图像进行多个层级的特征提取,获得对应的多个特征图。
41.步骤s106:在与所述标注框的第一维度值对应的层级的特征图中,对所述目标对象进行边界框预测。
42.在一种可行方式中,在未确定与第一维度值对应的层级的特征图之前,可以先从所述多个特征图中,将与样本图像中的标注框对应的层级的特征图确定为待处理的候选特征图,以节省后续确定与第一维度值对应的层级的特征图的时间,提高模型训练效率。
43.如前所述,样本图像中具有至少一个标注框,以对至少一个目标对象进行标注。目标检测模型通常采用不同大小的标注框通过不同层级进行检测,因此,不同的标注框可以对应到不同的特征提取和检测层级上。
44.在一种可行方式中,可以先计算目标对象与所述标注框的各个边界的偏移量;根据所述标注框的第一维度值和所述偏移量,确定与所述第一维度值对应的层级的特征图;在与所述第一维度值对应的层级的特征图中,对所述目标对象进行边界框预测。结合第一维度值和偏移量,可以更为精准地确定后续用于进行边界框预测的特征图。
45.例如,可以先对标注框进行遍历,针对遍历到的每个标注框,确定其所对应的层级,进而,对该层级的特征图进行目标对象的检测处理。
46.以一个标注框为例,先确定该标注框对应的层级,获取该层级的特征图作为待处理的候选特征图。然后,从该候选特征图中,获取由该标注框所标注的目标对象。针对该目标对象,计算其与标注框的各个边界的偏移量,该偏移量可由距离表征。例如,通过计算该目标对象的各个像素点与该标注框的各个边界的距离,获得目标对象与标注框的各个边界的偏移量。
47.若某个层级的特征图中具有多个标注框,则每个标注框都可采用上述方式确定每个标注框所标注的目标对象与该标注框的各个边界的偏移量。
48.需要说明的是,本发明实施例中,若无特殊说明,“多个”、“多种”等与“多”有关的数量均意指两个及两个以上。
49.在确定了所述偏移量后,可根据该偏移量和标注框的相关信息进行相应的处理。在一种可行方式中,本步骤可以实现为:计算待处理的候选特征图中,目标对象与标注所述目标对象的标注框的各个边界的偏移量;根据所述标注框的第一维度值和所述偏移量,确定与第一维度值对应的层级的特征图。这种方式中,可以通过第一维度值对候选特征图进行修正,以确定最终的与第一维度值对应的层级的特征图。对于某些细长形状的目标对象来说,候选特征图对应的层级可能较高,导致后续检测可能无法获得充足的检测信息,因此,可以基于第一维度值对其进行修正。但本领域技术人员应当明了的,对于其它一些形状
的目标对象,候选特征图即可作为与第一维度值对应的层级的特征图,不需再进行修正。
50.可选地,在根据所述第一维度值和所述偏移量,确定与所述第一维度值对应的层级的特征图时,可以根据所述标注框的第一维度值和所述偏移量,确定所述目标对象的分配信息;根据所述分配信息,确定与所述第一维度值对应的层级的特征图。分配信息可以指示第一维度值及其对应的层级,该信息可在目标检测模型训练过程中进行学习。
51.其中,在根据标注框的第一维度值和所述偏移量,确定所述目标对象的分配信息时,可以(1)根据所述标注框的长宽比或宽长比,以及所述偏移量,确定所述目标对象的分配信息;或者,(2)根据所述标注框的长高比或高长比,以及所述偏移量,确定所述目标对象的分配信息;或者,(3)根据所述标注框的水平坐标信息和垂直坐标信息,以及所述偏移量,确定所述目标对象的分配信息。
52.在上述(1)的情况下,标注框的长宽比或宽长比从长度和宽度两个维度上表征了目标对象的形状,以便于在后续引导分配。
53.在上述(2)的情况下,标注框的长高比或高长比从长度和高度两个维度上表征了目标对象的形状,以便于在后续引导分配。
54.在上述(3)的情况下,一方面,可以根据标注框的最小水平坐标和最大水平坐标之间的距离,以及标注框的最小垂直坐标和最大垂直坐标之间的距离,来评估目标对象的形状;另一方面,也可以坐标为基准进行目标对象的形状判断,例如,以最小水平坐标为基准,最大水平坐标位于距离最小水平坐标的第一预设距离之内,并且,以最小垂直坐标为基准,最大垂直坐标位于距离最小垂直坐标的第二预设距离之外,则可判定标准框及目标对象的形状,以此为依据引导后续的分配。反之亦然。其中,第一预设距离和第二预设距离都可由本领域技术人员根据实际情况适当确定。例如,将第一预设距离设得较小,而将第二个预设距离设得较大,则可表征细长形状,等等。
55.为简化说明,本发明的多个实施例中,以采用(1)的方式,即长宽比和宽长比的方式,对本发明实施例的方案进行说明。但基于上述描述,本领域技术人员应当能够根据将说明所描述的方式适用于其它两种情况中,其均在本发明实施例的保护范围之内。
56.如前所述,标注框的长宽比或宽长比可以从长宽维度表征目标对象的形状,如,长宽比为5:1则说明目标对象为水平方向上较为细长的对象,又例如,长宽比为1:5则说明目标对象为竖直方向上较为细长的对象。本发明实施例中,标注框的长宽比或宽长比还可以引导将目标对象分配至相应的层级的特征图中进而在该层级进行检测。
57.因多尺度策略中,高尺度(高层级)下语义特征更强,而低尺度(低层级)下回归点更多,上下文特征更强,使得细长形状的目标对象在低尺度下将会获得更好的检测效果。
58.因此,结合标注框的长宽比或宽长比,以及所述偏移量,可以将某些形状如细长形状的目标对象分配至更低尺度的特征图中进行检测,以获得更为精准的检测效果。
59.在确定了目标对象的分配信息的情况下,可以将目标对象分配到与所述分配信息相匹配的层级的特征图中,并根据所述层级的特征图进行目标对象的边界框预测。
60.其中,分配信息与分配层级的对应关系可以通过对目标检测模型的不断训练进行学习。
61.此外,可选地,还可输出所述第一维度值与对应的层级之间的对应关系;或者,输出所述第一维度值、与所述第一维度值对应的分配信息,以及,与所述分配信息对应的层级
之间的对应关系。本领域技术人员可以根据输出的这些信息来对训练效果进行评价和分析,以促进对目标检测模型的进一步调整或优化。
62.在一种可行方式中,可以为每一层级设置边界框回归范围,基于该范围及所述偏移量,对目标对象进行边界框预测。
63.步骤s108:根据边界框预测的结果和损失函数,对目标检测模型进行训练。
64.例如,根据边界框预测的结果和预设的损失函数,计算损失值,根据损失值对目标检测模型进行相关参数的训练,包括分配信息和分配层级的训练。
65.对目标检测模型的训练迭代进行,每迭代一次,对目标检测模型中的参数进行一次训练,直至满足训练终止条件,如训练达到预设次数,或者,损失值满足预定阈值等,本发明实施例对所述预设次数和预定阈值不作具体限定。
66.需要说明的是,在某些情况下,当样本图像中包括多个目标对象及对应的多个标注框时,可以根据多个标注框对应的多个第一维度值中相应维度值的占比,选择使用与第一维度值对应的层级的特征图进行目标检测,还是使用传统方式中与标注框对应的层级的特征图进行目标检测。此种情况下,本发明实施例的方案可以实现为:获取用于训练目标检测模型的样本图像,其中,所述样本图像包括标注框及目标对象,所述标注框包括第一维度值;对所述多个标注框对应的多个第一维度值进行分组,并确定各个分组中的第一维度值的数量与所有第一维度值的数量的比值;将所述样本图像输入所述目标检测模型的卷积层,获得多个层级的特征图;判断所述比值是否大于预设比值;若大于,则在与所述第一维度值对应的层级的特征图中,对所述目标对象进行边界框预测;否则,在与所述标注框对应的层级的特征图中,对所述目标对象进行边界框预测;根据所述边界框预测的结果和损失函数,对所述目标检测模型进行训练。通过此种方式,提高了目标对象检测的灵活度。
67.以下,以一个简单示例对上述过程进行示例性说明,如图1b所示。
68.图1b中,设定样本图像a中具有两个目标对象1和2,分别对其进行标注,形成标注框1和2,其中设定目标对象2对应的标注框2为一细长形状标注框。此外,设定目标检测模型中通过p3-p7五个特征层级进行多尺度特征提取和检测,其中,p3为最低层级,p7为最高层级。
69.将样本图像a输入目标检测模型,通过目标检测模型的主干网络进行卷积处理及fpn结构进行特征提取处理,获得p3-p7每个层级对应的特征图,设定为f3-f7。若标注框1对应于p5层级,则计算f5中,标注框1标注的目标对象1与标注框1的各个边界的偏移量,再若标注框1的长宽比为2:3,则可根据其偏移量和长宽比确定目标对象1的分配信息,如仍然分配至p5层级的特征图中,以进行目标对象1的边界框预测。进而,根据该边界框预测结果和预设的损失函数获得损失值,根据该损失值对目标检测模型进行训练。
70.而对于标注框2,若其对应于p4层级,则计算f4中,标注框2所标注的目标对象2与标注框2的各个边界的偏移量,再若标注框2的长宽比为1:5,则可根据其偏移量和长宽比确定目标对象2的分配信息,如分配至p3层级的特征图中,也即,分配至更低尺度的特征图中,以进行目标对象2的边界框预测。进而,根据该边界框预测结果和预设的损失函数获得损失值,根据该损失值对目标检测模型进行训练。
71.可见,通过本实施例,在对具有多尺度策略的目标检测模型进行训练时,充分考虑了标注目标对象的标注框的第一维度值如标注框的长宽比,来确定可对目标对象进行边界
框预测的更适当的层级的特征图,以使用该层级的特征图进行检测训练,达到更好的训练效果。
72.本实施例的数据处理方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、和pc机等。
73.实施例二
74.参照图2a,示出了根据本发明实施例二的一种数据处理方法的步骤流程图。
75.本实施例以一个具体目标检测模型fcos模型为示例,对本发明实施例的目标检测模型的训练过程进行示例性说明。本领域技术人员应当明了的是,其它类似目标检测模型或者具有多尺度策略的目标检测模型均可适用本发明实施例的方案。
76.fcos模型以逐像素预测的方式实现目标检测,其结构如图2b所示,其包括:主干网络backbone部分、特征金字塔结构fpn部分、检测部分。其中,backbone部分可采用多层卷积层结构,对图像进行特征提取;fpn部分用于实现多尺度策略,如图中所示,其使用了p3-p7五个尺度的特征映射,即五个层级。其中,p3、p4和p5由backbone部分的特征层c3、c4、c5经过一个1*1的卷积得到,p6基于p5进行了步长为2的卷积操作得到,p7基于p6进行了步长为2的卷积操作得到。每个层级都需要进行逐像素回归,不同的层级需要回归不同的尺寸范围。
77.传统的fcos中,在每一个层级都限定了边界框回归的范围,针对每个层级,(1)计算当前层级中的回归目标:l、t、r、b(像素点距离标注框的距离);判断max(l、t、r、b)>mi或者max(l、t、r、b)<mi是否满足,其中,mi表示当前层级的最大回归距离;若满足,则不进行边界框回归预测,否则,在当前层级进行边界框回归预测。但这种传统方式无法对某些形状的目标对象进行检测,为此,本发明实施例提供了考虑目标对象的标注框的第一维度值的训练方案,在本实施例中,具体示例为标注框的长宽比的因素的训练方案。
78.fcos模型在检测部分使用了中心度center-ness策略,用以抑制检测到的低质量边界框,如图2b中所示。center-ness策略在每一层级预测中添加了一个与分类并行的分支,以使预测的边界框尽可能靠近中心。
79.此外,本实施例中,还对样本图像的预处理部分及目标检测模型的初始化部分进行了改进,以下具体说明。
80.基于此,本实施例的数据处理方法可用于目标检测模型的训练,该数据处理方法包括以下步骤:
81.步骤s202:获取原始样本图像,并对原始样本图像进行预处理,以获取用于训练目标检测模型的样本图像。
82.本实施例中,以对一个样本图像的预处理操作为示例,但本领域技术人员应当明了,在实际应用中,可对所有样本图像均进行所述预处理操作。
83.本步骤包括:对原始样本图像的原始标注数据进行偏移增强,获得偏移增强后的标注框;根据原始样本图像和所述标注框,获取用于训练目标检测模型的样本图像。原始样本图像具有原始标注框(即原始标注数据),通过对其进行偏移增强处理,可以获得更多的标注框,以丰富样本图像中标注框的出现频率、形状,并可提高后续边界框回归预测的命中率。
84.在一种可行方式中,对原始样本图像的原始标注数据进行偏移增强,获得偏移增强后的标注框可以实现为:确定原始样本图像中的原始标注数据所形成的面积,与原始样
本图像的训练子区域的面积的比值;根据所述比值,确定偏移增强频率;根据偏移增强频率,对原始标注数据进行扰动增强;根据扰动增强的结果,获得偏移增强后的标注框。其中,所述训练子区域的面积可以由本领域技术人员采用适当方式确定,包括但不限于根据经验值确定、通过多次预训练确定等等。通过扰动增强后的标注框对目标检测模型进行训练,可以提升目标检测模型的泛化能力。
85.此外,为了适应工业检测场景下的目标对象检测,在一种可行方式中,在对样本图像的原始标注数据进行偏移增强,获得样本图像中的标注框之前,所述方法还包括:通过基于区域像素关系的重采样,对原始样本图像进行缩放处理。通过这种处理后的样本图像对目标检测模型进行训练,可以使得目标检测模型具有更强的抗波纹干扰的能力。
86.上述过程的一个示例过程如下,包括:
87.子步骤1:对原始样本图像进行缩放resize处理。
88.如,使用基于区域像素关系的重采样,对样本图像进行resize处理。如,采用opencv中的inter_area函数对样本图像进行resize。
89.子步骤2:基于resize处理后的样本图像,结合原始标注框,确定预设大小的子区域作为训练区域。
90.如前所述,所述预设大小可根据经验值或预训练结果确定。
91.子步骤3:在训练区域中根据原始标注框的大小和位置,对原始标注框进行偏移增强。
92.本实施例中,为偏移扰动增强。例如,对于每个原始标注框,计算该原始标注框的面积相对于子区域面积的比值;根据比值的倒数乘以设定系数,获得偏移增强频率;根据偏移增强频率对原始标注框进行扰动增强。
93.其中,所述设定系数可以由本领域技术人员根据实际情况适当设定,本发明实施例对此不作限制。在进行扰动增强时,可以计算两组随机数据,根据:随机数*扰动范围,计算原始标注框的偏移量,每次偏移增强会新增一个标注框的ground truth。
94.需要说明的是,在实际应用中,上述三个子步骤可以择一按照上述描述执行,而其它子步骤采用其它方式执行。例如,按照子步骤3进行标注框的偏移增强,而子步骤1中则可以采用其它适当方式进行原始样本图像的resize,如加和或插值方式等等。
95.使用基于区域像素关系的重采样方式,能够减少图像resize下采样的干扰,如波纹干扰,同时减少信息损失。图像下采样使得输入数据更少,训练阶段和应用阶段占用资源更少,速度更快。为了在另一个层面弥补图像下采样造成的信息损失,子步骤3使用随机偏移增强方式提升算法的鲁棒性和召回能力。
96.步骤s204:对目标检测模型进行初始化。
97.包括:为目标检测模型的主干网络加载模型参数;对检测头结构(如图2b中所示的检测部分的“head”)中的网络权值进行初始化,等等。
98.本实施例中,可选地,对目标检测模型进行初始化;其中,所述初始化包括以下至少之一:(1)通过加载预训练的模型参数,对目标检测模型的主干网络进行初始化,其中,所述预训练的模型参数为经过多个预设子任务进行联合训练的参数;(2)对目标检测模型中的参数锁定层进行训练解锁,其中,所述参数锁定层至少包括批量归一化层。
99.为适应工业检测场景的需求,在一种可行方式中,如(1)所述,为目标检测模型的
主干网络(如图2b中的backbone)加载经过多个预设子任务进行联合训练的参数,如,用于光伏场景、钢铁场景、布匹场景等的目标对象检测的子任务,以使得目标检测模型更为适应工业检测场景。
100.在对检测头结构中的网络权值进行初始化时,可以使用kaiming初始化方式进行随机初始化。
101.此外,对于非工业检测场景,目标检测模型可以如传统模型一样,将bn(batch normalization,批量归一化层)层或主干网络的前几层如前两层锁住,不对其参数进行训练。但本实施例中,对bn层和/或主干网络中的锁定层进行解锁,使得每一次目标检测模型的迭代训练都会对这些层的参数进行调整,以更好地适应工业检测场景。
102.步骤s206:将预处理后的样本图像输入初始化后的目标检测模型。
103.步骤s208:通过目标检测模型的卷积层,获得多个层级的特征图。
104.包括:通过目标检测模型的卷积层,对样本图像进行多个层级的特征提取,获得对应的多个层级的多个特征图。
105.以图2b中的fcos为示例,样本图像输入目标检测模型后,先通过backbone部分进行特征提取,进而,通过fpn部分获得多个层级的特征图。在图2b所示的结构中,将获得分别对应于p3-p7层级的五个特征图。
106.步骤s210:在与标注框的第一维度值对应的层级的特征图中,对目标对象进行边界框预测。
107.例如,可以先从多个特征图中,将与样本图像中的标注框对应的层级的特征图确定为待处理的候选特征图。进而,基于该候选特征图,根据标注框的第一维度值确定与其对应的层级的特征图。
108.例如,在如图2b所示的fcos中,假若样本图像中的某个标注框x对应的层级为p5,则获取p5层级的特征图作为候选特征图。然后,计算候选特征图中,目标对象与标注所述目标对象的标注框的各个边界的偏移量。
109.在一种可行方式中,可以计算候选特征图中,目标对象的各个像素点与所述标注框的各个边界的偏移量;将各个像素点与所述标注框的各个边界的偏移量中,最大偏移量确定为目标对象与所述标注框的各个边界的偏移量。以此,可以较为准确地确定目标对象相对于标注框的偏移程度。
110.例如,在p5层级的特征图中,针对目标对象y,逐像素点地计算当前像素点到标注框x的四个边的偏移量,分别记为l,r,t,d。则,目标对象y相对于标注框x的相对偏移量为o=max(l,r,t,d)。
111.进一步可选地,若标注框的第一维度值采用了长宽比或者宽长比的形式,则可以根据所述标注框的长宽比和宽长比中的最大比值,及所述偏移量,确定目标对象的分配信息。
112.在一种可行方式中,可以从所述标注框的长宽比(长边与短边的比值),以及,宽长比(短边与长边的比值)中,确定最大比值;根据所述标注框的最大比值和所述偏移量,确定目标对象的分配信息。由此,所述最大比值大于或等于1,既可表征标注框的形状特性,又便于后续计算。
113.其中,可选地,根据所述标注框的最大比值和所述偏移量,确定目标对象的分配信
息可以包括:根据预设的激活函数对所述标注框的最大比值进行处理,获得处理结果;根据所述偏移量和所述处理结果的比值,确定目标对象的分配信息。通过这种方式,可以使获得的分配信息在一个合理的、且易于分配的区间。
114.例如,在p5层级的候选特征图中,针对目标对象y,计算其对应的标注框x的长宽比和宽长比中的最大比值r=max(h/w,w/h),其中,h表示长边,w表示短边。
115.在确定了目标对象y相对于标注框x的相对偏移量为o=max(l,r,t,d),以及,标注框x的最大比值r=max(h/w,w/h)后,可以使用以下公式计算分配信息,本示例中为分配值:
116.s=0.5*o/sigmoid(r-1.0)
117.其中,sigmoid()表示激活函数。
118.但不限于此,本领域技术人员也可使用其它激活函数,并调整其中相应的参数,使得s值在一个合理区间即可,可选地,s值可以取【0.5,1】之间的任一数值。
119.针对细长待检测对象长宽比和宽长比中的最大比值范围大的特点,使用sigmoid函数结合相对偏移量和最大比值信息,将细长待检测对象分配到更大分辨率的特征图中,提升细长待检测对象的召回率和其相对于背景干扰的分辨能力。并且,使用多尺度分配的训练方式能够更好地学习该尺度对应的细长待检测对象,提升算法的准确性和鲁棒性。
120.在确定了分配信息后,可以将目标对象分配到与分配信息相匹配的层级的特征图中,并根据所述层级的特征图进行目标对象的边界框预测。因分配信息根据第一维度值和偏移量确定,因此可以认为,根据分配信息可确定与第一维度值对应的层级的特征图,进而对其进行目标对象的边界框预测。
121.以图2b所示的fcos为例,传统方式中,是以前述o=max(l,r,t,d)为依据,将目标对象分配至相应层级的特征图中,进行边界框的回归预测。如,前述示例中,目标对象y仍会被分配至p5层级中进行边界框预测。
122.而本实施例中,则根据所述s值进行层级确定,若s值对应于更低尺度的层级,则目标对象y将会被分配至该低尺度层级,如p4层级或p3层级进行边界框的回归预测。当然,若s值对应于当前层级,则目标对象y仍会被分配至层级p5。由此,使得本发明实施例提供的目标检测模型对常规目标对象和非常规目标对象(如细长形状的目标对象)均可进行有效检测。
123.目标检测模型中设置有多尺度分配列表,多尺度分配列表长度与目标检测模型中的多个检测尺度(层级)的尺度数一致,列表中的参数表示某个尺度分配下的分配信息如分配值的范围,所述参数通过目标检测模型的训练进行学习。根据多尺度分配列表和标注框的分配值,可以将标注框所标注的目标对象分配到对应尺度(层级)的特征图上进行边界框预测。
124.进而,可以根据边界框预测所预测出的边界框和所述标注框,以及所述边界框对应的类别,进行目标检测模型的检测算法训练。其中,多尺度的损失函数可以使用线型组合平衡。
125.步骤s212:根据边界框预测的结果和损失函数,对目标检测模型进行训练。
126.例如,可以根据边界框所预测出的边界框和所述标注框的差别,以及两者的类别,以及预设的损失函数,确定相对应的损失值,根据损失值,对目标检测模型进行训练,包括对多尺度分配列表中的参数进行训练,直至达到训练终止条件。
127.将本实施例的方案应用于光伏电池片的细小瑕疵检测,在光伏电池片数据中使用原来的fcos模型方式时,在光伏电池片上训练后测试结果为map为54.19%;而使用本发明实施例的优化方式后,在光伏电池片上训练后测试结果为map为70.10%,相比未优化前提升了约16个点的ap。其中,对于细小瑕疵类别:“单条裂”,原来的fcos模型方式下结果ap为47.55%,使用本发明实施例的方式后,结果ap为74.06%。其中,对于细长瑕疵类别:“黑线”,原来的fcos模型方式的结果ap为31.31%,使用本发明实施例的方式后的结果ap为46.92%。可见,通过本发明实施例的方案,能够更好的检测高分辨率工业图像中背景干扰下的细小瑕疵。
128.可见,通过本实施例,在对具有多尺度策略的目标检测模型进行训练时,充分考虑了标注目标对象的标注框的长宽特征,依据所述长宽比和宽比中的最大比值和所述目标对象距离其标注框的各个边界的偏移量,来确定可对目标对象进行边界框预测的更适当的检测层级,据此将目标对象分配到相应层级的特征图中,使用该层级的特征图进行检测训练,达到更好的训练效果。
129.本实施例的数据处理方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、和pc机等。
130.实施例三
131.参照图3a,示出了根据本发明实施例三的一种数据处理方法的步骤流程图。
132.本实施例基于前述实施例一和二中的方案,从应用训练完成的目标检测模型的角度,对本发明实施例提供的数据处理方法进行说明。
133.本实施例的数据处理方法可用于目标检测,该数据处理方法包括以下步骤:
134.步骤s302:获取待检测图像。
135.其中,所述待检测图像中包括有待检测的目标对象,所述目标检测模型用于对待检测图像进行目标对象检测,该目标检测模型可以为通过实施例一或二中的数据处理方法训练完成的模型。所述目标对象包括第一维度值,如前所述,第一维度值可以为目标对象的长宽比或者宽长比,或者为目标对象的长高比或者高长比,或者为目标对象的水平坐标信息和垂直坐标信息。需要说明的是,在另一种可行方式中,待检测图像中的目标对象可以不包括第一维度值,该第一维度值可通过目标检测模型自行计算获得。
136.步骤s304:将待检测图像输入目标检测模型。
137.在一种可行方式中,若目标检测模型在训练过程中对样本图像进行了预处理,则为了保持与目标检测模型的一致性,提高检测速度和效率,所述将待检测图像输入目标检测模型可以实现为:通过基于区域像素关系的重采样,对待检测图像进行缩放处理,将缩放处理后的待检测图像输入目标检测模型。
138.在另一种可行方式中,当待检测图像中包括多个待检测的目标对象时,本步骤可以实现为:对待检测图像进行图像分割,获得多个待检测的目标对象所在的多个图像区域;根据多个图像区域生成对应的多个子图像;将多个子图像分别输入目标检测模型。通过图像分割,可以把图像分成若干个区域并提取感兴趣的目标对象。由此,可降低目标对象检测的负担。可选地,可在完成各个目标对象的检测后,再将检测结果融合至待检测图像中。
139.步骤s306:获取与所述目标对象的第一维度值对应的层级的特征图进行目标对象检测输出的检测结果。
140.在一种可行方式中,与所述目标对象的第一维度值对应的层级的特征图为:与所述目标对象的长宽比或者宽长比对应的层级的特征图。
141.在另一种可行方式中,与所述目标对象的第一维度值对应的层级的特征图为:与所述目标对象的长高比或者高长比对应的层级的特征图。
142.在又一种可行方式中,与所述目标对象的第一维度值对应的层级的特征图为:与根据所述目标对象的水平坐标信息确定的水平距离,和根据所述目标对象的垂直坐标信息确定的垂直距离相对应的层级的特征图。例如,可以根据标注框的最小水平坐标和最大水平坐标之间的水平距离,以及标注框的最小垂直坐标和最大垂直坐标之间的垂直距离,输出目标对象的检测结果。再例如,也可以坐标为基准进行目标对象的形状判断,例如,以最小水平坐标为基准,最大水平坐标位于距离最小水平坐标的第一预设距离之内,并且,以最小垂直坐标为基准,最大垂直坐标位于距离最小垂直坐标的第二预设距离之外,则可判定标准框及目标对象的形状,以此为依据引导后续的检测层级的分配,输出目标对象的检测结果。反之,亦然。其中,第一预设距离和第二预设距离都可由本领域技术人员根据实际情况适当确定。例如,将第一预设距离设得较小,而将第二个预设距离设得较大,则可表征细长形状,等等。
143.如前所述,本实施例的目标检测模型中充分考虑了待检测的目标对象的第一维度值,以使具有多尺度策略的目标检测模型使用更为适当的特征图和特征层级对目标对象进行检测。
144.在一种可选方式中,本步骤可以实现为:根据目标对象的长宽比或宽长比,将目标对象分配至对应层级的特征图中进行边界框检测;获得目标检测模型输出的边界框检测的检测结果。
145.其中,根据目标对象的长宽比或宽长比,将目标对象分配至对应层级的特征图中进行边界框检测可以为:根据目标对象的长宽比或宽长比中的最大比值,将目标对象分配至对应层级的特征图中进行边界框检测。由此,降低了目标检测模型的计算成本。
146.此外,可选地,还可以根据与所述第一维度值对应的层级的特征图,及所述目标对象的颜色,对所述目标对象进行检测,并输出检测结果。也即,不仅考虑目标对象的第一维度值,还同时考虑目标对象的颜色,以进一步提升目标对象的检测准确度。
147.以下,以一个示例对上述过程进行示例性说明,如图3b所示。
148.图3b中,待检测图像a先经过预处理,缩放为一定尺寸的待检测图像a’,如从512*512缩放为256*256。然后,将待检测图像a’输入训练完成的目标检测模型。通过目标检测模型对其中的目标对象y进行检测。假若该目标对象y为细长形状,则相较于传统目标检测模型,对目标对象y的检测将到分配至低尺度的特征图进行。如,传统方式下目标对象y在p5层级进行检测,而通过本实施例,将被分配至p3层级进行检测。p3层级更关注目标对象y的上下文信息,回归检测点也更多,从而可以获得更为准确的检测结果,如图3b中所示。
149.在另一种应用场景中,还可将本发明实施例提供的数据处理方案应用于图像生成或海报生成场景中,将检测出的目标对象作为待生成的图像中的一部分,与其它部分进行合成。此种场景下的数据处理方案可以实现为:获取第一图像,其中,第一图像中包括有预设的目标对象,目标对象包括第一维度值;将第一图像输入目标检测模型,其中,目标检测模型生成与所述第一图像对应的多个层级的特征图;获取与所述第一维度值对应的层级的
特征图进行目标对象检测输出的目标对象的检测结果;根据所述目标对象的检测结果和预设的图像信息,合成第二图像。其中,所述预设的图像信息可以由本领域技术人员根据实际需求适当设置,如,可以包括文字信息和图像信息中的至少一种。通过这种方式,有效利用了目标对象的检测结果,提高了合成图像的生成效率。
150.通过本实施例,在对待检测图像进行目标对象检测时,通过目标检测模型从多个层级的特征图中,对与目标对象的第一维度值对应的层级的特征图进行目标对象检测,进而可获得输出的较为准确的检测结果。这是因为,对于采用了多尺度策略的目标检测模型来说,不同的目标对象在不同的检测层级上会有不同的检测效果,其中,高尺度下语义特征更强,而低尺度下回归点更多,上下文特征更强。而目标对象的第一维度值如长宽比或宽长比,尤其是细长目标对象的长宽比或宽长比,在一定程度上可以指导目标对象的适用检测层级,以获得更为准确的检测结果。
151.本实施例的数据处理方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、和pc机等。
152.实施例四
153.参照图4a,示出了根据本发明实施例四的一种数据处理方法的步骤流程图。
154.本实施例中,以将目标检测模型部署于服务端(如云端或服务器或saas平台),根据客户端请求对目标检测模型进行训练为例,对本发明实施例提供的数据处理方法进行说明。
155.本实施例的数据处理方法可基于客户端的请求对服务端的目标检测模型进行训练,该数据处理方法包括以下步骤:
156.步骤s402:获取目标检测模型的模型训练请求。
157.其中,所述目标检测模型为用于进行目标对象检测的模型,例如为实施例一或二中所述的目标检测模型,所述模型训练请求可以为任意适当形式的请求。
158.步骤s404:根据模型训练请求,获取用于训练目标检测模型的样本图像。
159.其中,所述样本图像包括标注框及目标对象,所述标注框包括第一维度值。如前所述,第一维度值可以为:标注框的长宽比或宽长比、标注框的长高比或高长比、标注框的水平坐标信息和垂直坐标信息等。
160.在一种可行方式中,当将目标检测模型部署于saas(software-as-a-service)平台,通过saas平台接收客户端的模型训练请求对目标检测模型进行训练时,可以根据所述模型训练请求,从saas平台本地获取用于训练目标检测模型的样本图像。此种情况下,saas平台本地存储有适于样本图像,则可直接获得,由此可提高目标检测模型训练的速度和效率。
161.在另一种可行方式中,当将目标检测模型部署于saas平台,通过saas平台接收客户端的模型训练请求对目标检测模型进行训练时,可以由saas平台根据所述模型训练请求,从第三方采集用于训练目标检测模型的样本图像。如通过网络从第三方网站或从第三方应用提供的数据接口获取样本图像。此种情况下,saas平台通过第三方获得样本图像,无需本地存储,节省了saas平台的存储资源。
162.在再一种可行方式中,当将目标检测模型部署于saas平台,通过saas平台接收客户端模型的训练请求对数据模型进行训练时,可以由saas平台根据所述模型训练请求,从
所述客户端获取用于训练目标检测模型的样本图像。此种情况下,在客户端中存储有样本图像,saas平台从客户端获得样本图像,可以训练出更符合客户端需求的目标检测模型。
163.步骤s406:使用样本图像对目标检测模型进行训练。
164.包括:将样本图像输入目标检测模型的卷积层,获得多个层级的特征图;在与所述第一维度值对应的层级的特征图中,对目标对象进行边界框预测;根据边界框预测的结果和损失函数,对目标检测模型进行训练。
165.其中,在与所述第一维度值对应的层级的特征图中,对所述目标对象进行边界框预测可以包括:计算所述目标对象与所述标注框的各个边界的偏移量;根据所述第一维度值和所述偏移量,确定与所述第一维度值对应的层级的特征图;在与所述第一维度值对应的层级的特征图中,对所述目标对象进行边界框预测。
166.可选地,所述根据所述第一维度值和所述偏移量,确定与所述第一维度值对应的层级的特征图可以实现为:根据所述第一维度值和所述偏移量,确定所述目标对象的分配信息;根据所述分配信息,确定与所述第一维度值对应的层级的特征图。
167.需要说明的是,上述对目标检测模型进行训练的过程均可参照前述实施例一或二中所述的数据处理方法中的描述,在此不再赘述。
168.以下,以目标检测模型部署在saas平台为示例,对上述过程进行示例性说明,如图4b所示。
169.图4b中,客户端向saas平台发送模型训练请求;saas平台在接收到该请求后,由处理设备从本地存储设备中获取用于训练所述目标检测模型的样本图像;saas平台基于获取的样本图像对目标检测模型进行训练;saas平台在完成对目标检测模型的训练后,向客户端发送训练完成消息。后续,客户端若有需求,则可向saas平台发送待检测图像,以获得相应的目标对象的检测结果。
170.以上,以目标检测模型部署于saas平台为例,但本领域技术人员应当明了,对于目标检测模型部署于其它形式的服务端的情况,同样适用地本实施例的方案。
171.可见,通过本实施例,将目标检测模型及其训练均部署于服务端,由服务端根据客户端的模型训练请求获取样本图像,基于样本图像中的标注框及其第一维度值,以及样本图像中的目标对象,通过与第一维度值对应的层级的特征图进行边界框预测,进而基于预测结果和损失函数对目标检测模型进行训练,实现了对客户端资源或性能无要求条件下的目标检测模型的训练,保证了训练效果和效率。
172.本实施例的数据处理方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、和pc机等。
173.实施例五
174.参照图5,示出了根据本发明实施例五的一种数据处理装置的结构框图。
175.本实施例的数据处理装置可用于目标检测模型训练,该数据处理装置包括:第一获取模块502,用于获取用于训练目标检测模型的样本图像,其中,所述样本图像包括标注框及目标对象,所述标注框包括第一维度值;第二获取模块504,用于将所述样本图像输入所述目标检测模型的卷积层,获得多个层级的特征图;预测模块506,用于在与所述第一维度值对应的层级的特征图中,对所述目标对象进行边界框预测;训练模块508,用于根据所述边界框预测的结果和损失函数,对所述目标检测模型进行训练。
176.可选地,预测模块506包括:计算模块5062,用于计算所述目标对象与所述标注框的各个边界的偏移量;确定模块5064,用于根据所述标注框的第一维度值和所述偏移量,确定与所述第一维度值对应的层级的特征图;执行模块5066,用于在与所述第一维度值对应的层级的特征图中,对所述目标对象进行边界框预测。
177.可选地,确定模块5064,用于根据所述标注框的第一维度值和所述偏移量,确定所述目标对象的分配信息;根据所述分配信息,确定与所述第一维度值对应的层级的特征图。
178.可选地,确定模块5064,用于根据所述标注框的长宽比或宽长比,以及所述偏移量,确定所述目标对象的分配信息。
179.可选地,确定模块5064在根据所述标注框的长宽比或宽长比,以及所述偏移量,确定所述目标对象的分配信息时,用于从所述标注框的宽比和宽长比中,确定最大比值;根据所述标注框的最大比值和所述偏移量,确定所述目标对象的分配信息。
180.可选地,确定模块5064在根据所述标注框的最大比值和所述偏移量,确定所述目标对象的分配信息时,根据预设的激活函数对所述标注框的最大比值进行处理,获得处理结果;根据所述偏移量和所述处理结果的比值,确定所述目标对象的分配信息。
181.可选地,确定模块5064,用于根据所述标注框的长高比或高长比,以及所述偏移量,确定所述目标对象的分配信息。
182.可选地,确定模块5064,用于根据所述标注框的水平坐标信息和垂直坐标信息,以及所述偏移量,确定所述目标对象的分配信息。
183.可选地,计算模块5062,用于计算所述目标对象的各个像素点与所述标注框的各个边界的偏移量;将各个像素点与所述标注框的各个边界的偏移量中,最大偏移量确定为所述目标对象与所述标注框的各个边界的偏移量。
184.可选地,第一获取模块502,用于,用于对原始样本图像的原始标注数据进行偏移增强,获得偏移增强后的标注框;根据所述原始样本图像和所述标注框,获取用于训练目标检测模型的样本图像。
185.可选地,第一获取模块502,用于确定原始样本图像中的原始标注数据所形成的面积,与原始样本图像的训练子区域的面积的比值;根据所述比值,确定偏移增强频率;根据所述偏移增强频率,对所述原始标注数据进行扰动增强;根据扰动增强的结果,获得偏移增强后中的标注框。
186.可选地,第一获取模块502,还用于在对所述样本图像的原始标注框进行偏移增强,获得偏移增强后的标注框之前,通过基于区域像素关系的重采样,对所述样本图像进行缩放处理。
187.可选地,本实施例的数据处理装置还包括:初始化模块510,用于在所述将所述样本图像输入所述目标检测模型的卷积层之前,对所述目标检测模型进行初始化;其中,所述初始化包括以下至少之一:通过加载预训练的模型参数,对所述目标检测模型的主干网络进行初始化,其中,所述预训练的模型参数为经过多个预设子任务进行联合训练的参数;对所述目标检测模型中的参数锁定层进行训练解锁,其中,所述参数锁定层至少包括批量归一化层。
188.可选地,本实施例的数据处理装置还包括:输出模块512,用于输出所述第一维度值与对应的层级之间的对应关系;或者,输出所述第一维度值、与所述第一维度值对应的分
配信息,以及,与所述分配信息对应的层级之间的对应关系。
189.可选地,所述样本图像中包括多个目标对象及对应的多个标注框;第一获取模块502,还用于在所述将所述样本图像输入所述目标检测模型的卷积层,获得多个层级的特征图之前,对所述多个标注框对应的多个第一维度值进行分组,并确定各个分组中的第一维度值的数量与所有第一维度值的数量的比值;预测模块506,还用于在所述第二获取模块504将所述样本图像输入所述目标检测模型的卷积层,获得多个层级的特征图之后,判断所述比值是否大于预设比值;若大于,则执行所述在与所述第一维度值对应的层级的特征图中,对所述目标对象进行边界框预测的操作;否则,执行在与所述标注框对应的层级的特征图中,对所述目标对象进行边界框预测的操作。
190.本实施例的数据处理装置用于实现前述多个方法实施例中相应的数据处理方法,并具有相应的方法实施例的有益效果,在此不再赘述。此外,本实施例的数据处理装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述,在此亦不再赘述。
191.实施例六
192.参照图6,示出了根据本发明实施例六的一种数据处理装置的结构框图。
193.本实施例的数据处理装置可用于目标检测,该数据处理装置包括:第三获取模块602,用于获取待检测图像,其中,所述待检测图像中包括有待检测的目标对象,所述目标对象包括第一维度值;输入模块604,用于将待检测图像输入目标检测模型,其中,所述目标检测模型生成与所述待检测图像对应的多个层级的特征图;第四获取模块606,用于获取与所述目标对象的第一维度值对应的层级的特征图进行目标对象检测输出的检测结果。
194.可选地,所述目标检测模型可以为通过实施例五中的目标检测模型训练装置训练获得的目标检测模型。
195.可选地,所述与所述目标对象的第一维度值对应的层级的特征图为:与所述目标对象的长宽比或者宽长比对应的层级的特征图。
196.可选地,所述与所述目标对象的第一维度值对应的层级的特征图为:与所述目标对象的长高比或者高长比对应的层级的特征图。
197.可选地,所述与所述目标对象的第一维度值对应的层级的特征图为:与根据所述目标对象的水平坐标信息确定的水平距离,和根据所述目标对象的垂直坐标信息确定的垂直距离相对应的层级的特征图。
198.可选地,第四获取模块606,用于根据目标对象的长宽比或宽长比,将所述目标对象分配至对应层级的特征图中进行边界框检测;获得所述目标检测模型输出的边界框检测的检测结果。
199.可选地,第四获取模块606在根据所述目标对象的长宽比或宽长比,将所述目标对象分配至对应层级的特征图中进行边界框检测时,根据所述目标对象的长宽比或宽长比中的最大比值,将所述目标对象分配至对应层级的特征图中进行边界框检测。
200.可选地,输入模块604,用于通过基于区域像素关系的重采样,对所述待检测图像进行缩放处理,将缩放处理后的待检测图像输入目标检测模型。
201.可选地,所述待检测图像中包括多个待检测的目标对象;输入模块604,用于对所述待检测图像进行图像分割,获得所述多个待检测的目标对象所在的多个图像区域;根据多个所述图像区域生成对应的多个子图像;将所述多个子图像分别输入所述目标检测模
型。
202.可选地,第四获取模块606,用于根据与所述第一维度值对应的层级的特征图,及所述目标对象的颜色,对所述目标对象进行检测,并输出检测结果。
203.本实施例的数据处理装置用于实现前述多个方法实施例中相应的数据处理方法,并具有相应的方法实施例的有益效果,在此不再赘述。此外,本实施例的数据处理装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述,在此亦不再赘述。
204.实施例七
205.参照图7,示出了根据本发明实施例七的一种电子设备的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。
206.如图7所示,该电子设备可以包括:处理器(processor)702、通信接口(communications interface)704、存储器(memory)706、以及通信总线708。
207.其中:
208.处理器702、通信接口704、以及存储器706通过通信总线708完成相互间的通信。
209.通信接口704,用于与其它电子设备或服务器进行通信。
210.处理器702,用于执行程序710,具体可以执行上述多个方法实施例中的相关步骤。
211.具体地,程序710可以包括程序代码,该程序代码包括计算机操作指令。
212.处理器702可能是中央处理器cpu,或者是特定集成电路asic(application specific integrated circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。智能设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个cpu;也可以是不同类型的处理器,如一个或多个cpu以及一个或多个asic。
213.存储器706,用于存放程序710。存储器706可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
214.第一种实施方式中:
215.程序710具体可以用于使得处理器702执行以下操作:获取用于训练目标检测模型的样本图像,其中,所述样本图像包括标注框及目标对象,所述标注框包括第一维度值;将所述样本图像输入所述目标检测模型的卷积层,获得多个层级的特征图;在与所述第一维度值对应的层级的特征图中,对所述目标对象进行边界框预测;根据所述边界框预测的结果和损失函数,对所述目标检测模型进行训练。
216.在一种可选的实施方式中,程序710还用于使得处理器702在与所述第一维度值对应的层级的特征图中,对所述目标对象进行边界框预测时:计算所述目标对象与所述标注框的各个边界的偏移量;根据所述第一维度值和所述偏移量,确定与所述第一维度值对应的层级的特征图;在与所述第一维度值对应的层级的特征图中,对所述目标对象进行边界框预测。
217.在一种可选的实施方式中,程序710还用于使得处理器702在根据所述第一维度值和所述偏移量,确定与所述第一维度值对应的层级的特征图时:根据所述标注框的第一维度值和所述偏移量,确定所述目标对象的分配信息;根据所述分配信息,确定与所述第一维度值对应的层级的特征图。
218.在一种可选的实施方式中,程序710还用于使得处理器702在计算所述目标对象与标注框的各个边界的偏移量时:计算所述目标对象的各个像素点与所述标注框的各个边界
的偏移量;将各个像素点与所述标注框的各个边界的偏移量中,最大偏移量确定为所述目标对象与所述标注框的各个边界的偏移量。
219.在一种可选的实施方式中,程序710还用于使得处理器702在根据所述标注框的第一维度值和所述偏移量,确定所述目标对象的分配信息时:根据所述标注框的长宽比或宽长比,以及所述偏移量,确定所述目标对象的分配信息。
220.在一种可选的实施方式中,程序710还用于使得处理器702在根据所述标注框的长宽比或宽长比,以及所述偏移量,确定所述目标对象的分配信息时:从所述标注框的长宽比或宽长比中,确定最大比值;根据所述标注框的最大比值和所述偏移量,确定所述目标对象的分配信息。
221.在一种可选的实施方式中,程序710还用于使得处理器702在根据所述标注框的最大比值和所述偏移量,确定所述目标对象的分配信息时:根据预设的激活函数对所述标注框的最大比值进行处理,获得处理结果;根据所述偏移量和所述处理结果的比值,确定所述目标对象的分配信息。
222.在一种可选的实施方式中,程序710还用于使得处理器702在根据所述标注框的第一维度值和所述偏移量,确定所述目标对象的分配信息时:根据所述标注框的长高比或高长比,以及所述偏移量,确定所述目标对象的分配信息。
223.在一种可选的实施方式中,程序710还用于使得处理器702在根据所述标注框的第一维度值和所述偏移量,确定所述目标对象的分配信息时:根据所述标注框的水平坐标信息和垂直坐标信息,以及所述偏移量,确定所述目标对象的分配信息。
224.在一种可选的实施方式中,程序710还用于使得处理器702在获取用于训练目标检测模型的样本图像时,对原始样本图像的原始标注数据进行偏移增强,获得偏移增强后的标注框;根据所述原始样本图像和所述标注框,获取用于训练目标检测模型的样本图像。
225.在一种可选的实施方式中,程序710还用于使得处理器702在对原始样本图像的原始标注数据进行偏移增强,获得偏移增强后的标注框时:确定原始样本图像中的原始标注数据所形成的面积,与所述原始样本图像的训练子区域的面积的比值;根据所述比值,确定偏移增强频率;根据所述偏移增强频率,对所述原始标注数据进行扰动增强;根据扰动增强的结果,获得偏移增强后的标注框。
226.在一种可选的实施方式中,程序710还用于使得处理器702在对原始样本图像的原始标注数据进行偏移增强,获得偏移增强后的标注框之前,通过基于区域像素关系的重采样,对所述原始样本图像进行缩放处理。
227.在一种可选的实施方式中,程序710还用于使得处理器702在将所述样本图像输入所述目标检测模型的卷积层之前,对所述目标检测模型进行初始化;其中,所述初始化包括以下至少之一:通过加载预训练的模型参数,对所述目标检测模型的主干网络进行初始化,其中,所述预训练的模型参数为经过多个预设子任务进行联合训练的参数;对所述目标检测模型中的参数锁定层进行训练解锁,其中,所述参数锁定层至少包括批量归一化层。
228.在一种可选的实施方式中,程序710还用于使得处理器702输出所述第一维度值与对应的层级之间的对应关系;或者,输出所述第一维度值、与所述第一维度值对应的分配信息,以及,与所述分配信息对应的层级之间的对应关系。
229.在一种可选的实施方式中,所述样本图像中包括多个目标对象及对应的多个标注
框;程序710还用于使得处理器702在将所述样本图像输入所述目标检测模型的卷积层,获得多个层级的特征图之前,对所述多个标注框对应的多个第一维度值进行分组,并确定各个分组中的第一维度值的数量与所有第一维度值的数量的比值;程序710还用于使得处理器702在将所述样本图像输入所述目标检测模型的卷积层,获得多个层级的特征图之后,判断所述比值是否大于预设比值;若大于,则执行所述在与所述第一维度值对应的层级的特征图中,对所述目标对象进行边界框预测的操作;否则,执行在与所述标注框对应的层级的特征图中,对所述目标对象进行边界框预测的操作。
230.第二种实施方式中:
231.程序710具体可以用于使得处理器702执行以下操作:获取待检测图像,其中,所述待检测图像中包括有待检测的目标对象,所述目标对象包括第一维度值;将待检测图像输入目标检测模型,其中,所述目标检测模型生成与所述待检测图像对应的多个层级的特征图;获取与所述目标对象的第一维度值对应的层级的特征图进行目标对象检测输出的检测结果。其中,所述目标检测模型可以为通过第一种实施方式训练获得的目标检测模型。
232.在一种可选的实施方式中,所述与所述目标对象的第一维度值对应的层级的特征图为:与所述目标对象的长宽比或者宽长比对应的层级的特征图。
233.在一种可选的实施方式中,所述与所述目标对象的第一维度值对应的层级的特征图为:与所述目标对象的长高比或者高长比对应的层级的特征图。
234.在一种可选的实施方式中,所述与所述目标对象的第一维度值对应的层级的特征图为:与根据所述目标对象的水平坐标信息确定的水平距离,和根据所述目标对象的垂直坐标信息确定的垂直距离相对应的层级的特征图。
235.在一种可选的实施方式中,程序710还用于使得处理器702在获取与所述目标对象的第一维度值对应的层级的特征图进行目标对象检测输出的检测结果时:根据目标对象的长宽比或宽长比,将所述目标对象分配至对应层级的特征图中进行边界框检测;获得所述目标检测模型输出的边界框检测的检测结果。
236.在一种可选的实施方式中,程序710还用于使得处理器702在根据所述目标对象的长宽比或宽长比,将所述目标对象分配至对应层级的特征图中进行边界框检测时:根据所述目标对象的长宽比或宽长比中的最大比值,将所述目标对象分配至对应层级的特征图中进行边界框检测。
237.在一种可选的实施方式中,程序710还用于使得处理器702在将待检测图像输入目标检测模型时:通过基于区域像素关系的重采样,对所述待检测图像进行缩放处理,将缩放处理后的待检测图像输入目标检测模型。
238.在一种可选的实施方式中,所述待检测图像中包括多个待检测的目标对象;程序710还用于使得处理器702在将所述待检测图像输入目标检测模型时:对所述待检测图像进行图像分割,获得所述多个待检测的目标对象所在的多个图像区域;根据多个所述图像区域生成对应的多个子图像;将所述多个子图像分别输入所述目标检测模型。
239.在一种可选的实施方式中,程序710还用于使得处理器702在获取与所述第一维度值对应的层级的特征图进行目标对象检测输出的检测结果时:根据与所述第一维度值对应的层级的特征图,及所述目标对象的颜色,对所述目标对象进行检测,并输出检测结果。
240.第三种实施方式中:
241.程序710具体可以用于使得处理器702执行以下操作:获取目标检测模型的模型训练请求;根据所述模型训练请求,获取用于训练所述目标检测模型的样本图像,其中,所述样本图像包括标注框及目标对象,所述标注框包括第一维度值;将所述样本图像输入所述目标检测模型的卷积层,获得多个层级的特征图;在与所述第一维度值对应的层级的特征图中,对所述目标对象进行边界框预测;根据所述边界框预测的结果和损失函数,对所述目标检测模型进行训练。
242.在一种可选的实施方式中,程序710还用于使得处理器702在与所述第一维度值对应的层级的特征图中,对所述目标对象进行边界框预测时:计算所述目标对象与所述标注框的各个边界的偏移量;根据所述第一维度值和所述偏移量,确定与所述第一维度值对应的层级的特征图;在与所述第一维度值对应的层级的特征图中,对所述目标对象进行边界框预测。
243.在一种可选的实施方式中,程序710还用于使得处理器702在根据所述第一维度值和所述偏移量,确定与所述第一维度值对应的层级的特征图时:根据所述第一维度值和所述偏移量,确定所述目标对象的分配信息;根据所述分配信息,确定与所述第一维度值对应的层级的特征图。
244.在一种可选的实施方式中,所述第一维度值为所述标注框的长宽比或宽长比。
245.在一种可选的实施方式中,程序710还用于使得处理器702在根据所述模型训练请求,获取用于训练所述目标检测模型的样本图像时:根据所述模型训练请求,从saas平台本地获取用于训练所述目标检测模型的样本图像;或者,根据所述模型训练请求,由saas平台从第三方获取用于训练所述目标检测模型的样本图像;或者,根据所述模型训练请求,由saas平台从所述客户端获取用于训练所述目标检测模型的样本图像。
246.程序710中各步骤的具体实现可以参见上述方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
247.需要指出,根据实施的需要,可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本发明实施例的目的。
248.上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如cd rom、ram、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如asic或fpga)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,ram、rom、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的数据处理方法。此外,当通用计算机访问用于实现在此示出的数据处理方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的数据处理方法的专用计算机。
249.本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单
元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明实施例的范围。
250.以上实施方式仅用于说明本发明实施例,而并非对本发明实施例的限制,有关技术领域的普通技术人员,在不脱离本发明实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明实施例的范畴,本发明实施例的专利保护范围应由权利要求限定。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献