一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

图像处理模型的训练方法、目标检测方法和属性识别方法与流程

2022-03-23 01:07:27 来源:中国专利 TAG:


1.本技术涉及计算机视觉技术领域,特别是涉及一种图像处理模型的训练方法、目标检测方法和属性识别方法。


背景技术:

2.随着人工智能的不断发展,目标检测算法在图像处理模型中已经得到广泛应用,现有的目标检测算法在对距离相近的目标进行检测时,由于临近的目标在物理距离上接近,目标检测算法难以准确标定出多个待检测目标,对距离相近的目标进行高精度检测仍然具有挑战性。有鉴于此,如何提高图像处理模型对距离相近的目标进行检测的准确率成为亟待解决的问题。


技术实现要素:

3.本技术主要解决的技术问题是提供一种图像处理模型的训练方法、目标检测方法和属性识别方法,能够提高图像处理模型对距离相近的目标进行检测的准确率。
4.为解决上述技术问题,本技术第一方面提供一种图像处理模型的训练方法,包括:获得多个训练图像数据;其中,所述训练图像数据中包括至少两个训练目标,且所述训练图像数据中包含所述至少两个训练目标中各个所述训练目标的标注框;基于图像处理模型对各个所述训练图像进行目标检测,获得各个所述训练目标各自对应的预测框;基于各个所述训练图像数据中不同所述训练目标对应的所述预测框之间的相似度,对所述图像处理模型的参数进行调整;响应于满足收敛条件,获得训练后的所述图像处理模型。
5.为解决上述技术问题,本技术第二方面提供一种目标检测算法,包括:获得待识别图像数据;将所述待识别图像数据输入图像处理模型,获得所述待识别图像数据上的识别框,将所述识别框内的图像作为识别结果;其中,所述图像处理模型基于上述第一方面所述的方法获得。
6.为解决上述技术问题,本技术第三方面提供一种目标属性识别方法,包括:将包含待识别对象的待识别图像数据输入属性识别模型;基于所述属性识别模型中的目标检测层,对所述待识别图像数据进行目标识别,获取所述待识别对象的检测框;所述目标检测层是基于上述第一方面所述的图像处理模型得到的。
7.为解决上述技术问题,本技术第四方面提供一种电子设备,该电子设备包括:相互耦接的存储器和处理器,其中,所述存储器存储有程序数据,所述处理器调用所述程序数据以执行上述第一方面或第二方面或第三方面所述的方法。
8.为解决上述技术问题,本技术第五方面提供一种计算机可读存储介质,其上存储有程序数据,所述程序数据被处理器执行时实现上述第一方面或第二方面或第三方面所述的方法。
9.上述方案,获得多个训练图像数据,且训练图像数据中包括至少两个训练目标,训练目标已预先标注有训练目标对应的标注框,将训练图像数据输入至图像处理模型,获得
训练目标各自对应的预测框,利用不同训练目标对应的预测框之间的相似度确定本次图像处理模型的损失,故此,基于本次图像处理模型的损失对图像处理模型的参数进行调整后,使图像处理模型经过优化后图像处理模型对目标进行检测时既提高预测框的准确性又使得预测框之间尽可能不重合,当满足收敛条件后,获得训练后的图像处理模型,从而训练后的图像处理模型对距离相近的目标进行检测的准确率更高。
附图说明
10.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
11.图1是本技术图像处理模型的训练方法一实施方式的流程示意图;
12.图2是本技术图像处理模型的训练方法另一实施方式的流程示意图;
13.图3是本技术图像处理模型进行检测时一实施方式对应的示意图;
14.图4是本技术目标检测方法一实施方式的流程示意图;
15.图5是本技术目标属性识别方法一实施方式的流程示意图;
16.图6是本技术电子设备一实施方式的结构示意图;
17.图7是本技术计算机可读存储介质一实施方式的结构示意图。
具体实施方式
18.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
19.本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
20.请参阅图1,图1是本技术图像处理模型的训练方法一实施方式的流程示意图,该方法包括:
21.s101:获得多个训练图像数据,其中,训练图像数据中包括至少两个训练目标,且训练图像数据中包含至少两个训练目标中各个训练目标的标注框。
22.具体地,获取多个图像数据并对图像数据进行筛选和预处理从而获得多个训练图像数据,其中,筛选出来的图像数据中包括至少两个训练目标,且每个训练目标对应标定出了训练目标对应的标注框。
23.在一应用场景中,训练目标为车辆的车牌,获取包括车牌的图像数据,其中,某些车辆需要跨越不同的区域(例如:粤港澳地区)因此悬挂有两个车牌,从获取到的包含车辆的图像数据中筛选出包括两个车牌的图像数据,并标注出其中每个车辆对应的标注框,将已标注有标注框的图像数据作为训练图像数据。
24.在另一应用场景中,训练目标为行人,获取包括行人的图像数据,从获取到的包括行人的图像数据中筛选出包括多个行人的图像数据,并标注出其中每个行人对应的标注框,将已标注有标注框的图像数据作为训练图像数据。
25.s102:基于图像处理模型对各个训练图像进行目标检测,获得各个训练目标各自对应的预测框。
26.具体地,将训练图像数据输入至图像处理模型,以使图像处理模型对图像数据中的训练目标进行检测,获得图像处理模型输出的每个训练目标各自对应的预测框。
27.在一应用方式中,图像处理模型基于yolo(you only look once)算法构建,将训练图像数据输入至图像处理模型后,图像处理模型在训练图像数据上利用锚框对训练目标进行检测,获取与标注框交并比最大的锚框作为训练目标对应的预测框。
28.s103:基于各个训练图像数据中不同训练目标对应的预测框之间的相似度,对图像处理模型的参数进行调整。
29.具体地,获取所有训练目标对应的预测框两两之间相似度,基于预测框之间的相似度确定图像处理模型的损失,基于图像处理模型的损失对图像处理模型的参数进行调整。
30.可选地,每个训练目标各自对应的预测框和标注框之间的差异信息,利用预测框和标注框之间的差异信息和预测框之间的相似度共同确定图像处理模型的损失,为每个训练目标各自对应的差异信息以及所有训练目标两两之间相似度设置对应的权重系数后相加,获得图像处理模型对应的损失。
31.在一应用方式中,基于每个训练目标对应的预测框和标注框之间的位置关系,确定每个训练目标各自对应的差异信息,对所有的预测框两两之间求取交并比,获得每两个预测框之间的相似度,其中,求取交并比的过程包括将两个预测框之间的交集对应的面积除以两个预测框之间的并集对应的面积。为每个训练目标各自对应的差异信息和每两个预测框之间的相似度设置权重系数,以使差异信息和相似度处于相同的数量级或者差异信息的数量级比相似度的数量级大一级,将所有差异信息和相似度乘以对应的权重系数后相加,获得图像处理模型的损失。
32.进一步地,获得图像处理模型在本次对训练目标进行检测后对应的损失后,对图像处理模型的参数进行调整,以使图像处理模型对应的损失向着趋近于零的方向优化。
33.在一应用场景中,图像处理模型基于yolo算法构建,图像处理模型在训练图像数据上利用锚框对训练目标进行检测,通过调整图像处理模型的参数以改变图像处理模型对训练目标进行检测时锚框的尺寸,从而尝试获取损失趋近于零时图像处理模型对应的参数。
34.进一步地,当图像处理模型对应的损失中加入了预测框之间的相似度后,在调整图像处理模型的参数以使图像处理模型的损失趋近于零时,能够使优化后的图像处理模型对训练目标进行检测时,每个训练目标对应的预测框能够尽可能相互远离从而不产生交集,当图像处理模型的损失趋近于零时,既能提高预测框的准确性又使得预测框之间尽可能不重合,提高对距离相近的目标进行检测的准确率。
35.s104:响应于满足收敛条件,获得训练后的图像处理模型。
36.具体地,当满足训练图像处理模型的收敛条件后,输出训练后的图像处理模型。当
图像处理模型的收敛条件设置成损失为零时,若满足收敛条件,则获得的训练后的图像处理模型能够将不同的训练目标之间的预测框完全分开。
37.可选地,为降低训练难度以符合实际应用场景,基于图像处理模型的损失的数量级确定图像处理模型的收敛条件,将收敛条件设置为小于损失的数量级的百分之或千分之一。
38.上述方案,获得多个训练图像数据,且训练图像数据中包括至少两个训练目标,训练目标已预先标注有训练目标对应的标注框,将训练图像数据输入至图像处理模型,获得训练目标各自对应的预测框,利用不同训练目标对应的预测框之间的相似度确定本次图像处理模型的损失,故此,基于本次图像处理模型的损失对图像处理模型的参数进行调整后,使图像处理模型经过优化后图像处理模型对目标进行检测时既提高预测框的准确性又使得预测框之间尽可能不重合,当满足收敛条件后,获得训练后的图像处理模型,从而训练后的图像处理模型对距离相近的目标进行检测的准确率更高。
39.请参阅图2,图2是本技术图像处理模型的训练方法另一实施方式的流程示意图,该方法包括:
40.s201:获得多个训练图像数据,其中,训练图像数据中包括至少两个训练目标,且训练图像数据中包含至少两个训练目标中各个训练目标的标注框。
41.具体地,在获得多个训练图新数据的步骤之前需要构建图像处理模型,以获得能够在图像数据上标定出目标的图像处理模型。
42.在一应用方式中,在获得多个训练图新数据的步骤之前,还包括:获得初始模型;对初始模型进行裁剪处理,获得图像处理模型,以使图像处理模型的卷积核通道少于初始模型的卷积核通道。
43.具体地,初始模型为yolov3模型,其中,yolov3模型仅使用卷积层,也就是说,初始模型为一个全卷积网络,初始模型没有池化层,使用步幅为2的卷积层替代池化层进行特征图的降采样过程,这样可以有效阻止由于池化层导致的低层级特征的损失。但是,初始模型的卷积层内卷积核数量众多,对于处理能力较差的处理芯片而言,由于处理能力有限难以支持初始模型对图像数据进行识别。
44.进一步地,对初始模型进行裁剪处理,将初始模型的卷积核通道数缩减,获得图像处理模型从而降低图像处理模型的处理难度,提高图像处理模型在前端设备上的处理速度。
45.在一应用场景中,将初始模型的卷积核通道数缩减至初始模型的1/4,获得图像处理模型,使预测模型具备预设的检测精度并减少模型的参数量,提高图像处理模型的处理速度。在其他应用场景中,卷积核通道数也可以缩减为其他数值,本技术对此不做具体限制。
46.s202:基于图像处理模型对各个训练图像进行目标检测,获得各个训练目标各自对应的预测框。
47.具体地,将训练图像数据输入图像处理模型,以使图像处理模型标定出训练目标各自对应的预测框。
48.在一应用方式中,将训练图像数据输入图像处理模型,以使图像处理模型在训练图像数据上标定多个预设尺寸的网格,并在每个网格内利用预设数值的锚框对训练目标进
行检测,将与训练目标对应的预测框交并比最大的锚框作为训练目标对应的预测框。
49.具体地,请参阅图3,图3是本技术图像处理模型进行检测时一实施方式对应的示意图,图像处理模型基于yolo算法构建,将训练图像数据输入至图像处理模型后,图像处理模型在图像数据上划分7x7共49个网格,并且每个网格对应有锚框对训练目标进行检测,其中,锚框为图中所示的虚线框,获取与标注框交并比最大的锚框作为每个训练目标各自对应的预测框。
50.在一应用场景中,图像数据为车辆训练目标为车牌,且车辆上悬挂有两个车牌,将训练图像数据输入至图像处理模型后,图像处理模型在训练图像数据上划分出49个网格,每个网格对应有3个锚框对训练目标进行检测,每一个标注框都会匹配一个与其交并比最大的锚框作为训练目标对应的预测框,其中,车牌对应的边框即为标注框,预测框为与车牌边框交并比最大的两个虚线框。
51.s203:基于各个训练图像数据中每个训练目标各自对应的预测框和标注框之间的差异信息,确定第一损失。
52.具体地,获取同一训练目标对应的预测框和标注框对应的坐标、置信度和类别,根据每个训练目标对应的预测框和标注框对应的坐标确定每个训练目标对应的坐标误差,根据每个训练目标对应的预测框和标注框对应的置信度确定每个训练目标对应的置信度误差,根据每个训练目标对应的预测框中目标的类型和标注框中训练目标的类别确定每个训练目标对应的类别误差,从而从多个维度获取更加准确的差异信息。
53.在一应用方式中,基于各个训练图像数据中每个训练目标各自对应的预测框和标注框之间的差异信息,确定第一损失的步骤,包括:基于同一训练目标对应的预测框和标注框所对应的坐标,确定预测框和标注框之间的坐标误差;以及基于同一训练目标对应的预测框匹配到标注框的置信度,确定预测框和标注框之间的第一置信度误差,基于同一训练目标对应的预测框未匹配到标注框的置信度,确定预测框和标注框之间的第二置信度误差;以及基于同一训练目标对应的预测框内目标的类别与标注框内训练目标的类别,确定预测框和标注框之间的类别误差;对同一训练目标对应的坐标误差、第一置信度误差、第二置信度误差和类别误差进行加权求和,获得每个训练目标各自对应的差异信息;遍历训练目标,将所有目标对应的差异信息相加,确定第一损失。
54.具体地,通过多个维度不同参数来构建预测框和标注框之间的差异信息。
55.进一步地,对同一训练目标对应的坐标误差、第一置信度误差、第二置信度误差和类别误差进行加权求和,获得每个训练目标各自对应的差异信息的步骤,包括:将坐标误差、第一置信度误差、第二置信度误差和类别误差分别乘以对应的权重系数,以使坐标误差、第一置信度误差、第二置信度误差和类别误差乘以对应的权重系数后处于相同的数量级,从而获得每个训练目标各自对应的差异信息。为训练目标对应的坐标误差、第一置信度误差、第二置信度误差和类别误差乘以对应的权重系数,以使获得的数值处于相同的数量级,以避免部分较小的数值对最终的损失产生的影响较小,提高构建的损失函数的合理性。其中,数量级以坐标误差、第一置信度误差、第二置信度误差和类别误差中的最大值对应的十的倍数作为统一的数量级。
56.具体地,上述过程利用公式表示如下:
[0057][0058][0059]
其中,请结合参阅图3,表示第i个网格的第j个锚框,上述公式(1)主要由4部分组成,第一项为匹配到标注框的预测框的坐标误差、第二项为匹配到标注框的预测框的第一置信度误差,第三项为没有匹配到标注框的预测框的第二置信度误差,第四项为匹配到标注框的预测框的类别误差。通过不同方面不同维度的参数来设置误差,从而提高误差计算的精度为图像处理模型的参数调整提供依据。
[0060]
进一步地,表示坐标误差的权重系数,s表示yolo算法最后一层特征图的宽,如图3中所示,s为7,b表示yolo层中每一个网格中含有的锚框的数量,表示预测框的x坐标、y坐标、宽度、高度,表示标注框的x坐标、y坐标、宽度、高度,λ
obj
表示匹配到标注框的预测框的置信度误差权重系数,λ
noobj
表示没有匹配到标注框的预测框的置信度误差权重系数,λ
class
表示匹配到gt框的anchor的类别误差权重系数,λ
obj
、λ
noobj
、λ
class
在设定时,尽量保证各自对应的误差项在乘以权重系数后,数值大小在同一数量级。
[0061]
在一应用场景中,训练目标为车辆的车牌,基于预测框的坐标和标注框之间的误差确定训练目标的坐标误差,基于预测框匹配到标注框的置信度确定训练目标的第一置信度误差,基于预测框未匹配到标注框的置信度确定训练目标的第二置信度误差,基于预测框给出的目标的类别和标注框内训练目标对应的类别确定训练目标的类别误差,其中当训练目标为车辆的车牌时,训练目标的类型包括非机动车牌、机动车蓝牌、机动车黄牌、新能源车绿牌和特殊车辆白牌。当车辆悬挂有两个车牌时,则对每个训练目标分别求取对应的坐标误差、第一置信度误差、第二置信度误差和类别误差,从而遍历所有的训练目标对应的预测框。
[0062]
s204:基于各个训练图像数据中不同训练目标对应的预测框之间的相似度,确定第二损失。
[0063]
具体地,基于不同训练目标对应的预测框两两之间的交并比,确定预测框之间的
相似度,将相似度作为第二损失。其中,求取交并比的过程包括将两个预测框之间的交集对应的面积除以两个预测框之间的并集对应的面积。
[0064]
在一应用场景中,获取所有预测框的边框位置,并对每两个预测框分别求取交并比,作为每两个预测框之间的相似度。当预测框如图3中为两个预测框时,则求取两个预测框之间的交并比作为预测框之间的相似度即可。
[0065]
s205:基于第一损失和第二损失,对图像处理模型的参数进行调整。
[0066]
具体地,将第二损失乘以对应的权重系数后与第一损失相加,获得图像处理模型的损失,其中,第二损失乘以对应的权重系数后比第一损失的数量级小一级。
[0067]
进一步地,基于图像处理模型的损失对图像处理模型的参数进行调整。
[0068]
在一应用方式中,获取差异信息的数量级,由于交并比的初始数值为0-1之间的比值,将第二损失乘以权重系数后,使乘以权重系数的第二损失的数量级比第一损失的数量级小一级。
[0069]
在一应用场景中,当第一损失为120时,数量级与十的倍数相关,则第一损失的数量级为2个数量级,将第二损失乘以权重系数后统一设置为1个数量级,以使乘以权重系数后的第二损失能够和第一损失共同影响图像处理模型的损失。
[0070]
进一步地,获得图像处理模型在本次对训练目标进行检测后对应的损失后,对图像处理模型的参数进行调整,以使图像处理模型对应的损失减小。
[0071]
在一应用方式中,图像处理模型基于yolo算法构建,图像处理模型在训练图像数据上利用锚框对训练目标进行检测,通过调整图像处理模型的参数以改变图像处理模型对训练目标进行检测时锚框的移动范围,从而尝试获取损失趋近于零时图像处理模型对应的参数。当图像处理模型的损失趋于零时,则表示图像处理模型对不同的训练目标进行检测时所获得的多个预测框之间的交集变小乃至没有交集,从而可以标定出更加精确的预测框的位置。
[0072]
s206:响应于满足收敛条件,获得训练后的图像处理模型。
[0073]
具体地,当满足训练图像处理模型的收敛条件后,输出训练后的图像处理模型。
[0074]
在本实施例中,将初始模型的卷积核通道数缩减,提升了图像处理模型在前端设备上的运行速度,并且通过多维度参数来确定图像处理模型的差异信息,并在差异信息的基础上添加了预测框之间的交并比,并设置了各参数对应的权重以获得更精确的损失函数来计算图像处理模型的损失,基于图像处理模型的损失从而调整获得更加精确的图像处理模型。
[0075]
请参阅图4,图4是本技术目标检测方法一实施方式的流程示意图,该方法包括:
[0076]
s401:获得待识别图像数据。
[0077]
具体地,获取包括待识别目标的待识别图像数据。其中,待识别目标的类型与上述训练目标的类型相同。
[0078]
s402:将待识别图像数据输入图像处理模型,获得待识别图像数据上的识别框,将识别框内的图像作为识别结果。
[0079]
具体地,图像处理模型基于上述任一实施例中所述的方法获得。训练后的图像处理模型对目标进行检测时,既提高了预测框的准确性又使得预测框之间尽可能不重合,对距离相近的待识别目标进行检测的准确率更高。
[0080]
在一应用场景中,待识别图像数据中包括车辆,车辆上悬挂有车牌,当车辆上悬挂有两个车牌时,将待识别图像数据输入至图像处理模型,以使图像处理模型在两个车牌的位置分别标定出预测框,将预测框内的图像作为识别结果输出。
[0081]
请参阅图5,图5是本技术目标属性识别方法一实施方式的流程示意图,该方法包括:
[0082]
s501:将包含待识别对象的待识别图像数据输入属性识别模型。
[0083]
具体地,获得包含待识别对象的待识别图像数据,将待识别图像数据输入属性识别模型。其中,属性识别模型包括目标检测层。
[0084]
s502:基于属性识别模型中的目标检测层,对待识别图像数据进行目标识别,获取待识别对象的检测框。
[0085]
具体地,目标检测层是基于上述实施例中获得的图像处理模型得到的,利用属性识别模型中的目标检测层,对待识别图像数据进行目标识别,获取待识别图像对应的检测框。
[0086]
可选地,属性识别模型还包括属性判定层,将检测框内的待识别目标输入属性判定层从而获得待识别目标对应的属性识别结果。
[0087]
请参阅图6,图6是本技术电子设备一实施方式的结构示意图,该电子设备60包括相互耦接的存储器601和处理器602,其中,存储器601存储有程序数据(图未示),处理器602调用程序数据以实现上述任一实施例中的图像处理模型的训练方法或目标检测方法或目标属性识别方法,相关内容的说明请参见上述方法实施例的详细描述,在此不再赘叙。
[0088]
请参阅图7,图7是本技术计算机可读存储介质一实施方式的结构示意图,该计算机可读存储介质70存储有程序数据700,该程序数据700被处理器执行时实现上述任一实施例中的图像处理模型的训练方法或目标检测方法或目标属性识别方法,相关内容的说明请参见上述方法实施例的详细描述,在此不再赘叙。
[0089]
需要说明的是,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
[0090]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0091]
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本技术各个实施方式方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0092]
以上所述仅为本技术的实施方式,并非因此限制本技术的专利范围,凡是利用本
申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本技术的专利保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献