一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种目标检测方法、装置、存储介质及终端与流程

2022-02-22 17:28:23 来源:中国专利 TAG:


1.本发明涉及计算机视觉技术领域,特别涉及一种目标检测方法、装置、存储介质及终端。


背景技术:

2.目标检测是计算机视觉和数字图像处理的重要研究方向,广泛应用于机器人导航、智能视频监控、工业检测、航空航天等诸多领域。目标检测的目标是找出图像中感兴趣的对象,包含物体定位和物体分类两个子任务,即同时确定物体的类别和位置。
3.在现有技术中,利用神经网络结合大量图片数据进行训练的目标检测模型已经成为行业的主流模型训练方式。基于神经网络的算法基本上可以归为两类:以faster r-cnn为代表的两阶段算法和以yolo、ssd等为代表的一阶段算法。在应用阶段,传统的目标检测算法输出目标的中心点位置(x’,y’)以及包含目标的最小外接矩形的宽w’和高h’。在训练阶段,当模型输出的中心点位置(x’,y’)和真实标签中的中心点位置(x,y)不一致时,模型将会产生损失,即使输出的中心点紧挨着真实中心点,模型也将产生损失并对损失进行优化,由于物体的位置标签往往不是绝对准确,物体的中心位置应该是由中心坐标点附近一小范围来定义,而非单一像素点来定义。因此当模型输出的中心点坐标位于真实中心范围内时,模型不应该产生损失。若此时仍产生损失,则可能降低检测模型的鲁棒性和泛化能力。


技术实现要素:

4.本技术实施例提供了一种目标检测方法、装置、存储介质及终端。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
5.第一方面,本技术实施例提供了一种目标检测方法,方法包括:
6.获取待检测的目标图像;
7.将待检测的目标图像输入预先训练的目标检测模型中;其中,预先训练的目标检测模型的损失函数是根据位置损失值来构建的,位置损失值是根据中心范围半径确定的,中心范围半径是根据目标物体的标签中宽和高来确定的;
8.输出目标图像中各物体的位置与多个类别概率值;
9.根据多个类别概率值确定出各物体的最终类别。
10.可选的,按照下述步骤生成预先训练的目标检测模型,包括:
11.采集包含多种物体的图像,并针对所述图像中的每种物体构建物体标签后生成模型训练样本;
12.创建目标检测模型;
13.从模型训练样本中获取第n图像输入目标检测模型中,输出图像中每个候选区域
的类别信息与位置信息;
14.获取第n图像中包含的物体上标注的位置标签与类别标签;
15.根据输出的位置信息、输出的类别信息以及物体上标注的位置标签与类别标签生成目标检测模型的损失值;
16.基于模型的损失值优化目标检测模型,生成训练后的目标检测模型;
17.将训练后的目标检测模型确定为预先训练的目标检测模型。
18.可选的,目标检测模型包括特征提取模块、分类模块与回归模块;
19.从模型训练样本中获取第n图像输入目标检测模型中,输出图像中每个候选区域的类别信息与位置信息,包括:
20.从模型训练样本中获取第n图像输入特征提取模块中,得到图像特征图;
21.针对图像特征图的每个位置产生多个不同大小和长宽比的候选区域;
22.采用分类模块与回归模块针对候选区域进行分类以及位置调整后,输出图像中每个候选区域的类别信息与位置信息。
23.可选的,根据输出的位置信息、输出的类别信息以及物体上标注的位置标签与类别标签生成目标检测模型的损失值,包括:
24.获取物体的位置标签中物体的宽和高;
25.计算物体分别在宽和高两个方向上的中心范围半径,生成第一范围半径与第二范围半径;
26.根据第一范围半径、第二范围半径、位置信息以及位置标签计算位置损失值;
27.根据类别信息与类别标签计算分类损失值;
28.将位置损失值与分类损失值求和后生成目标检测模型的损失值。
29.可选的,所述生成目标检测模型的损失值时,还包括计算宽高损失值。
30.可选的,基于模型的损失值优化目标检测模型,生成训练后的目标检测模型,包括:
31.根据模型的损失值对目标检测模型的参数进行求导,生成局部梯度序列;
32.采用随机梯度下降算法以及局部梯度序列对目标检测模型进行迭代优化;
33.当迭代优化的优化次数等于预设上限值或者模型的损失值小于预设阈值时,停止模型的优化;
34.生成训练后的目标检测模型。
35.可选的,当迭代优化的优化次数等于预设上限值或者模型的损失值小于预设阈值时,停止模型的优化,包括:
36.当迭代优化的优化次数小于预设上限值或者模型的损失值大于等于预设阈值时,继续执行从模型训练样本中获取第n 1图像输入目标检测模型中的步骤;当n 1大于所述模型训练样本的数量时,对模型训练样本中图像的顺序进行随机排列后,重置n=1。
37.可选的,根据多个类别概率值确定出各物体的最终类别,包括:
38.选择多个类别概率值中的最大概率值;
39.识别选择的最大概率值对应的类别;
40.将最大概率值对应的类别确定为各物体的最终类别。
41.第二方面,本技术实施例提供了一种目标检测装置,装置包括:
42.图像获取模块,用于获取待检测的目标图像;
43.图像输入模块,用于将待检测的目标图像输入预先训练的目标检测模型中;其中,预先训练的目标检测模型的损失函数是根据位置损失值来构建的,位置损失值是根据中心范围半径确定的,中心范围半径是根据目标物体的标签中宽和高来确定的;
44.输出模块,用于输出目标图像中各物体的位置与多个类别概率值;
45.最终类别确定模块,用于根据多个类别概率值确定出各物体的最终类别。
46.第三方面,本技术实施例提供一种计算机存储介质,计算机存储介质存储有多条指令,指令适于由处理器加载并执行上述的方法步骤。
47.第四方面,本技术实施例提供一种终端,可包括:处理器和存储器;其中,存储器存储有计算机程序,计算机程序适于由处理器加载并执行上述的方法步骤。
48.本技术实施例提供的技术方案可以包括以下有益效果:
49.在本技术实施例中,目标检测装置首先获取待检测的目标图像,然后将待检测的目标图像输入预先训练的目标检测模型中,其中预先训练的目标检测模型的损失函数是根据位置损失值来构建的,位置损失值是根据中心范围半径确定的,中心范围半径是根据目标物体的标签中宽和高来确定的;其次输出目标图像中各物体的位置与多个类别概率值,最后根据多个类别概率值确定出各物体的最终类别。由于本技术通过中心范围半径确定模型的损失值,使得将目标中心位置优化从回归单个像素改进成回归到中心像素周围的小范围,从而提升了模型针对目标检测的鲁棒性和泛化能力。
50.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
51.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
52.图1是本技术实施例提供的一种目标检测方法的流程示意图;
53.图2是本技术实施例提供的一种目标检测模型的训练方法的流程示意图;
54.图3是本技术实施例提供的一种目标检测装置的结构示意图;
55.图4是本技术实施例提供的一种终端的结构示意图。
具体实施方式
56.以下描述和附图充分地示出本发明的具体实施方案,以使本领域的技术人员能够实践它们。
57.应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
58.下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
59.在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。此外,在本发明的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
60.本技术提供了一种目标检测方法、装置、存储介质及终端,以解决上述相关技术问题中存在的问题。本技术提供的技术方案中,由于本技术通过中心范围半径确定模型的损失值,使得将目标中心位置优化从回归单个像素改进成回归到中心像素周围的小范围,从而提升了模型针对目标检测的鲁棒性和泛化能力,下面采用示例性的实施例进行详细说明。
61.下面将结合附图1-附图2,对本技术实施例提供的目标检测方法进行详细介绍。该方法可依赖于计算机程序实现,可运行于基于冯诺依曼体系的目标检测装置上。该计算机程序可集成在应用中,也可作为独立的工具类应用运行。其中,本技术实施例中的目标检测装置可以为用户终端,包括但不限于:个人电脑、平板电脑、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备等。在不同的网络中用户终端可以叫做不同的名称,例如:用户设备、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置、蜂窝电话、无绳电话、个人数字处理(personal digital assistant,pda)、5g网络或未来演进网络中的终端设备等。
62.请参见图1,为本技术实施例提供了一种目标检测方法的流程示意图。如图1所示,本技术实施例的方法可以包括以下步骤:
63.s101,获取待检测的目标图像;
64.其中,待检测的目标图像是用来测试预先训练的目标检测模型性能的图像或者预先训练的目标检测模型应用在检测场景时接收到的图像。
65.通常,当待检测的目标图像是用来测试预先训练的目标检测模型性能的图像时,待检测的目标图像可以是从测试样本中获取的,也可以是从用户终端里获取到的图像,还可以是从云端下载到的图像。当待检测的目标图像是预先训练的目标检测模型应用在检测应用场景时获取到的图像时,待检测的图像可以是通过图像采集设备实时采集的图像。
66.在一种可能的实现方式中,当目标检测模型训练后,需要检测训练完成的目标检测模型的目标检测性能时,用户通过用户终端从样本测试集或者本地图库或者云端下载任何一个携带物体的图像,将该图像确定为待检测的目标图像。
67.在另一种可能的实现方式中,当目标检测模型训练完成后,并将训练完成的目标检测模型部署在实际应用场景时,物体传感器或者物体监测算法当检测到有物体进入摄像头监视区域后,触发图像采集摄像的拍照功能采集进入监视区域的目标图像,最后将目标图像确定为待检测的目标图像。
68.s102,将待检测的目标图像输入预先训练的目标检测模型中;
69.其中,预先训练的目标检测模型的损失函数是根据位置损失值来构建的,位置损失值是根据中心范围半径确定的,中心范围半径是根据目标物体的标签中宽和高来确定
的。
70.通常,对于大多数目标,特别是尺寸较大的目标,其中心点的位置不应该用单个像素点来唯一表示。相反地,中心像素周围的一个小范围内,都应该认为是该目标的中心位置。
71.例如,假设图像中包含一只大象,其尺寸为700*800。在数据标注阶段,通常用一个最小外接矩形将大象框出,并将矩形的中心点(x,y)作为大象的中心点。若模型输出的中心点坐标为(x 1,y),根据现有方法的损失函数,该输出将产生一定的损失。然而,从人眼的直观感受来看,以(x 1,y)作为大象的中心点也是可行的,即(x,y)与(x 1,y)两个点都符合大象中心点的要求,不存在孰优孰劣。因此,当模型输出(x 1,y)的中心点预测值时,不应该产生任何损失。若此时模型仍然产生损失,容易使得模型判定只有唯一的中心像素点才是符合条件的,这样的情况下模型容易产生过拟合,从而影响模型的鲁棒性和泛化性能。
72.因此本技术通过中心范围半径确定模型的损失值,使得将目标中心位置优化从回归单个像素改进成回归到中心像素周围的小范围,从而提升了模型针对目标检测的鲁棒性和泛化能力。
73.在本技术实施例中,在生成预先训练的目标检测模型时,首先采集包含多种物体的图像,并针对所述图像中的每种物体构建物体标签后生成模型训练样本,再创建目标检测模型,然后从模型训练样本中获取第n图像输入目标检测模型中,输出图像中每个候选区域的类别信息与位置信息,再获取第n图像中包含的物体上标注的位置标签与类别标签,其次根据输出的位置信息、输出的类别信息以及物体上标注的位置标签与类别标签生成目标检测模型的损失值,并基于模型的损失值优化目标检测模型,生成训练后的目标检测模型,最后将训练后的目标检测模型确定为预先训练的目标检测模型。
74.在一种可能的实现方式中,在根据步骤s101获取到待检测的目标图像后,此时将该目标图像输入预先训练的目标检测模型中,该模型根据训练后的生成文件进行处理。
75.s103,输出目标图像中各物体的位置与多个类别概率值;
76.其中,概率值是代表该图像中各物体所属类别的类别概率分布。
77.在一种可能的实现方式中,当基于步骤s102使用预先训练的目标检测模型进行处理后,会得到各物体的位置坐标以及多个类别的概率值,最后预先训练的目标检测模型将各物体的位置坐标以及多个类别的概率值进行输出,输出后得到目标图像中各物体的位置与多个类别概率值。
78.s104,根据多个类别概率值确定出各物体的最终类别。
79.在一种可能的实现方式中,在根据多个类别概率值确定出各物体的最终类别时,首先选择多个类别概率值中的最大概率值,然后识别选择的最大概率值对应的类别,最后将最大概率值对应的类别确定为各物体的最终类别。
80.在本技术实施例中,目标检测装置首先获取待检测的目标图像,然后将待检测的目标图像输入预先训练的目标检测模型中,其中预先训练的目标检测模型的损失函数是根据位置损失值来构建的,位置损失值是根据中心范围半径确定的,中心范围半径是根据目标物体的标签中宽和高来确定的;其次输出目标图像中各物体的位置与多个类别概率值,最后根据多个类别概率值确定出各物体的最终类别。由于本技术通过中心范围半径确定模型的损失值,使得将目标中心位置优化从回归单个像素改进成回归到中心像素周围的小范
围,从而提升了模型针对目标检测的鲁棒性和泛化能力。
81.请参见图2,为本技术实施例提供了一种目标检测模型的训练方法的流程示意图。如图2所示,目标检测模型的训练方法包括以下步骤:
82.s201,采集包含多种物体的图像,并针对所述图像中的每种物体构建物体标签后生成模型训练样本;
83.在本技术实施例中,采集训练所需的图像数据,并构建图像中包含的的目标标签。标签包含位置标签和分类标签。其中,目标的位置标签包含目标的宽w和高h以及中心点位置(x,y);目标的类别标签指定了目标所属的类别,用独热向量来表示。目标所属的那一类为1,其余为0。例如,[0,1,0,0]表示目标属于第二类别。
[0084]
在一种可能的实现方式中,首先从网上或者本地图库中采集包含多种目标物体的图像,针对图像中的目标进行标注,标注目标的位置标签和分类标签,标注结束后生成模型训练样本。
[0085]
s202,创建目标检测模型;
[0086]
通常,目标检测模型可以采用基于锚框的一阶段目标检测模型如ssd,yolo等,也可以采用基于锚框的二阶段模型,如faster r-cnn等。
[0087]
需要说明的是,模型的选取可根据实际场景进行确定,此处不做具体限定。
[0088]
s203,从模型训练样本中获取第n图像输入目标检测模型中,输出图像中每个候选区域的类别信息与位置信息;
[0089]
通常,目标检测模型包括特征提取模块、分类模块与回归模块。
[0090]
在一种可能的实现方式中,目标检测模型处理模型训练样本时,首先从模型训练样本中获取第n图像输入特征提取模块中,得到图像特征图,然后针对图像特征图的每个位置产生多个不同大小和长宽比的候选区域,最后采用分类模块与回归模块针对候选区域进行分类以及位置调整后,输出图像中每个候选区域的类别信息与位置信息。
[0091]
例如,将模型训练样本中的图像数据输入给目标检测模型,得到目标检测模型的输出,包括每个候选目标的位置信息ti和类别信息pi。
[0092]
s204,获取第n图像中包含的物体上标注的位置标签与类别标签;
[0093]
通常,训练样本中的图像上全部标注了物体的位置标签与类别标签,因此可获得输入的第n图像中包含的物体的位置标签和类别标签。
[0094]
s205,根据输出的位置信息、输出的类别信息以及物体上标注的位置标签与类别标签生成目标检测模型的损失值;
[0095]
在一种可能的实现方式中,在生成目标检测模型的损失值时,首先获取物体的位置标签中物体的宽和高,然后计算物体分别在宽和高两个方向上的中心范围半径,生成第一范围半径与第二范围半径,再根据第一范围半径、第二范围半径、位置信息以及位置标签计算位置损失值,其次根据类别信息与类别标签计算分类损失值,最后将位置损失值与分类损失值求和后生成目标检测模型的损失值。
[0096]
具体的,生成半径范围时,根据目标的宽w和高h,确定目标在宽和高方向上的中心范围半径r
x
和ry。其中,中心范围半径大小由以下公式定义:
[0097]rx
=w
×
r;
[0098]ry
=h
×
r;
[0099]
其中,r是中心范围的半径占目标宽和高的比例。为先验参数,优选0.03。w和h分别是目标的宽和高。
[0100]
构建的目标检测模型的损失函数计算公式为:
[0101][0102]
其中,i表示候选区域的索引号。pi表示模型对候选区域的输出类别,表示这个区域对应的真实类别。ti表示模型对这个区域的输出位置信息,表示该区域对应目标的真实位置信息。δi表示候选目标是否为正样本,即候选区域是否与一个或者多个真实目标相匹配。当候选区域是正样本,δi=1,否则δi=0,l
cls
表示分类的损失,可以根据任务需要设计。优选交叉熵损失。l
reg
表示预测目标与真实目标位置差异的损失。α是平衡分类损失和位置损失的权重。
[0103]
进一步地,本专利提出一种新型的位置损失l
reg
,位置损失值计算公式为:l
reg
=max(|x`-x|-r
x
,0) max(|y`-y|-ry,0) λ(|w`-w| |h`-h|。
[0104]
其中,x、和y、是模型预测的目标的中心点坐标,x和y是目标的真实中心点坐标。r
x
和ry分别是目标在宽和高方向上的中心点范围。w`和h`是模型预测的目标的最小外接矩形的宽和高,w和h是目标的真实最小外接矩形的宽和高。λ是平衡宽高损失和中心点损失的权重,为先验值,优选0.8。
[0105]
在一种可能的实现方式中,在生成目标检测模型的损失值时,还包括计算宽、高损失。
[0106]
s206,基于模型的损失值优化目标检测模型,生成训练后的目标检测模型;
[0107]
在一种可能的实现方式中,在优化模型时,首先根据模型的损失值对目标检测模型的参数进行求导,生成局部梯度序列,然后采用随机梯度下降算法以及局部梯度序列对目标检测模型进行迭代优化,当迭代优化的优化次数等于预设上限值或者模型的损失值小于预设阈值时,停止模型的优化,最后生成训练后的目标检测模型。
[0108]
进一步地,当迭代优化的优化次数小于预设上限值或者模型的损失值大于等于预设阈值时,继续执行从模型训练样本中获取第n 1图像输入目标检测模型中的步骤,当n 1大于模型训练样本的数量时,对模型训练样本中图像的顺序进行随机排列,并重置n=1。
[0109]
s207,将训练后的目标检测模型确定为预先训练的目标检测模型。
[0110]
在本技术实施例中,目标检测装置首先获取待检测的目标图像,然后将待检测的目标图像输入预先训练的目标检测模型中,其中预先训练的目标检测模型的损失函数是根据位置损失值来构建的,位置损失值是根据中心范围半径确定的,中心范围半径是根据目标物体的标签中宽和高来确定的;其次输出目标图像中各物体的位置与多个类别概率值,最后根据多个类别概率值确定出各物体的最终类别。由于本技术通过中心范围半径确定模型的损失值,使得将目标中心位置优化从回归单个像素改进成回归到中心像素周围的小范围,从而提升了模型针对目标检测的鲁棒性和泛化能力。
[0111]
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
[0112]
请参见图3,其示出了本发明一个示例性实施例提供的目标检测装置的结构示意图。该目标检测装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该
装置1包括图像获取模块10、图像输入模块20、输出模块30、最终类别确定模块40。
[0113]
图像获取模块10,用于获取待检测的目标图像;
[0114]
图像输入模块20,用于将待检测的目标图像输入预先训练的目标检测模型中;其中,预先训练的目标检测模型的损失函数是根据位置损失值来构建的,位置损失值是根据中心范围半径确定的,中心范围半径是根据目标物体的标签中宽和高来确定的;
[0115]
输出模块30,用于输出目标图像中各物体的位置与多个类别概率值;
[0116]
最终类别确定模块40,用于根据多个类别概率值确定出各物体的最终类别。
[0117]
需要说明的是,上述实施例提供的目标检测装置在执行目标检测方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的目标检测装置与目标检测方法实施例属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
[0118]
上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
[0119]
在本技术实施例中,目标检测装置首先获取待检测的目标图像,然后将待检测的目标图像输入预先训练的目标检测模型中,其中预先训练的目标检测模型的损失函数是根据位置损失值来构建的,位置损失值是根据中心范围半径确定的,中心范围半径是根据目标物体的标签中宽和高来确定的;其次输出目标图像中各物体的位置与多个类别概率值,最后根据多个类别概率值确定出各物体的最终类别。由于本技术通过中心范围半径确定模型的损失值,使得将目标中心位置优化从回归单个像素改进成回归到中心像素周围的小范围,从而提升了模型针对目标检测的鲁棒性和泛化能力。
[0120]
本发明还提供一种计算机可读介质,其上存储有程序指令,该程序指令被处理器执行时实现上述各个方法实施例提供的目标检测方法。
[0121]
本发明还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各个方法实施例的目标检测方法。
[0122]
请参见图4,为本技术实施例提供了一种终端的结构示意图。如图4所示,终端1000可以包括:至少一个处理器1001,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。
[0123]
其中,通信总线1002用于实现这些组件之间的连接通信。
[0124]
其中,用户接口1003可以包括显示屏(display)、摄像头(camera),可选用户接口1003还可以包括标准的有线接口、无线接口。
[0125]
其中,网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。
[0126]
其中,处理器1001可以包括一个或者多个处理核心。处理器1001利用各种借口和线路连接整个电子设备1000内的各个部分,通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集,以及调用存储在存储器1005内的数据,执行电子设备1000的各种功能和处理数据。可选的,处理器1001可以采用数字信号处理(digital signal processing,dsp)、现场可编程门阵列(field-programmable gate array,fpga)、可编程逻辑阵列(programmable logic array,pla)中的至少一种硬件形式来实现。处理器1001可集成中央处理器(central processing unit,cpu)、图像处理器(graphics processing unit,gpu)和调制解调器等中的一种或几种的组合。其中,cpu主要处理操作系统、用户界面和应用程
序等;gpu用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器1001中,单独通过一块芯片进行实现。
[0127]
其中,存储器1005可以包括随机存储器(random access memory,ram),也可以包括只读存储器(read-only memory)。可选的,该存储器1005包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图4所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及目标检测应用程序。
[0128]
在图4所示的终端1000中,用户接口1003主要用于为用户提供输入的接口,获取用户输入的数据;而处理器1001可以用于调用存储器1005中存储的目标检测应用程序,并具体执行以下操作:
[0129]
获取待检测的目标图像;
[0130]
将待检测的目标图像输入预先训练的目标检测模型中;其中,预先训练的目标检测模型的损失函数是根据位置损失值来构建的,位置损失值是根据中心范围半径确定的,中心范围半径是根据目标物体的标签中宽和高来确定的;
[0131]
输出目标图像中各物体的位置与多个类别概率值;
[0132]
根据多个类别概率值确定出各物体的最终类别。
[0133]
在一个实施例中,处理器1001在生成预先训练的目标检测模型时,具体执行以下操作:
[0134]
采集包含多种物体的图像,并针对所述图像中的每种物体构建物体标签后生成模型训练样本;
[0135]
创建目标检测模型;
[0136]
从模型训练样本中获取第n图像输入目标检测模型中,输出图像中每个候选区域的类别信息与位置信息;
[0137]
获取第n图像中包含的物体上标注的位置标签与类别标签;
[0138]
根据输出的位置信息、输出的类别信息以及物体上标注的位置标签与类别标签生成目标检测模型的损失值;
[0139]
基于模型的损失值优化目标检测模型,生成训练后的目标检测模型;
[0140]
将训练后的目标检测模型确定为预先训练的目标检测模型。
[0141]
在一个实施例中,处理器1001在执行从模型训练样本中获取第n图像输入目标检测模型中,输出图像中每个候选区域的类别信息与位置信息时,具体执行以下操作:
[0142]
从模型训练样本中获取第n图像输入特征提取模块中,得到图像特征图;
[0143]
针对图像特征图的每个位置产生多个不同大小和长宽比的候选区域;
[0144]
采用分类模块与回归模块针对候选区域进行分类以及位置调整后,输出图像中每个候选区域的类别信息与位置信息。
[0145]
在一个实施例中,处理器1001在执行根据输出的位置信息、输出的类别信息以及物体上标注的位置标签与类别标签生成目标检测模型的损失值时,具体执行以下操作:
[0146]
获取物体的位置标签中物体的宽和高;
[0147]
计算物体分别在宽和高两个方向上的中心范围半径,生成第一范围半径与第二范围半径;
[0148]
根据第一范围半径、第二范围半径、位置信息以及位置标签计算位置损失值;
[0149]
根据类别信息与类别标签计算分类损失值;
[0150]
将位置损失值与分类损失值求和后生成目标检测模型的损失值。
[0151]
在一个实施例中,处理器1001在执行基于模型的损失值优化目标检测模型,生成训练后的目标检测模型时,具体执行以下操作:
[0152]
根据模型的损失值对目标检测模型的参数进行求导,生成局部梯度序列;
[0153]
采用随机梯度下降算法以及局部梯度序列对目标检测模型进行迭代优化;
[0154]
当迭代优化的优化次数等于预设上限值或者模型的损失值小于预设阈值时,停止模型的优化;
[0155]
生成训练后的目标检测模型。
[0156]
在一个实施例中,处理器1001在执行当迭代优化的优化次数等于预设上限值或者模型的损失值小于预设阈值时,停止模型的优化时,具体执行以下操作:
[0157]
当迭代优化的优化次数小于预设上限值或者模型的损失值大于等于预设阈值时,继续执行从模型训练样本中获取第n 1图像输入目标检测模型中的步骤,并当n 1大于模型训练样本的数量时,对模型训练样本中图像的顺序进行随机排列后,并重置n=1。
[0158]
在一个实施例中,处理器1001在执行根据多个类别概率值确定出各物体的最终类别时,具体执行以下操作:
[0159]
选择多个类别概率值中的最大概率值;
[0160]
识别选择的最大概率值对应的类别;
[0161]
将最大概率值对应的类别确定为各物体的最终类别。
[0162]
在本技术实施例中,目标检测装置首先获取待检测的目标图像,然后将待检测的目标图像输入预先训练的目标检测模型中,其中预先训练的目标检测模型的损失函数是根据位置损失值来构建的,位置损失值是根据中心范围半径确定的,中心范围半径是根据目标物体的标签中宽和高来确定的;其次输出目标图像中各物体的位置与多个类别概率值,最后根据多个类别概率值确定出各物体的最终类别。由于本技术通过中心范围半径确定模型的损失值,使得将目标中心位置优化从回归单个像素改进成回归到中心像素周围的小范围,从而提升了模型针对目标检测的鲁棒性和泛化能力。
[0163]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,目标检测的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。
[0164]
以上所揭露的仅为本技术较佳实施例而已,当然不能以此来限定本技术之权利范围,因此依本技术权利要求所作的等同变化,仍属本技术所涵盖的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献