一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于分数图的目标检测模型训练方法及目标检测方法与流程

2021-10-29 20:11:00 来源:中国专利 TAG:目标 检测 分数 深度 检测方法

1.本发明涉及目标检测领域和深度学习领域,具体涉及一种基于分数图的目标检测模型训练方法及目标检测方法。


背景技术:

2.目前,基于深度学习目标检测算法是很多人工智能算法的基础部分,极大的促进了人工智能算法在生物特征识别,公共安全,交通规划,智慧城市的应用。在当前的深度学习目标检测算法中,检测算法的核心在于两个部分,第一个部分就是目标类别的划分,第二个部分是目标检测包围框的位置定位和尺寸确定。在实现本发明过程中,发明人发现现有技术中至少存在如下问题:当目标类别确定后,最重要的部分就是如何精确的确定目标的位置和尺寸,在当前的检测算法一般选取目标检测包围框这种长方形的框的形式来表达图片中目标的位置信息和尺寸信息;但是当前的用来确定目标检测包围框的办法,结构相对复杂,在网络结构中需求的参数量极大,从而影响了模型的速度,而检测速度的降低及大量的参数对算法的实际应用造成了很大的障碍。


技术实现要素:

3.为了克服现有技术的不足,本公开实施例提供了一种基于分数图的目标检测模型训练方法及目标检测方法,采用新的确定目标位置和尺寸的算法,减少模型参数量,加快检测速度,能够推动目标检测算法的学术发展和进一步的落地应用。技术方案如下:
4.第一方面,提供了一种基于分数图的目标检测模型训练方法,所述方法包括:
5.获取目标检测的数据集图片,对数据集图片进行尺寸变换,使得数据集中目标尺寸的平均值可以表示为2
n 1
,n为整数;
6.设定目标检测模型分数图的感受野尺寸为2
n
7.构建输入图片与分数图的映射关系;分数图上的分数标签值,等于目标物体在其感受野中的占比,即分数标签值的计算公式如下:score(i,j)=(a∩rf(i,j))/rf(i,j),其中i,j表示分数图上某点的横坐标和纵坐标,起点的坐标为i=1,j=1,score(i,j)表示该点的分数,rf(i,j)代表该点在原图上对应的感受野区域,a代表原图中的目标区域;
8.采用目标检测的数据集对目标检测模型训练,使得最终模型的预测结果接近或者达到上述输入图片与分数图的映射关系。
9.在本公开实施例中,通过合理和细化的构建输入图片到分数图的映射关系,在目标检测模型训练过程中,完全无需在模型中专门设计用于确定检测包围框的网络结构,在训练时利于检测模型的拟合;减少模型参数量,加快检测速度,能够推动目标检测算法的学术发展和进一步的落地应用,另外训练时可以根据具体情况选用合适的样本平衡策略,损失函数,优化算法和学习率,模型的泛化能力要得到保证,以适用于未知的情形。
10.在一个可能的实现方式中,在设定检测模型分数图的感受野尺寸之前,通过目标尺寸的极大值和极小值判断目标尺寸是否相对稳定,数据集中目标尺寸的极大值,记为a,
其极小值记为b,即若a<3*2
n
且b>2
n
,则进入下一步,否则采用其他训练方法。
11.在本公开实施例中,可以更好的适用于数据集中目标尺寸相对稳定的情形,在这种情形下,可以得到更加准确的目标检测结果,因为目标介于一个感受野和九个感受野之间,那么在分数图上,一个目标一定可以被3
×
3的区域表达。
12.在一个可能的实现方式中,所述构建输入图片与分数图的映射关系中,若目标存在多个类别,则对多个类别的目标分别进行分数图的计算,得到多个分数图。
13.在本公开实施例中,完成了目标存在多个类别时,输入图片与分数图的映射的构建。
14.在一个可能的实现方式中,所述构建输入图片与分数图的映射关系中,若目标检测模型存在不同深度的网络层都需要做预测和输出,则对不同深度的网络层计算感受野尺寸,再分别计算该网络层上的分数图,得到多个分数图。
15.在本公开实施例中,完成了目标检测模型存在不同深度的网络层都需要做预测和输出时,输入图片与分数图的映射的构建。
16.第二方面,提供了一种基于分数图的目标检测方法,该方法包括:
17.将待检测图片做预处理,输入通过所有可能的实现方法中任一项所述一种基于分数图的目标检测模型训练方法训练的目标检测模型中,目标检测模型输出得到预测分数图。
18.在预测分数图上使用领域极大值算法,首先对预测分数图做3
×
3的最大值池化,得到池化后的预测分数图,然后将其与原预测分数图做比较,值相同的点保留,值不同的点置零,得到仅剩邻域极大值的预测分数图,由仅剩邻域极大值的预测分数图中,按分值从大到小得到k个极大值点及其位置信息,分别作为预测目标的中心。
19.获得检测包围框:选取一个极大值点,以极大值点为中心对应的感受野向前后左右扩大就可以得到具体的目标检测包围框,所述向前后左右扩大,其扩大的范围分别对应原预测分数图的分数值。
20.进而循环遍历预测分数图上的所有极大值点,得到每个极大值点对应的目标检测包围框。
21.根据目标检测包围框的位置和尺寸信息,可在原图片中可视化的展现目标检测结果。
22.在本公开实施例中,不同于之前的检测模型需要在后处理部分使用非极大值抑制算法去除冗余检测框,在分数图上采用邻域极大值算法得到中心点,然后根据中心点的上下左右四个方向的临近分数值换算出预测框的位置和尺寸信息,大大减少了模型结构的参数量,有利于模型的拟合,减少计算量,加快检测速度,有利于算法的落地应用;在分数图中使用领域极大值算法,基本不会出现冗余检测框,无需再使用非极大值抑制算法,大大加快了检测速度,减少了计算的空间和时间损耗。
23.在一个可能的实现方式中,所述待检测图片中,若目标存在多个类别,则目标检测模型输出得到多个类别预测分数图。
24.在本公开实施例中,可以实现目标存在多个类别时的目标检测。
25.在一个可能的实现方式中,所述待检测图片中,若目标检测模型存在不同深度的网络层都需要做预测和输出,则目标检测模型输出得到多个不同深度的网络层的预测分数
图。
26.在本公开实施例中,可以实现不同深度的网络层都需要做预测和输出时的目标检测。
27.在一个可能的实现方式中,所述由仅剩邻域极大值的预测分数图中,按分值从大到小得到k个极大值点及其位置信息,替换为:设定分数阈值β,将分数阈值β之上的所有分数标签值作为极大值点,分别作为预测目标的中心。
28.在本公开实施例中,该替换方案可以在图片上得到大于或小于k个同一类别的检测目标,而之前使用分数最大的k个极值点的做法最多得到k个同一类别的检测目标。
29.与现有技术相比,上述技术方案中的一个技术方案具有如下有益效果:通过合理和细化的构建输入图片到分数图的映射关系,在分数图上采用邻域极大值算法得到中心点,然后根据中心点的上下左右四个方向的临近分数值换算出预测框的位置和尺寸信息,大大减少了模型结构的参数量,有利于模型的拟合,减少计算量,加快检测速度,有利于算法的落地应用;当单独聚焦尺寸相对固定的情形时,提高了目标检测精度。同时还具有如下优点:
30.1、考虑一些实际场景中的检测算法能力的要求,舍弃了大范围多尺度的检测能力,仅从用于区分类别的分数图就可以直接得到目标的位置和尺寸信息;
31.2、无需在后处理阶段使用非极大值抑制算法去除冗余框;
32.3、模型的通用性强,可适用于不同的网络结构;
33.4、模型的可解释性得到增强,映射关系更加合理。
附图说明
34.图1为本公开实施例提供的基于分数图的目标检测模型训练方法的流程图。
35.图2为本公开实施例提供的输入图片与分数图的映射关系图。
36.图3为本公开实施例提供的基于分数图的目标检测方法的流程图。
37.图4为本公开实施例提供的分数图邻域极大值算法示意图。
38.图5为本公开实施例提供的获得检测包围框示意图。
具体实施方式
39.为了阐明本发明的技术方案和工作原理,下面将结合附图对本公开实施方式做进一步的详细描述。
40.上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
41.第一方面:本公开实施例提供了一种基于分数图的目标检测模型训练方法:
42.附图1为本公开实施例提供的基于分数图的目标检测模型训练方法的流程图,结合该图,主要包括以下步骤:
43.获取目标检测的数据集图片,对数据集图片进行尺寸变换,使得数据集中目标尺寸的平均值可以表示为2
n 1
,n为整数,数据集中目标尺寸的极大值,记为a,其极小值记为b;取目标的尺寸的近似值为2
n 1
的目的在于,目前检测模型感受野的尺寸一般为2的次幂,后续会根据目标和感受野的关系设计算法。
44.优选的,在设定检测模型分数图的感受野尺寸之前,通过目标尺寸的极大值和极小值判断目标尺寸是否相对稳定,即若a<3*2
n
且b>2
n
,则进入下一步,否则采用其他训练方法。可以更好的适用于数据集中目标尺寸相对稳定的情形,在这种情形下,可以得到更加准确的目标检测结果,因为目标介于一个感受野和九个感受野之间,那么在分数图上,一个目标一定可以被3
×
3的区域表达。
45.设定目标检测模型分数图的感受野尺寸为2
n
,在这样的设定下,目标介于一个感受野和九个感受野(3
×
3的区域)之间。
46.附图2为本公开实施例提供的输入图片与分数图的映射关系图,结合该图,构建输入图片与分数图的映射关系,具体如下:分数图上的分数标签值,等于目标物体在其感受野中的占比,即分数标签值的计算公式如下:score(i,j)=(a∩rf(i,j))/rf(i,j),其中i,j表示分数图上某点的横坐标和纵坐标,起点的坐标为i=1,j=1,score(i,j)表示该点的分数,rf(i,j)代表该点在原图上对应的感受野区域,a代表原图中的目标区域。
47.优选的,所述构建输入图片与分数图的映射关系中,若目标存在多个类别,则对多个类别的目标分别进行分数图的计算,得到多个分数图,完成输入图片与分数图的映射的构建。
48.进一步的,所述构建输入图片与分数图的映射关系中,若目标检测模型存在不同深度的网络层都需要做预测和输出,则对不同深度的网络层计算感受野尺寸,再分别计算该网络层上的分数图,得到多个分数图。
49.通过目标检测的数据集对目标检测模型训练,使得最终模型的预测结果符合上述输入图片与分数图的映射关系;训练部分结束,可以得到用于检测的模型,训练时可以根据具体情况选用合适的样本平衡策略,损失函数,优化算法和学习率,模型的泛化能力要得到保证,以适用于未知的情形。
50.第二方面,本公开实施例提供了一种基于分数图的目标检测方法,附图3为本公开实施例提供的基于分数图的目标检测方法的流程图,结合该图,目标检测方法具体如下:
51.将待检测图片做预处理,输入通过所述一种基于分数图的目标检测模型训练方法训练的目标检测模型中,目标检测模型输出得到预测分数图;这样就完成了检测模型两个核心步骤之一,目标类别的划分,即不同的目标类别对应不同的分数图,输入几个目标类别就得到几个分数图。
52.优选的,所述待检测图片中,若目标存在多个类别,则目标检测模型输出得到多个类别预测分数图。
53.进一步的,所述待检测图片中,若目标检测模型存在不同深度的网络层都需要做预测和输出,则目标检测模型输出得到多个不同深度的网络层的预测分数图。
54.获取目标具体的位置和尺寸信息:
55.在预测分数图上使用领域极大值算法,附图4为本公开实施例提供的分数图邻域极大值算法示意图,首先对预测分数图做3
×
3的最大值池化,得到池化后的预测分数图,然后将其与原预测分数图做比较,值相同的点保留,值不同的点置零,得到仅剩邻域极大值的预测分数图,由仅剩邻域极大值的预测分数图中,按分值从大到小得到k个极大值点及其位置信息,分别作为预测目标的中心;k值的设定取决于具体的任务和场景,如图4所示,有1个极大值。不同于之前的检测模型需要在后处理部分使用非极大值抑制算法去除冗余检测
框,本技术方案中,在分数图中使用领域极大值算法,基本不会出现冗余检测框,无需再使用非极大值抑制算法,大大加快了检测速度,减少了计算的空间和时间损耗。
56.优选的,所述由仅剩邻域极大值的预测分数图中,按分值从大到小得到k个极大值点及其位置信息,替换为:设定分数阈值β,将分数阈值β之上的所有分数标签值作为极大值点,分别作为预测目标的中心;该替代方案可以在图片上得到大于或小于k个同一类别的检测目标,而之前使用分数最大的k个极值点的做法最多得到k个同一类别的检测目标。
57.获得检测包围框:选取一个极大值点,以极大值点为中心对应的感受野向前后左右扩大就可以得到具体的目标检测包围框,所述向前后左右扩大,其扩大的数值分别对应其预测的分数值。
58.进而循环遍历预测分数图上的所有极大值点,得到每个极大值点对应的目标检测包围框。
59.因为预测分数图上的点代表了目标在该感受野中的占比,只需知道该点上下左右四个方向上相邻点的分数预测值,就可以知道上下左右四个方向上需要扩大的比例,由上述五个点换算得目标检测包围框,从而得到了目标的具体位置信息和检测包围框框型信息,如附图5所示。
60.根据目标检测包围框的位置和尺寸信息,可在原图片中可视化的展现检测结果。
61.以上结合附图对本发明进行了示例性描述,显然,本发明具体实现并不受上述方式的限制,凡是采用了本发明的方法构思和技术方案进行的各种非实质性的改进;或者未经改进、等同替换,将本发明的上述构思和技术方案直接应用于其他场合的,均在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜