一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于图像区域的锚框设置方法、设备和存储介质与流程

2022-03-16 15:33:39 来源:中国专利 TAG:


1.本发明实施例涉及图像检测技术,尤其涉及一种基于图像区域的锚框设置方法、设备和存储介质。


背景技术:

2.在目标检测任务中,识别图像中不同区域、不同大小的目标,是在目标检测中通常遇到的一个难题。对此,通常使用锚框的方法来解决。具体而言,就是根据待检测目标的实际尺寸,通过人工选择或聚类的方法得到若干个典型的矩形框,并将这些矩形框设置在图像中若干个固定的点;在检测过程中,目标检测模型对这些设定的矩形框进行微量修正,即可得到更精确的检测结果。
3.在实际应用场景中,存在很多待检测目标出现在图像边缘的情况,如果仍然使用现有的锚框设置方法,会使得大量的锚框超出了图像的边界,无效锚框数量增多;而且,对图像边缘的目标识别效果相对较差。


技术实现要素:

4.本发明实施例提供一种基于图像区域的锚框设置方法、设备和存储介质,以针对不同的图像区域设置不同尺寸的锚框,增强边缘识别效果,减少无效锚框的数量。
5.第一方面,本发明实施例提供了一种基于图像区域的锚框设置方法,包括:
6.统计数据集中在每个图像区域内待检测目标的边界框尺寸,并对每个图像区域内待检测目标的边界框尺寸进行分别聚类得到每个图像区域内的锚框尺寸;所述数据集包括多张图像;
7.获取待检测图像经过特征提取得到的特征图;所述待检测图像包括多个不重叠的图像区域;
8.将所述特征图划分为对应不同图像区域的多个子特征图,将所述多个子特征图分别经过卷积处理得到每个图像区域的直接预测结果,所述直接预测结果至少包括在每个图像细胞单元内偏移的预测框相对于锚框的尺寸缩放比;
9.根据每个图像区域的所述锚框尺寸和尺寸缩放比得到每个图像区域的预测框的尺寸,所述预测框的尺寸用于预测所述待检测目标的真实尺寸。
10.第二方面,本发明实施例还提供了一种电子设备,所述电子设备包括:
11.一个或多个处理器;
12.存储器,用于存储一个或多个程序,
13.当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现任一实施例所述的基于图像区域的锚框设置方法。
14.第三方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一实施例所述的基于图像区域的锚框设置方法。
15.本发明实施例考虑到待检测目标出现在不同图像区域时,会由于显示不完整呈现
不同的形状特点,从而聚类得到不同图像区域内的锚框尺寸,正是由于锚框的尺寸符合区域内待检测目标的形状特点,很少有锚框会超出图像。通过将对应不同图像区域的子特征图进行卷积处理以及采用对应区域的锚框尺寸进行再处理,得到符合不同区域待检测目标呈现特点的预测框的尺寸。正是由于预测框的尺寸符合区域内待检测目标的形状特点,可以准确地预测位于各图像区域内的目标位置。
附图说明
16.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
17.图1是本发明实施例提供的一种基于图像区域的锚框设置方法的流程图;
18.图2是本发明实施例提供的一种待检测目标的边界框的示意图;
19.图3是本发明实施例提供的另一种待检测目标的边界框的示意图;
20.图4是本发明实施例提供的特征图的示意图;
21.图5是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
22.为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行清楚、完整的描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例,都属于本发明所保护的范围。
23.在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
24.在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
25.本发明实施例提供一种基于图像区域的锚框设置方法,其流程图如图1所示,可适用于在图像中设置锚框和预测框的情况。本实施例由电子设备执行。结合图1,本实施例提供的方法具体包括:
26.s110、统计数据集中在每个图像区域内待检测目标的边界框尺寸,并对每个图像区域内待检测目标的边界框尺寸进行分别聚类得到每个图像区域内的锚框尺寸。
27.数据集包括多张图像,该多张图像的尺寸相同且与待检测图像一致,多张图像中均显示有待检测目标。本实施例不限定待检测目标的种类,可以是人、车或者物体等。
28.可选的,在数据集的每张图像上,通过人工标注或者目标识别的方法绘制待检测目标的边界框。图2是本发明实施例提供的一种待检测目标的边界框的示意图。边界框为矩形,通过边界框的中心位置(用深色圆点表示)、宽和高来唯一表示一个边界框。
29.将数据集中的多张图像和后文的待检测图像采用同样的方法预先划分多个图像区域,换言之,数据集中图像和待检测图像中的图像区域是一致的。多个图像区域互不重叠。需要说明的是,图像区域仅是尺寸和位置的划分,并不会将图像裁剪。参见图2,多个图像区域包括边缘区域和中间区域。中间区域用虚线框出。显然,出现在中间区域的待检测目标显示完整,边界框的宽高较接近;出现在边缘区域的待检测目标显示不完整,边界框的宽高差距较大。因此有必要针对每个图像区域分别统计边界框尺寸。
30.在一可选实施方式中,第一步:获取所述多张图像中待检测目标的边界框中心位置,并基于所述待检测目标的边界框中心位置汇总每个图像区域内出现的待检测目标,可选的,参见图2,将中心位置出现在边缘区域的待检测目标(猫)作为边缘区域内出现的待检测目标,将中心位置出现在图像中的待检测目标(猫和狗)作为中间区域内出现的待检测目标。优选的,在图2的基础上,图3是本发明实施例提供的另一种待检测目标的边界框的示意图。边缘区域包括左右边缘区域、上下边缘区域和角点区域。将数据集中的任一图像或者待检测图像均匀划分为9宫格,编号依次为1~9。编号1、3、7和9为角点区域,编号4和6为左右边缘区域,编号2和8为上下边缘区域,编号5为中间区域。
31.统计数据集中各待检测目标的边界框中心位置落在哪个网格,根据网格编号将待检测目标分为以下4组。
32.第一组:将中心位置出现在左右边缘区域的待检测目标作为左右边缘区域内出现的待检测目标。本组待检测目标出现在图像的左右边缘,认为待检测目标显示不完整。具备的特征是:边界框较窄,较高,且长宽值较小。
33.第二组:将中心位置出现在上下边缘区域的待检测目标作为上下边缘区域内出现的待检测目标。本组待检测目标出现在图像的上下边缘,认为待检测目标显示不完整。具备的特征是:边界框较高,较窄,且长宽值较小。
34.第三组:将中心位置出现在角点区域的待检测目标作为角点区域内出现的待检测目标。本组待检测目标出现在图像的四个角,认为待检测目标显示不完整。具备的特征是:边界框的长宽接近且长宽值较小。
35.第四组:将中心位置出现在图像中的待检测目标作为中间区域内出现的待检测目标。本组待检测目标出现在图像的中间,认为待检测目标显示完整。由于本实施例不限定待检测目标的种类,可为了适用于对各种待检测目标进行锚框设置,考虑任意形状的目标都可以出现在中间区域。因此将图像中所有区域的待检测目标均作为中间区域内出现的待检测目标。具备的特征是边界框可大可小,可高可矮,可宽可窄。
36.第二步,统计每个图像区域内出现的待检测目标的边界框尺寸,包括边界框的像素级别的宽和高。
37.第三步:对每个图像区域内待检测目标的边界框尺寸进行分别聚类得到每个图像区域内的锚框尺寸。
38.可选的,使用k均值聚类算法对上述每个组内的边界框尺寸进行聚类,得到若干个簇,取每个簇的中心点作为锚框尺寸。
39.需要说明的是,对每组进行聚类实际就是对每个图像区域内的边界框尺寸进行聚类。在对中间区域内的边界框尺寸进行聚类时,是对中心位置出现在图像中的待检测目标的边界框尺寸进行聚类。
40.为了方便描述和区分,锚框尺寸包括锚框的宽和高,一个锚框尺寸为一组宽和高。不同图像区域内的锚框尺寸的个数可以相同也可以不同。例如,左右边缘区域和上下边缘区域分别有3个锚框尺寸,角点区域有2个锚框尺寸,中间区域有3个锚框尺寸。
41.s120、获取待检测图像经过特征提取得到的特征图。
42.本实施例不限定特征提取的方法,可以采用至少一层卷积进行特征提取。
43.s130、将所述特征图划分为对应不同图像区域的多个子特征图,将所述多个子特征图分别经过卷积处理得到每个图像区域的直接预测结果。
44.图4是本发明实施例提供的特征图的示意图。特征图中的特征值与图像中的像素块具有一一对应关系,可以采用与图像同样的方式划分特征图。例如,将特征图划分为九宫格得到九个子特征图,分别对应图3中对应位置处的图像区域。
45.继续参见图4,为每个子特征图设置对应的卷积层,每个子特征图并行经过对应的卷积层从而分别经过卷积操作,得到每个图像区域的直接预测结果。直接预测结果至少包括在每个图像细胞单元(cell)内偏移的预测框相对于锚框的尺寸缩放比(th,tw),还包括预测框相对于锚框在cell内的偏移量(t
x
,ty)、置信度和种类。本实施例未对偏移量和置信度的计算方法进行改进,仅关注于锚框和预测框的尺寸。
46.s140、根据每个图像区域的所述锚框尺寸和尺寸缩放比得到每个图像区域的预测框的尺寸,预测框的尺寸用于预测所述待检测目标的真实尺寸。
47.本步骤在同一图像区域内,将锚框的尺寸作用于直接预测结果中的尺寸缩放比。参见下式,将预测框的尺寸体现锚框的尺寸特点。
[0048][0049][0050]
其中,th为预测框的高相对于锚框的高的缩放比,tw为预测框的宽相对于锚框的宽的缩放比。pw和ph分别为锚框的宽和高,bw和bh分别为预测框的宽和高
[0051]
可选的,得到每个图像区域内的预测框之后,采用最后利用边框回归和iou算法去筛选预测框,预测得到待检测目标的真实尺寸。
[0052]
优选的,在所述根据每个图像区域的所述锚框尺寸和尺寸缩放比得到每个图像区域的预测框的尺寸之后,还包括:按照图像区域的位置,将多个图像区域的预测框的尺寸进行合并;所述合并后的多个预测框的尺寸用于预测所述待检测目标的真实尺寸。
[0053]
以图3所示的图像区域为例,会得到对应4个图像区域的4组输出结果,即预测框的尺寸,将4组预测框的尺寸按照图像区域的位置进行合并,得到整个待检测图像中所有预测框的尺寸,从而可以一次性执行后续待检测目标真实尺寸的预测,不需要分图像区域去预测。
[0054]
在上述实施例的基础上,不同图像区域内的锚框尺寸的个数可以不同。为了提高聚类效果,遍历不同的簇数(2、3、4
……
),测试每种簇数下得到的簇之的簇间距离,选择簇间距离最大的簇数,也就是锚框尺寸的个数。通过该方法得到的锚框尺寸的个数充分考虑
到边界框尺寸的分布,准确地表征边界框的尺寸特点。采用这种方法聚类得到的每个图像区域内锚框尺寸的个数一般是不同的。
[0055]
在同一图像区域内,锚框尺寸与直接预测结果中每个图像细胞单元内偏移的预测框具有一一对应关系,以便一一对应相乘得到预测框的尺寸。因此有必要控制每个图像区域对应的直接预测结果中尺寸缩放比的个数。可选的,通过控制卷积核的个数控制尺寸缩放比的个数。具体的,将所述多个子特征图分别经过卷积处理得到每个图像区域的直接预测结果,包括:根据每个子特征图对应图像区域内锚框尺寸的个数,确定卷积核的个数;将多个子特征图分别经过对应数量的卷积核得到直接预测结果,所述直接预测结果至少包括在每个图像细胞单元内偏移的预测框相对于锚框的尺寸缩放比;每个图像细胞单元内偏移的预测框个数与所述锚框尺寸的个数一致。
[0056]
示例性的,中间区域有3个锚框尺寸,中间区域所对应子特征图的尺寸是3
×
3,类别数量为80,确定中间区域对应子特征图经过3
×
(80 5)=255个卷积核,此处的3为锚框尺寸的个数,得到直接预测结果,系包含3
×
3个细胞单元(cell)的特征图。每个图像细胞单元(cell)包括3个预测框相对于锚框的尺寸缩放比。在同一图像区域(例如中间区域)中,将每个图像细胞单元内偏移的每个预测框相对于锚框的尺寸缩放比乘以对应的锚框尺寸,得到每个图像区域的预测框的尺寸。最终得到中间区域内3
×3×
3=27个预测框的尺寸。
[0057]
示例性的,上下边缘区域有3个锚框尺寸,类别数量为80,上下边缘的子特征图尺寸均为3
×
3,将上下边缘的子特征图进行合并,得到3
×
6的特征图,确定上下边缘区域对应子特征图经过3
×
(80 5)=255个卷积核,此处的3为锚框尺寸的个数,得到直接预测结果,系包含3
×
6个细胞单元(cell)的特征图。每个图像细胞单元(cell)包括3个预测框相对于锚框的尺寸缩放比。在同一图像区域(例如上下边缘区域)中,将每个图像细胞单元内偏移的每个预测框相对于锚框的尺寸缩放比乘以对应的锚框尺寸,得到每个图像区域的预测框的尺寸。最终得到上下边缘区域内3
×6×
3=54个预测框的尺寸。
[0058]
图5为本发明实施例提供的一种电子设备的结构示意图,如图5所示,该设备包括处理器40、存储器41、输入装置42和输出装置43;设备中处理器40的数量可以是一个或多个,图5中以一个处理器40为例;设备中的处理器40、存储器41、输入装置42和输出装置43可以通过总线或其他方式连接,图5中以通过总线连接为例。
[0059]
存储器41作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的基于图像区域的锚框设置方法对应的程序指令/模块。处理器40通过运行存储在存储器41中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的基于图像区域的锚框设置方法。
[0060]
存储器41可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器41可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器41可进一步包括相对于处理器40远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0061]
输入装置42可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置43可包括显示屏等显示设备。
[0062]
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一实施例的基于图像区域的锚框设置方法。
[0063]
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0064]
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
[0065]
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、rf等等,或者上述的任意合适的组合。
[0066]
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c ,还包括常规的过程式程序设计语言—诸如”c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0067]
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献