一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于超分辨率多尺度特征融合的小目标检测方法与流程

2022-03-26 15:51:27 来源:中国专利 TAG:


1.本发明涉及图像处理技术领域,尤其涉及一种基于超分辨率多尺度特征融合的小目标检测方法。


背景技术:

2.目标检测是计算机视觉和数字图像处理的一个热门方向,广泛应用于机器人导航、智能视频监控、工业检测、航空航天等诸多领域。在各领域趋向智能化的今天,实现目标检测对人力资本消耗的减少具有重要的现实意义。其中,小目标检测是目标检测下游任务中至关重要的环节。例如,在汽车的高分辨率场景照片中检测小目标或远处的物体,是安全地部署自动行驶的必要条件;又比如在卫星图像分析中,有效地注释诸如汽车、船舶和房屋之类的物体十分重要。因此小目标检测受到了越来越多的关注。
3.随着深度学习的最新进展,目标检测在性能和速度方面都取得了巨大的进步。目前,一些最先进的目标检测器已经在中大尺寸的目标上达到了极高的精度,能够满足许多实际应用的需求。这些目标检测器通常对小目标与中大尺寸目标不加区分,对这两种目标都采用相同的方法进行处理和识别。然而,这些检测器忽略了小目标自身存在的分辨率低、图片模糊、信息少、噪音多等常见的困难问题,可能会导致,将这些方法用于小目标检测时,只获得了中大尺寸目标检测一半的平均精度。
4.为了提升小目标检测的精度,研究者首先尝试调整一般检测器的特征提取环节,希望解决小目标特征分辨率低的问题。例如,一些方法降低了图像数据处理的压缩比,希望小目标能够在提取出的特征中具有更高的分辨率。然而,这些方法没有考虑到,许多目标检测数据本身的分辨率并不高,小目标特征在提取之前就已经存在了分辨率低、信息太少的问题。
5.近年来,一些研究者选择了设计专门针对小目标物体的检测器。研究者发现浅层特征更有利于分辨小目标物体,选择了直接从浅层卷积中提取特征来提高对于小目标物体的检测精度。这种方法一定程度上缓解了小目标特征信息不足的问题。然而,这种检测器对于图像的语义信息具有较多的丢失,在包含中大尺寸物体的通用目标检测中泛化能力差。
6.此外,现有多数小目标检测器使用一般的目标检测数据集。这些数据集大部分数据是中型和大型对象,只有少数图像包含小目标对象,导致检测模型有一半的时间都无法学习到小目标的特性。同时,小目标物体所覆盖的区域相对大目标要小得多,这会造成检测器小目标匹配少、大目标匹配多的不平衡性,导致专门的小目标检测器仍然更加关注中大尺寸的物体。


技术实现要素:

7.本发明提供了一种基于超分辨率多尺度特征融合的小目标检测方法,用于解决小目标物体的低分辨率问题,以提升图像目标检测处理时针对小目标的检测性能。
8.本发明采用的技术方案为:
9.一种基于超分辨率多尺度特征融合的小目标检测方法,包括下列步骤:
10.网络模型配置及训练步骤:
11.采集高低分辨率图像对作为训练图像,得到训练图像集;
12.配置网络模型,包括:用于高分辨图像的编码器-解码器网络、低分辨率图像的特征提取器g
l
、生成器g、特征融合网络和图像目标检测网络;
13.所述编码器-解码器网络中的编码器部分记为编码器gh,解码器部分记为解码器dh,所述编码器gh包括多个卷积层和池化层,为卷积层和池化层的交替结构;所述解码器dh包括多个反卷积层,所述反卷积层与编码器gh的卷积层数量对应且特征维度和尺寸对应;
14.将高低分辨率图像对中的低分辨率图lr像输入特征提取器g
l
、基于特征提取器g
l
的输出得到特征f
l
;并将高低分辨率图像对中的高分辨率图像hr输入编码器gh,基于其输出得到特征fh;所述编码器-解码器网络训练时采用的损失函数为:其中,hr

表示解码器dh的输出;
15.所述特征提取器g
l
包括多层特征提取块,所述特征提取块由多尺度特征融合网络和局部残差学习组成;
16.所述生成器g的输入为:对低分辨率图像lr进行数据增强处理得到图像lr

,将图像lr

与随机生成的噪声扰动的叠加作为生成器g的输入;所述生成器g的输出记为叠加量p,且所述生成器g训练时采用的损失函数为:l
p
=||p||;
17.所述生成器g的输出与特征提取器gl的输出叠加后得到第一重构特征并输入解码器dh,解码器dh的各反卷积层的输出作为特征融合网络的输入,所述特征融合网络用于将输入的不同尺寸的特征图上采样到相同的尺寸并叠加,再将叠加结果输入图像目标检测网络;
18.所述图像目标检测网络包括分类分支和定位分支,且所述图像目标检测网络的分类分支在进行目标分类处理时,基于注意力机制进行目标分类;
19.所配置的网络模型训练时采用的总损失为:l=λ
lr
μl
loc
η
lreg
,其中,lr表示超分辨重构损失,且lr=l
rc1
l
rc2
l
p
,l
rc2
表示第一重构损失,为:l
loc
、l
reg
分别表示图像目标检测网络的分类分支的分类损失和定位分支的定位损失(即回归损失),λ、μ、η分别为损失lr、l
loc
和l
reg
的权重因子;
20.待识别的低分辨率图像的检测步骤:
21.将待识别的低分辨率图像输入特征提取器gl,基于特征提取器gl的输出得到待识别的低分辨率图像的第一特征图;
22.对低分辨率图像进行数据增强处理后,再与随机生成的噪声扰动叠加后输入生成器g,基于生成器g的输出得到叠加量;将第一特征图和叠加量的叠加结果作为待识别的低分辨率图像的第一重构特征;
23.将第一重构特征输入解码器dh,基于解码器dh的每一反卷积层的输出生成不同尺寸的第二重构特征并输入特征融合网络;
24.所述特征融合网络将所有第二重构特征上采样到相同的尺寸进行叠加,得到第三重构特征并输入图像目标检测网络;
25.基于图像目标检测网络的输出得到小目标的类别及其检测框位置。
26.本发明提供的技术方案至少带来如下有益效果:
27.本发明旨在解决小目标物体的低分辨率问题,提出了一种超分辨特征融合的新方法,与以前的小目标检测方式相比,本发明的检测方法对小目标物体的检测在满足训练时间、推理时间和检测精度均衡的情况下,同时保持了最先进的实时检测性能。
附图说明
28.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
29.图1是本发明实施例提供的一种xxx方法的xx图;
30.图2是本发明实施例提供的一种xxx方法的xx图。
具体实施方式
31.为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
32.为了解决小目标(待检测图像中的检测目标小于指定尺寸)检测器特征不足导致精度不足的问题,本发明实施例提出了特征层次上的超分辨率技术,结合特征融合技术提升深层特征的语义信息,利用注意力机制提升目标检测的检测性能。
33.参见图1和图2,本发明实施例提供的基于超分辨率多尺度特征融合的小目标检测方法包括:
34.将待识别的低分辨率图像输入配置的特征提取器gl中,基于特征提取器gl的输出得到待识别的低分辨率图像的第一特征图;对低分辨率图像进行数据增强处理后,再与随机生成的噪声扰动叠加后输入配置的生成器g中,基于生成器g的输出得到叠加量;将第一特征图和叠加量的叠加结果作为待识别的低分辨率图像的第一重构特征;
35.将第一重构特征输入配置的解码器dh,依次生成不同尺寸的第二重构特征,并将所有第二重构特征上采样到相同的尺寸进行叠加,得到第三重构特征;该解码器dh包括多层反卷积层,每一层反卷积层输出一个尺寸的第二重构特征;
36.将所述第三重构特征输入配置的图像目标检测网络中对小目标进行目标检测处理,所述图像目标检测网络包括分类分支和定位分支,基于所述图像目标检测网络的输出得到小目标的类别及其检测框位置,其中,所述图像目标检测网络的分类分支在进行目标分类处理时,基于注意力机制实现目标分类。
37.其中,解码器dh、特征提取器g
l
、生成器g、第三重构特征,以及图像目标检测网络的具体实现包括
38.(1)实现图像由低分辨率到高分辨率的转换以增强后续低分辨率输入的语义信息。将高低分辨率图像对lr和hr分别作为网络输入,通过不同的特征提取器gl和gh获得对应的特征f
l
和fh;通过生成器g得到由低分辨率图像特征f
l
转换为高分辨率图像特征fh的叠加量p,实现特征层面上的超分辨技术;高分辨率图像的深层特征fh会通过解码器恢复到原始高分辨图像,以确保深层特征语义信息的有效性。
39.(1-1):将高分辨率图像hr作为网络中编码器-解码器部分的输入,其中gh即为编码器部分,将解码器记为dh,进行多次卷积池化,得到深层特征fh。
40.本发明实施例中,编码器-解码器可采用任一惯用的网络结构,具体地,可将编码器gh的特征层数设置为7层,采用7
×
7、5
×
5和3
×
3三种卷积核和2
×
2池化核进行卷积池化得到fh。例如每一次卷积池化处理时,首先经过三个卷积层(通常可包括卷积运算、批归一化处理和激活函数映射),再经过一个池化层。
41.(1-2):解码器dh由多个反卷积层组成,将深层特征fh作为解码器的输入,反卷积层与卷积层数量对应且特征维度和尺寸对应,对fh进行升维得到输出hr

;其中,hr

与hr具有相同的分辨率大小和通道数;即编码器gh的作用是产生有语义信息的特征图像,进而通过解码器dh将编码器gh输出的低分辨率特征图像映射回输入图像的尺寸
42.(1-3):将l2距离作为hr与hr

的重构损失,优化l2损失(l2范数损失函数)让hr

与hr更加接近,让解码器部分拥有从深层特征fh重构原始图像的能力,只有深层特征fh包含必要的语义信息,才能保证从fh恢复到原始图像。
43.具体地,重构损失如下式:
[0044][0045]
(1-4):将低分辨率图像lr作为特征提取器g
l
的输入,通过多尺度特征融合和局部残差学习得到特征f
l

[0046]
具体地,特征提取器g
l
的特征层数设置为5,每层由多尺度特征融合和局部残差学习组成,可以获取不同尺度的图像特征,从而充分提取图片特征。
[0047]
在第n层中,将m
i-1
作为下一个多尺度残差块的输入,得到其输出mi,重复此步骤,直到得到mn,本发明实施例中,每层中包含三个卷积层。
[0048]mi-1
作为第一个卷积层的输入,分别通过3
×
3和5
×
5的卷积,并通过relu函数得到输出s1、p1。将s1和p1串联起来作为第二个卷积层的输入,分别通过3
×
3和5
×
5的卷积,并通过relu函数得到输出s2、p2。将s2和p2串联起来作为第三个卷积层的输入,通过1
×
1的卷积得到输出s

。将m
i-1
残差连接到输出,与s

结合得到最终输出mi。
[0049]
将m0到mn所有输出作为分级特征融合结构的输入,得到提取到的特征m5;
[0050]
将分级特征融合结构的所有输入进行串联,并使用1
×
1卷积将融合到的特征通道压缩到想要的通道数量,得到提取到的特征m5,即特征f
l

[0051]
(1-5):对lr数据增强处理得到lr

,同时随机生成噪声扰动将lr

和的叠加作为生成器g的输入,得到叠加量p,计算关于p的l1正则项以保证p的稀疏性;
[0052]
具体地,数据增强一般通过调节或变动图像的幅度值来改善量化过粗图像的显示质量。利用抖动技术可以消除一部分由于灰度级数过少而产生的虚假轮廓,所叠加的抖动值越大,效果越明显。但抖动值的叠加也给图像带来了噪声,抖动值越大噪声影响也越大。抖动一般通过对原始图像f(x,y)加一个随机的小噪声d(x,y),即将两者相加来实现,d(x,y)的值一般与f(x,y)没有任何有规律的联系。通过色彩抖动、添加噪声数据从而提高训练出的模型的泛化能力和鲁棒性。
[0053]
正则项如下式:
[0054]
l
p
=||p||
[0055]
(1-6):将f
l
和p的叠加结果作为重构特征,计算和fh的l2距离作为重构损失,使g
l
和g拥有在特征层面上提升图像分辨率的能力。
[0056]
具体地,重构损失如下式:
[0057][0058]
实现特征层面超分辨部分的整体损失如下式。
[0059]
lr=l
rc1
l
rc2
l
p
[0060]
(2):由重构特征和解码器dh生成不同尺度的深度特征,通过多尺度特征融合保留不同特征层中小目标的语义信息。生成类别相关的特征图利用注意力机制提升感兴趣目标的损失比重,以提升目标检测的性能。
[0061]
具体地,其中c、h、w、r分别表示类别数、输入图像的高度和宽度以及输出步幅;
[0062]
(2-1):将输入到解码器dh进行升采样,依次生成不同尺寸的重构特征d1、d2、d3、d4、d5,由于dh最终会将特征恢复为原始图像,因此可将生成的特征看作超分辨图像的深度特征,即重构特征比低分辨率图像特征f
l
包含了更多的语义信息。
[0063]
(2-2):将重构特征d1、d2、d3、d4、d5全部上采样到相同尺寸进行叠加。一般而言,小目标在浅层特征中保留较多语义信息,但随着网络的深入,小目标的语义信息会逐渐丢失,而大目标的语义信息则会逐渐抽象化以适应网络的应用需求。因此通过不同层次下特征的融合可以保证在得到大目标抽象语义信息的同时保留小目标的语义信息。将最终的特征叠加结果记为d;
[0064]
具体地,特征叠加是一种结合多层级特征来解决多尺度问题的特征金字塔模型,整个结构由一个自底向上的下采样,一个自项向下的上采样以及一个横向连接结构构成。例如对低分辨率的特征图d1做2倍上采样得到d
′1,将两者相加,即将上采样映射与相应的特征自底而上映射合并得到中间特征d
t
,如下式。
[0065]d1t
=d1 d
′1[0066]
这个过程是迭代的,直到生成最终的分辨率图d。
[0067]
(2-3):特征d通过卷积层得到类别相关的特征图其包含c个通道,对应到待识别目标类别数目,每个通道作用在于提取对应类别物体的特征,忽略其他类别的特征。利用软注意力机制生成通道权重wc,进一步提升待识别类别的损失占比。
[0068]
具体地,注意力机制是在通道维度上做加权操作,这种注意力机制让模型可以更加关注信息量最大的通道特征,即更加关注待识别目标的类别而不是其他类别。首先对卷积得到的特征d进行压缩操作,得到通道层次的全局特征d

,通道数c等同于待识别的类别数量,然后利用全局特征学习各个通道间的关系,得到不同通道的权重wc,最后乘以原来的特征d

得到最终类别相关的特征图如下式。
[0069][0070]
其次,将每个通道的特征分类视为一个二分类问题,即所提取的特征是否属于待
识别的类别,对每个通道计算一个二分类交叉熵损失,通过注意力机制的权重来平衡每个通道损失的占比,最终网络倾向于特定的通道提取特征类别物体的特征,优化目标如下式。
[0071][0072]
(2-4):类似地,特征d通过卷积层得到特征图其包含4个通道,用于后续目标尺寸回归任务。
[0073]
具体地,其中h、w、r分别表示类别数、输入图像的高度和宽度以及输出步幅;
[0074]
(3):使用二维高斯核和带标记的训练数据产生热力图h进行监督训练,特征用于中心定位任务。目标中心作为正样本,其他像素点作为负样本,通过focal loss解决正负样本数量不均衡的问题,得到损失l
loc

[0075]
网络的总体结构如图2所示,利用提取的特征进行中心定位任务。特征金字塔结构将不同深度的特征图放大到最后一层的大小直接相加,可以保留浅层特征的高分辨率信息和深层特征的语义信息,增强目标检测效果,有研究显示浅层特征更适合小目标检测。提取出的特征为用于中心定位任务。其中c、h、w、r是类别数、输入图像的高度和宽度以及输出步幅。本实施例中,设置c=80和r=4,高斯核用于中心定位和检测框回归两者,分别定义了标量α和β来控制核的大小;
[0076]
给定属于cm类的第m个标注框,首先将其线性映射到特征图的比例。然后,采用2维高斯核来产生其中最后,通过应用hm中元素的最大值来更新h中的cm通道。产生的hm由参数α决定,m标注框的中心为(x0,y0)m,标注框大小为(h,w)m。用来保证中心位于像素中。在网络的设置中,可以令α=0.54。
[0077]
高斯分布的峰值,也就是盒子中心的像素,被视为正样本,而任何其他像素被视为负样本。采用focal loss解决正负样本数量不均衡的问题。
[0078]
给定预测值和定位目标h,如下式,
[0079][0080]
其中,αf和βf分别是超参数,m代表标注框的数量,本实施例中,设定αf=2,βf=4。表示特征图(预测值)的元素,c表示通道编号,i,j表示空间位置,h
ijc
表示定位目标h的元素,即对应的标签值。
[0081]
(4):热力图h和特征用于尺寸回归任务,利用预测框和真实框的位置重叠计算预测框的有效性,得到损失l
reg

[0082]
对于尺寸回归,给定特征图比例上的第m个标注框,另一个高斯核被用来产生内核大小由参数β决定。注意,当α和β相同时,可以使用相同的内核来节省计算。sm中的非零部分被命名为高斯区域am。由于am始终位于m标注框内,因此在本本发明实施例的其余部分中,它也被命名为子区域。
[0083]
在子区域中的每一个像素点都被看作回归样本。给定区域am中的像素点(i,j)和输出步幅r,回归目标被定义为从(ir,jr)到第m个框四边的距离,表示为四维向量即,w
l
、wr分别表示左右边的距离,h
t
、hb表示上下边的距离,在像素点(i,j)的预测框可以被表示为
[0084][0085][0086]
其中,s是一个固定标量,用于放大预测结果,以便于优化。在本发明实施例中设置s=16。注意,预测框处于图像比例而不是特征图比例,即预测框通常基于矩形的对角线上的两个顶点定位,分别表示wl、wr的预测值,分别表示h
t
、hb的预测值。
[0087]
如果一个像素点没有被任何子区域包含,它会在训练期间被忽略。如果一个像素点被多个子区域包含,则为不明确的样本,它的训练目标被设为面积较小的目标。
[0088]
给定预测值和回归目标s,从s中收集训练目标从收集对应的预测结果其中n
reg
表示回归样本的数量。对于所有的样本,如上式般对样本的预测框和相应标注框进行解码,用预测框与真实框的位置重叠giou作为优化目标,如下式。
[0089][0090]
其中,代表解码框是图像比例上对应的第m个标注框。w
ij
是样本权值,用来平衡每个样本造成的损失。
[0091]
由于目标的大小尺度变化,大目标(尺寸大于指定尺寸)可能会生成数千个样本,而小目标可能只生成少量样本。在对所有样本分配的损失进行归一化后,小目标造成的损失甚至可以忽略不计,这将损害小目标的检测性能。因此,样本权重w
ij
在平衡损失方面起着重要作用。假设(i,j)在第m个注释框的子区域am内,有:
[0092][0093]
其中,gm(i,j)是在(i,j)处的高斯概率,gm(x,y)则表示在(x,y)处的高斯概率,am是第m个检测框的面积。该处理方式可以充分利用大目标中包含的更多注释信息,并保留小目标的注释信息。它还可以强调目标中心附近的这些样本,减少模糊和低质量样本的影响。
[0094]
最后,将重构损失l
rc1
、l
rc2
,正则项l
p
,中心定位损失l
loc
和尺寸回归损失l
reg
作为
输入,计算小目标检测的总损失l,根据总损失l对网络权重进行优化,在优化完成后实现速度与精度平衡的小目标检测方法;
[0095]
具体地,总损失l的公式为:
[0096]
l=λlr μl
loc
ηl
rea
[0097]
其中,λ、μ、η分别为超分辨重构损失、中心定位损失和尺寸回归损失的权重因子。
[0098]
即本发明实施例针对当前大多数检测器的小目标检测特征不足导致精度不足的问题,提出了一种基于超分辨率多尺度特征融合的小目标检测方法,其首先利用编解码器对高低分辨率图片进行处理,通过对高分辨率图像特征的学习,实现特征层面上的图像超分辨技术,增加图像细节,使低分辨率图像中小目标物体包含更多信息。然后借助特征金字塔结构实现多尺度图像特征融合,避免小目标物体的语义信息丢失。利用注意力机制使特征提取器专注于提取带识别物体所属类别的特征。最后利用提取出的特征进行中心定位和尺寸回归,从而达到目标检测的效果。本发明在进行小目标检测的同时达到训练时间短、快速推理快和精度高的效果,并且具有行业领先的小目标检测效果。
[0099]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
[0100]
以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献