一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于尺度上下文的变电站图像目标检测方法与流程

2022-08-10 20:22:25 来源:中国专利 TAG:


1.本发明属于变电站检测技术领域,涉及一种基于尺度上下文的变电站图像目标检测方法。


背景技术:

2.传统的目标检测算法包括选取候选框、表征提取和分类器判定三个阶段。选取候选框阶段的任务是提取图像中可能包含目标的区域位置,即感兴趣区域(region of interest,roi)。基本思想是先用不同尺寸的窗口滑动扫描整幅图像,判断每个窗口中是否含有目标,将含有目标的窗口作为候选框。特征提取阶段,利用滑动窗口在图像的每个区域上取得特定长度的表征向量,从而捕获该区域的语义判别信息。由于图像目标存在视角多元、光线变化和背景复杂等问题,因此难以设计鲁棒性强的特征提取模型来描述不同条件下的目标特征。分类器判定阶段,目的是为候选框分配类别标签。
3.视觉对象出现在特定的环境中,且通常与其他相关目标共存。人类视觉进行目标识别任务的优势,很大程度上依赖于上下文信息。上下文信息在计算机视觉的目标检测任务中,也起到至关重要的作用。上下文信息能够在一定程度上消除检测的不确定性,减少歧义,增强检测结果的可靠性。适当地对上下文信息进行建模,有助于目标识别与定位,尤其是当目标的外观特征不足时,例如目标尺寸小、受遮挡或图像质量差的情况。为了充分挖掘数据之间的关联,近年来,基于上下文信息的目标检测方法成为了检测领域的研究热点。
4.基于深度学习的目标检测技术,在电力领域的红外图像和可见光图像中都得到了广泛应用。然而,电力设备具有尺度多样性的特点,大小尺寸、高宽比差异较大,但鲜有工作针对电力设备存在的尺度多样性特点进行研究。


技术实现要素:

5.针对设备尺度多样性引起的查全率不高的问题,面向变电站设备检测的需要,通过从数据和特征两个层面充分挖掘尺度上下文信息,本发明提出了一种基于尺度上下文的变电站图像目标检测方法。在数据层面进行了两点设计,分别是基于仿射变换的数据增强方式和基于k-means聚类的锚框尺度制定策略。卷积神经网络具有分层提取特征的特点,为了充分利用不同尺寸感受野的卷积特征,在特征层面,进行多尺度特征融合。
6.本发明通过下述技术方案来实现。一种基于尺度上下文的变电站图像目标检测方法,包括以下步骤:
7.步骤一、数据预处理:采用基于仿射变换的数据增强和随机增强策略完成数据集扩充,得到数据增强后的训练集;
8.步骤二、特征提取:采用经过预训练的vgg-16模型作为特征提取网络,每张输入图像在一系列卷积及池化后,得到不同尺寸的卷积特征图;
9.步骤三、提取感兴趣区域:使用区域提名网络进行候选框提取,得到感兴趣区域;区域提名网络首先对特征提取网络的最后一层卷积特征图进行滑窗操作,在每个窗口的中
心位置生成一系列锚框;利用基于k-means的锚框尺度制定策略,通过对训练集标注文件中矩形包围框的长、宽进行于k-means聚类得到数据分布,从而调整锚框尺度;
10.步骤四、多尺度特征融合:将感兴趣区域映射到特征提取网络的卷积特征图上,并对其对应区域进行感兴趣区域池化,再通过两层全连接层,输出融合特征;
11.步骤五、分类和定位:对输出的融合特征进行分类和定位,在分类时,采用soft-nms算法去除冗余框。
12.进一步优选,所述vgg-16模型包括6层卷积池化层,依次为:conv1_3层、conv2_3层、conv3_3、conv4_3层、conv5_3层、conv6_3层,输入图像在进行6组卷积、池化操作后,得到不同尺寸的卷积特征图。
13.进一步优选,步骤三中,在conv5_3输出的卷积特征图上,利用区域提名网络进行候选框提取,得到感兴趣区域,通过感兴趣区域池化层将感兴趣区域坐标分别映射到不同层级的卷积特征图上,得到对应区域的roi映射卷积特征图。
14.进一步优选,步骤四中,将conv4_3层和conv5_3层的roi映射卷积特征图分别作为第一全连接层的输入,进行一次全连接操作,得到两个1
×1×
2048的特征向量,然后拼接成为一个1
×1×
4096的融合特征,再经过第二全连接层,输出到分类回归网络进行最终的分类和定位。
15.进一步优选,步骤五中,soft-nms算法的重评分过程用一个连续的罚函数来表达,在预测框不重叠的情况下不惩罚,在高重叠情况下有很高的惩罚,将置信度构建为关于交并比的函数:
[0016][0017]
其中,si表示当前预测框的置信度评分,iou(b,bi)表示预测框bi与评分最大框b的面积交并比,p表示最终预测框的集合,e为自然对数,σ为罚函数系数。
[0018]
进一步优选,步骤一中,采用的主要仿射变换方式包括:缩放、旋转、翻转、平移、尺度变换以及插值;为了扩大设备矩形包围框尺寸的范围,将图像随机缩放至原图尺寸的80%到120%之间;为了增加设备矩形包围框高宽比的丰富性,对图像进行
±
30
°
范围以内的随机旋转;另外,对随机50%的图像进行镜像翻转;对随机20%的图像进行垂直翻转;在原图像宽度的五分之一范围内,将图像随机进行向左或向右平移;对图像按照指定的尺度因子进行放大或缩小,或利用指定的尺度因子对图像滤波构造尺度空间以改变图像内容的大小或模糊程度;随机使用最临近插值或双线性差值对空白处进行补齐,使得增强后的图像尺寸与原图尺寸相等;
[0019]
在仿射变换的基础上,通过随机增强策略,将训练样本图像通过包括但不限于模糊、加噪、颜色空间转换、随机遮挡、随机擦除继续做数据增强处理。
[0020]
进一步优选,基于k-means的锚框尺度制定策略具体为:假设簇划分为(c1,c2,
…ci
…ck
),用μi表示簇ci的均值向量,则k-means聚类目标就是最小化平方误差e;聚类结果图像由xy轴坐标系构成,每一点对应一个目标样本点,其横坐标代表目标宽度,纵坐标代表目标高度;每一样本点与原点之间连线的斜率表征了该目标的高宽比;计算各个簇中心点与坐标轴原点的连线的斜率,离散地选择合适的斜率值,使用尽量少的值覆盖更多的样本点;每一样本点横纵坐标的乘积表征该目标矩形包围框的面积;对簇中心横、纵坐标值之积开
平方根,得到样本的尺寸分布从而调整锚框尺寸。
[0021]
设样本点横、纵坐标分别为x和y,则锚框高宽比和尺寸的设置算法可以分别用分段函数a(x,y)和s(x,y)来表达:
[0022][0023][0024]
其中,n表示设置n种不同高宽比的锚框,m表示设置m种不同尺寸的锚框。n=1,2,

n,m=1,2,

m,kn表示锚框高宽比的离散取值,sn表示锚框尺寸的离散取值,αn表示锚框高宽比的离散取值间隔,βn表示锚框尺寸的离散取值间隔;根据不同数据集聚类结果,通过实验调整n,m,kn,sn,αn,βn的数值,使得离散取值区间划分合理,满足尽量多的样本点;其中,当n》1时,k
n-1
α
n-1
=k
n-αn,当m》1时,s
m-1
β
m-1
=s
m-βm。
[0025]
本发明的有益效果:提出了一种基于尺度上下文的变电站图像目标检测方法,在数据和特征两个层面充分利用了尺度上下文信息,从尺度方面提升了目标检测查全率,从而提高了检测性能。数据层面,在数据预处理阶段,采取仿射变换等多种数据增强手段,丰富样本尺度信息以使模型能够学习到多尺度设备特征,同时实现了样本扩充以构建数据集;为了适应设备尺度多样性的特点,提出了基于k-means的锚框尺度制定策略,根据数据集聚类结果设置锚框高宽比及尺寸,以适应数据集中的细长型目标及小目标,优化候选区域提取过程。特征层面,针对单一尺度的特征表达不足的问题,从网络结构设计方面考虑,提出了一种多尺度特征融合算法,通过融合深浅层级卷积特征以集成不同尺度感受野的特征表达,实现对了目标在不同尺度卷积特征层上的信息的综合利用。
[0026]
本发明从数据增强、锚框尺度调整策略、不同尺度卷积特征以及不同特征融合方式四个方面进行了消融实验及研究,在可见光数据集以及红外数据集上分别证明了所提方法的有效性。实验结果表明,对于变电站实测图像中七种典型设备类型的检测任务,本方法性能均优于对比算法,平均精度均值在可见光数据集上达到88.05%,在红外图像数据集上达到92.31%,在解决特殊尺度例如小尺寸或大高宽比目标的检测中,有效避免了漏检情况,具有查全率高的优势。
附图说明
[0027]
图1是本发明的步骤流程图。
[0028]
图2是本发明的算法流程图。
[0029]
图3是两种特征融合方式示意图。
具体实施方式
[0030]
下面结合实施例进一步详细阐明本发明。
[0031]
参照图1,一种基于尺度上下文的变电站图像目标检测方法,包括以下步骤:
[0032]
步骤一、数据预处理:考虑到由于设备自身型号、外观等差异,以及巡检图像视角固定的局限性,不同设备形状、结构差异较大,具有尺度多样性的特点,并且小样本数据集在深度学习方法中难以直接得到较好效果的问题,因此采用基于仿射变换的数据增强和随机增强策略完成数据集扩充,得到数据增强后的训练集。经数据增强后的训练集,设备的尺寸、高宽比等尺度信息更丰富,使得网络能够在训练中学习到多尺度的设备特征,隐式地利用设备自身尺度上下文信息。
[0033]
步骤二、特征提取:采用经过预训练的vgg-16模型作为特征提取网络,每张输入图像在一系列卷积及池化后,得到不同尺寸卷积特征图;
[0034]
步骤三、提取感兴趣区域:使用区域提名网络(rpn)进行候选框提取,得到感兴趣区域(roi)。区域提名网络使用滑动窗口机制,一个窗口能够同时预测多个候选区域。区域提名网络首先对特征提取网络的最后一层卷积特征图进行滑窗操作,在每个窗口的中心位置生成一系列锚框。区域提名网络(rpn)需要利用锚框来实现对候选框的有效提取,然而预设的锚框尺度难以适应变电站数据集的设备尺度分布。本发明提出基于k-means的锚框尺度制定策略,通过对训练集标注文件中矩形包围框的长、宽进行于k-means聚类得到数据分布,从而调整锚框尺度,以适应设备尺度多样性特点。
[0035]
步骤四、多尺度特征融合:将感兴趣区域(roi)映射到特征提取网络的卷积特征图上,并对其对应区域进行感兴趣区域池化,再通过两层全连接层,输出融合特征,针对单一尺度特征信息表达不全面的问题,本发明综合利用深浅层级卷积特征来集成不同尺寸感受野的特征表达,使得最终用于检测设备具体分类及位置的特征,包含多尺度的卷积特征。
[0036]
步骤五、分类和定位:对输出的融合特征进行分类和定位,在分类时,采用soft-nms算法去除冗余框。
[0037]
非极大值抑制(nms)算法将所有交并比大于阈值的预测框直接删除,在同一类目标相互遮挡或矩形包围框之间交并比较大的情况下,易造成漏检,导致查全率低。为解决此问题,采用soft-nms算法去除冗余框,在不引入任何超参数、不增加额外的计算复杂度的前提下达到更好的检测效果。nms算法在目标检测的作用类似于对边界框进行评分。soft-nms算法的优势在于,可以根据当前得分递归地重新评分并酌情抑制,而非直接去除分数较低的相邻框,不会在同一类目标相互遮挡时对误删预测框。soft-nms算法的重评分过程可以用一个连续的罚函数来表达,在预测框不重叠的情况下不惩罚,在高重叠情况下有很高的惩罚,将置信度构建为关于交并比(intersection over union,iou)的函数:
[0038][0039]
其中,si表示当前预测框的置信度评分,iou(b,bi)表示预测框bi与评分最大框b的面积交并比,p表示最终预测框的集合,e为自然对数,σ为罚函数系数。
[0040]
考虑到对多种尺度的特征的综合利用,丰富目标区域的特征表达,本实施例提出的方法,为实现多尺度融合,引入尺度上下文特征,首先在特征提取网络内部进行多尺度特征的提取,然后将浅层特征与深层特征融合,最后用融合后的特征替代原始的高层特征,使得最终用于检测设备具体分类及位置的特征,包含了多尺度的卷积特征。通过实验研究不同层级特征对设备检测的贡献,本发明选择conv4_3层和conv5_3层特征进行多尺度特征融合。参照图2,本实施例中,所述vgg-16模型包括6层卷积池化层,依次为:conv1_3层、conv2_3层、conv3_3、conv4_3层、conv5_3层、conv6_3层,输入图像(a
×b×
3)在进行6组卷积、池化操作后,得到不同尺寸的卷积特征图。然后,在conv5_3输出的卷积特征图上,利用区域提名网络(rpn)进行候选框提取,得到感兴趣区域(roi)。最后,通过感兴趣区域池化(roi-pooling)层将感兴趣区域坐标分别映射到不同层级的卷积特征图上,得到对应区域的roi映射卷积特征图,将conv4_3层和conv5_3层的roi映射卷积特征图分别作为第一全连接层fc6的输入,进行一次全连接操作,得到两个1
×1×
2048的特征向量,然后拼接成为一个1
×1×
4096的融合特征,再经过第二全连接层fc7,并进行最终的分类和定位。本发明通过多尺度特征融合的方式,利用不同尺度感受野的特征表达,得到融合特征。融合后的特征综合考虑了目标区域不同抽象程度的卷积信息,利用该特征进行分类和定位,相比仅使用高层特征,目标表达更为丰富。
[0041]
本实施例中,为了丰富训练样本中设备的尺度信息,随机地对训练集中一部分图像做仿射变换,实现数据增强,使得模型能够隐式地学习到多尺度的目标特征。采用的主要仿射变换方式包括:缩放、旋转、翻转、平移、尺度变换以及插值。为了扩大设备矩形包围框尺寸的范围,将图像随机缩放至原图尺寸的80%到120%之间。为了增加设备矩形包围框高宽比的丰富性,对图像进行
±
30
°
范围以内的随机旋转。另外,对随机50%的图像进行镜像翻转;对随机20%的图像进行垂直翻转;在原图像宽度的五分之一范围内,将图像随机进行向左或向右平移;对图像按照指定的尺度因子进行放大或缩小,或利用指定的尺度因子对图像滤波构造尺度空间以改变图像内容的大小或模糊程度;随机使用最临近插值或双线性差值对空白处进行补齐,使得增强后的图像尺寸与原图尺寸相等。
[0042]
为进一步丰富训练样本,提高目标检测网络的识别能力和泛化能力,在仿射变换的基础上,通过随机增强策略,将训练样本图像通过包括但不限于模糊、加噪、颜色空间转换、随机遮挡、随机擦除等多种图像处理方式继续做数据增强处理。经数据增强后的训练集,设备的尺寸、高宽比等尺度信息更丰富,使得网络能够在训练中学习到多尺度的设备特征,隐式地利用尺度上下文信息。
[0043]
不同类别的设备尺度差异较大,主要体现在尺寸及高宽比多样化。为了解决这一问题,根据k-means聚类得到的设备尺度分布结果,对锚框尺度的尺寸及高宽比两个方面进行调整,实现了对已知的训练集设备尺度这一先验信息的显式利用。本实施例中,基于k-means的锚框尺度制定策略具体为:假设簇划分为(c1,c2,
…ci
…ck
),用μi表示簇ci的均值向量,则k-means聚类目标就是最小化平方误差e。聚类结果图像由xy轴坐标系构成,每一点对应一个目标样本点,其横坐标代表目标宽度,纵坐标代表目标高度。每一样本点与原点之间连线的斜率表征了该目标的高宽比。计算各个簇中心点与坐标轴原点的连线的斜率,离散地选择合适的斜率值,使用尽量少的值覆盖更多的样本点。每一样本点横纵坐标的乘积表征该目标矩形包围框的面积。对簇中心横、纵坐标值之积开平方根,得到样本的尺寸分布从
而调整锚框尺寸。
[0044]
设样本点横、纵坐标分别为x和y,则锚框高宽比和尺寸的设置算法可以分别用分段函数a(x,y)和s(x,y)来表达:
[0045][0046][0047]
其中,n表示设置n种不同高宽比的锚框,m表示设置m种不同尺寸的锚框。n=1,2,

n,m=1,2,

m,kn表示锚框高宽比的离散取值,sn表示锚框尺寸的离散取值,αn表示锚框高宽比的离散取值间隔,βn表示锚框尺寸的离散取值间隔。根据不同数据集聚类结果,通过实验调整n,m,kn,sn,αn,βn的数值,使得离散取值区间划分合理,满足尽量多的样本点。其中,当n》1时,k
n-1
α
n-1
=k
n-αn,当m》1时,s
m-1
β
m-1
=s
m-βm。
[0048]
通过聚类得到所有目标的尺寸分布及高宽比分布,然后根据聚类结果制定合适的锚框尺度,使得锚框尺度适应数据集目标尺度,能够有效优化候选区域提取的过程从而提高目标检测的性能。
[0049]
实验分析
[0050]
选取了以下相同七类变电站典型设备进行研究:断路器、电流互感器、电压互感器、条状隔离开关、环状隔离开关、电抗器以及避雷器。可见光数据集中所有的图像分辨率均为1920
×
1080,共包含800张可见光图像,按3:2的比例随机划分数据集,得到训练集图像数量为480张,测试集图像为320张。红外数据集中所有的图像分辨率均为640
×
480,共包含800张红外图像,随机划分数据集,得到包含480张红外图像的训练集,及包含320图像的测试集。利用标注软件labelimg对图像中的设备类别以及位置进行矩形包围框标定,同时生成对应的标注文件。数据集中每张图像至少包含一种上述变电站典型设备,其中可见光数据集共包含1982个设备,红外数据集中共包含1546个设备。
[0051]
基于faster rcnn、yolov3、refinedet进行了对比实验分析,并比较了本发明的算法在不同nms算法上的结果。在经数据增强的可见光训练集和红外训练集上分别训练模型,并在相应测试集上进行测试,得到的实验结果如表1所示,map指平均精度均值。
[0052]
表1对比算法结果
[0053][0054]
在变电站可见光数据集上,yolov3的map为75.63%,faster rcnn的map为84.72%,refinedet的map为86.41%,本发明算法-nms的map达到87.18%,并且在使用soft-nms替代nms后,优化了对检测结果的去冗余处理过程,提高了查全率,进一步提高了模型检测的精度,map达到88.05%。在变电站红外数据集上,yolov3的map为77.74%,faster rcnn的map为86.69%,refinedet的map为89.21%,本发明的算法在使用nms和soft-nms作为后处理算法时,map分别达到91.01%和92.31%。此外,本发明的算法在查全率和召回率上也有一定提升。
[0055]
可以看出,在两种变电站数据集上,本发明的算法均优于另外其他对比算法,且相比于nms,使用soft-nms时平均精度均值更高。为了进一步验证本发明的有效性,在两种变电站数据集上,分别针对基于仿射变换的数据增强、基于k-means聚类的锚框尺度制定策略以及基于多尺度特征融合的目标算法设计了消融实验,并对比了两种特征融合方式。
[0056]
数据增强实验分析
[0057]
按照表2的处理方式和相应参数,随机地对训练集中一部分图像进行基于仿射变换的数据增强,包括缩放、旋转、平移、翻转、尺度变换以及插值等操作,同时生成增强图像对应的标注文件,以保持坐标和图像同步改变。通过仿射变换,将训练集扩大十倍,可见光和红外训练集图像数量都分别由480张增至4800张。
[0058]
表2仿射变换方法
[0059][0060][0061]
在进行仿射变换的基础上,进一步地采用随机策略通过多种方式做数据增强处理,丰富样本多样性。按随机的顺序,将表3中的多种数据增强方法中的随机一种或多种作
用在图像上,训练集图像数量增至14880张。
[0062]
表3随机策略数据增强方法
[0063][0064]
数据增强实验结果如表4所示。在可见光数据集上,通过仿射变换的方式进行数据增强,map由84.54%提升至87.39%。在进行仿射变换的基础上,进一步采用随机策略进行数据增强,map进一步提升至88.05。红外数据集上,通过仿射变换的方式进行数据增强,map由88.46%提升至90.40%;进一步采用随机策略进行数据增强,相较于不进行数据增强,可以实现检测精度将近4%的提升。
[0065]
在两种数据集上的实验结果均表明,利用仿射变换的数据增强,能够显著提升设备检测性能,在此基础上再采用随机策略进行其他算法的数据增强,进一步提升检测map。
[0066]
表4基于仿射变换的数据增强检测结果
[0067][0068][0069]
锚框尺度调整实验分析
[0070]
为了合理选择针对本文数据集的锚框尺度,首先对原始训练集的设备矩形包围框进行k-means聚类,经过多次实验探究聚类效果,在实验设置9个聚类簇进行聚类,可以最好地实现聚类中心分布体现所有样本分布的聚类要求。根据簇中心的分布,可以得到数据集
大致的分布。对数据集进行观察,发现在两种数据集上,均存在设备尺度差异较大的问题,具体表现在:一方面,较大高宽比的设备占的比例大,即细长型设备较多;另一方面,大中小型设备共存,其中中、小尺寸设备占多数。通过计算聚类中心与原点间连线的斜率值,以及聚类中心横纵坐标之积的平方根,选择与簇中心分布相适应的离散取值组合,从高宽比以及尺寸两个方面对锚框尺度进行调整。
[0071]
以红外数据集为例,对锚框尺度策略进行具体说明。样本点与原点之间连线的斜率表征该设备的高宽比。为了在类间差异小、类内差异大的多种互感器等细长型设备上获得更高区分度,考虑设置多种细长型锚框,另外还需设置较小高宽比锚框以满足方形设备及扁宽型设备的检测需求。观察簇中心与原点之间连线的斜率,有2个斜率值为2.5左右,2个斜率值为1.5左右,3个斜率值为1左右,2个斜率值为0.5左右。因此设置4种不同的锚框高宽比,分别为2.5,1.5,1,0.5,使得每个簇中心与原点连线的斜率值,与其中任一高宽比取值之差的绝对值是一个较小的值,以适应不同高宽比设备的候选区域提取。
[0072]
样本点横纵坐标的乘积开平方根表征该设备的尺寸。在特征提取网络中,原始图像经过四次池化后,特征图像各点对应得到的感受野尺寸为16。9个簇中心的尺寸由小到大依次是75,110,137,169,215,246,255,320,410,对应到最后一层特征图上的尺寸为5,7,9,11,13,15,16,20,26。以faster rcnn算法中锚框尺寸分别为8,16及32作为参考,若设定最小锚框尺寸为8,则对应到原图区域尺寸为128,不利于较小尺寸设备的检测。因此在8,16,32的基础上,添加尺寸为4的小尺寸锚框,即共设置4种不同的锚框尺寸,分别为4,8,16,32,以适应不同尺寸设备的候选区域提取。
[0073]
红外数据集上进行锚框尺度调整实验,结果如表5所示。可以看出,通过向原始[0.5,1,2]高宽比以及[8,16,32]尺寸的锚框尺度组合中,添加小尺寸锚框或细长型锚框的方式,能够将map分别提高0.63%和0.44%。最终,根据聚类结果,同时添加细长型锚框和小尺寸锚框,能够将map从91.22%提升至92.31%。
[0074]
表5红外数据集上不同锚框尺度对结果的影响
[0075][0076]
对可见光数据聚类结果进行观察,可以得到与红外训练集类似的结论:细长型设备较多,且中小尺寸设备占多数。在簇中心与原点连线的斜率值中,最小值为0.6,因此锚框高宽比的选择与红外数据集稍有差异。最终,可见光数据集选择[4,8,16,32]的锚框尺寸,以及[0.6,1,1.5,2.5]的锚框高宽比这种锚框尺度组合进行模型训练,实验结果如表6所示。可以看出,根据聚类结果改进后的锚框尺度设置,能够将map从86.28%提升至88.05%。
[0077]
表6可见光数据集上不同锚框尺度对结果的影响
[0078][0079]
因此,采用本发明提出的策略,根据数据集聚类结果有针对性地制定锚框尺度,能够适应设备尺度多样性,优化候选区域的提取,从而提高检测精度,对变电站设备检测有积极的贡献。
[0080]
多尺度特征融合算法实验分析
[0081]
进行基于多尺度特征融合的目标检测实验,评价指标在分析对比map的基础上,将置信度阈值设为0.8,综合分析查全率及查准率,以验证所提模型有效性。
[0082]
(1)可见光数据集实验分析
[0083]
首先,为了合理地选择特征层级,先对不同层级特征的目标检测进行实验分析。分别记录利用不同层级特征训练所得的模型的查全率和查准率,实验结果如表7所示。表7中展示分别在conv4_3、conv5_3、conv6_3层进行roi-pooling操作,利用不同层级特征进行检测的结果。从map和查准率上看,conv5_3最高,conv4_3次之,conv6_3最低;从查全率上看,conv4_3最高,conv5_3次之,conv6_3最低。可见,由于丢失信息过多的影响,conv6_3在map、查全率和查准率三个方面表现均不如浅层特征,故下文不再讨论conv6_3,仅针对conv4和conv5层特征进行进一步研究。
[0084]
表7可见光数据集上不同层级特征对结果的影响
[0085][0086]
为进一步评价不同层级卷积特征在设备检测中的作用,分析比较不同层级的特征检测单类别设备的ap。从各类别的ap上看,对于小尺寸目标,例如,通常目标面积占比相对较小的条状隔离开关类设备,由于浅层特征中相对少的信息丢失,较好地保留了更多细节,同时也能够对特征进行一定程度的抽象,利用conv4_3层特征可获得优于conv5_3层特征的性能。而对于大尺寸目标,例如,通常目标面积占比相对较大的避雷器等设备,由于目标本
身尺度大,因而卷积造成的信息损失相对小,经过多层卷积后特征能得到更好的抽象,获得丰富的语义信息。因此在利用conv5_3层特征进行检测大尺寸设备时,有更精准的效果。
[0087]
根据表7结果,单独使用深层特征conv5_3,能够获得相比conv4_3更高的map和查准率;另一方面,单独使用conv4_3层特征时在某些类别有更高的ap值,且查全率更高。因此,综合考虑各项指标包括查全率和查准率、各类ap及map,本章通过调整模型结构,综合利用不同层级的特征,引入尺度上下文,提出一种基于多尺度特征融合的目标算法。基于多尺度特征融合的思想,本方法将roi分别映射到conv4_3和conv5_3层特征图像上,分别得到7
×7×
512的特征张量,再分别通过全连接层fc6,然后进行级联并经过一个全连接层fc7并进行分类与定位。实验结果如表8所示:
[0088]
表8可见光数据集上多尺度特征融合对结果的影响
[0089][0090]
可以看出,多尺度融合后的检测网络,比使用单一层级特征进行训练的检测效果好,体现在更高的map和查全率上。从map上看,conv4_3层特征和conv5_3层特征经融合后,map达到88.05%,相比单独使用conv4_3层特征、单独使用conv5_3层特征,map分别提升了0.69%和0.23%。从查全率上看,多尺度特征融合后,查全率达到92.31%,相比单独使用conv4_3层特征、单独使用conv5_3层特征,查全率分别提升了0.56%和1.09%。从查准率上看,多尺度特征融合后,查准率有一定程度的下降。较高的查全率,往往是以牺牲一定程度的查准率换来的。在置信度设置为较低阈值时,由于综合利用了多层特征的优势,使得检测框增多,虽然提升了查全率但同时导致了虚警、误检。但本文针对的是变电站典型设备检测,为了减少漏检,需着重关注查全率,即需要检测结果尽可能包含图像中所有设备。特征融合后的模型,查全率更高且map提高,符合应用场景的要求。
[0091]
本实验结果表明,通过多尺度特征融合引入上下文的方式,综合利用了不同尺度感受野的特征表达,在变电站可见光数据集上的设备检测任务中,起到了一定贡献,有效提高了目标检测精度,且具有高查全率的优势。
[0092]
(2)红外数据集实验分析
[0093]
在红外图像数据集上进行实验,分别记录模型利用不同层级特征的查全率和查准率,实验结果如表9所示。
[0094]
表9红外数据集上不同层级特征对结果的影响
[0095]
[0096][0097]
从map和查全率上看,conv4_3最高,conv5_3次之,conv6_3最低。从查准率上看,conv5_3最高,conv4_3次之,conv6_3最低。从各类别的ap上看,conv4_3和conv5_3在检测不同类别的设备上各有优势。可以看出,红外数据集上的结果整体趋势与可见光数据集上的结果大致相似,不同的是可见光数据上conv5_3的map高于conv4_3。
[0098]
根据表10结果,单独使用浅层特征conv4_3,能够获得相比conv5_3更高的map和查全率;另一方面,单独使用conv5_3层特征时在某些类别的设备上有更高的ap值,且其查准率较高。综合考虑各项指标包括查全率和查准率、各类ap及map,基于多尺度特征融合的思想,利用conv4_3和conv5_3得到融合特征表达。实验结果如表4-10所示,可以看出,多尺度特征融合后的检测网络,比使用单一层级特征进行训练,map和查全率更高。
[0099]
表10红外数据集上多尺度特征融合对结果的影响
[0100][0101]
(3)特征融合方式实验分析
[0102]
本发明设计了两种特征融合方式,其特征融合的位置略有不同,如图3所示。方式一(a)将从conv4_3和conv5_3提取的7
×7×
512特征张量,在全连接之前以拼接的方式进行特征融合,得到7
×7×
1024维度的融合特征作为全连接层fc6的输入,经全连接操作得到一个1
×1×
4096的输出特征向量。方式二(b)将fc6的输出维度减少一半,将从conv4_3和conv5_3提取到的7
×7×
512特征张量,分别输入fc6进行一次全连接操作,得到两个1
×1×
2048的特征向量,然后拼接成为一个1
×1×
4096的融合特征。两种融合方式得到的1
×1×
4096向量再经过一个全连接层fc7,并进行最终的分类和定位。本发明对以上两种特征融合方式进行了实验并对比,最终采用方式二进行特征融合。两种特征融合方式,在两种数据集上的进行了实验,表11、表12分别为了在可见光数据集以及红外数据集上的结果,将不同的融合方式所得模型的map,查全率及查准率进行了对比。其中,方式一对应fc6之前进行融合,方式二对应fc6之后进行融合。
[0103]
表11可见光数据集上不同特征融合方式对结果的影响
[0104][0105]
表12红外数据集上不同特征融合方式对结果的影响
[0106][0107]
可以看出,在可见光数据集上,方式二这种特征融合方式的map更高,为88.05%,相较于方式一87.57%的map高出了0.48%,同时也取得了更高的查全率和查准率,分别达到92.31%和86.12%,均高于方式一;在红外数据集上,得到了类似的结果,方式二的三项指标均高于方式一。因此,本发明采用方式二进行特征融合。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献