一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于三元级联感知的伪装目标框检测方法

2022-08-17 21:00:06 来源:中国专利 TAG:


1.本发明属于计算机视觉技术领域,涉及一种基于三元级联感知的伪装目标框检测方法。


背景技术:

2.伪装物体检测,在狭义上讲,旨在从给定图片中发现隐蔽伪装在场景中的目标,如凭借表皮颜色变化隐藏在环境中的变色龙,亦或者潜伏在山林中的武装士兵;从广义上讲,伪装物体检测旨在探测图像中任何具有低可探测性的物体,如工业上的元件瑕疵检测,亦或者病理学中的病灶迹象检测等。伪装物体检测的研究不仅是视觉感知领域的重要科学问题,而且还可以带来巨大的经济和社会效益。
3.然而,伪装物体的颜色、图案等与环境几乎融为一体,这大大降低了其被检测、识别或锁定的概率。目前,研究人员针对伪装目标识别开展了相应研究。
4.部分学者借助其他技术进行可见光伪装目标的识别,如燕山大学的张立国等结合高光谱技术进行伪装目标识别,申请了专利《基于改进的oif和svm实现高光谱伪装目标识别的方法》,南京理工大学的顾国华等人借助了偏振技术,申请了专利《基于k-means聚类和偏振信息提取的伪装目标识别方法》,但多技术结合的方法未能正面解决可见光波段的伪装目标识别难题。
5.在可见光波段伪装目标识别领域,2020年,济南大学的周静等人针对伪装目标连续帧分割开展研究,并发表论文《基于光流场分割的伪装色运动目标检测》。阿联酋人工智能研究所的deng-ping fan等人在ieee conference on computer vision and pattern recognition上发表论文《camouflaged object detection》,提出了一种行之有效的伪装目标分割算法sinet。2021年,美国戴顿大学的jinnan yan受生物学启发,提出了一种新的简单高效的网络框架mirrornet,大大改善了现有的伪装物体识别性能。西北工业大学的yunqiu lv提出了一种可以对伪装目标实现定位、分割和排序的一体化网络。中国人民解放军火箭军工程大学的蔡伟等人申请了专利《一种基于放大镜观测效应的可见光伪装目标识别方法》,通过模拟放大镜观测效应,获取高质量的可见光伪装目标分割图。以上方法均致力于实现伪装目标分割技术的完善,故网络结构普遍复杂、耗时较长。
6.相比于上文提及的伪装目标分割技术,伪装目标框检测技术更为快速、实用,仅使用恰好完全包含伪装目标的最小方框进行伪装目标的标注,不必进行逐像素分类,所以大大减少了检测时间,而目前在伪装目标框检测领域的研究并不多,陆军工程大学的曹铁勇等通过改进成熟的yolo算法实现目标框检测,申请了专利《一种基于改进yolo算法的伪装目标检测方法》,但该方法依赖的yolo算法是通用型目标检测算法,对伪装目标的针对性较差。
7.总结来看,目前研究人员通常研究伪装目标分割技术,且大多借助其他技术进行,对可见光波段的伪装目标框检测的研究并不多。因此,为了弥补现有伪装目标识别领域的不足,必须提出一种准确快速的伪装目标框检测方法。


技术实现要素:

8.为了弥补现有框检测伪装目标技术的不足,实现伪装目标框检测的精确实现,本发明提供了一种基于三元级联感知的伪装目标框检测方法。
9.现将本发明的发明构思和具体步骤表述如下:
10.本发明的基本构思为:为了精准地对图像中的伪装目标进行框检测,解决伪装目标关键信息难以获取的问题,进行网络结构设计,针对性构建出级联感知网络cpnet。算法创新之处在于提出三元级联感知模块(ternary cascade perception module,tcpm),重点提取特征之问的关系信息、关键点的位置信息以及关键区域的多尺度信息,同时,提出联合损失函数,针对目标类别、目标框、目标置信度的预测,分别使用不同的损失函数,联合获得训练损失值。
11.本发明公开了一种基于三元级联感知的伪装目标框检测方法,包括以下步骤:
12.步骤1:针对伪装目标特性构建三元级联感知模块(ternary cascade perception module,tcpm)。
13.tcpm基于伪装目标特性构建,具体包括特征感知模块(featme perception module,fpm)、关键点感知模块(key-point perception module,kpm)和区域感知模块(region perception module,rpm),三个模块通过级联的方式嵌入到主干网络当中。
14.特征感知模块fpm通过图卷积网络(graph convolution network,gcn)获取特征间的相对关系信息,对于输入张量f∈rw×
hxc
,首先使用卷积层组合cbr(卷积conv 批量归一化bn relu激活函数)进行预处理,得到特征图
[0015][0016]
其中,conv(bn(relu(
·
)))表示进行卷积层组合cbr操作,其次通过全局平均池化(global average pooling,gap)对整张特征图进行双维度池化,生成三维张量池化特征图f
gap
∈r1×1×c:
[0017][0018]
其中,gap(
·
,(w=1,h=1))表示将输入特征图全局池化为w=1、h=1的特征图操作,卷积神经网络中,通道数c代表该特征图提取出的特征数,故三维张量f
gap
∈r1×1×c可视作256个特征的点集合,为进一步得到特征间的相对关系信息,使用图卷积网络gcn进行节点间的关系学习,得到新的带有节点关系的三维张量特征图f
gcn
∈r1×1×c,基于此,进行通道维度的softmax归一化操作,将关系信息归一化至0~1,得到三维张量权重特征图
[0019][0020]
其中,softmax(
·
,dim=c)表示对通道维度进行softmax操作,将权重特征图f
weight
与预处理特征图逐通道相乘,获得关系加权后的特征图最后与原始输入进行残差连接,逐像素相加得到特征感知模块fpm的输出特征张量重新输入至主干网络当中。
[0021][0022]
关键点感知模块通过不同维度的平均池化(average pooling,ap)获取关键点的
位置信息。对于特征感知模块的输出张量首先使用卷积层组合cbr(同权利要求3所述cbr)进行预处理,得到特征图
[0023][0024]
与特征感知模块fpm不同的是,平均池化不对整张特征图进行操作,而是分为w维度和h维度两个维度分别进行,获取特征节点在特征图横向和纵向上的位置信息,生成一对三维张量池化特征图f
pool-h
∈rw×1×c和f
pool-w
∈r1×h×c:
[0025][0026][0027]
其次,将两个包含关键点不同方向位置信息的特征图相乘,得到嵌入关键点的全局位置信息的特征图fw×h∈rw×h×c,而后使用卷积层组合cbr进行通道间的信息融合,再通过通道维度的softmax归一化操作,将位置信息归一化至0~1,得到三维张量关键点位置信息权重特征图
[0028][0029]
将权重特征图与预处理特征图逐通道相乘,获得关系加权后的特征图最后与输入(即特征感知模块fpm的输出特征张量)进行残差连接,逐像素相加得到关键点感知模块kpm的输出特征张量重新输入至主干网络当中。
[0030][0031]
区域感知模块通过融和不同尺度的扩张卷积(dilated convolution,dconv)增大感受野以获取更多的关键区域多尺度信息。对于关键点感知模块的输出张量首先使用卷积层组合cbr进行预处理,得到特征图
[0032][0033]
与关键点感知模块kpm不同的是,为获得关键区域多尺度信息,需要进行小范围的特征提取,使用两个不同大小的空洞卷积dconv分支以扩大感受野,获取多尺度的区域信息,空洞卷积卷积核大小分别为3
×
3和5
×
5,空洞系数均为2,而后将两组特征图叠加,获得两倍通道数的感受野增强特征图f
rf
∈rw×h×
2c

[0034][0035]
其中,dconv(
·
,k=i,d=2)表示空洞系数为2,卷积核大小为i的空洞卷积,add(
·

·
)表示将两组特征图进行通道维度的叠加操作,而后对通道维度进行softmax操作,而后使用卷积层组合cbr进行通道恢复和信息融合,再通过通道维度的softmax归一化操作,将位置信息归一化至0~1,得到三维张量区域多尺度信息权重特征图
[0036][0037]
将权重特征图与预处理特征图逐通道相乘,获得关系加权后的特征图最后与模块输入(即关键点感知模块kpm的输出特征张量)进行残差连接,逐像素相加得到区域感知模块rpm的输出特征张量重新输入至主干网
络当中。
[0038][0039]
步骤2:结合步骤1,设计伪装目标级联感知网络(cascade perception network,cpnet)。
[0040]
cpnet依次级联特征提取主干backbone、特征金字塔(feature pyramid networks,fpn)、三元级联感知模块以及输出检测头,特征提取主干在后四个阶段(stage)使用swin transformer特征提取模块,分别将输入图像下采样至原始尺寸的1/4、1/8、1/16、1/32,而后将四组特征图输入至特征金字塔fpn当中进行特征融合,设高层特征为f
high
,低层特征为f
low
,则经过特征金字塔处理后,低层特征处理为
[0041][0042]
其中,conv(
·
,k=1)表示卷积核大小为1的卷积层,conv(
·
,k=3)表示卷积核大小为3的卷积层,up(
·
,2x)表示放大系数为2的上采样层,而主干最高层的特征的处理方式为经过特征金字塔融合特征后,输出是四个三维张量基于此,将四个不同尺度的特征图通过卷积层调整尺寸为f∈r
256
×
256
×
256
,而后将其在通道维度进行叠加,调整四个三维张量为一个三维张量f∈r
256
×
256
×
1024
,继而输入至权利要求2所述的三元级联感知模块中进行重要信息感知,最后输出目标类别、目标框信息和目标置信度。
[0043]
步骤3:对级联感知网络进行模型参数训练和检测准确度验证
[0044]
针对输出的预测结果设计联合损失函数,针对目标类别的预测,使用聚焦损失(focalloss)函数,获取目标类别损失值loss_cls,针对目标框的预测,使用完整交并比损失(complete interp over union,ciou)函数,获取目标框损失值loss_bbox,针对目标置信度的预测,使用交叉熵损失(cross entropy loss)函数,获取目标置信度损失值loss_conf,总损失值loss_all为:
[0045]
loss_all=loss_cls loss_bbox loss_conf
ꢀꢀ
05)
[0046]
目标类别损失值使用聚焦损失(focal loss)函数,focal loss可以通过调节聚焦因子控制正负样本对总损失值的影响,得到loss_cls:
[0047]
loss_cls=-α(1-y
p
)
γ
log(y
p
)
ꢀꢀ
(16)
[0048]
其中,α为聚焦因子,因伪装目标在图像中占比较少,故α选取0.25以解决类别数目不平衡的问题,γ表示调制因子,选取2,以减少大量高置信度负样本的影响,y
l
表示不同类别的分类概率:
[0049][0050]
目标框损失值使用完整交并比损失(complete interp over union,ciou)函数,ciou通过计算真实目标框和预测目标框之间的距离,得到loss_bbox:
[0051][0052]
其中iou表示预测目标框bbox
pred
与真实目标框bbox
true
之间的面积交并比,
[0053][0054]
表示预测目标框中心点与真实目标框中心点之间的
欧氏距离,β是预测目标框与真实目标框最远对角线连线的长度,δυ用来衡量预测目标框与真实目标框的宽高比的一致性:
[0055][0056][0057]
其中,w
true
、h
true
表示真实目标框的宽和高,w
pred
、h
pred
表示预测框的宽和高。目标置信度损失值使用交叉熵损失(cross entropy loss)函数,获得loss_conf:
[0058]
loss_conf=-log(y*conf (1-y)*(1-conf))
ꢀꢀ
(22)
[0059]
其中,y表示真实标签,背景值为0,真实目标值为1,conf为预测置信度。
[0060]
评价指标选取iou在0.5-0.95间的平均准确率(average precision,ap)和平均召回率(average recall,ar),以及按照目标尺寸区分的小目标、中目标和大目标的平均准确率和平均召回率,全面的评价指标可以更好地反映检测性能。
[0061]
与现有技术相比,本发明的有益效果是:
[0062]
1、本发明为弥补现有伪装目标检测技术的不足,提出了一种基于三元级联感知的伪装目标框检测方法,设计提出了级联感知网络cpnet,该网络由特征提取模块、三元级联感知模块和检测输出头级联组成,检测输出头输出目标类别、目标框以及目标置信度,以实现伪装目标精准框检测。
[0063]
2、本发明针对性设计了三元级联感知模块tcpm,其中,特征感知模块通过图卷积网络获取特征间的相对关系信息,关键点感知模块通过不同维度的平均池化获取关键点的位置信息,区域感知模块通过融和不同尺度的空洞卷积增大感受野以获取更多的区域信息;同时,本发明针对输出的预测结果设计了联合损失函数,总损失值为目标类别损失值、目标框损失值以及目标置信度损失值的相加。
[0064]
3、本发明的实验结果可以证明,提出的级联感知网络cpnet由于对特征关系信息、关键点位置信息以及区域信息进行了高效利用,综合10项指标来看,检测性能最好。
附图说明
[0065]
图1是本发明所提出的级联感知网络cpnet的网络流程图。
[0066]
图2是本发明所使用的特征提取主干swin transformer的结构图。
[0067]
图3是本发明所提出的特征金字塔fpn的结构图。
[0068]
图4是本发明所提出的三元级联感知模块tcpm的结构图。
[0069]
图5是本发明所提出的级联感知网络cpnet识别伪装目标的可视化效果。
[0070]
其中,图1所示三元级联感知模块中,各子模块名称下方为原理示意图,不同的颜色深浅代表不同的权重等级,各子模块具体结构见图4。
具体实施方式
[0071]
下面结合附图对本发明作进一步实施具体说明。以下所描述的实施例仅用于说明本发明的技术方案,是本发明一部分实施例,而不是对本发明保护范围的限制。
[0072]
本发明实施例公开了一种基于级联感知网络cpnet的可见光伪装目标框检测方法,包括以下步骤:
[0073]
步骤1:三元级联感知模块tcpm基于图4所示的结构图构建;
[0074]
模块依次级联特征感知模块fpm、关键点感知模块kpm和区域感知模块rpm,前一个模块的输出为下一个模块的输入。
[0075]
特征感知模块fpm通过图卷积网络gcn获取特征间的相对关系信息,设特征感知模块注意力操作为ξ
fpm
(
·
),则特征感知模块fpm的输出为:
[0076][0077]
关键点感知模块kpm通过不同维度的平均池化ap获取关键点的位置信息,设关键点感知模块注意力操作为ξ
kpm
(
·
),则关键点感知模块kpm的输出为:
[0078][0079]
区域感知模块rpm通过融和不同尺度的扩张卷积dconv增大感受野以获取更多的区域多尺度信息,设区域感知模块注意力操作为ξ
rpm
(
·
),则区域感知模块rpm的输出为:
[0080][0081]
步骤2:级联感知网络cpnet基于图1所示的网络流程图构建;
[0082]
级联感知网络cpnet围绕三元级联感知模块tcpm进行设计,依次级联特征提取主干backbone、特征金字塔fpn、三元级联感知模块以及输出检测头,特征提取主干swin transformer的结构图如图2所示,特征金字塔fpn的结构图如图3所示,特征金字塔fpn最终输出四个不同尺度的特征图,而后通过卷积层将尺寸均调整为f∈r
256
×
256
×
256
,将其在通道维度进行叠加,调整四个三维张量为一个三维张量f∈r
256
×
256
×
1024
,继而输入三元级联感知模块中进行重要信息感知,最后检测输出头输出目标类别、目标框信息和目标置信度。
[0083]
步骤3:构建联合损失函数,对级联感知网络进行模型参数训练和检测准确度验证。
[0084]
针对目标类别的预测,使用聚焦损失(focal loss)函数,focal loss可以通过调节聚焦因子控制正负样本对总损失值的影响,获取目标类别损失值loss_cls,针对目标框的预测,使用完整交并比损失(complete interp over union,ciou)函数,ciou通过计算真实目标框和预测目标框之间的距离,获取目标框损失值loss_bbox,针对目标置信度的预测,使用交叉熵损失(cross entropy loss)函数,获取目标置信度损失值loss_conf,总损失值loss_all为三个损失值的相加:
[0085]
loss_all=loss_cls loss_bbox loss_conf
ꢀꢀ
(26)
[0086]
将伪装目标数据集输入cpnet算法进行参数训练和检测准确度验证;所述参数训练过程分为数据集处理、网络超参数的选取与设置、数据集输入cpnet算法进行参数更新三部分。
[0087]
数据集选取2020年公开的cod10k通用伪装目标数据集,数据集共10000张图片,包含5066张含有伪装目标图片,3000张背景图片,1934张不含有伪装目标的图片,数据集采用6;4的比例划分为训练集和验证集,分别在网络模型参数训练和算法验证的阶段使用。
[0088]
实验训练测试阶段使用的硬件平台配置为:显卡为nvidia quadro gv100,显存为32g,使用pytorch深度学习开发框架。cpu为inter xeon silver 4210,操作系统为win10操作系统。
[0089]
评价指标选取iou在0.5-0.95间的准确率(average precision,ap)和召回率(average recall,ar),以及按照目标尺寸区分的小目标、中目标和大目标的准确率和平均召回率,全面的评价指标可以更好地反映检测性能。
[0090]
本发明提出的cpnet算法与近几年的优秀算法的实验结果对比如表1所示,表1中其他算法的数据均为默认参数下的结果,各个算法的第一行为使用轻量级特征提取主干(如r50、tiny)的结果,第二行为使用深度特征提取主干(如r101、small)的结果。
[0091]
表1中评价指标的意义:ap
0.5-0.95
指iou在0.5-0.95之间的平均准确率,ap
50
指iou设置为0.5时的准确率,ap
75
指iou设置为0.75时的准确率,ar1指仅保留1个最大置信度的预测框时计算的召回率,ar5指保留5个最大置信度的预测框时计算的召回率,ar
10
指保留1度的预测框时计算的召回率,aps和ars表示小目标的指标,apm和arm表示中目标的指标,ap
l
和ar
l
表示大目标的指标。
[0092]
表1各个算法的对比结果
[0093][0094]
可以看出,本发明提出的级联感知网络cpnet,综合来看优于其他对比算法,使用轻量级特征提取主干时,有8项指标优于其他算法;使用深度特征提取主干时,有9项指标优于其他算法,说明级联感知网络cpnet对伪装目标检测有较强的针对性。图5为级联感知网
络cpnet识别部分伪装目标的可视化效果。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献