一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于改进YOLOv5s的X光安检图像违禁物品检测方法

2022-08-14 01:33:55 来源:中国专利 TAG:

基于改进yolov5s的x光安检图像违禁物品检测方法
技术领域
1.本发明属于图像检测领域,涉及基于改进yolov5s的x光安检图像违禁物品检测方法。


背景技术:

2.x光行李安检是维护公共交通安全的重要手段,但目前安检员通过肉眼对x光图像进行识别的方法效率较低且易出现误检、漏检的情况,因此需要一种更高效、更精确的违禁物品自动检测方法。
3.随着深度学习在各领域的快速发展,其在x光安检违禁物品识别领域也有了相应的尝试。目前,基于深度学习的违禁品自动识别可以分为违禁物品的自动分类、违禁物品的自动检测以及违禁物品的自动分割三个方面。最早,将卷积神经网络(convolutional neural networks,cnn)通过迁移学习的方式应用于x光安检违禁品的自动分类中。后来,利用生成对抗网络技术扩充有限的安检数据集,从而提升安检违禁物品的识别精度。kim等人通过设计一种基于u-net的o-net结构来进行违禁物品的自动检测。miao等人提出了一种类平衡层级精细化(class-balanced hierarchical refinement,chr)模型来解决违禁品自动检测时正负样本间类不平衡的问题。xu等人通过在cnn中引入注意力机制来实现安检违禁品的自动分割。虽然,基于深度学习的违禁品自动识别技术已经开始被研究,但由于x光图像不同于自然光图像,再加上物品摆放的随意性,在透视性下目标特征不易被学习,导致违禁物品的检测速度达不到实际应用的要求且检测精度仍有待进一步提升。
4.近年来,one-stage目标检测算法因其简单的结构和优越的性能而受到了广泛的关注,其中yolo(you only look once)是一系列端到端的目标检测算法的集合,具有检测速度快的特点和优势。由ultralytics团队近期开源的yolov5算法最大限度的兼顾了实时性和准确性,在实时的违禁品检测上有很大应用潜力。
5.yolov5s是yolov5系列中最小的网络,本发明以yolov5s作为基础模型,提出了一种改进的x光安检图像违禁物品识别方法。在满足违禁物品自动检测对实时性要求的同时,提高检测精度。首先在yolov5s的主干网络中设计并引入了重参数模块(reparameter block,rep block),在3
×
3卷积处构造一个平行的1
×
1卷积分支以协助主干网络在训练阶段提取更丰富的特征,推理阶段将1
×
1分支融入3
×
3分支,在不影响推理速度的同时提高检测精度。其次,在yolov5s颈部的路径聚合网络(path aggregation network,pan)中插入两个压缩-激励模块(squeeze and excitation block,se block),在不影响推理速度的前提下改善了算法对违禁物品的检测效果。


技术实现要素:

6.有鉴于此,本发明的目的在于提供一种基于改进yolov5s的x光安检图像违禁物品检测方法。
7.为达到上述目的,本发明提供如下技术方案:
8.基于改进yolov5s的x光安检图像违禁物品检测方法,该方法包括以下步骤:
9.s1:建立基于重参数思想设计的rep模块;
10.s2:建立基于重参数的yolov5s违禁物品检测算法;
11.s3:对颈部pan进行改进。
12.可选的,所述s1具体为:
13.设构造的rep模块参数如公式(1)所示,即两个平行卷积分支相加;rep模块产生的信息流表示为y=f(x) g(x),其中f(x)、g(x)分别是由3
×
3核和1
×
1核实现的卷积分支;
14.rep(3
×
3)=3
×
3-bn 1
×
1-bn
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
15.对每个3
×
3卷积,在训练阶段给构造并行的1
×
1卷积分支,并各自经过归一化操作后相加;在推理阶段将1
×
1分支融合进3
×
3分支,得到一个3
×
3卷积分支,减去另一平行分支结构,提升卷积网络的性能,不影响网络检测效率;
16.在rep模块构造的基础上,基于repvgg的思想将多分支模块转为单分支;模型的转换是在训练完成后进行,包含如下两个步骤:
17.①
首先将每个分支中的卷积层、bn层进行融合;直接将卷积结果带入bn公式中,如图3中左边箭头,则输出表示为公式(2):
18.m
(2)
=bn(w
(3)
*m
(1)

(3)

(3)

(3)

(3)
) bn(w
(1)
*m
(1)

(1)

(1)

(1)

(1)
)
ꢀꢀꢀ
(2)
19.其中,和分别表示表示3
×
3和1
×
1卷积层的卷积核,c1,c2代表输入、输出通道数;μ
(3)

(3)

(3)

(3)
分别表示3
×
3卷积后bn层的累积均值、标准差、缩放因子和偏差项,μ
(1)

(1)

(1)

(1)
对应1
×
1卷积后bn层的累积均值、标准差、缩放因子和偏差项;输入、输出分别表示为*代表卷积运算;
20.将参数带入公式(2),得到结果如公式(3);其中,bn是推理阶段的批量标准化函数,i∈[1,c2];
[0021][0022]
对公式(3)化简得到一个带有偏差项的卷积层;以{w',b'}形式表示{w,b,μ,σ,γ,β}转化后得到的卷积核和偏差项,则有:
[0023][0024]
对任意的i∈[1,c2],有bn(w*m,μ,σ,γ,β)
:,i,:,:
=(w'*m)
:,i,:,:b′i;融合完成后得到一个3
×
3卷积核、一个1
×
1卷积核和两个偏差项;
[0025]

对3
×
3卷积和1
×
1卷积进行融合,两个偏差项相加得到融合偏差项;将1
×
1卷积核用0填充为3
×
3卷积核后,再与原3
×
3卷积核相加,得到融合卷积核;设为两个卷积核,根据卷积的可加性原理,其相加结果表示为公式(5);卷积核融合之后实现融合前的功能;
[0026][0027]
可选的,所述s2具体为:将rep结构引入yolov5s算法的主干网络,得到由一系列
rep模块和c3模块组成的升级主干网络;调整pan结构,将se模块插入pan中上一检测层到下一检测层之间,得到升级pan网络;
[0028]
其中focus模块对图片进行切片操作,使其输入通道扩充4倍,即操作后的图片从原先的rgb三通道变成12个通道;经过卷积操作,得到没有信息丢失的二倍下采样特征图;conv模块封装卷积层、bn层以及silu激活函数;c3模块的结构和作用与bottleneckcsp基本相同,但其浮点运算数更低,运行的速度更快;spp模块拼接不同尺寸的最大池化结果,实现了局部特征和全局特征相融合;upsample为上采样层,其内插值方法将图像放大到原来的2倍;检测头中的三个conv[1,1]得到最终输出的特征图。
[0029]
可选的,所述s3具体为:
[0030]
se模块包含压缩和激励两部分;第一步为压缩阶段,通过一个全局平均池化,使输入w
×h×
c的特征图被压缩为1
×1×
c,这个压缩过的特征图具有全局感受野;第二步为激励阶段,由两个全连接层组成:第一个全连接层有c
×
r个神经元,第二个全连接层有c个神经元,其中r是一个缩放参数,调节这个参数减少通道个数从而降低计算量。
[0031]
可选的,所述s4之后还包括设置评价指标;
[0032]
检测器的检测性能评估需要同时考虑准确率precision和召回率recall;目标检测中使用iou=0.5时的平均精度均值map、宏准确率mp、宏召回率mr和宏f1来评价网络模型的性能;准确率的定义为公式(6),召回率的定义为公式(7);其中tp、tn、fp和fn分别代表真阳性、真阴性、假阳性和假阴性;
[0033][0034][0035]
平均精度ap是通过结合准确率和召回率而得到,用来评价模型检测单个类别的精度;map测量模型检测所有类别的精度,通过求所有类ap平均值得到,其定义如公式(8);f1分数是准确率与召回率的加权平均值,定义如公式(9),其值越大表明效果越好;
[0036][0037][0038]
宏准确率、宏召回率和宏f1是通过分别求所有类别准确率、召回率和f1分数的平均值而得到。
[0039]
本发明的有益效果在于:本发明以yolov5s作为基础模型,提出了一种改进的x光安检图像违禁物品识别方法。在满足违禁物品自动检测对实时性要求的同时,提高检测精度。首先在yolov5s主干网络中设计并引入了重参数模块rep block,在3
×
3卷积处构造一个平行的1
×
1卷积分支以协助主干网络在训练阶段提取更丰富的特征,推理阶段将1
×
1分支融入3
×
3分支,在不影响推理速度的同时提高检测精度。其次,在yolov5s颈部pan中插入两个se block,在不影响推理速度的前提下改善了算法对违禁物品的检测效果。
[0040]
相对于传统的检测方法,本发明检测精度更高,更能够满足x光安检图像中违禁物品检测的实际应用需要。
[0041]
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
[0042]
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
[0043]
图1为yolov5s网络结构图;
[0044]
图2为改进的yolov5s网络模型结构图;
[0045]
图3为rep block结构及其结构重参数化过程;
[0046]
图4为普通3
×
3卷积核与填充过的卷积核相加得到融合卷积核;
[0047]
图5为se模块在卷积层的使用.(a)普通卷积.(b)插入了se模块后的卷积;
[0048]
图6为不同算法下各类违禁物品对应的混淆矩阵。
具体实施方式
[0049]
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
[0050]
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
[0051]
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
[0052]
1.x光安检图像数据集
[0053]
x光在安全检查任务中显示出了其强大的能力,然而可用于研究的x光违禁物品图像数据集仍然较少。gdxray包含19407张图片,但只有少数图像(600张)包含三类违禁物品:枪、飞镖和剃须刀片,并且所有图像都是灰度图像,背景简单,与复杂的现实场景差异较大。opixray包含8885张x光违禁物品图像,具有不同重叠等级和比例,但只包含一类违禁物品(不同形状的刀)。sixray由8929张具有多个类别的违禁物品图像组成,图像背景比较复杂,危险品间随意堆叠伴有遮挡,更加符合实际情况,所以本发明选择sixray作为实验数据集。
[0054]
2.yolov5s算法
[0055]
yolov5s算法由输入、主干网络、颈部和检测头四部分组成,如图1所示。输入端采用mosaic数据增强方法、自适应计算边界框和缩放图像,丰富输入数据的多样性。主干网络部分使用focus和csp模块,其中csp结构有利于提高网络特征学习能力。颈部采用特征金字塔(feature pyramid networks,fpn)加pan结构,fpn通过向上采样增强语义传播,pan使用向下采样增强特征定位。检测头部分使用广义交并比(generalized intersection over union,giou)损失作为边界框的损失函数,使用非极大值抑制(non maximum suppression,nms)选择边框。
[0056]
本发明先后分别对yolov5s算法的主干网络和颈部pan结构进行改进,以生成新的网络,提升检测性能。
[0057]
3.基于重参数的yolov5s违禁物品检测算法
[0058]
本发明通过改进yolov5s网络结构来提升算法对安检违禁物品的检测精度,通过设计rep模块来提高主干网络的特征提取能力,且不影响推理时间;在颈部pan中引入了两个se模块,从而使网络提取到更多的特征信息。改进后的网络结构如图2所示。
[0059]
在违禁物品检测问题中,对yolov5s进行了两部分改进:

将rep结构引入yolov5s算法的主干网络,得到了由一系列rep模块和c3模块组成的升级主干网络;

进一步调整pan结构,将se模块插入pan中上一检测层到下一检测层之间,得到升级pan网络。新的算法不仅能丰富其主干网络的特征性,改善模型性能,提升检测效果;还能对其颈部pan加强信息提炼,且对推理时间的影响可以忽略不计,改进后的算法结构如图3所示。其中focus模块对图片进行切片操作,使其输入通道扩充4倍,即操作后的图片从原先的rgb三通道变成了12个通道;进一步经过卷积操作,得到没有信息丢失的二倍下采样特征图。conv模块封装了卷积层、bn层以及silu激活函数。c3模块的结构和作用与bottleneckcsp基本相同,但其浮点运算数更低,运行的速度更快。spp模块拼接不同尺寸的最大池化结果,实现了局部特征和全局特征相融合。upsample为上采样层,其内插值方法将图像放大到原来的2倍。检测头中的三个conv[1,1]得到最终输出的特征图。
[0060]
3.1基于重参数思想设计的rep模块
[0061]
为了能提取更丰富的网络特征,提升网络检测性能,研究者们设计了许多新颖的多分支结构。新颖的组件固然能提升精度,但多分支结构带来的问题是难以应用和自定义,增加显存消耗,对推理过程不利。因此,本发明利用重参数化思想设计rep模块来提升模型精度,并通过解耦其训练阶段与测试阶段,来降低对推理速度的影响。设构造的rep模块参数如公式(1)所示,即两个平行卷积分支相加。rep模块产生的信息流表示为y=f(x) g(x),其中f(x)、g(x)分别是由3
×
3核和1
×
1核实现的卷积分支。
[0062]
rep(3
×
3)=3
×
3-bn 1
×
1-bn
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0063]
如图3所示,对每个3
×
3卷积,在训练阶段给构造并行的1
×
1卷积分支,并各自经过归一化操作后相加。在推理阶段将1
×
1分支融合进3
×
3分支,得到一个3
×
3卷积分支,减去另一平行分支结构,从而可以提升卷积网络的性能,而不影响网络检测效率。
[0064]
在rep模块构造的基础上,还可以进一步基于repvgg的思想将多分支模块转为单分支。模型的转换(即多分支融合)是在训练完成后进行,包含如下两个步骤:
[0065]
(1)首先将每个分支中的卷积层、bn层进行融合。直接将卷积结果带入bn公式中,
如图3中左边箭头,则输出可表示为公式(2):
[0066]m(2)
=bn(w
(3)
*m
(1)

(3)

(3)

(3)

(3)
) bn(w
(1)
*m
(1)

(1)

(1)

(1)

(1)
)
ꢀꢀ
(2)
[0067]
其中,和分别表示表示3
×
3和1
×
1卷积层的卷积核,c1,c2代表输入、输出通道数。μ
(3)

(3)

(3)

(3)
分别表示3
×
3卷积后bn层的累积均值、标准差、缩放因子和偏差项,μ
(1)

(1)

(1)

(1)
对应1
×
1卷积后bn层的累积均值、标准差、缩放因子和偏差项。输入、输出分别表示为*代表卷积运算。
[0068]
将参数带入公式(2),得到结果如公式(3)。其中,bn是推理阶段的批量标准化函数,i∈[1,c2]。
[0069][0070]
对公式(3)进一步化简得到一个带有偏差项的卷积层。以{w',b'}形式表示{w,b,μ,σ,γ,β}转化后得到的卷积核和偏差项,则有:
[0071][0072]
由此,可以验证对任意的i∈[1,c2],有bn(w*m,μ,σ,γ,β)
:,i,:,:
=(w'*m)
:,i,:,:b′i。所以,融合完成后可以得到一个3
×
3卷积核、一个1
×
1卷积核和两个偏差项。
[0073]
(2)对3
×
3卷积和1
×
1卷积进行融合,即图3中右边箭头步骤。两个偏差项相加得到融合偏差项;将1
×
1卷积核用0填充为3
×
3卷积核后,再与原3
×
3卷积核相加,得到融合卷积核,如图4所示。设为两个卷积核,根据卷积的可加性原理,其相加结果可表示为公式(5)。因此,卷积核融合之后可以实现融合前同样的功能。
[0074][0075]
3.2颈部pan的改进
[0076]
本发明通过在yolov5s颈部的pan中加载se模块来提升模型性能。se模块通过对特征通道间的相关性进行建模,筛选出针对通道的注意力,把重要的特征进行强化来提升准确率。
[0077]
如图5所示,se模块主要包含压缩(squeeze)和激励(excitation)两部分。第一步为压缩阶段,通过一个全局平均池化,使输入w
×h×
c的特征图被压缩为1
×1×
c,这个压缩过的特征图具有全局感受野。第二步为激励阶段,由两个全连接层组成:第一个全连接层有c
×
r个神经元,第二个全连接层有c个神经元,其中r是一个缩放参数,调节这个参数可减少通道个数从而降低计算量。
[0078]
4实验及结果分析
[0079]
4.1数据集
[0080]
本发明所提出的算法在公共数据集sixray上进行实验,该数据集收集了8929张带注释的图像。与其他数据集相比,sixray类别较多、数据量相对较大。将数据集随机分为两部分,其中20%的图像(1781张)为测试集,其余(7148张)为训练集,比例约为1:4。本发明在实验中去除了对剪刀类物品的检测,因为该样本的数量太少,类间数据量不平衡。数据集中
各个类别的详细分布如表1所示。此外,数据集中的许多图像包含多个对象。
[0081]
表1 sixray数据集中每个类别的分布。
[0082][0083]
很多图像都包含多个违禁物品,因此物品总数远远高于图像的数量。
[0084]
4.2评价指标
[0085]
检测器的检测性能评估需要同时考虑准确率(precision)和召回率(recall)。目标检测中使用iou=0.5时的平均精度均值(mean average precision,map)、宏准确率(macro precision,mp)、宏召回率(macro recall,mr)和宏f1(macro-f1,mf1)等来评价网络模型的性能。准确率的定义为公式(6),召回率的定义为公式(7)。其中tp、tn、fp和fn分别代表真阳性、真阴性、假阳性和假阴性。
[0086][0087][0088]
平均精度(average precision,ap)是通过结合准确率和召回率而得到,用来评价模型检测单个类别的精度。map测量模型检测所有类别的精度,通过求所有类ap平均值得到,其定义如公式(8)。f1分数是准确率与召回率的加权平均值,定义如公式(9),其值越大表明效果越好。
[0089][0090][0091]
同宏准确率类似,宏准确率、宏召回率和宏f1是通过分别求所有类别准确率、召回率和f1分数的平均值而得到。此外,混淆矩阵也可用于辅助结果分析。
[0092]
4.3实验结果分析
[0093]
实验的硬件配置为core(tm)i9-10920x处理器,geforce rtx 3090显卡,软件配置为torch1.8.0。在训练过程中,使用带动量的sgd优化网络参数,迭代次数(epochs)的值设置为200。输入图像大小为640
×
640,批量大小(batch size)为64。控制其他参数一致的情况下对多种模型进行实验。
[0094]
本发明一共展示了四种模型的实验结果:原始yolov5s算法、使用rep模块的改进yolov5s的主干网络算法(下文称为rep-yolov5)、在颈部pan中插入se模块的改进算法(下文称为se-yolov5)、两种改进叠加的算法(下文称为repse-yolov5s)。
[0095]
图6列出了不同算法的混淆矩阵,其中对角线值表示真阳性率(tpr),每列非对角
线值之和表示一类的假阴性率(fnr)。由图可知,repse-yolov5s算法混淆矩阵的对角线响应比其他矩阵的平均值高,混淆矩阵更好的整体分布表明本发明算法可以更准确地识别违禁物品。
[0096]
相比之下,算法对扳手类物品的检测效果提升最大。但总体而言,刀这类对象的真阳性率最低。原因可能是数据集中刀这类对象的具体特征并不单一,例如刀类别包含了宽后的菜刀、细长的直刀、小型的工具刀。
[0097]
表2展示了四种算法在sixray数据集上的整体性能对比。首先对比原始yolov5s算法与rep-yolov5s算法,表中数据显示,rep-yolov5s算法的宏准确率(map)比原始网络提高了1.1%,其余三项评价指标同样均有提升,每个类别的检测精度也均有提升,这表明rep模块增强了主干网络的特征提取能力、对算法检测性能的提高有明显的帮助。然后通过对比原始yolov5s算法与se-yolov5s算法可知,se模块对网络加强特征提取部分的改进同样也改善了算法整体的检测性能,尤其是在宏召回率(mr)方面提升了2.5%。
[0098]
最后,综合两部分改进的repse-yolov5s算法在map指标上分别比原始yolov5s、rep-yolov5s、se-yolov5s高2.6%、1.0%、1.4%。在宏准确率(map)、宏召回率(mr)和宏f1(mf1)方面,与原始网络和另外两个网络相比也具有更显著的优势。此外,表中还显示每个类别的检测精度均有提升,尤其是扳手类物品,检测精度由86.4%达到了91.3%,提高了4.9个百分点。这些评估表明,repse-yolov5s算法能够更准确的检测x光安检图像中所有类别的违禁物品,有进一步应用于实际场景的潜力。
[0099]
表2检测算法的性能比较
[0100][0101]
此外,本发明还比较了原始yolov5s算法、rep-yolov5s算法、se-yolov5s算法、repse-yolov5s算法的参数数量(十万,m)、模型大小(兆,mb)和检测单张图像所需时间(毫秒,ms),如表3所示。检测单张图像所需时间是在gpu上对测试集中的数据进行测试的结果,包含数据预处理、模型推理、后处理以及非极大值抑制(nms)。平均预处理时间为0.1ms、平均nms的时间为0.8毫秒每张图。
[0102]
由表3可知,repse-yolov5s算法参数数量仅仅增加了0.28%,模型大小增加了2.82%(0.4mb),并且检测时间几乎不变。
[0103]
表3不同算法用时比较
[0104]
[0105]
改进后的算法改善了一些背景复杂难以识别物品的检测效果。
[0106]
针对目前x光安检图像检测精度不够高的问题,本发明将模型小、检测速度快的yolov5s算法应用于x光安检图像的违禁物品检测,提出了一种repse-yolov5s检测算法,在提高检测精度的同时对检测速度的影响可以忽略不计。首先利用重参数思想设计了一种rep模块以丰富yolov5s算法主干网络的特征性,然后在yolov5s算法颈部pan中插入两个se模块,改善了算法对违禁物品的检测效果。最后在sixray数据集上进行了实验,并对比分析了四种不同的算法模型违禁物品检测性能,结果显示新的算法的平均精度均值、宏准确率、宏召回率和宏f1分别比原始算法提升了2.6%、2.0%、4.0%和3.0%,同时检测速度保持为2.6毫秒每张图,在几乎没有增加额外检测时间的同时,提升了违禁物品检测的准确率。
[0107]
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献