一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于MDCN的轻量化裂缝识别方法与流程

2022-11-12 22:50:21 来源:中国专利 TAG:

一种基于mdcn的轻量化裂缝识别方法
技术领域
1.本发明涉及混凝土视觉损伤识别技术领域,具体涉及一种基于mdcn的轻量化裂缝识别方法。


背景技术:

2.由于具有可塑性强、抗压强度高、经历性好等优势,混凝土广泛应用于桥梁、房建以及大坝等基础设施中。同时混凝土因自重大、延展性强、抗压程度差、收缩徐变等特性,导致混凝土在服役过程中易产生各种类型的损伤。而在众多混凝土损伤类型中,混凝土开裂作为混凝土结构常见的损伤形式。通过定期对裂缝的损伤评估有助于了解结构损伤程度、提前预警结构危险程度、及时对损伤部位进行修复等,因此定期对混凝土结构表面进行实时的裂缝观测是必不可少的。
3.而基于传统的基于深度学习的通用目标检测算法,由于并不是专门服务于混凝土损伤数据集,常常会因网络层数过多导致结构冗余。而一些轻量化特征提取网络,也因缺少专用性,相对传统的通用目标检测算法,使得轻量化网络的精度会产生明显的降低。导致目前针对混凝土损伤数据集的目标检测算法无法同时兼顾到检测速度和精度。且由于轻量化网络准确率低,因此需要借助远程计算系统才能完成完整的检测过程,很难部署到移动终端,进而造成检测成本增加。因此有必要提出一种可部署到移动终端的,针对混凝土表面结构裂缝损伤同时兼顾速度和精度专用目标检测算法,实现对混凝土表面损伤的定期、实时、准确的检测。


技术实现要素:

4.为解决上述问题,本发明提供一种基于mdcn的轻量化裂缝识别方法。
5.为实现上述目的,本发明提供了如下的技术方案。
6.一种基于mdcn的轻量化裂缝识别方法,包括以下步骤:
7.对待进行裂缝识别的混凝土表面裂缝图片进行处理,获得图片的rgb三通道格式;
8.构建主干特征提取网络,包括交替搭建的多个膨胀多尺度通道融合的dds下采样模块和改进后的倒残差bneck模块;其中,改进后的倒残差bneck模块将原bneck模块中的se注意力机制替换为cbam注意力机制;
9.通过主干特征提取网络提取rgb三通道格式图片中不同倍数的下采样特征,送入金字塔结构,获得不同尺度的预测特征图,分别预测不同大小的目标损伤裂缝;
10.将预测特征图通过与各参数的映射关系,得到裂缝损伤的预测框几何参数、位置参数以及分类结果。
11.优选地,所述对待进行裂缝识别的混凝土表面图片进行处理,获得图片的rgb三通道格式,包括以下步骤:
12.将长宽为w,h的图片自左上角粘贴在c
×
c大小的空白画布上(c=max{h,w}),其余空白部分用0填充;
13.将上述所得图片整体缩放至416
×
416大小,并转成rgb三通道。
14.优选地,所述膨胀多尺度通道融合的dds下采样模块,用于提取图片的深层特征图,包括以下步骤:
15.分别使用感受野为3、5、7的膨胀卷积,对浅层特征图进行步长为2的特征提取,同时实现对浅层特征图进行下采样,使其长宽尺寸缩小为原来的二分之一;
16.将不同膨胀卷积提取的特征进行融合操作,通过1
×
1卷积实现跨通道融合进而得到新的深层特征图。
17.优选地,还包括:
18.通过主干特征提取网络提取rgb三通道格式图片中8倍和16倍下采样特征,送入特征金字塔结构,分别得到26
×
26
×
22和52
×
52
×
22的特征图对裂缝损伤图像进行融合预测,获得预测特征图;其中,26
×
26
×
22负责预测大目标裂缝损伤,52
×
52
×
22负责预测小目标损伤裂缝。
19.优选地,所述特征金字塔结构由不同的卷积块、卷积集和普通卷积以及上采样结构组成,其中:
20.卷积块由卷积核、批标准化和非线性激活函数依次组成;
21.卷积集由五个卷积块依次堆叠而成,其中每个卷积块的卷积核大小依次为1
×
1、3
×
3、1
×
1、3
×
3、1
×
1。
22.优选地,所述非线性激活函数为relu激活函数或hswish激活函数。
23.优选地,所述预测特征图映射关系,包括:
24.x=σ(t
x
) c
x
25.y=σ(ty) cy[0026][0027][0028]
其中,x是预测框的中心点横坐标,y是预测框的中心点纵坐标,w是预测框的宽,h是预测框的高;σ(x)为sigmoid函数;t
x
和ty表示预测的坐标偏移值;pw和ph表示尺度缩放;c
x
和cy表示偏移量。
[0029]
优选地,还包括将所述主干特征提取网络和特征金字塔结构构成的mdcn目标检测模型进行训练,包括以下步骤:
[0030]
构建训练集,将真实框和不同的锚框进行iou运算进而生成对应数量的样本;
[0031]
其中,iou值最大时对应的样本作为正样本,并将正样本对应的置信度值修改为1,正样本的中心点坐标、宽高、置信度以及分类均参与loss函数计算;
[0032]
除iou最大值以外的其他满足0.5≤iou<1对应的样本作为忽略样本,不参与loss函数的计算;
[0033]
0≤iou<0.5的样本作为负样本,负样本参数中仅仅置信度参与loss函数计算。
[0034]
优选地,所述损失函数为:
[0035][0036]
其中,s表示网格大小,b表示预测框的个数;表示第i个网格第j个边框不负责该目标;表示第i个网格第j个边框是负责这个类;xi、yi表示预测框的中心点坐标,wi、hi表示预测框的宽高;表示预测框的置信度,p
ij
表示为预测框的类别,其余均表示为各真实框的对应值。
[0037]
优选地,还包括:
[0038]
采用k-means算法,对预测框进行4分类从而替代原有的9分类。
[0039]
本发明提出一种基于mdcn的轻量化裂缝识别方法,包括以下有益效果:
[0040]
本发明提出混凝土专用的dds下采样结构,改进了倒残差结构,重构了主干特征提取网络。提出的mdcn轻量化裂缝检测专用算法同时兼顾准确率和精度,为混凝土损伤目标检测算法的轻量化,以及今后直接部署在移动终端上提供了技术支撑。
附图说明
[0041]
图1是本发明实施例的mdcn整体流程图;
[0042]
图2是本发明实施例的图片预处理方法;
[0043]
图3是本发明实施例的膨胀卷积下采样模块;
[0044]
图4是本发明实施例的改进的倒残差bneck模块;
[0045]
图5是本发明实施例的裂缝损伤检测目标宽高的聚类结果;
[0046]
图6是本发明实施例的四种对比模型的ap和map图;
[0047]
图7是本发明实施例的主干网络流程图。
具体实施方式
[0048]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0049]
实施例1
[0050]
本发明的一种基于mdcn的轻量化裂缝识别方法,如图1-7所示,包括以下步骤:
[0051]
s1:对待进行裂缝识别的混凝土表面裂缝图片进行处理,获得图片的rgb三通道格
式。
[0052]
s2:构建主干特征提取网络,包括交替搭建的多个膨胀多尺度通道融合的dds下采样模块和改进后的倒残差bneck模块;其中,改进后的倒残差bneck模块将原bneck模块中的se注意力机制替换为cbam注意力机制。
[0053]
s3:通过主干特征提取网络提取rgb三通道格式图片中的8倍和16倍下采样特征,送入特征金字塔结构,分别得到26
×
26
×
22和52
×
52
×
22的特征图对裂缝损伤图像进行融合预测,获得预测特征图;其中,26
×
26
×
22负责预测大目标裂缝损伤,52
×
52
×
22负责预测小目标损伤裂缝。
[0054]
s4:将预测特征图通过映射关系,得到裂缝损伤的预测框几何参数、位置参数以及分类结果。
[0055]
具体的:
[0056]
一、数据集预处理
[0057]
1、图片参数修改
[0058]
通过混凝土表面吸附式无人机采集混凝土表面裂缝图片,使用标注软件将混凝土裂缝损伤位置使用矩形框标注,并将裂缝损伤类型进行六分类,按照裂缝的延展方向可分为横向裂缝、纵向裂缝、斜向裂缝和网状交叉裂缝,对于大面积的混凝土裂缝损伤将其分类为孔洞型损伤,其他的类别可分类为不规则裂缝。然后将混凝土损伤图片名称、损伤类型、矩形框标注的信息依次排列,并导出为txt格式。
[0059]
对于任意大小的图片,为确保输入网络的图片长宽一致且不影响原图中检测目标的长宽比例。
[0060]
如图2所示,将待传入网络的混凝土损伤图片(大小为h
×
w)粘贴在c
×
c大小的空白画布上,其中c=max{h,w},其余空白部分用0填充。然后将所得图片整体缩放至416
×
416大小,并转成rgb三通道。
[0061]
2、聚类框的确定
[0062]
由于混凝土裂缝损伤的真实框的宽高分布较为集中,因此采用k-means算法对预测框进行4分类从而替代原有的9分类。聚类结果为(47,137)、(128,133)、(136,89)、(137,43)。宽高及聚类中心点如图5所示。
[0063]
二、搭建mdcn目标检测模型框架——以深度学习框架pytorch为例。
[0064]
1、搭建网络所需模块组成
[0065]
(1)卷积块:依次按顺序调用torch.nn中的卷积、批标准化和非线性激活模块,为方便后续反复调用,可将上述步骤以类的形式封装。
[0066]
(2)搭建膨胀卷积下采样模块(dds),如图3所示:分别输入特征进行感受野为3、5、7且步长为2的膨胀卷积,并将得到的三个特征提取结果按通道方向融合,最后使用1
×
1卷积实现跨通道的特征融合。为方便后续反复调用,可将上述步骤以类的形式封装。
[0067]
(3)搭建改进后的bneck模块,如图4所示:对输入特征进行1
×
1进行主殿卷积使得输出通道扩张为输入特征通道的t倍(本例中t取值为4),接着使用3
×
3或5
×
5(见主干网络图)分组卷积进行特征提取,分组的数量为待提取特征层的通道数。然后对提取的特征层使用cbam注意力机制,最后使用1
×
1卷积对提取特征进行降通道处理。为方便后续反复调用和卷积核大小修改,可将上述步骤以类的形式封装。
[0068]
(4)搭建卷积集(convolutional set)卷积集可通过依次调用卷积核大小为1
×
1、3
×
3、1
×
1、3
×
3、1
×
1共5个卷积块搭建完成。
[0069]
(5)上采样使用临近插值算法搭建。
[0070]
2、搭建主干网络
[0071]
主干网络由膨胀卷积下采样模块和改进后的bneck模块交替重复搭建而成。
[0072]
如图7所示,为主干网络流程图表,input代表上一层输入的特征图大小,operator表示该层使用是膨胀卷积下采样模块或bneck模块。图7中膨胀卷积下采样模块中的exp size表示三个膨胀卷积各自输出的通道数。bneck的exp size表示第一个1
×
1逐点卷积的输出通道数。图7中out表示该模块的最终输出通道数。图7中cbam表示是否使用cbam注意力机制。图7中nl表示使用那种非线性激活函数,hs为hard swish非线性激活函数,re表示为relu非线性激活函数。
[0073]
通过pytorch的torch.nn.sequential序列容器按图7所示流程封装膨胀卷积下采样模块和改进后的bneck模块,可完成主干网络的搭建。
[0074]
3、网络框架整体的搭建
[0075]
除主干网络之外的剩余部分由普通卷积、卷积块(cbl)和卷积集(convolutional set)以及上采样拼接而成,其中,所用到的全部卷积块(cbl)中的非线性激活函数均采用relu激活函数。上采样使用临近插值算法搭建。至此,则搭建完成输入为416
×
416
×
3,输出通道为26
×
26
×
22和52
×
52
×
22的mdcn目标检测网络框架。
[0076]
三、模型训练
[0077]
将数据集中抽取80%作为训练集对模型进行训练,将真实框和不同的锚框进行iou运算进而生成对应数量的样本,iou值最大时对应的样本作为正样本,并将正样本对应的置信度值修改为1,正样本的中心点坐标、宽高、置信度以及分类均参与loss函数计算。除iou最大值以外的其他满足0.5≤iou<1对应的样本作为忽略样本,不参与loss函数的计算。0≤iou<0.5的样本作为负样本,负样本参数中仅仅置信度参与loss函数计算。使用adam优化器进行梯度更新,学习率设置为0.001,梯度衰减率设置为0.96,batch size设置为4。
[0078][0079]
损失函数为:
[0080][0081]
其中,s表示网格大小,b表示预测框的个数;表示第i个网格第j个边框不负责该目标;表示第i个网格第j个边框是负责这个类;xi、yi表示预测框的中心点坐标,wi、hi表示预测框的宽高;表示预测框的置信度,p
ij
表示为预测框的类别,其余均表示为各真实框的对应值。
[0082]
四、模型测试与结果展示,如图6所示。
[0083]
将数据集中另外20%作为测试集测试模型的性能。传入训练好的网络中。得到52
×
52
×
22和26
×
26
×
22的特征图。每11个数组作为一组结果,共6760组,每一组中11个数分别代表了置信度、中心点x坐标、中心点y坐标、预测框的宽、预测框的高以及六种损伤类别。通过设置置信度阈值,筛选掉置信度较低的预测框,本例中设置置信度阈值为0.5。在经过置信度阈值的第一波筛选之后,仍存在有多个预测框准确预测一个损伤目标的情况,因此采用nms极大值抑制算法,当存在多个重合度较高的预测框重叠在一起,即iou高于某一阈值时,则将置信度较低的预测框抑制,本例中nms的iou阈值设置为0.8。将剩余的预测数组经过映射则可得到置信度、损伤的类型、以及预测框的大小和位置。
[0084]
1、精度对比:将原始的yolov3、基于mobilenetv2的yolo、基于mobilenetv3的yolo和mdcn进行对比,以map作为模型预测精度的判定标准,map越高,则代表该模型的精度越高,如图6和表1所示。
[0085][0086][0087][0088][0089]
其中,tp:被模型预测为正类的正样本,即iou》0.5的检测框的数量,tn:被模型预测为负类的负样本,即iou≤0.5的检测框的数量,fp:被模型预测为正类的负样本,fn:被模型预测为负类的正样本。r是recall的缩写。
[0090]
表1 各模型精度对比统计表
[0091][0092][0093]
2、速度对比:将原始的yolov3、基于mobilenetv2的yolo、基于mobilenetv3的yolo和mdcn进行对比,以fps和parameters的作为模型轻量化的判定标准。
[0094]
如表2所示,其中,fps表示该模型单位时间内处理的图片的数量,parameters表示模型训练后得到的权重大小。fps越高,parameters越小,则代表该模型越轻量化。
[0095]
表2 各模型速度对比统计表
[0096][0097]
根据上述对比可以看出,mdcn模型同时兼顾了高精度和轻量化的特点,适合部署在内存小、储存空间小、计算能力较弱的移动终端。
[0098]
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献