一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于多尺度条形空洞卷积的图像语义分割方法、设备和介质

2022-06-05 19:21:00 来源:中国专利 TAG:


1.本发明属于深度学习及机器视觉领域,具体涉及一种基于多尺度条形空洞卷积的图像语义分割方法、设备和介质。


背景技术:

2.语义分割的目的是为图像中的不同类别的物体进行分割,并且给以语义信息,使得不同种类的物体在图像中被区分开来,可以理解为像素级别的分类任务。语义分割可以应用于许多场景,比如自动驾驶、服装分类、医学图像分析等。
3.随着全卷积网络fcn的提出,语义分割掀起一股卷积池化操作的热潮,但是经过反卷积、上采样操作的过程会使图像丢失许多细节信息和上下文信息。许多文章提出考虑多尺度信息来进行语义分割。为获取全局上下文信息,pspnet提出金字塔池化模块来聚合基于不同区域的上下文信息,该模块包含了不同尺度,不同区域间的信息。而为同时兼顾图片的环境信息与细节信息,提出了经典的模型u-net网络,采用下采样逐渐展现环境信息,而上采样过程结合各层信息来还原细节信息,提高了分割精度。但是其本质上仍然是 encoder-deconder模型的结构的继承。deeplab系列的出现,带来了空洞卷积的方法,卷积层引入了一个“扩张率(dilation rate)”的新参数,扩大了模型的感受野,使其能够感受到更大范围下的特征信息。而为了解决同一图片的不同物体被同等对待的问题及某些目标受光照,遮挡等因素不够显著的问题,danet提出了双注意力机制,分别从空间和通道上引入全局信息,将局部特征和全局特征的依赖性自适应地整合在一起。考虑到每个通道的重要程度有所差别,senet网络提出了压缩与激发模块,在降低计算量的同时通过两层全连接结构给特征图的每个通道赋予权值,有选择性地强调相互依存的通道图,整合所有通道之间的关联特征,得到通道之间的依赖关系。为了提升条状物体的分割精度,捕获广泛存在于现实场景中的各向异性的上下文灵活性,spnet提出了条状池化模块,与传统的方形池化窗口有所区别,条状池化能够捕获孤立区域的长距离关系,并且可以减少不相关区域的干扰信息污染。
4.现有技术存在一些缺陷:方形的池化导致图片中大量存在的条状物体分割效果不佳,场景分割中往往存在许多条形的目标分割物体,方形的窗口会带来许多污染信息。如网络模型deeplab中,虽然利用了多尺度信息,但是因为均是方形的卷积池化窗口,对于条形物体的分割效果不佳。而在另一方面,网络模型spnet采用条形池化对条形物体的分割效果有一定的提升,但是由于单一的条形池化尺度,对于图片中的各种不同尺度的物体无法得到权衡,同时由于单一尺度的条形池化,会给将无关的信息杂糅到池化窗口,对分割效果带来一定的无关信息的污染。


技术实现要素:

5.针对现有技术的以上缺陷或改进需求,本发明的目的在于提供一种解决现有适用于语义分割的卷积神经网络,对于多尺度条形物体分割效果不佳的多尺度融合的条形空洞
卷积神经网络的语义分割方法、设备及介质。
6.为了实现上述技术目的,本发明的技术方案是,
7.一种基于多尺度条形空洞卷积神经网络的图像语义分割方法,包括以下步骤:
8.步骤1:搭建神经网络模型框架;
9.所述的神经网络模型框架包括主干网络特征提取模块和多尺度条形空洞卷积模块;通过将属于主干网络特征提取模块中间层的多个不同层的输出特征图,分别输入条形空洞卷积模块,从而进一步提取多尺度信息;然后分别经过一个一维卷积调整通道数,再采用双线性插值法扩张尺寸以恢复原图尺寸大小,最后融合得到最终的结果;
10.步骤2:对带标签图片的数据集进行预处理以扩充图片数量并统一大小,然后基于这些图片训练神经网络模型,直至训练完成;
11.步骤3:将待识别的图片输入训练完成的神经网络模型中,得到识别结果。
12.所述的方法,所述的步骤1中,主干网络特征提取模块是基于现有backbone主干网络构成。
13.所述的方法,所述的步骤1中,条形空洞卷积模块包括:
14.两条平行的路径、融合操作层和相乘操作;
15.所述的两条平行的路径均包括条形池化层、卷积层、条形空洞卷积层和expand层,
16.其中一条路径为水平池化路径,其中条形池化层的窗口为1
×
w,以将原大小为c
×hꢀ×
w的输入张量变为c
×h×
1,其中c是通道数,h是图片的高,w是图片的宽,卷积层包括大小为3
×
1的卷积核,条形空洞卷积层包括大小为3
×
1、空洞率为2的空洞卷积核,expand层使输出张量的大小回复为与输入张量一致;
17.另一条路径为垂直池化路径,其中条形池化层的窗口为h
×
1,条形空洞卷积层中的空洞卷积核大小为1
×
3,其他与水平池化路径一致;
18.输入张量同时进入两条平行路径分别处理,两条路径的输出张量再经过融合操作层和相乘操作得到最终输出结果。
19.所述的方法,所述的条形空洞卷积模块中的融合操作层是将两条平行路径的输出张量相同位置的元素相加,所述的相乘操作层是将融合后的输出张量再与原输入张量相同位置的元素相乘。
20.所述的方法,所述的步骤2中,预处理包括对图片的旋转、缩放、裁剪和翻转来得到不同的图片以扩充数据集中图片数量,然后通过缩放和裁剪来统一图片尺寸。
21.所述的方法,所述的步骤4中训练神经网络模型,是采用自适应学习的方法训练神经网络模型,将交叉熵损失作为损失函数;其中自适应学习的数学表达式为:
[0022][0023]
其中current_rate为当前学习率,initial_rate为初始学习率,current_step为当前迭代步数,max_step为最大迭代步数,power是动量;
[0024]
所述的交叉熵损失的表达式为:
[0025][0026]
其中y是真实值即图片已有的标签,是预测值,log为对数。
[0027]
一种电子设备,包括:
[0028]
一个或多个处理器;
[0029]
存储装置,用于存储一个或多个程序,
[0030]
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现所述的方法。
[0031]
一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现所述的方法。
[0032]
本发明的技术效果在于:
[0033]
(1)本发明采用的图像预处理操作不仅提高了模型的精度,而且增强了模型的稳定性,能够防止过拟合。
[0034]
(2)本发明针对单一尺度的条形池化窗口对于多尺度条形分割目标分割效果不佳的问题,设计了在主干网络的多个中间层后加入条形空洞卷积模块,进而有益于多尺度物体的分割,提高了语义分割的准确性。
[0035]
(3)本发明设计的条形空洞卷积模块中的条形空洞卷积操作,在不增加计算量的同时增大感受野,并且在通过空洞卷积操作减少无关信息的污染,提高模型的分割效果。
[0036]
(4)采用多路径融合方式的优点是可以融合多方面信息,凸显重要信息。
[0037]
(5)本发明在条形空洞卷积模块,通过条形空洞卷积操作层之后将其结果与输入张量相乘,得到一个重点信息的进一步突出,有利于分割效果的提升。
附图说明
[0038]
图1为本发明的神经网络模型结构图。
[0039]
图2为本发明的总体流程图。
[0040]
图3为本发明的条形空洞卷积模块示意图。
[0041]
图4为本发明所述的条形空洞卷积模块加入到resnet-101不同层的分割效果图。
[0042]
图5(a)为4张图片的原图。
[0043]
图5(b)为4张图片的标签图。
[0044]
图5(c)为4张图片的基于spnet的分割效果图。
[0045]
图5(d)为4张图片的本发明神经网络框架下的分割效果图。
具体实施方式
[0046]
下面结合附图对本发明做进一步的描述。
[0047]
为了使本发明的目的、技术方案及优点更加清楚明白,结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体试试例仅仅用于解释本发明,并且不用于限定本发明。
[0048]
如图1所示为本实施例的神经网络模型结构图,本实施例中采用的backbone主干网络为resnet-101,实际应用时,也可采用如resnet-50、mobilenet、xception等主干网络。
[0049]
在图1所示的神经网络模型结构图中包括resnet-101的各层操作、条形空洞卷积模块、一维卷积层、上采样模块。
[0050]
如图2所示为本实施例的流程示意图,主要包括以下几个步骤:1)数据集的下载和
时,学习率衰减速率由快到慢。本实施例即采用自适应学习率的方法训练本发明的神经网络模型。自适应学习率的表达式为:
[0064][0065]
其中,current_rate为当前学习率,initial_rate为初始学习率,current_step为当前迭代步数,max_step为最大迭代步数,power是动量,设置为0.9,初始学习率设为5e-4。
[0066]
本实施例采用简单的交叉熵损失作为损失函数,其数学表达式为;
[0067][0068]
其中y是真实值,是预测值。
[0069]
s4、本实施例还对于分割的效果图进行了评估,采用平均像素交叠率(miou)来进行评估。对每个类别预测的结果和真实值的交集与并集的比值,求和再平均的结果。
[0070][0071]
其中,i表示真实值,j表示预测值,p
ij
表示将i预测为j的概率。
[0072]
根据交叉熵损失值和miou的值,针对分割效果图做出分析。
[0073]
根据本发明的实施例,本发明还提供了一种电子设备和一种计算机可读介质。
[0074]
其中电子设备,包括:
[0075]
一个或多个处理器;
[0076]
存储装置,用于存储一个或多个程序,
[0077]
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现前述的方法。
[0078]
具体使用中,用户能够通过作为终端设备的电子设备并基于网络来与同样作为电子设备的服务器进行交互,实现接收或发送消息等功能。终端设备一般是设有显示装置、基于人机界面来使用的各种电子设备,包括但不限于智能手机、平板电脑、笔记本电脑和台式电脑等。其中终端设备上根据需要可安装各种具体的应用软件,包括但不限于网页浏览器软件、即时通信软件、社交平台软件、购物软件等。
[0079]
服务器是用于提供各种服务的网络服务端,如对收到的从终端设备传输过来的图片提供相应语义分割服务的后台服务器。以实现对接收到的图片进行语义分割,并将最终的语义分割结果返回至终端设备。
[0080]
本实施例所提供的语义分割方法一般由服务器执行,在实际运用中,在满足必要条件下,终端设备亦可直接执行语义分割。
[0081]
类似的,本发明的计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例的语义分割方法。
[0082]
图1为本发明的神经网络模型结构图。图2为本实施例的总体流程图。图3为本实施例的条形空洞卷积模块示意图;图4为本实施例所述的条形空洞卷积模块加入到resnet-101 不同层的分割效果图;图5(a)为4张图片的原图;图5(b)为4张图片的标签图;图5(c)为4 张图片的基于spnet的分割效果图;图5(d)为4张图片的本发明神经网络框架下的分割效
果图。
[0083]
通过分割效果图可以看出,本发明使用的神经网络框架分割出来的效果图精确度更高一些,表明本发明采用的网络结构可以进一步提高分割效果。
[0084]
本实施例采用的图像预处理操作能够防止模型过拟合,同时提高模型的适应能力。针对图像中存在的多尺度目标分割物体,采用了将条形空洞卷积模块加入到resnet-101的后三层的操作,提取多尺度信息;本发明设计的条形空洞卷积模块,能够在不增加计算量的同时增加感受野,同时减少像素杂糅进周围无关信息给带来不必要的污染;针对网络层数增加,边缘细节信息损失严重的问题,采用将resnet-101的第二层信息加以融合,保留边缘细节信息。
[0085]
以上所述,仅为本发明较佳的具体实施方式,但本发明保护的范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及本发明构思加以等同替代或改变,都应涵盖在本发明的保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献