一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于边缘梯度导向插值的deplabv3+语义分割方法

2022-08-13 10:19:42 来源:中国专利 TAG:


1.本发明属于智能算法、深度学习技术领域,特别是涉及一种基于边缘梯度导向插值的deplabv3 语义分割方法。


背景技术:

2.图像语义分割是计算机视觉领域的重要组成部分,就是将图像中每一个像素分类到其所属的语义类别中,目前在图像语义分割领域,deeplab系列的语义分割模型可以说占据了较为主流的地位,其中较为成熟的是以编码-解码结构为基础的deeplabv3 网络模型;deeplabv3 网络的解码器使用双线性插值进行上插值,而双线性插值仅考虑了四个直接邻点灰度值忽略了各邻点间的影响导致图像物体边缘部分丢失像素点信息,致使物体边缘语义分割精度受损;目前有越来越多的研究者为提高deeplabv3 的语义分割精度进行了相关研究,有通过计算图像梯度比率从而改进图像插值方法,但却没有对物体边缘的分割做进一步研究,也有使用拉普拉斯滤波器放大图像的边缘从而锐化边缘图像,提高插值后的图像质量,但图像物体仍存在模糊边缘。
3.图像插值的主要任务就是恢复图像边缘和纹理,并且尽可能的抑制模糊,传统的线性图像插值方法会在插值过程中产生严重的图像细节模糊和边缘锯齿的情况;为了提高图像恢复边缘细节的能力,所使用的方法各种各样,有用梯度比率计算的lgrp算子获得了图像在局部特征中的抗噪声能力,提高不同姿态下的变换后的图像质量;有的用衰减函数替代了传统的非极大抑制(nms)贪心算法,提高了重叠目标的检出率;有的将边缘梯度信息与空间聚类相结合提出一种能提高图像分割精度的的自动分割算法,有使用拉普拉斯滤波器放大图像的边缘,用模糊的边缘进行差值计产生锐化边缘图像,从而提高插值后的图像质量;但上述方法在边缘物体检测与分割上仍然有一定的缺陷;因此本发明公开的方法,提出法一种基于边缘梯度导向插值的deplabv3 语义分割方法,对于deeplabv3 语义分割模型具有重要意义。


技术实现要素:

4.本发明的目的在于提供一种基于边缘梯度导向插值的deplabv3 语义分割方法,以解决上述背景技术中提出的问题。
5.为解决上述技术问题,本发明是通过以下技术方案实现的:
6.本发明为一种基于边缘梯度导向插值的deplabv3 语义分割方法,其特征在于,步骤如下:
7.s1:使用高斯模糊进行降噪,在进行边缘检测之前首先要对原图像进行高斯滤波,减少噪声对边缘检测的影响;
8.s2:采用sobel算子对模糊后的图像分别求x方向与y方向的梯度,可以得到总的梯度图像即检测到的边缘图,也就是低分辨率图像的梯度;
9.s3:提最后分别对x和y方向实行双三次插值,从而得到高分辨率图像的初始梯度;
10.s4:用边缘梯度导向插值算法来替换deeplabv3 网络模型解码器中的双线性插值,并使用voc 2012数据集验证算法的有效性。
11.进一步地,s1中首先使用高斯滤波对输入图像进行降噪以减少噪声对边缘检测的影响,在这里使用的是5
×
5的滤波窗口,滤波窗口如下:
[0012][0013]
进一步地,s2中采用sobel算子对模糊后的图像分别求x方向与y方向的梯度,可以得到总的梯度图像即检测到的边缘图;
[0014]
s200:记真实图像为函数f(x,y),则f(x,y)在像素点(x,y)的梯度为其中g
x
、gy分别表示x方向和y方向的梯度分量,则有:
[0015][0016]
s201:图像梯度的幅值记为其计算公式有:可以简化为:
[0017]
图像中,梯度矢量的方向角θ(x,y),则有
[0018]
对于数字图像f(x,y)其像素点都是离散分布的,因此可以表示为数据集合可以表示为
[0019][0020]
s202:在像素点(i,j)处,沿着x和y方向的一阶差分计算公式为:
[0021][0022]
梯度计算模板如下所示,其中g
x
表示水平方向的梯度模板,gy表示竖直方向的梯度模板;
[0023][0024]
根据计算各个点的梯度方向,从而得到低分辨率图像的梯度
[0025]
进一步地,所述s3中分别对x和y方向实行双三次插值,从而得到高分辨率图像的初始梯度
[0026]
s300:双三次插值是同时考虑了四个相邻的像素图像的强度的影响和图像强度变化率的影响,以待估计点所在位置为中心,已知像素数目为4
×
4的邻域窗口内容的16个像素图像强度完成插值计算,三次多项式s(t)的数学表达式如式(1)所示,其中t为自变量;
[0027][0028]
s301:双三次插值的基本原理图由图1可得,则得出:
[0029]
a=[g(1 u)g(u)g(1-u)g(2-u)]
[0030][0031][0032]
其中b为邻域窗口内的16个相邻像素点组成的图像像素矩阵,因此双三次插值的具体插值计算方法可定义为:f(i u,i v)=a*b*c。
[0033]
进一步地,所述s4中用边缘梯度导向插值算法来替换deeplabv3 网络模型解码器中的双线性插值,并使用voc 2012数据集验证算法的有效性。
[0034]
本发明具有以下有益效果:
[0035]
本发明通过将边缘梯度导向插值算法来替代原网络解码器中的双线性插值,先用soble算子计算像素点沿不同方向的边缘梯度导向插值得到低分辨率图像,然后使用双三次插值进行插值计算得到变换后的高分辨率图,改善插值后物体边缘部分的图像质量,然后将deeplabv3 语义分割模型中所使用的双线性插值替换成边缘梯度导向插值算法,以此获得更多容易被忽略的图像物体边缘特征信息,提高语义分割的精确度,进而能够有效的提高图像插值质量,以及对语义分割精确度其miou有一定的提高。
附图说明
[0036]
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0037]
图1为本发明的流程图;
[0038]
图2为本发明的双三次插值示意图;
[0039]
图3为本发明的缘梯度示意图;
[0040]
图4为本发明的不同插值算法放大2倍效果图;
[0041]
图5为本发明的不同插值的傅里叶幅度谱示意图;
[0042]
图6为本发明的可视化对比示意图。
具体实施方式
[0043]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0044]
请参阅图1-6所示,本发明为一种基于边缘梯度导向插值的deplabv3 语义分割方法,包括以下步骤:
[0045]
s1:首先使用高斯滤波对输入图像进行降噪以减少噪声对边缘检测的影响。在这里使用的是5
×
5的滤波窗口,滤波窗口如下:
[0046][0047]
s2:具体实施时,在步骤s2中,包括以下具体步骤:
[0048]
采用sobel算子对模糊后的图像分别求x方向与y方向的梯度,可以得到总的梯度图像即检测到的边缘图。
[0049]
s200:记真实图像为函数f(x,y),则f(x,y)在像素点(x,y)的梯度为其中g
x
、gy分别表示x方向和y方向的梯度分量,则有:
[0050][0051]
s201:图像梯度的幅值记为其计算公式有:可以简化为:
[0052]
图像中,梯度矢量的方向角θ(x,y),则有
[0053]
对于数字图像f(x,y)其像素点都是离散分布的,因此可以表示为数据集合可以表示为
[0054][0055]
s202:在像素点(i,j)处,沿着x和y方向的一阶差分计算公式为:
[0056][0057]
梯度计算模板如下所示,其中g
x
表示水平方向的梯度模板,gy表示竖直方向的梯度模板。
[0058][0059]
根据计算各个点的梯度方向,从而得到低分辨率图像的梯度
[0060]
图3(a)至图3(c)为边缘梯度图像,其中图3(a)为水平方向的梯度图,图3(b)为竖直方向的梯度图,图3(c)为图像的梯度图。以此得到低分辨率图像,然后根据x方向的边缘梯度和y方向的边缘梯度使用双三次插值进行图像插值计算得到最后高分辨率图像。
[0061]
s3:具体实施时,在步骤s3中,包括以下具体步骤:
[0062]
s300:双三次插值同时考虑了四个相邻的像素图像的强度的影响和图像强度变化率的影响,以待估计点所在位置为中心,已知像素数目为4
×
4的邻域窗口内容的16个像素图像强度完成插值计算。三次多项式g(t)的数学表达式如式(1)所示,其中t为自变量。
[0063][0064]
s301:双三次插值的基本原理图由图1可得,则令
[0065]
a=[g(1 u)g(u)g(1-u)g(2-u)]
[0066][0067][0068]
s303:其中b为邻域窗口内的16个相邻像素点组成的图像像素矩阵,因此双三次插值的具体插值计算方法可定义为:
[0069]
f(i u,i v)=a*b*c
[0070]
通过以上方式分别对x和y方向实行双三次插值,从而得到高分辨率图像的初始梯度
[0071]
本文的公开方法中选择了经典的几种插值方式来进行对比分析,包括最近邻插值(nearest),双线性插值(bilinear)以及双三次插值(bicubic)。图4(a)至图4(d)为不同插
值算法放大2倍的ssim_map效果图,其中图4(a)为使用的最近邻插值的结果图,图4(b)为使用的双线性插值的结果图,图4(c)为使用的双三次插值的结果图,图4(d)为使用的本文中的公开方法边缘梯度导向插值的结果图。ssim_map,表示加窗后得到的ssim组成的映射矩阵,其中颜色越深表示插值效果越差,颜色越亮表示越好,可以看图像中使用最邻近插值的效果最差,不论是边缘部分还是整体部分,双线性插值的效果有明显的提升,双三次插值的插值效果更好,但对于边缘平滑方面还是有所欠缺,而本文公开的边缘梯度导向算法插值后的图像在整体和边缘部分都有更好的表现力。表1是示例图使用不同的插值方法最后的psnr结果和mssim结果,可以看出两幅示例图使用nearest插值方法的panr最低,其次是bilinear,bicubic,本文算法的panr值为34.24db,是几种插值算法中效果最好的;mssim值本文的公开方法边缘梯度导向插值算法达到了0.9206,也是几种插值算法中效果最好的。
[0072]
本文的公开方法对于边缘梯度导向插值算法的评价指标包括,峰值信噪比(psnr),结构相似性(ssim)。其中峰值信噪比(psnr)有:其中m、n为图像数据的行列数,x
i,j
为原始图像的第i行第j列的像素点值,y
i,j
为待评价图像的第i行第j列的像素点值,则:
[0073][0074]
其中,l是像素点值的动态变化范围,即灰度值,通常为255。
[0075]
结构相似性(structural similarity,ssim)有:其中,γ
x
、γy、δ
x
、δy分别表示原始图像均值、待评价图像的均值,原始图像方差、待评价图像方差,表示原始图像、待评价图像的结构分量,c1和c2均为很小的常数,用于误差修正.
[0076]
psnr反映了待评价图像的逼真度,psnr越高,图像失真越小;ssim是依据待评价图像与原始图像的亮度,对比度之间的相似性,在[0,1]之间,越大表示两张图像之间的结构相似性越高。
[0077]
表1不同插值算法的psnr与mssim值对比
[0078][0079]
s4:用本文的公开方法边缘梯度导向插值算法来替换deeplabv3 网络模型解码器中的双线性插值,并使用voc 2012数据集验证算法的有效性。本文的实验环境主要为gpu2080ti,操作系统64-bit,ubuntu 16.04,cuda10.1,data processing为python3.6,采用主流深度学习框架pytorch来实现。训练过程中学习率衰减采用“poly”,损失函数为逐像素的加权交叉熵损失函数(focal loss)。
[0080]
pascal voc2012是语义分割任务中具有代表性的数据集之一,总共包含20个前景对象类和1个背景类,其中训练集有1464张图像,验证集有1449张图像,测试集有1456张图像。
[0081]
表2可以看出,当使用deeplabv3 时,即其解码器中的双线性插值算法,其miou值为73.53%;当使用本文公开的边缘梯度导向插值算法所提出的插值算法,其miou值达到74.09%,提高了语义分割的精确度,由此可以验证本文的公开方法的有效性。
[0082]
表2 deeplabv3 语义分割模型与本文公开方法miou结果对比
[0083][0084]
为了能够更加直观的观察出从图6(a)至图6(d)为deeplabv3 与本文公开方法可视化对比。其中图6(a)为image原图,图6(b)为原deeplabv3 网络语义分割模型的分割结果,图6(c)为本文公开的基于边缘梯度导向的deeplabv3 语义分割模型的分割结果,可以看出本文公开的方法所得到的分割结果更加精确,有更好的表现力。
[0085]
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0086]
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该本发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献