一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种通过多路紧凑传输网络进行轮廓增强的道路分割方法与流程

2022-03-01 22:11:05 来源:中国专利 TAG:


1.本发明涉及图像分割领域,具体是一种通过多路紧凑传输网络进行轮廓增强的道路分割方法。


背景技术:

2.道路分割是遥感图像(rsi)处理中的一项基本技术。该技术在智能交通系统(its)、道路监控、gps车辆导航、红外搜索与跟踪等领域有着大量的应用。例如,在its中,地图绘制对精确的道路信息有着巨大的需求,因此需要一种更快速、更精确的道路分割方法。然而,尽管道路分割的研究已经开展了几十年,但其解决方法尚未达到令人满意的水平。在传统的基于分类、形态学和动态规划的方法中,参数的选取直接影响模型的分割结果,导致模型的泛化能力不足。
3.随着卷积神经网络(cnn)在图像分割领域的重大成就,2015年以后基于cnn的方法逐渐在道路分割领域占据主流地位,利用深度学习方法进行分割任务的研究源于全卷积网络(fcn),由卷积层和池化层组成的fcn可以实现任意大小的输入。它还实现了端到端和像素到像素的训练,并学习从像素到像素的映射来预测一幅图像的每个像素。但是,fcn的分割结果不能很好地确定物体的具体轮廓。因此,还有一些其他的改进,如生成对抗网络、浅层卷积神经网络、深层卷积神经网络和递归神经网络等。虽然这些方法在原有的基础上有所创新,解决了一些实际问题,但也出现了新的问题。
4.目前,基于深度学习的道路分割方法仍存在一些问题:光谱值异常、遮挡导致的道路特征破碎和类内不一致,例如,光谱值异常最常见的现象是同一类型的对象但具有不同的光谱值。具体而言,rsi中道路在天气或光照条件变化时表现出不同的光谱特征。这个问题会导致道路识别的错误。此外,遮挡还会造成道路结构信息的丢失。在间接遮挡图像中,道路只被误识。在直接遮挡图像中,道路的结构信息被破坏较多,会造成较高的错误率。此外,类内不一致性在分割结果中往往表现为噪声,这是由rsi分辨率大幅提高引起的。在高分辨率rsi中,低分辨率的未识别区域将更加清晰。例如,未识别区域中包含的高亮度区域、边缘和像素级噪声会干扰道路识别过程。


技术实现要素:

5.本发明提供一种通过多路紧凑传输网络进行轮廓增强的道路分割方法。提出的网络是一种高效的编码器-解码器结构。为了增强语义细节的相关性,在其中设计了dcfb和nsb两个模块。此外,为了保持细化的空间细节,选择u-net作为基本网络。
6.为了实现上述目的,本技术技术方案如下:
7.一种通过多路紧凑传输网络进行轮廓增强的道路分割方法,包括:
8.使用公开数据集并对该数据集中的图片进行预处理,获得训练数据集;
9.采用训练数据集训练构建的图像分割模型,所述图像分割模型包括编码器、上下文传输路径和解码器,所述编码器包括依次连接的多个阶段多路径编码模块,所述上下文
传输路径包括分别与所述多路径编码模块连接的密集连接融合块,所述解码器包括分别与所述密集连接融合块连接的噪声抑制块,以及与所述噪声抑制块连接的特征融合模块,所述编码器的最后一个阶段的多路径编码模块的输出还经过全局池化后接入到同一个阶段的噪声抑制块和特征融合模块,各个阶段所述特征融合模块的输出接入到前一个阶段的噪声抑制块和特征融合模块;
10.将待分割图片输入到训练好的图像分割模型,输出分割结果。
11.进一步的,所述多路径编码模块的输入经过第一路径、第二路径和第三路径,三个路径的输出融合后,再经过1
×
1卷积、batchnorm、leakyrelu激活函数后输出,所述第一路径用于保持道路光谱特征的位置不变性和旋转不变性,所述第二路径用于防止网络梯度爆炸或消失,所述第三路径用于将光谱特征与其他特征关联起来。
12.进一步的,所述编码器的最后一个阶段的多路径编码模块的输入经过第一路径和第二路径,二个路径的输出融合后,再经过1
×
1卷积、batchnorm、leakyrelu激活函数后输出,所述第一路径用于保持道路光谱特征的位置不变性和旋转不变性,所述第二路径用于防止网络梯度爆炸或消失。
13.进一步的,所述第一路径为poolpath,依次包括1
×
1卷积、batchnorm、leakyrelu激活函数和maxpool;所述第二路径为respath,包括一个resnet_18模块;所述第三路径为convpath,包括卷积核和batchnorm。
14.进一步的,所述第三路径的卷积核随着所处阶段依次减小。
15.进一步的,所述密集连接融合块包括第一融合模块fp1、dp模块和第二融合模块fp2;所述第一融合模块fp1将当前阶段的信息与上一阶段的信息进行合并;所述dp模块包括三个相同的组件,每个组件包括卷积核、batchnorm和relu激活函数,在组件之间采用短路径连接;所述第二融合模块fp2用于特征输出,输出ouput1和ouput2,分别输出到当前阶段的噪声抑制块和下一阶段的密集连接融合块。
16.进一步的,所述噪声抑制块包括空间注意力阶段和通道噪声抑制阶段,所述空间注意力阶段先对上下文传输路径的输出依次进行1*1卷积、leakyrelu激活函数、3*3卷积和sigmoid处理生成空间注意图,将空间注意力图与上一阶段噪声抑制块输出相乘融合,输出到通道噪声抑制阶段;所述通道噪声抑制阶段对输入的特征经过avgpool和sigmoid处理,然后与输入的特征经过相乘融合,再与输入的特征经过相加融合作为最终的输出。
17.本发明提出了一种通过多路紧凑传输网络进行轮廓增强的道路分割方法,首先,使编码器能够聚合各个阶段的内部信息,提取道路光谱特征,引入mpem来克服编码器的不足。此外,还提出了一种隐式引导dcfb,它通过短路径补偿轮廓特征的丢失,利用浅层信息的引导恢复遮挡区域。最后,nsb建立特征通道和特征空间关系进行噪声去除。通过这三个模块,网络弥补了语义传输的不足,进一步细化了道路轮廓特征,提高了道路分割结果的准确性。为克服单路特征提取的不足,采用多路径编码模块(mpem)对多路径编码结果进行集成,同时提高编码器的鲁棒性和算法的容错性。设计传输紧凑的稠密连接融合块(dcfb)来融合各个阶段的语义和空间信息,以提高网络的障碍识别能力。为了减少噪声的产生,进一步映射通道和空间全局信息来选择最优特征,设计噪声抑制块(nsb)。
附图说明
18.图1为本技术通过多路紧凑传输网络进行轮廓增强的道路分割方法流程图;
19.图2为本技术图像分割模型结构示意图;
20.图3为多路径编码模块的结构图;
21.图4为密集连接融合块的结构图;
22.图5为噪声抑制块的结构图。
具体实施方式
23.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅用以解释本技术,并不用于限定本技术。
24.本技术提供了一种通过多路紧凑传输网络进行轮廓增强的道路分割方法,如图1所示,包括:
25.步骤s1、使用公开数据集并对该数据集中的图片进行预处理,获得训练数据集。
26.训练图像来源于公开可用于道路分割的数据集:massachusetts road dataset与deepglobe dataset。在训练之前,对该数据集中的图片进行数据增强的处理,具体采用的数据增强方法包括图片的随机切割、垂直翻转、水平翻转、填充以及图片尺寸归一化,最后将其分为训练集和测试集。
27.步骤s2、采用训练数据集训练构建的图像分割模型,所述图像分割模型包括编码器、上下文传输路径和解码器,所述编码器包括依次连接的多个阶段多路径编码模块,所述上下文传输路径包括分别与所述多路径编码模块连接的密集连接融合块,所述解码器包括分别与所述密集连接融合块连接的噪声抑制块,以及与所述噪声抑制块连接的特征融合模块,所述编码器的最后一个阶段的多路径编码模块的输出还经过全局池化后接入到同一个阶段的噪声抑制块和特征融合模块,各个阶段所述特征融合模块的输出接入到前一个阶段的噪声抑制块和特征融合模块。
28.本技术图像分割模型网络主干结构为编码器、上下文传输路径和解码器结构,输入图片将经过每一阶段的编码,编码后的特征除了用于下一阶段的编码,还经过上下文传输路径发送给解码器用于指导网络的解码,最终编码后的图像经过全局池化以融合深层整体特征,并随着解码器进行解码,输出分割后的图像。
29.如图2所示,最上层为编码器encoder,中间层(context transmission pathway)为上下文传输路径,最下层为解码器decoder。
30.编码器包括依次连接的多个阶段的多路径编码模块mpem,在一个优选的实施例中,最后一个阶段的多路径编码模块为简单多路径编码模块mpem_d。在图2中,编码器包括5个阶段的多路径编码模块,s1~s5分别表示各个阶段,由低级阶段到高级阶段。
31.本技术所述编码器采用多路径编码模块(multi-path encoding module,mpem),所述mpem位于网络编码器的每个阶段的开始,mpem_d为其的衍生。
32.如图3所示,本技术图像分割模型采用mpem作为主要编码器,的输入经过第一路径、第二路径和第三路径,三个路径的输出融合后,再经过1
×
1卷积、batchnorm、leakyrelu激活函数后输出,所述第一路径用于保持道路光谱特征的位置不变性和旋转不变性,所述
第二路径用于防止网络梯度爆炸或消失,所述第三路径用于将光谱特征与其他特征关联起来。mpem_d的输入经过第一路径和第二路径,二个路径的输出融合后,再经过1
×
1卷积、batchnorm、leakyrelu激活函数后输出,所述第一路径用于保持道路光谱特征的位置不变性和旋转不变性,所述第二路径用于防止网络梯度爆炸或消失。
33.具体的,mpem模块包括三条路径poolpath、respath和convpath。poolpath使网络在运行到较高阶段时保持了道路光谱特征的位置不变性和旋转不变性,使用卷积层修改特征通道数,再对其进行最大池化操作,然后输出光谱位置特征,池化路径使网络在运行到较高阶段时保持道路光谱特征的位置不变性和旋转不变性。convpath将光谱特征与其他特征关联起来,针对编码后不同大小的特征图,选择使用不同大小的感受野来提取特征,最终输出的特征则更为详细的包含光谱特征与其他特征的全局信息。respath用于防止网络梯度爆炸或消失,使用resnet_18的网络架构,其参数权值由imagenet预先训练,可以达到更快的收敛速度,赋予网络一定的容错性。
34.其中poolpath包括:1
×
1卷积、batchnorm、leakyrelu激活函数和maxpool。采用1
×
1卷积核来增加图像通道,这种操作增加了通道融合中道路谱特征的比例,补偿了编码后丢失的光谱特征。batchnorm对训练的参数做归一化。由于防止权重和偏置参数此次无法得到更新,本技术使用leakyrelu激活函数。最后,利用maxpool进行下采样,得到输入图像的缩略图,保留道路光谱特征的位置。
35.其中convpath包括:卷积核和batchnorm。卷积核随着所处阶段依次减小,即卷积核在低级阶段,使用大的感受野卷积来获得更全面的全局特征信息;在高级阶段,小的感受野卷积被用来获得更多的局部和细节特征。本模型阶段如图2所示,因此,该路径使用核7
×
7,5
×
5,3
×
3,2
×
2从低级到高级的不同卷积,并且在该路径结束之前,使用batchnorm。该路径的目的是提取更详细的全局信息。对于第五阶段的mpem_d,为了追求稳定性,去除了该convpath路径。
36.其中respath包括:resnet_18模块,使用resnet_18的网络架构,其参数权值由imagenet预先训练,可以达到更快的收敛速度。因此,预训练的参数赋予网络一定的容错性。
37.三条路径poolpath、respath和convpath的输出融合后,再经过1
×
1卷积、batchnorm、leakyrelu激活函数后输出。
38.由于最大池化会使得特征图尺寸缩小,但convpath、respath使用不同核也会使特征图尺寸同等程度的缩小。所以每个路径的输出可以通过“c”级联融合在一起。对级联后的特征采用1
×
1卷积处理,在输出之前采取同上的batchnorm与leakyrelu。该操作实现信息的跨通道交互和融合,减少卷积通道的数量和后续计算量。
39.在编码器中本技术模型使用mpem,它结合了多路径的结果,收集了每个阶段的编码特征。mpem不仅弥补unetppl这种方法忽略了每个阶段的内部语义特征与使得这些特征相对独立的缺点,使各个阶段的内部语义特征信息相互关联,还提高对需要更多内部关联特征的道路支路识别。
40.最终编码后的图像经过全局池化(global model)以融合深层整体特征,并随着解码器进行解码,输出分割后的图像。
41.现有技术中的u-net只向解码器传输编码特性,没有对编码和解码特性进行任何
处理。这不仅忽略了阶段间空间信息的相关性,而且无法准确提取道路边缘的细节信息。这些都是会导致道路分割结果出现断裂的可能原因。而在a-denseunet中,上下文传输路径被重新设计,以构建自适应网络并将丢失的特征传递给解码器。本技术上下文传输路径,采用密集连接融合块(densely connected fusion block,dcfb),所述dcfb位于本阶段的编码器与解码器的之间,dcfb分别对应连接解码器的nsb与下一阶段的dcfb,dcb与dcfb_1均为其的衍生。
42.如图4所示,本技术图像分割模型采用dcfb作为主要上下文传输路径部分,融合上下文信息为解码器提供指导:所述密集连接融合块包括第一融合模块fp1、dp模块和第二融合模块fp2;所述第一融合模块fp1将当前阶段的信息与上一阶段的信息进行合并;所述dp模块包括三个相同的组件,每个组件包括卷积核、batchnorm和relu激活函数,在组件之间采用短路径连接;所述第二融合模块fp2用于特征输出,输出ouput1和ouput2,分别输出到当前阶段的噪声抑制块和下一阶段的密集连接融合块。
43.dcfb的稠密部分(dp)采用短路径,通过补偿输入源中轮廓特征的丢失来增强道路的轮廓特征。融合部分(fp1、fp2)利用深度语义信息对浅层丢失的道路特征信息进行补偿,恢复被遮挡区域,增强道路的完整性。为了紧凑地传输上下文特征,将特征映射输出下一阶段的dcfb和当前阶段的nsb。
44.dp由三个相同的组件组成,每个组件中的特征由内部3
×
3卷积提取,组件中还包含用于修正的batchnorm与relu。dp的输入特征也通过短路径在组件之间反复使用。短路径使特征紧凑传输,每个组件直接访问来自原始输入信号的梯度生成隐式引导。
45.考虑到全局图像特征,dcfb还利用浅层信息补偿深层信息中缺失的空间信息,使网络能够更好地识别道路周围的空间信息,优化道路连接的缺陷。fp1模块将当前阶段的信息与上一阶段的信息进行合并。fp1从输入的角度在不同阶段进行信息融合。fp2用于特征输出,ouput2在输出前使用1
×
1卷积、maxpool确保output2的大小和通道数与下一个dcfb输入特性相同。ouput1和ouput2分别用于当前阶段的nsb和下一阶段的dcfb。
46.在输入部分,dcb只有当前阶段特征,位于第一阶段的上下文传输路径,而dcfb_1的输出部分只有ouput1,为第五阶段上下文传输路径。
47.现有的解码器部分如ric-unet采用了通道注意机制,将不同分辨率的特征结合起来。这种机制只关注信道信息而忽略空间信息,导致道路分割结果中残留部分噪声。本技术编码器采用噪声抑制块(noise suppression block,nsb),所述nsb位于上阶段解码操作之后。
48.如图5所示,本技术图像分割模型采用噪声抑制块nsb作为解码辅助部分,对反卷积后的图像进行噪声的抑制,可以通过信道和空间抑制功能充分抑制噪声,选择性增强所需特征,而忽略干扰信息。
49.所述噪声抑制块包括空间注意力阶段和通道噪声抑制阶段,所述空间注意力阶段先对上下文传输路径的输出依次进行1*1卷积、leakyrelu激活函数、3*3卷积和sigmoid处理生成空间注意图,将空间注意力图与上一阶段噪声抑制块输出相乘融合,输出到通道噪声抑制阶段;所述通道噪声抑制阶段对输入的特征经过avgpool(池化)和sigmoid处理,然后与输入的特征经过相乘融合,再与输入的特征经过相加融合作为最终的输出。
50.nsb的空间噪声抑制利用浅层传输的空间特征信息,解码后恢复缺失的特征图空
间,加强道路空间信息之间的联系,消除离散噪声。然后nsb的通道噪声抑制机制映射通道中的全局特征,选择特征最好的通道。结合这两部分,nsb不仅抑制了图像噪声,而且增强了类内一致性。空间噪声抑制利用上下文传输特征生成空间注意图,有助于网络聚焦重要空间位置,抑制空间噪声,突出道路信息。1
×
1卷积将上下文传输特性平坦化,与3
×
3与leakyrelu用于修正。sigmoid激活函数生成空间注意图。基于空间上下文信息对空间噪声进行抑制,然后等待通道噪声抑制处理。
51.通道噪声抑制计算通道注意图,并为更有用的通道分配更高的权值。这就建立了特征映射与通道信息之间的关系。利用全局池化将单个通道编码为单个特征。sigmoid激活函数获取通道注意图。通道噪声抑制功能将通道注意力图与空间噪声抑制输出的特征相结合,保证所需通道具有较高的权重。
52.本技术图像分割模型采用并行多路编码结构的多路径编码模块(mpem)来解决谱值异常问题,提出一个贯穿整个网络紧密传输的密集连接融合块(dcfb),来解决遮挡问题。建立噪声抑制块(nsb),进一步映射通道和空间全局信息来选择最优特征,减少噪声的产生,来解决类内不一致问题。
53.在本技术中,道路分割可以被看作是一个二元分类问题。因此,损失函数采用了二元交叉熵,它描述了地面实况和模型输出之间的差异。二元交叉熵定义为:
[0054][0055]
其中n表示图像的数量,yi代表ground truth,是网络的实际输出。
[0056]
步骤s3、将待分割图片输入到训练好的图像分割模型,输出分割结果。
[0057]
在训练好图像分割模型后,就可以将待分割图片输入到训练好的图像分割模型,解码器输出的图,就是分割结果。
[0058][0059]
表1为不同道路提取方法在deepglobe数据集上的实验结果。
[0060]
通过对deepglobe数据集的实验数据对比,本技术提出的网络结构在大多数度量指标上都取得了较好的效果。更直观地说,ours的preision、f1-score和iou分别比最新的scroadextractor高0.14%、1.95%和1.6%。在道路分割任务中,我们可以清楚地看到,采用双解码器结构的网络的度量并不比采用单解码器结构的更好。此外,mctc-net的precision、f1-score和iou分别比weaklyos高8.53%、6.54%和7.03%。此外,本技术提出的网络结构在precision、f1-score和iou方面优于scribblesup、bpg和wsod。通过比较编码器-解码器结构(scroadextractor和weaklyos)与非编码器-解码器结构(scribblesup、bpg和wsod),显然编码器-解码器结构在道路分割任务中表现更好,也证明了全图像语义更有助于道路分割。
[0061][0062]
表2为不同道路提取方法在马萨诸塞州数据集上的实验结果。
[0063]
为了检验网络的泛化性,在马萨诸塞州数据集上展示了道路提取结果,本技术的recall、precision和f1-score分别比denseunet高2.28%、1.05%和1.13%。认为dcfb模块可能会发挥作用。此外,本网络的的recall、precision和f1-score分别比最新的ct-unet高0.23%、1.9%和0.88%。可以认为多路径编码mepm比单路径编码器更适合于道路分割任务。mepm中的多路径编码可以收集每个阶段的内部语义特征,同时,单路径编码器可能忽略一些光谱信息。事实上,最简单的u-net在recall、precision和f1-score上分别只能达到64.28%、77.98%和69.62%。mctc-net表现最好,在这3个指标上也分别比u-net高出8.41%、1.32%和5.58%,这意味着本技术网络具有较强泛化能力的不仅可以处理简单场景,还可以处理复杂场景。
[0064]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献