一种应用于高分辨率遥感图像的端到端语义分割方法与流程

2023-02-10 20:08:24 来源：中国专利 TAG：

1.本发明属于人工智能领域，特别是指一种应用于高分辨率遥感图像的端到端语义分割方法。

背景技术：

2.近年来，随着卫星技术的不断发展，高分辨率遥感图像已经成为了全球区域尺度观测和分析的主要数据源。对高分辨率遥感图像进行语义分割的目的是为了将图像分割成多个具有语义意义的对象并为每个对象分配特定的标签来对图像进行解释。该技术可以广泛地应用于植被覆盖调查、自然灾害检测、环境监测以及城市规划等领域。
3.随着计算成本的降低和大规模数据集的出现，基于卷积神经网络(cnn)的模型通过稀疏表示、权重共享以及池化等方式在大规模数据集中可以表现出比浅层模型更强的分类能力，然而这些模型以原始图像块为输入，输出单个类别概率向量，很难直接地应用于像素级分类的语义分割任务。
4.在这种情况下，全卷积网络模型(fcn)被人们提出，该模型采用了可训练的转置卷积层和逐层上采样策略。此后，基于深度学习的语义分割方法相继被提出，例如引入金字塔池化模块的pspnet和引入空洞空间金字塔池化模块的deeplabv3 ，然而这些方法都很少考虑例如严重的尺度差异和不同对象具有相同光谱现象等这些遥感图像进行语义分割时常出现的具体问题。

技术实现要素：

5.为了解决当前对高分辨率遥感图像进行语义分割时，在处理尺度差异以及获取全局上下文信息方面仍有很大局限性的问题，本发明提出了一种应用于高分辨率遥感图像的端到端语义分割方法。该方法相比于目前最新的语义分割网络模型，可以在分割精度和轻量级之间取得更好的平衡。
6.本发明采用的技术方案为：
7.一种应用于高分辨率遥感图像的端到端语义分割方法，包括以下步骤：
8.步骤1，对高分辨率遥感图像进行归一化，并利用基于残差神经网络的编码器对归一化后的遥感图像进行特征提取；
9.步骤2，构建密集空洞连接金字塔模块，通过水平和竖直方向堆叠不同个数以及不同空洞率的空洞卷积来获取高分辨率遥感图像中的全局语义信息；
10.步骤3，利用slic算法对高分辨率遥感图像进行聚类，计算得到超像素分割图，并计算每个超像素对应的权重矩阵；
11.步骤4，对密集空洞连接金字塔模块输出的特征图进行上采样，使其具有与原始输入的高分辨率遥感图像相同的尺寸；
12.步骤5，将上采样的特征图与权重矩阵进行矩阵相乘，为每个超像素块区域内的特征点赋予相同的权重；
13.完成端到端的语义分割。
14.进一步地，步骤1中，利用基于残差神经网络的编码器对归一化后的遥感图像进行特征提取的具体方式为：在编码器结构内的各个编码块之间引入补偿连接机制，将各个编码器块提取到的图像特征信息进行整合，并剔除掉冗余部分。
15.进一步地，步骤2中，构建的密集空洞连接金字塔模块采用了从任何编码器块到所有后续编码器块的直接连接方式，第l个编码器块能够接收到前面所有编码器块的特征映射，即：
16.f
l
＝h
l
([f1,f2,
···
,f
l-1
])
[0017]
其中，[
·
]分别为编码器块1,2,
···
,l-1中产生的特征图f1,f2,
···
,f
l-1
的串接操作，h
l
为第l个编码器块的函数。
[0018]
进一步地，步骤3中，利用slic算法对高分辨率遥感图像进行聚类的具体方式为：首先利用密集扩张卷积金字塔在水平和垂直方向上叠加不同扩张比的空洞卷积，然后计算得到不同尺度特征下对应的权重矩阵，最后生成得到各个权重矩阵对应的超像素分割图。
[0019]
进一步地，步骤4中，对密集空洞连接金字塔模块输出的特征图进行上采样的具体方式为：首先在编码器和解码器之间引入旁路连接以降低计算复杂度，然后超像素分割图对上采样得到的特征图f
out
进行池化操作，最后超像素分割池化层对特征图f
out
的每个超像素区域的值进行平均。
[0020]
本发明的有益效果在在于：
[0021]
1、本发明提出了一种用于高分辨率遥感图像的轻量级端到端语义分割方法，该方法通过引入超像素分割池化层(ssp)以提高计算效率，同时降低了网络对噪声和分割规模的敏感性；通过引入补偿连接使得网络可以更有效地进行语义分割；通过引入密集扩张卷积金字塔模块(ddcp)处理不同对象具有相同光谱的现象，进一步解决了多尺度问题。
[0022]
2、本发明可以实现对高分辨率遥感图像的语义分割，能够在分割精度和计算效率之间取得平衡，具有良好的应用前景。
附图说明
[0023]
图1为端到端语义分割网络方法的原理示意图。
[0024]
图2为补偿连接的正向传播图。
[0025]
图3为密集扩张卷积金字塔模型的结构示意图。
[0026]
图4为超像素分割池化层的功能示意图。
具体实施方式
[0027]
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0028]
一种应用于高分辨率遥感图像的端到端语义分割方法，包括以下步骤：
[0029]
步骤1，对高分辨率遥感图像进行归一化，并利用基于残差神经网络的编码器对归一化后的遥感图像进行特征提取；
[0030]
步骤2，构建密集空洞连接金字塔模块，通过水平和竖直方向堆叠不同个数以及不同空洞率的空洞卷积来获取高分辨率遥感图像中的全局语义信息；
[0031]
步骤3，利用slic算法对高分辨率遥感图像进行聚类，计算得到超像素分割图，并计算每个超像素对应的权重矩阵；
[0032]
步骤4，对密集空洞连接金字塔模块输出的特征图进行上采样，使其具有与原始输入的高分辨率遥感图像相同的尺寸；
[0033]
步骤5，将上采样的特征图与权重矩阵进行矩阵相乘，为每个超像素块区域内的特征点赋予相同的权重；
[0034]
完成端到端的语义分割。
[0035]
进一步地，步骤1中，利用基于残差神经网络的编码器对归一化后的遥感图像进行特征提取的具体方式为：在编码器结构内的各个编码块之间引入补偿连接机制，将各个编码器块提取到的图像特征信息进行整合，并剔除掉冗余部分。
[0036]
进一步地，步骤2中，构建的密集空洞连接金字塔模块采用了从任何编码器块到所有后续编码器块的直接连接方式，第l个编码器块能够接收到前面所有编码器块的特征映射，即：
[0037]fl
＝h
l
([f1,f2,
···
,f
l-1
])
[0038]
其中，[
·
]分别为编码器块1,2,
···
,l-1中产生的特征图f1,f2,
···
,f
l-1
的串接操作，h
l
为第l个编码器块的函数。
[0039]
进一步地，步骤3中，利用slic算法对高分辨率遥感图像进行聚类的具体方式为：首先利用密集扩张卷积金字塔在水平和垂直方向上叠加不同扩张比的空洞卷积，然后计算得到不同尺度特征下对应的权重矩阵，最后生成得到各个权重矩阵对应的超像素分割图。
[0040]
进一步地，步骤4中，对密集空洞连接金字塔模块输出的特征图进行上采样的具体方式为：首先在编码器和解码器之间引入旁路连接以降低计算复杂度，然后超像素分割图对上采样得到的特征图f
out
进行池化操作，最后超像素分割池化层对特征图f
out
的每个超像素区域的值进行平均。
[0041]
以下为更具体的例子：
[0042]
一种应用于高分辨率遥感图像的端到端语义分割方法，应用于遥感场景下的实时场景理解任务中，图1为该方法的原理示意图，该方法包括以下步骤：
[0043]
步骤1：对高分辨率遥感图像进行归一化，并利用基于残差神经网络的编码器对其进行特征提取。在编码器结构中的编码块间引入补偿连接，提高模型参数利用效率的同时可以有效缓解模型训练中梯度消失的现象；
[0044]
步骤2：采用密集空洞连接金字塔模块，通过水平和竖直方向堆叠不同个数以及不同空洞率的空洞卷积来获取各种尺度的密集特征信息，并获取遥感图像中的全局语义信息；
[0045]
步骤3：利用slic算法对高分辨率遥感图像进行聚类并计算得到超像素分割图，之后基于超像素分割图计算对应每个超像素的权重矩阵；
[0046]
步骤4：通过解码器结构将密集空洞连接金字塔输出的特征图进行上采样，使其上采样到与原始输入的高分辨率遥感图像相同的尺寸。此外，在网络中对应的编码块与解码块之前引入旁路连接，从而提高模型参数的利用率并降低上采样步骤的计算复杂度；
[0047]
步骤5：将上采样的特征图与权重矩阵进行矩阵相乘，从而为每个超像素块区域内的特征点赋予相同的权重。通过这种方式，一方面可以有效地修正分割边界并减少错分类的情况，另一方面可以实现端到端的语义分割，无需额外的后处理步骤对分割结果进行额外修正。
[0048]
本实施例中，linknet绕过每一个编码器模块的输入，并进入到相应解码器的输出中。通过这种方式，可以将下采样阶段丢失的空间信息进行恢复，并使得解码器可以进一步地重用这些空间信息。通过在每一层分享从编码器学到的知识，可以让解码器使用更少的参数。
[0049]
虽然采用更深更宽的结构可以提高多层网络的性能，但同时也会增加参数的数量，从而造成梯度消失现象。densenet网络利用特征重用和密集连接的方式来解决退化问题，从而降低了计算成本。基于这一思想，如图1所示，本实施例在网络的编码器块之间采用补偿连接的方式，这样可以提高参数的效率。而与densenet不同的是，本实施例引入了从任何编码器块到所有后续编码器块的直接连接方式，因此第l个编码器块可以接收到前面所有编码器块的特征映射，可以表示为：
[0050]fl
＝h
l
([f1,f2,
···
,f
l-1
])
[0051]
其中，[
·
]分别为编码器块1,2,
···
,l-1中产生的特征图f1,f2,
···
,f
l-1
的串接操作。定义h
l
为第l个编码器块的函数，如图2所示。由于本实施例中使用的骨干网有4个编码器块，则l设为4。
[0052]
为了扩大特征点的感受野，本实施例还提出了密集扩张卷积金字塔，该模块可以通过水平和垂直方向上叠加不同扩张比的空洞卷积而获得不同尺度的特征，从而提高语义分割的准确性。密集扩张卷积金字塔模块的结构如图3所示。
[0053]
例如，对于扩张的卷积层ld，其扩张速率为d
l
，核大小为k
l
，等效感受野大小rd可以通过下式进行计算：
[0054]
rd＝(d
l-1)
×
(k
l-1) k
l
[0055]
连接密集的卷积层叠加可以提供更大的感受野，从而带来更全面、更高的语义特征。假设叠加两个扩张的卷积层，其扩张率分别为d1和d2，则感受野r
total
的总尺寸大小可以重新表示为：
[0056][0057]
其中，和分别表示扩张率为d1和d2的卷积层的感受野大小。
[0058]
如图3所示，如果最后一个编码器块输出的特征图f4为32
×
32，密集扩张卷积金字塔从上到下各层的感受野大小分别为3.7、15和31，从而生成多尺度特征，这样就可以密集地覆盖大尺度范围。除此之外，1
×
1卷积层可用于从密集扩张卷积金字塔模型的每一层对齐特征图的大小。
[0059]
虽然后处理步骤有利于分割结果，但是会严重地影响处理速度。为了实现端到端的分割，本实施例提出了利用超像素分割池化层的超像素边界来校正输出的特征图，其中超像素是指由纹理、颜色、亮度等特征相似的相邻像素组成的具有一定视觉意义的不规则像素块，本实施例选择了简单线性迭代聚类(slic)算法进行超像素分割。
[0060]
如图4所示，超像素分割图对网络中最后一个转置卷积层得到的特征图f
out
进行池
化操作。与普通池化对固定大小的区域进行平均或者最大化操作不同，超像素分割池化层对特征图的每个超像素区域的值进行平均。对于输出的特征图和超像素分割图像i通过一位有效编码转换为h和w分别为f
out
的高度和宽度，c为f
out
的通道数，l为i的超像素数。本实施例中定义fs为超像素特征图，超像素分割池化运算的表达式可以表示为：
[0061][0062]
其中，i
′
{i}
代表i
′
第i层，sum(
·
)代表求和操作，
‘
·’表示特征映射之间的点积。
[0063]
相比于其他的后处理方法，超像素分割池化层具有以下几个优点：(1)需要设置的参数很少；(2)超像素边界更接近实际的目标轮廓；(3)可以嵌入模型，实现端到端的分割；(4)不会影响模型的预测速度。
[0064]
将超像素分割池化层应用于三维输出特征图后，可以得到多个相同尺寸大小的特征图。然后利用softmax激活函数对得到的特征图进行处理，从而得到每个像素的类别信息。
[0065]
以下为另一个具体的例子：
[0066]
一种应用于高分辨率遥感图像的端到端语义分割方法，该方法以linknet作为网络框架的核心，具体包括以下步骤：
[0067]
步骤1：对骨干网的编码器块之间采用补偿连接的方式；
[0068]
densenet网络利用特征重用和密集连接的方式解决退化问题从而降低了计算成本。基于这一思想，本实施例在网络的编码器块之间采用补偿连接的方式以提高参数效率。与之不同的是，本实施例引入了从任何编码器块到所有后续编码器块的直接连接方式，补偿连接使所有的编码器块都能接收到来自前面的编码器块的直接监控信号，这样网络流之间的特征映射就可以很好地得到重用，由此减小计算量和参数数量。
[0069]
步骤2：在语义分割框架中加入密集扩张卷积金字塔；
[0070]
为了扩大特征点的感受野，本实施例提出了密集扩张卷积金字塔模块，该模块可以在水平和垂直方向上叠加不同扩张比的空洞卷积而获得不同尺度的特征，从而提高语义分割的准确性。如果最后一个编码器块输出的特征图f4为32
×
32，密集扩张卷积金字塔从上到下各层的感受野大小分别为3.7、15和31，从而生成多尺度特征，这样就可以密集地覆盖大尺度范围。除此之外，1
×
1卷积层可用于从密集扩张卷积金字塔模型的每一层对齐特征图的大小。
[0071]
步骤3：语义分割网络框架中将超像素分割池化模块进行嵌入以实现更精准地端到端分割效果；
[0072]
虽然后处理步骤有利于分割结果，但是会严重影响处理速度。为了实现端到端的分割，本实施例提出了利用超像素分割池化层的超像素边界对输出特征图进行校正。其中超像素是指由纹理、颜色、亮度等特征相似的相邻像素组成的具有一定视觉意义的不规则像素块，本实施例选择了简单线性迭代聚类(slic)算法进行超像素分割。将超像素分割池化层应用于三维输出特征图后，可以得到多个相同尺寸大小的特征图。然后利用softmax激活函数对得到的特征图进行处理，从而得到每个像素的类别信息。
[0073]
步骤4：在两个最先进的航空图像语义分割基础上对本实施例所提出的方法进行评估；
[0074]
potsdam和vaihingen都是由非常高分辨率的正射影像瓦片和相应的数字表面模型组成。potsdam数据集由38张6000
×
6000像素的高分辨率航拍图像组成，选择其中24张图像进行训练，其余14张用于测试。每个图像都有4个光谱波段(即红、绿、蓝以及近红外)，每个数字表面模型都一个光谱波段。数据一共被分为6类，分别为不透水表面、建筑、低植被、树木、汽车以及背景。vaihingen数据集包含33个正射影像瓦片和相应的数字表面模型，平均大小为2494
×
2064像素。本实施例在对vaihigen数据集模型进行测试时，选择了16张训练图像以及17张测试图像，该数据集具有与potsdam数据集对应相同的6个类别。
[0075]
步骤5：将本实施例所提出的方法与当前八种最先进的方法进行比较；
[0076]
其中bisenet、liteseg和emanet是三个精简模型，pspnet和deeplab v3 应用多孔卷积来扩大感受野，fcn-crf使用后处理机制来增强分割结果，ccnet和danet是两个基于注意机制的模型。本实施例提出的轻量级端到端语义分割框架(以下简称eles2)与其他八种方法进行高分辨率遥感图像语义分割效果的对比，对比结果如表1和表2所示。
[0077]
表1各个方法在potsdam数据集上进行语义分割的性能比较
[0078][0079]
表2各个方法在vaihingen数据集上进行语义分割的性能比较
[0080][0081]
从表中可以看到，尽管liteseg的推理时间最短，参数最少，但其得分远低于eles2。此外，与其他两个精简模型bisenet和emanet相比，eles2以压倒性的优势取胜。还可以看出，在达到与deeplab v3 相同分割精度的同时，deeplabv3 的参数和每秒浮点运算次数几乎是eles2的5倍和20倍。相比之下，eles2算法在分割精度和计算效率上均优于其他算法。
[0082]
总之，本发明提出了一种增强型轻量级端到端语义分割方法，能够实现对高分辨率遥感图像的端到端高效语义分割，其中嵌入了超像素分割池化层来解决尺度方差问题并对分割结果进行细化。此外，引入了补偿连接以增强网络的表达能力，并提出利用密集扩张卷积金字塔生成不同尺度下的密集连续特征。在potsdam和vaihingen数据集上进行的实验表明，本发明可以在保证较高的计算效率的同时实现对高分辨率遥感图像的精准语义分割。
[0083]
以上对本发明所提出的一种应用于高分辨率遥感图像的端到端语义分割方法，进行了详细介绍，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：自适应融合可见光和红外图像的双模态无人机识别方法

一种应用于高分辨率遥感图像的端到端语义分割方法与流程

相关文献

最热文献