一种基于地块感知动态记忆的场景理解方法

2022-11-28 13:50:46 来源：中国专利 TAG：

1.本发明属于遥感图像处理领域，特别涉及一种基于地块感知动态记忆的场景理解方法，可用于遥感土地利用的场景理解。

背景技术：

2.遥感影像中土地利用现状场景理解的目的是识别遥感影像图斑的土地覆盖类型，实现土地利用现状类别的标注如住宅用地、公路用地、文体用地等，而非像素级分类所获得的简单建筑、植被等类别。近年来，随着遥感技术的发展及应用需求的提升，高分遥感影像的语义理解和场景识别方法可主要归为3类，即基于低层视觉特征、中层视觉表达以及高级语义场景理解的方法。
3.基于低层视觉特征的场景理解方法的思路是使用特征算子从高分遥感影像的低级视觉属性如颜色、纹理、光谱值中提取特征描述图像，如颜色直方图、gist描述子、局部二值模式、纹理描述符、定向梯度直方图和尺度不变特征变换等方法，这类方法对空间分布和结构模式均匀的高分遥感影像有较好的分类效果，但对空间分布不均匀的场景效果不佳。
4.基于中层视觉表达的场景理解方法的思路是通过对局部特征进行编码，构建能表达整张影像的中层特征。常用模型有：视觉词袋、空间金字塔匹配、局部线性约束线性编码、概率潜在语义分析、改进的fisher核、局部聚集描述符向量等。基于改进的视觉词袋模型可以有效提高遥感影像场景识别的准确率，同时将中层特征所包含的语义信息引入地物分类应用也可很好地提高分类精度，并且在小样本条件下也适用。该类方法分类精度有大幅提高，但仍受低层视觉特征和编码方法的限制，不能达到最优的分类精度。
5.基于高级语义特征的场景理解方法主要是通过深度学习来学习到更抽象、更具辨别性的特征，可分为无监督特征学习和监督特征学习两类方法。无监督特征学习方法包括如k-means聚类、主成分分析和稀疏编码等，可以自动从未标记的图像中学习特征，能有效替代基于手工特征的方法，但不能充分利用数据类的信息。基于深度学习的监督特征方法是通过用给定标签对神经网络进行优化来获得分类，最典型的模型是卷积神经网络(cnn)，cnn与其它网络组合用于处理更复杂的场景，如面向高分辨率遥感影像场景分类的cnn-gcn双流网络，有效地融合全局特征和上下文特征并利用线性分类器实现分类。利用图神经网络模型建立复杂特征之间的高层次关系并完成特征推理和信息交互、图模型的节点信息整合和更新方法进行特征之间的关系推理和信息交互来增强特征表达。改进的inception-v3的遥感图像场景分类模型在训练过程中采用迁移学习策略，充分利用已有模型及知识，提高训练效率。
6.当前的场景理解的方法中，基于无监督特征学习的方法适用于单一场景，基于cnn的高层特征方法通常包含影像中的全局信息，并且可以保持空间细节信息。然而遥感影像通常存在多个地类场景，如何利用场景语义，构建地类现状场景图，以解决更实际且更具挑战性的单幅图像的多地类场景理解是研究的方向。
7.遥感影像中土地利用的一个地块往往包含多类型地物对象，地块内的地物覆盖复
杂、图斑组合规则多变，造成地块内碎片多、整体性差。针对这一问题，研究基于地块组成的土地利用类型语义感知结构和多场景动态记忆原型结构组合的土地利用地块感知记忆网络模型，实现对土地利用地块组成及其分布的理解，有利于国土空间利用格局的生成。

技术实现要素：

8.本发明针对现有方法的不足，提出一种基于地块感知动态记忆的场景理解方法，通过对土地利用地块组成及其分布的理解，实现国土空间利用格局的生成。
9.本发明的技术方案如下：一种基于地块感知动态记忆的场景理解方法，包括如下步骤：
10.(1)提取遥感场景图像的多层卷积特征，除去resnet50的最后一个分类器，剩余部分作为特征提取器，剩余部分的输出作为图像提取的特征；
11.(2)构建土地利用类型语义感知结构，分别使用大小为7
×
7，5
×
5，3
×
3，1
×
1的卷积核对第(1)步提取的多层卷积特征进行融合，兼顾计算的性能与精度，得到遥感场景图像的卷积语义图斑表达；
12.(3)构建多场景动态记忆原型结构，将第(2)步得到的语义图斑存储在外部存储器，同时设计一个可学习的记忆检索模块来学习存储在外部存储器的语义图斑，根据自注意力机制将特征融合后输出的融合特征作为查询条件，检索与输入图像特征相似度高的语义图斑，用于识别高分遥感图像中存在的地块场景；
13.(4)训练土地利用地块感知动态记忆原型网络，基于地块组成的土地利用类型语义感知结构和多场景动态记忆原型结构共同组成土地利用地块感知记忆网络模型，使用adam优化器算法训练感知动态记忆原型网络，使用反向传播算法更新网络参数，直至网络收敛；
14.(5)预测遥感场景地块类别，将测试的遥感场景输入到训练完成后的感知动态记忆原型网络中，得到遥感场景地块类别。
15.进一步的，步骤(1)中提取多层卷积特征，包括如下步骤：
16.首先，利用卷积操作、池化操作、全连接操作搭建resnet50卷积神经网络，使用imagenet数据集对resnet50进行预训练，然后将遥感场景图像输入到预训练的resnet50中提取多层卷积特征；使用resnet50最后一个stage的卷积操作提取特征，记为x
′
∈rm×n×c，其中m和n为卷积特征x
′
的宽和高，c为卷积特征x
′
的通道数，即resnet50在imagenet上预训练好，将图像经过resnet50网络，得到输出featuremap，即：
17.x
′
＝conv(i)
18.其中，conv表示特征提取过程，i是输入的遥感场景图像，x
′
对表示提取到的多层卷积特征。
19.进一步的，步骤(2)构建土地利用类型语义感知结构，包括如下步骤：
20.选用resnet网络作为空间金字塔的主干网络，输入大规模遥感影像后经过自底向上的流程在主干网络的每个stage中提取不同尺度卷积特征，将resnet每个stage的最后一组特征图记为{c2，c3，c4，c5}，然后对前述所提取的卷积特征进行上采样处理，保证处理后的高层卷积特征维度与自底向上的低层卷积特征维度相同，随后将高层卷积特征图与横向连接传递的低层卷积特征图对应元素加权，得到具备多尺度信息的融合特征,感知提取模
块的输出特征图记为{p2，p3，p4，p5}，即
[0021][0022]
其中，p5＝c5，考虑到金字塔池化，在不同尺度下保留全局信息，而识别地类标签需要充分考虑全局信息，因此在主干网络的最后一层应用金字塔池化，得到特征向量h，即：
[0023][0024]
其中，conv1×1表示卷积核大小为1
×
1的卷积操作，对resnet不同尺度提取的特征进行conv1×1卷积操作；表示加权求和，此处将卷积操作得到的结果与感知提取下一层级的输出结果进行加权求和得到上一层的输出；考虑到金字塔池化，在不同尺度下保留全局信息，而识别地类标签需要充分考虑全局信息，spp表示金字塔池化过程，表示第i个输入样本经过最后一层感知提取的输出结果，hi表示第i个输入经过金字塔池化的结果，该结果存入外部存储器m中。
[0025]
进一步的，步骤(3)构建多场景动态记忆原型结构，包括如下步骤：
[0026]
多场景动态记忆原型结构将感知提取模块提取的特征投影成一维向量作为查询条件q(x)，用输入的问题q(x)检索key-value存储，找到和地块相似图斑的key值，定义key值的通道维度为l，value值的通道维度为u，输入图像x与每个图斑的相似度计算公式为：
[0027][0028]
其中，f
φ
为投影函数，提取x的特征表示，同时，将外部存储器m转换为键k(m)和值v(m)，经过softmax输出一个s维向量，即外部记忆存储的长度s，其中每个分量表示每个图斑与查询图像的相关概率，对所有值加权求和：
[0029]
z＝r(x,m)
·
v(m)
[0030]
得到输出特征z，由于内存检索以多头方式进行，因此最终得到的特征可以表述为：
[0031]z′
＝[z1,z2,
…
zh]
[0032]
其中，h表示head的数量，每个head通过将输入图像x和外部记忆存储m转换为多头查询qh(f
φ
(x))、键kh(m)和值vh(m)来生成检索到的特征，最后，输出z'送入一个全卷积网络用于推断土地利用地块：
[0033]
s＝fcn(z
′
)
[0034]
其中，fcn表示全卷积网络，s表示全卷积网络的输出向量。
[0035]
进一步的，步骤(4)训练土地利用地块感知动态记忆原型网络，包括如下步骤：
[0036]
基于地块组成的土地利用类型语义感知结构和多场景动态记忆原型结构共同组成土地利用地块感知记忆网络模型，使用adam优化器算法训练感知动态记忆原型网络，使用反向传播算法更新网络参数，直至网络收敛。
[0037]
进一步的，步骤(5)预测遥感场景地块类别，包括如下步骤：
[0038]
将测试的遥感场景输入到训练完成后的地块感知动态记忆原型网络中，将全卷积网络输出的场景类别作为该地块的类别。
[0039]
本发明还提出一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器运行所述计算机程序时，执行上述一种基于地块感知
动态记忆的场景理解方法的步骤。
[0040]
本发明还提出一种计算机可读存储介质，其存储计算机程序，所述计算机程序使得计算机执行上述的一种基于地块感知动态记忆的场景理解方法的步骤。
[0041]
本发明利用cnn提取遥感图像的多层语义特征，然后构建基于地块组成的土地利用类型语义感知结构和多场景动态记忆原型结构组合的土地利用地块感知记忆网络模型。模型训练至网络收敛，最后预测土地利用地块类别。
附图说明
[0042]
图1为本发明的一种基于地块感知动态记忆的场景理解方法的流程图。
具体实施方式
[0043]
为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图1对本发明作进一步详细的说明。参照图1，本发明一种基于地块感知动态记忆的场景理解方法，实现的步骤如下：
[0044]
步骤1，提取多层卷积特征。
[0045]
(1a)首先，利用卷积操作、池化操作、全连接操作等搭建resnet50卷积神经网络。具体来说，使用imagenet数据集对resnet50进行预训练，然后将遥感场景图像输入到预训练的resnet50中提取多层卷积特征。使用resnet50最后一个stage的卷积操作提取特征，记为x
′
∈rm×n×c，其中m和n为卷积特征x
′
的宽和高，c为卷积特征x
′
的通道数。即resnet50在imagenet上预训练好，将图像经过resnet50网络，得到输出featuremap，即：
[0046]
x
′
＝conv(i)
[0047]
其中，conv表示特征提取过程，i是输入的图像，x
′
对表示提取到的特征。
[0048]
步骤2，构建土地利用类型语义感知结构。
[0049]
(2a)选用resnet网络作为空间金字塔的主干网络，输入大规模遥感影像后经过自底向上的流程在主干网络的每个stage中提取不同尺度卷积特征，将resnet每个stage的最后一组特征图记为{c2，c3，c4，c5}，然后对前述所提取的卷积特征进行上采样处理，保证处理后的高层卷积特征维度与自底向上的低层卷积特征维度相同，随后将高层卷积特征图与横向连接传递的低层卷积特征图对应元素加权，得到具备多尺度信息的融合特征,感知提取模块的输出特征图记为{p2，p3，p4，p5}，即
[0050][0051]
其中，p5＝c5，考虑到金字塔池化，在不同尺度下保留全局信息，而识别地类标签需要充分考虑全局信息，因此在主干网络的最后一层应用金字塔池化，得到特征向量h，即：
[0052][0053]
其中，conv1×1表示卷积核大小为1
×
1的卷积操作，对resnet不同尺度提取的特征进行conv1×1卷积操作；表示加权求和，此处将卷积操作得到的结果与感知提取下一层级的输出结果进行加权求和得到上一层的输出；考虑到金字塔池化，在不同尺度下保留全局信息，而识别地类标签需要充分考虑全局信息，spp表示金字塔池化过程，表示第i个输入样本经过最后一层感知提取的输出结果，hi表示第i个输入经过金字塔池化的结果，该结果
存入外部存储器m中。
[0054]
步骤3，构建多场景动态记忆原型结构。
[0055]
(3a)多场景动态记忆原型结构将感知提取模块提取的特征投影成一维向量作为查询条件q(x)，用输入的问题q(x)检索key-value存储，找到和地块相似图斑的key值，定义key值的通道维度为l，value值的通道维度为u，输入图像x与每个图斑的相似度计算公式为：
[0056][0057]
其中，f
φ
为投影函数，提取x的特征表示，同时，将外部存储器m转换为键k(m)和值v(m)，经过softmax输出一个s维向量，即外部记忆存储的长度s，其中每个分量表示每个图斑与查询图像的相关概率，对所有值加权求和：
[0058]
z＝r(x,m)
·
v(m)
[0059]
得到输出特征z，由于内存检索以多头方式进行，因此最终得到的特征可以表述为：
[0060]z′
＝[z1,z2,
…
zh]
[0061]
其中，h表示head的数量，每个head通过将输入图像x和外部记忆存储m转换为多头查询qh(f
φ
(x))、键kh(m)和值vh(m)来生成检索到的特征，最后，输出z'送入一个全卷积网络用于推断土地利用地块：
[0062]
s＝fcn(z
′
)
[0063]
其中，fcn表示全卷积网络，s表示全卷积网络的输出向量。
[0064]
步骤4，训练土地利用地块感知动态记忆原型网络。
[0065]
基于地块组成的土地利用类型语义感知结构和多场景动态记忆原型结构共同组成土地利用地块感知记忆网络模型，使用adam优化器算法训练感知动态记忆原型网络，使用反向传播算法更新网络参数，直至网络收敛。
[0066]
步骤5，预测遥感场景地块类别。
[0067]
将测试的遥感场景输入到训练完成后的地块感知动态记忆原型网络中，将全卷积网络输出的场景类别作为该地块的类别。
[0068]
本发明还提出一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器运行所述计算机程序时，执行上述一种基于地块感知动态记忆的场景理解方法的步骤。
[0069]
本发明还提出一种计算机可读存储介质，其存储计算机程序，所述计算机程序使得计算机执行上述的一种基于地块感知动态记忆的场景理解方法的步骤。
[0070]
以上所述仅为本发明的优选实施例而已，并不用于限制本技术，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种批量业务的资源调度方法、系统、设备及存储介质与流程

一种基于地块感知动态记忆的场景理解方法

相关文献

最热文献