一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于TransUnet的遥感影像建筑物自动提取处理方法

2022-06-05 10:36:30 来源:中国专利 TAG:

基于transunet的遥感影像建筑物自动提取处理方法
技术领域
1.本发明涉及到计算机图像处理中图像特征提取方法技术领域,具体涉及到遥感影像中建筑物自动提取处理方法领域。


背景技术:

2.建筑物提取对城市规划、城市动态监测、城市增长检测、违章建筑物识别以及地理信息更新等领域具有重要的应用价值和商业价值。然而,传统的基于调查和普查的人工方法耗时长、成本高。随着深度学习技术的实现和卫星影像数据的普及,从卫星影像上自动提取建筑物已成为了现实。但同一物体和场景在不同卫星图像中的变化通常较为剧烈,对于建筑物等人造结构这些变化更为突出。此外,由于不同的天气条件、不同的地形以及传感器间的差异性,即使同一区域的卫星图像通常也存在较大差异,面向地面场景的计算机视觉领域网络结构也难以直接应用至卫星遥感影像中进行建筑物提取。


技术实现要素:

3.综上所述,本发明的目的在于解决现有深度学习技术从卫星影像上自动提取建筑物可靠性差,和面向地面场景的神经网络难以直接应用至遥感影像中建筑物提取的问题,而提出基于transunet的遥感影像建筑物自动提取处理方法。
4.为解决本发明所提出的技术不足,采用的技术方案为:
5.基于transunet的遥感影像建筑物自动提取处理方法,所述方法通过构建遥感影像建筑物提取算法网络,经模型训练获取训练样本数据后,用于遥感影像建筑物自动提取;其特征在于:构建遥感影像建筑物提取算法网络的步骤包括有;生成网络设计、域自适应网络设计、弱监督网络设计和损失函数设计;采用卷积和transformer结合的transunet来提升生成网络的性能;在域自适应方面采用基于gan的生成对抗网络技术,将源域和目标域之间的分布差距最小化;在弱监督方面依靠图像级标签对生成网络进一步约束,采用开源建筑物提取数据集对提出的算法进行验证。
6.作为对本发明作进一步限定的技术方案包括有:
7.所述生成网络设计是将输入的图像向量的特征进行编码,然后再利用解码器将图像向量的特征进行解码操作,通过跳跃连接连接不同的层获取更多有用的特征;在结构上生成网络主要由编码器(encoder)、注意力网络(transformer)和解码器(decoder)三部分组成。
8.所述编码器(encoder)包含一层最大池化(max pooling)和三层由卷积(convoluton)、修正线性单元(rectified linear unit,relu)、组归一化(group normalization)所组成的堆叠结构;其中,堆叠的三层结构是完全相同的,都是由3组连续的卷积 组归一化 修正线性单元组成,每层的输出结果除传递到下一层外还用于后续的跳跃连接,在最后一组的卷积 组归一化过后,将得到的特征与起始特征进行拼接,再经过修正线性单元;在这一部分中,最大池化的卷积核为3
×
3,步长为2,不进行填充(padding);三
层堆叠结构部分的卷积核为7
×
7,步长为2,填充为3;原始特征首先经过一次卷积和最大池化,输出特征图(feature map)的高度与宽度均变为该层输入的1/2;之后再经过三个堆叠结构,每经过一层堆叠结构,输出特征图的高度与宽度也变为该层输入的1/2;最终输出的特征图的高和宽均变为原始影像的1/16。
9.所述注意力网络(transformer)为transformer层堆叠模块;负责对上一步提取到的特征进行编码操作,包括12个完全相同的transformer层;其中,单个transformer层是由层归一化(layer normalization)、注意力模块(attention)和多层感知器(mlp)组成的结构;其中,注意力模块的步骤如下:
10.第一步,得到查询向量(query)、键向量(key)、值向量(value);
11.第二步,用查询向量和键向量的点积,除以键向量的维数的开方,再经过softmax得到权值;
12.第三步,对值向量进行加权求和,得到输出向量,该向量也被称为一个注意力头;多层感知机是由若干线性层、激活层堆叠而成的结构;每一个单独的transformer层的做法是将接收到的原始特征进行一次层归一化后传入注意力模块得到隐藏特征,再将原始特征与隐藏特征拼接后的复合特征继续层归一化后传入多层感知机得到第二个隐藏特征,再将复合特征与此隐藏特征拼接后传入下一个transformer层,循环往复12次;最终输出的特征图的高和宽不变,仍均为原始影像的1/16。
13.单个transformer层内部结构包括自注意力层(self-attention)和前馈神经网络(feed-forward networks)两层网络,而自注意力层则会计算三个向量:查询向量(query)、键向量(key)和值向量(value),进行如下操作,得到attention的值,
[0014][0015]
其中q,k,v分别是查询向量(query)、键向量(key)和值向量(value),dk是q,k矩阵的列数,即向量维度。
[0016]
所述解码器(decoder)是由三个完全相同的解码块和一个上采样构成,每个解码块包含一个上采样(upsamplingbilinear2d)和两组连续的卷积(convoluton)与修正线性单元(relu);其中卷积核均为3
×
3,步长为1,填充为1;每个解码块会将输入的特征图的高和宽均放大2倍,每个解码块输出的特征将会与编码器的多层卷积模块部分生成的多级特征进行拼接,再将结果输入到下一个解码块,迭代3次;最后的解码块输出的特征图的高和宽为原始影像的1/2,再经过一次上采样变为和原始影像相同大小;再将和原始影像相同大小的特征拼接后传入最后一层卷积网络(segmentation head)生成逐像素的预测图,即最终的建筑物提取结果。
[0017]
域自适应网络结构采用全卷积神经网络结构;包括5个深度分别是256,256,128,64,1的卷积层,每层卷积核尺寸为3
×
3,步长和填充参数均为1;前四层的卷积层后接一个激活函数(leakyrelu),最后一层卷积后添加了上采样层,使输出尺寸和原图像的尺寸相匹配。
[0018]
弱监督网络结构是由卷积、上采样、最大池化和全连接操作构成,其中卷积核尺寸为3
×
3,步长和填充参数均为1;输入为生成器中编码器生成的最高阶的隐藏特征与解码器
生成的最低阶的浅层特征;将隐藏特征经卷积和上采样处理,浅层特征经卷积和最大池化处理,然后进行拼接处理得到的新特征图,最后将新特征图进行两次卷积操作后输入全连接层,计算出图像中含有建筑物的概率值。
[0019]
损失函数包含生成网络的分割损失、域自适应网络的对抗损失和弱监督网络的类别损失,如下:
[0020]
l=l
seg
ld l
class
[0021]
其中,l
seg
为生成网络的分割损失,定义为预测图像和真实标签间的交叉熵值,计算公式如下:
[0022][0023]
其中ys为源域影像的真实标签,g(is)∈rh×w×1为生成器的特征图输出结果,h、w分别为影像的高度和宽度,i、j分别为像素点的纵坐标和横坐标,is为影像像素值;
[0024]
ld为域自适应网络的对抗损失,计算公式如下:
[0025][0026]
其中g(i
t
)为生成网络生成的隐藏特征,z为与隐藏特征的同尺寸矩阵,当输入生成器的图像为源域时,则z矩阵向量全填充为1;当输入变量为目标域影像时,则z矩阵向量全填充为0;
[0027]
l
class
为弱监督网络的类别损失,计算公式如下:
[0028][0029]
其中g(i
t
)为目标域图像在生成网络生成的隐藏特征,b(g(i
t
))是网络预测图像中是否含有建筑物的概率,b
t
为图像是否含有分割建筑物的弱标签,若b
t
为0,则当前图像无建筑物影像,否则该图像含有建筑物影像。
[0030]
在模型训练上引入了域自适应和弱监督策略,包括有如下步骤:
[0031]
步骤1,数据集扩展与加载;首先将数据集裁剪按一定的尺度范围随机裁切,然后缩放至固定大小尺寸,经过清洗和校对去除有问题的数据,然后对部分裁切后的影像进行旋转、添加噪声处理,达到数据集扩展的目的,之后对每张建筑的语义标签图像进行处理,生成图像级标签,最后按照一定比例将数据集划分为训练、验证和测试三个部分;
[0032]
步骤2,源域和目标域交替训练;训练时,先将源域数据和目标域数据都读取到字典中,然后分别轮流取出源域图片和目标域图片进行训练,实现源域、目标域数据集交替训练;训练时源域加载的是原始影像、语义标签和相对应的图像级标签,目标域加载的是原始影像和相对应的图像级标签;
[0033]
步骤3,超参数设置;训练参数设置上,优化器使用的是adam优化器,生成网络的初始学习率设置为0.001,域自适应网络的初始学习率为0.00001;动量设置为0.9和0.999,权重衰减设置为1e-6;
[0034]
步骤4,模型精度评价;计算检测结果与真值标签的各参数指标,包括二者的交并比(intersection over union,iou)、正确率(accuracy)、精确度(precision)、召回率
(recall)、f1得分(f1-score);其中iou用于衡量预测结果与真值标签的交并比;accuracy用于衡量预测正确的像素值与所有情况的比列;precision用于衡量正样本结果与被预测正样本数据的比值;recall用于衡量预测正确的结果占真实正样本的比值;f1-score用于衡量本模型的有效性。
[0035]
本发明的有益效果为:本发明引入医学影像分割领域最新的transunet[l1]作为建筑物提取的生成网络,该网络采用transformer和cnn相结合的结构,可以充分利用两类网络的各自优势,提升了建筑物提取网络的表达能力;采用融合transformer结构、域自适应和弱监督等策略来提升卫星影像建筑物提取的能力。在模型训练上引入了域自适应和弱监督策略,在此基础上设计了全新的遥感影像建筑物弱监督提取网络结构,提升了训练后建筑物提取网络的泛化扩展性能。
附图说明
[0036]
图1是遥感影像建筑物弱监督提取网络结构图。
[0037]
图2是transformer层内部结构图。
具体实施方式
[0038]
以下结合附图和本发明具体实施例对本发明作进一步地说明。
[0039]
本发明所公开的基于transunet的遥感影像建筑物自动提取处理方法,通过构建遥感影像建筑物提取算法网络,经模型训练获取训练样本数据后,用于遥感影像建筑物自动提取;构建遥感影像建筑物提取算法网络的步骤包括有;生成网络设计、域自适应网络设计、弱监督网络设计和损失函数设计;采用卷积和transformer结合的transunet来提升生成网络的性能;在域自适应方面采用基于gan的生成对抗网络技术,将源域和目标域之间的分布差距最小化;在弱监督方面依靠图像级标签对生成网络进一步约束,采用开源建筑物提取数据集对提出的算法进行验证。也即本发明采用融合transformer结构、域自适应和弱监督等策略来提升卫星影像建筑物提取的能力。transformer最初用于解决自然语言处理(nlp)问题,近年来在计算机视觉领域表现也很优秀,很多使用transformer的网络结构表现优于单纯的卷积神经网络。transunet为卷积网络和transformer相结合的网络结构,架构上延续了unet网络的编码-解码(encoder-decoder)架构,transformer在其中的作用类似于注意力(attention)模型。
[0040]
弱监督学习是指在训练时,采用的数据集的标签不够完善,如只给了一部分数据的标签,即不完全监督;或者只给二值标签,即不确切监督;或者给出的标签不都是正确的,即不精确监督。尽管很多学者已经证明了监督学习技术在数据集足够的情况下效果良好,但由于数据标注的成本较高,不同区域间训练的网络模型难以直接扩展使用,这种情况下需要采用弱监督学习技术来提升模型的扩展能力。在本发明的实验中融合的是不确切监督。我们目标域数据集采用的是图像级标签进行训练,能够利用辅助任务从大规模的弱监督数据中构造监督信息,从而学习到有价值的表征。
[0041]
在机器学习任务中,当源域和目标域数据分布不同,但是两者的任务相同时,这种特殊的迁移学习就是域自适应。域自适应方法包括样本自适应、特征自适应和模型自适应三种。样本自适应是对源数据每一个样本加权,学习一组权使得分布差异最小化,然后重新
采样,从而逼近目标域的分布。特征自适应是将源域和目标域投影到公共特征子空间,这样两者的分布相匹配,通过学习公共的特征表示,这样在公共特征空间,源域和目标域的分布就会相同。模型自适应是考虑目标域的误差,对源域误差函数进行修改。在遥感影像建筑物提取任务中,源域指具有建筑语义标签的区域,目标域指没有标注建筑语义标签的区域,域自适应将在源域学习到的模型扩展到目标区域,使之尽可能适应目标区域的情况。在本发明中,我们采用基于对抗神经网络(gan)的域自适应方法,使得源域和目标域特征分布尽可能一致,从而提升模型的泛化扩展能力。
[0042]
在本发明方法中,首先采用卷积和transformer结合的transunet来提升生成网络的性能,在域自适应方面采用基于gan的生成对抗网络技术,将源域和目标域之间的分布差距最小化,在弱监督方面主要依靠图像级标签对生成网络进一步约束。同时,为了证明了本发明算法的有效性与可行性,采用了whu、massachusetts等开源建筑物提取数据集对提出的算法进行了验证。
[0043]
如图1中所示,本发明整体网络结构包含生成网络、域自适应网络和弱监督网络三个部分。构建遥感影像建筑物提取算法网络的具体步骤如下:
[0044]
步骤1,生成网络设计。整个生成网络实现的基本思想和经典的unet网络类似,将输入的图像向量的特征进行编码,然后再利用解码器将这些特征进行解码操作,通过跳跃连接(skip-connection)连接一些不同的层后获取更多有用的特征。在结构上生成网络主要由编码器(encoder)、注意力网络(transformer)和解码器(decoder)三部分组成。其中,
[0045]
编码器,这一部分包含一层最大池化(max pooling)和三层由卷积(convoluton)、修正线性单元(rectified linear unit,relu)、组归一化(group normalization)所组成的堆叠结构。其中,堆叠的三层结构是完全相同的,都是由3组连续的卷积 组归一化 修正线性单元组成,每层的输出结果除传递到下一层外还用于后续的跳跃连接,在最后一组的卷积 组归一化过后,将得到的特征与起始特征进行拼接,再经过修正线性单元。在这一部分中,最大池化的卷积核为3
×
3,步长为2,不进行填充(padding)。三层堆叠结构部分的卷积核为7
×
7,步长为2,填充为3。原始特征首先经过一次卷积和最大池化,输出特征图(feature map)的高度与宽度均变为该层输入的1/2;之后再经过三个堆叠结构,每经过一层堆叠结构,输出特征图的高度与宽度也变为该层输入的1/2;最终输出的特征图的高和宽均变为原始影像的1/16。注意力网络,注意力网络为transformer层堆叠模块。这一部分的作用是负责对上一步提取到的特征进行编码操作,整个模块包括12个完全相同的transformer层。其中,单个transformer层是由层归一化(layer normalization)、注意力模块(attention)和多层感知器(mlp)组成的结构。其中,注意力模块的步骤如下:第一步,得到查询向量(query)、键向量(key)、值向量(value);第二步,用查询向量和键向量的点积,除以键向量的维数的开方,再经过softmax得到权值;第三步,对值向量进行加权求和,得到输出向量,该向量也被称为一个注意力头。多层感知机是由若干线性层、激活层堆叠而成的结构。每一个单独的transformer layer的具体做法是,将接收到的原始特征进行一次层归一化后传入注意力模块得到隐藏特征,再将原始特征与隐藏特征拼接后的复合特征继续层归一化后传入多层感知机得到第二个隐藏特征,再将复合特征与此隐藏特征拼接后传入下一个transformer layer,循环往复12次。这就是整个编码器的过程。最终输出的特征图的高和宽仍均为原始影像的1/16。
[0046]
单个transformer层内部结构主要包括自注意力层(self-attention)和前馈神经网络(feed-forward networks)两层网络,而自注意力层则会计算三个向量:查询向量(query)、键向量(key)和值向量(value),这三个向量是embedding向量与一个随机初始化的矩阵相乘得到的结果。当得到这三个矩阵之后,进行如下操作,得到attention的值,这个值决定了某个特征对全局特征的关注程度:
[0047][0048]
其中q,k,v分别是查询向量(query)、键向量(key)和值向量(value),dk是q,k矩阵的列数,即向量维度。
[0049]
解码器,将经过12层的transformer layer后得到的隐藏特征传入解码器进行解码,解码器是由三个完全相同的解码块和一个上采样构成,每个解码块包含一个上采样(upsamplingbilinear2d)和两组连续的卷积(convoluton)与修正线性单元(relu)。其中卷积核均为3
×
3,步长为1,填充为1。每个解码块会将输入的特征图的高和宽均放大2倍,每个解码块输出的特征将会与编码器的多层卷积模块部分生成的多级特征进行拼接,再将结果输入到下一个解码块,迭代3次。最后的解码块输出的特征图的高和宽为原始影像的1/2,再经过一次上采样变为和原始影像相同大小。再将和原始影像相同大小的特征拼接后传入最后一层卷积网络(segmentation head)生成逐像素的预测图,即最终的建筑物提取结果。
[0050]
步骤2,域自适应网络设计。本发明的域自适应网络结构采用了一种全卷积神经网络结构。该结构包括5个深度分别是256,256,128,64,1的卷积层,每层卷积核尺寸为3
×
3,步长和填充参数均为1。前四层的卷积层后接一个激活函数(leakyrelu),最后一层卷积后添加了上采样层,使输出尺寸和原图像的尺寸相匹配。
[0051]
步骤3,弱监督网络设计。本发明的弱监督网络结构是由卷积、上采样、最大池化和全连接等操作构成,其中卷积核尺寸为3
×
3,步长和填充参数均为1。输入为生成器中编码器生成的最高阶的隐藏特征与解码器生成的最低阶的浅层特征(见图1)。为解决尺寸不一致无法拼接的问题,将隐藏特征经卷积和上采样处理,浅层特征经卷积和最大池化处理,然后进行拼接处理得到的新特征图,最后将新特征图进行两次卷积操作后输入全连接层,计算出图像中含有建筑物的概率值。
[0052]
步骤4,损失函数设计。根据设计的网络结构,本发明的损失函数包含生成网络的分割损失、域自适应网络的对抗损失和弱监督网络的类别损失三类。具体如下:
[0053]
l=l
seg
ld l
class
[0054]
其中,l
seg
为生成网络的分割损失,定义为预测图像和真实标签间的交叉熵值,计算公式如下:
[0055][0056]
其中ys为源域影像的真实标签,g(is)∈rh×w×1为生成器的特征图输出结果,h、w分别为影像的高度和宽度,i、j分别为像素点的纵坐标和横坐标,is为影像像素值。
[0057]
ld为域自适应网络的对抗损失,计算公式如下:
[0058][0059]
其中g(i
t
)为生成网络生成的隐藏特征,z为与隐藏特征的同尺寸矩阵,当输入生成器的图像为源域时,则z矩阵向量全填充为1;当输入变量为目标域影像时,则z矩阵向量全填充为0。
[0060]
l
class
为弱监督网络的类别损失,计算公式如下:
[0061][0062]
其中g(i
t
)为目标域图像在生成网络生成的隐藏特征,b(g(i
t
))是网络预测图像中是否含有建筑物的概率,b
t
为图像是否含有分割建筑物的弱标签,若b
t
为0,则当前图像无建筑物影像,否则该图像含有建筑物影像。
[0063]
本发明在模型训练上引入了域自适应和弱监督策略,在模型训练方面,可以分为数据集扩展与加载、源域和目标域交替训练、超参数设置、模型精度评价四个部分,具体如下:
[0064]
步骤1,数据集扩展与加载。在本发明中,我们首先将数据集裁剪按一定的尺度范围(如256-2000)随机裁切,然后缩放至固定大小尺寸(如256*256),经过清洗和校对去除有问题的数据,然后对部分裁切后的影像进行旋转、添加噪声等处理,达到数据集扩展的目的,之后对每张建筑的语义标签图像进行处理,生成图像级标签(是否包含建筑),最后按照一定比例将数据集划分为训练、验证和测试三个部分。
[0065]
步骤2,源域和目标域交替训练。本发明的神经网络进行训练时,先将源域数据和目标域数据都读取到字典中,然后分别轮流取出源域图片和目标域图片进行训练,实现源域、目标域数据集交替训练。训练时源域加载的是原始影像、语义标签和相对应的图像级标签,目标域加载的是原始影像和相对应的图像级标签。
[0066]
步骤3,超参数设置。本发明的神经网络训练参数设置上,优化器使用的是adam优化器,生成网络的初始学习率设置为0.001,域自适应网络的初始学习率为0.00001。动量设置为0.9和0.999,权重衰减设置为1e-6。
[0067]
步骤4,模型精度评价。计算检测结果与真值标签的各参数指标,包括二者的交并比(intersection over union,iou)、正确率(accuracy)、精确度(precision)、召回率(recall)、f1得分(f1-score)。其中iou用于衡量预测结果与真值标签的交并比;accuracy用于衡量预测正确的像素值与所有情况的比列;precision用于衡量正样本结果与被预测正样本数据的比值;recall用于衡量预测正确的结果占真实正样本的比值;f1-score用于衡量本模型的有效性。
[0068]
以下结合具体案例,对本发明作进一步说明。
[0069]
首先,按照本发明方法构建遥感影像建筑物提取算法网络;然后,获取训练样本数据。我们采用了具有明显风格差异的数据集进行了实验。源域数据集选取了whu数据集中的2016年建筑物数据集(缩写为whu2016),目标域数据集选取了马萨诸塞州(massachusetts)建筑物数据集。whu2016与马萨诸塞州数据集的影像间具有明显的辐射差异,此外,除了辐射差异外,建筑物类型和尺寸差异明显。每个数据集分为训练、验证和测试三类。
[0070]
在弱监督实验前,需要选取合适的主干网络,为此,我们选取了deeplab v3、deeplab xception、pspnet、unet、transunet等典型语义分割网络,在分割难度较大的massachusetts数据集上进行了对比实验。详细实验结果如表1的结果所示,可以看出的transunet网络获得了最佳性能,为此我们在后续的实验中选择transunet作为实验的主干网络。
[0071]
表1 massachusetts数据集上不同主干网络的全监督训练性能比较
[0072][0073]
为了更好地探究每个模块对整体网络分割性能的影响,我们进行了消融实验。整个实验分为三个部分:第一,在源域上进行全监督训练,将训练后的网络模型直接在目标域上进行精度评定(generator);第二,训练数据包含源域像素级标签和目标域图像级弱标签,训练时源域数据和目标域数据交替进行,训练后的网络模型在目标域上进行精度评定(generator builtnet);第三,在第二部分基础上引入了鉴别器来判别来自源域或者目标域的图像,通过鉴别器损失函数来提升其鉴别性能与生成器的泛化性能,使得源域与目标域的影像能够在潜在空间中对齐域分布(generator builtnet discriminator)。在数据集使用上,源域数据采用了whu2016,目标域采用massachusetts数据集进行消融实验,结果见表2,其中upper bound为目标域上的全监督训练结果,作为模型所能达到的精度上限。
[0074]
表2基于massachusetts建筑物数据集的消融实验结果
[0075][0076]
由此可见,本发明所提出的融合域自适应和弱监督策略的遥感影像建筑物提取方法有效地提升了建筑物提取模型的泛化性能。
[0077]
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献