一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种结合D3D的三分支三注意力机制高光谱图像分类方法

2022-07-16 11:35:33 来源:中国专利 TAG:

一种结合d3d的三分支三注意力机制高光谱图像分类方法
技术领域
1.本发明属于光谱图像分类技术领域,尤其涉及一种结合d3d的三分支三注意力机制高光谱图像分类方法。


背景技术:

2.目前,高光谱图像具有纳米级的光谱分辨率,能反映出不同地物在光谱维上的细微差异,大大提高了对地物的分辨识别能力。高光谱图像分类是利用高光谱图像中包含的丰富信息,为每个像元赋以唯一的类别标签,是高光谱图像应用的重要方面。然而,高光谱数据具有高维特性,高光谱图像中存在同物异谱和同谱异物现象,导致图像数据结构呈高度非线性,相邻波段及相邻像元之间具有较强的相关性;同时,高光谱图像中标签不足,训练样本往往数量有限,容易发生维数灾难。因此,如何在小样本的前提下,提取具有较强判别性特征和实现精确的分类是高光谱图像分类的关键。
3.传统的机器学习方法一般只利用了光谱信息而忽视了高光谱图像丰富的空间信息,导致分类精度较低;另外,需要花费大量的时间成本和人力成本去标注数据。基于卷积神经网络或者改进的更深网络的卷积神经网络在提取特征时,卷积核的采样位置通常是固定,不能根据图像的实际情况动态调整感受野的尺寸,从而更好的提取特征,限制了分类性能。而基于深度学习的高光谱图像分类方法对于小样本数据分类精度低。因此,亟需设计一种新的高光谱图像分类方法,以弥补现有技术存在的缺陷。
4.通过上述分析,现有技术存在的问题及缺陷为:
5.(1)传统的机器学习方法只利用光谱信息而忽视了高光谱图像丰富的空间信息,导致分类精度较低,且需要花费大量的时间成本和人力成本去标注数据。
6.(2)基于深度学习的高光谱图像分类方法对于小样本数据分类精度低。
7.(3)基于卷积神经网络或者改进的更深网络的卷积神经网络在提取特征时,卷积核的采样位置通常是固定,不能根据图像的实际情况动态调整感受野的尺寸,从而更好的提取特征,限制了分类性能。


技术实现要素:

8.针对现有技术存在的问题,本发明提供了一种结合d3d的三分支三注意力机制高光谱图像分类方法,尤其涉及一种d3dtbta-net:结合d3d的三分支三注意力机制高光谱图像分类方法、系统、介质、设备及终端,旨在解决现有技术类中基于小样本的高光谱图像分类算法分类精度较低的问题。
9.本发明是这样实现的,一种结合d3d的三分支三注意力机制高光谱图像分类方法,所述结合d3d的三分支三注意力机制高光谱图像分类方法包括:构建结合可变形3d卷积的三分支三注意力机制网络d3dtbta-net,用于提取高光谱图像的光谱信息和空间信息;所述三分支三注意力机制网络d3dtbta-net 利用包含的三个分支分别提取出光谱特征图、空间x特征图和空间y特征图,并进行特征图融合、分类;所述三个分支为光谱分支、空间x分支和
空间y分支。
10.进一步,所述结合d3d的三分支三注意力机制高光谱图像分类方法包括以下步骤:
11.步骤一,数据集生成:生成三维立方块的集合,并将三维立方块集随机划分为训练集、验证集和测试集;
12.步骤二,训练模型和验证模型:训练集用于更新多次迭代的参数,而验证集用于监控模型的性能并选择训练最好的模型;
13.步骤三,预测:选择测试集来验证训练模型的有效性,获得分类结果。
14.进一步,所述步骤一中的数据集生成包括:
15.从原始数据中选取中心像素xi的p
×
p邻近像素,生成三维立方块的集合如果目标像素位于图像的边缘,则将缺失的相邻像素值设置为零;在d3dtbta-net算法中,p为补丁大小,补丁大小设置为9,b为光谱带的数量;将三维立方块集随机划分为训练集x
train
、验证集x
val
和测试集x
test
,相应的标签向量分为y
train
、y
val
和y
test
,仅使用目标像素周围的空间信息。
16.进一步,所述步骤二中的训练模型和验证模型包括:
17.利用d3dtbta-net算法训练模型和验证模型,所述d3dtbta-net算法分为三个分支:光谱分支、空间x分支和空间y分支,分别用于捕获光谱特征图、空间x特征图和空间y特征图,并将获取的三个特征图融合进行分类;其中,光谱分支包含dense光谱块和光谱注意块;空间x分支包含dense空间x块和空间x注意块;空间y分支包含dense空间y块和空间y注意块。
18.进一步,所述步骤二中用到如下基本模块:
19.(1)带bn的3d-cnn:带bn的3d-cnn是基于3d立方块的深度学习模型中的常见元素;对于pm×
pm×bm
大小的nm特征图,一个3d-cnn层中,包含大小为α
m 1
×
α
m 1
×dm 1
的k
m 1
个通道,生成尺寸为p
m 1
×
p
m 1
×bm 1
的n
m 1
输出特征图;第(m 1)个带bn的3d-cnn层的第i个输出计算为:
[0020][0021][0022]
其中,是(m 1)层的第j个输入特征映射,是m层的bn后的输出;e(
·
)和var(
·
)分别表示输入的期望和方差函数;和分别表示(m 1) 层3d-cnn的权值和偏置,*是3d卷积运算,r(
·
)是引入网络非线性单元的激活函数。
[0023]
(2)densenet密集连接:密集块是densenet中的基本单位,第l个密集块的输出计算为:
[0024]
x
l
=h
l
[x0,x1,...,x
l-1
];
[0025]
其中,h
l
是一个包含卷积层、激活层和bn层的块,x0,x1,...,x
l-1
表示生成的密集块,连接越多,密集网中的信息流就越多;层数为l的密集网络有l(l 1)/2 个连接,而层数相等的传统卷积网络只有l个直接连接。
[0026]
(3)注意力机制:
[0027]
光谱注意力映射是直接从初始输入计算得到,其中p
×
p是输入的块的大小,c表示输入通道的数量;将a与a
t
进行矩阵乘法运算,得到通道注意映射将softmax层连接为:
[0028][0029]
其中,x
ji
表示第i个通道对第j个通道的影响;将x
t
与a的矩阵乘法结果变形成通过尺度α的参数对重构后的结果进行加权,并加上输入a,得到最终的光谱注意图
[0030][0031]
其中,α初始化为零,逐步学习。最终的图e包含所有通道特征的加权总和,用于描述一个依赖关系,增强特征的可辨别性。
[0032]
空间注意块:给定一个输入特征图采用两个卷积层分别生成新的特征图b和c,其中将b和c变形成其中n=p
×
p为像素数目;在b与c之间进行矩阵相乘,附加softmax层,计算空间注意特征图
[0033][0034]
其中,s
ji
表示第i个像素到第j个像素的影响;两个像素的特征表示越接近,代表像素之间的相关性越强。
[0035]
将初始输入特征a同时送入卷积层,得到新的特征映射被变形为在d和s
t
之间进行矩阵的乘法运算,结果被变形为
[0036][0037]
其中,β初始值为零,逐步学习并分配更多的权重;将所有的位置和原始特征加上一定的权重,得到最终的特征故将空间维度上的上下文信息被模型化为e。
[0038]
(4)可变形3d卷积:可变形卷积根据图像的实际情况动态调整感受野的尺寸,大小为c
×h×
w的输入特征经过大小为p
×q×
r的3d-cnn,以生成大小为 3n
×c×h×
w的偏移特征,其中n=p
×q×
r是采样网格的大小;沿通道维度具有3n 个值,所述值代表d3d采样网格的变形值;将所学习的偏移特征用于3d-cnn 采样网格的变形,以生成d3d采样网格;使用d3d采样网格来产生输出特征。
[0039]
d3d用如下公式表示:
[0040][0041]
其中,δpn表示对应于p
×q×
r卷积采样网格中第n个值的偏移,使用双线性插值来生成精确的值。双线性插值法公式为:
[0042][0043]
(5)mish激活函数:d3dtbta采用的激活函数是mish,这是一个自正则化的非单调
激活函数,而不是传统的relu(x)=max(0,x)。mish的公式是:
[0044]
mish(x)=x
×
tanh(softplus(x));=xi×
tanh(ln(1 e
x
))
[0045]
其中,x表示输入;mish为上界无界,下界范围为[≈-0.31,∞];mish的微分系数定义为:
[0046][0047]
其中,
[0048]
(6)关于最优权重的选择,在训练过程中,选择验证集上准确率最高的模型作为输出,如果在验证集上的准确率一致,则选择在验证集上损失最小的模型输出;每次迭代保存最好的模型,如果下次迭代的模型更好,则替换上一次保存的模型,否则不替换。
[0049]
采用余弦退火方法动态调整学习速率,如下式所示:
[0050][0051]
其中,ηi是在第i次迭代中的范围在的学习率;t
cur
负责计算已经执行的迭代的数量,而ti控制在一个调整周期中执行的迭代的数量。
[0052]
进一步,所述步骤三中的预测包括:
[0053]
hsi数据集a由n个标记像素组成,其中p为波段,对应的类别标签集为其中q为土地覆盖类别数。
[0054]
在hsi分类中,用于衡量预测结果与真实值之间差异的定量指标是交叉熵损失函数,定义为:
[0055][0056]
其中,表示模型预测的标签向量,y=[y1,y2,...,y
l
]表示真实的标签向量。
[0057]
本发明的另一目的在于提供一种结合d3d的三分支三注意力机制高光谱图像分类系统,所述结合d3d的三分支三注意力机制高光谱图像分类系统包括:
[0058]
数据集生成模块,用于生成三维立方块的集合,并将三维立方块集随机划分为训练集、验证集和测试集;
[0059]
模型训练和验证模块,用于通过训练集更新多次迭代的参数,而利用验证集监控模型的性能并选择训练最好的模型;
[0060]
预测模块,用于选择测试集来验证训练模型的有效性,获得分类结果。
[0061]
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
[0062]
构建结合可变形3d卷积的三分支三注意力机制网络d3dtbta-net,用于提取高光
谱图像的光谱信息和空间信息;所述d3dtbta-net分为三个分支:光谱分支、空间x分支和空间y分支,分别提取出光谱特征图、空间x特征图和空间y特征图后,将三个分支上提取出的特征图融合进行分类。
[0063]
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
[0064]
构建结合可变形3d卷积的三分支三注意力机制网络d3dtbta-net,用于提取高光谱图像的光谱信息和空间信息;所述d3dtbta-net分为三个分支:光谱分支、空间x分支和空间y分支,分别提取出光谱特征图、空间x特征图和空间y特征图后,将三个分支上提取出的特征图融合进行分类。
[0065]
本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终端用于实现所述的结合d3d的三分支三注意力机制高光谱图像分类系统。
[0066]
结合上述的技术方案和解决的技术问题,请从以下几方面分析本发明所要保护的技术方案所具备的优点及积极效果为:
[0067]
第一、针对上述现有技术存在的技术问题以及解决该问题的难度,紧密结合本发明的所要保护的技术方案以及研发过程中结果和数据等,详细、深刻地分析本发明技术方案如何解决的技术问题,解决问题之后带来的一些具备创造性的技术效果。具体描述如下:
[0068]
本发明提出了一种结合可变形3d卷积的三分支三注意力机制网络 d3dtbta-net,它可以增强特征提取,充分提取高光谱图像的光谱信息和空间信息,从而提高在小样本前提下的高光谱图像的分类精度。本发明的 d3dtbta-net分三个分支:光谱分支、空间x分支和空间y分支分别提取出光谱特征图、空间x特征图和空间y特征图,然后将三个分支上提取出的特征图融合进行分类。与其他分类方法的对比实验表明,本发明的d3dtbta-net 适合小样本的高光谱图像分类,并且能够获得更好的分类性能。
[0069]
第二,把技术方案看作一个整体或者从产品的角度,本发明所要保护的技术方案具备的技术效果和优点,具体描述如下:
[0070]
本发明能够根据训练好的深度学习模型,自动进行分类,无需输入任何参数和耗费大量的时间成本和人力成本去标注数据;通过可变形3d卷积和三分支三注意力机制能够提取出更具判别力的特征,从而提高分类精度,解决了维度灾难问题,在训练样本数量有限的情况下,仍然能保持好的分类性能。
[0071]
第三,作为本发明的权利要求的创造性辅助证据,还体现在以下几个重要方面:
[0072]
本发明的技术方案转化后的预期收益和商业价值为:目前,遥感技术已广泛应用于农业、林业、地质、海洋、气象、水文、军事、环保等领域。本发明方法提高了遥感图像的分类精度,可将其应用于各个领域,比如将其应用于农业生产中,可以动态监测农作物的长势、监测农作物病虫害、进行农作物估产等,在农业生产中,遥感技术能周期性观测和大面积覆盖获取地面信息,大大节省了人力成本,减少人力因素产生的误差,从而推动我国农业现代化进程。
附图说明
[0073]
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于
本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
[0074]
图1是本发明实施例提供的结合d3d的三分支三注意力机制高光谱图像分类方法流程图;
[0075]
图2是本发明实施例提供的结合d3d的三分支三注意力机制高光谱图像分类系统结构框图;
[0076]
图3是本发明实施例提供的d3dtbta-net算法流程图;
[0077]
图4是本发明实施例提供的光谱注意力映射的计算过程示意图;
[0078]
图5是本发明实施例提供的可变形3d卷积示意图;
[0079]
图6是本发明实施例提供的d3dtbta的网络结构示意图;
[0080]
图7是本发明实施例提供的indian pines(ip)数据集上的实验图;其中图 7(a)伪彩图;图7(b)对应标签;图7(c)svm(68.75%);图7(d)cdcnn(64.21%);图7(e)ssrn(91.59%);图7(f)fdssc(93.85%);图7(g)dbda(91.32%);图7(h) d3dtbta(95.74%);
[0081]
图中:1、数据集生成模块;2、模型训练和验证模块;3、预测模块。
具体实施方式
[0082]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0083]
针对现有技术存在的问题,本发明提供了一种结合d3d的三分支三注意力机制高光谱图像分类方法,下面结合附图对本发明作详细的描述。
[0084]
一、解释说明实施例。为了使本领域技术人员充分了解本发明如何具体实现,该部分是对权利要求技术方案进行展开说明的解释说明实施例。
[0085]
实施例1
[0086]
为了解决现有技术类中,基于小样本的高光谱图像分类算法分类精度较低。本发明提出了一种结合可变形3d卷积的三分支三注意力机制网络 d3dtbta-net,它可以增强特征提取,充分提取高光谱图像的光谱信息和空间信息,从而提高在小样本前提下的高光谱图像的分类精度。d3dtbta-net分三个分支:光谱分支、空间x分支和空间y分支分别提取出光谱特征图、空间x 特征图和空间y特征图,然后将三个分支上提取出的特征图融合进行分类。与其他分类方法的对比实验表明,d3dtbta-net适合小样本的高光谱图像分类,并且能够获得更好的分类性能。
[0087]
如图1所示,本发明实施例提供的结合d3d的三分支三注意力机制高光谱图像分类方法包括以下步骤:
[0088]
s101,数据集生成:将三维立方块集随机划分为训练集、验证集和测试集;
[0089]
s102,训练模型和验证模型:训练集用于更新多次迭代的参数,而验证集用于监控模型的性能并选择训练最好的模型;
[0090]
s103,预测:选择测试集来验证训练模型的有效性,获得分类结果。
[0091]
如图2所示,本发明实施例提供的结合d3d的三分支三注意力机制高光谱图像分类系统包括:
[0092]
数据集生成模块1,用于生成三维立方块的集合,并将三维立方块集随机划分为训练集、验证集和测试集;
[0093]
模型训练和验证模块2,用于通过训练集更新多次迭代的参数,而利用验证集监控模型的性能并选择训练最好的模型;
[0094]
预测模块3,用于选择测试集来验证训练模型的有效性,获得分类结果。
[0095]
本发明实施例提供的d3dtbta-net算法的过程包含三个步骤:数据集生成、训练和验证以及预测。图3说明了本发明方法的整个算法流程。
[0096]
假设hsi数据集a由n个标记像素组成,其中p为波段,对应的类别标签集为其中q为土地覆盖类别数。
[0097]
步骤1,数据集生成。从原始数据中选取中心像素xi的p
×
p邻近像素,生成三维立方块的集合如果目标像素位于图像的边缘,则将缺失的相邻像素值设置为零。在d3dtbta-net算法中,p为补丁大小,本发明方法中的补丁大小设置为9,b为光谱带的数量。然后,将三维立方块集随机划分为训练集x
train
、验证集x
val
和测试集x
test
。相应的标签向量分为y
train
、y
val
和y
test
。由于相邻像素的标签对网络是不可见的,所以只使用目标像素周围的空间信息。
[0098]
步骤2,训练模型和验证模型。训练集用于更新多次迭代的参数,而验证集用于监控模型的性能并选择训练最好的模型。在步骤2中,训练模型和验证模型用到了本发明的算法d3dtbta-net,它分为三个分支:光谱分支、空间x分支和空间y分支,分别捕获光谱特征图、空间x特征图和空间y特征图,然后将获取的三个特征图融合进行分类。其中,光谱分支包含dense光谱块和光谱注意块;空间x分支包含dense空间x块和空间x注意块;空间y分支包含de nse空间y块和空间y注意块。
[0099]
步骤3,预测。选择测试集来验证训练模型的有效性,即可获得分类结果。在hsi分类中,常用的衡量预测结果与真实值之间差异的定量指标是交叉熵损失函数,定义为:
[0100][0101]
其中,为模型预测的标签向量,y=[y1,y2,...,y
l
]表示真实的标签向量。
[0102]
进一步,步骤2中用到了如下基本模块。
[0103]
(1)带bn的3d-cnn。带bn的3d-cnn是基于3d立方块的深度学习模型中的常见元素。对于pm×
pm×bm
大小的nm特征图,一个3d-cnn层中,包含大小为α
m 1
×
α
m 1
×dm 1
的k
m 1
个通道,生成尺寸为p
m 1
×
p
m 1
×bm 1
的n
m 1
输出特征图。第(m 1)个带bn的3d-cnn层的第i个输出计算为:
[0104][0105][0106]
其中是(m 1)层的第j个输入特征映射,是m层的bn后的输出。e(
·
)
和var(
·
)分别表示输入的期望和方差函数。和表示(m 1)层 3d-cnn的权值和偏置,*是3d卷积运算,r(
·
)表示引入网络非线性单元的激活函数。
[0107]
(2)densenet密集连接。通常,卷积层越多,网络的性能就越好。然而,当网络达到一定深度后,继续增加层数并不能带来性能的提升,反而会造成网络退化,即随着网络层数的增加,训练集上的准确率逐渐饱和甚至下降。 densenet是解决这一难题的有效方法。
[0108]
密集块是densenet中的基本单位,第l个密集块的输出计算为:
[0109]
x
l
=h
l
[x0,x1,...,x
l-1
]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0110]
其中h
l
是一个包含卷积层、激活层和bn层的块,x0,x1,...,x
l-1
表示生成的密集块,连接越多,密集网中的信息流就越多。具体来说,层数为l的密集网络有l(l 1)/2个连接,而层数相等的传统卷积网络只有l个直接连接。
[0111]
(3)注意力机制。3d-cnn的一个缺点是所有的空间像素和光谱波段在空间域和光谱域中拥有等价的权值。显然,不同的光谱波段和空间像元对提取特征的贡献是不同的。
[0112]
如图4所示,光谱注意力映射是直接从初始输入计算出来的,其中p
×
p是输入的块的大小,c表示输入通道的数量。首先,将a与a
t
进行矩阵乘法运算,得到通道注意映射将softmax层连接为:
[0113][0114]
其中x
ji
表示第i个通道对第j个通道的影响。其次,将x
t
与a的矩阵乘法结果变形成最后,通过尺度α的参数对重构后的结果进行加权,并加上输入a,得到最终的光谱注意图
[0115][0116]
式中α初始化为零,可以逐步学习。最终的图e包含了所有通道特征的加权总和,可以描述一个依赖关系,增强特征的可辨别性。
[0117]
空间注意块。给定一个输入特征图采用两个卷积层分别生成新的特征图b和c,其中首先,将b和c变形成其中n=p
×
p 为像素数目。其次,在b与c之间进行矩阵相乘,随后附加一个softmax层,计算空间注意特征图
[0118][0119]
其中s
ji
表示第i个像素到第j个像素的影响。两个像素的特征表示越接近,代表它们之间的相关性越强。
[0120]
将初始输入特征a同时送入卷积层,得到一个新的特征映射被变形为最后在d和s
t
之间进行矩阵的乘法运算,结果被变形为
[0121][0122]
式中β初始值为零,可以逐步学习并分配更多的权重。由式(8)可知,将所有的位置和原始特征加上一定的权重,得到最终的特征因此,将空间维度上的上下文信
息被模型化为e。
[0123]
(4)可变形3d卷积。基于cnn或者改进的更深网络的cnn在提取特征时,卷积核的采样位置通常是固定网格的,对于非常复杂的、不同尺度或形状的物体,传统的基于卷积神经网络的方法不能有效地从复杂结构中提取特征,从而限制了分类性能。可变形卷积可以根据图像的实际情况动态调整感受野的尺寸,更好地提取特征。可变形卷积通常是二维的,可变形3d卷积(deformable3dconvolution,d3d)将可变形卷积和3d-cnn融合在了一起,从而显著提升了cnns的形变建模能力。d3d可以通过可学习的偏移变量来扩大空间感受野,如图5所示,大小为c
×h×
w的输入特征首先经过大小为p
×q×
r的3d-cnn,以生成大小为3n
×c×h×
w的偏移特征(其中n=p
×q×
r是采样网格的大小)。沿其通道维度具有3n个值,这些值代表d3d采样网格的变形值。然后将所学习的偏移特征用于3d-cnn采样网格的变形,以生成d3d采样网格。最后,使用d3d采样网格来产生输出特征。d3d可以用如下公式表示:
[0124][0125]
其中δpn表示对应于p
×q×
r卷积采样网格中第n个值的偏移。由于偏移变量通常是小数,所以使用双线性插值来生成精确的值。双线性插值法公式为:
[0126][0127]
(5)mish激活函数。d3dtbta采用的激活函数是mish,这是一个自正则化的非单调激活函数,而不是传统的relu(x)=max(0,x)。mish的公式是:
[0128]
mish(x)=x
×
tanh(softplus(x))=xi×
tanh(ln(1 e
x
))(11)
[0129]
其中x表示输入。mish为上界无界,下界范围为[≈-0.31,∞]。mish的微分系数定义为:
[0130][0131]
其中
[0132]
(6)关于最优权重的选择,在训练过程中,选择验证集上准确率最高的模型作为输出,如果在验证集上的准确率一致,则选择在验证集上损失最小的模型输出。每次迭代保存最好的模型,如果下次迭代的模型更好,则替换上一次保存的模型,否则不替换。
[0133]
学习速率是训练网络的一个重要超参数,动态学习速率可以帮助网络避免局部极小值。采用余弦退火方法动态调整学习速率,如下式:
[0134][0135]
其中ηi是在第i次迭代中其范围在的学习率。t
cur
负责计算已经执行的迭代的数量,而ti控制在一个调整周期中执行的迭代的数量。
[0136]
实施例2
[0137]
d3dtbta的网络结构如图6所示。为了方便起见,将上面的分支叫做光谱分支,下面
的分支分别叫做空间x分支和空间y分支。分别输入光谱支路、空间x支路和空间y支路,得到光谱特征图和空间特征图。然后采用光谱、空间 x特征图和空间y特征图的融合运算得到分类结果。
[0138]
以下部分以indian pines(ip)数据集为例,介绍了光谱分支、空间x分支、空间y分支以及光谱与空间的融合操作。样本立方块大小为9
×9×
200,如下提到的矩阵(9
×9×
97,24),9
×9×
97表示3d立方块的高度、宽度和深度,24表示由 3d-cnn生成的3d立方块的数量。ip数据集包含145
×
145像素,200个光谱波段,即ip的大小为145
×
145
×
200。只有10249个像素有相应的标签,其他像素是背景。
[0139]
由于hsi的光谱通道特别多,其对于分类来说是冗余的,通常hsi分类算法都会先进行降维操作,减小冗余,从而提高分类正确率。d3dtbta首先使用了一个卷积核大小为1
×1×
7的3d-cnn层,步幅设为(1,1,2),以减少通道数量,得到(9
×9×
97,8)的特征图,然后用了卷积核大小为3
×3×
3的可变形3d卷积增强特征,再经过一个卷积核大小为1
×1×
7的3d-cnn层,捕获(9
×9×
97,24)的特征图作为三分支的输入特征图。
[0140]
将捕获的大小为(9
×9×
97,24)的特征图输入到光谱分支,首先经过带bn的 3d-cnn dense光谱块,每个dense光谱块的3d-cnn有12个通道,卷积核大小为1
×1×
7。经过dense光谱块后,由式(5)计算得到特征图的通道增加到60条,此时特征图的大小为(9
×9×
97,60)。接下来,在最后一个卷积核大小为1
×1×
97的 3d-cnn之后,生成一个(9
×9×
1,60)的特征图。然而,这60个通道对分类做出了不同的贡献。为了细化光谱特征,采用光谱注意块,其强化了有用信息的权重,削弱了冗余信息的权重。在得到加权的光谱特征图后,经过一个大小为3
×3×
1的可变形3d卷积来增强特征,然后采用bn层和dropout层来提高稳定性和鲁棒性。最后,通过全局平均池化层,得到1
×
60的特征图。光谱分支的实施细节如表1所示。
[0141]
表1光谱分支的实施细节
[0142][0143]
同时,将(9
×9×
97,24)的特征图输入到空间x分支,然后添加带bn的 3d-cnn dense空间x块。每个3d-cnn在dense空间x块中有12个通道,卷积核大小为3
×1×
1。接下来,将(9
×9×
1,60)的特征图输入到空间x注意块中,利用空间x注意块,对每个像素的系数进行加权,得到更具判别性的空间x特征图。在获取加权的空间x特征图后,经过一个大小为3
×3×
1的可变形3d卷积来增强特征,再通过bn层、dropout层和全局平均池化层得到1
×
60的空间x特征图。空间x分支的实施细节如表2所示。
[0144]
表2空间x分支的实施细节
[0145][0146]
同样的,将(9
×9×
97,24)的特征图输入到空间y分支,然后添加带bn的 3d-cnn dense空间y块。每个3d-cnn在dense空间y块中有12个通道,卷积核大小为1
×3×
1。将(9
×9×
1,60)的特征图输入到空间y注意块中,利用空间y 注意块,对每个像素的系数进行加权,得到更具判别性的空间y特征图。在获取加权的空间y特征图后,经过一个大小为3
×3×
1的可变形3d卷积来增强特征,再通过bn层、dropout层和全局平均池化层得到1
×
60的空间y特征图。空间y 分支的实施细节如表3所示。
[0147]
表3空间y分支的实施细节
[0148][0149][0150]
经过光谱分支、空间x分支和空间y分支,得到了光谱特征图、空间x特征图和空间y特征图,然后,连接三个特征图进行分类。另外,采用串联运算而不是相加运算的原因是,光谱特征、空间x特征和空间y特征都在不相关的域中,串联运算可以使光谱特征、空间x特征和空间y特征保持独立,而相加运算则会使光谱特征、空间x特征和空间y特征混合在一起。
最后,通过全连接层和softmax层得到分类结果。
[0151]
本发明方法在4个公开的高光谱数据集上进行了实验,即indian pines(ip) 数据集、pavia university(up)数据集、salinas valley(sv)数据集和kennedy space center(ksc)。对比了其他5种方法:svm、cdcnn、ssrn、fdssc和dbda。这些方法都是小样本高光谱图像分类的有效方法,受到了研究者的认证。
[0152]
实验都在相同的平台上执行,配置16gb内存和nvidia geforce rtx 1080ti gpu。所有基于深度学习的分类器使用pytorch实现,支持向量机使用sklearn实现。
[0153]
由于svm直接使用光谱信息进行分类,因此输入样本大小为1
×1×
p。为了更好地进行对比实验,其他基于深度学习的方法使用相同的输入样本大小 9
×9×
p,其中p是光谱带的数量。
[0154]
cdcnn、ssrn、fdssc、dbda和本发明方法d3dtbta的批处理大小均设为16,优化器设为adam,学习率为0.0005。每种方法独立进行10次迭代,实验结果取10次迭代结果的平均值。epoch的总数设置为150,每个epoch的步长为30。使用最优权重选择方法进行实验。
[0155]
训练样本和验证样本的大小均为总样本的3%。indian pines(ip)数据集中的训练、验证和测试样本的数量如表4所示。
[0156]
表4 ip数据集中的训练、验证和测试样本的数量
[0157][0158]
二、应用实施例。为了证明本发明的技术方案的创造性和技术价值,该部分是对权利要求技术方案进行具体产品上或相关技术上的应用实施例。
[0159]
本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、cd或dvd-rom的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备
等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
[0160]
三、实施例相关效果的证据。本发明实施例在研发或者使用过程中取得了一些积极效果,和现有技术相比的确具备很大的优势,下面内容结合试验过程的数据、图表等进行描述。
[0161]
实施例中,indian pines(ip)数据集上的实验结果如图7以及如下表5所示,其中训练集的大小为3%。
[0162]
表5
[0163][0164]
其中图7(a)伪彩图;图7(b)对应标签;图7(c)svm(68.75%);图7(d) cdcnn(64.21%);图7(e)ssrn(91.59%);图7(f)fdssc(93.85%);图7(g) dbda(91.32%);图7(h)d3dtbta(95.74%)。
[0165]
其中四个数据集中,不同训练样本比例的综合精度(oa)如表6所示。
[0166]
表6不同训练样本比例下的综合精度(oa)
[0167]
[0168][0169]
不同训练样本比例下,最好的分类结果加粗表示。如表所示,本发明方法的分类性能优于其他方法。本发明提出的方法d3dtbta除了在1%训练样本比例的ip数据集上,分类精度不是最好的,但与最好的分类精度差距不大,在其他数据集和不同的训练样本比例下,本发明提出的方法均得到了最好的分类精度。且随着训练样本比例的增加,分类精度也越来越高。在训练样本比较少的情况下,本发明提出的方法仍能保持好的分类性能。
[0170]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献