一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于图像语义引导的缺少定位设备的无人机定位方法

2022-04-30 13:14:22 来源:中国专利 TAG:


1.本发明涉图像处理、深度学习领域的一种无人机定位方法,特别涉及了一种基于图像语义引导的缺少定位设备的无人机定位方法。


背景技术:

2.长期以来,遥感影像的研究一直是一个热门话题。有一部分研究致力于从遥感图像中检测目标。其他一些工作致力于遥感图像的语义分割。另一系列作品专注于大场景图像分类。但是利用遥感影像进行无人机定位的研究缺口较大。
3.无人机(uav)近年来发展迅速,由于其操作方便、数据采集能力强,逐渐成为遥感图像采集的主要平台。alexander等人使用来自无人机的数据来定位雨林中的树木。ammour等人提出了一种在无人机图像中检测汽车的深度学习方法。邓等人将基于无人机的多光谱遥感应用于精准农业。无人机应用涉及许多领域,如摄影测量、农业和测绘。但目前无人机的定位导航主要依靠gps、gnss等定位系统。如何在没有定位系统帮助的情况下实现无人机的自主定位和导航是一项具有挑战性的任务。交叉视角图像匹配技术将卫星图像与地理位置标签进行匹配,将无人机图像与没有地理位置标签的无人机图像进行匹配,从而实现无人机图像定位和导航。
4.在一些缺少gps信号的特殊环境中,或者无人机本身没有携带定位设备的情况下,无人机可以通过实时拍摄地面图像并与预先准备好的该地区的卫星图像库中带gps标注的图像进行匹配,从而实现无人机的实时定位。


技术实现要素:

5.本发明提出了一种基于图像语义引导的缺少定位设备的无人机定位方法,要解决的技术问题是,通过设计一个神经网络,提取无人机与卫星图像中的特征,基于特征的相似度比对,实现相同地理位置的图像的匹配来解决无人机缺少gps等定位设备情况下的定位问题。
6.如图1所示,本发明所采用的技术方案是:
7.步骤1:设计用于提取无人机图像与卫星图像特征的神经网络,神经网络用于预测输出不同语义的特征;
8.步骤2:将采集的无人机图像与卫星图像组成的数据集输入到神经网络中进行训练;
9.步骤3:在离线状态下,将卫星图库中的各个卫星图像输入到步骤1获得的神经网络中,提取获得各个卫星图像的不同语义的特征,对于每个卫星图像的不同语义的特征进行融合获得融合特征;具体实施的融合采用拼接方式处理。
10.步骤4:在无人机实时飞行中,将无人机实时采集的无人机图像输入到步骤1获得的神经网络中,提取获得无人机图像的不同语义的特征,对于每个无人机图像的不同语义的特征进行融合获得融合特征;再计算无人机图像的融合特征分别与各个卫星图像的融合
特征之间的相似度,进行匹配实现定位。
11.将卫星图所带的gps信息作为无人机图像拍摄的位置,实现无人机的定位。
12.如图2所示,所述步骤1中的神经网络主要由连续四个自注意力模块和一个语义引导模块依次连接构成;四个自注意力模块构成了主干部分,图像经连续四个自注意力模块处理获得注意力特征图,再将注意力特征图经语义引导模块处理分解为代表不同地理对象的不同语义部分。
13.所述的第一个自注意力模块、第二个自注意力模块、第四个自注意力模块结构的拓扑结构均相同,均由线性压缩层和连续两个自注意力层依次连接构成;
14.所述的第三个自注意力模块结构的拓扑结构由线性压缩层和连续六个自注意力层依次连接构成。
15.所述的语义引导模块具体为:是将主干部分获得的注意力特征图的热力图上各个像素的响应值的大小进行从大到小排序,特征图的热力图是由特征图中的各个通道维度求和获得,再计算相邻两个像素之间响应值的变化梯度,以梯度大于预设梯度阈值的相邻两个像素之间作为分界,将特征图划分为若干个不同语义部分,并且从中提取不同语义部分的特征。不同语义部分可以是非连通的,如前景(目标建筑)和背景(环境)。例如可以获得了建筑物、马路、植被树木等。
16.传统现有方法以cnn为主干,本发明方法采用自注意力层swin-transfomer作为整个神经网络的主干部分,迁移到匹配任务上,相比于cnn能提取到更多细粒度的特征。
17.而且,现存的方法采用硬分块的策略,通过将特征图划分为多个环形的部分来实现图各部分的对齐,当图像中的目标建筑物偏移中心点时会引入特征向量间距离计算的误差,无法准确的实现图像中上下文信息的对齐。传统的语义分割模型,需要通过人工的标注,对模型的语义分支进行训练,实现不同语义的划分,这既增大了人工工作量,也增加了模型的参数量和计算量。
18.而本发明提出的语义引导模块处理后,不需要增加模型额外的参数量,并且不需要人工标注和额外的训练,增加了模型的前向传播速度并减少了人工成本。语义引导模块还能够增加网络的分支,使网络提取到图像中更多的上下文信息,并且使网络在推断阶段实现特征对齐。
19.本发明方法使得模型在测试数据集上取得了大大超越现有方法的性能,在测试集上的检索精度提升了8%。
20.所述步骤2中,针对不同的建筑物采集无人机图像与卫星图像,对于同一建筑物采集无人机图像与卫星图像组成一组,从而建立数据集。
21.具体实施中的卫星图像是由卫星图库中的卫星图像获得,卫星图库中的各个卫星图像均带有gps定位信息。
22.所述的步骤2中,将数据集输入到神经网络前,先进行预处理,包括依次进行的随机旋转和随机截取。
23.通过随机旋转能够利用卫星图像与无人机图像存在角度不固定的特性,增强网络对于旋转的鲁棒性。
24.通过随机截取,能够利用无人机所拍摄的目标对于图像中心存在一定的偏移特点,增加网络对偏移的鲁棒性。
25.所述的神经网络的局部是指将神经网络中的最后一层全连接层删除后的结果,仅保留最后一层全连接层删除后的部分。
26.所述步骤4中,计算无人机图像的融合特征分别与各个卫星图像的融合特征之间的欧氏距离,取欧式距离最小下对应的卫星图像中的定位信息作为当前无人机的定位位置。从而实现无人机与卫星图中同一建筑物目标物的匹配。
27.本发明方法通过将无人机实时拍摄的图像与已有gps标记的卫星图库中的图像匹配,实现无人机无导航系统下的自主定位。
28.本发明方法利用神经网络提取无人机与卫星图像中的特征信息,并通过计算两者特征的相似度来进行匹配,在已有数据集上,本方法体现了较好的鲁棒性和匹配精度。
29.本发明的有益效果:
30.本发明提出了一种特殊的神经网络结构来通过匹配无人机图像和卫星图像的方式实现无人机的定位。
31.本发明提出并使用语义引导模块来实现上下文信息挖掘和推理阶段的特征对齐,提高模型在偏移和尺度下的准确性。
32.本发明方法取得了优异的性能。在基准数据集的各种精度指标上,该方法比现有方法提高了10%。
附图说明
33.图1是本发明方法的流程示意图。
34.图2是本发明中神经网络的结构示意图。
35.图3是本发明中神经网络训练与预测流程示意图。
具体实施方式
36.下面结合附图和具体实施对本发明作进一步说明。
37.如图1所示,按照本发明完整方法实施的实施例包括如下步骤:
38.步骤s1、设计用于提取无人机图像与卫星图像特征的神经网络,神经网络用于预测输出不同语义的特征;
39.神经网络主要由连续四个自注意力模块和一个语义引导模块依次连接构成;四个自注意力模块构成了主干部分,图像经连续四个自注意力模块处理获得注意力特征图,再将注意力特征图经语义引导模块处理分解为代表不同地理对象的不同语义部分。
40.第一个自注意力模块、第二个自注意力模块、第四个自注意力模块结构的拓扑结构均相同,均由线性压缩层和连续两个自注意力层依次连接构成;第三个自注意力模块结构的拓扑结构由线性压缩层和连续六个自注意力层依次连接构成。
41.语义引导模块具体为:是将主干部分获得的注意力特征图的热力图上各个像素的响应值的大小进行从大到小排序,特征图的热力图是由特征图中的各个通道维度求和获得,再计算相邻两个像素之间响应值的变化梯度,以梯度大于预设梯度阈值的相邻两个像素之间作为分界,将特征图划分为若干个不同语义部分,并且从中提取不同语义部分的特征。不同语义部分可以是非连通的,如前景(目标建筑)和背景(环境)。例如可以获得了建筑物、马路、植被树木等。
42.采用swin-transfomer作为整个神经网络的主干部分。将分辨率为256*256的图像分成网格状4个等分辨率的部分输入transformer主干,经过layer1到layer4的处理之后输出大小64*768的特征图。将该特征图输入到语义引导模块后,语义引导模块先对特征图第二个维度进行求和,生成64*1的向量。语义引导模块会根据该向量每个位置上的值的大小对该向量进行聚类,并将该向量拆分为指定数量的部分。
43.如图2中所示,语义引导模块将该图像拆分为前景(标志建筑)和背景(环境)两部分,形成网络的两个分支。网络会在后续的过程中对前景和背景分别提取特征,从而挖掘到图像中更多的上下文信息,而不是仅仅只关注图像前景(标志建筑)部分。这样做的好处在于,既能充分挖掘图像中的信息,也能在中心标志物发生偏移时实现准确的定位,使网络更加鲁棒。在推断阶段计算两个图像特征向量之间的欧式距离时,能够保证前景的特征之间计算距离,背景的特征之间计算距离,从而提高相似度计算结果的准确率。
44.步骤s2、将采集的无人机图像与卫星图像组成的数据集输入到神经网络中进行训练。将数据集输入到神经网络前,先进行预处理,包括依次进行的随机旋转和随机截取。
45.具体实施中,如图3所示,将图像预处理后转换为张量信息作为神经网络的输入,所拍摄的建筑物类型的标签作为监督信号,使用交叉熵作为损失函数。训练神经网络多个周期。
46.张量信息输入gpu,实现加速。测试过程中将batchsize设置为256,提高测试的速度。
47.其中首先读取数据库中的图像并对其进行预处理(其中包括随机旋转和随机截取。前者的好处在于,卫星图像与无人机图像都存在角度不固定的特性,采用随机旋转能增强网络对于旋转的鲁棒性。后者的好处在于,无人机所拍摄的目标对于图像中心存在一定的偏移,随机截取能够增加网络对偏移的鲁棒性)。将预处理后的图像的像素信息转换为张量信息并作为网络的输入,所拍摄的建筑的标签作为监督信号,使用交叉熵作为损失函数。选择sgd作为优化器,其中优化器中的momentum参数设为0.9,weight decay参数设为5e-4。训练网络140个周期。模型主干部分初始的学习率设为9e-4,其他部分初始学习率设为9e-3。在训练80和120个周期时,学习率下降为原来的十分之一。
48.步骤s3、在离线状态下,将卫星图库中的各个卫星图像输入到步骤1获得的神经网络中,提取获得各个卫星图像的不同语义的特征,对于每个卫星图像的不同语义的特征进行融合获得融合特征;具体实施的融合采用拼接方式处理。
49.将拍摄的无人机图像输入到训练完成的网络中,提取图像中的特征,并压缩成特征向量。将卫星图库中带gps标记的所有卫星图像输入到训练完成的网络中,提取每张图像的特征,并压缩成特征向量。计算无人机图像与每张卫星图像特征向量之间的欧式距离。
50.步骤s4、在无人机实时飞行中,将无人机实时采集的无人机图像输入到步骤1获得的神经网络中,提取获得无人机图像的不同语义的特征,对于每个无人机图像的不同语义的特征进行融合获得融合特征;再计算无人机图像的融合特征分别与各个卫星图像的融合特征之间的相似度,进行匹配实现定位。
51.将步骤s3中计算获得的所有欧式距离进行排序,取欧式距离最小的两个特征向量所代表的图像对最为相似度最高的匹配。将该图像对中的卫星图像所标记的gps信息作为该图像对中无人机所拍摄的位置,即当前无人机的位置,实现无人机的定位。
52.经过测试,上述神经网络在测试集上的匹配精度远远超过现有的方法。并且在加上偏移和尺度变化的测试集上,表现出的鲁棒性明显优于现有方法。该方法可以用于无人机在无gps辅助下的自主定位,并提高定位的准确率。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献