一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

类别引导多尺度解耦的海洋遥感图像文本检索方法及系统

2022-11-09 22:23:12 来源:中国专利 TAG:


1.本发明属于遥感图像处理技术领域,特别涉及类别引导多尺度解耦的海洋遥感图像文本检索方法及系统。


背景技术:

2.海洋遥感图像文本检索是解决遥感数据中文本数据缺失和文本数据描述不准确问题的重要方法。海洋遥感图像文本检索利用跨模态检索算法,分析大量卫星遥感图像并自动检索出大量准确描述该图像的文本数据,以达到解决文本数据缺失和文本数据描述不准确的目的。传统方法主要面临的问题是提取有效图像特征困难,这是由于海洋遥感图像中目标的空间分布较为分散,且图像中的有效目标少,在全局信息的融合过程中会稀释掉有效目标的信息,影响后续的数据挖掘。因此,前沿海洋遥感图像文本检索方法引入多尺度特征提取和注意力机制,yuan等人提出了一种新颖的细粒度多模态特征匹配网络,其优势在于得到不同尺度下的图像特征并提取出关键特征,从而检索出更准确的文本信息。
3.但现有方法存在以下问题:第一,在多尺度特征交互过程中会产生大量冗余噪声。多尺度特征往往包含重复区域,当多尺度特征通过加法或级联融合时,重复区域不断积累,导致多尺度内容的利用率低下,且现有方法使用的冗余特征过滤算法较为简单,无法过滤大量噪声,冗余噪声会影响后续的数据融合与挖掘。例如,现有方法使用门控思想过滤冗余特征,此方法不仅无法有效过滤大量噪声,并存在过滤有效信息的可能。第二,现有方法常基于图像的多尺度特征进行知识解耦,忽略了图像语义信息和文本语义信息在图文检索中的消歧作用。在海洋遥感图像文本检索问题上,仅考虑尺度维度上的特征解耦不但是对丰富语义信息价值的一种浪费,还会因为价值信息匮乏,使模型提取到有效关键特征的时间和难度都会增加。其中,图像的低阶语义信息是对浅层特征的表达(如颜色,几何,纹理等特征等),文本的语义信息可理解为与类别划分有关的信息,图文语义信息的引入,可对图像内容中纹理,几何,颜色等信息进行表达,也可以对文本描述、文本类信息进行表达。这种图文表达的语义信息会使网络后端对类别归属做出正确的预测。
4.因此,针对以上问题,本发明提出了类别引导双向多尺度解耦网络,实现多尺度解耦的同时,又引入有效类信息(图文语义信息)进行解耦。建立尺度与语义双解耦的海洋多模态信息融合框架,拟解决多尺度维度的噪声冗余和多维度解耦表征信息融合难的问题。


技术实现要素:

5.针对现有技术存在的不足,本发明提供类别引导多尺度解耦的海洋遥感图像文本检索方法及系统,通过双向多尺度解耦,得到不同尺度上的解耦特征,并通过类别标签引导,实现图像和文本的类别特征引导解耦的图像特征和文本特征,解决多尺度维度的噪声冗余和多维度解耦表征信息融合难的问题。
6.为解决上述技术问题,本发明采用以下技术方案:首先,本发明提供一种类别引导多尺度解耦的海洋遥感图像文本检索方法,包括
以下步骤:步骤s0、获取海洋遥感图像和遥感相关文本;步骤s1、提取海洋遥感图像的图像特征:首先由卷积神经网络进行图像的特征嵌入工作,将得到的图像基础特征以不同采样率的空洞卷积进行采样,得到不同尺度的图像特征;步骤s2、提取遥感相关文本的文本特征t;步骤s3、双向多尺度解耦:对步骤s1得到的不同尺度的图像特征进行解耦,提取每个尺度上对应的潜在特征,抑制其他尺度上的繁琐特征,获得图像的解耦特征f;步骤s4、类别标签引导:首先生成图像和文本的类别特征,然后利用生成的类别特征引导图像的解耦特征f和文本特征t,利用乘法计算最终的类别相关的图像特征和文本特征;步骤s5、计算相似度与语义引导三元组损失:首先对步骤s4输出的类别相关的图像特征和文本特征进行类别匹配,判断图像和文本是否属于同一类别,并把类别属性作为外部知识输入到下游任务中,对异类图文匹配的异类信息进行动态权重选择;然后计算语义引导三元组损失,迭代步骤s1-s5,反向传播训练;步骤s6、输入待检索的海洋遥感图像,输出遥感相关文本数据;或者输入待检索的遥感相关文本数据,输出海洋遥感图像。
7.进一步的,步骤s3分为两个步骤:s31、对于图像特征提取模块提取出的每个尺度的图像特征,在当前尺度上基于注意力机制构建注意力图,提取潜在特征;并生成抑制掩膜;s32、针对不同特征尺度下提取的注意力图与抑制掩膜,通过来促进对应尺度上的显着性信息,用于抑制其他尺度的显著性特征,得到过滤冗余信息之后的图像特征来实现尺度解耦,通过逐步抑制的方式将注意力图应用到解耦特征与的生成过程中,其中是小尺度到大尺度方向上的解耦特征,是大尺度到小尺度方向上的解耦特征;最后通过concat操作,把各种特征尺度的解耦特征与的合成最终图像的解耦特征f。
8.进一步的,解耦特征的计算公式如下:
其中,m为不同尺度的编号,分别是大中小三个尺度,注意力图与抑制掩膜通过运算级联得到解耦特征与。
9.进一步的,步骤s4具体如下:s41、从步骤s0获取的海洋遥感图像中获取类别语义标签,通过遥感图像分类器训练得到遥感图像类别特征u;s42、从步骤s0获取的遥感相关文本中获取类别语义标签,通过遥感相关文本分类器训练得到遥感相关文本类别特征v,s43、将步骤s3得到的图像的解耦特征f与遥感图像类别特征u相乘,将步骤s2得到的文本特征t和遥感相关文本类别特征v相乘,相乘目的是将图像的解耦特征f与相关文本的文本特征t分别与对应模态的类别特征u&v进行注意力增强得到最终的类别相关的图像特征和类别相关的文本特征。
10.进一步的,步骤s31具体步骤是:首先通过平均池化和最大池化操作聚合一个特征的通道信息,生成两个特征描述符,然后,特征描述符通过一个标准的卷积层和 sigmoid 函数来产生注意力图;通过二进制掩码生成抑制掩膜;其中是一个二进制掩码,它将最显著的值取为0,其他取为1。
11.进一步的,步骤s5中,首先,通过softmax将类别特征转换为图像和文本的语义类别和;然后,定义一个参数来调整损失,参数表示为:表示为:为常数值,在常数值的基础上,设计基于类别的三元组损失,详细如下:其中指边距,表示样本图像和正样本文本的相似度;表示样本图像和负样本文本的相似度;表示样本文本和正样本图像的相似度;表示样本文本和负样本图像的相似度;第一个求和针对图像特征与所有的文本特征进行匹配,包括正样本的文本特征和负样本的文本特征,第二个求和针对文本特征与所有的图像特征进行匹配,包括正样本的图像特征和负样本的图像特征;两个求和构建的三元组损失函数目的是最大化与正样本间的相似度,最小化与负样本间的相似度。
12.本发明还提供一种类别引导多尺度解耦的海洋遥感图像文本检索系统,用于实现如前所述的类别引导多尺度解耦的海洋遥感图像文本检索方法,包括输入模块、图像特征提取模块、文本特征提取模块、双向多尺度解耦模块、类别标签引导模块、语义引导三元组
损失模块、输出模块;所述图像特征提取模块,包括深度残差网络和空洞空间卷积池化金字塔,用于提取多尺度的图像特征,所述文本特征提取模块,进行文本特征提取,得到遥感相关文本的文本特征t;所述双向多尺度解耦模块,用于对图像特征提取模块输出的多尺度的图像特征进行解耦,得到解耦特征f;所述类别标签引导模块,包括遥感图像分类器和遥感相关文本分类器,分别用于获得遥感图像类别特征u和遥感相关文本类别特征v;利用类别语义标签u&v作为先验知识来引导图像和文本,以构建类别特征,实现语义维度上的特征解耦;其中u&v通过预训练模型标注的类别特征;将图像的解耦特征f与相关文本的文本特征t分别与对应模态的类别特征u&v进行注意力增强,获得类别相关的图像和文本特征;所述语义引导三元组损失模块,用于计算语义引导三元组损失;对类别特征进行类别匹配,判断图像和文本是否属于同一类别,并把类别属性作为外部知识输入到下游任务中,对异类图文匹配的异类信息进行动态权重选择;所述输入模块用于输入待检索的海洋遥感图像或遥感相关文本数据,所述输出模块用于输出遥感相关文本数据或海洋遥感图像。
13.与现有技术相比,本发明优点在于:(1)解决了噪声冗余问题。本发明有效过滤了多尺度特征交互过程中产生的大量冗余噪声。构建双向多尺度解耦模块,以双向模式自适应地提取每个尺度的潜在特征并抑制其他尺度的繁琐特征,既提取了每个尺度的有效特征,又抑制了每个尺度的冗余特征,因此过滤掉了大量冗余噪声,提取有效特征。
14.(2)引入类别信息(语义信息)提高了特征的鲁棒性。本发明把两种维度的语义解耦进行了统一。构建类别标签引导模块,利用类别语义标签作为先验知识来监控图像和文本,以构建更优秀的类别特征,实现语义维度上的特征解耦。类别语义特征会强调有效特征,把语义解耦的知识通过级联映射到视觉多尺度样本空间内。类别属性作为两种模态信息的桥梁,在对齐多模态知识的同时,又为模型提供了外部知识,从而帮助模型快速提取有效特征,挖掘出遥感图像中的有效对象。同时,图像多尺度特征、有效类信息(文本语义特征)和图像语义特征的对齐融合也可以产生类别信息、像素归属和尺度特征的表达,这种图文表达的语义信息会使网络后端对类别归属做出正确的预测。
15.(3)利用先验知识解决提取有效特征难、检索准确率低的问题。本发明构建了语义引导三元组损失模块对类别特征进行类别匹配,判断图像和文本是否属于同一类别,并把类别属性作为外部知识输入到下游任务中,对异类图文匹配的异类信息进行动态权重选择。例如,本文训练高准确率的遥感图像分类模型和遥感文本分类模型作为先验知识,加入损失函数中,如果图片和文本的类别相同即增大相似度,这样大大缩短了模型收敛的时间,因为类别相同的图片和文本匹配的概率确实比不匹配的概率大的多。从而模型的检索准确率也大大增加。
附图说明
16.为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用
的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
17.图1为本发明的系统架构图;图2为本发明的方法流程图。
具体实施方式
18.下面结合附图及具体实施例对本发明作进一步的说明。
19.实施例1结合图1、图2所示,类别引导双向多尺度解耦的海洋遥感图像文本检索方法,首先对数据进行预处理,包括海洋遥感图像的处理,然后将预处理后的数据,一方面通过文本特征提取模块提取文本特征t,一方面通过双向多尺度解耦提取解耦后的图像特征f;然后将解耦的图像特征f和文本特征t输入类别标签引导模块,利用类别语义标签(u&v)作为先验知识来监控图像和文本,以构建类别特征,实现语义维度上的特征解耦;最后通过图像和文本的相似度,计算语义引导三元组损失,判断图像和文本是否同一类,反向传播。
20.具体包括以下步骤:步骤s0、获取海洋遥感图像和遥感相关文本。
21.步骤s1、提取海洋遥感图像的图像特征:首先由卷积神经网络进行图像的特征嵌入工作,将得到的图像基础特征以不同采样率的空洞卷积进行采样,得到不同尺度的图像特征。通过本步骤获得图像的表征。
22.步骤s2、提取遥感相关文本的文本特征t。在具体应用时,可以选择利用词向量嵌入模型(句子嵌入)和skip-thought(句子编码器)文本处理模型进行文本特征提取。通过本步骤获得文本的表征。
23.步骤s3、双向多尺度解耦:对步骤s1得到的不同尺度的图像特征进行解耦,提取每个尺度上对应的潜在特征,抑制其他尺度上的繁琐特征,获得图像的解耦特征f。分为两个步骤:s31、对于图像特征提取模块提取出的每个尺度的图像特征,在当前尺度上基于注意力机制构建注意力图,提取潜在特征;并生成抑制掩膜。
24.具体是:首先通过平均池化和最大池化操作聚合一个特征的通道信息,生成两个特征描述符,然后,特征描述符通过一个标准的卷积层和 sigmoid 函数来产生注意力图;通过二进制掩码生成抑制掩膜;其中是一个二进制掩码,它将最显著的值取为0,其他取为1; 抑制掩码缓解了在其他尺度上的覆盖效应,使不同尺度的共同指信息脱颖而出。
25.s32、针对不同特征尺度下提取的注意力图与抑制掩膜,通过来促进对应尺度上的显着性信息,用于抑制其他尺度的显著性特征,得到过滤冗余信息之后的
图像特征来实现尺度解耦,通过逐步抑制的方式将注意力图应用到解耦特征与的生成过程中;最后通过concat操作,把各种特征尺度的解耦特征与的合成最终图像的解耦特征f,公式如下:其中,m为不同尺度的编号,分别是大中小三个尺度,注意力图与抑制掩膜通过运算级联得到解耦特征与,其中是小尺度到大尺度方向上的解耦特征,是大尺度到小尺度方向上的解耦特征。
26.具体来说,由于注意力图表示特征的显着区域,抑制掩码充分利用注意力图表示来抑制对应尺度上的显着性信息。抑制掩码缓解注意力图表示在其他尺度上的覆盖效果,使不同的信息突出。
27.步骤s4、类别标签引导:首先生成图像和文本的类别特征,然后利用生成的类别特征引导图像的解耦特征f和文本特征t,利用乘法计算最终的类别相关的图像和文本特征和,具体如下:s41、从步骤s0获取的海洋遥感图像中获取类别语义标签,通过遥感图像分类器训练得到遥感图像类别特征u;s42、从步骤s0获取的遥感相关文本中获取类别语义标签,通过遥感相关文本分类器训练得到遥感相关文本类别特征v;两分类器均为预训练模型,其预测准确率达到80%以上,可以把预训练模型中丰富的语义知识迁移到后续的训练过程,可看作本模型的先验知识监督。
28.s43、将步骤s3得到的图像的解耦特征f与遥感图像类别特征u相乘,以指导检索网络探测重要且可靠的类别相关信息;将步骤s2得到的文本特征t和遥感相关文本类别特征v相乘,相乘目的是将图像的解耦特征f与相关文本的文本特征t分别与对应模态的类别特征u&v进行注意力增强得到最终的类别相关的图像特征和文本特征,充分利用乘法,可以在特征组合过程中实现相关特征的显着增强。
29.和不仅捕获了可鉴别的多尺度语义信息,而且突出了与类别相关的可靠知识,从而提高了检索网络的准确性。以指导检索网络探测重要且可靠的类别相关信息。其中图像的解耦特征f与遥感图像类别特征u使用图像和文本的分类先验知识指导图像特征和文本特征,先把预训练语义特征的知识进行语义解耦,并将解耦后的语义信息与原始检索网络相结合,以探索有意义和可靠的类别相关数据,这样语义信息在实现类别监督的同时,
也通过先验知识指导模块把语义信息和尺度信息在不同的模态信息上进行了融合对齐;公式如下: 。
30.步骤s5、计算相似度与语义引导三元组损失:首先对步骤s4输出的类别相关图像和文本特征和进行类别匹配,判断图像和文本是否属于同一类别,以提高同类别跨模态数据的检索概率;并把类别属性作为外部知识输入到下游任务中,对异类图文匹配的异类信息进行动态权重选择,以提高同类别跨模态数据的检索概率;然后计算语义引导三元组损失,迭代步骤s1-s5,反向传播训练。
31.首先,通过softmax将类别特征转换为图像和文本的语义类别和;然后,定义一个参数来调整损失,参数表示为:表示为:为常数值,在常数值的基础上,设计基于类别的三元组损失,详细如下:三重损失函数的目的是在尽可能减少样本与正样品之间语义空间距离的同时,增加样本与相应负样品之间的距离。其中指边距,表示样本图像和正样本文本的相似度;表示样本图像和负样本文本的相似度;表示样本文本和正样本图像的相似度;表示样本文本和负样本图像的相似度;第一个求和针对图像特征与所有的文本特征进行匹配(包括正样本的文本特征和负样本的文本特征),第二个求和针对文本特征与所有的图像特征进行匹配(包括正样本的图像特征和负样本的图像特征)。两个求和构建的三元组损失函数目的是最大化与正样本间的相似度,最小化与负样本间的相似度。
32.步骤s6、输入待检索的海洋遥感图像,输出遥感相关文本数据。(或者输入待检索的遥感相关文本数据,输出海洋遥感图像)。
33.实施例2类别引导双向多尺度解耦的海洋遥感图像文本检索系统,包括输入模块、图像特征提取模块、文本特征提取模块、双向多尺度解耦模块、类别标签引导模块、语义引导三元组损失模块、输出模块。
34.所述图像特征提取模块,包括卷积神经网络和空洞空间卷积池化,用于提取多尺度的图像特征,
所述文本特征提取模块,利用词向量嵌入(句子嵌入)模型和skip-thought(句子编码器)文本处理模型进行文本特征提取,得到遥感相关文本的文本特征t;所述双向多尺度解耦模块,用于对图像特征提取模块输出的多尺度的图像特征进行解耦,得到解耦特征f;所述类别标签引导模块,包括遥感图像分类器和遥感相关文本分类器,分别用于获得遥感图像类别特征u和遥感相关文本类别特征v;利用类别语义标签u&v作为先验知识来引导图像和文本,以构建类别特征,实现语义维度上的特征解耦;其中u&v通过预训练模型标注的类别特征;将图像的解耦特征f与相关文本的文本特征t分别与对应模态的类别特征u&v进行注意力增强,还可以将增强信息与原始检索网络相结合,实现了语义与尺度特征的融合,以探索有意义和可靠的类别相关数据,获取类别相关的图像和文本特征;所述语义引导三元组损失模块,用于计算语义引导三元组损失;对类别特征进行类别匹配,判断图像和文本是否属于同一类别,并把类别属性作为外部知识输入到下游任务中,对异类图文匹配的异类信息进行动态权重选择;所述输入模块用于输入待检索的海洋遥感图像或遥感相关文本数据,所述输出模块用于输出遥感相关文本数据或海洋遥感图像。
35.其中,各模块的功能实现与数据处理与实施例1部分相同,此处不再赘述。
36.需要说明的是,使用本发明的方法可实现图像和文本两种模态的跨模态检索,以一种类型的数据作为查询去检索另一种类型的数据,输入为海洋遥感图像时,输出的检索结果为对应的文本数据,输入为海洋遥感相关的文本数据时,输出的检索结果为对应的海洋遥感图像。
37.综上所述,本发明可以利用类别信息作为先验知识来指导更准确的跨模态信息表示。具体来说,与现有方法相比,本发明构建了双向多尺度解耦模块,以自适应地提取潜在特征,同时抑制其他尺度上的繁琐特征,从而产生歧视性线索,应对级联尺度解耦的噪声冗余问题。此外,又建构了类别标签引导模块和语义引导三元组损失模块,其中类别标签引导模块利用类别语义标签作为先验知识来监控图像和文本,以构建更优秀的类别特征,实现语义维度上的特征解耦。然后将解耦之后的语义信息与原始检索网络相结合,实现了语义与尺度特征的融合,以探索有意义和可靠的类别相关数据;语义引导三元组损失模块对类别特征进行类别匹配,判断图像和文本是否属于同一类别,并把类别属性作为外部知识输入到下游任务中,对异类图文匹配的异类信息进行动态权重选择,以提高同类别跨模态数据的检索概率,以提高同类别跨模态数据的检索概率和模型收敛速度。最后,通过对生成的类别特征进行类别匹配,设计了基于类别的三元组损失,以提高同类跨模态数据的检索概率。
38.当然,上述说明并非是对本发明的限制,本发明也并不限于上述举例,本技术领域的普通技术人员,在本发明的实质范围内,做出的变化、改型、添加或替换,都应属于本发明的保护范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献