一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于注意力融合局部超级特征和全局特征的图像检索方法

2022-10-26 21:06:19 来源:中国专利 TAG:


1.本发明属于图像检索技术领域,具体涉及一种基于注意力融合局部超级特征和全局特征的图像检索方法。


背景技术:

2.随着近些年来网络和移动设备的发展,每个人手中的移动设备都可以成为一个数据采集终端。相比于使用文字记录,人们更加倾向于使用图片或视频的形式来记录自己生活中的点点滴滴,并将其分享到互联网上。因此,越来越多的图像数据出现人们眼前,如何在海量的图像数据中找寻到自己需要的图像成为一个难题。
3.图像检索技术经历了两个阶段的发展,最早的图像检索方式是基于文本的图像检索(text-based image retrieval,tbir),即对图像进行人工标注,使用文字进行描述,或根据图像的上下文本提取关键词标注,在检索的时候通过输入关键词来检索,系统通过匹配输入的关键字和图像的索引,返回查询结果。也被称为“以字搜图”。此方法的优点是实现过程简单,容易理解,查询速度快,但不同人对同一幅图像有不同的理解,因此文本标注方式也存在着主观性。
4.为了解决这个语义鸿沟的问题,人们探索了基于内容的图像检索(content-based image retrieval,cbir),又被称为“以图搜图”。基于内容的图像检索技术通过提取图像的内容特征,包括颜色、纹理、形状等,生成一个紧凑的全局图像特征符,以及多个局部特征描述符。查询时,将待查图像全局特征描述符与特征库中存储的全局特征进行比较匹配,计算特征相似度,得到候选图像,再通过局部特征对候选图像进行重排序,将最终结果输出给客户。可以看到图像的特征表示是这项任务的关键,过去十年人们从手工设计的特征(如sift特征,即尺度不变特征变换)转向了基于卷积神经网络cnn的自动学习的特征。然而这些特征并不是专门为图像检索而进行优化的,因此它们缺乏发现有语义意义的特征的能力,并且在实践中表现出有限的准确性。同时两阶段的检索方式(即用全局特征来初步筛选,用局部特征来重排序)需要存储更多的特征数据,以及更多次的相似性计算,这对于存储和计算能力的要求显著提升。
5.2020年,vit(vision transformer)模型成功将transformer应用在计算机视觉领域,利用注意力机制来提取图像的关键特征是一个火热同时具有挑战方向,通过注意力机制来提取具有全局视野的特征描述符,在图像检索上可以有更好的表现。


技术实现要素:

6.鉴于上述,本发明提出了一种基于注意力机制的局超级部特征和全局特征融合的图像检索方法。通过将图片的局部特征输入到设计的迭代注意力模型中,训练得到一幅图像的局部超级特征,之后将得到的局部超级特征和全局特征进行正交融合,得到图像的一个单一多维融合特征,这种方法可以精确提取出图像的有用特征,同时特征数据量小,信息高度集中,检索速度更快,存储空间要求更低,进而能更好的用于图像检索任务。
7.为了实现上述的发明目的,本发明一种基于注意力机制的局部超级部特征和全局特征融合的图像检索方法,主要包括:融合特征训练和实时图像检索这两个部分。融合特征训练主要包含两个阶段:局部超级特征的提取、局部超级特征和全局特征的融合。局部超级特征的提取是将原本从卷积神经网络提取出来的大量的局部特征,通过迭代注意力模型l提取出有用的特征,再将其于同一组内同类图片的相应特征进行匹配,找出对图像检索最有用的局部超级特征,最后与非同类图片特征计算损失,训练出最终的局部超级特征的提取器;局部超级特征和全局特征的融合是将找出的局部超级特征与全局特征的信息进行正交融合,得到一个单一多维的特征向量用于检索。实时图像检索是指将图片经过本模型的处理得到最终的一个单一多维特征向量,将该向量与其它图片的特征向量进行比较,得到最相似的一组图片,即为最终的检索结果
8.本发明具体采用的技术方案如下:
9.一种基于注意力融合局部超级特征和全局特征的图像检索方法,其具体步骤如下:
10.步骤s1、基于图像检索相关的图像数据集,根据图像数据集中数据的分类选定检索图片q、与检索图片q属于同类的正样本图片p和与检索图片q属于不同类的负样本图片n,构成一次训练样本组g;
11.步骤s2、使用预训练好的卷积神经网络,将步骤s1中的训练样本组g输入该卷积神经网络,提取卷积神经网络中倒数第二块卷积特征图作为初步的局部特征lf,提取卷积神经网络中最后一块卷积特征图作为初步全局特征gf;
12.步骤s3、构建迭代注意力模型l,按照步骤s3.1和s3.2来训练迭代注意力模型并得到局部超级特征lsf;
13.步骤s3.1、对得到的一组训练样本组g中各图片的局部特征lf,将其输入到迭代注意力模型l中,得到各图片的局部超级特征lsf;
14.步骤s3.2、对检索图片q和正样本图片p的局部超级特征lsf进行匹配,找出匹配的超级特征对;对超级特征对与负样本图片n的局部超级特征lsf计算损失l
super

15.步骤s4、对于得到的局部超级特征lsf和初步全局特征gf,将初步全局特征gf经过池化层和全连接层操作,得到一个单一多维的全局特征sgf,计算每一个局部超级特征lsf在全局特征sgf上的正交分量oc;
16.步骤s5、训练样本组g中各图片的局部超级特征lsf减去自身的正交分量oc,再与全局特征sgf进行空间维度拼接,经过一个全连接层后得到最终的融合特征ocf,用于图像检索;
17.步骤s6、对得到的融合特征ocf特征进行交叉熵损失函数的计算,得到损失l
global
,再计算最终的总损失l=l
super
l
global
;基于总损失训练模型直到模型收敛;
18.步骤s7、将图像检索数据库中的所有图像按照与训练样本相同的方法输入到训练后的模型中,得到图像检索数据库中每张图像的融合特征ocfk;
19.步骤s8、将待检索图片q
*
按照与训练样本相同的方法输入到训练后的模型中,得到待检索图片q
*
的融合特征ocf
*
,将其与图像检索数据库中各图像的融合特征ocfk进行余弦相似度的计算,取余弦相似度最高的前k个融合特征对应的图像作为与待检索图片q
*
最相似的的检索结果进行返回。
20.作为优选,所述步骤s3中构建的迭代注意力模型l用于将局部特征lf映射为局部超级特征lsf,其映射函数φ(u)对于特征空间的映射表示如下:
21.φ(u):r
l*d
→rn*d
22.其中,u表示输入的局部特征,n表述输出的局部超级特征lsf个数,l表示输入的局部特征lf个数,d和d分别表示局部特征lf和局部超级特征lsf的特征维度,r表示特征的向量空间;映射函数φ(u)中的具体迭代过程表示如下:
23.φ(u)=z
t
24.z
t
=φ(u;z
t-1
)
25.φ(u;z)=mlp(ψ(u;z)) ψ(u;z)
26.ψ(u;z)=v(u)
·
α z
27.其中,φ(u;z)表示一次迭代中执行的操作,其第一部分输入为局部特征u,第二部分输入z为上一次迭代的输出z
t-1
,其中第一次迭代时的第二部分输入z的z0∈r
n*d
是一组可学习的模板,即可学习的参数矩阵;局部超级特征lsf是根据卷积神经网络输出的局部特征lf,通过迭代细化模板逐步形成的,映射函数φ(u)中φ一共迭代t次后,以第t次迭代得到的输出z
t
作为最终输出的局部超级特征;mlp表示一层全连接层,其输入为注意力融合操作ψ(u;z)的输出;注意力融合操作ψ(u;z)中,对于输入的局部特征u,先对其进行线性映射变成v9u)和k(u),对z应用层归一化操作后变成q(z),再依次通过softmax和l1规范化得到注意力权重α=l1norm(softmax(q(z)*k(u))。
28.作为优选,所述步骤s3.2中对检索图片q和正样本图片p的局部超级特征lsf进行匹配时,超级特征对的匹配规则为:
29.对于任意一组正样本对图片x,x

,以s∈s和s

∈s

分别表示两张图片x和x

的局部超级特征s和s

中的单个特征;超级特征对(s,s

)配对时,必须同时满足如下三个条件:1)s,s

必须是互相的最近邻的特征;2)s,s

需要通过lowe的第一到第二近邻比率测试;3)s,s

具有相同的超级特征序号;
30.一组正样本对图片x,x

中所有匹配得到的超级特征对(s,s

)构成集合p
*

31.作为优选,所述超级特征对的匹配规则中的三个条件表示为如下公式:
[0032][0033]
其中τ为阈值,i(s)表示特征s在的序号,表示特征s

在部超级特征s中最近邻的特征,s\{s}表示s中去掉特征s后的特征集。
[0034]
作为优选,阈值τ=0.9。
[0035]
作为优选,所述步骤s3.2中损失l
super
计算公式如下:
[0036][0037]
其中μ

是一个距离超参数,表示局部超级特征对中正样本特征与对应多个负样本特征应该有的最小间隔,即特征间的距离应大于给定的μ

;中的上标 代表括号内的部分需为一个不小于零的值;n(i(s))表示负样本图片n中所有序号为i(s)的特征的集合。
[0038]
作为优选,所述步骤s4中正交分量oc的计算公式如下:
[0039][0040][0041][0042]
其中,fi表示第i个局部超级特征lsf,fg表示全局特征sgf,f
l,c
和f
g,c
分别表示fi和fg的第c维,f
i,proj
表示单个局部超级特征fi在全局特征fg上的正交分量,c表示特征的维度信息。
[0043]
本发明方法的有益效果为:本发明方法改进了原有的两阶段检索对存储和计算能力的要求,需要的存储空间更少,同时利用注意力机制和正样本对特征匹配挑选出具有辨识力的局部超级特征,减少了其它不重要信息的干扰。特征融合使得最终的融合特征兼具全局特征和局部特征的信息,提高了减少的效率和准确率。
附图说明
[0044]
图1为本发明方法的整体步骤流程示意图;
[0045]
图2为本发明方法迭代注意力模型l的结构;
[0046]
图3为本发明方法正交融合模型结构。
具体实施方式
[0047]
下面将结合附图对本发明加以详细说明,应指出的是,所描述的实施例仅便于对本发明的理解,而对其不起任何限定作用。
[0048]
在本发明的一个较佳实施例中,提供了一种基于注意力机制的局超级部特征和全局特征融合的图像检索方法,主要包括融合特征训练和实时图像检索这两个部分。同时融合特征训练中包含两个阶段:局部超级特征的提取,局部超级特征和全局特征的融合。图1是一个总体的流程框架图,表示了本发明各个部分关系及其流程,下面对本发明的具体实现步骤进行详细描述:
[0049]
第一部分:融合特征训练
[0050]
步骤s1、选定图像检索相关的图像数据集,根据图像数据集中数据的分类选定检索图片q、与检索图片q属于同类的正样本图片p和与检索图片q属于不同类的负样本图片n,构成一次训练样本组g。
[0051]
本实施例中,选定的图像数据集是具有代表性的retrieval-sfm-120k数据集。根据图像数据集中数据的分类选定一张检索图片q,以及一张同类图片p(即正样本)和5张不同类的图片n(即负样本),构成一次训练样本组g={q,p,n1,n2,n3,n4,n5},其相应的标签为{-1,1,0,0,0,0,0}。
[0052]
第二部分:在线融合特征训练
[0053]
步骤s2、使用预训练好的卷积神经网络,将步骤s1中的训练样本组g输入该卷积神经网络,提取该模型倒数第二块卷积特征图(即倒数第二层卷积层输出的特征图)输出作为初步的局部特征lf,提取卷积神经网络中最后一块卷积特征图(即最后一层卷积层输出的特征图)输出作为初步全局特征gf。如图1中所示,本实施例采用的卷积神经网络是resnet50模型。
[0054]
阶段一:局部超级特征的提取
[0055]
步骤s3、构建迭代注意力模型l,按照步骤s3.1、s3.2来训练迭代注意力模型并得到局部超级特征lsf,s3.1和s3.2的具体实现如下:
[0056]
步骤s3.1、对得到的一组训练样本组g中各图片的局部特征lf,将其输入到迭代注意力模型l中,得到各图片的局部超级特征lsf。
[0057]
在本实施例中,局部特征lf的形状为[b,c,h,w],其中b表示本组训练样本组中照片的总数,即本实施例中的7张照片。c为输出维度本实施例中为1024;h,w为输出特征的长和宽,本实施例中都为32。将局部特征lf输入到迭代注意力模型l中,得到该组图片的局部超级特征lsf;
[0058]
迭代注意力模型l的结构如图2所示,迭代注意力模型l用于将局部特征lf映射为局部超级特征lsf,其映射函数φ(u)对于特征空间的映射表示如下:
[0059]
φ(u):r
l*d
→rn*d
[0060]
其中,u表示输入的局部特征,即一张图像对应的所有lf,n表述输出的局部超级特征lsf个数,l表示输入的局部特征lf个数,d和d分别表示局部特征lf和局部超级特征lsf的特征维度,r表示特征的向量空间。映射函数φ(u)中的具体迭代过程表示如下:
[0061]
φ(u)=z
t
[0062]zt
=φ(u;z
t-1
)
[0063]
φ(u;z)=mlp(ψ(u;z)) ψ(u;z)
[0064]
ψ(u;z)=v(u)
·
α z
[0065]
其中,φ(u;z)表示一次迭代中执行的操作,其第一部分输入为局部特征u,第二部分输入z为上一次迭代的输出z
t-1
,其中第一次迭代时的第二部分输入z的z0∈r
n*d
是一组可学习的模板,即可学习的参数矩阵;局部超级特征lsf是根据卷积神经网络输出的局部特征lf,通过迭代细化模板逐步形成的,映射函数φ(u)中φ一共迭代t次后,以第t次迭代得到的输出z
t
作为最终输出的局部超级特征;mlp表示一层全连接层,其输入为注意力融合操作ψ(u;z)的输出;注意力融合操作ψ(u;z)中,对于输入的局部特征u,先对其进行线性映射变成v(u)和k(u),对z应用层归一化操作后变成q(z),对q(z)*k(u)先应用一层softmax,再对结果进行l1规范化(l1 normalization),得到注意力权重α=l1norm(softmax(q(z)*k(u))。
[0066]
在本实施例中,φ中一共应用t=6次迭代,z0∈r
n*d
采用随机初始化参数,mlp中对于输入的局部特征u,会对其分别进行两次线性映射[7,1024,32,32]

[7,1024,1024,1],变成v(u)和k(u)。由于迭代注意力模型l保持输入输出各维度大小不变,因此lsf最终输出格式为[b,c,h,w]

[7,1024,1024,1]。
[0067]
步骤s3.2、对检索图片q和正样本图片p的局部超级特征lsf进行匹配,找出匹配的超级特征对。对超级特征对与负样本图片n的局部超级特征lsf计算损失l
super

[0068]
本实施例中,对检索图片q和正样本图片p的局部超级特征lsf进行匹配时,超级特征对的匹配规则如下:
[0069]
对于任意一组正样本对图片x,x

,以s∈s和s

∈s

分别表示两张图片x和x

的局部超级特征s和s

中的单个特征;超级特征对(s,s

)配对时,必须同时满足如下三个条件:1)s,s

必须是互相的最近邻的特征;2)s,s

需要通过lowe的第一到第二近邻比率测试;3)s,s

具有相同的超级特征序号。
[0070]
本实施例中,上述超级特征对的匹配规则中的三个条件表示为如下公式:
[0071][0072]
其中τ为阈值,本实施例中阈值τ=0.9。i(s)表示特征s在的序号,表示特征s

在部超级特征s中最近邻的特征,s\{s}表示s中去掉特征s后的特征集。
[0073]
一组正样本对图片x,x

中所有匹配得到的超级特征对(s,s

)构成集合p
*

[0074]
需要说明的是,如果训练样本组中,检索图片q和正样本图片p均仅有一张,那么上述正样本对图片x,x

即分别对应于q和p。假如其他实施例中,检索图片q和正样本图片p有多种,那么需要依次将其组合为正样本对图片x,x


[0075]
本实施例中,损失l
super
的计算公式如下:
[0076][0077]
其中,n(i(s))表示负样本图片n中所有序号为i(s)的特征的集合;μ

是一个距离超参数,表示局部超级特征对中正样本特征与对应多个负样本特征应该有的最小间隔,即特征间的距离应大于给定的μ

;中的上标 代表括号内的部分需为一个不小于零的值。本实施例中μ

设置为1.2。两个匹配的正样本对越接近,就越接近于0,则l
super
越小;查询图片的特征与负样本图片特征差距越大则越大,其带有负号则会变小,当其超过给定距离μ

后则达到本实施例模型的要求。保证了该部分是一个不小于零的值,即当超过给定距离μ

后会变为0而不是负数。因此,查询图片的特征与负样本图片特征差距越大l
super
越小。这保证了提取到的超级特征是能匹配到相似图片的特征而拒绝不相识图片的特征。
[0078]
阶段二:局部超级特征和全局特征的融合
[0079]
步骤s4、对于得到的局部超级特征lsf和初步全局特征gf,将初步全局特征gf经过池化层和全连接层操作,得到一个单一多维的全局特征sgf,计算每一个局部超级特征lsf在全局特征sgf上的正交分量oc。
[0080]
在本实施例中,初步全局特征gf格式为[b,c,h,w]

[7,2028,16,16],将gf经过池化层变为[7,2028,1,1],经过全连接层后变为[7,1024,1,1],最终得到一个单一多维的全局特征sgf:[7,1024],计算每一个局部超级特征lsf,其格式为[b,c,h,w]

[7,1,1024,1],在全局特征sgf(将其维度进行拓展,变为[b,_,c,]

[7,1,1024])上的正交分量oc。
[0081]
正交分量oc的结构如图3所示,其计算公式如下:
[0082][0083][0084][0085]
其中fi表示第i个局部超级特征lsf,fg表示全局特征sgf,f
l,c
和f
g,c
分别表示fi和fg的第c维,f
i,proj
表示单个局部超级特征fi在全局特征fg上的正交分量;c表示特征的维度信息,本实施例中是1024。
[0086]
步骤s5、训练样本组g中各图片的局部超级特征lsf减去自身的正交分量oc,再与全局特征sgf进行空间维度拼接,经过一个全连接层后得到最终的融合特征ocf,用于图像检索。本实施例中,融合特征ocf的最终格式为[7,512]。
[0087]
步骤s6、对得到的融合特征ocf特征进行交叉熵损失函数的计算,得到损失l
global
。再计算最终的总损失l=l
super
l
global
。基于总损失l训练模型,直到模型收敛。
[0088]
需说明的是,此处基于总损失l训练的模型是由s2~s5构成的模型框架,记为模型m,如图1中所示。
[0089]
第二部分:实时图像检索
[0090]
步骤s7、将图像检索数据库中的所有图像输入到经过训练的模型m中,按照与训练样本相同的方法,得到图像检索数据库中每张图像的融合特征ocfk,将其和对应的图片索引存储起来。
[0091]
步骤s8、将待检索图片q
*
输入到经过训练的模型m中,按照与训练样本相同的方法,得到待检索图片q
*
的融合特征ocf
*
:[c]=[512],将其与图像检索数据库中各图像的融合特征ocfk进行余弦相似度的计算,计算结果降序排列,取出余弦相似度最高的前k个融合特征对应的图像作为与待检索图片q
*
最相似的的检索结果进行返回。
[0092]
上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此,本发明不限于上述实施例,本领域技术人员根据本发明的揭示,对于本发明做出的改进和修改都应该在本发明的保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献