一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于多层特征融合的图像检索方法与流程

2022-11-12 20:19:49 来源:中国专利 TAG:


1.本发明涉及海量图像检索技术领域,尤其涉及一种基于多层特征融合的图像检索方法。


背景技术:

2.如何保证在海量数据底库下实现目标的精准检索一直以来都是极具挑战的问题。精准的目标检索离不开高效的特征表达,目标特征的精准表达会直接影响检索性能指标。目标特征的表达主要分为两种类型:一种是低层局部特征,主要用于描述目标细节信息,例如边缘、轮廓和纹理等;另一种则是高层语义特征,用来描述目标的抽象全局信息。低层特征来自于传统的手工设计特征,而高层特征来自于卷积神经网络输出的特征。
3.当前使用的传统手工特征如sift、surf主要提取目标局部关键特征信息,由于这些类型的特征都对尺度变化、旋转以及平移等操作的具备一定的鲁棒性,所以手工特征被广泛地应用在图像检索任务中。为了能够获取一种有效的方式来衡量不同图像之间的相似性关系,将提取的局部特征信息通过词袋模型(bag-of-word,bow)来表达。对于给定的底库图像数据,利用sift算法从每类图像中提取视觉词汇并将所有视觉词汇进行聚合,接下来对每张查询图像进行视觉词汇的提取并统计其出现的频次,将图像转换为直方图的形式来体现相似性关系。由于局部特征主要用于获取目标的细节信息,因此使用词袋模型能够将目标的关键特征拆分存储,通过统计词频来进行图像之间的相似性判定,这对于目标存在一定几何形变以及遮挡的情况有较好的鲁棒性,配合特征聚类以及特征编码等优化方法,能够有效提高图像检索性能。
4.卷积神经网络能够获取包括局部的卷积层特征以及全局的全连接层特征。低层次的卷积特征能够很好的表达图像的边缘、轮廓等信息但无法形成全局性的表示。高层信息通常为全连接层的输出,能够揭示图像的高级语义信息并拥有更强的泛化能力以及图像表达能力。当前将卷积神经网络特征用于图像检索的相关研究主要侧重于使用卷积神经网络中全连接层输出的高级语义特征,但实际效果并不理想。
5.因此,如何获取目标图像的局部细节特征和全局语义特征,同时为局部细节特征和全局语义特征分配合适的权重来获取最优的特征融合结果,成为提高图像检索精度的关键。


技术实现要素:

6.为了克服现有技术存在的缺点与不足,本发明提供一种基于多层特征融合的图像检索方法,通过提取卷积神经网络中不同层的特征来获取目标图像的局部细节信息和全局语义信息,并为不同层的输出特征分配合适的权重来获取最优的特征融合结果,确定图像之间的相似度,提高图像检索精度。
7.本发明提供一种基于多层特征融合的图像检索方法,包括以下步骤:
8.步骤一、对底库图像集中的图像进行局部采样得到每个图像的图像块集合,将每
个图像的图像块集合输入轻量级vgg网络,利用轻量级vgg网络的conv3卷积层、conv5卷积层和fc7全连接层的输出特征来构建视觉词袋模型,利用所述视觉词袋模型对底库图像集中的全部图像特征进行量化描述,得到底库特征向量集;
9.步骤二、采用步骤一所述的方法对待检索图像进行特征提取和特征描述,得到待查询特征向量;
10.步骤三、根据所述待查询特征向量与所述底库特征向量集中的特征向量计算待查询图像与底库图像集中的图像的相似度得分,并根据相似度得分确定图像检索结果。
11.进一步地,所述利用轻量级vgg网络的conv3卷积层、conv5卷积层和fc7全连接层的输出特征来构建视觉词袋模型,利用所述视觉词袋模型对底库图像集中的全部图像特征进行量化描述,得到底库特征向量集,包括:
12.利用k-means聚类算法对轻量级vgg网络的conv3卷积层、conv5卷积层和fc7全连接层的输出特征进行聚类,得到视觉词袋模型;
13.利用近邻搜索算法将底库图像集中的图像特征与所述视觉词袋模型中的视觉词汇进行匹配,确定视觉词袋模型中每个视觉词汇在底库图像集中各图像中出现的次数,得到底库特征向量集。
14.进一步地,所述轻量级vgg网络的卷积层采用求和池化或最大池化生成特征向量,具体步骤如下:
15.计算特征图f
l
,其中,f
l
为w
l
×hl
×cl
,l表示网络层数,w
l
、h
l
和c
l
分别表示特征图的宽、高和通道数;
16.求和池化操作将f
l
所有通道中对应的特征值进行元素累加求和,最终可以得到一个1
×1×cl
的特征向量特征向量中的第k个元素可表示为具体公式如下,
[0017][0018]
或,最大池化操作将f
l
所有通道中对应的特征值取最大值,最终可以得到一个1
×1×cl
的特征向量特征向量中的第k个元素可表示为具体公式如下,
[0019][0020]
进一步地,所述根据所述待查询特征向量与所述底库特征向量集中的特征向量计算待查询图像与底库图像集中的图像的相似度得分,包括:
[0021]
分别计算conv3卷积层、conv5卷积层和fc7全连接层的输出特征向量的相似度得分,具体公式如下,
[0022][0023]
[0024][0025][0026]
其中,b
x
和by分别为特征向量x和特征向量y通过汉明嵌入量化后生成的二值化特征,运算符代表特征向量按位异或运算,d2(b
x
,by)为特征向量x和y之间的汉明距离,σ影响权重系数的分布区间,q(x)和q(y)分别对应于特征向量x和特征向量y的视觉词汇,idf
q(x)
表示视觉词汇q(x)在图像集中的逆向文件频率,n为图像集中所有图像的数目,n
q(x)
为包含视觉词汇q(x)的所有图像数量;
[0027]
对所述conv3卷积层、conv5卷积层和fc7全连接层的输出特征向量的相似度得分进行融合计算,得到所述待查询特征向量与所述底库特征向量集中的特征向量的相似度得分,具体公式如下,
[0028][0029]
其中,为第l层输出特征在视觉词袋模型中视觉词汇q(x)出现的频率,为权重系数,表示第l层输出特征的表达能力。
[0030]
采用上述技术方案后,本发明至少具有如下有益效果:
[0031]
1、本发明提出了基于卷积神经网络的多层级特征融合方法,将轻量级vgg网络中的两个卷积层和一个全连接层作为特征输出层来提取目标图像的局部细节信息和全局语义信息构建视觉词袋模型,利用视觉词袋模型对卷积神经网络中不同层的输出特征进行量化描述,能够更好地对局部细节信息和全局语义信息进行描述。
[0032]
2、本发明将不同网络层输出的特征进行加权融合来实现不同层特征向量的整合,并计算图像之间的相似度,提高图像检索精度。
附图说明
[0033]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0034]
图1为本公开实施例提供的一种基于多层特征融合的图像检索方法的流程示意图;
[0035]
图2为oxford5k数据集下的检索结果图。
具体实施方式
[0036]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完
整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0037]
图1为本公开实施例提供的一种基于多层特征融合的图像检索方法。如图1所示,本公开实施例提供的一种基于多层特征融合的图像检索方法,包括以下步骤:
[0038]
步骤一、对底库图像集中的图像进行局部采样得到每个图像的图像块集合,将每个图像的图像块集合输入轻量级vgg网络,利用轻量级vgg网络的conv3卷积层、conv5卷积层和fc7全连接层的输出特征来构建视觉词袋模型,利用所述视觉词袋模型对底库图像集中的全部图像特征进行量化描述,得到底库特征向量集;
[0039]
步骤二、采用步骤一所述的方法对待检索图像进行特征提取和特征描述,得到待查询特征向量;
[0040]
步骤三、根据所述待查询特征向量与所述底库特征向量集中的特征向量计算待查询图像与底库图像集中的图像的相似度得分,并根据相似度得分确定图像检索结果。
[0041]
本实施例中,首先进行分层特征提取与量化。在网络模型的选择上,采用了轻量级的vgg网络cnn-s-128模型,全连接层的输出特征维度为128,与sift特征的输出维度相同,选择该网络模型的目的是为了保证后续与手工特征的融合,此时全连接层输出的特征与sift特征维度相同,可以避免降维操作带来的特征信息损失;在层级特征的选择上,取cnn-s-128网络中的conv3、conv5和fc7三个输出层的输出特征向量来承载图像的局部细节信息和全局语义信息,该网络模型的头部卷积层的输出包含更多目标图像的局部和细节特征如边缘和轮廓等信息,但由于网络前端的卷积层输出存在大量的噪声干扰,不适合作为特征表达,为了能够提高局部特征表达的紧凑性,选择conv3卷积层作为低层特征输出,中间层选择conv5卷积层的输出,conv5卷积层作为该网络的最后一个卷积层具有更强的局部特征表达能力,最后一层选择fc7全连接层,该层将网络前面卷积层结果作为输入,输出目标图像更抽象的特征信息表达。选择cnn-s-128网络用于提取卷积神经网络特征,该网络为基于vgg结构的轻量化模型,vgg网络中的全连接层输出维度除了4096以外,还存在三种不同维度输出,分别为2048、1024和128。如前所述,为了能够与sift特征的输出维度对齐,方便后续进行特征融合并且有效降低存储和计算开销,使用全连接层输出维度为128的轻量级vgg网络。尽管维度压缩可能会造成全连接层输出的特征在准确性上低于高维特征,但后续使用的多层特征融合算法能够有效地弥补这一损失。
[0042]
卷积层采用求和池化或最大池化生成特征向量,具体步骤如下:
[0043]
计算特征图f
l
,其中,f
l
为w
l
×hl
×cl
,l表示网络层数,w
l
、h
l
和c
l
分别表示特征图的宽、高和通道数;
[0044]
求和池化操作将f
l
所有通道中对应的特征值进行元素累加求和,最终可以得到一个1
×1×cl
的特征向量特征向量中的第k个元素可表示为具体公式如公式一所示,
[0045][0046]
或,最大池化操作将f
l
所有通道中对应的特征值取最大值,最终可以得到一个1
×1×cl
的特征向量特征向量中的第k个元素可表示为具体公式如公式二所示,
[0047][0048]
该网络在卷积层使用的卷积核数量为512个,通过池化操作后的输出为1
×1×
512维特征,通过维度变换可以直接得到一个512维的特征。为了能够从图像中提取到足够数量的特征来构建视觉词袋模型,设置大小为m的滑动窗口,滑动步长g(g《m),在图像上进行局部图像块的密集采样,设采到得到的图像块集合为q,其中q={q1,q2,...,qn}共包含n个图像块,将图像块集合q作为cnn-s-128网络的输入,在每个卷积层都会得到n个特征向量,针对conv3卷积层、conv5卷积层和fc7全连接层,利用k-means聚类算法对cnn-s-128网络的conv3卷积层、conv5卷积层和fc7全连接层的输出特征进行聚类,得到视觉词袋模型;利用近邻搜索算法将图像特征与所述视觉词袋模型中的视觉词汇进行匹配,确定视觉词袋模型中每个视觉词汇在图像中出现的次数,得到特征向量。
[0049]
得到三个层的特征向量后,每层的输出特征均可用于图像检索。但为了能够充分利用各层输出特征的互补性,进一步增加特征的紧凑表达,本实施例对不同层的输出特征进行融合,首先,除了提取深度神经网络中的全连接层作为高级语义特征外,同时从不同卷积层提取了能够表达局部信息的特征向量,因此,在进行多层级的特征融合时能够形成一种信息互补,得到更丰富的特征表达,其次,该方法不需要对输入图像做尺度变换,通过一次前向传播就可以提取到所需的全部层级特征向量,不再需要进行额外的特征提取操作。同时本文所使用的特征维度为128也远低于现有的4096维度特征向量,这能够保证在后续的检索过程中有更低的时间复杂度并保持较高的平均检索准确率。
[0050]
接下来,计算特征向量x和特征向量y之间的相似度得分。首先分别计算conv3卷积层、conv5卷积层和fc7全连接层的输出特征向量的相似度得分,计算特征向量间相似度得分如公式三所示,
[0051][0052]
其中,q(x)和q(y)分别对应于特征向量x和特征向量y的视觉词汇,idf
q(x)
表示视觉词汇q(x)在图像集中的逆向文件频率,idf
q(x)
具体计算公式如公式四所示,
[0053][0054]
其中,n为图像集中所有图像的数目,n
q(x)
为包含视觉词汇q(x)的所有图像数量;
[0055]
接下来我们在公式三中加入权重系数,获取采用汉明嵌入后的相似度得分,具体计算公式如公式五所示,
[0056][0057]
在得分筛选过程中不但要保证视觉词汇相同,还需要满足视觉词汇对应的特征向
量的汉明距离要小于给定的阈值,dr为满足可接受条件的距离阈值,wh为汉明嵌入的权重系数,具体计算公式如公式六所示,
[0058][0059]
其中,参数σ影响权重系数的分布区间,一般将其设置为1,b
x
和by分别为特征向量x和特征向量y通过汉明嵌入量化后生成的二值化特征,d2(b
x
,by)为特征向量x和y之间的汉明距离,d2(b
x
,by)的具体计算公式如公式七所示,
[0060][0061]
其中,运算符代表特征向量按位异或运算;
[0062]
最后对所述conv3卷积层、conv5卷积层和fc7全连接层的输出特征向量的相似度得分进行融合计算,得到所述待查询特征向量与所述底库特征向量集中的特征向量的相似度得分,具体计算公式如公式八所示,
[0063][0064]
其中,为第l层输出特征在视觉词袋模型中视觉词汇q(x)出现的频率,该值能够减少由重复特征引起的目标检索准确率下降问题,为权重系数,表示第l层输出特征的表达能力。
[0065]
为了验证本技术提出的方法的有效性,在检索数据集选择上,使用了holidays数据集、ukbench数据集、oxford5k数据集和hpatches数据集,涵盖了风景、地标建筑以及常见的日用品等丰富的检索目标;在深度卷积神经网络模型的选择上,使用于基于imagenet数据集进行预训练过的轻量级网络模型cnn-s-128;在特征提取策略选择上,从cnn-s-128网络中的三个输出层进行提取,分别为两个卷积层:conv3层和conv5层,以及一个全连接层fc7。
[0066]
在特征加权融合阶段,公式八中的的权重系数对最终的检索结果起到重要作用,为了验证不同层级特征间的互补作用,给出最优的权重分配比例。实验过程中改变不同层输出特征在融合过程中的权重值,得到不同条件下的融合结果。在具体执行过程中采用控制变量法,先固定任意两个输出层的权重系数(均设置为1)并对剩余的权重系数进行单独调整。以数据集oxford5k为例,设置输入图像的尺寸为768
×
768,其检索结果如图2所示,子图(a)、(b)和(c)是采用最大池化操作得到卷积层特征并进行加权检索得到的结果,而子图(d)、(e)和(f)是采用求和池化操作得到卷积层特征并进行加权检索得到的结果。从图2中可以看出,当某个权重系数的取值远高于其它两个的权重值时,该层的特征相似度得分会湮没其它特征层的相似度得分,等价于使用单层特征的检索结果,检索准确率对应曲线图中的末端位置;若某个输出层的权重值趋于0时,相当于使用另外两个输出层进行特征融合后的结果,检索准确率对应曲线的起点位置。图2中的每个子图采用两种方式进行比较,一种是只用词袋模型的检索结果,用“bow”表示;另一种是通过汉明嵌入进行特征二值化后
的检索结果,用“bow he”表示。
[0067]
从图2中得出以下结论:当采用相同卷积层池化操作的前提下,在起点位置使用两个输出层进行特征融合后的检索结果要明显优于终点位置仅使用单层输出特征的检索结果,证明了特征融合的有效性。进一步分析,采用双层特征融合策略检索时,当全连接层特征与卷积层特征融合时,检索精度明显高于使用两个卷积层输出特征的融合结果,例如图2中(b)和(c)在0点位置的map明显高于(a)在0点位置的值,主要原因在于卷积神经网络结构中,底层的卷积层只能输出一些目标局部信息,例如简单的形状和纹理特征,而高层输出特征能够包含更多的高级语义信息,因此不同网络层中能够提取到目标的不同维度信息,这些特征结果进行融合后能够产生更好的检索效果。当三个输出层均参与特征融合并选取合适的权重时,map的结果达到了最优值,从图中我们能够得出,在oxford5k数据集上采用最大池化特征且三个输出层的权重系数分别设置为且时,平均检索准确率可达到最高的86.1%。充分证明了本技术提出的多层特征融合方法在图像检索任务中的有效性。
[0068]
虽然本发明已以实施例揭示如上,然其并非用以限定本发明,任何所属技术领域中技术人员,在不脱离本发明的精神和范围内,当可作些许的更改与润饰,故本发明的保护范围当视权利要求所界定的为准。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献