一种基于空间感知增强的图形检索方法与流程

2022-02-23 00:30:51 来源：中国专利 TAG：

1.本发明涉及图形检索技术领域，尤其涉及一种基于空间感知增强的图形检索方法。

背景技术：

2.图像检索是一种便捷直观的以图搜图的技术手段，特别是基于内容的图像检索，被越来越广泛地应用到包括智能搜图，行人重识别，三维点云匹配等领域，并且逐渐成为城市智慧化，人民生活智能化，生产活动高效化中不可或缺的重要部分。
3.当前，绝大部分的图像检索方法大都基于深度卷积网络构建深度特征表达，尽管深度卷积网络在图像特征表达方面取得了很多突破性的成果，展现了其独特的优势，但其仍然存在以下三个方面的问题：
4.(1)受限于卷积滤波器的固定不变的采样模式，卷积操作只能从特定的像素位置分布模式中获取深度特征，导致其缺少处理特征空间变换的内在机制。例如图像不同空间位置上可能分布着大小，形变程度各不相同的纹理细节，固定的采样模式与池化操作难以获取这些细节鲁棒的特征表达；
5.(2)小感受野内的池化操作虽然能够使得深层卷积特征图对特征的空间变换具备一定的鲁棒表达，但在浅中层特征处理中，特征图对原始图像的形变和局部细节的空间变化的鲁棒性很弱，这种变化会影响到图像特征的准确表达；
6.(3)深度卷积网络通常对图像纹理特征较为敏感，缺乏对图像内局部特征的空间位置分布特征的表达，缺乏对特征的空间感知。
7.鉴于以上所述，实有必要提供一种新型的基于空间感知增强的图形检索方法以克服上述缺陷。

技术实现要素：

8.本发明的目的是提供一种基于空间感知增强的图形检索方法，增强了卷积滤波对图像空间变换的感知，提升了卷积网络对图像语义特征的准确表达，能够构建区分粒度更细的特征空间，使得空间中类内距离更近，类间距离更远，能够有效地提升检索结果的准确度。
9.为了实现上述目的，本发明提供一种基于空间感知增强的图形检索方法，
10.包括如下步骤，
11.s1：设计基于空间感知的卷积模块；
12.s2：设计基于resnet的网络架构；
13.s21：利用原始输入图像f
in
构建conv(1)，原始输入图像经过conv(1)滤波后，生成浅层特征图；
14.其中，conv(1)包括卷积核为7
×
7，步长为2，输入维度是3，输出维度是64的二维卷积，以及大小为3
×
3，步长为2的最大池化层；
15.s22：构建残差块，每个残差块由3层二维卷积和残差结构构成；
16.其中，3层二维卷积的卷积核依次是1
×
1,3
×
3和1
×
1，输入特征图x
in
经过3层二维卷积后输出记为f
block
(x
in
)，则残差块输出表示为：
17.rblock(x
in
)＝f
con
(x
in
) f
block
(x
in
)
ꢀꢀꢀ
(6)；
18.其中f
con
(x
in
)是步长为1，卷积核是1
×
1的等维度变换的二维卷积，r
block
(x
in
)表示残差块；
19.s23：构建conv(2)至conv(5)；
20.s24：将conv(2)至conv(5)中所有的3
×
3二维卷积替换成s1中的基于空间感知的卷积模块，并且每次执行完f
con
(x
in
)卷积操作后，下一次进行卷积操作的偏移系数λ
l
会以 deca∈(0,1)的速率进行衰退，即：λ
l 1
＝λ
l
·
deca；
21.s25：浅层特征图依次经过conv(2)至conv(5)操作后得到深层特征图，将深层特征图进行自适应的均值池化操作生成768
×
1的特征向量f
dep
；
22.s26：将经过conv(3)操作后生成的中间特征图进行自适应的均值池化操作，生成 256
×
1的特征向量f
mid
；
23.s27：将特征向量f
dep
和特征向量f
mid
进行向量拼接，形成1024维的融合特征向量f
con
，将f
con
放入全连接层进行线性映射并利用softmax函数对映射结果进行归一化处理，将最终结果与原始图像的标签向量进行比对，进而进行反向传播完成训练，得到训练完毕的网络f
net
；
24.s28：将检索图像m
gallery
和n个待匹配图像均输入至网络f
net
，根据步骤s1 至s27得到对应的融合特征向量f
gallery
和形成特征空间，利用欧氏距离计算每个检索图像m
gallery
与待匹配图像的距离l
gj
：
25.l
gj
＝||f
gallery-f
mj
||
ꢀꢀꢀ
(7)；
26.前k个最小的l
gj
对应的{mj}即为m
gallery
前k个最优匹配结果，其中k为大于0的自然数。
27.优选的，步骤s1中还包括步骤s11：对于任意m
×
m的基于空间感知的卷积操作输入特征图fm
in
，和输出特征图fm
out
，则任意m
×
m的基于空间感知的卷积操作表
28.示为：
[0029][0030]
其中，m为奇数，且m＞1；y(po)是fm
out
中po位置的特征值/像素值，po是该区域在fm
out
中的位置，w(pr)表示对应位置的卷积权重，pr表示遍历该m
×
m个位置偏移，
[0031]
表示以po为中心的m
×
m个位置偏移；
[0032]
s12：在pr遍历c的基础上重新定义偏移pr，在每一个偏移处增加x和y方向上的偏移量，将公式(1)重新定义为：
[0033]
[0034]
其中，δpr是包含了x和y方向上的偏移参数，其中{δpr|r＝1,
…
,m
×
m}；λi∈[0,1]是第i层特征图的偏移系数；
[0035]
s13：每次进行m
×
m的卷积操作时，首先将fm
in
中对应的m
×
m区域进行卷积核为 m
×
m，步长为1，填补为1，输出维度为2
×
m2的二维卷积操作，输出张量的维度为 1
×1×
2m2，将其转换为1维向量后，即得到{δpr|r＝1,
…
,m
×
m}在x和y方向上的偏移量；
[0036]
s14：利用线性插值来重新定义x(p)，
[0037][0038]
其中，p＝po pr λiδpr[0039]
g(i,p)＝g(i
x
,p
x
)
·
g(iy,py)
ꢀꢀꢀ
(4)；
[0040]
其中g(i
x
,p
x
)＝max(0,1-|i
x
,p
x
|),i遍历fm
in
所有位置，(p
x
,py)表示p的横纵坐标，(i
x
,iy) 表示i的横纵坐标，x(i)是i处的特征/像素值；
[0041]
s15：根据s14基于内容感知的卷积操作的数学表达定义为：
[0042][0043]
与现有技术相比，本发明提供的一种基于空间感知增强的图形检索方法，有益效果在于：该方法一方面采用空间偏移的采样模式，增强了卷积滤波对图像空间变换的感知，提升了卷积网络对图像语义特征的准确表达；另一方面，该方法采用中层特征和深层特征协同表达图像特征的方法，既保留了图像内局部特征的空间分布信息，又利用了图像的深层语义特征，从两个维度完成图像特征的构建，能够构建区分粒度更细的特征空间，使得空间中类内距离更近，类间距离更远，有效提升最终的检索结果的准确度。
具体实施方式
[0044]
为了使本发明的目的、技术方案和有益技术效果更加清晰明白，以下结合具体实施方式，对本发明进行进一步详细说明。应当理解的是，本说明书中描述的具体实施方式仅仅是为了解释本发明，并不是为了限定本发明。
[0045]
本发明提供一种基于空间感知增强的图形检索方法，包括如下步骤，
[0046]
s1：设计基于空间感知的卷积模块。
[0047]
步骤s1中还包括步骤s11：对于任意m
×
m的基于空间感知的卷积操作输入特征图fm
in
，和输出特征图fm
out
，则任意m
×
m的基于空间感知的卷积操作表示为：
[0048][0049]
其中，m为奇数，且m＞1；y(po)是fm
out
中po位置的特征值/像素值，po是该区域在fm
out
中的位置，w(pr)表示对应位置的卷积权重，pr表示遍历该m
×
m个位置偏移，
[0050]
表示以po为中心的m
×
m个位置偏移；
[0051]
s12：在pr遍历c的基础上重新定义偏移pr，在每一个偏移处增加x和y方向上的偏移量，将公式(1)重新定义为：
[0052][0053]
其中，δpr是包含了x和y方向上的偏移参数，其中{δpr|r＝1,
…
,m
×
m}；λi∈[0,1]是第i层特征图的偏移系数；
[0054]
s13：每次进行m
×
m的卷积操作时，首先将fm
in
中对应的m
×
m区域进行卷积核为 m
×
m，步长为1，填补为1，输出维度为2
×
m2的二维卷积操作，输出张量的维度为 1
×1×
2m2，将其转换为1维向量后，即得到{δpr|r＝1,
…
,m
×
m}在x和y方向上的偏移量；
[0055]
s14：利用线性插值来重新定义x(p)，
[0056][0057]
其中，p＝po pr λiδpr[0058]
g(i,p)＝g(i
x
,p
x
)
·
g(iy,py)
ꢀꢀꢀ
(4)；
[0059]
其中g(i
x
,p
x
)＝max(0,1-|i
x
,p
x
|),i遍历fm
in
所有位置，(p
x
,py)表示p的横纵坐标，(i
x
,iy) 表示i的横纵坐标，x(i)是i处的特征/像素值；
[0060]
s15：根据s14基于内容感知的卷积操作的数学表达定义为：
[0061][0062]
s2：设计基于resnet的网络架构。
[0063]
s21：利用原始输入图像f
in
构建conv(1)，原始输入图像经过conv(1)滤波后，生成浅层特征图；
[0064]
其中，conv(1)包括卷积核为7
×
7，步长为2，输入维度是3，输出维度是64的二维卷积，以及大小为3
×
3，步长为2的最大池化层；
[0065]
s22：构建残差块，每个残差块由3层二维卷积和残差结构构成；
[0066]
其中，3层二维卷积的卷积核依次是1
×
1,3
×
3和1
×
1，输入特征图x
in
经过3层二维卷积后输出记为f
block
(x
in
)，则残差块输出表示为：
[0067]
rblock(x
in
)＝f
con
(x
in
) f
block
(x
in
)
ꢀꢀꢀ
(6)；
[0068]
其中f
con
(x
in
)是步长为1，卷积核是1
×
1的等维度变换的二维卷积，r
block
(x
in
)表示残差块；
[0069]
s23：按照表1中的卷积参数完成conv(2)至conv(5)的构建；
[0070]
其中，conv(i),i∈{2,3,4,5}是由若干个残差块组成的连续卷积操作，表1中的dim
out
是指卷积层输出维度。
[0071]
表1：conv(i)的卷积参数表
[0072]
言可容易地实现另外的优点和修改，故在不背离权利要求及等同范围所限定的一般概念的精神和范围的情况下，本发明并不限于特定的细节、代表性的设备和这里示出与描述的示例。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：车辆软件升级方法、装置、设备和存储介质与流程

一种基于空间感知增强的图形检索方法与流程

相关文献

最热文献