一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种图像匹配方法与流程

2022-05-27 01:19:33 来源:中国专利 TAG:


1.本发明涉及计算机视觉技术领域,更具体地,涉及一种图像匹配方法。


背景技术:

2.图像特征点匹配技术旨在找到两个场景重叠的图像之间稳定准确的稀疏对应点关系并估计两视图相对位姿。近年来,随着深度神经网络的理论和硬件技术的发展,一类基于卷积神经网络(convolutional neural network,cnn)的方法被广泛应用在图像特征点匹配任务上。他们的核心是利用卷积神经网络代替传统的基于采样和选择的模型拟合方法。由于计算机成像原理中,正确匹配对的两个点的归一化坐标满足某个本质矩阵的约束,而错误匹配对则不满足。基于网络的方式通过学习一个全局特征用来代替一个全局的正确匹配点分布,并用这个学习到的全局特征来规范化每个匹配对的特征,使得正确匹配对的特征和错误匹配对的特征能够被网络区分开。然而,应用这种方法在图像特征匹配上时存在这两个问题:1)很难确定一个合适的尺度来确定那些匹配对需要被保留。如果设计过松的保留准则,则很多错误的匹配对也会被认为是正确匹配对,从而导致保留的匹配对精度过低;而如果设计过紧的保留准则,则很多正确匹配对也被当成错误匹配对,那么这样虽然保留的匹配对精度很高,但是数量很少,难以用于实际应用。2)在使用卷积神经网络寻找正确匹配对时,很难保证全局特征能够具有表征正确匹配对的分布的能力。这样正确匹配对和错误匹配对就不能很好地被区分开来。


技术实现要素:

3.针对现有技术的以上缺陷或改进需求,本发明的目的在于提供了一种基于可引导损失函数和混合注意力机制以及级联网络的图像匹配方法,由此解决现有的方法难以确定保留匹配点准则以及难以编码复杂几何变换的技术问题。
4.为实现上述目的,本发明提供了一种图像匹配方法,包括:
5.s1,分别提取源图像i1和目标图像i2的sift特征点,并基于sift特征点,对源图像i1和目标图像i2进行图像匹配,生成粗匹配集其中,n表示粗匹配集中匹配对的个数,计算第i个匹配对对应的劳氏比ri;
6.s2,并将劳氏比ri转化为先验概率pi,所述先验概率pi表征第i个匹配对为正确匹配对的概率;
7.s3,将每一个匹配对的坐标ci(1≤i≤n)作为特征输入网络,并使用多层感知器对ci进行升维,升维后的特征记为fi(1≤i≤n);
8.s4,将每个匹配对对应的特征fi和先验概率pi作为输入送到所提出的混合注意力提取模块中,分别提取每个匹配对在空间上和通道上的注意力特征;
9.s5,根据每个匹配对的注意力特征,将匹配对分成正确匹配对和错误匹配对,利用所提出的fn-measure引导的损失函数作为监督信息,得到粗略分类结果;
10.s6,在粗略分类结果中进行精细查找,同样用fn-measure引导的损失函数做为目
标函数,通过逐渐减小fn-measre得到精细分类结果;
11.s7,利用精细分类结果中每个匹配对对应的先验概率,通过加权8点法估计源图像i1与目标图像i2之间的相关位姿。
12.通过本发明所构思的以上技术方案与现有技术相比,具有一下有益效果:
13.采用了fn-measure引导的损失来监督网络的训练,可以通过直接设定fn-measure来确定保留匹配点的准则。同时,提出了混合注意力机制特征提取模块,分别融合了先验信息和通道相关信息,用于编码更复杂的几何变换。最后,基于可引导的损失的和混合注意力机制,提出了一个级联网络,可以由粗到精地优化位姿估计结果。
附图说明
14.图1为本发明提供的一种图像匹配方法流程图。
具体实施方式
15.下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
16.为了克服背景技术中的缺陷和问题,提出了一个fn-measure引导的损失函数,该损失函数通过建立交叉熵损失和fn-measure之间的完全负相关关系来在训练过程中最大化fn-measure,使网络能够更好地确定保留匹配对的准则,从而得到更适用于实际应用的分类结果。同时,还提出了一个混合注意力机制模块用于对匹配对分类网络进行特征提取,它通过引入先验信息和学习通道上的相关性来编码更复杂的几何变换。
17.为此,本发明提供了一种图像匹配方法,参见图1,主要包括以下步骤:
18.s1,分别提取源图像i1和目标图像i2的sift特征点,并基于sift特征点,对源图像i1和目标图像i2进行图像匹配,生成粗匹配集其中,n表示粗匹配集中匹配对的个数,计算第i个匹配对对应的劳氏比ri。
19.具体的,待匹配的图像对为源图像i1和目标图像i2,分别提取图像i1和目标图像i2的sift特征点,然后通过欧氏空间最近邻的方式对两幅图像进行匹配,生成粗匹配集其中n表示粗匹配集中匹配对的个数。每一个匹配对由源图像和目标图像的两个特征点的坐标组成,即其中和分别是第i个匹配对对应的两个点的坐标。同时在匹配时,保留图像匹配时最近邻和次近邻的之间的距离比(劳氏比),其中第i个匹配对对应的劳氏比记为ri。
20.源图像i1和目标图像i2为需要匹配的两幅图像,图像之间有部分场景重叠,并且两者之间可能存在着平移、旋转、光照变化、昼夜变化等变换关系。在建立初始匹配关系时,可以使用传统的sift、suft等手工设计的描述子,也可以使用基于深度学习的描述子技术。为了排除相机自身的差异对匹配结果的影响,在已知相机内参的情况下,可以先使用相机内参对相机坐标进行变换,将坐标变换到相机坐标系下。
21.s2,并将劳氏比ri转化为先验概率pi,所述先验概率pi表征第i个匹配对为正确匹配对的概率。
22.具体的,步骤s2具体包括:
23.s201、对于第i个匹配对的劳氏比ri,将它的联合概率密度表示fr(ri)为:fr(ri)=f
in
(ri)
·
α f
out
(ri)
·
(1-α),其中f
in
(ri)是正确匹配对的劳氏比的概率密度函数,f
out
(ri)是错误匹配对的劳氏比的概率密度函数,α是给定匹配集中正确匹配对的占比。
24.s202、分别在有标注的训练数据集上得到正确匹配对和错误匹配对的概率密度函数作为经验概率密度函数,即f
in
(ri)和f
out
(ri)。
25.s203、分别在有标注的训练数据集上得到正确匹配对和错误匹配对的累积分布函数f
in
(ri)和f
out
(ri),然后统计给定的匹配集的累积分布函数f(ri),最后给定一个α,用f
in
(ri)和f
out
(ri)来拟合f(ri),找出拟合误差最小的α作为估计的α。
26.s204、利用s201、s202和s203得到的结果计算第i个匹配对是正确匹配的先验概率:
27.该步骤s2将每个匹配对的劳氏比(ri)转换成了概率值,值域为[0,1]。这么做的原因如下:在不同数据集上,劳氏比的分布存在这很大的差异,而数据的独立同分布则是深度神经网络中一个重要的假设。因此将劳氏比转化为概率分布更有利于其在深度神经网络中的应用。同时,在该发明中,我们采用的先验信息是劳氏比。其他相关的先验信息也可以以相似的方式融入到网络中,比如常用的匹配分数等。
[0028]
s3,将每一个匹配对的坐标ci(1≤i≤n)作为特征输入网络,并使用多层感知器对ci进行升维,升维后的特征记为fi(1≤i≤n)。
[0029]
其中,考虑到匹配对的输入是完全无序的,因此在进行特征升维时使用的是多层感知器而不是邻域卷积。升维后的特征维数是128维。
[0030]
s4,将每个匹配对对应的特征fi和先验概率pi作为输入送到所提出的混合注意力提取模块中,分别提取每个匹配对在空间上和通道上的注意力特征,使得先验信息和通道感知能力被编码,从而使正确匹配对和错误匹配对的特征逐渐具有可分性。
[0031]
具体的,步骤s4具体包括:
[0032]
s401、首先根据每个匹配对输入的特征fi以及先验概率pi,为每个匹配对学习一个后验的权重wi。具体来说,先将fi通过卷积学习到一个条件权重wi'=conv(fi),其中conv为卷积操作。然后将条件权重和先验概率级联,并通过一个卷积操作得到后验权重wi=conv(concat(fi,pi)),并将所有的wi归一化到和为1。
[0033]
s402、利用学习到的后验权重wi和每个匹配对的特征fi计算带权的均值和方差:
[0034]
s403、利用s402中学习到的带权均值和方差归一化每一个匹配对的特征,
[0035]
s404、对每一个匹配对的特征在通道上学习权重矩阵来判断哪些通道对于匹配对分类更为重要,并通过矩阵相乘的方式加强对分类更重要的通道。
[0036]
其中,使用网络寻找一群匹配集中的正确匹配就是要在特征提取时找到正确匹配对的分布,从而使正确匹配对和错误匹配对具有可分的特征。从本质上来说,正确匹配对满
足一个全局的几何约束而错误匹配对不满足。在网络中这个全局约束用一个全局特征,即所有特征的带权均值和方差来代替。通过使用全局特征来归一化所有匹配对,使正确匹配对和错误匹配的特征具有可分的特征。显然,这个全局特征需要能够拟合正确匹配点的分布。网络中在计算全局特征时使用的权重就是用于这一考虑。在应用时,网络为正确匹配对学习到更高的权重,而为错误匹配对学习到较低的权重,从而学习到正确匹配对的分布。在网络浅层,通过劳氏比,将正确匹配对赋予一个较高的权重,使网络开始就偏向正确匹配对。在网络后层,通过自注意力的方式,使网络自己学习来加大正确匹配对的权重。
[0037]
同时,在网络中,每个匹配对都可以学习到一个高维的特征。由于数据分布的差异性,不同维对分类结果可能有不同的重要程度。因此,网络中首先学习通道之间的关联,并根据关联关系为通道的重要程度学习一个权重来表示,从而得到更好的分类结果。
[0038]
其中,所提出的混合注意力特征提取模块被重复地使用12次,从而形成一个深度神经网络为每个匹配对提取特征。
[0039]
s5,根据每个匹配对的注意力特征,将匹配对分成正确匹配对和错误匹配对,利用所提出的fn-measure引导的损失函数作为监督信息,得到粗略分类结果。其中,在该步骤中,采用较大的fn-measure作为引导,使得分类结果的召回率较高,从而得到粗略的分类结果。
[0040]
具体的,步骤s5具体包括:
[0041]
s501、为了保留交叉熵损失的形式,将可引导的损失函数表示为:其中n
pos
和n
neg
分别是正确匹配对和错误匹配对的个数,λ和u分别是正类样本和负类样本的权重,yi和yj分别是正类样本和负类样本对应输出的概率值。
[0042]
s502、分类结果通常用fn-measure评价:其中fn是fn-measure,p是精度,r是召回率,n是一个参数来调节fn对精度和召回率的偏倚(n越大越偏向召回率)。由于在训练时,损失是逐渐减小的,为了使fn在训练时一直增大,fn和损失l之间的完全微分负相关关系被建立:dl
·
dfn≤0。即l和fn的微分永远是相反的,这样损失减小则fn必然增加。
[0043]
s503、可以证明,是dl
·
dfn≤0的一个充分条件,其中x是假负例(fn)样本,y是假正例(fp)样本。和是fn-measure分别对x和y的偏导数,和分别是损失l对x和y的偏导数。
[0044]
s504、对于在网络训练的一批匹配集,先分别统计这些数据中正类样本和负类样本的个数,记为n
pos
和n
neg
,并计算真正例(tp)、真负例(tn)、假正例(fp)、假负例(fn)的个数,分别记为n
tp
、n
tn
、n
fp
、n
fn
。则x=n
fn
,y=n
fp

[0045]
s505、分别计算tp、tn、fp、fn样本的平均损失,记为l
tp
、l
tn
、l
fp
和l
fn

[0046]
s506、分别以数值解的方式求解fn-measure和l对x和y的偏导数,即和
[0047]
s507、以s504、s505和s506求出的结果代入使dl
·
dfn≤0在训练时始终满足,那么损失在减小时fn-measure一定会逐渐上升。求出对应的正类样本和负类样本的损失权重λ和u,并将λ和u代入s501中的损失函数中求出损失进行反向传播。
[0048]
其中,在匹配问题中,精度指的是所保留的匹配对中正确匹配占总的保留的匹配对的占比,召回率指的是找到的正确匹配对占总的正确匹配对的占比。显然,精度高则保留的匹配中的错误匹配对占比越少,而召回率越高能为两视图位姿估计提供更多的约束,这两者对于匹配问题都很重要。fn-measure恰好综合地考虑了精度和召回率,并通过参数n来控制对精度和召回率的偏倚。在使用fn-measure引导损失函数时,考虑了最终的分类结果以及数据集的差异,使网络能够综合地考虑精度和召回率,从而取得更好的位姿估计结果。
[0049]
s6,在粗略分类结果中进行精细查找,同样用fn-measure引导的损失函数做为目标函数,通过逐渐减小fn-measre得到精细分类结果。
[0050]
具体的,步骤s6包括:
[0051]
s601、先用12层所提出的混合注意力机制模块为每一个匹配对提取特征,然后通过一个多层感知器得到分类结果。对于这个分类结果,采用fn-measure引导的损失作为监督,其中取n=3,得到一个粗匹配结果。由于n=3时,fn-measure更偏向于召回率,因此此时得到的结果可以在剔除一些错误匹配的情况下保留尽可能多的正确匹配。
[0052]
s602、在s601中保存的匹配对中,对每个保留的匹配对用3层混合注意力机制模块为每个匹配对继续提取更深层次的特征,然后用多层感知器得到分类结果,对这个结果同样采用fn-measure引导的损失作为监督,其中将n减小为2.5,使得保留结果逐渐偏向精度。重复该操作并将n减小为2。这样网络逐渐由粗到精地得到更准确的匹配结果。
[0053]
其中,由粗到精的结构将网络分成了三个模块,一个粗分类结果获取模块和两个精细结果获取模块,从而形成一个级联结构。每个模块过滤掉部分错误匹配对。通过fn-measure引导的损失来确定每个步骤所要保留匹配对的准则。
[0054]
s7,利用精细分类结果中每个匹配对对应的先验概率,通过加权8点法估计源图像i1与目标图像i2之间的相关位姿。
[0055]
具体的,步骤s7包括:
[0056]
s701、假设粗匹配集其中n表示粗匹配集中匹配对的个数。每一个匹配对由源图像和目标图像的两个特征点的坐标组成,即其中和分别是第i个匹配对对应的两个点的坐标。首先构造一个矩阵其中x的第i行由第i个匹配对的坐标以如下形式构成:
[0057]
s702、根据分类结果为每个匹配对分类一个权重,具体计算公式如下:
[0058]
ωi=tanh(relu(li)),其中c为上述每个匹配对的坐标,φ为上述分类网络结构以及训练好的网络参数,l为分类结果,ωi是为第i个匹配对所分配的权重。
[0059]
s703、根据构造的x矩阵和每一个匹配对的权重,构造计算对称矩阵s=x
t
diag(w)
x,其中是以每个匹配对的权重为值构造的对角矩阵,然后以svd分解的方式求解出e矩阵,并从e矩阵中分离出平移分量和旋转分量。
[0060]
其中,整个网络的总损失函数由分类损失和回归损失组成如下:loss=l
cls
η1·
l
cls1
η2·
l
cls2
η3·
l
reg
,其中loss为总损失,l
cls1
是粗分类结果对应的分类损失,l
cls2
是第一个精细分类结果对应的分类损失,l
cls
是最终分类结果对应的分类损失。l
reg
是e矩阵估计对应的回归损失,其计算方式如下:其中和e分别是估计出来的和真值本质矩阵。η1、η2和η3是各个损失占总损失函数的占比,在训练过程中分别设置为0.1,0.2和0.1。
[0061]
本发明提供的图像匹配方法对匹配结果有显著增益,增益主要来自一下三个方面:首先通过将先验信息融入网络中可以更快的定位正确匹配对,提升网络在不同数据集上的泛化性;其次通道上的注意力可以得到更好的分类结果;最重要的是,网络可以直接优化fn-measure,可以得到更好的分类结果。同时,将fn-measure在网络的不同模块设置为不同的值可以形成由粗到精的级联结构,有利于网络的优化。
[0062]
需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其它实施例的相关描述。
[0063]
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0064]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0065]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0066]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0067]
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
[0068]
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献