一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

特征检测器和描述符的制作方法

2022-06-05 21:47:50 来源:中国专利 TAG:


1.本发明涉及图像处理,尤其涉及从输入图像中提取特征。


背景技术:

2.特征提取是许多计算机视觉应用中的关键步骤,帮助2d和3d视觉系统构建可靠的主干,这些主干可保证应用的鲁棒性和有效性,从而提供令人满意的用户体验。特征提取的核心问题是识别场景中有意义的位置,这些位置可以很容易地从不同的视点以高精度定位,同时能够从外观上与其它候选对象区分开来。
3.用于即时定位与地图创建(simultaneous localization and mapping,slam)、增强现实和摄影测量的现代3d视觉管道都依赖于强大的特征提取阶段来无缝工作。此外,需要对场景进行几何理解或图像对齐(诸如全景照片拼接)的2d视觉应用需要可靠的特征提取器。一旦特征区域及其数学描述符被提取出来,它们可以进行匹配,不仅为了推断图像之间的2d关系,而且为了利用2d关系从图像中生成3d重建和深度图,以及更多3d应用。
4.标准特征提取管道通常包括:检测器,用于检测图像中称为关键点或斑块的特征区域;以及连续描述符,用于对关键点周围的区域进行数学描述。生成关键点和描述符来描述这些位置,即使图像处于不同的几何变换或光度变换下也是如此。
5.因此,该任务是双重的。首先,需要在特定感兴趣区域内找到合理数量的可靠点;这可以是图像的一部分,也可以是整个图像。其次,借助关键点附近的信息,寻找一个函数来稳健地提取关键点的有意义表示。
6.图1示出了检测器-描述符管道的示例,并用来自不同视点的两个示例性图像示出了该过程,如101和104所示。摄影图像由rbg摄像头形成。在第一阶段,检测器检测特定的关键点。这些关键点的位置在102和105处的图像中以圆圈表示。这些位置是根据检测器计算得出的,位于输入图像内的可区分点。它们由描述符进一步处理,该描述符将多维值分配给描述符空间中的每个单独关键点及其邻域。通过比较描述符空间的差异,可以对关键点进行匹配。在该示例中,在给定描述符空间中的度量的情况下,如果描述彼此接近,使用这些描述来匹配两个图像内的对应区域。匹配最接近描述的低于指定阈值的点。匹配以103和106处的图像之间的连接线示出。
7.由于检测器的输出是描述符的输入,因此这两项任务相互依存。大多数当前最先进的方法都侧重于为这两项任务中的任何一个制定解决方案,或者逐个像素地描述整个图像。
8.传统上,检测器和描述符基于提取应用于高效管道中的人工设计的特征。
9.为了解决所讨论的问题,引入了多条人工设计的管道。这些方法中的大多数利用作为滤波器对图像应用的微分算子进行近似来生成梯度图像和海森。虽然边缘检测器和拐角检测器可以有效地设计为滤波器,但是斑点检测器通常通过简单的微分运算(例如,高斯和拉普拉斯源码、高斯差分、海森的行列式)来分析图像的平滑版本。为了使算法对光度变换和几何变化(诸如尺度、旋转以及更复杂映射方面的差异)保持不变,在精心设计的管道
中使用这些滤波器来检测关键点并描述其邻域。
10.这类算法的一个示例是尺度不变特征变换(scale invariant feature transform,sift),如david lowe于2004年在《计算机视觉国际期刊(international journal of computer vision,ijcv)》中发表的“尺度不变关键点的独特图像特征(distinctive image features from scale-invariant keypoints)”和us 6711293 b1中所描述的。sift管道是一种人工设计方法,从尺度空间体积推断方向、位置和描述。这种方法使用128维向量描述找到的sift点。对于定位,使用高斯差分,而尺度不变性通过尺度空间金字塔实现,旋转不变性通过方向直方图处理。
11.虽然已证明已知方法在许多应用中既有效又准确,但它们的设计理念是对一组特定变换保持不变,并且主要通过观察人眼如何区分某些关键位置来驱动。此外,sift等方法只能有限地处理局部几何失真。总体而言,由于建模能力有限,无法对图像中可能存在的大量差异进行具体分析。
12.数据驱动方法固有地分析参数优化期间馈入的图像的方差。在卷积神经网络的框架中执行此操作,可以针对最适合现有数据的理想核优化函数近似器。大多数方法都侧重于学习检测器或学习描述符。
13.需要开发一种能够克服上述问题的图像处理系统。


技术实现要素:

14.根据一个方面,提供了一种图像处理器,所述图像处理器包括多个模块,所述多个模块包括第一模块和第二模块,其中,所述图像处理器用于接收输入图像,并输出所述输入图像的特征区域的多个数学描述符;所述第一模块用于实现第一经过训练的人工智能模型,以检测所述输入图像中的一组特征区域;所述第二模块用于实现第二经过训练的人工智能模型,以确定所述一组特征区域中的每个特征区域的数学描述符,其中,所述第一经过训练的人工智能模型和所述第二经过训练的人工智能模型统一经过端到端训练。
15.所述第二模块的输入可以包括所述第一模块的输出。因此,所述图像处理器可以在图像处理管道中实现。
16.所述第一模块可以用于通过组合人工设计的特征和学习的特征来检测所述输入图像的特征区域。所述第二模块可以用于通过组合人工设计的特征和学习的特征来确定所述特征区域的所述数学描述符。这可以提高对光度变化和几何变化的鲁棒性。混合公式利用所述人工设计的特征作为鲁棒性的先验知识,同时在学习阶段也具有通用性。这样,可以计算有意义的表示,而不需要单独从数据中提取鲁棒性,从而实现高效计算。
17.所述第一模块和所述第二模块中的至少一个可以用于聚合来自所述输入图像的不同大小区域的数据。这可以确保能够根据所述输入图像的分辨率从具有不同上下文的图像中提取特征。
18.所述输入图像可以是rgb图像。这可以确保所述图像处理器能够由智能手机等配备摄像头的设备使用。
19.所述特征区域可以是所述输入图像的边缘和/或拐角。这可以确保所述图像处理器能够用于计算机视觉应用。
20.根据第二方面,提供了一种用于在图像处理器处实现的方法,所述图像处理器包
括多个模块,所述多个模块包括第一模块和第二模块,其中,所述图像处理器用于接收输入图像,并输出所述输入图像的特征区域的多个数学描述符,所述方法包括:在所述第一模块处实现第一经过训练的人工智能模型,以检测所述输入图像中的一组特征区域;在所述第二模块处实现第二经过训练的人工智能模型,以确定所述一组特征区域中的每个特征区域的数学描述符;其中,所述第一经过训练的人工智能模型和所述第二经过训练的人工智能模型统一经过端到端训练。
21.根据第三方面,提供了一种用于训练机器学习系统以在图像处理器处实现的方法,所述系统包括第一模块和第二模块,所述第一模块用于实现第一经过训练的人工智能模型以检测输入图像中的一组特征区域,所述第二模块用于实现第二经过训练的人工智能模型以确定所述一组特征区域中的每个特征区域的数学描述符;所述方法包括:统一端到端训练所述第一人工智能模型和所述第二人工智能模型。
22.所述方法可以包括:相互优化所述第一经过训练的人工智能模型的函数和所述第二经过训练的人工智能模型的函数。这可以促进提高性能。
23.所述方法可以包括:根据所述第一人工智能模型的训练阶段的输出,训练所述第二人工智能模型。所述方法可以包括:随后,根据所述第二人工智能模型的训练阶段的输出,训练所述第一人工智能模型。这可以确保基于所述描述符的检测器与基于所述检测器的所述描述符能够相互细化。
24.所述方法可以包括:交替地学习所述第一经过训练的人工智能模型和所述第二经过训练的人工智能模型。所述方法可以包括:迭代地更新所述第一经过训练的人工智能模型和所述第二经过训练的人工智能模型的参数。这可以确保能够在训练期间持续改进所述模型。
25.所述方法可以包括:更新所述第一经过训练的人工智能模型的所述参数,以提高所述第一经过训练的人工智能模型的重复性。所述方法可以包括:更新所述第二经过训练的人工智能模型的所述参数,以提高所述第二经过训练的人工智能模型的区分性分数。因此,所述模型的联合训练可以确保能够检测既可重复又可区分的特征。
26.根据第四方面,提供了一种用于在图像处理器处实现的机器学习系统,所述机器学习系统用于执行上述任一方法。
附图说明
27.现将参考附图通过示例的方式对本发明进行描述。在附图中:
28.图1示出了传统检测器-描述符管道;
29.图2示出了混合检测器-描述符管道;
30.图3示出了检测器和描述符的双向训练;
31.图4示出了检测器和描述符的双向训练的另一示例;
32.图5示出了描述符的人工设计的特征提取;
33.图6示出了描述符的学习的特征提取;
34.图7示出了分层上下文聚合;
35.图8示出了混合分层上下文聚合的示例;
36.图9示出了用于在图像处理系统处实现的方法;
37.图10示出了用于实现本文中所描述的图像处理器的摄像头;
38.图11示出了双向训练对关键点分数的结果的影响;
39.图12(a)至图12(c)示出了不同检测器-描述符管道在特征匹配方面的定性比较。
具体实施方式
40.本文中所描述的图像处理器将从图像中提取特征的问题表述为两个函数h(检测器)和d(描述符)的组合。这些函数既可以融合人工设计的特征,又可以从本质上学习表示法,以结合这两种方法的结果。这两个函数用一般函数近似器近似。方便地,这可以是卷积神经网络,其与特定输入数据联合优化映射,同时聚合不同层次的上下文。
41.图2示出了混合图像处理管道的示例的概述。将输入图像201馈送至检测器阶段202,该检测器阶段组合了人工设计的、可学习特征(下面将更详细地进行描述),以检测检测图203中以圆形示出的可区分关键点。连续描述阶段204还组合了人工设计的特征与学习的表示,以输出描述关键点位置的描述符图205。描述可以是稀疏的(关键点位置),也可以是密集的(所有像素)。
42.传统上,检测器和描述符是分别处理和训练的两个实体。如下所述,本文中所描述的检测器和描述符架构可以通过相互交替地训练两个组件模块来训练。
43.检测器和描述符方法通常具有两个不同的目标。检测器倾向于能够一致地(或者,在优选情况下始终)检测的可重复区域,例如从不同视点拍摄的图像,而描述符倾向于呈现图像匹配任务中最终导致这些部分匹配的唯一表示的区分性区域。
44.例如,对于从不同视点拍摄的同一对象的输入图像,模型的重复性反映了可以从不同视点在图像中检测相同关键点的实例的比例。模型的区分性分数反映了区分不同关键点的程度。高区分性分数表示模型可以区分不同的关键点。
45.这两个目标往往是对立的。例如,具有可重复图案的高纹理表面将有利于检测,而描述符在重复图案的每个实例中可能难以区分检测到的部分。因此,特征提取管道内各个部件的联合训练(即检测器和描述符的联合训练)是有益的。
46.图3示出了检测器301和描述符302的双向相互训练过程的概述。在对检测器执行优化步骤以提高关键点的重复性之后,更新描述阶段,该描述阶段强调特征具有区分性。这种联合训练可以确保能够检测既可重复又可区分的特征。在检测器301的训练期间,更新提高了特征的重复性。在所述更新之后更新描述符阶段302,该描述符阶段提高了特征的区分性分数(即特征相互区分的能力)。按照图3所示的箭头,在检测器与描述符之间交替执行训练。因此,图像处理器用于根据检测器的训练阶段的输出对描述符进行训练。图像处理器还可以根据描述符的训练阶段的输出对检测器进行训练。图像处理器随后可以根据描述符的训练阶段的输出对检测器进行训练,和/或反之亦然。因此,图像处理器可以交替地(即,一个接一个且优选重复地)对检测器和描述符执行学习,并且可以迭代地更新这些模块要实现的模型的参数。因此,存在基于描述符的检测器与基于检测器的描述符的相互细化。
47.在函数近似方面,特征提取管道可以被视为两个函数的组合:h(检测器)和d(描述符)。训练包含检测器和描述符的神经网络管道可以被视为函数空间中的优化问题,使得在检索到检测器之后应用描述符的复合函数。传统上,这两个问题是相互单独处理的。整个管道的结果取决于两个部分。函数的相互更新可以改进这些函数的组合,下面将更详细地进
行描述。
48.检测器函数h将分数范围s=[0,1]中的分数s分配给图像i内的每个像素位置。可以将h视为包括身份和得分函数的函数,该得分函数检索给定像素p成为关键点的可能性,例如h(p)=(p,s),其中s》》0。同时,未被可靠检测到的点将被分配给低分数。
[0049]
可以将描述符视为函数d,函数d将多维值分配给图像内的给定像素,该图像内的给定像素被认为既准确地描述了该部分的图像内容,又对图像变换具有鲁棒性。如果像素区域对应于相同的世界点,则分配给特定像素的多维值可以在超立方体cn中接近,其中c=[

1,1],而如果不是这种情况,则描述可能不同。
[0050]
为了使这两个函数h和d近似,本文中所描述的方法可以学习将伪度量分配给描述符的嵌入,使得系统能够很好地区分不同的点,同时对于同一世界点的不同投影产生的点是一致的。在该实施方式中,可以使用度量学习,并且利用通过三元组损失的点之间的马氏距离(请参阅schultz和joachims于2004年在神经信息处理系统进展大会(advances in neural information processing systems,neurips)中发表的“通过相对比较学习距离度量(learning adistance metric from relative comparisons)”)。候选对象斑块的描述符cj相对于锚点斑块ci在欧几里德嵌入空间cn中对于不同的点被推得更远,而如果锚点和候选对象相似,则它们的值被拉得更近。在实践中,使用n=128。
[0051]
训练可以在如下意义上联合执行,即在检测器的优化步骤之后执行针对描述符进行优化的优化步骤,类似于期望最大化优化方案。可以使用随机梯度下降来单独优化这两个函数,并使用公共损失函数d(h(ci))来优化这两个函数的组合。检测器和描述符的不同损失l
det
和l
desc
分别可以用于如下所述的相互更新,或者l
desc
可以沿由d或h的权重给出的方向与交替梯度步长一起使用。
[0052]
各个损失可以写为:
[0053]
l
det
=‖d(h(ci))

d(h(cj))‖
p (1)
[0054]
对于斑块ci和cj,根据描述距离更新检测器:
[0055][0056]
对于描述符,利用锚点斑块ci、正样本cj、负样本ck以及正负对之间的余量α,在嵌入空间中学习有意义的伪度量。在实践中,可以使用p=2或鲁棒性huber-loss。上述网络可以利用这些损失进行训练,直到收敛。
[0057]
因此,对于检测器和描述符,损失的公式基于重复性和区分性,例如通过度量学习实现。
[0058]
图4示出了检测器401和描述符402的双向训练,两种分别具有函数h和d。如上所述,描述符和检测器训练联合执行。在具有随机梯度下降的检测器h的优化过程中,利用固定检测器近似d执行一个步骤。在该示例中,相对于公共复合损失函数l
det
(等式(1))计算梯度。关于具有三元组损失l
desc
(等式(2))的马氏伪度量的度量学习,执行由描述符驱动的步骤,使得相似的点被分配给相似的描述符,而对应于不同区域的点在描述符空间(底部)中被推开。通过检测器和描述符的相互更新迭代地重复该过程,直到收敛。
[0059]
因此,可以将架构的函数近似表示为检测器和描述符的联合训练和/或双向训练的组合。
[0060]
因此,检测器和描述符不仅在推理方面存在相关性,而且在训练期间也存在相关性。
[0061]
如上所述,检测器阶段可以结合人工设计的特征和可学习的特征。人工设计的特征是指使用输入图像本身中存在的信息导出的特征。例如,基本边缘检测器算法可以通过检测图像强度突然变化的区域来检测边缘等特征区域。学习的特征是指可以从输入图像数据中学习的特征,即通过机器学习算法自动获得的特征。例如,卷积网络可以从输入图像数据中学习特征区域,因为它们是从数据中产生的。
[0062]
对于检测器的混合提取,可以应用key.net(axel barroso等人,“key.net:人工设计和学习的cnn滤波器的关键点检测(key.net:keypoint detection by handcrafted and learned cnn filters)”,国际计算机视觉大会(international conference on computer vision,iccv),2019年)描述的架构和实现,该架构和实现组合人工设计的特征与学习的特征,以从输入图像中提取关键点。
[0063]
对于描述符,人工设计的特征提取阶段的示例如图5所示。在该示例中,使用farid和simoncelli于1997年在图像和模式的计算机分析国际会议(international conference on computer analysis of images and patterns,icip)上发表的“最优旋转-等变方向导数核(optimally rotation-equivariant directional derivative kernels)”中描述的方法来最优地提取旋转-等变方向导数核。
[0064]
如502所示,图像501由一组离散微分算子处理,其中,该组离散微分算子作为滤波器应用于图像,如由farid和simoncelli于1997年在图像和模式的计算机分析国际会议(international conference on computer analysis of images and patterns,icip)上发表的“最优旋转-等变方向导数核(optimally rotation-equivariant directional derivative kernels)”中所提出的。这些滤波器以22
°
的步长旋转,以产生对2d图像旋转具有鲁棒性的输出。一组离散微分算子(即,)以22
°
的步长旋转,并分别应用于图像。该步长提高了对图像内容旋转的鲁棒性。
[0065]
然后,如503所示,将16个旋转滤波器应用于图像,并且在504选择每三个旋转滤波器的最大激活。
[0066]
为了确保对尺度变化具有鲁棒性,可以应用高斯模糊金字塔,其中空洞卷积针对每个旋转滤波器查看不同的上下文,以找到跨尺度维度的最大激活。
[0067]
如505所示,创建图像的高斯模糊金字塔,该金字塔通过增大步幅的空洞卷积进行处理,如506所示,以从不断壮大的邻域收集上下文。该信息通过空间维度上的最大池化层进行压缩(请参阅worrall和welling的“深度尺度空间:超越尺度的等效性(deep scale-spaces:equivariance over scale)”,arxiv,2019年),如507所示。
[0068]
在训练期间,可以将整个批次的白化变换应用于特征,以将特征统计数据变换为身份协方差。这样,将特征表示为超球面内方差为1的不相关信号。
[0069]
图6示出了描述符的学习的特征提取。在该示例中,使用tian等人于2017年在《ieee计算机视觉与模式识别会议汇刊》中发表的“l2-net:欧几里德空间中判别式斑块描述符的深度学习(l2-net:deep learning of discriminative patch descriptor in euclidean space)”中提出的架构提取架构中使用的学习的特征。l2-net是一种全卷积神经网络,其滤波量随深度分层递增。该网络应用使用卷积层的各个卷积块,随后是批量归一
化和relu激活。
[0070]
图像601由学习的特征提取阶段l2-net处理。在架构中附加7个具有分层递增滤波器组的卷积块,通常如602所示,以提取特征图603。各个块包括卷积层,在该卷积层上应用批量归一化和relu形式的激活。第一滤波器是具有32个学习的滤波器的3x3卷积,最后一层包括具有128个学习的滤波器的9x9卷积。
[0071]
因此,在架构中组合了人工设计的特征和可学习的特征。采用类似的方法使检测器组合人工设计的特征与学习的特征。这通过设计提高对光度变化和几何变化的鲁棒性。
[0072]
此外,图像处理器还可以执行分层多上下文聚合。
[0073]
应用于图像的卷积神经网络(convolutional neural network,cnn)的第一层滤波器对应用该滤波器的点周围的上下文仅具有有限的空间感知。虽然更深层的信息融合可以组合来自不同空间位置的数据,但卷积运算本身具有平移不变性。这意味着对图像应用卷积核不包括该图像中应用卷积核的所在位置的信息。虽然这是神经网络训练时的一个有利方面,但是由于只有有限的一组滤波器可以具有经过训练的权重,因此当空间上下文应当在cnn的早期阶段进行聚合时,这同时也会带来问题。这可以通过使用分层上下文聚合方案来克服。
[0074]
为了实现来自不同空间位置的聚合,该架构可以有利地包括对局部感知到全局感知进行操作的滤波器,使得可以同时包含空间附近的信息以及更远的信息。为此,可以单独应用于滤波器以提取特征的不同图像分辨率来利用空间采样金字塔。在检测器和描述符中都进行这种多上下文特征提取,使得结果对与图像中尺度变化相关的扰动更具鲁棒,同时聚合不同邻域大小的信息。如图7所示。以降低分辨率生成降采样图像的空间金字塔,如701所示。特征提取阶段702分别对每个图像进行操作,以检索包括不同邻域大小的信息,其中,早期阶段滤波器的感知场包括图像中的不同上下文。提取的特征具有不同的上下文,具体取决于输入图像的分辨率,如703所示。信息聚合阶段组合来自这些上下文映射图的信息以得出最终决定,如704所示。
[0075]
类似于上述结合图7描述的尺度空间方法可以用于融合人工设计的管道(hf)和学习阶段(l)两者的特征。如图8所示。在这种混合分层上下文聚合中,空间图像金字塔提取三个不同层上的各个人工设计的特征和学习的特征,以将应用的滤波器的空间上下文增加到更低尺度上的其它邻域。先将按经调整大小的分辨率计算出的特征层上采样到全分辨率,然后将该计算出的特征层放入神经网络,该神经网络学习跨尺度维度的滤波器权重,最终输出具有聚合信息的组合特征图。
[0076]
空间图像金字塔由三个级别构成,使得分辨率从1/1降低到1/2和1/4,通常如801所示。提取的人工设计的(hc)特征和学习的(l)特征遵循增加邻域大小以降低分辨率,并且存储在特征维度为128的不同分辨率上,通常如802所示。通过跨空间域的双线性上采样对低分辨率特征图进行上采样,以相同分辨率创建三个特征图,如803所示。学习一组滤波器804,以组合跨尺度维度的特征图。最终特征图805拥有根据因先前步骤而产生的不同上下文聚合的信息。
[0077]
因此,图像处理器可以针对检测器和描述符对多个上下文执行特征提取和聚合。因此,检测器和描述符可以有利地聚合来自特征区域周围的输入图像的不同大小区域的数据。这些不同的区域可以是越来越大的邻域,所述邻域可以在特征区域周围具有分层递增
的邻域。
[0078]
图9概括了用于在图像处理器处实现的方法。如上所述,所述图像处理器包括多个模块,所述多个模块包括第一模块和第二模块,其中,所述图像处理器用于接收输入图像,并输出所述输入图像的特征区域的多个数学描述符。在步骤901,所述方法包括:在所述第一模块实现第一经过训练的人工智能模型,以检测所述输入图像中的特征区域。在步骤902,所述方法包括:在所述第二模块实现第二经过训练的人工智能模型,以确定所述特征区域的所述数学描述符。如上所述,所述第一经过训练的人工智能模型和所述第二经过训练的人工智能模型统一经过端到端训练。
[0079]
图10示出了用于实现图像处理器以处理由摄像头1001中的图像传感器1002拍摄的图像的摄像头的示例。此类摄像头1001通常具备一些车载处理能力。这可以由处理器1004提供。处理器1004也可以用于设备的基本功能。摄像头通常还包括存储器1003。
[0080]
收发器1005能够通过网络与其它实体1010、1011进行通信。这些实体可以物理上远离摄像头1001。网络可以是可公开访问的网络,例如互联网。实体1010、1011可以基于云。在一个示例中,实体1010是计算实体,实体1011是命令和控制实体。这些实体是逻辑实体。在实践中,这些实体中的每个实体可以由服务器和数据存储器等一个或多个物理设备提供,并且这些实体中的两个或多个实体的功能可以由单个物理设备提供。实现实体的每个物理设备包括处理器和存储器。设备还可以包括收发器,用于向摄像头1001的收发器1005发送数据并从其接收数据。存储器以非瞬态方式存储可由处理器执行以便以本文中所描述的方式实现相应实体的代码。
[0081]
如上所述,命令和控制实体1011可以训练系统中使用的人工智能模型。这通常是一项计算密集型任务,即使可以有效地描述所得到的模型也是如此,因此对于要在云中执行的算法的开发来说可能是高效的,在云中可以预期有大量的能量和计算资源可用。可以预见,这比在典型摄像头中形成此类模型更有效。
[0082]
在一种实施方式中,一旦在云中开发了深度学习算法,命令和控制实体就可以自动形成相应的模型,并将该模型传输到相关摄像头设备。在该示例中,系统由处理器1004在摄像头1001处实现。
[0083]
在另一种可能的实施方式中,可以由摄像头传感器1002捕获图像,并且可以由收发机1005将图像数据发送到云以便在系统中进行处理。然后,可以将得到的目标图像发送回摄像头1001,如图10中的1012所示。
[0084]
因此,该方法可以通过多种方式部署,例如在云端、在设备上或另选地在专用硬件中。如上所示,云设施可以进行训练,以开发新算法或改进现有算法。训练可以在靠近源数据的地方进行,也可以在云中进行,例如使用推理引擎,具体取决于靠近数据语料库的计算能力。该系统也可以在摄像头处、专用硬件中或云中实现。
[0085]
在一些实施方式中,上述联合训练可以对描述符和检测器的结果产生显著影响,如图11所示。
[0086]
图11示出了双向训练对关键点分数的结果的影响。将源图像1101馈送到经过两次独立和联合训练的检测器-描述符-框架中。检测器分数在下部可视化,用于独立训练(如1102所示)和联合训练(如1103所示),其中较暗值对应于较高分数。对于分别如1102和1103中的1104和1105所示的图像的一部分,1106详细示出了这两个区域。对于联合训练,即使结
构具有重复性,变焦上部沿边缘的响应也具有高响应。该响应减小到拐角点,使得关键点变得更加局部化,从而在执行匹配等连续任务时更加可靠。
[0087]
在典型的(独立)训练中,高分数被分配给特征点,而与它们在图像中的重复性无关,联合训练的区分性产生了易于区分的区域。在图11所示的图像中,这可以通过查看在独立训练中具有高响应性的高梯度区域进行观察,同时使用联合检测器描述符训练将沿图像边缘的像素减少到拐角点处的特征结构。
[0088]
图12(a)至图12(c)示出了特征匹配任务的结果的比较,其中使用本文中所描述的管道和现有技术方法从两个不同的视角为图像中的关键点连接最接近的描述符。
[0089]
使用图12(a)中的sift、图12(b)中的d2-net(d2-net:用于联合描述和检测局部特征的可训练的cnn(d2-net:a trainable cnn for joint description and detection of local features),《ieee计算机视觉与模式识别会议汇刊(computer vision and pattern recognition,cvpr)》,2019年)以及图12(c)中描述的管道来计算一组图像的关键点和各个描述符。图像根据三种不同方法中检测到的关键点的最近描述符距离显示匹配项。sift在小视点变化下表现良好,但在更一般的变换中表现不佳。神经网络d2-net对较大视点变化更具鲁棒性,但存在重复性结构问题。如本文中所描述的,针对检测器和描述符联合训练的管道显示了在重大视点变化下进行匹配的最佳结果,即使场景中存在重复性图案也是如此。
[0090]
本文中所描述的混合检测器-描述符架构利用高效的人工设计的管道和数据驱动的方法,将关键点提取和特征描述的相关任务紧密地缠绕在一起。与现有方法相比,本文中所描述的方法组合了检测器和描述符中的人工设计的特征和学习的特征、训练期间检测器和描述符的双向缠绕以及用于分层上下文聚合的方法。
[0091]
从图像中提取并组合人工设计的特征和学习的特征,以创建最终表示。虽然人工设计的特征被设计为对特定的几何变换和光度变换具有鲁棒性,但它们也得益于基于学习的方法的泛化能力,这些方法固有地利用数据统计。混合公式利用所述人工设计的特征作为鲁棒性的先验知识,同时在学习阶段也具有通用性。这样,可以计算有意义的表示,而不需要单独从数据中提取鲁棒性,从而实现高效计算。这使得能够在手机等嵌入式设备上实现和执行管道。
[0092]
申请方在此单独公开本文描述的每个单独特征及两个或两个以上此类特征的任意组合。以本领域技术人员的普通知识,能够基于本说明书将此类特征或组合作为整体实现,而不考虑此类特征或特征的组合是否能解决本文所公开的任何问题;且不对权利要求书的范围造成。本技术表明本披露的各方面可由任何这类单独特征或特征的组合构成。鉴于前文描述可在本披露的范围内进行各种修改对本领域技术人员来说是显而易见的。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献