一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于自适应网络的三维重建方法、装置及介质

2022-07-13 07:09:39 来源:中国专利 TAG:


1.本发明涉及三维重建技术领域,尤其涉及一种基于自适应网络的三维重建方法、装置及介质。


背景技术:

2.基于深度学习的三维重建技术,主要以卷积神经网络(cnn)为学习模型,通过大量数据学习图像中物体的三维信息,实现二维图像物体到三维物体模型端到端的转换。相比传统的三维重建方法,深度学习的方法表现出很大的优势,在与其他算法的对比实现了显著的提升,将深度学习技术运用到三维重建中,具有天然的优势,深度学习可以利用先验经验来大致估计物体的深度,其原理类似于人类凭借经验大致估计物体的距离,具有一定的合理性。因此,将深度学习引入三维重建中,依靠其自动学习特征的能力,用神经网络代替立体匹配,取得了很好的效果,也成为了目前主流的思路。近年来涌现出了一大批优秀的基于深度学习的三维重建算法。
3.虽然近些年来,人们已经陆续开始研究以深度学习为基础的三维重建方法,但仍存在一些基本的问题,首先在高精度方面,目前的技术虽然已经能够恢复粗略的三维物体模型,不断提高了重建的分辨率,但其精度仍然没有达到足够精确的部分,在物体信息更加丰富的表面,三维重建精度仍然面临重大的挑战。
4.其次,在面对室外复杂场景中,如何不受户外复制因素的干扰来获得更加准确的物体信息,从而重建出三维模型,也需要研究解决,尤其是在面对有遮挡、无纹理或者低纹理物体的情况下,如何面对该挑战,从而获得更加精细的三维重建模型,也一直是需要面对的困难。并且,目前,基于深度学习的算法更多的是依赖于传统算法,对传统算法的其中一部分进行改善,通用性较差。
5.基于以上的难点问题,如何使用深度学习方法来提升三维重建的精确度,降低算法的复杂度,都需要进行进一步的研究。


技术实现要素:

6.为至少一定程度上解决现有技术中存在的技术问题之一,本发明的目的在于提供一种基于自适应网络的三维重建方法、装置及介质。
7.本发明所采用的技术方案是:
8.一种基于自适应网络的三维重建方法,包括以下步骤:
9.输入两张图像,采用两个特征提取网络分别对两张图像进行特征提取,采用自适应网络对提取的特征进行处理,获得两张图像特征图;
10.根据图像特征图和相机参数构建视图的代价体,获得两个代价体;
11.采用正则化网络对所有的代价体进行正则化处理,以利用空间上下文信息,将代价转化为深度假设的概率分布;
12.采用损失函数对特征提取网络、自适应网络和正则化网络进行训练,获得三维重
建模型,采用获得的三维重建模型对待处理图像进行三维重建。
13.进一步地,所述两个特征提取网络的参数相同,且参数共享;所述特征提取网络由五层cnn组成。
14.进一步地,所述自适应网络用于自适应聚合不同尺度和不同纹理丰富度区域的特征;
15.所述自适应网络中有三个不同的特征空间尺度,该三个特征空间尺度由三个可变形卷积处理获得:
[0016][0017]
其中,f(p)代表像素点p的特征值,wk表示普通卷积运算中定义的核参数,pk表示固定偏移量,δpk和δmk是指由可变形卷积的可学习子网络自适应产生的偏移和调制权值。
[0018]
进一步地,所述根据图像特征图和相机参数构建视图的代价体,获得两个代价体,包括:
[0019]
将得到的两个图像的特征和相机参数进行匹配计算,获得两个代价体;
[0020]
在相机的深度假设为d的情况下,图像特征和第i幅输入图像之间的像素映射关系有:
[0021][0022]
其中,t和k代表相机的外部变换参数和内部参数;
[0023]
代价体的表达式如下:
[0024][0025]
其中,fi(d)表示输入第i张图像的特征,表示两张图像的平均特征。
[0026]
进一步地,在获得代价体后,还包括以下步骤:
[0027]
采用卷积网络模块来处理不可靠的匹配代价体,具体表达式如下:
[0028][0029]
其中,*是矩阵对应元素的乘积,ω(
·
)每张图像的代价体自适应生成特征。
[0030]
进一步地,所述正则化网络采用rnn-cnn混合方式,在d维度处切取代价量h
×w×d×
32;
[0031]
正则化网络中通过的特征具有水平方向和垂直方向,在水平方向上,三维成本体积的每一片都由一个具有编码器-解码器架构的cnn进行正则化;在垂直方向上,采用5个平行的rnn,将原卷积层的中间输出传递给后一个卷积层。
[0032]
进一步地,所述采用5个平行的rnn,将原卷积层的中间输出传递给后一个卷积层,包括:
[0033]
将第j个卷积层需要处理的深度d的代价体(第j-1层的输出)记为v
j-1
(d),深度d-1的这一层输出为vj(d-1),此时保持原值操作(也就是隐藏状态)记为mj(d-1);将v
j-1
(d)和vj(d-1)进行串联,经过卷积层处理后,将特征维的张量分成4张量w、x、y、z,一个卷积层内的4个二维信号:
[0034][0035]
由于mj(d)=mj(d-1),可得到:
[0036]
mj(d)=mj(d-1)
·
f i
·g[0037]
最终输出代价体vj(d)的表达式如下:
[0038]
vj(d)=o
·
tanh(mj(d))
[0039]
其中,w、x、y、z表示特征提取得到的四维矩阵的四个维度信息。
[0040]
进一步地,由于正则化将匹配成本转化为像素级概率分布的深度假设,因此深度估计的任务类似于像素级分类问题,故通过对真实值进行编码,采用交叉熵来计算训练损失,具体表达式如下:
[0041][0042]
其中,gd(p)和pd(p)表示像素p的真实图像的概率和深度假设d的预测概率,pv为可靠深度的有效像素集合;d0表示第一个图像的深度假设预测概率,d1表示第二个图像的深度假设预测概率。
[0043]
本发明所采用的另一技术方案是:
[0044]
一种基于自适应网络的三维重建装置,包括:
[0045]
至少一个处理器;
[0046]
至少一个存储器,用于存储至少一个程序;
[0047]
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上所述方法。
[0048]
本发明所采用的另一技术方案是:
[0049]
一种计算机可读存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。
[0050]
本发明的有益效果是:本发明采用自适应网络对特征进行处理,采用正则化网络对代价体进行正则化,有效提升三维重建的精确度。
附图说明
[0051]
为了更清楚地说明本发明实施例或者现有技术中的技术方案,下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例,对于本领域的技术人员而言,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
[0052]
图1是本发明实施例中基于自适应网络的三维重建方法的流程图;
[0053]
图2是本发明实施例中自适应网络的结构示意图;
[0054]
图3是本发明实施例中聚合代价体网络结构示意图;
[0055]
图4是本发明实施例中代价体正则化网络结构示意图;
[0056]
图5是本发明实施例中一种基于自适应网络的三维重建方法的步骤流程图。
具体实施方式
[0057]
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
[0058]
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
[0059]
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
[0060]
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
[0061]
术语解释:
[0062]
cnn:卷积神经网络。
[0063]
rnn:循环神经网络。
[0064]
目前的三维重建在处理有遮挡、无纹理或者低纹理的局部背景时,限制了三维重建的鲁棒性和完整性,并且大多数双目视觉匹配代价聚合的过程中一般不会考虑像素级的可见性,这些都使得三维重建模型的精度降低。基于此,如图1和图5所示,本实施例提供一种基于自适应网络的三维重建方法,具体包括以下步骤:
[0065]
s1、输入两张图像,采用两个特征提取网络分别对两张图像进行特征提取,采用自适应网络对提取的特征进行处理,获得两张图像特征图。
[0066]
特征提取:通过输入的两张图像经过特征提取网络来得到所有图像的特征,两个特征提取网络的参数是一样的,但每一张图像都需要进行特征提取,最后得到两张图像特征图。特征提取网络由五层cnn组成,将输入的两张图像分别经过这个特征提取网络,就可以得到特征图,该特征提取网络之间的参数是共享的,并且卷积核大小是3*3的。
[0067]
该自适应网络可以用于自适应聚合不同尺度和不同纹理丰富度区域的特征。在该网络中,有三个不同的特征空间尺度,它们是由三个可变形卷积处理得到的:
[0068][0069]
其中f(p)代表了像素点p的特征值,wk表示普通卷积运算中定义的核参数,pk表示的是固定偏移量,δpk和δmk是指由可变形卷积的可学习子网络自适应产生的偏移和调制权值,通过插值较小的特征映射到h
×
w,就可以得到3个特征映射,它们分别具有16、8、8个
通道的,并将这些特征拼接成h
×w×
32的特征映射。
[0070]
将经过特征提取网络得到的特征图输入到该卷积神经网络中,该网络中所有卷积层的卷积核都是3
×
3的。首先,在编码处的特征通道大小是8、16、16、16、16,接着将多尺度特征图分别通过三种可变形的卷积,然后通过不同大小的双线性插值对可变形卷积得到的值进行处理,就可以得到三个仅通道大小不同的矩阵,最后,将上一步得到的不同通道的矩阵进行拼接,就得到了一个h
×w×
32(16 8 8)的特征映射,可参见图2。
[0071]
s2、根据图像特征图和相机参数构建视图的代价体,获得两个代价体。
[0072]
聚合代价体:对于每个视图的匹配代价体是通过将得到的两个图像的特征和相机参数进行匹配计算的,在深度假设为d的情况下,图像特征和第i幅输入图像之间的像素映射关系有:
[0073][0074]
其中t和k代表相机的外部变换参数和内部参数。据此,就可以得到代价体:
[0075][0076]
其中fi(d)表示输入第i张图像的特征,表示两张图像的平均特征。
[0077]
在构建了每个视图的代价体之后,下一步是将所有的代价体通过正则化聚合到一个代价体中,一个常见的做法是平均代价体,其基本思想是所有的观点应该是同等重要的。然而,这是不够合理的,因为不同的拍摄角度可能会导致遮挡或者光照影响等问题,使深度估计更加困难。因此,本实施例使用了一个卷积网络模块来处理不可靠的匹配代价体:
[0078][0079]
其中的*是矩阵对应元素的乘积,ω(
·
)每张图像的代价体自适应生成特征,通过这种方法,对于匹配过程中容易混淆或者是不容易识别的像素进行抑制,而具有关键上下文信息的像素将被给予更大的权重。这里使用1 ω(
·
)是因为它比单独使用ω(
·
)能够更好的防止过度平滑,可参见图3。
[0080]
s3、采用正则化网络对所有的代价体进行正则化处理,以利用空间上下文信息,将代价转化为深度假设的概率分布。
[0081]
代价体正则化:代价正则化是利用空间上下文信息,将匹配代价转化为d深度假设的概率分布。正则化网络采用rnn-cnn混合方式,在d维度处切取代价量h
×w×d×
32。正则化网络中通过的特征具有水平方向和垂直方向,在水平方向上,三维成本体积的每一片都由一个具有编码器-解码器架构的cnn进行正则化,在垂直方向上,有5个平行的rnn,将原卷积模块的中间输出传递给后一个卷积模块,可参见图4。
[0082]
将第j个卷积层需要处理的深度d的代价体(第j-1层的输出)记为v
j-1
(d),深度d-1的这一层输出为vj(d-1),此时保持原值操作(也就是隐藏状态)记为mj(d-1)。将v
j-1
(d)和vj(d-1)串联起,经过卷积层处理后,将特征维的张量分成4张量w、x、y、z,一个卷积层内的4个二维信号:
[0083][0084]
然后mj(d)=mj(d-1)可得到:
[0085]
mj(d)=mj(d-1)
·
f i
·g[0086]
网络的最终输出代价体vj(d)为:
[0087]
vj(d)=o
·
tanh(mj(d))
[0088]
s4、采用损失函数对特征提取网络、自适应网络和正则化网络进行训练,获得三维重建模型,采用获得的三维重建模型对待处理图像进行三维重建。
[0089]
损失函数:由于成本体积正则化将匹配成本转化为像素级概率分布的深度假设,因此深度估计的任务现在类似于像素级分类问题。因此,通过对真实值进行编码,采用交叉熵来计算训练损失,定义为:
[0090][0091]
式中,gd(p)和pd(p)表示像素p的真实图像的概率和深度假设d的预测概率,pv为可靠深度的有效像素集合。
[0092]
为更好地描述本实施例方法,下面以一具体实例加以说明。
[0093]
dtu数据集是在良好控制的实验室条件下,摄像机轨迹固定的室内mvs数据集。它包含128个扫描,在7种不同的光照条件下49个视图,并分为79个训练扫描,18个验证扫描和22个评估扫描。以每幅图像为参考,总共有27097个训练样本。按照常见的配置,使用dtu数据集进行网络训练和评估。接下来介绍了实验的具体过程以及使用上述的数据集的结果,并与目前主流的算法进行对比验证,使用的对比数据越小表示效果越好。
[0094]
最终实验结果如表1所示:
[0095]
表1
[0096]
方法acc.(mm)comp.(mm)overall(mm)三维重建平均值0.3860.3690.377本方法0.3960.3420.369
[0097]
本实验方法在数据集上的结果表明,相较其他方法的准确度有着一定的提高,该网络是一个很好的适合计算双目视觉三维点云重建的方法。
[0098]
综上所述,本实施例方法相对于现有技术,具有如下的优点及有益效果:
[0099]
(1)自适应网络方案设计用于鲁棒特征提取,该网络将上下文感知的特征自适应聚合到多个尺度和不同丰富度的纹理区域。
[0100]
(2)在多视图代价体积聚合步骤中使用卷积网络,其目的是通过对匹配良好的视图对,分配更高的权值来克服复杂场景中不同遮挡的困难。
[0101]
本实施例还提供一种基于自适应网络的三维重建装置,包括:
[0102]
至少一个处理器;
[0103]
至少一个存储器,用于存储至少一个程序;
[0104]
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现图5所示方法。
[0105]
本实施例的一种基于自适应网络的三维重建装置,可执行本发明方法实施例所提供的一种基于自适应网络的三维重建方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
[0106]
本技术实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图5所示的方法。
[0107]
本实施例还提供了一种存储介质,存储有可执行本发明方法实施例所提供的一种基于自适应网络的三维重建方法的指令或程序,当运行该指令或程序时,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
[0108]
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
[0109]
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
[0110]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0111]
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设
备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
[0112]
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
[0113]
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
[0114]
在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
[0115]
尽管已经示出和描述了本发明的实施方式,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
[0116]
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于上述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本技术权利要求所限定的范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献