一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于二维图像的网格模型重建方法、系统、装置及介质与流程

2023-03-28 08:14:37 来源:中国专利 TAG:


1.本发明涉及计算机视觉技术领域,尤其是基于二维图像的网格模型重建方法、系统、装置及介质。


背景技术:

2.基于深度学习与表面重建的三维模型重建方法通过训练深度估计神经网络并且求解基于物理的微分方程来达到从图像还原三维模型的目的,在cg(计算机图形学)、3dcv(三维计算机视觉)、ar(增强现实)中有着大量运用。例如,在增强现实中,为了实现ar效果与周围物理场景之间的逼真与沉浸式交互,三维重建需要准确、连贯并且实时地执行。
3.在计算机视觉领域中,三维模型通常由网格(mesh)表示。网格是构成三维对象的顶点,线和面的集合,大型模型通常是由较小的相互连接的平面(通常是三角形或矩形)构建而成的。在多边形网格中,每个顶点都保存着x,y,z坐标信息,每个面中都包含着顶点及顶点间的相互连接关系。对于二维图像来说,由于只存在一个方向与图像各像素的颜色,直接从图像重建三维模型是一个比较具有挑战性的问题。
4.相关技术方案中,三维模型重建框架将模型重建的计算流程分为两个步骤,即从彩色图像估计对应的深度贴图和使用估计的深度贴图重建点云模型然后进一步重建表面。深度估计指的是要寻找一种从图像中各像素点的颜色到各自对应的深度的映射。在获取到深度信息之后,可以通过原本生成这张贴图的相机内参数矩阵(camera intrinsic matrix),完成从二维空间到三维点云(point cloud)的逆投影变换。但是,在深度估计方面,相关技术方案中大多使用多视图序列(multi-view stereo)的方法来进行深度贴图估计。然而,这类型的方法依赖于单物体的多张不同视角的图片来进行恢复,并且估计的深度值大多有缺失。而基于卷积神经网络的方法无法捕捉到全局上下文交互信息,预测的深度值不够精确。在表面重建方面,泊松重建方法由于需要进行迭代求解,耗时较长,且无法在实时家居展示时使用该方法。


技术实现要素:

5.有鉴于此,为至少部分解决上述技术问题或者缺陷之一,本发明实施例的目的在于提供一种基于二维图像的网格模型重建方法,方法充分利用全局上下文交互信息旨在获取更为精确的深度值;本技术技术方案同时还提供了方法对应的系统、装置以及介质。
6.一方面,本技术技术方案提供了基于二维图像的网格模型重建方法,包括以下步骤:
7.获取待重建目标物表面的二维图像;
8.通过训练后的自注意力模型对所述二维图像的图像深度区间进行分箱深度预测,得到深度箱子的线性组合;所述深度箱子用于表征深度值区间;
9.根据所述线性组合描述所述二维图像中像素的深度值,构建得到深度图,并根据所述深度图构建目标物的模型点云;
10.通过截断的带符号距离函数根据所述模型点云构建空间体素,根据所述空间体素与最近的目标物表面的第一距离以及所述空间体素更新的第一权重,对所述二维图像进行帧融合得到有符号的距离场;
11.根据所述有符号的距离场通过等值面提取模型表面,根据所述模型表面还原得到所述目标物的三维网格模型。
12.在本技术方案的一种可行的实施例中,所述自注意力模型的训练过程,包括:
13.通过第一训练数据训练得到所述自注意力模型中的编码器;
14.根据特征上采样模块构建得到所述自注意力模型中的解码器;
15.根据所述编码器、所述解码器以及自注意力模块构建得到所述自注意力模型。
16.在本技术方案的一种可行的实施例中,通过训练后的自注意力模型对所述二维图像的图像深度区间进行分箱深度预测,得到深度箱子的线性组合,包括:
17.将所述二维图像输入至所述编码器进行编码,将编码结果输入至所述解码器进行解码得到所述二维图像的图像特征;
18.根据所述图像特征进行全局注意力计算确定所述二维图像对应的深度箱子的宽度向量;所述宽度向量表征所述二维图像的分辨率以及局部像素级信息;
19.将所述宽度向量与所述图像特征进行卷积运算得到范围注意力特征图,根据所述范围注意力特征图确定所述深度箱子的线性组合。
20.在本技术方案的一种可行的实施例中,所述根据所述图像特征进行全局注意力计算确定所述二维图像对应的深度箱子的宽度向量,包括:
21.将所述图像特征输入至编码卷积模块,根据所述码卷积模块的内核大小、步长以及输出通道数输出得到所述图像特征的第一张量;
22.根据所述自注意力模块的有效序列长度将所述第一张量进行展平得到第二张量;
23.根据所述第二张量通过多层感知机中的激活函数进行激活运算输出得到第一向量,将所述第一向量进行归一化处理得到所述深度箱子的宽度向量。
24.在本技术方案的一种可行的实施例中,将所述宽度向量与所述图像特征进行卷积运算得到范围注意力特征图,根据所述范围注意力特征图确定所述深度箱子的线性组合,包括:
25.将所述范围注意力特征图输入至卷积核中进行卷积运算,将卷积运算的结果进行分类预测,得到分类预测的分数值;
26.根据所述深度箱子的宽度向量计算所述深度箱子中心的第一概率,根据所述第一概率以及所述分数值确定所述深度箱子的线性组合;所述线性组合用于描述像素的深度值。
27.在本技术方案的一种可行的实施例中,所述通过截断的带符号距离函数根据所述模型点云构建空间体素,根据所述空间体素与最近的目标物表面的第一距离以及所述空间体素更新的第一权重,对所述二维图像进行帧融合得到有符号的距离场,包括:
28.确定所述空间体素在世界坐标系中的第一位置点,根据所述深度图中深度数据对应的相机位姿矩阵确定所述第一位置点在相机坐标系下的第一映射点;
29.根据所述相机坐标系相机内参矩阵,对所述第一映射点既定反投影得到所述深度图中的第二位置点;
30.确定所述第一映射点与所述相机坐标系的原点之间的第二距离,根据所述第二距离以及第二位置点的深度值计算得到有向距离场,根据所述有向距离场确定所述第一距离;
31.根据所述第一位置点的投影光线、表面法向量的夹角以及所述第二距离即使算得到所述第一权重;
32.根据所述空间体素在当前帧中的所述第一距离以及所述第一权重确定所述空间体素的有符号的距离场。
33.在本技术方案的一种可行的实施例中,所述根据所述有符号的距离场通过等值面提取模型表面,根据所述模型表面还原得到所述目标物的三维网格模型,包括:
34.通过所述三维网格模型中第三位置点的所述距离场对应的浮点张量,
35.将所述浮点张量输入至训练完成后的三维卷积网络,通过所述三维卷积网络中的激活函数进行运算输出得到所述三维网格模型;
36.所述三维卷积网络的训练过程包括:
37.根据历史数据中物体表面周围窄带的图像数据构建得到第二训练数据;
38.将所述第二训练数据输入至所述三维卷积网络输出得到预测结果,并通过预测结果的二进制掩码构建损失函数,根据所述损失函数对所述三维卷积网络的参数进行调整。
39.另一方面,本技术技术方案还提供了基于二维图像的网格模型重建系统,该系统包括:
40.第一单元,用于获取待重建目标物表面的二维图像;
41.第二单元,用于通过训练后的自注意力模型对所述二维图像的图像深度区间进行分箱深度预测,得到深度箱子的线性组合;所述深度箱子用于表征深度值区间;
42.第三单元,用于根据所述线性组合描述所述二维图像中像素的深度值,构建得到深度图,并根据所述深度图构建目标物的模型点云;
43.第四单元,用于通过截断的带符号距离函数根据所述模型点云构建空间体素,根据所述空间体素与最近的目标物表面的第一距离以及所述空间体素更新的第一权重,对所述二维图像进行帧融合得到有符号的距离场;
44.第五单元,用于根据所述有符号的距离场通过等值面提取模型表面,根据所述模型表面还原得到所述目标物的三维网格模型。
45.另一方面,本技术技术方案还提供基于二维图像的网格模型重建装置,该装置包括至少一个处理器;至少一个存储器,用于存储至少一个程序;当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器运行如第一方面中所述的基于二维图像的网格模型重建方法。
46.另一方面,本技术技术方案还提供一种存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行如第一方面中任一项所述的基于二维图像的网格模型重建方法。
47.本发明的优点和有益效果将在下面的描述中部分给出,其他部分可以通过本发明的具体实施方式了解得到:
48.本技术技术方案针对增强现实家居展示系统中的三维重建部分,提出了新颖的深度估计与表面重建的方法,方法通过一个基于自注意力的深度估计模型,从彩色图像中能
够精确地还原深度信息,然后使用基于截断的带符号距离函数从深度信息中计算隐势面从而构建空间体素,最后使用移动立方体的方法提取表面,从而达到更加准确、可靠的三维重建效果,并且方法替换了迭代求解的过程,重建耗时更短,能够快速且高质量完成三维重建。
附图说明
49.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
50.图1为本技术技术方案中提供的基于二维图像的网格模型重建方法的步骤流程图;
51.图2为本技术技术方案中构建的空间体素的示意图;
52.图3为本技术技术方案在表面提取过程中构建的神经网络模型示意图。
具体实施方式
53.下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
54.需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
55.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术实施例的目的,不是旨在限制本技术。
56.如背景技术的内容所指出,相关的三维重建技术一般包括深度估计与表面重建两个部分,深度估计的主要目的是从图像估计出深度贴图,进而还原点云,表面重建的目的是从离散的点云还原成连续的网格表面表示。
57.在一些相关的技术方案中,深度估计方法包括传统的多视图序列(multi-view stereo),基于卷积神经网络的方法。传统方法通常需要多视角贴图作为输入,对多视图中各像素点之间的关系进行建模,通过像素匹配恢复部分三维结构信息。基于卷积神经网络的模型是一种端对端的建模方法,通过多层卷积神经网络提取彩色图像中的特征表示,然后通过梯度下降与反向传播的方法估计对应的深度贴图。
58.另外,表面重建通常会使用泊松重建的方法。泊松重建首先采用的是自适应的空间网格划分的方法(根据点云的密度调整网格的深度),根据采样点集的位置定义八叉树,在均匀采样的情况下,使用三线性插值用距离场逼近指示函数的深度,再使用拉普拉斯矩
阵迭代求解,最后提取并重建等值面。
59.针对多视图序列(multi-view stereo)的方法中存在的深度值损失,基于卷积神经网络的方法无法捕捉到全局上下文交互信息,预测的深度值不够精确以及泊松重建方法由于需要进行迭代求解,耗时较长等等缺陷和不足,本技术技术方案针对图像重建三维模型的增强现实家居展示框架,提出一种准确、快速的模型重建方法,可从二维图像进行图像-点云-表面的三维重建处理。
60.第一方面,如图1所示,本技术技术方案提供了一种基于二维图像的网格模型重建方法,方法包括步骤s100-s500:
61.s100、获取待重建目标物表面的二维图像;
62.具体地,在实施例中通过在目标各个不同的角度以及视角进行拍摄获取得到待重建目标物表面的二维图像。
63.s200、通过训练后的自注意力模型对所述二维图像的图像深度区间进行分箱深度预测,得到深度箱子的线性组合;其中,深度箱子用于表征深度值区间;
64.具体地,在实施例中,为了提高深度估计的准确性,可以将深度估计问题转换为分类任务。实施例中采用自适应分箱策略将深度区间d=(d
min
,d
max
)分箱。该间隔n对于给定的数据集是固定的,由不同数据集的特性决定,或者手动设置该间隔到合理范围。然后,从输入图像中使用自适应的方法计算每个箱子的宽度b。但是,将深度间隔d离散化为箱子并将每个像素分配给单个箱子可能会导致深度离散化伪影。为了解决这个问题,我们将最终深度预测为箱子中心的线性组合,使模型能够估计平滑变化的深度值。
65.s300、根据所述线性组合描述所述二维图像中像素的深度值,构建得到深度图,并根据所述深度图构建目标物的模型点云;
66.具体地,实施例中首先根据二维图像中每个像素的深度值进行整合得到二维图像对应的深度图,然后根据深度图转换为模型点云,实施例中通过图像坐标系转换为世界坐标系得到深度图对应的点云;其中,变换的约束条件就是步骤s100中进行拍摄的相机内参。
67.s400、通过截断的带符号距离函数根据所述模型点云构建空间体素,根据所述空间体素与最近的目标物表面的第一距离以及所述空间体素更新的第一权重,对所述二维图像进行帧融合得到有符号的距离场;
68.具体地,在得到深度图并且重建模型点云后,我们将使用基于截断的带符号距离函数从点云中构建空间体素。实施例中如图2所示,首先建立一个大的空间作为要建立的三维模型,这个空间可以完全包括实施例中的模型,该空间由许多个小的体素组成。
69.其中,每个体素对应空间中一个点,这个点用两个量来评价:
70.1.该体素到最近的表面(可以称作zero crossing)的距离,实施例中记作tsdf(x),即带符号距离体素;
71.2.体素更新时的权重,实施例中记作w。
72.实施例中可以在得到当前帧中所有体素的tsdf值以及权重值,如果当前帧是第一帧,则第一帧即是融合结果,否则需要当前帧与之前的融合结果在进行融合。可以将新的图像帧逐一融合进融合帧内。最终,实施例可以得到细节较好,精确度较高的有符号距离场,并且可以输入到下一步提取表面。
73.s500、根据所述有符号的距离场通过等值面提取模型表面,根据所述模型表面还
原得到所述目标物的三维网格模型;
74.具体地,在获得有符号距离场后,实施例使用等值面提取的方法提取模型表面,还原三维网格模型。实施例首先提出了一个基于双轮廓的数据驱动网格重建方法(ndc),实施例中使用神经网络预测顶点位置,这消除了输入中对梯度的需求,并考虑了训练数据中固有的上下文信息。
75.至此,实施例完成了从单目彩色图像出发,经过深度估计,空间体素构建,最终使用三维卷积表面提取的方法重建三维网格模型;实施例利用自注意力模型达到高准确性与高速从彩色图像估计深度的目的,同时利用基于截断的有符号距离函数与三维卷积表面提取的方法进行快速的网格模型重建处理。
76.在一些可行的实施方式中,自注意力模型的训练过程,可以包括步骤s201-s303:
77.s201、通过第一训练数据训练得到所述自注意力模型中的编码器;
78.s202、根据特征上采样模块构建得到所述自注意力模型中的解码器;
79.s203、根据所述编码器、所述解码器以及自注意力模块构建得到所述自注意力模型。
80.具体在实施例中,在模型架构方面,现有模型大多采用编码器,注意力,解码器的范式。但是在实施过程中,在更高的分辨率下使用自注意力模型更加有助于提高模型估计的准确性。基于此,在一些可行的实施方式中使用了编码器-解码器-自注意力的结构来完成这个任务。我们模型使用在imagenet上训练的efficientnet b5作为编码器,并且使用一个标准的特征上采样模块作为解码器,输入图像经过编码器与解码器后作为已解码的特征传入自注意力模块进行计算;其中,h表示图像的高度,w表示图像的宽度,cd是中间特征的通道数量,为一是数值,可以描述一个向量,其指数部分表示维度。
81.在一些可行的实施例方式中,通过训练后的自注意力模型对所述二维图像的图像深度区间进行分箱深度预测,得到深度箱子的线性组合的步骤s200,可以包括步骤s210-s230:
82.s210、将所述二维图像输入至所述编码器进行编码,将编码结果输入至所述解码器进行解码得到所述二维图像的图像特征;
83.具体在实施例中,输入图像经过前述步骤中训练完成的编码器与解码器后作为已解码的特征传入自注意力模块进行计算。
84.s220、根据所述图像特征进行全局注意力计算确定所述二维图像对应的深度箱子的宽度向量;
85.具体在实施例中,在估计箱子的过程中,对给定图像更可能出现的深度范围d内的子区间进行估计需要同时结合局部结构信息和全局分布信息。因此,实施例中提出使用全局注意力来计算每个输入图像的箱子的宽度向量b。
86.更为具体地,实施例中步骤s220可以进一步包括步骤s221-s223:
87.s221、通道数输出得到所述图像特征的第一张量;
88.s222、根据所述自注意力模块的有效序列长度将所述第一张量进行展平得到第二张量;
89.s223、根据所述第二张量通过多层感知机中的激活函数进行激活运算输出得到第
一向量,将所述第一向量进行归一化处理得到所述深度箱子的宽度向量。
90.具体在实施例中,首先将解码后的特征通过一个内核大小为p
×
p,步长为p,输出通道数为e的编码卷积模块。然后,我们可以得到大小为的张量。实施例再把这个张量展平为其中作为自注意力模块的有效序列长度。实施例将该张量输入到自注意力模块中,经处理后输出一系列编码结果实施例在首个输出的张量上使用了多层感知机进行进一步编码。该多层感知机使用relu激活函数进行激活并输出n维向量b

。最后,实施例对向量b

进行归一化使其总和为1,最终可以得到箱子宽度向量b:
[0091][0092]
其中,∈=10-3
;这个微小正数∈是用于确保每个箱子的宽度都是严格正数。归一化引入了箱子宽度之间的竞争,通过预测d中与深度较为相关的区域迫使网络专注于预测d内的子区间。
[0093]
s230、将所述宽度向量与所述图像特征进行卷积运算得到范围注意力特征图,根据所述范围注意力特征图确定所述深度箱子的线性组合;
[0094]
具体地,通过自注意力模块后的特征可以同时表示高分辨率与局部像素级信息,并且能够有效地包含更多全局信息。实施例将这个来源于自注意力模块的输出与解码后的特征级联后使用一组1
×
1的卷积核进行卷积,获得范围注意力特征图r。这相当于在计算被视为“键”的像素特征和作为“查询”的自注意力输出之间的点积注意力权重。
[0095]
更为具体地,实施例中步骤s230可以进一步包括步骤s231-s232:
[0096]
s231、将所述范围注意力特征图输入至卷积核中进行卷积运算,将卷积运算的结果进行分类预测,得到分类预测的分数值;
[0097]
s232、根据所述深度箱子的宽度向量计算深度箱子中心位置的第一概率,根据所述第一概率以及所述分数值确定所述深度箱子的线性组合;所述线性组合用于描述像素的深度值;
[0098]
具体在实施例中,在混合回归模块中,这个范围注意力特征图r再一次被输入到1
×
1的卷积模块中,经过一次softmax运算后得到n个通道的softmax分数pk,其中k=1,

,n。然后,从箱子宽度向量b中计算n个深度箱子中心的概率c(b)={c(b1),c(b2),

,c(bn)}:
[0099][0100]
最后,最终每个像素的深度值就是在这个像素位置的softmax分数的线性组合:
[0101][0102]
在一些可行的实施方式中,实施例中通过截断的带符号距离函数根据所述模型点云构建空间体素,根据所述空间体素与最近的目标物表面的第一距离以及所述空间体素更新的第一权重,对所述二维图像进行帧融合得到有符号的距离场这一步骤s400,可以包括
步骤s410-s450:
[0103]
s410、确定所述空间体素在世界坐标系中的第一位置点,根据所述深度图中深度数据对应的相机位姿矩阵确定所述第一位置点在相机坐标系下的第一映射点;
[0104]
具体在实施例中,首先针对构建得到的空间体素进行遍历。以一个体素在世界坐标系三维位置点p为例;即位置点p记为第一位置点,实施例中可以由深度数据的相机位姿矩阵,求世界坐标系下点p在相机坐标系下得映射点v,即为第一映射点。
[0105]
s420、根据所述相机坐标系相机内参矩阵,对所述第一映射点既定反投影得到所述深度图中的第二位置点;
[0106]
具体在实施例中,由相机内参矩阵,反投影v点求深度图像中的对应像素点x,即得到第二位置点;其中,像素点x的深度值为value(x)。
[0107]
s430、确定所述第一映射点与所述相机坐标系的原点之间的第二距离,根据所述第二距离以及第二位置点的深度值计算得到有向距离场,根据所述有向距离场确定所述第一距离;
[0108]
具体在实施例中,像素点x的深度值为value(x),点v到相机坐标原点的距离为distance(v),那么p的sdf值为sdf(p)=value(x)-distance(v)。引入截断距离从而减少性能消耗,计算出tsdf(p),在截断距离u以内,否则,如果sdf(p)》0,tsdf(p)=1,sdf(p)《0,tsdf(p)=-1。
[0109]
s440、根据所述第一位置点的投影光线、表面法向量的夹角以及所述第二距离即使算得到所述第一权重;
[0110]
具体在实施例中,第一权重w(p)的计算公式:
[0111][0112]
式中θ为投影光线与表面法向量的夹角。经过步骤s440可以计算得到这一帧的所有体素的tsdf值以及权重值。
[0113]
s450、根据所述空间体素在当前帧中的所述第一距离以及所述第一权重确定所述空间体素的有符号的距离场;如果当前帧是第一帧,则第一帧即是融合结果,否则需要当前帧与之前的融合结果在进行融合。实施例中将tsdf
fuse(p)
作为体素p的融合tsdf值,w
fuse(p)
为融合权重值,tsdf
cur
(p)为体素p当前帧的tsdf值,w
cur
(p)为当前图像帧权重值。实施例可以通过tsdf
cur
(p)更新tsdf
fuse(p)
。其中tsdf
fuse(p)
满足如下计算公式:
[0114][0115]
w(p)=w
fuse
(p) w
cur
(p)
[0116]
具体在实施例中,通过tsdf
fuse
(p)以及w(p)可以将新的帧融合进融合帧内。最终,实施例可以得到细节较好,精确度较高的有符号距离场,并且可以输入到下一步提取表面。
[0117]
在一些可行的实施方式中,实施例中根据所述有符号的距离场通过等值面提取模型表面,根据所述模型表面还原得到所述目标物的三维网格模型这一步骤s500,可以包括步骤s510-s520:
[0118]
s510、通过所述三维网格模型中第三位置点的所述距离场对应的浮点张量;
[0119]
s520、将所述浮点张量输入至训练完成后的三维卷积网络,通过所述三维卷积网络中的激活函数进行运算输出得到所述三维网格模型;
[0120]
具体在实施例中,提出了一个基于双轮廓的数据驱动网格重建方法(ndc),我们使用神经网络预测顶点位置,这消除了输入中对梯度的需求,并考虑了训练数据中固有的上下文信息。ndc的公式表示如下:
[0121][0122]
其中,i表示输入的有符号距离场,θ表示的是可学习的参数。实施例的模型fv首先将在网格顶点x处的距离场表示φ采样为形状为|x|的浮点张量;s表示网格顶点符号,v表示边的顶点,g表示离散化后的网格,f表示双向面,其只有在格边连接符号相反的格顶点时才会被创建。然后实施例使用三维神经网络来处理这个张量。这个三维卷积网络总共有6层,前3层的卷积核大小为33,最后3层的内核大小为13,总感受野为73。实施例采用具有64个通道的较少参数数量的隐藏层来提高网络的计算效率。在输出层上使用sigmoid作为激活函数,在其他所有地方都是用leaky relu作为激活函数。
[0123]
其中,所述三维卷积网络的训练过程包括步骤s511-s512:
[0124]
s511、根据历史数据中物体表面周围窄带的图像数据构建得到第二训练数据;
[0125]
s512、将所述第二训练数据输入至所述三维卷积网络输出得到预测结果,并通过预测结果的二进制掩码构建损失函数,根据所述损失函数对所述三维卷积网络的参数进行调整;
[0126]
具体在实施例中,神经网络具体结构如图3所示,在模型训练时,实施例利用输入数据来监督网络在输入表面周围的窄带中所做的预测,实施例使用二进制掩码ms、mv来评估是否在窄带内,如果是则为1,否则为0,这是因为曲面只能在有符号距离场的附近变化。从伪真实顶点的l2 loss着手训练网络:
[0127][0128]
其中,

表示的是哈达玛积,这样,我们就可以训练一个从有符号距离场到网格表面的神经网络,其中v
gt
表示训练集中的网格真实值。
[0129]
另一方面,本技术技术方案还提供了基于二维图像的网格模型重建系统,该系统包括:
[0130]
第一单元,用于获取待重建目标物表面的二维图像;
[0131]
第二单元,用于通过训练后的自注意力模型对所述二维图像的图像深度区间进行分箱深度预测,得到深度箱子的线性组合;所述深度箱子用于表征深度值区间;
[0132]
第三单元,用于根据所述线性组合描述所述二维图像中像素的深度值,构建得到深度图,并根据所述深度图构建目标物的模型点云;
[0133]
第四单元,用于通过截断的带符号距离函数根据所述模型点云构建空间体素,根据所述空间体素与最近的目标物表面的第一距离以及所述空间体素更新的第一权重,对所述二维图像进行帧融合得到有符号的距离场;
[0134]
第五单元,用于根据所述有符号的距离场通过等值面提取模型表面,根据所述模
型表面还原得到所述目标物的三维网格模型。
[0135]
另一方面,本技术技术方案还提供了基于二维图像的网格模型重建装置,该装置包括:至少一个处理器;至少一个存储器,用于存储至少一个程序;当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器运行如第二方面所述的基于二维图像的网格模型重建方法。
[0136]
本发明实施例还提供了一种存储介质,其存储有对应的执行程序,程序被处理器执行,实现第一方面中的基于二维图像的网格模型重建方法。
[0137]
从上述具体的实施过程,可以总结出,本发明所提供的技术方案相较于现有技术存在以下优点或优势:
[0138]
本技术技术方案中的第一部分深度估计,相对于传统方法来说,方案引入了全局感受野,能够更好地聚合上下文信息与非局部特征,使得深度估计结果相对于已有的方法有准确率更高的优势。本发明中的第二与第三部分,引入了新颖的基于截断的有符号距离函数与三维卷积表面提取方法,具有可以快速从点云重建等值面的优势。
[0139]
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
[0140]
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
[0141]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0142]
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
[0143]
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于上述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本技术权利要求所限定的范围内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献