一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种单视角图像的三维风格迁移方法

2023-03-20 08:59:16 来源:中国专利 TAG:


1.本发明涉及三维模型设计领域,具体涉及一种单视角图像的三维风格迁移方法。


背景技术:

2.神经图像风格迁移因其在许多自动化创作中取得的显着成功而在计算机视觉社区中受到越来越多的关注。这些应用主要属于2d风格迁移,将一个参考图像的艺术风格迁移到另一个内容图像。最近,它被扩展到将一个3d对象的形状和纹理风格转移到另一个,以便在增强现实和虚拟现实中编辑3d内容。然而,这种扩展需要获取物体的3d信息,存在着难度大、成本高、耗时长等重大问题。
3.在三维形变方面,三维形变的目标是将源对象的形状变形为目标对象。一些早期的工作试图通过设置可控点或笼的方式,来通过手动控制使物体的形状发生变形。为了避免人为干预,一些工作试图通过构建可形变笼、形变编码和检测到的3d关键点来找到源和目标之间的对应关系。以上方法是通过人工或者三维模型为输入找到源和目标之间的对应关系实现三维形变,这种对应关系的建立并不容易。
4.在风格迁移方面,二维风格迁移已被广泛探索。已经提出了许多工作来实现任意样式的2d风格迁移,包括adain、lst、adaattn、ins和efdm。这些方法很容易扩展到uv map纹理图中,因为这些uv map纹理图仍然是2d图像。遵循这一策略,我们探索了一种语义uv map纹理图风格迁移方法,用于实现uv map纹理的多样性。3d风格迁移的目的是将2d风格迁移扩展到3d领域以生成风格化的3d模型。大多数早期作品是给出3d模型或从单视图或多视图图像重建它,然后探索差分渲染方法将图像风格传输到3d网格中。3dstylenet主要研究从源三维模型到目标三维模型的形状变换。此外,已经提出了许多风格化的3d场景方法来将3d风格迁移类比为2d风格迁移,并对点云或隐式场执行类似2d的风格迁移,而不考虑3d形状的样式。


技术实现要素:

5.本发明的目的在于提出一种单视角图像的三维风格迁移方法,通过利用双残差门控网络和mlp网络,以二维图片中mask掩码、纹理感知和关键点对应关系为监督信号,学习源对象和目标对象的形状特征并融合生成新颖3d模型,并在传统的纹理风格迁移上引入了语义掩码,实现部分风格迁移,并生成更丰富的纹理图。
6.实现本发明的技术解决方案:第一方面,本发明提供一种单视角图像的三维风格迁移方法,包括如下步骤:
7.步骤1、给定原图片s和同类别目标图片t,利用umr的encoder编码器分别提取他们的形状特征fs,f
t
、uv map图us,u
t
以及相机位姿ps,p
t
和类别语义分割uv map图u
seg

8.步骤2、利用双残差门控网络(drg net)分别提取出形状特征fs,f
t
中同语义可融合的形状特征
9.步骤3、设定融合比例因子α来控制同语义的形状特征特征融合的程度,并按
照比例融合形状特征生成形状融合特征
10.步骤4、利用mlp网络以形状融合特征为输入得到能够结合两张图形状特点的三维空间点坐标并加到三维类别共同模板上生成特异性三维形状模型;
11.步骤5、计算形状掩码损失l
mask
、感知损失l
per
和三维关键点对应损失l
key
,进行双残差门控网络和mlp网络参数优化;
12.步骤6、利用已训练好的传统纹理风格迁移的vgg网络提取uv map图us,u
t
纹理特征vs,v
t

13.步骤7、将类别语义分割uv map图u
seg
下采样到纹理特征vs,v
t
尺度,并分别将u
seg
除背景部分外其他语义掩码部分分别加到纹理特征vs,v
t
上,形成各个语义纹理特征
14.步骤8、用语义纹理特征语义掩码部分的均值和方差去替换语义纹理特征语义掩码部分的均值和方差,并输入到已训练好的传统纹理风格迁移的decoder网络生成语义纹理风格迁移结果,与步骤4中生成的三维形状模型一起构成创新性形状和纹理三维模型。
15.优选地,步骤1中利用umr的encoder编码器分别提取原图片s和目标图片t的形状特征fs,f
t
作为初步形状特征,具备丰富的形状信息,uv map图us,u
t
和类别语义分割uv map图u
seg
具有和三维模型空间点和纹理固定的映射方式并且语义一致,能够支撑后续纹理迁移生成的风格化uv map图的语义不变性。
16.优选地,步骤2中的双残差门控网络,利用迭代结构分层提取原图和目标图的形状特征,利用残差结构保持形状特征的原有信息,基于两者形状特征生成门控信息获取形状特征的残差变化。
17.优选地,步骤3中的比例因子控制了原图和目标图形状特征的融合比例。
18.优选地,步骤4中利用mlp网络以形状融合特征为输入得到能够结合两张图形状特点的三维空间点坐标并加到三维类别共同模板上生成特异性三维形状模型。
19.优选地,步骤5中使用生成的创新性三维模型分别在原图相机位姿和目标图相机位姿,投影到二维平面之后的mask掩码与原图和目标图的mask掩码计算iou生成l
mask
,以及投影到二维平面之后带有纹理的图与原图和目标图计算感知损失l
per
,并在投影之后对关键点计算关键点损失l
key
;通过l
mask
和l
per
控制三维模型的总体形状,l
key
则能维持三维模型各个部位之间的相对位置。
20.优选地,步骤6中利用已训练好的传统纹理风格迁移的vgg网络提取uv map图us,u
t
纹理特征vs,v
t

21.优选地,步骤7中根据纹理特征和同尺度的类别语义分割uv map图u
seg
语义对应性,利用语义mask掩码构造除语义纹理特征
22.优选地,步骤8中用语义纹理特征语义掩码部分的均值和方差去替换语义纹理特征语义掩码部分的均值和方差,并输入到已训练好的传统纹理风格迁移的decoder网络生成语义纹理风格迁移结果,与步骤4中生成的三维形状模型一起构成创新性形状和纹理三维模型。
23.第二方面,本发明提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法的
步骤。
24.第三方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所述的方法的步骤。
25.第四方面,本发明提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第一方面所述的方法的步骤。
26.本发明通过利用双残差门控网络和mlp网络,以二维图片中mask掩码、纹理感知和关键点对应关系为监督信号,学习源对象和目标对象的形状特征并融合生成新颖3d模型,并在传统的纹理风格迁移上引入了语义掩码,实现部分风格迁移,并生成更丰富的纹理图。
27.本发明与现有技术相比,其显著优点在于:(1)本发明通过利用双残差门控网络和mlp网络,以二维图片中mask掩码、纹理感知和关键点对应关系为监督信号,学习源对象和目标对象的形状特征并融合生成新颖3d模型,解决了从单视角图片出发实现三维形变的问题;(2)本发明在传统的纹理风格迁移上引入了语义掩码,通过加上语义掩码的纹理特征的风格迁移,实现部分风格迁移,并生成更丰富的纹理图;(3)由于相机(例如手机)在日常生活中被广泛使用,因此拍摄单视角图片比3d数据更容易且更便宜;因此,我们通过将单视角图片用来去解决生成具有新颖形状和纹理的3d对象的新任务,而不是获取3d输入信息;(4)本发明提出了一种基于方便获取的单视角图片的三维形变方法,该方法以两张单视角图片为输入,提取三维形状特征,实现三维形变;(5)本发明提出了从源图像到目标图像的3d形状和uv map纹理迁移,以创建3d对象。我们设计了一个形状迁移网络来直接生成新颖的3d模型,并引入语义uv map纹理传输方法以获得新的uvmap纹理。更重要的是,本发明可以解决从单视图图片出发的新颖3d模型生成任务。
28.下面结合附图对本发明做进一步详细的描述。
附图说明
29.图1为本发明的流程示意图。
30.图2为本发明的整体网络框架图。
31.图3为本发明中双残差门控网络模块的框架图。
32.图4为本发明中纹理迁移模块的框架图。
33.图5为本发明在形状迁移上与三维形变迁移方法的效果对比图。
34.图6为本发明在加了语义的纹理迁移方法与其他纹理迁移方法的效果对比图。
35.图7为本发明在添加不同语义部分控制门后纹理迁移效果图。
36.图8为本发明在模拟生物演化的效果图。
37.图9为本发明在控制源对象和目标对象特征融合比例因子变化的效果图。
具体实施方式
38.如图1、图2所示,一种基于单视角图像的三维风格迁移方法算法,给定原图片s和同类别目标图片t,利用umr的encoder编码器分别提取他们的形状特征fs,f
t
、uv map图us,u
t
以及相机位姿ps,p
t
和类别语义分割uv map图u
seg
;利用双残差门控网络(drg net)分别提取出形状特征fs,f
t
中同语义可融合的形状特征设定融合比例因子α来控制同语义的形状特征特征融合的程度,并按照比例融合形状特征生成形状融合特征
利用mlp网络以形状融合特征为输入得到能够结合两张图形状特点的三维空间点坐标并加到三维类别共同模板上生成特异性三维形状模型;计算形状掩码损失l
mask
、感知损失l
per
和三维关键点对应损失l
key
,进行双残差门控网络和mlp网络参数优化;利用已训练好的传统纹理风格迁移的vgg网络提取uv map图us,u
t
纹理特征vs,v
t
;将类别语义分割uv map图u
seg
下采样到纹理特征vs,v
t
尺度,并分别将u
seg
除背景部分外其他语义掩码部分分别加到纹理特征vs,v
t
上,形成各个语义纹理特征用语义纹理特征语义掩码部分的均值和方差去替换语义纹理特征语义掩码部分的均值和方差,并输入到已训练好的传统纹理风格迁移的decoder网络生成语义纹理风格迁移结果,与上述生成的三维形状模型一起构成创新性形状和纹理三维模型。具体步骤如下:
39.步骤1、给定原图片s∈r
256
×
256
×3和同类别目标图片t∈r
256
×
256
×3,利用训练好的umr encoder得到相机位姿cs∈r7,c
t
∈r7,初步形状特征fs∈r
512
,f
t
∈r
512
和uv map纹理图us∈r
128
×
256
×3,u
t
∈r
128
×
256
×3,以及得出了语义纹理uv map分割图u
seg
∈{1,2,3,4,5}
128
×
256
,三维形状迁移网络和纹理迁移网络基于以上数据完成新颖三维模型生成。
40.步骤2、如图3所示,双残差门控网络(drg net)以初步形状特征fs∈r
512
,f
t
∈r
512
为输入,构建了源分支和目标分支。由于这些特征是从同一个编码器中提取的,因此它们的坐标具有潜在的对应关系。因此,该模型设计了一个在双分支中共享的门控信号,以选择同一坐标中的特征fs和f
t
以有利于形状迁移。随后,该网络分别连接到双分支中的两个单层感知器,并添加了一个残差连接来缓解过拟合和梯度消失,并防止由未选择的特征引起的失真。最初的输入第1个双残差门控单元公式如下描述:
[0041][0042][0043][0044]
其中,是第l个单元的权重参数。drg net迭代了l次双残差门控单元,以增强个体特征表示,渐进式地细化特征,从而分别提取出形状特征fs,f
t
中同语义可融合的形状特征
[0045]
步骤3、设定融合比例因子α来控制同语义的形状特征特征融合的程度,并按照比例融合形状特征按照以下公式生成形状融合特征
[0046][0047]
步骤4、利用mlp网络以形状融合特征为输入,用于融合特征,具体结构为一个简单的两层神经网络,具有relu激活函数,具体公式如下:
[0048][0049]
其中,网络参数是这一层的输出,基于此,能够得到结合两张图形状特点的三维空间点坐标并加到三维类别共同模板上生成特异性三维形状模型;
[0050]
步骤5、计算形状掩码损失l
mask
、感知损失l
per
和三维关键点对应损失l
key
,进行双残差门控网络和mlp网络参数优化。
[0051]
形状掩码损失l
mask
是计算真实实例掩码m和预测掩码之间的负iou,预测掩码是
通过生成的三维模型渲染成的。l
mask
可以定义为:
[0052][0053][0054]
其中

代表逐元素乘法。
[0055]
感知损失l
per
是计算输入图像与其uv map纹理图产生的预测图像之间的感知距离。该损失可以通过捕捉细节来提高纹理的视觉质量,具体公式如下:
[0056][0057][0058]
三维关键点对应损失l
key
提出了3d keypoints loss来实现源和目标之间的形状迁移。3d关键点是通过从图像中检测2d关键点,使用预测的uv map纹理确定它们在重建的3d形状上的对应顶点,并将它们投影到对称平面来获得的。由于对称平面对于所有输出的3d模型都是相同的,根据它们的投影计算关键点之间的距离,并由下式计算:
[0059][0060]
其中,n是关键点的数量,λ是平衡参数。形状迁移损失总体概括如下:
[0061]
l
shape
=l
mask
l
per
l
key
[0062]
步骤6、利用已训练好的传统纹理风格迁移的vgg网络提取uv map图us,u
t
纹理特征vs∈r
512
×
64
×
128
,v
t
∈r
512
×
64
×
128

[0063]
步骤7、如图4所示,将类别语义分割uv map图u
seg
下采样到纹理特征vs,v
t
尺度,并分别将u
seg
除背景部分外其他语义掩码部分分别加到纹理特征vs,v
t
上,形成各个语义纹理特征语义风格迁移将语义uv map纹理分割图掩码u
seg
与用于uv map纹理迁移的任何样风格迁移方法集成。该方法接收源和目标特征vs,v
t
,并在没有任何额外参数的情况下对齐加了掩码之后的vs的通道方式均值和方差以匹配加了相应掩码的v
t
的均值和方差。该模型对adain和线性风格迁移(lst)以及exact histogram matching(ehm)进行扩展。
[0064]
语义分割总共有5个语义部分,将adain拓展为semantic adain(sadain),对应的adain特征矩阵按照如下公式重构:
[0065][0066][0067]
其中是重复的索引矩阵512次的二进制矩阵,维度为512
×
64
×
128,

是逐元素乘法,σ是方差,μ是均值。索引为5的代表非语义部分,不含有语义信息。
[0068]
与sadain类似,将lst拓展为semantic lst(slst)公式如下:
[0069][0070][0071]
同理,semantic efdm(sefdm)定义如下:
[0072][0073][0074]
表1三维几何形变方法间的定量比较
[0075]
方法ncdsnkpdntoursmask iou

0.66700.69370.56990.52090.7316
[0076]
表1是本发明中形状迁移与其他三维几何形变方法结果上的定量比较。使用了mask iou指标,来量化形状变换的质量。就保留源和目标的形状轮廓而言,我们的结果优于比较方法。注意mask iou在0.7到0.95范围内可能是合理的,因为较小的iou表明结果不继承目标和源鸟的形状信息,而较高的iou表明结果继承了形状信息,即没有进化多样性。此外,我们的纹理变换目标是提高物种的纹理多样性,我们还没有找到合适的指标来衡量这一点。
[0077]
表2用户调研
[0078][0079]
为了更好地评估我们的模型与现有模型相比的性能,进行了用户研究。它包括三个主要部分:形状迁移比较、纹理迁移比较和真实性判断,共25题。结果,我们收集了102份问卷答复,共计2550票。表2表明,在形状迁移比较中,52.5%的用户更喜欢我们的结果,相比之下,nc为27.8%,dsn为11.8%,kpd为3.5%,nt为4.3%。在纹理迁移比较中,76.9%的用户更喜欢sadain的结果胜过adain,71.2%的用户更喜欢slst的结果胜过lst,64.1%的用户更喜欢sefdm的结果胜过efdm。在真实感判断中,73.7%的用户认为我们的结果比较真实。
[0080]
附图5展示了形状迁移的结果。我们可以观察到我们的方法实现了合理的形状迁移,可以更好地匹配源对象和目标对象的形状特征。它表明当不同物种的源物体和目标物体之间的形状差异较大时,比较方法会得到一些不合理的失真。一个可能的原因是语义部分很难对齐。相比之下,我们的方法学习重建三维模型以防止形状变形并同时展开形状迁移以生成新的形状。
[0081]
附图6-7展示了使用语义纹理迁移模块后风格迁移算法(例如adain、lst和efdm)的结果。图7显示了添加不同语义部分控制门后的结果。比我们可以看到语义风格迁移提高
了风格迁移对所有算法的每个语义部分的影响,因为语义掩码防止了不同语义部分之间的影响。此外,在图7中,语义部分控制门根据语义掩码进一步增加了结果的多样性,使我们的语义纹理迁移更符合自然进化规律。
[0082]
附图8展示了为了进一步验证我们模型的有效性,我们尝试自动产生鸟类在同一物种之间的形态演化,以供生物学家研究。我们从互联网上收集了真正的杂交鸟类及其亲本。我们的模型使用亲本物种模拟杂交作为源对象和目标对象输入,合成结果与真实混合示例非常相似。需要注意的是,虽然我们的结果与生物学家的目标相差甚远,但这是将风格迁移扩展到动物形态进化的一次有意义的尝试。
[0083]
附图9展示了使用α将源和目标特征之间的融合比率从-1调整为1。表明尺度参数α有效地控制了结果中源和目标特征的呈现。当α=-1或1时,结果恰好是源或目标3d重建。当α=0时,结果为结合一半源对象形状特征和一半目标对象形状特征。
[0084]
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献