一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于图像内容和风格解耦的6D姿态估计数据集迁移方法

2022-07-13 12:06:38 来源:中国专利 TAG:

一种基于图像内容和风格解耦的6d姿态估计数据集迁移方法
技术领域
1.本发明属于6d姿态估计领域,涉及一种基于图像内容和风格解耦的6d姿态估计数据集迁移方法,可以有效弥补真实数据和合成数据之间的域间隙。


背景技术:

2.6d姿态估计任务目标是估计给定物体相对于摄像机的6个自由度,包括3d旋转和3d平移,是计算机视觉中的一项基本任务。它广泛适用于许多真实世界的任务,如机器人操纵,增强现实和自动驾驶。
3.近年来,随着深度神经网络的发展,提出了许多基于卷积神经网络的6d姿态估计算法,并取得了良好的性能。然而卷积神经网络是极其需要数据驱动的,因此往往需要大量拥有3d姿态标注的真实数据进行训练,才能获得更好的效果。实际上,真实图像的3d姿态标注极难获得,但合成图像的3d姿态却很容易得到。然而,由于真实数据和合成数据之间存在域间隙,在合成数据集上训练的6d姿态估计网络在真实图像上测试时性能会严重下降。因此如何缩小无标签的真实数据和有标签的合成数据之间的域间隙,逐渐被越来越多的研究者所关注。
4.图像数据迁移的方法可用于6d姿态估计数据集迁移,分为配对图像域迁移、无配对图像域迁移。配对图像域迁移虽然在结构保持和风格迁移方面都有很好效果,但配对的条件过于苛刻,6d姿态估计的真实数据集和合成数据集无法满足配对要求。无配对图像域迁移虽然在目标检测、分类等领域取得了良好的效果,但由于无法形成图像对,缺乏对物体结构的强监督,在像6d姿态估计等像素级任务中表现不佳。


技术实现要素:

5.针对以上现有技术的不足,本发明提供一种基于图像内容和风格解耦的6d姿态估计数据集迁移方法,该方法可以在对物体结构进行强监督的同时,实现无配对图像的域间迁移,且针对6d姿态估计任务自主设计一个迁移网络,有效弥补了6d姿态估计数据集中真实数据和合成数据之间的域间隙。
6.本发明的技术方案包含步骤如下:
7.一种基于图像内容和风格解耦的6d姿态估计数据集迁移方法,包括:
8.步骤一、训练伪配对图像生成网络:将源域图像is和目标域图像i
t
送入伪配对图像生成网络进行训练;
9.利用编码器获取跨域共享信息的域不变内容空间和特定于域的风格空间;其次交换域不变内容空间并固定特定于域的风格空间,将域的表示空间送入图像生成器中,生成域的伪配对图像;最后对伪配对图像进行解耦并交换域不变内容空间,得到重建的源域图像和重建的目标域图像以实现对未配对数据的训练;
10.步骤二、训练自主设计的图像迁移网络:图像迁移网络是在训练好的伪配对图像生成网络的基础上,通过物体结构特征提取器hc、风格特征提取器hs和关键点注意力特征提
取器hk进一步对图像生成器细化物体关键点附近的结构。
11.可选的,所述的关键点注意力特征提取器hk利用源域图像is训练得到,将源域图像is送入关键点注意力特征提取器hk中得到关键点的热图,利用关键点的热图对经过物体结构特征提取器hc处理后的源域图像的结构损失进行注意力加权,则关键点结构损失定义为:
[0012][0013]
l表示损失,keypoint表示关键点,2表示是l2损失;hc表示结构特征提取器;hk表示关键点特征提取器;is表示源域图像;t
t
表示目标域的迁移图像;公式中圆圈表示哈达马积;双竖线下角标2表示二范数。
[0014]
可选的,所述的图像迁移网络的总损失函数为:
[0015][0016]
l
total
:总损失;λ:权重;l
kl
:kl损失;域对抗性损失;重建损失,下角标1表示损失为l1损失;结构损失,下角标2表示损失为l2损失);风格损失;关键点结构损失;颜色损失。
[0017]
可选的,所述步骤二具体包括:
[0018]
(2.1)将源域图像is送入源域的内容编码器得到源域图像内容编码将目标域图像i
t
送入目标域的风格编码器得到目标域图像风格编码
[0019]
(2.2)将目标域图像风格编码和源域图像内容编码送入目标域图像生成器g
t
中生成源域的迁移图像t
t

[0020]
(2.3)利用结构特征提取器hc提取物体结构特征fc:结构特征提取器hc使用预训练好的vgg-19网络,先用遮罩图像m得到迁移图像t的物体部分t
object
,然后将t
object
送入预训练好的vgg-19网络,取出conv4_2层作为物体结构特征fc,物体的结构损失定义为:
[0021][0022]
fc是物体结构特征,下角标ts表示源域图像的迁移图像,下角标t
t
表示目标域图像的迁移图像,下角标i
t
表示目标域图像,下角标is表示源域图像;双竖线表示范数,双竖线下角标2表示一范数;
[0023]
(2.4)利用风格特征提取器hs提取物体结构特征fs:风格特征提取器hs使用与结构特征提取器相同的预训练好的vgg-19网络,先将迁移图像t送入预训练好的vgg-19网络,取出conv1_1、conv2_1、conv3_1、conv4_1和conv5_1层计算格拉姆矩阵作为风格特征fs,每一层的权重分别为1、0.8、0.5、0.3和0.1;风格损失定义为:
[0024][0025]fs
表示风格特征,下角标t
t
表示目标域图像的迁移图像,下角标i
t
表示目标域图像;双竖线表示范数,双竖线下角标2表示一范数;
[0026]
(2.5)利用关键点注意力特征提取器hk提取图像的关键点的热图:关键点注意力特征提取器hk利用源域图像is训练得到,将源域图像is送入关键点注意力特征提取器hk中得到关键点的热图,利用关键点的热图对经过物体结构特征提取器hc处理后的源域图像的结构损失进行注意力加权,则关键点结构损失定义为:
[0027][0028]
l表示损失,keypoint表示关键点,2表示是l2损失;hc表示结构特征提取器;hk表示关键点特征提取器;is表示源域图像;t
t
表示目标域的迁移图像;公式中圆圈表示哈达马积;双竖线下角标2表示二范数;
[0029]
(2.6)由于域间差异部分是由光线引起的,在定义颜色损失时将光解耦,用ρ表示图像从rgb色彩模型到lab色彩模型,去掉光通道后对其它两通道应用l1损失:
[0030][0031]
l表示损失,color表示颜色损失,1表示是l1损失;ρ表示图像从rgb色彩模型到lab色彩模型;is表示源域图像;ms表示源域遮罩图像;t
t
表示目标域的迁移图像;双竖线表示范数,双竖线下角标1表示一范数。
[0032]
可选的,所述利用关键点注意力特征提取器hk提取图像的关键点的热图具体如下:
[0033]
2.5.1:利用特征金字塔网络和resnet101提取输入图像的特征图;
[0034]
2.5.2:将提取的特征输入关键点提取器hk,网络包括4个连续的3*3卷积层,每层后接一个relu作为激活函数,对最后一层进行上采样来得到与图片尺寸一致的特征图,将提取到的特征利用softmax产生一个像素级的概率分布图h,表示该像素点是关键点的概率。
[0035]
可选的,所述的步骤一具体包括:
[0036]
(1.1)将源域图像is送入源域风格编码器和源域内容编码器得到源域风格编码和源域内容编码将目标域图像i
t
送入目标域风格编码器和目标域内容编码器得到目标域风格编码和目标域内容编码
[0037]
(1.2)将源域内容编码和目标域内容编码送入内容判别器dc区分两个域的内容编码;
[0038]
(1.3)将源域图像风格编码和目标域图像的内容编码送入源域图像生成器gs生成目标域的伪配对图像fs;将目标域图像风格编码和源域图像的内容编码送入目标域图像生成器g
t
中生成源域的伪配对图像f
t

[0039]
(1.4)将源域的伪配对图像f
t
送入目标域判别器d
t
,区分目标域的真实图像和生成图像;
[0040]
(1.5)将目标域的伪配对图像fs送入目标域判别器ds,区分源域的真实图像和生成图像;
[0041]
(1.6)将目标域的伪配对图像fs的风格编码和源域的伪配对图像f
t
的内容编码送入源域图像生成器gs中生成重建的源域图像将源域的伪配对图像f
t
的风格编码和目标域的伪配对图像fs的内容编码送入目标域图像生成器g
t
中生成重建的目标域图像
[0042]
可选的,所述的源域内容编码器与目标域图像生成器g
t
的最后一层共享权重;
[0043]
所述的目标域内容编码器与源域图像生成器gs的最后一层共享权重。
[0044]
可选的,还包括步骤三、测试网络:
[0045]
步骤3.1:将源域图像is输入源域内容编码器得到源域内容编码将目标域图像i
t
输入目标域风格编码器得到目标域风格编码
[0046]
步骤3.2:将源域内容编码和目标域风格编码送入目标域图像生成器g
t
得到迁移图像t
t

[0047]
本发明与现有技术相比存在以下优点:
[0048]
1、本发明提出了一个对物体结构进行强监督的同时,实现无配对图像的域间迁移的方法。
[0049]
2、针对6d姿态估计任务自主设计一个迁移网络,有效弥补了6d姿态估计数据集中真实数据和合成数据之间的域间隙。
[0050]
3、本发明使用解耦表示作为输入,可以有效改善模式崩塌,增加输出的多样性。
[0051]
4、本发明从数据生成层面解决了域间隙问题,在充分利用无标签目标域数据的同时,不会增加6d姿态估计算法的复杂性。
附图说明
[0052]
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
[0053]
图1所示为本发明基于图像内容和风格解耦的6d姿态估计数据集迁移方法的整个概览图。
具体实施方式
[0054]
为了使本发明的目的、技术方案和优点更加清楚,下面将结合实施例对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0055]
本发明中:
[0056]
域不变的内容空间指不随图像域变化的物体结构特征所组成的空间。
[0057]
特定于域的风格空间指每个图像域都有自己风格特征,不同域的风格特征组成不同的风格空间。
[0058]
域的表示空间分为源域表示空间和目标域表示空间。源域的表示空间由源域的内容空间和源域的风格空间组成,源域的内容空间由源域的内容特征组成,源域的风格空间由源域的风格特征组成;目标域的表示空间由目标域的内容空间和目标域的风格空间组成,目标域的内容空间由目标域的内容特征组成,目标域的风格空间由目标域的风格特征组成。
[0059]
源域图像指合成图像,目标域图像指真实图像。
[0060]
本发明中凡是涉及到角标的字母含义,统一规定为:
[0061]
上角标:c表示结构;s表示风格;k表示关键点;
[0062]
下角标:s表示源域;t表示目标域;
[0063]
h一般表示提取器;g一般表示图像生成器;e一般表示编码器;z一般表示编码;i一般表示原图像;t一般表示迁移图像;m表示遮罩图像;l表示损失;λ表示权重;上述字母配合上下角标的含义,表示对应的内容,比如表示为源域的风格编码器。
[0064]
结合图1,本发明的针对rgb图像的6d姿态估计数据集迁移方法,包括:
[0065]
步骤一:训练伪配对图像生成网络:将源域图像is和目标域图像i
t
送入伪配对图像生成网络;
[0066]
首先利用编码器获取(源域图像is和目标域图像i
t
)跨域共享信息的域不变内容空间和特定于域的风格空间;其次交换域不变内容空间并固定特定于域的风格空间,将域的表示空间送入各自的(源域和目标域的)图像生成器中,生成域的伪配对图像。最后对伪配对图像进行解耦并交换域不变内容空间,重构出原始的源域图像和目标域图像以实现对未配对数据的训练。本方法使用解耦表示作为输入,可以有效改善模式崩塌,增加输出的多样性。方法从数据生成层面解决了域间隙问题,在充分利用无标签目标域数据的同时,不会增加6d姿态估计算法的复杂性。
[0067]
步骤二:训练自主设计的图像迁移网络:图像迁移网络是在训练好的伪配对图像生成网络的基础上,设计了物体结构特征提取器hc、风格特征提取器hs和关键点注意力特征提取器hk进一步对图像生成器进行调优。调优内容就是通过步骤二中的关键点结构损失细化物体关键点附近的结构。其中,通过物体结构特征提取器hc和风格特征提取器hs对源域图像处理后的图像为源域图像迁移后的图像。
[0068]
步骤一中利用输入的6d姿态估计数据对伪配对图像生成网络进行训练,其包括以下步骤:
[0069]
步骤101:将源域图像is送入源域的风格编码器和内容编码器得到风格编码和内容编码将目标域图像i
t
送入目标域的风格编码器和内容编码器得到风格编码和内容编码
[0070]
步骤102:将源域图像风格编码和目标域图像的内容编码送入源域图像生成
器gs生成目标域的伪配对图像fs;将目标域图像风格编码和源域图像的内容编码送入目标域图像生成器g
t
中生成源域的伪配对图像f
t

[0071]
步骤103:将目标域的伪配对图像fs送入源域的风格编码器和内容编码器得到风格编码和内容编码将源域的伪配对图像f
t
送入目标域的风格编码器和内容编码器得到风格编码和内容编码
[0072]
步骤104:将目标域的伪配对图像fs的风格编码和源域的伪配对图像f
t
的内容编码送入源域图像生成器gs中生成重建的源域图像将源域的伪配对图像f
t
的风格编码和目标域的伪配对图像fs的内容编码送入目标域图像生成器g
t
中生成重建的目标域图像
[0073]
训练图像迁移网络包括以下步骤:
[0074]
步骤201:将源域图像is送入源域的内容编码器得到内容编码将目标域图像i
t
送入目标域的风格编码器得到风格编码
[0075]
步骤202:将目标域图像风格编码和源域图像的内容编码送入目标域图像生成器g
t
中生成源域的迁移图像t
t

[0076]
步骤203:将源域的迁移图像t
t
、源域图像is及其遮罩图像ms(因为源域的迁移图像t
t
的内容与目标域图像is相同,因此源域的迁移图像t
t
的遮罩图像就是源域图像is的遮罩图像ms)送入预训练好的结构特征提取器hc中得到图像t
t
的物体结构特征和源域图像is的物体结构特征
[0077]
步骤204:将源域的迁移图像t
t
和目标域图像i
t
送入预训练好的风格特征提取器hs得到图像t
t
的风格特征和目标域图像i
t
的风格特征
[0078]
步骤205:将源域图像is送入预训练好的关键点注意力特征提取器hk得到源域图像is的热图
[0079]
下面结合附图对本发明作进一步的阐述。
[0080]
a)是伪配对图像生成网络,网络训练包括以下步骤:
[0081]
步骤301:将源域图像is送入源域的风格编码器和内容编码器得到风格编码和内容编码将目标域图像i
t
送入目标域的风格编码器和内容编码器得到风格编码和内容编码
[0082]
步骤302:对风格编码应用kl损失,鼓励风格表示尽可能接近先前的高斯分布:
[0083]
l
kl
=e[d
kl
((zs)||n(0,1))];
[0084]
其中:
[0085][0086]
p代表真实样本分布,q代表估计的样本分布,d
kl
(p||q)表示p、q之间的距离;zs表示风格编码,z表示编码。
[0087]
步骤303:将源域内容编码和目标域内容编码送入内容判别器dc,内容对抗性损失为:
[0088][0089]
步骤304:将源域图像风格编码和目标域图像的内容编码送入源域图像生成器gs生成目标域的伪配对图像fs;将目标域图像风格编码和源域图像的内容编码送入目标域图像生成器g
t
中生成源域的伪配对图像f
t

[0090]
步骤305:将源域的伪配对图像f
t
送入目标域判别器d
t
,目标域对抗性损失为:
[0091][0092]
步骤306:将目标域的伪配对图像fs送入源域判别器ds,源域对抗性损失为,则域对抗性损失为:
[0093][0094]
步骤307:将目标域的伪配对图像的风格编码和源域的伪配对图像的内容编码送入源域图像生成器gs中生成重建的源域图像将源域的伪配对图像的风格编码和目标域的伪配对图像的内容编码送入目标域图像生成器g
t
中生成重建的目标域图像定义重建损失为:
[0095][0096]
步骤308:总的损失函数为:
[0097][0098]
l
total
:总损失;λ:权重(与后面角标相同的损失函数对应);l
kl
:kl损失;域对抗性损失;重建损失,下角标1表示损失为l1损失;结构损失,下角标2表示损失为l2损失);风格损失;关键点结构损失;颜色损失。
[0099]
(b)是自主设计的图像迁移网络,在伪配对图像生成网络的基础上,由伪配对图像
生成网络中训练的源域内容编码器目标域的风格编码器和目标域图像生成器g
t
组成。设计了结构特征提取器hc、风格特征提取器hs和关键点注意力特征提取器hk。具体步骤如下:
[0100]
步骤401:将源域图像is送入源域的内容编码器得到内容编码将目标域图像i
t
送入目标域的风格编码器得到风格编码
[0101]
步骤402:将目标域图像风格编码和源域图像的内容编码送入目标域图像生成器g
t
中生成源域的迁移图像t
t

[0102]
步骤402:将源域的迁移图像t
t
、源域图像is及其遮罩图像ms送入预训练好的结构特征提取器hc中。hc使用预训练好的vgg-19网络,先用遮罩图像m得到迁移图像t的物体部分t
object
,然后将t
object
送入预训练好的vgg-19网络,取出conv4_2层作为物体结构特征fc,物体的结构损失定义为:
[0103][0104]
f是特征,上角标c表示结构,下角标ts表示源域图像的迁移图像,下角标t
t
表示目标域图像的迁移图像,下角标i
t
表示目标域图像,下角标is表示源域图像;双竖线表示范数,双竖线下角标2表示一范数;
[0105]
步骤403:将源域的迁移图像t
t
和目标域图像i
t
送入预训练好的风格特征提取器hs中。hs使用与结构特征提取器相同的预训练好的vgg-19网络,先将迁移图像t送入预训练好的vgg-19网络,取出conv1_1、conv2_1、conv3_1、conv4_1和conv5_1层计算格拉姆矩阵作为风格特征fs,每一层的权重分别为1、0.8、0.5、0.3和0.1。风格损失为:
[0106][0107]
f是特征,上角标s表示风格,下角标t
t
表示目标域图像的迁移图像,下角标i
t
表示目标域图像;双竖线表示范数,双竖线下角标2表示一范数;
[0108]
步骤404:将源域图像is送入用源域图像is预训练好的关键点注意力特征提取器hk中,得到关键点的热图,利用得到热图对生成图像的结构损失进行注意力加权,则关键点结构损失为:
[0109][0110]
式中:hc表示结构特征提取器;hk表示关键点特征提取器;is表示源域图像;t
t
表示目标域的迁移图像;公式中圆圈表示哈达马积,即矩阵的对应元素的乘积;双竖线表示范数,双竖线下角标2表示二范数。
[0111]
步骤405:由于域间差异部分是由光线引起的,因此我们在定义颜色损失时将光解耦,用ρ表示图像从rgb色彩模型到lab色彩模型,去掉光通道后对其它两通道应用l1损失:
[0112][0113]
l表示损失,color表示颜色损失,1表示是l1损失(一种常见损失);ρ表示图像从rgb色彩模型到lab色彩模型;is表示源域图像;ms表示源域遮罩图像;t
t
表示目标域的
迁移图像;双竖线表示范数,双竖线下角标1表示一范数。
[0114]
步骤406:图像风格迁移网络的总的损失函数为:
[0115][0116]
ltotal:总损失;λ:权重(与后面角标相同的损失函数对应);比如λ权重,内容对抗性损失的权重;l
kl
:kl损失;域对抗性损失;重建损失(下角标1表示损失为l1损失);结构损失(下角标1表示损失为l2损失);风格损失;关键点结构损失;颜色损失。
[0117]
所述步骤404中的提取步骤具体如下:
[0118]
步骤501:利用特征金字塔网络和resnet101提取输入图像的特征图。
[0119]
步骤502:将提取的特征输入关键点提取网络,网络包括4个连续的3*3卷积层,每层后接一个relu作为激活函数,对最后一层进行上采样来得到与图片尺寸一致的特征图,将提取到的特征利用softmax产生一个像素级的概率分布图h,表示该像素点是关键点的概率;
[0120]
(c)是测试网络,具体步骤如下:
[0121]
步骤601:将源域图像is输入源域内容编码器得到内容编码将目标域图像i
t
输入目标域风格编码器得到风格编码
[0122]
步骤602:将内容编码和风格编码送入目标域图像生成器g
t
得到迁移图像t
t

[0123]
实验部分:
[0124]
为了证明方法的有效性,在linemod真实数据集和linemod-pbr合成数据集上进行了测试。首先将真实数据集和合成数据集的rgb图像输入到网络中,得到合成数据集迁移后的rgb图像;然后将合成图像和迁移后的图像以及合成数据集的标签分别送入到6d姿态估计网络中,得到合成图像的6d姿态估计网络模型和迁移图像的6d姿态估计网络模型;最后在真实数据集上分别测试两个6d姿态估计网络模型的性能。
[0125]
由于linemod真实数据集的数据量很少,因此只训练一千张图片进行测试。6d姿态估计网络使用中科大与微软亚洲研究院在2019提出的hrnet估计关键点,后接一个pnp算出物体姿态。在cat等八个物体上测试了add指标,如下表1所示,本发明的平均add值相比linemod-pbr合成数据集的值高十个百分点,这说明本发明的方法有效弥补了6d姿态估计数据集中真实数据和合成数据之间的域间隙。
[0126]
表1
[0127]
modelpbrour
cat0.4550.543cam0.1870.337phone0.2530.389iron0.2680.340driller0.6170.766can0.5920.727glue0.2110.255duck0.1390.164mean0.3400.440
[0128]
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献