一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于自注意力机制的俯角人脸图像校正方法及系统与流程

2021-11-29 13:26:00 来源:中国专利 TAG:


1.本发明属于计算机视觉技术领域,涉及一种俯角人脸图像校正方法及系统,尤其涉及一种基于自注意力机制的俯角人脸图像校正方法及系统。


背景技术:

2.在现今的社会中,支付、过安检、疑犯跟踪甚至是上班打卡,都非常需要对每一个体进行身份识别与认证,身份识别和认证的手段也很多,例如指纹识别、基因识别等等。因为少接触、不必要用户特殊的配合、远距离就能够采集信息数据等这些特性,人脸识别已经变成了当今社会上应用最广泛,部署得最多的一种身份识别方式。围绕人脸的研究也表现出多种多样,包括通过对人脸进行预测来判断一个人的年龄,通过对人面部进行一些变化,模拟得出此人过去的样貌,以及未来老化的过程,还有通过对人脸进行表情的识别,来准确分析这一类型人的心理状态等。
3.目前对于标准人脸正脸识别的技术已经相当成熟,所谓标准人脸,就是把面部重要的区域(眼睛、鼻子、嘴巴等)通过一定的方法转移到特定的区域,并且没有丢失身份信息。在可控受监督的情景中,比如通过人脸验证的场景,都是要求目标有意识的脸部调整到固定的位置,以备准确有效的取得人脸正面图像。随着在标准人脸中识别准确率接近顶峰,学者们的研究重点从可控的人脸图像转变到不受控的自然图像。通常生活中非可控的图像要占更大的比例;光照、表情、姿态等变化带来的整体面部变化对于在标准人脸识别使用的各种方法来说是无法克服的屏障。
4.特别是在监控领域,因为监控摄像头通常都会设在高处,这使得监控得到的照片通常是人脸的俯角照片,如果摄像头设置在广阔的空间还好,但是当摄像头在比较有限的空间时,像是在拐角地点,取到人脸正脸图像就比较困难,就算是在广阔的空间中,能取到人脸正脸图像的图片中,人也是在比较远的地方,要提取人脸正脸图像则对摄像设备有很高的要求;这种高性能摄像机所需成本必然很高,且不能适用于所有情况;相对的,如果能从俯角图片中能够还原出人脸的正面图像的话,那么对摄像机的要求就不会那么高,并且几乎能应用于所有情况;因此,多姿态人脸校正就应运而生。
5.随着人们对人脸信息依赖程度的加深,对于人脸处理问题的多样化,人脸校正成为了一个脱离人脸识别的另一个领域。因为比起光照、表情、分辨率等问题来说,姿态对于人脸识别的影响是不可忽略的甚至决定性的,人脸的姿态变化,特别是大幅度姿态变化,使得人脸识别变得非常不稳定。就像任何一个三维物体,人脸可以通过三种方向的旋转得到任何角度的图像,这三个角度分别是俯仰角pitch,偏航角yaw,翻滚角roll。目前的研究中,有很多是对于roll和yaw方面校正,但是对于pitch角度的校正寥寥无几,pitch方面旋转得到的是俯角或者仰角图像,其中俯角图像是经常在监控中能够得到的,应用范围非常广,但是这方面的研究比较少,较为有效的成果也比较少。因此,本次对于人脸俯角校正问题的研究有重大的现实意义。


技术实现要素:

6.为了解决上述技术问题,本发明提供了一种基于自注意力机制的俯角人脸图像校正方法及系统。
7.本发明的方法所采用的技术方案是:一种基于自注意力机制的俯角人脸图像校正方法,包括以下步骤:
8.步骤1:构建基于注意力机制的多输入融合对抗生成网络;
9.所述多输入融合对抗生成网络包括多输入融合编码模块、自注意力模块、单层融合模块、多层融合模块、多输入融合解码模块和生成对抗网络鉴别模块;
10.所述多输入融合编码模块包括串联设置的四个卷积层,第一层是卷积核大小为7的卷积层,步长为1;第二层为卷积核大小为5的卷积层,步长为2;第三以及第四层是卷积核大小为3的卷积层,步长都为2;所述第一层和第二层卷积层之后均加入有残差块,所述第三层和第四层卷积层之后均依次加入有归一化层,激活层和残差块;
11.所述自注意力模块,用于对于所述多输入融合编码模块输出的特征图f,通过大小为1的卷积核构造出三张特征图f、g和h;所述特征图f和特征图g再进行矩阵乘法和softmax操作,得到矩形特征图β
i,j
,之后β
i,j
与特征图h相乘得到权重值o
j
,该权重值再加到特征图f中后输出;
12.所述单层融合模块,用于对所述多输入融合编码模块中每一卷积层输出的c个图片的特征经过c个convgru模块来融合多张图片特征;
13.所述多层融合模块,用于对所述单层融合模块输出的四个单层融合特征g1、g2、g3、g4分别经过一个反卷积层来使所有的特征处于同一种尺度,并按照g4、g3、g2、g1的顺序分别经过一个convgru模块,最后得到多层融合特征,多层融合特征再经过一层卷积核大小为3,步长为2的卷积层,以及两个全连接层之后得到总体特征;
14.所述多输入融合解码模块,由四个反卷积层、两个自注意力层和两个卷积层组成;用于对所述多层融合模块输出的总体特征加入高斯噪声信息进行重构,得到新的特征f1,再对特征f1进行上采样分别构成三种不同尺度大小的特征f2、f3和f4后输入到反卷积层中;进入反卷积操作;所述多输入融合解码模块第一层的反卷积网络的输入是所述多输入融合编码模块第四层卷积层通过残差块之后的输出与f1融合的上采样值;所述多输入融合解码模块第二层反卷积层的输入是前一层反卷积层的输出经过残差块之后的结果、f2和所述多输入融合编码模块第三层卷积层的输出经过残差块之后的融合;所述多输入融合解码模块第三层的反卷积层输入是上一层反卷积层的残差输出、自注意力模块的输出经过残差块之后的结果、f3、所述多输入融合编码模块第二层卷积层的跨层输入、以及输入图片经过resize成一定大小之后这四个值的融合;所述多输入融合解码模块第四层的反卷积层的输入是自注意力模块的输出经过残差块之后的结果、所述多输入融合编码模块第一个卷积层的输出通过参差块之后的结果、以及输入图片的融合输入;所述多输入融合解码模块第四层之后再经过两个卷积层输出人脸校正精细图片;所述多输入融合解码模块的自注意力模块,输入的特征图经过该单元后,每个特征图会有一个权重图,代表特征图中每个部分的关联程度;
15.所述生成对抗网络鉴别模块,由七层卷积层组成,其在倒数第二层和倒数第三层加入有残差块;
16.步骤2:将需要校正的俯角人脸图像输入所述多输入融合对抗生成网络,获得人脸校正精细图片。
17.本发明的系统所采用的技术方案是:一种基于自注意力机制的俯角人脸图像校正系统,包括以下模块:
18.模块1,用于构建基于注意力机制的多输入融合对抗生成网络;
19.所述多输入融合对抗生成网络包括多输入融合编码模块、自注意力模块、单层融合模块、多层融合模块、多输入融合解码模块和生成对抗网络鉴别模块;
20.所述多输入融合编码模块包括串联设置的四个卷积层,第一层是卷积核大小为7的卷积层,步长为1;第二层为卷积核大小为5的卷积层,步长为2;第三以及第四层是卷积核大小为3的卷积层,步长都为2;所述第一层和第二层卷积层之后均加入有残差块,所述第三层和第四层卷积层之后均依次加入有归一化层,激活层和残差块;
21.所述自注意力模块,用于对于所述多输入融合编码模块输出的特征图f,通过大小为1的卷积核构造出三张特征图f、g和h;所述特征图f和特征图g再进行矩阵乘法和softmax操作,得到矩形特征图β
i,j
,之后β
i,j
与特征图h相乘得到权重值o
j
,该权重值再加到特征图f中后输出;
22.所述单层融合模块,用于对所述多输入融合编码模块中每一卷积层输出的c个图片的特征经过c个convgru模块来融合多张图片特征;
23.所述多层融合模块,用于对所述单层融合模块输出的四个单层融合特征g1、g2、g3、g4分别经过一个反卷积层来使所有的特征处于同一种尺度,并按照g4、g3、g2、g1的顺序分别经过一个convgru模块,最后得到多层融合特征,多层融合特征再经过一层卷积核大小为3,步长为2的卷积层,以及两个全连接层之后得到总体特征;
24.所述多输入融合解码模块,由四个反卷积层、两个自注意力层和两个卷积层组成;用于对所述多层融合模块输出的总体特征加入高斯噪声信息进行重构,得到新的特征f1,再对特征f1进行上采样分别构成三种不同尺度大小的特征f2、f3和f4后输入到反卷积层中;进入反卷积操作;所述多输入融合解码模块第一层的反卷积网络的输入是所述多输入融合编码模块第四层卷积层通过残差块之后的输出与f1融合的上采样值;所述多输入融合解码模块第二层反卷积层的输入是前一层反卷积层的输出经过残差块之后的结果、f2和所述多输入融合编码模块第三层卷积层的输出经过残差块之后的融合;所述多输入融合解码模块第三层的反卷积层输入是上一层反卷积层的残差输出、自注意力模块的输出经过残差块之后的结果、f3、所述多输入融合编码模块第二层卷积层的跨层输入、以及输入图片经过resize成一定大小之后这四个值的融合;所述多输入融合解码模块第四层的反卷积层的输入是自注意力模块的输出经过残差块之后的结果、所述多输入融合编码模块第一个卷积层的输出通过参差块之后的结果、以及输入图片的融合输入;所述多输入融合解码模块第四层之后再经过两个卷积层输出人脸校正精细图片;所述多输入融合解码模块的自注意力模块,输入的特征图经过该单元后,每个特征图会有一个权重图,代表特征图中每个部分的关联程度;
25.所述生成对抗网络鉴别模块,由七层卷积层组成,其在倒数第二层和倒数第三层加入有残差块;
26.模块2,用于将需要校正的俯角人脸图像输入所述多输入融合对抗生成网络,获得
人脸校正精细图片。
27.本发明根据人脸多姿态图像校正的特点设计了基于自注意力机制的多输入俯角人脸校正方法及系统。使用自注意力单元与卷积门控循环单元,能够有效保留多张图片中的互补信息,同时又能对单张图片中全局像素点建立联系。提取有益的信息的同时,能剔除低价冗余信息的干扰,同时在每个卷积层之后都添加了一层残差层来增强梯度流动,提升训练效率和学习质量。本发明使用单尺度和多尺度特征融合来建立图片深浅层次的特征联系,使生成图片在整体上具有准确的人脸特征的同时也能具有精细的人脸图片信息。
附图说明
28.图1是本发明实施例的注意力机制的多输入融合对抗生成网络结构示意图。
29.图2是本发明实施例的注意力机制的多输入融合对抗生成网络中自注意力模块结构示意图。
30.图3是本发明实施例的注意力机制的多输入融合对抗生成网络中单层融合模块结构示意图。
31.图4是本发明实施例的注意力机制的多输入融合对抗生成网络中多层融合模块结构示意图。
32.图5是本发明实施例的注意力机制的多输入融合对抗生成网络中生成对抗网络鉴别模块结构示意图。
33.图6是本发明实施例的基于自注意力机制的俯角人脸图像校正方法在m2f
34.pa数据集上对单张图片进行人脸校正效果图,从左到右三张人脸图片为一组,左一为输入图,左二为真实图,左三为生成效果图。
35.图7是本发明实施例的基于自注意力机制的俯角人脸图像校正方法在dfw数据集上对两张图片进行人脸校正效果图,从左到右四张图片为一组,左一左二为输入图,左三为生成图,左四为真实人脸图。
36.图8是本发明实施例的基于自注意力机制的俯角人脸图像校正方法在dfw数据集上与da

gan,tp

gan方法做对比效果。
37.图9是本发明实施例的convgru模块结构图。
38.图10是本发明实施例的单层融合和多层融合模块结构图。
具体实施方式
39.为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
40.本发明提供的一种基于自注意力机制的俯角人脸图像校正方法,包括以下步骤:
41.步骤1:构建基于注意力机制的多输入融合对抗生成网络;
42.本实施例的多输入融合对抗生成网络包括多输入融合编码模块、自注意力模块、单层融合模块、多层融合模块、多输入融合解码模块和生成对抗网络鉴别模块;
43.本实施例的多输入融合编码模块包括串联设置的四个卷积层,第一层是卷积核大小为7的卷积层,步长为1;第二层为卷积核大小为5的卷积层,步长为2;第三以及第四层是
卷积核大小为3的卷积层,步长都为2;第一层和第二层卷积层之后均加入有残差块,第三层和第四层卷积层之后均依次加入有归一化层,激活层和残差块;
44.本实施例中,一张图片经过第一层卷积层之后输出大小为128x128x64的特征值,这个特征值在传给下一层卷积层的同时,会传给第一层卷积层的同层次融合结构,第二层卷积层输出大小为64x64x64的特征值,这个特征值会传给第三层卷积层作为输入同时传给第二层的同层融合结构,第三层第四层的输出分别为32x32x128,16x16x256的特征,后续步骤和前两层一致。第四层的输出还会经过一个卷积层和两个全连接层输入到多输入融合解码模块中。
45.本实施例中,多输入融合编码模块由四个卷积层,有四个整体融合convgru单元,分别对应每一层。
46.请见图2,本实施例的自注意力模块,用于对于多输入融合编码模块输出的特征图f,通过大小为1的卷积核构造出三张特征图f(x)、g(x)和h(x);特征图f(x)和特征图g(x)再进行矩阵乘法和softmax操作,得到矩形特征图β
i,j
,之后β
i,j
与特征图h(x)相乘得到权重值o
j
,该权重值再加到特征图f中后输出;
47.其计算步骤如下:
48.f(x)=w
f
x,g(x)=w
g
x,h(x)=w
h
x,u(x)=w
v
x
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
49.s
ij
=f(x
i
)
t
g(x
i
)
ꢀꢀꢀꢀꢀꢀ
(2)
[0050][0051][0052]
y
i
=αo
i
x
i
ꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0053]
在上述公式中,x表示输入特征图,x
i
表示第i层特征图。w
f
,w
g
,w
h
,w
v
表示四个不同的权重矩阵,通过这四个权重矩阵,对输入的特征图进行不同的处理,这四个特征图也是在网络中需要学习的量。v(x)表示对特征值的最后一步处理,之后与原权重相加,得到最后的自注意力权重值。
[0054]
生成f(x)、g(x)和h(x)的权重矩阵w
f
,w
g
,w
h
都是由尺度为1
×
1的卷积核生成,s
ij
是生成的中间模块,最后的y
i
就是自注意力网络的生成结果,是通过将自注意力层的输出乘以比例参数α,然后加回输入特征图得到的最终结果。
[0055]
请见图3,本实施例的单层融合模块,用于对多输入融合编码模块中每一卷积层输出的c个图片的特征经过c个convgru模块来融合多张图片特征;
[0056]
本实施例中,convgru模块在本网络中有两种使用形态,一种是对于每一层卷积出的结果进行融合,在这一层中输入的多少决定convgru模块的数量,也就是说c的数量即是输入图片数量也是同层convgru模块数量,即输入多少张图片那么在同层次融合中就有多少个convgru块。每一个convgru模块输入是第k层卷积层的输出经过残差块的结果,本实施例中只有4层卷积层,所以k<4。
[0057]
本实施例中,convgru模块每个控制门之前都有一个权重图,根据这个权重图来对
特征图进行更新和保留。
[0058]
请见图9,是convgru模块结构图,每个模块输入是一张图片通过卷积之后的值xt,以及前一张图片经过convgru模块处理过后的隐藏状态值ht

1。不像lstm,gru模块只有重置门和更新门,输入图像与前一层的隐藏状态融合之后通过sigmod函数,其输出的值再与前一层的隐特征值进行点乘运算,这部分操作就是gru的更新门操作,隐状态的值与当前图片特征值融合再赋予权重通过sigmod操作之后,将会决定该保留哪些特征信息,因为越小的值将会被sigmod趋近于零,越大的将会被趋近于1,将这些趋近于0或者1的数字与前隐藏特征相乘将会使得一部分特征值几乎保持原样,而一部分则会被归为0,相当于重置;因此sigmod函数在此处相当于筛选的作用。更新门是用于控制之前时刻的状态有多少需要被写入当前状态的,更新门值越大表示之前输入的比例越大。重置门的信息与之前的隐藏状态信息点乘结果经过tanh函数规范化,tanh的结果与更新门的信息相乘再与前一个状态信息相加,就得到本时刻的隐藏状态信息,之后再把这个隐藏状态信息输出或者传入下一个convgru模块,这就是循环神经网络convgru的一个循环。
[0059]
convgru的推进公式如下:
[0060]
z
t
=σ(w
xz
*x
t
w
hz
*h
t
‑1)
[0061]
r
t
=σ(w
xr
*x
t
w
hr
*h
t
‑1)
[0062]
h'
t
=f(w
xh
*x
t
r
t

(w
hh
*h
t
‑1))
[0063]
h
t
=(1

z
t
)h’t
z
t

h
t
‑1[0064]
在上述公式中,z
t
表示更新门,r
t
表示重置门,x
t
表示本时刻输入的图片,*符号表示卷积操作,w是权重值,其下标表示权重是从一个状态变化到另外一个状态,比如w
xz
表示权重使输入从原输入变成更新门的输入,其他的权重值也是同理。h表示状态值,h
t
‑1表示上一个输入处理过后的状态值,h
t
表示这次输入经过一些列运算最后输出的状态值,

表示哈达玛积。上述操作中所有的卷积操作都是使用了1
×
1的卷积核进行赋权重操作,f()函数表示激活函数函数,是负斜率为0.2的带泄漏修正的relu用来规范化每次操作之后的输出值。convgru模块是现有技术。
[0065]
请见图4,本实施例的多层融合模块,用于对单层融合模块输出的四个单层融合特征g1、g2、g3、g4分别经过一个反卷积层来使所有的特征处于同一种尺度,并按照g4、g3、g2、g1的顺序分别经过一个convgru模块,最后得到多层融合特征,多层融合特征再经过一层卷积核大小为3,步长为2的卷积层,以及两个全连接层之后得到总体特征;
[0066]
请见图10,是网络的融合结构,单层融合和多层融合都用了convgru模块,上图左部分是编码器,右部分是解码器,中间部分是四层融合模块,为了方便理解,省略了自注意力模块和解码器的卷积层,多张图片依次经过四个卷积层,输出的特征经过融合得到单层融合特征,单层融合特征再输入到对应的反卷积层中,除了输入到反卷积层之外,融合特征还会进行一次融合得到四层融合特征,该四层融合特征会输入到第四层反卷积层当中。
[0067]
本实施例中,单层融合结构是对于每个卷积层的输出进行融合,网络有四个卷积层,所以说有4个单层融合支路。除了单层融合结构之外,还有多层融合结构,多层融合结构是对于单层融合结果的归纳后再一次融合,多层融合结构更加偏向于从多个输入中提取深层信息,从更加高纬度的空间上寻找特征间的依存关系。多层融合结构的convgru模块第一个输入是第一层卷积层通过单层融合层之后的结果,整个多层融合结构有4个convgru单
元,该过程的公式如下:
[0068][0069]
在上式中,h
f
表示多层融合模块的最后输出,conv()表示进行一次卷积,表示第n层卷积层的输出经过一次上采样的结果。表示第n层卷积层的输出经过一次上采样的结果。表示多层融合模块输出值再经过一次上采样的值。在多层融合结构中,因为每一层的输入大小不同,所以从底层向高层传输数据时需要进行一次上采样,再与上一层的输入进行融合,并且在融合层最后进行一次卷积操作之后再传入最上层的反卷积层进行反卷积,最后生成人脸图片。
[0070]
本实施例的多输入融合解码模块,由四个反卷积层、两个自注意力层和两个卷积层组成;用于对多层融合模块输出的总体特征加入高斯噪声信息进行重构,得到新的特征f1,再对特征f1进行上采样分别构成三种不同尺度大小的特征f2、f3和f4后输入到反卷积层中;进入反卷积操作;多输入融合解码模块第一层的反卷积网络的输入是多输入融合编码模块第四层卷积层通过残差块之后的输出与f1融合的上采样值;多输入融合解码模块第二层反卷积层的输入是前一层反卷积层的输出经过残差块之后的结果、f2和多输入融合编码模块第三层卷积层的输出经过残差块之后的融合;多输入融合解码模块第三层的反卷积层输入是上一层反卷积层的残差输出、自注意力模块的输出经过残差块之后的结果、f3、多输入融合编码模块第二层卷积层的跨层输入、以及输入图片经过resize成一定大小之后这四个值的融合;多输入融合解码模块第四层的反卷积层的输入是自注意力模块的输出经过残差块之后的结果、多输入融合编码模块第一个卷积层的输出通过参差块之后的结果、以及输入图片的融合输入;多输入融合解码模块第四层之后再经过两个卷积层输出人脸校正精细图片;多输入融合解码模块的自注意力模块,输入的特征图经过该单元后,每个特征图会有一个权重图,代表特征图中每个部分的关联程度。
[0071]
本实施例中跨层输入,是指所有的层输入中都有上一层的输出,另外作为附加输入,第一层卷积层的输出会跨层输入到第二个自注意力模块,第二层卷积层的输出会跨层输入到第一个自注意力模块中,第三第四层的卷积层会跨层输入到第二第一层反卷积层中。所有的跨层输入都是经过convgru模块融合之后的输入。
[0072]
本实施例中,网络在一开始对编码模块同层融合输入的256个特征加入高斯噪声信息进行重构,重构成8
×8×
64的特征,再对这个特征进行上采样分别构成三种不同尺度大小的特征(32
×
32
×
64、64
×
64
×
16、128
×
128
×
8)输入到之后的反卷积层中去。此处的上采样的步骤可以细分为先反卷积再通过relu函数激活。之后就是进入反卷积操作阶段,解码模块第一层的反卷积网络的输入是编码模块第四层卷积同层融合后的输出与8
×8×
64的特征融合的上采样值。之后的第二层反卷积层的输入是前一层反卷积层的输出经过残差块之后的结果和第三层编码模块卷积同层融合后的融合。第三层的反卷积层输入是上一层反卷积层的残差输出、32
×
32
×
64的上采样值、第二层编码模块卷积同层融合的跨层输入、以及输入图片经过resize成32
×
32的大小之后这四个值的融合。第三层反卷积层之后就是自注意力网络层了。第四层反卷积层的输入是自注意力网络的输出经过残差块之后的结果、编码模块第一个卷积层的输出通过参差块之后的结果、以及输入图片通过resize成64
×
64
×
3大小的融合输入。最后一个反卷积层之后是一个卷积层,该卷积层是双生成器生
成图片的融合卷积层,该层的输入是局部面部生成器各器官通过编排之后的结果、编码模块第一层输出经过残差块的结果、原本输入图片的跨层输入。之后再经过两个卷积层就能够输出128
×
128
×
3的人脸校正精细图片了。
[0073]
请见图5,本实施例的生成对抗网络鉴别模块,由七层卷积层组成,其在倒数第二层和倒数第三层加入有残差块;这样在较为浅层的网络结构就能够得到较好的收敛性。
[0074]
本实施例在最后一层使用了大小为1的卷积过滤器来降低维度同时还能保护图像的空间结构。鉴别器最终生成的是4
×
4的概率图,这个概率图比起生成全局图片真实性的一个概率值来说,更能专注于面部不同区域的器官感受域,特别是设定左上角区域坐标为(0,0)的前提下(1,1),(1,2),(1,3),(2,1)(2,2)(2,3)这六个感受域刚好能包含人脸器官区域,这么做能提升生成对抗网络鉴别模块对于器官的重点判别能力,以此来反馈多输入融合对抗生成网络生成更加精细的人脸图片。
[0075]
步骤2:将需要校正的俯角人脸图像输入多输入融合对抗生成网络,获得人脸校正精细图片。
[0076]
本实施例中,需要训练多输入融合对抗生成网络,获得训练好的多输入融合对抗生成网络;具体实现包括以下子步骤:
[0077]
步骤1.1:制作训练集,包括正面图像数据集i
f
和俯角图像数据集i
p

[0078]
本实施例中,使用人脸俯角数据集tfd,tfd数据集包含了n个人物个体,每个个体有一个正面人脸图片,有k个俯角人脸图片,其中每个不同的俯角只有一张图片。这些俯角照片涵盖了几乎所有的正面人脸能有的俯角图片角度,首先从tfd数据集中取出所有的正面图像组成正面图像数据集i
f
,其他的俯角图像组成俯角图像数据集i
p
,每个个体的所有俯角图像会存在以个体命名区分的文件夹中。其中a个人物个体作为训练数据集,b个人物个体作为测试数据集。在训练集和训练数据集中,每个俯角人脸图片与对应的一个正面人脸图片,组成人脸图片对。
[0079]
本实施例中,tfd数据集包含926个个体,每个人物有6张图片,其中一张为正面图片,剩下5张分别为15
°
,30
°
,45
°
,60
°
,75
°
的人脸俯角图片,总共有5556张图片,本实施例取其中700个个体作为训练数据集,226个个体为测试数据集,并且对每个个体的俯角图片与正面图片组成一对图片组,并且所有图片严格要求大小为128x128的大小。
[0080]
步骤1.2:将俯角图像数据集i
p
中的俯角图片输入多输入融合对抗生成网络,将正面图像数据集i
f
中的正面图片作为目标,与多输入融合对抗生成网络的生成器将要生成的生成图片i
g
计算像素损失、身份保留损失、对抗损失、总变分正则化和总损失;
[0081]
本实施例中,身份保留损失是评估生成的正面照片与真实的正面人脸照片之间的差别,从一方面可以评估模型生成的人脸是否精确可信。本实施例中使用lightcnn算法来提取人脸特征,经过计算生成人脸特征与真实人脸特征之间的欧氏距离作为网络的身份损失。
[0082][0083]
其中d
i
()是lightcnn的特征提取网络的倒数第i层网络提取的特征,||
·
||是欧式距离,g(i
input
)是通过向生成器传入俯角图片i
input
得到的正脸图片,i
gt
是真是正面人脸图片。lightcnn是经过成千上万张图片训练得出的模型,它能精确的提取出人脸关键特征,
分类效果可靠。
[0084]
总变分正则化:
[0085][0086]
像素损失:
[0087][0088]
其中s是多种大小的图片,比如本实施例用128
×
128的图像作为输入,再生成128
×
128的图片,通过缩小其尺度可以从像素损失中就得到一定的范围信息,在本实施例中提供了128
×
128,64
×
64,32
×
32这三种图像尺度;ws,hs表示对应不同的尺度s所对应的图片宽和高。c表示颜色通道,g()表示生成器生成图,8,9式中,w,h都表示图的宽和高,表示在计算总变分正则化时在c通道,(w,h)位置的像素。i
is,w,h,c
表示在计算像素损失时s尺度的生成图片位于(w,h,c)位置的像素点值。i
gts,w,h,c
表示表示在计算像素损失时s尺度的真实图片位于(w,h,c)位置的像素点值。
[0089]
对抗损失是对抗生成网络框架的必要部分,通过生成器g和鉴别器d的对抗学习,能够使整个网络表现更加出色,本实施例延用了传统的对抗损失作为本文的对抗损失,以下是本实施例对抗网络的损失函数:
[0090][0091]
上述是经典对抗生成网络公式,通过鉴别器对图片进行评价的形式,鉴别器尽量给予真实的正面图片最高值,给予生成图片最小值,当鉴别器对真实图片和生成图片评价一致时,判定生成器训练完毕。公式10中e()表示分布函数的期望值,i
gt
表示真实图片,i
input
表示输入的侧脸图片,g
n
表示第n次迭代的生成器。d
θd
表示预训练过的鉴别器。
[0092]
本本实施例提出的网络总损失是以上损失的线性组合,其表示形式如下:
[0093]
l=λ1l
id
λ2l
pixel
λ3l
adv
λ4l
tv
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)
[0094]
上式中l表示计算的总损失;l
id
,l
pixel
,l
adv
,l
tv
分别表示身份损失,像素损失,对抗损失和总变分正则化,其中λ1,λ2,λ3,λ4表示不同损失函数的权重,分别为0.1,20,0.1,10
‑4。
[0095]
步骤1.3:使用优化器adam,参数设置为默认,对多输入融合对抗生成网络进行迭代训练,根据每一次前向传播计算的误差,通过反向传播和梯度下降法不断优化模型,最终得到训练好的多输入融合对抗生成网络;
[0096]
本实施例中,网络参数的设置情况如下:将adam作为网络的优化器,同时batch size设置为32,初始的学习率设置为0.001,每训练96个batch,学习率衰减为原来的0.9倍。网络训练一共迭代40万次。
[0097]
步骤1.4:利用训练好的模型,对测试集进行测试,将获得的图像和将正面图像数据集i
f
中的正面图片进行比较,计算rank

1指标,通过计算得到在所有角度的多姿态校正中,本方法效果几乎最好,rank

1指标都在95以上。
[0098]
为了与别的方法做对比,本实施例使用了m2fpa,dfw,cas

peal

r1等数据集进行训练与测试;如表1所示是在15
°
俯角对于不同的侧脸,本发明的准确率一直处于前一前二
位置,特别是对于大角度,本发明有较强的鲁棒性。图6是在m2fpa数据集上进行俯角人脸校正的效果,可以看到能够恢复出较清晰的图片,并且与正面图片足够相似,图7是在dfw数据集上用两张图片作为输入得出的校正人脸,可以看到,多张照片输入能够更好的恢复皮肤器官,足够体现方法的有效性。
[0099]
表1
[0100][0101]
图8是本发明实施例的基于自注意力机制的俯角人脸图像校正方法在dfw数据集上与da

gan,tp

gan等方法做对比效果。得出我们方法具有先进性如表1所示,在几乎所有的角度情况下,我们方法的rank

1准确度最高,在30度角度下虽然没有达到最好的效果,但是其准确率也达到第二好的99.5。
[0102]
本发明采用了多种最先进的技术:
[0103]
(1)本发明在人脸生成网络中加入了自注意力模块。然后为了使校正效果更精细;
[0104]
(2)本发明把图片分成多区域进行鉴别。实验表明,自注意力模块从整体脸部中保留的精细特征与人脸局部生成网络提供的丰富局部特征进行融合,能够生成保有精细特征的人脸校正图片;
[0105]
(3)本发明提出了输入增强型多输入人脸俯角校正网络;在增强输入模块中,本发明加入了convgru模块,该模块不仅能够提取多张俯角人脸图中的关联特征做到信息互补,还能减少网络中的参数数量降低网络训练复杂度,提高模型效率。
[0106]
(4)本发明能够高效从单张或多张俯角图片中重建出真实,准确,高精度的人脸正面图像。
[0107]
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献