一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种人脸面部动作单元强度回归方法、装置和介质与流程

2021-11-20 04:43:00 来源:中国专利 TAG:


1.本发明涉及图像处理技术领域,具体涉及一种人脸面部动作单元强度回归 方法、装置和介质。


背景技术:

2.人脸面部动作单元强度回归属于情感计算(affective computing)领域, 而情感计算最初由picard教授于1997年提出,其表示随着计算机技术的发展, 计算机已经开始具备表达和识别情感的能力,并且可能很快就会具备“具有情 感”的能力。而正如神经学研究所表明的那样,情感在人类认知和感知中起着 重要的作用,所以情感计算不仅能使计算机更好地协助人类,还能增强计算机 的决策能力。具体来说,情感计算是指与情感相关,来源于情感或能够对情感 施加影响的计算。情感计算的应用非常广泛,涉及诸如学习、信息检索、通信、 娱乐、健康以及交互等诸多领域。
3.情感计算的一个基本问题就是情感识别。其目标就在于识别面部动作的出 现或其所表达的情绪。人脸面部表情的呈现离不开面部肌肉的驱动,所以为了 探究不同的面部肌肉动作和不同的表情之间的对应关系,心理学家paul ekman 及其工作伙伴wallace friesen通过观察和生物反馈创制了面部动作编码系统 (facs)。他们根据人脸的解剖学特点,将其划分成若干既相互独立又互相联 系的动作单元(au),并分析了这些au的运动特征及其所控制的主要区域以 及与之相关的表情。现如今广泛使用的facs于1978年首次发布,后在2002 年进行了实质性的更新。facs包含了多个面部动作单元(action unit,au), 每一个au都编码了某一面部区域的构型信息,例如au 12为lip cornerpuller,其编码了唇角附近的构型信息。
4.情感识别系统的研究经过了多年的发展已经取得了很好的成果。其中,自 动面部au检测和强度估计成为了计算机视觉领域一个主要的问题并在许多 领域有着诸多应用。例如,在健康医疗方面,可以帮助医生了解病人的心理状 态;在人机交互方面,可以帮助机器理解人的情感,丰富人机交互的内容;在 教育方面,可以帮助老师了解学生的学习状态以及效果;此外,在广告、娱乐 等方面也有着多种多样的应用以及广阔的前景。自动面部au检测和强度估计 已经经过了数十年的研究,众多研究者已经提出了许多非常优秀的方法。这些 方法可以大致分为传统方法和深度学习方法。其中传统方法一般利用人工定义 特征表示人脸图像,再通过分类器进行au识别。而随着多年的发展,以卷积 神经网络(convolutional neural network,cnn)为代表的深度学习方法展示了 非常强大的力量。近些年来自动面部au检测方面的工作已经取得了相当不错 的成果,但更加精准的au检测以及au强度回归仍有很大的研究空间。
5.综上所述,研究更加精准的au连续强度值回归方法显得更加重要。因此, 亟需一种新的人脸面部au强度回归方法来进一步深入人脸相关的情感计算 研究。


技术实现要素:

6.为此,本发明提供一种人脸面部动作单元强度回归方法,以解决现有技术 中的上述问题。
7.为了实现上述目的,本发明提供如下技术方案:
8.根据本发明的第一方面,一种人脸面部动作单元强度回归方法,包括:
9.步骤s1,通过分层与多尺度区域学习提取输入人脸图像序列的多尺度的局 部时空特征;
10.步骤s2,在所述多尺度局部时空特征图上执行全局时空特征学习;
11.步骤s3,根据全局时空特征得到代表人脸不同区域的k个局部时空特征, 并针对不同的面部动作单元执行单独的局部关系学习,得到局部关系特征向 量;
12.步骤s4,通过一个两层的全连接网络,根据局部关系特征向量执行面部动 作单元强度回归。
13.进一步地,所述步骤s1中,所述分层与多尺度区域学习采用(2 1)d卷积, 即假设代表人脸图像序列的输入大小为d
×
l
×
l,先在空间维度(l
×
l)上执行2d 卷积提取空间特征,之后再在时间维度(d)上执行1d卷积提取时间特征,并 且分层与多尺度区域学习块包含四个卷积层,第一个卷积层为普通的(2 1)d 卷积,第二、第三和第四个卷积层分别均匀划分为6
×
6、4
×
4和2
×
2个区域, 且(2 1)d的卷积核权重仅在局部区域内共享,每一层的输入均是前一层的卷 积结果,通过连接第二、第三和第四个卷积层的输出并与第一个卷积层的输出 逐元素相加得到多尺度的局部时空特征,分层与多尺度区域学习模块由两个分 层与多尺度区域学习块和组成。
14.进一步地,所述步骤s2中,由基于(2 1)d卷积和2d卷积的全局特征学 习模块捕获整个面部的结构和纹理等空间特征以及时序变化信息,该模块由三 个卷积块构成——p
(2 1)d
(l/4,d/4,4c)、p
(2 1)d
(l/8,d/8,8c)以及p(l/16,8c),其中前 两个卷积块执行(2 1)d卷积,最后一个卷积块执行2d卷积。
15.进一步地,所述步骤s3中,局部关系学习基于双向长短期记忆网络设计, 全局特征学习模块输出的特征图大小为8c
×1×
l/32
×
l/32,特征图中的每个元素 (8c
×1×1×
1)都编码了面部某一区域的局部时空信息,因此可以使用特征图上的 每个元素作为局部面部区域的表示,并使用它来执行局部关系学习,这样可以 得到l/32
×
l/32个局部特征,通过双向长短期记忆网络进行局部关系学习得到 用于au回归的特征向量,具体来说,从全局特征学习模块得到了k个局部特 征f1,f2,...,f
k
,将所有局部特征馈送至一个两层的堆叠的双向长短期记忆网络中 进行局部关系学习,连接第二层双向长短期记忆网络输出的k个隐藏状态向量 h1,h2,...,h
k
得到一个局部关系特征向量,由于不同的au具有不同的肌肉激活, 并且各个局部特征对回归不同au的贡献也应不同,因此,对于每个au都应 有一个对应的双向长短期记忆网络结构进行局部关系学习,设l(k,8c,4c,2c)表 示基于双向长短期记忆网络的局部关系学习块,表示双向长短期记忆网络的时 间步长为k,输入向量长度为8c,第一层双向长短期记忆网络和第二层双向长 短期记忆网络输出的隐藏状态向量长度分别为4c和2c,这样对于c个au,共 有c个局部关系学习块l1(k,8c,4c,2c),l2(k,8c,4c,2c),...,l
c
(k,8c,4c,2c),且会得到c 个局部关系特征向量最后,对这c个局
部关系特征向量进行逐元 素求和得到一个局部关系特征向量。
16.根据本发明第二方面,一种人脸面部动作单元强度回归装置,包括:
17.分层与多尺度区域学习模块,被配置为通过分层与多尺度区域学习提取输 入人脸图像序列的多尺度的局部时空特征;
18.全局特征学习模块,被配置为在所述多尺度局部时空特征图上执行全局时 空特征学习;
19.局部关系学习模块,被配置为根据全局时空特征得到代表人脸不同区域的 k个局部时空特征,并针对不同的面部动作单元执行单独的局部关系学习,得 到局部关系特征向量;
20.面部au强度回归模块,被配置为通过一个两层的全连接网络,根据局部 关系特征向量执行面部动作单元强度回归。
21.进一步地,所述分层与多尺度区域学习模块具体被配置为:
22.所述分层与多尺度区域学习采用(2 1)d卷积,即假设代表人脸图像序列的 输入大小为d
×
l
×
l,先在空间维度(l
×
l)上执行2d卷积提取空间特征,之后再 在时间维度(d)上执行1d卷积提取时间特征。并且分层与多尺度区域学习块 包含四个卷积层,第一个卷积层为普通的(2 1)d卷积,第二、第三和第四个 卷积层分别均匀划分为6
×
6、4
×
4和2
×
2个区域,且(2 1)d的卷积核权重仅在 局部区域内共享,每一层的输入均是前一层的卷积结果,通过连接第二、第三 和第四个卷积层的输出并与第一个卷积层的输出逐元素相加得到多尺度的局 部时空特征,该模块由两个分层与多尺度区域学习块和 组成。
23.进一步地,所述全局特征学习模块具体被配置为:
24.由基于(2 1)d卷积和2d卷积的全局特征学习模块捕获整个面部的结构和 纹理等空间特征以及时序变化信息,该模块由三个卷积块构成 ——p
(2 1)d
(l/4,d/4,4c)、p
(2 1)d
(l/8,d/8,8c)以及p(l/16,8c),其中前两个卷积块执 行(2 1)d卷积,最后一个卷积块执行2d卷积。
25.进一步地,所述局部关系学习模块具体被配置为:
26.局部关系学习基于双向长短期记忆网络设计,全局特征学习模块输出的特 征图大小为8c
×1×
l/32
×
l/32,特征图中的每个元素(8c
×1×1×
1)都编码了面部某一 区域的局部时空信息,因此可以使用特征图上的每个元素作为局部面部区域的 表示,并使用它来执行局部关系学习,这样可以得到l/32
×
l/32个局部特征, 通过双向长短期记忆网络进行局部关系学习得到用于au回归的特征向量,具 体来说,从全局特征学习模块得到了k个局部特征f1,f2,...,f
k
,将所有局部特征 馈送至一个两层的堆叠的blstm网络中进行局部关系学习,连接第二层双向 长短期记忆网络输出的k个隐藏状态向量h1,h2,...,h
k
得到一个局部关系特征向 量,由于不同的au具有不同的肌肉激活,并且各个局部特征对回归不同au 的贡献也应不同,因此,对于每个au都应有一个对应的双向长短期记忆网络 结构进行局部关系学习,设l(k,8c,4c,2c)表示基于双向长短期记忆网络的局部 关系学习块,表示双向长短期记忆网络的时间步长为k,输入向量长度为8c, 第一层双向长短期记忆网络和第二层双向长短期记忆网络输出的隐藏状态向 量长度分别为4c和2c,这样对于c个au,共
有c个局部关系学习块 l1(k,8c,4c,2c),l2(k,8c,4c,2c),...,l
c
(k,8c,4c,2c),且会得到c个局部关系特征向量 最后,对这c个局部关系特征向量进行逐元素求和得到一个局部 关系特征向量。
27.本发明第三方面,一种计算机可读存储介质,其上存储有计算机程序,该 计算机程序被处理器执行时,能实现本发明第一方面所提供的方法的步骤。
28.本发明具有如下优点:
29.1、本发明使用了(2 1)d卷积,其不光能对人脸图像上的空间信息进行编 码,还能对人脸图像帧之间动态变化的时间信息进行编码。编码得到的时空特 征图由于同时包含空间信息和时间信息,所以更加有助于面部au强度的回 归,能够有效提升网络性能。
30.2、本发明通过引入分层与多尺度的区域学习,能够很好地适应分布在人 脸不同区域并具有不同尺度的au,进而提取特定于不同au的局部特征,提 升网络对面部au强度回归的性能。
31.3、本发明通过引入局部关系学习,能够对表示人脸不同区域的局部特征 之间的关系进行建模,并以此来进行面部au强度回归。除此之外,针对不同 的au,网络有单独的局部关系学习结构,学习不同的局部关系。
附图说明
32.为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对 实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下 面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创 造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
33.本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内 容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条 件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调 整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明 所揭示的技术内容得能涵盖的范围内。
34.图1为本发明一些实施例提供的一种人脸面部动作单元强度回归方法的 流程框图。
35.图2为本发明一些实施例提供的一种人脸面部动作单元强度回归装置的 框图。
具体实施方式
36.以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由 本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的 实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例, 本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例, 都属于本发明保护的范围。
37.本实施例公开了一种人脸面部动作单元强度回归方法,如图1所示,包括 以下步骤:
38.步骤s1,通过分层与多尺度区域学习提取输入人脸图像序列的局部时空 特征图。
39.本实施例中数据采用feafa数据集(feafa:a well

annotated dataset forfacial expression analysis and 3d facial animation)和重新标注的disfa数据 集
(disfa:a spontaneous facial action intensity database),这两个数据集都被 标注了24个au的连续强度值(位于0

1之间的浮点数),其中24个au由 feafa重新选择、命名以及组织而得到。24个au的编号及含义如表1所示。
40.表格1由feafa重新定义的24个au
[0041][0042]
对于数据集中的每个人脸图像,我们执行相似度转换,包括旋转,均匀缩 放和平移,以获得3
×
192
×
192的彩色人脸。由于au与面部颜色无关且为了提 高训练效率,将彩色rgb图像转化为灰度图像。由于网络要求输入图像序列 具有相同的图像帧数量,所以对于回归au强度值所对应的人脸图像帧,由于 相邻帧之间具有高度相关性,因此在该帧前后分别每隔3帧地取5帧人脸图像, 组成大小为1
×
11
×
192
×
192的输入人脸图像序列。这样可以将动态信息的损失降 到最低。
[0043]
分层与多尺度区域学习模块由和组成, 的网络结构如图2所示。和均包含四 个卷积层,第一个卷积层为普通的(2 1)d卷积,第二、第三和第四个卷积层 分别均匀划分为6
×
6、4
×
4和2
×
2个区域,且(2 1)d的卷积核权重仅在局部区 域内共享,每一层的输入均是前一层的卷积结果,通过连接第二、第三和第四 个卷积层的输出并与第一个卷积层的输出逐元素相加得到多尺度的局部时空 特征。此外,其中2d卷积的卷积核大小为3
×
3,1d卷积的卷积核大小为3, 步长均为1。每一个分层和多尺度区域块后面都连接时空间最大池化层,池化 大小为2
×2×
2。分层与多尺度区域学习模块将得到大小为128
×6×
48
×
48的特征 图f1。
[0044]
步骤s2,在特征图f1上执行全局特征学习,该模块由三个卷积块构成 ——p
(2 1)d
(48,3,256)、p
(2 1)d
(24,2,512)以及p(12,512)。其中前两个卷积块执行 (2 1)d卷积,最后
一个卷积块执行2d卷积。同样地,2d卷积的卷积核大小 为3
×
3,1d卷积的卷积核大小为3,步长均为1,且2d卷积及1d卷积后均 使用bn和relu进行操作。前两个块后面跟着时空间最大池化层,池化大小 为2
×2×
2,第三个块后面跟着空间最大池化层,池化大小为2
×
2。全局特征学 习模块得到大小为512
×6×
6的特征图f2。
[0045]
步骤s3,在特征图f2上执行局部关系学习。特征图f2大小为512
×6×
6,特 征图上的每个元素((512
×1×1×
1))都编码了面部某一区域的局部时空信息。所 以将特征图f2上的每个元素作为局部特征进行局部关系学习,共有36个局部 特征(可以表示为f1,f2,...,f
36
)。该模块包含24个局部关系学习块 l1(36,512,256,128),l2(36,512,256,128),...,l
24
(36,512,256,128)。局部关系学习块由一 个两层的堆叠的blstm网络构成,blstm网络的时间步长为36,输入向量 长度为512,第一层blstm和第二层blstm输出的隐藏状态向量长度分别 为256和128。连接第二层blstm网络输出的36个隐藏状态向量h1,h2,...,h
36
得 到一个局部关系特征向量。这样对于24个au,这24个局部关系学习块会分 别得到24个局部关系特征向量最后,对这24个局部关系特征向 量进行逐元素求和得到f
l

[0046]
步骤s4,通过一个两层的全连接网络进行面部au强度回归,第一层的维 度为512,第二层(输出层)的维度为24(au的数量)。对于au强度回归, 采用均方误差作为模型的损失函数,其可以写为
[0047][0048]
其中loss是所有训练样本的平均损失,x
i
表示au的真实值,表示au 的预测值,其都是长度为c的向量。
[0049]
在本实施例中,执行算法的计算机的cpu为intel(r)xeon(r)silver 4210, 计算机操作系统为ubuntu18.04,cuda版本为10.0,使用的神经网络框架为 tensorflow,版本为2.2。使用随机梯度下降(sgd),小批量大小为5,动量 为0.9,每两个epoch学习率乘以0.3,共训练20个epoch,对于feafa初始 学习率为0.01,disfa的初始学习率为0.001。
[0050]
综上所述,本发明通过上述步骤,即可实现对于人脸图像序列进行面部 au强度回归。
[0051]
为验证本发明所提方法的有效性和实用性,表2给出了在feafa数据集 和重新标注的disfa数据集上本发明提出的方法与feafa提供的基线系统的 面部au强度回归结果。由表2可以看出,与基于vgg预训练模型的基线系 统相比,本发明提出的算法对于24个au的强度回归有更好的性能。
[0052]
表格2 feafa数据集和重新标注的disfa数据集上本发明提出的方法与 feafa提供的基线系统的面部au强度回归结果
[0053][0054]
参照图2,基于同一发明构思,本发明第二方面提供了一种人脸面部动作 单元强度回归装置600,包括:
[0055]
分层与多尺度区域学习模块601,被配置为通过分层与多尺度区域学习提 取输入人脸图像序列的多尺度的局部时空特征;
[0056]
全局特征学习模块602,被配置为在所述多尺度局部时空特征图上执行全 局时空特征学习;
[0057]
局部关系学习模块603,被配置为根据全局时空特征得到代表人脸不同区 域的k个局部时空特征,并针对不同的面部动作单元执行单独的局部关系学 习,得到局部关系特征向量;
[0058]
面部au强度回归模块604,被配置为通过一个两层的全连接网络,根据 局部关系特征向量执行面部动作单元强度回归。
[0059]
如此,通过引入分层与多尺度的区域学习,能够很好地适应分布在人脸不 同区域并具有不同尺度的au,进而提取特定于不同au的局部特征,提升网 络对面部au强度回归的性能。
[0060]
进一步地,所述分层与多尺度区域学习模块601具体被配置为:
[0061]
所述分层与多尺度区域学习采用(2 1)d卷积,即假设代表人脸图像序列的 输入大小为d
×
l
×
l,先在空间维度(l
×
l)上执行2d卷积提取空间特征,之后再 在时间维度(d)上执行1d卷积提取时间特征。并且分层与多尺度区域学习块 包含四个卷积层,第一个卷积层为普通的(2 1)d卷积,第二、第三和第四个 卷积层分别均匀划分为6
×
6、4
×
4和2
×
2个区域,且(2 1)d的卷积核权重仅在 局部区域内共享,每一层的输入均是前一层的卷积结果,通过连接第二、第三 和第四个卷积层的输出并与第一个卷积层的输出逐元素相加得到多尺度的局 部时空特征,该模块由两个分层与多尺度区域学习块和 组成。
[0062]
进一步地,所述全局特征学习模块602具体被配置为:
[0063]
由基于(2 1)d卷积和2d卷积的全局特征学习模块捕获整个面部的结构和 纹理等空间特征以及时序变化信息,该模块由三个卷积块构成 ——p
(2 1)d
(l/4,d/4,4c)、p
(2 1)d
(l/8,d/8,8c)以及p(l/16,8c),其中前两个卷积块执 行(2 1)d卷积,最后一个卷积块执行2d卷积。
[0064]
进一步地,所述局部关系学习模块603具体被配置为:
[0065]
局部关系学习基于双向长短期记忆网络设计,全局特征学习模块输出的特 征图大小为8c
×1×
l/32
×
l/32,特征图中的每个元素(8c
×1×1×
1)都编码了面部某一 区域
的局部时空信息,因此可以使用特征图上的每个元素作为局部面部区域的 表示,并使用它来执行局部关系学习,这样可以得到l/32
×
l/32个局部特征, 通过双向长短期记忆网络进行局部关系学习得到用于au回归的特征向量,具 体来说,从全局特征学习模块得到了k个局部特征f1,f2,...,f
k
,将所有局部特征 馈送至一个两层的堆叠的blstm网络中进行局部关系学习,连接第二层双向 长短期记忆网络输出的k个隐藏状态向量h1,h2,...,h
k
得到一个局部关系特征向 量,由于不同的au具有不同的肌肉激活,并且各个局部特征对回归不同au 的贡献也应不同,因此,对于每个au都应有一个对应的双向长短期记忆网络 结构进行局部关系学习,设l(k,8c,4c,2c)表示基于双向长短期记忆网络的局部 关系学习块,表示双向长短期记忆网络的时间步长为k,输入向量长度为8c, 第一层双向长短期记忆网络和第二层双向长短期记忆网络输出的隐藏状态向 量长度分别为4c和2c,这样对于c个au,共有c个局部关系学习块 l1(k,8c,4c,2c),l2(k,8c,4c,2c),...,l
c
(k,8c,4c,2c),且会得到c个局部关系特征向量 最后,对这c个局部关系特征向量进行逐元素求和得到一个局部 关系特征向量。
[0066]
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关 该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
[0067]
本发明第三方面,一种计算机可读存储介质,其上存储有计算机程序,该 计算机程序被处理器执行时,能实现本发明第一方面所提供的方法的步骤。
[0068]
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述, 但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是 显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均 属于本发明要求保护的范围。
[0069]
本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”等的用语,亦仅 为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或 调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献