一种基于自监督学习编码器的检测动作单元的方法

2022-11-23 11:25:22 来源：中国专利 TAG：

技术特征：
1.一种基于自监督学习编码器的检测动作单元的方法，其特征在于，包括以下步骤：步骤s1：构建视频匹配数据集，采集视频帧数据步骤s2：筛选视频帧序列步骤s3：构建编码器步骤s4：训练编码器步骤s5：构建动作单元检测器。2.根据权利要求1所述的一种基于自监督学习编码器的检测动作单元的方法，其特征在于，所述步骤s2包括以下步骤：步骤s21：对采集的视频帧数据随机选择时刻t的视频帧作为锚点帧，表示为i
a
；取i
a
的下一时刻t 1的视频帧为i0，由i0开始以一定间隔k选取视频帧序列，即{i0，i1，i2，...i
n
}，其中i
n
为时刻t 1 k
×
n的视频帧。步骤s22：对锚点帧和视频帧序列使用卷积网络对人脸进行定位、尺寸裁剪以及数据增强。3.根据权利要求1所述的一种基于自监督学习编码器的检测动作单元的方法，其特征在于，所述步骤s3包括以下步骤：该编码器是通过自监督训练生成的，其使用的数据集是从社交网络、微博网站以及其他用户生成内容的网站收集到的原始数据，不需要人工进行标注，在训练过程中会通过卷积网络定位人脸并将其裁剪输出。步骤s31：对视频帧构建动作单元特征编码器，假设视频帧为i∈r
c
×
h
×
w
，其中c为视频帧的通道数，(h
×
w)为视频帧的尺寸大小。将视频帧分成多个图块，表示为p∈r
c
×
p
×
p
，然后将图块转化为向量，即p∈r
c
·
p
·
p
，由图块构成的视频帧i
′
可以表示为其中p为图块尺寸大小，n为图块的数量n＝h
×
w/p2。步骤s32：建立线性变化矩阵将i
′
映射到d维向量上，即z0＝i
′
·
e，z0∈r
n
×
d
。将位置信息e
pos
∈r1×
d
拼接到z0，即构成(n 1)
×
d维的矩阵步骤s33：对z
′0进行层标准化，利用z
′0与标准化层计算隐藏层输出a
t
a
t
＝w
hh
h
t-1
w
xh
z
t
其中z
t
表示第t行向量，z
t
∈r1×
d
；h
t-1
表示z
t-1
输入到标准化层得到的中间层输出；w
hh
标准化层到标准化层的权重值，w
xh
是由输出到标准化层的权重值标准化层的计算如下：标准化层的计算如下：标准化层的计算如下：其中b和g定义为与h
t
相同尺寸的偏置和增益参数，最后输出h
t
∈r
(n 1)
×
d
，并定义层标准
化为：h＝ln(z
′0)步骤s34：构建注意力网络，具体操作如下：分别建立h
×
3组权重系数w
qi
；w
vi
；w
ki
∈r
d
×
l
，i∈{1，2，...8}，h为注意力子空间数量，此处取h＝8。利用三组权重分别与h进行矩阵相乘得到查询矩阵q
i
；内容矩阵v
i
；索引矩阵k
i
，其维度为q
i
，k
i
，v
i
∈r
(n 1)
×
l
，i∈{1，2，...8}将查询矩阵q与索引矩阵k的转置矩阵相乘，得到的结果除以其维度l的平方根得到中间变量m∈r
(n 1)
×
(n 1)
，即将中间变量经过softmax函数后，与内容矩阵v矩阵相乘得到注意力矩阵z
a
∈r
(n 1)
×
l
，具体表示为z
a
＝softmax(m)
·
v由于一共有8组q
i
，k
i
，v
i
矩阵，将会得到8组z
a
，将其表示为z
ai
，i∈{1，2，...8}。将8组z
a
横向拼接得到z
as
＝{z
a1
：z
a2
：...z
a8
}，即z
as
∈r
(n 1)
×
(8
·
l)
。为了融合z
as
的特征信息，建立矩阵w
s
∈r
(8
·
l)
×
d
，将z
as
与w
s
矩阵相乘得到注意力融合特征信息矩阵z∈r
(n 1)
×
d
上述所有操作将以下公式表示z
as
＝attention(h)步骤s35：构建残差层，具体操作如下：z
m
＝z
s
z
′0即该层的输出为层标准化与注意力层的输出与输出相加步骤s36：将z
m
进行如步骤s33的层标准化，输出结果为h
′
＝ln(z
m
)；将h
′
输入到多层全连接网络中，多层全连接网络的构成如下：h1＝fn1(h
′
)其中fn1为输入节点数为d，输出节点数为n
h
的全连接网络h
g
＝gelu(h1)gelu(x)具体计算方式如下：gelu(x)具体计算方式如下：将h
g
通过输出层：h
o
＝fn2(h
g
)其中fn2为输入节点数为n
h
，输出节点数为d的全连接网络，将整个多层全连接网络的操作定义为公式：h
o
＝mlp(h
′
)其输出的维度为h
o
∈r
(n 1)
×
d
，其最后编码器输出为v＝h
o
z
m
编码器的构成由ln；attention；ln；mlp模块组成，其中加入了残差计算，输出与输入的维度相同，为r
(n 1)
×
d
，可将多个编码器首尾相连构成组合编码器，其编码器数量为s。编码器的作用是从输入的视频帧r
c
×
h
×
w
提取出一种编码面部活动的特征矩阵r
(n 1)
×
d
，
利用提取到的面部活动特征输出到动作单元检测器中检测动作单元。4.根据权利要求1所述的一种基于自监督学习编码器的检测动作单元的方法，其特征在于，所述步骤s4包括以下步骤：步骤s41：将步骤s2选择的锚点视频帧表示为f
a
，输入到步骤s3中的编码器中生成特征v
a
；依次将视频帧{i0，i1，i2，...i
n
}输入到编码器中，生成目标视频特征序列{v0，v1，v2，...v
n
}。面部动作对时间具有内在的依赖性，而面部动作具有时域一致性，并且该一致性可以通过表征学习，对于现存的大部分方法多数使用自编码器，本方法可通过编码器对时域一致性进行表征学习。为了使编码器能够学习到视频帧的时间一致性，本方法采用了一种对时间信息敏感的三联度量学习：采用一种自监督的损失函数使编码器能够从带时序信息的相邻视频帧中学习到顺序序列。步骤s42：以特征v
s
作为锚点，以v0作为滑动起始样本，此时v0作为正样本，v1作为负样本，通过下述公式计算三联损失，具体计算如下：其中δ作为边界边际确保损失不会达到零，除非从锚点的负样本和正样本之间的距离的差异大于δ当v0作为滑动样本计算完三联损失后，记录损失值，并将v1作为滑动样本；此时v1作为正样本，v2作为负样本计算三联损失，记录损失值；直到将v
n-1
作为滑动样本共n个损失值，将n个损失值组合为顺序三联损失。通过顺序三联损失训练步骤s3中编码器，使其能够学习到锚点和正样本之间的距离要小于锚点和负样本之间的距离，以实现在不需要人工标注的条件下对编码器的自监督训练。5.根据权利要求1所述的一种基于自监督学习编码器的检测动作单元的方法，其特征在于，所述步骤s5包括以下步骤：步骤s51：构建动作单元检测器，动作单元检测器由层标准化和全连接网络组成，具体操作如下：操作如下：操作如下：操作如下：其中γ和β为待学习的scale和shift参数，用于控制y
b
的方差和均值；m为批次大小，和为该行的均值和方差，∈为防止除零引入的极小量将标准化后的结果y
b
输入到全连接层，即a＝w
·
y
b
其中w为全连接层的系数，w∈r
c
×
(n 1)
；a为动作单元检测结果
步骤s52：对动作单元检测器进行监督训练，在训练过程中使用crossentryloss损失函数进行训练，优化器选择adam，学习率为0.001，b1＝0.9，b2＝0.999。

技术总结
本发明提供了一种基于自监督学习编码器的检测动作单元的方法，通过构建视频匹配数据集，采集视频帧数据；随机选取锚点帧，根据固定时间间隔筛选视频帧序列，进行视频处理及数据增强；构建编码器；根据损失函数训练编码器；构建动作单元检测器，训练动作单元检测器。本发明还提供一种基于自监督学习编码器的检测动作单元系统，配合人脸定位方法，准确定位当前输入的视频并根据视频帧序列对，实现对视频中的人脸动作单元有效、准确的识别。准确的识别。准确的识别。

技术研发人员：宋维范耀文徐国威李东章云
受保护的技术使用者：广东工业大学
技术研发日：2021.05.21
技术公布日：2022/11/22

再多了解一些

2/2 首页上一页 1 2

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

一种基于自监督学习编码器的检测动作单元的方法

相关文献

最热文献