一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于空间分布损失函数的真实环境下的人脸表情识别方法与流程

2022-03-16 16:28:09 来源:中国专利 TAG:


1.本发明涉及一种基于空间分布损失函数的真实环境下的人脸表情识别 方法,主要涉及计算机视觉领域。


背景技术:

2.人脸表情是人类表达情感最直观,最有效的手段,表情也是人类非语 言的最重要的情感表达方式。所以为实现真正的人机交互的目的,在过去 十几年间,人脸表情识别技术受到学者的广泛关注和研究。目前,大部分 人脸表情识别相关的研究大多是集中在基本情感的识别,例如愤怒,厌恶, 惊讶,恐惧,悲伤,高兴,中立。而随着人脸识别技术的不断发展,该技 术也已经应用到多个领域,如教学评估,医疗康复,游戏娱乐,交通安全 等。虽然人脸表情识别技术已经拥有巨大的应用价值,但其研究仍然存在 巨大挑战,例如头部多姿态,背景光照不均,个体表情的个性化表达,面 部存在局部遮挡等。目前的人脸表情识别仍然处于只有在用于实验室环境 下光照单一、头部姿态正向以及面部无遮挡时才会有好的识别效果,如果 将这些模型应用于自然环境下的表情识别任务中则难以实现好的效果。
3.人脸表情识别的过程可以分为两个阶段:表情特征的提取和表示;以 及表情分类。在第一阶段,根据特征提取方式的不同将其分为两类:手工 视觉特征;以及学习型特征。常用手工视觉特征又可分为基于纹理的手工 特征,基于几何特性的手工特征,以及混合特征。
4.近些年来,随着计算机技术的发展,卷积神经网络已经广泛应用于人 脸表情识别的算法模型中,主要用于提取表情特征。
5.卷积神经网络是一种自动提取深度特征的较为突出的深度学习技术, 其在人脸表情识别中的应用效果显著优于传统方法。对于任何具有固定类 别集的视觉识别系统,其输入空间都可以被映射成具有输入图片语义信息 的高维特征向量。基于深度卷积神经网络来提取空间特征的方法就是通过 从较低层次到较高层次的组合特征来获取输入图像的抽象语义。然后池化 层将空间特征转换为单个深度特征向量。最后使用softmax损失函数评估 所有类别的概率分布。因此,可以通过建立一个具有更好鉴别表情特征的 嵌入空间来提升人脸表情识别算法的性能。但自然环境下的人脸表情识别 应用需要在无约束环境中获取大量带注释的图像,即野生人脸表情数据集。 因此,野生环境中的人脸表情图像往往表现出显著的类内变化性和类间相 似性。这表现在样本的嵌入空间中会呈现类间距离小,类内距离大。该现 象严重影响人脸表情识别的分类效果。。


技术实现要素:

6.针对以上现有技术的不足,本发明提出一种基于空间分布损失函数的 真实环境下的人脸表情识别方法,可以。
7.为达到上述目的,本发明的技术方案是:其特征在于,
8.1)将人脸表情数据集的图像进行预处理;
9.2)设计高效注意力机制的卷积神经网络;
10.3)在高效注意力机制网络学习过程中部署联合损失函数进行监督学习, 该损失函数由softmaxloss、centerloss以及sdloss组,其公式如下:
11.l=ls λlc γl
sd
12.其中λ=3,γ=5;
13.4)将人脸表情数据集分为训练集、验证集以及测试集;对上文设计的 卷积神经网络进行预训练;
14.5)利用人脸表情数据集对训练模型进行参数微调,得到最终的人脸表 情识别模型;
15.6)使用最终的人脸表情识别模型进行人脸表情识别。
16.根据权利要求1所述的一种基于空间分布损失函数的真实环境下的人 脸表情识别方法,其特征在于:在步骤2)中,所设计高效注意力机制卷积 神经网络的具体过程为:
17.(1)该网络利用resnet-18作为骨干网络,将注意力机制模块嵌入 resnet-18的每一个basicblock中;
18.(2)注意力机制模块利用卷积神经网络生成的特征图以生成注意力图; 再利用注意力图在卷积神经网络生成的特征图重生成对人脸表情识别具有 显著性影响的特征图。
19.优选地,注意力机制模块采用eca-net,其详细过程为:
20.eca-net首先对输入的特征图使用全局平均池化,将特征从二维矩阵 压缩与提取到单个数值,然后在不降低维度的情况下通过执行大小为k的 快速一维卷积来生成通道权重,获取各个通道之间的相关依赖关系,最后 将生成的各个权重通过乘法加权到原来的输入特征图上,将通过eca-net 提取的特征与原本的特征的加权完成在通道空间的特征在标定;
21.eca-net通过k近邻进行局部性交互,有效减少了跨所有通道进行 交互的计算量和复杂度,通过大小为k的一维卷积来为每个特征通道生成 权重,获取特征通道之间的相关性,即:
22.ω=σ(conv1dk(y))
23.公式中的conv1d表示一维卷积,k决定了跨通道局部交互的覆盖范围, 由于通道维数c大小与k成正比,得到其指数函数对应关系:
24.c=φ(k)=2
γ*k-b
25.因此,在本文给定通道维c的情况下,通过如下函数关系自适应确定 参数k的大小:
[0026][0027]
式中odd为最近的奇数t;并且这里将γ和b分别设为2和1;映射 函数ψ为通道维数越大则k越大,跨通道局部交互的范围也就越大。
[0028]
优选地,在步骤3)中,部署在高效注意力机制网络中的联合损失函数 的具体的含义:
[0029][0030][0031][0032]
l=ls λlc γl
sd
[0033]
其中ls为softmax损失,lc为中心损失,l
sd
为新提出的空间分布损失。
[0034]
优选地,在步骤3)中,本发明使用的人脸表情数据集为rad-db和 affectnet数据。
[0035]
该方法利用高效注意力网络提取表情的细微特征和深层特征。利用新 提出的空间分布损失函数将高维特征空间中的拉近同类间的距离,推离异 类间的距离,以实现更利于分类的空间分布。然后使用分类器计算其概率 分布,取概率最大的类别作为该图像的预测值。经过训练后得到人脸表情 识别模型,实现对待分类表情图像的有效分类。
附图说明
[0036]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对 实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中 的附图仅仅是本发明的其中两幅,对于本领域普通技术人员来讲,在不付 出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0037]
图1为本发明实施例的总体框架图;
[0038]
图2为本发明实施例的eca_net框架图。
具体实施方式
[0039]
下面将结合附图,对本发明中的技术方案进行清楚、完整地描述,显 然,所描述的实施例仅仅是本发明的较佳实施例,而不是全部的实施例。 基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提 下所获得的所有其他实施例,都属于本发明保护的范围。
[0040]
实施例
[0041]
如图1所示,本发明实施例包括以下几个步骤:
[0042]
1)将人脸表情数据集的图像进行预处理;
[0043]
2)设计高效注意力机制的卷积神经网络。将注意力机制模块eca-net 嵌入resnet-18中的每一个basicblock中。注意力机制模块利用卷积神经 网络生成的特征图以生成注意力图。再利用注意力图在卷积神经网络生成 的特征图重生成对人脸表情识别具有显著性影响的特征图。其结构图如图 1所示。
[0044]
3)在高效注意力机制网络学习过程中部署联合损失函数进行监督学习, 该损失
函数由softmaxloss、centerloss以及sdloss组成。其公式如下:
[0045]
l=ls λlc γld[0046]
4)将人脸表情数据集分为训练集、验证集以及测试集。对上文设计的 卷积神经网络进行预训练。
[0047]
5)利用人脸表情数据集对训练模型进行参数微调,得到最终的人脸表 情识别模型。
[0048]
6)使用最终的人脸表情识别模型进行人脸表情识别。
[0049]
在步骤2)中,所设计高效注意力机制网络的具体过程为:
[0050]
(1)该网络利用resnet-18作为骨干网络,将注意力机制模块嵌入 resnet-18的每一个basicblock中。
[0051]
(2)注意力机制模块利用卷积神经网络生成的特征图以生成注意力图。 再利用注意力图在卷积神经网络生成的特征图重生成对人脸表情识别具有 显著性影响的特征图。注意力机制模块采用eca-net,其详细过程为:
[0052]
eca-net首先对输入的特征图使用全局平均池化,将特征从二维矩阵 压缩与提取到单个数值,然后在不降低维度的情况下通过执行大小为k的 快速一维卷积来生成通道权重,获取各个通道之间的相关依赖关系,最后 将生成的各个权重通过乘法加权到原来的输入特征图上,将通过eca-net 提取的特征与原本的特征的加权完成在通道空间的特征在标定。
[0053]
eca-net通过k近邻进行局部性交互,有效减少了跨所有通道进行 交互的计算量和复杂度,通过大小为k的一维卷积来为每个特征通道生成 权重,获取特征通道之间的相关性,即
[0054]
ω=σ(conv1dk(y))
[0055]
公式中的conv1d表示一维卷积,k决定了跨通道局部交互的覆盖范围, 由于通道维数c大小与k成正比,得到其指数函数对应关系
[0056]
c=φ(k)=2
γ*k-b
[0057]
因此,在本文给定通道维c的情况下,通过如下函数关系自适应确定 参数k的大小
[0058][0059]
式中odd为最近的奇数t。并且这里将γ和b分别设为2和1。映射 函数ψ为通道维数越大则k越大,跨通道局部交互的范围也就越大。
[0060]
在步骤3)中,部署在高效注意力机制网络中的联合损失函数的具体的 含义:
[0061]
假设给定一个训练批次(mini-batch),其包含m个训练样本,y为训 练样本的标签。特征图x为卷积神经网络的输出。
[0062]
深度卷积神经网络通常使用softmax进行监督多分类任务的训练过程, softmax可以有效的使不同类别的深度特征分离。softmax在全连接层后 使用。将最后一层全连接层得到的结果转换成概率值。
[0063]
zi=w
t
xi b
[0064]
其中w=[w1,w2,...wk]∈rd×k,b=[b1,b2,...,bk]∈rk×1,是最后一 层全连接层的
类别权重和偏差参数。
[0065]
此概率分布p(y=j|xi)是由所有的类别通过softmax函数计算得到的。
[0066]
最后,交叉熵损失函数计算预测值和真实标签yi之间的差异,以形成 如下softmax损失函数ls:
[0067][0068][0069][0070]
深度特征学习的研究者提出中心损失函数(centerloss)。中心损失函数 (centerloss)是深度度量学习提出的一个典型方法,其是通过计算样本深度 特征与其相同类的类中的相似度,此相似度使用欧氏距离衡量。中心损失 函数最小化深度特征与其对应类中心之间的欧式距离来监督训练过程。其 目的是将嵌入空间划分为k个簇,以解决k分类问题。假设给定一个含有 m个样本的训练批次,第i个样本的深度特征向量表示为xi= [x
i1
,x
i2
,...,x
id
]
t
∈rd,各类别的标签为y={1,...,k}和其类中心c
yi
= [c
yi1
,c
yi2
,...,c
yid
]
t
∈rd。中心损失函数可以表示为以下函数
[0071]
中心损失函数只考虑样本的深度特征与同类别的样本深度特征的距离, 忽略样本的深度特征与异类别样本深度特征的距离。并且野生数据集呈现 样本分布极度不平衡的现象。在训练模型上部署中心损失函数会造成小样 本重叠的现象,造成人脸表情识别性能的下降。所以在此基础上,本文即 兼顾样本深度特征的同类别距离和异类别距离以及样本分布极度不平衡问 题,提出新的空间分布损失函数。
[0072]
在该式中,m为一个样本批次的样本总数,xi为经过卷积神经网络输 出的高维样本特征。
[0073][0074]
此处的ai为样本经过卷积神经网络后的高维特征,a
pi
表与ai具有相同 的标签的样本高维特征。a
qj
表示与ai不同类别的样本高维特征。在人脸表 情识别模型中,会同时使用三种损失函数,具体如下:
[0075]
l=ls λlc γl
sd
[0076]
centerloss在计算样本深度特征与其类中心距离时,类中心的选取是 随机的,而
本文新提出的损失函数是设置t个类中心,并取样本深度特征 到t个同类中心的平均作为同类别距离。有效避免因随机选取的类中心不 当而造成的误差。
[0077]
在步骤3)中,本发明使用的人脸表情数据集为rad-db和affectnet 数据。
[0078]
rad-db数据集包含大约30000张从互联网上下载的人脸表情图像, 该数据集包含两个部分单标签子集(基本表情)和双标签子集(复合表情)。 本文使用具有七个基本表情类别的单标签子集。该子集的训练集包含 12271张图像,测试集包含3068张图像。
[0079]
affectnet数据集是最大的公开可用的野生fer数据集,有450000张 从互联网上获取的面部图像,并用分类表情和维度影响(效价和觉醒)进 行手动注释。在我们的实验中,我们使用了280000张训练图像和3500张 图像验证集由六个基本表情和中性的表情。
[0080]
将rad-db数据集作为高效注意力网络的输入数据,并使用联合损 失函数对高效注意力机制网络进行监督训练。
[0081]
l=ls λlc γl
sd
其中λ=3,γ=5
[0082]
使用训练好的算法模型将待分类的人脸表情进行分类,将其分为愤怒, 厌恶,惊讶,恐惧,悲伤,高兴,中立中的一类。
[0083]
该方法利用高效注意力网络提取表情的细微特征和深层特征。利用新 提出的空间分布损失函数将高维特征空间中的拉近同类间的距离,推离异 类间的距离,以实现更利于分类的空间分布。然后使用分类器计算其概率 分布,取概率最大的类别作为该图像的预测值。经过训练后得到人脸表情 识别模型,实现对待分类表情图像的有效分类。
[0084]
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在 本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包 含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献