一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于特征融合的人脸表情识别方法

2022-09-03 20:50:14 来源:中国专利 TAG:


1.本发明属于图形图像分类技术领域,涉及一种基于特征融合的人脸表情识别方法。


背景技术:

2.人脸表情是表达人类情感和意图最有效、最常见的方式之一。人脸表情识别在日常生活中有着广泛的应用。比如,社交机器人、医疗服务、疲劳驾驶。著名心理学家ekman发现,全世界共有六种基本的面部表情,并和friensen通过一系列跨文明交流研究规定了六种基本的面部表情:生气(anger),憎恨(disgust),恐惧(fear),喜悦(happiness),悲伤(sadness),惊讶(surprise)。因此,学术界普遍开始通过对这六种基本面部表情的分类,寻找计算机自动识别人脸表情的方法。
3.传统的人脸表情识别方法通常使用手动特征进行面部表情识别,例如pca,ica和fld。pca是一种常见的数据分析方法,它总是用于高维数据的降维,以提取数据的主要特征组成部分。ica可以有效地提取具有高阶统计特征的表达特征,并从高阶相关性中对其进行分析。fld可以从高维特征中提取最具鉴别力的低维特征,从而可以接近相同的样品并分离不同的样品。但上述方法基于手动功能,容易受到人为因素的干扰。近年来,深度学习已经显示出强大的信息处理能力和更好的鲁棒性,这不依赖于手动特征的精确设计。许多研究人员提出将经典的网络结构引入面部表情识别,为了提高性能,一些研究人员建议融合多种特征以进行综合表示。虽然识别的准确性有所提高,但这些方法中网络的复杂性也增加了。
4.虽然大规模深度学习模型实现了很高的识别精度,但面部表情数据集中有限的样本数量可能会限制性能。如果没有足够的训练样本,大规模的深度学习模型容易过度拟合。为了实现结构复杂性和识别精度之间的平衡,研究人员尝试设计一种结构紧凑、特征提取能力强的轻量级深度学习模型。但是,一些面部表情仍难以区分,如厌恶和悲伤。提取有效的面部特征对于面部情感识别至关重要。通常,使用两种类型的特征来区分面部情绪:几何特征和外观特征。几何特征提供有关面部组件的形状和位置的线索,而基于外观的特征包含有关沟壑,凸起,皱纹等信息。但它们的一个主要缺点是难以普遍适用于不同的人。所以,考虑特征融合可能是设计更具判别性特征以应对面部表情识别的有效方法。但是,基于特征融合的方法面临着信息冗余的问题,这个问题会影响面部表情识别的准确性。实际上,处理大量特征会增加计算时间,并使分类器不必要或冗余的信息不堪重负。因此,为了更好地训练面部表情识别,选择正确有效的特征至关重要,因为不相关和嘈杂的特征可能会误导和负面影响识别系统。


技术实现要素:

5.本发明的目的就是提供一种基于特征融合的人脸表情识别方法。
6.本发明包括以下步骤:
7.采用人脸对齐算法对待识别图片中68个面部关键点进行定位,并根据关键点提取欧氏距离和偏心率的几何特征fa;然后采用lbp算法提取人脸的纹理特征fs;将几何特征fa和纹理特征fs进行融合,得到新的特征向量f
as
进行融合;再然后采用最大相关性最小冗余算法(mrmr)对特征f
as
进行选择;最后将选择后的特征f
as
与卷积神经网络所提取的更深层的特征fd进行融合,送入softmax分类函数进行分类;完成人脸表情识别。
8.所述人脸对齐算法利用级联回归树,从像素灰度值的稀疏子集中估计人脸关键点的位置,然后求出各个坐标之间的欧式距离和关键位置的椭圆偏心率;
9.所述lbp算法通过定义一个基本的算子,将算子作用在整张图像上,通过滑动窗口,来提取图像的纹理特征fs;
10.所述最大相关性最小冗余算法通过选择最相关的特征来减少特征的尺寸,同时删除冗余特征。
11.所述的欧式距离d(x,y)用于捕获表达情绪期间的面部活动,所述的欧式距离d(x,y)用于捕获表达情绪期间的面部活动,其中x1和y1显示第一个关键点x的坐标,并且x2和y2是第二个关键点的坐标。由于提取了68个关键点,因此计算出2278个(68
×
(68-1)/2)不同的线性特征。
12.所述的偏心率用于定义椭圆度水平,偏心率是曲线到椭圆焦点c的距离与到定直线a的距离之比。如果偏心率接近于零,则椭圆更像一个圆形。但是,如果它接近1,则椭圆的椭圆度更高。考虑到嘴巴,眼睛和眉毛的偏心率特征可能提供有关其在整个表情状态下的几何形状变化的重要信息,所以提取这5个器官的偏心率特征。
13.进一步的,lbp算法考虑图像f(x,y),并让vj表示灰度值的一个像素位置(x,y),即vj=f(x,y)。让v
p
表示灰度的采样点位于一个等间距的圆形样本点的数量(p)和半径r的像素位置(x,y)。然后灰度值v
p
,像素(x,y)的位置(x
p
,y
p
)表示为:f(x
p
,y
p
),p=0,1,2
……
,p-1;
14.图像f(x,y)的局部纹理特征t是p 1像素的灰度值的联合分布。即:t=t(vj,v0,v1,
……
,v
p-1
);在邻域中减去中心像素的灰度值,则t=t(vj,v
0-vj,v
1-vj,
……
,v
p-1-vj);联合分布的近似方法是假设中心像素在统计上与差异无关,即:t=t(vj)t(v
0-vj,v
1-vj,
……
,v
p-1-vj);其中t(vj)是f(x,y)上的强度分布,不包含任何有用的信息,故省略。因此,只考虑差异的联合分布,即:t(s(v
0-vj),s(v
1-vj),
……
,s(v
0-1-vj));其中s(3)是阈值(step)函数:lbp的通用算法基于这种联合分布。
15.所述的几何特征fa和纹理特征fs融合的步骤为:
16.首先对几何特征fa和纹理特征fs进行归一化处理,公式如下:进行归一化处理,公式如下:其中,fi表示其特征向量中的第i个数据,f
max
和f
min
分别为各自特征向量中对应的最大值和最小值,经处理后的每一个特征值在[0,1]区间内,消除了特征间量纲的影响。然后对归一化后的几何特征fa特征和纹理特征fs特征进行串联融合,得到新的特征向量f
as
=[fa,fs]。
[0017]
进一步的,所述的最大相关性最小冗余算法(mrmr)为:
[0018]
给定n个用于分类的特征,mrmr的目标是确定m个特征子集,使用特征之间的相互信息准确识别目标标签。两个给定离散随机变量a和b之间的互信息估计i(a,b)是根据其个人概率p(a),p(b)和联合概率p(ab)确定的,
[0019]
其中a是选定特征a集合中的特征,b是目标原型集b中的类标签。
[0020]
对于两个高度相互依赖的特征,删除其中任何一个都不会给特征的类判别能力带来变化。使特征变量ai与类标签b之间的依赖关系最大化:
[0021]
使成对特征ai和aj的依赖关系最小化:此约束仅用于筛选出互斥的特征。
[0022]
所述卷积神经网络将一张48
×
48的图片经过两次卷积,一次最大池化操作,再紧接着一次卷积,一次最大池化操作,最后全连接输出7
×
1的特征与经过特征选择的特征一起通过softmax激活函数将网络的估计值转换为预测类的概率分布。
[0023]
所述的将特征选择后的特征f
as
与卷积神经网络所提取的更深层的特征fd进行融合的步骤为:
[0024]
首先,对卷积神经网络所提取的更深层的特征fd和特征选择后的特征f
as
数据进行零均值标准化,如公式所示;其中,fi表示其特征向量中的第i个数据;μ是所有样本数据的均值,计算方式如下σ是标准差,用于衡量数据的离散程度,计算方式如下然后对零均值标准化后的fd特征和f
as
特征进行向量拼接,从而得到融合后的特征向量f
asd
,f
asd
=[f
as
,fd]。
[0025]
本发明在融合多种特征的情况下,利用最大相关性最小冗余(mrmr)算法,选择最相关的特征来减少特征的尺寸,同时删除冗余特征。采用卷积神经网络(cnn)在fer2013人脸表情数据集上识别7种面部表情:中立,快乐,悲伤,愤怒,恐惧,厌恶和惊讶。该方法的平均识别准确率为74.12%,对比其他主流方法,准确率有所提升,验证了所提方法的有效性。对比结果如表所示。
[0026]
表1本文方法与目前主流方法对比(fer2013)
[0027]
附图说明
[0028]
图1为本发明模型的流程示意图;
[0029]
图2为人脸68个关键点示意图;
[0030]
图3为五个面部椭圆的表示示意图;
[0031]
图4为人脸lbp特征示意图;
[0032]
图5为卷积神经网络的结构。
具体实施方式
[0033]
下面结合说明书附图对本发明的技术方案作进一步说明。
[0034]
如图1所示,一种基于特征融合的人脸表情识别方法,具体包括如下步骤:
[0035]
步骤一、进行人脸检测与对齐:检测输入图像中的人脸,人脸检测算法使用定向梯度直方图(hog)和支持向量机(svm),采用人脸对齐算法定位如图2所示68个面部关键点并对齐输入面部。
[0036]
步骤二、数据预处理:执行灰度图像到标准灰度图像的转换,即最小到最大缩放,是以表示零均值和单位方差的方式缩放图像。接下来,对图像数据进行数据增强,通过水平翻转和角度旋转。旋转包括对原始图像和水平翻转后的图像分别进行-9
°
、-6
°
、-3
°
、3
°
、6
°
、9
°
的角度旋转,以达到数据增强的效果。
[0037]
步骤三、特征提取:在提取68个关键点后,考虑两种类型的几何特征:线性特征和偏心率特征。对于线性特征(lf),通过所有地标对之间的欧氏距离d(x,y),捕获表达情绪期间的面部活动,其中x1和y1显示第一个关键点x的坐标,并且x2和y2是第二个关键点的坐标。由于提取了68个关键点,因此计算出2278个(68
×
(68-1)/2)不同的线性特征。
[0038]
偏心率用于定义椭圆度水平,偏心率是曲线到椭圆焦点c的距离与到定直线a
的距离之比。如果偏心率接近于零,则椭圆更像一个圆形。但是,如果它接近1,则椭圆的椭圆度更高。对于这项工作,考虑到嘴巴,眼睛和眉毛的偏心率特征可能提供有关其在整个表情状态下的几何形状变化的重要信息,所以我们提取这5个器官的偏心率特征,如图3所示。
[0039]
选择局部二值模式(lbp)直方图用作纹理特征。本实施例中lbp图像的如图4所示,通用lbp概述如下。考虑图像f(x,y),并让vj表示灰度值的一个像素位置(x,y)。即vj=f(x,y)。让v
p
表示灰度的采样点位于一个等间距的圆形样本点的数量(p)和半径r的像素位置(x,y)。然后灰度值v
p
,像素(x,y)的位置(x
p
,y
p
)表示为:f(x
p
,y
p
),p=0,1,2
……
,p-1;图像f(x,y)的局部纹理特征是p 1像素的灰度值的联合分布。即:t=t(vj,v0,v1,
……
,v
p-1
);在邻域中减去中心像素的灰度值,即t=t(vj,v
0-vj,v
1-vj,
……
,v
p-1-vj);联合分布的近似方法是假设中心像素在统计上与差异无关,即:t=t(vj)t(v
0-vj,v
1-vj,
……
,v
p-1-vj);其中t(vj)是f(x,y)上的强度分布,因为它不包含任何有用的信息,故省略。因此,只考虑差异的联合分布。即:t(s(v
0-vj),s(v
1-vj),
……
,s(v
p-1-vj));其中s(3)是阈值(step)函数:lbp的通用算法基于上述联合分布。
[0040]
该步骤提取了欧氏距离和偏心率的几何特征与局部二值模式的纹理特征,并将几何特征和纹理特征进行融合。特征融合的具体步骤如下:首先对几何特征fa和纹理特征fs进行归一化处理,公式如下:其中,fi表示其特征向量中的第i个数据,f
max
和f
min
分别为各自特征向量中对应的最大值和最小值,经处理后的每一个特征值在[0,1]区间内,消除了特征间量纲的影响。然后对归一化后的几何特征fa特征和纹理特征fs特征进行串联融合,得到新的特征向量f
as
=[fa,fs]。提取有效的面部特征并且考虑特征融合会对表情识别的准确率的提高有着积极的作用。
[0041]
步骤四、特征选择:采用了最大相关性最小冗余(mrmr)模型来帮助选择最相关的特征,以及最紧凑或非冗余的特征来表示人脸网格模型。给定n个用于分类的特征,mrmr的目标是确定m个特征子集,这些特征将使用它们之间的相互信息准确识别目标标签。两个给定离散随机变量a和b之间的互信息估计i(a,b)是根据其个人概率p(a),p(b)和联合概率p(ab)确定的,其中a是选定特征a集合中的特征,b是目标原型集b中的类标签。对于两个高度相互依赖的特征,删除其中任何一个都不会给特征的类判别能力带来变化。使特征变量ai与类标签b之间的依赖关系最大化:使成对特征ai和aj的依赖关系最小化:的依赖关系最小化:此约束仅用于筛选出互斥的特征。
[0042]
该步骤采用最大相关性最小冗余mrmr算法对步骤三所融合的特征f
as
进行选择,该算法通过选择最相关的特征来减少特征的尺寸,同时删除冗余特征。
[0043]
步骤五、表情分类:卷积神经网路(convolutional neural network,cnn)是一类特殊的人工神经网络(ann)模型,最初被引入到处理图像数据识别和分类中。cnn的网络结构包括输入层、卷积层、池化层和全连接层,以及包括分类器、损失函数等。本实施例中的卷
积神经网络的结构如图5所示。将一张48
×
48的图片经过两次卷积,一次最大池化操作,再紧接着一次卷积,一次最大池化操作,最后全连接输出7
×
1的特征fd与步骤四经过特征选择后的特征f
as
进行特征融合。特征融合的具体步骤如下:首先,对特征fd和特征f
as
数据进行零均值标准化,如公式所示。其中,fi表示其特征向量中的第i个数据;μ是所有样本数据的均值,计算方式如下σ是标准差,用于衡量数据的离散程度,计算方式如下然后对零均值标准化后的fd特征和f
as
特征进行向量拼接,从而得到融合后的特征向量f
asd
,如下f
asd
=[f
as
,fd]。之后,将f
asd
特征输入到softmax激活函数将网络的估计值转换为预测类的概率分布。然后,通过分类交叉熵(cce)损失函数量化分配给数据集样本的预测和基本实况标签之间的接近程度。因此,损失函数的最小化构成了网络优化框架中的主要目标。最后,在正向传递完成后,反向传播在网络上下更新网络的可学习参数,尝试完成输出预测和样本实际值的收敛,从而最小化损失函数。对于这个问题,计算每个可学习参数的损失函数的梯度,随后使用它通过任意步骤更新相应的参数,该步骤由学习速率确定。在网络训练时,初始学习率设置为0.001,batch_size设置为32,dropout设置为0.5,正则化参数为0.01。
[0044]
最后,本发明方法在fer2013人脸表情数据集上实现了74.12%的平均识别准确率。对于7种面部表情,针对中性,快乐,悲伤,愤怒,恐惧,厌恶和惊讶,最高识别准确率分别来自快乐和惊讶表情,而最低识别准确率来自悲伤和恐惧。分类结果详见表2。惊讶和快乐的较高识别性能可归因于这些表情在面部表面变形方面的强烈而独特的特征,例如在惊讶的情况下,眼睛和嘴巴的极度张开,和快乐情况下的嘴唇伸展。相比之下,悲伤和恐惧的糟糕准确率可能与他们与中性表达的高度相似性有关。
[0045]
表2在fer2013上的混淆矩阵
[0046]
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献