一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

红外与光学图像融合的人脸表情识别方法及装置与流程

2022-02-21 04:26:57 来源:中国专利 TAG:


1.本发明涉及图像处理及计算机视觉处理领域,具体涉及一种红外与光学图像融合的人脸表情识别方法及装置。


背景技术:

2.人脸表情识别是计算机视觉、模式识别领域的研究热点。但现有的表情识别方法往往存在泛化能力不足、识别率不高等问题,其主要原因是:现有的表情识别方法获取的是单个光学镜头采集到的图像信息,当人脸处于复杂环境下时,容易受到光照背景等与表情识别无关的非重要因素的影响,降低识别精确度。
3.因此,本领域需要一种新的人脸表情识别方法来解决上述问题。


技术实现要素:

4.本发明的目的在于提供一种红外与光学图像融合的人脸表情识别方法及装置,利用包含红外图像和光学图像的人脸阵列图像组,并进行特征图像的融合,再利用融合图像生成测试视频,对视频中的人脸表情进行识别,据此提高人脸表情识别的准确度。
5.为了实现上述目的,本发明采用如下技术方案:
6.一种红外与光学图像融合的人脸表情识别方法,所述方法包括:
7.获取待测目标的人脸阵列图像组,所述人脸阵列图像组包括多个人脸阵列图像,所述人脸阵列图像包括红外图像及其对应的光学图像;
8.基于预先构建的图像融合模型将所述人脸阵列图像进行双尺度分解获取背景特征图和细节特征图并将所述背景特征图和细节特征图进行融合得到融合图像;
9.将多个所述融合图像生成测试视频;
10.基于预先构建的人脸表情识别模型并且根据多个预设的表情标签、所述测试视频预测所述待测目标的人脸表情;
11.其中,所述图像融合模型是基于预设的图像样本并且利用机器学习算法构件的生成对抗神经网络;所述人脸表情识别模型是基于预设的人脸样本、所述表情标签并且利用机器学习算法构建的卷积神经网络。
12.在一实施例中,所述图像融合模型包括生成器和双鉴别器,所述生成器包括编码器和解码器,所述双鉴别器包括红外鉴别器和光学鉴别器;
13.在“基于预先构建的图像融合模型将所述人脸阵列图像进行双尺度分解获取背景特征图和细节特征图并将所述背景特征图和细节特征图进行融合得到融合图像”的步骤之前,所述方法还包括:
14.将人脸阵列图像输入所述编码器,所述编码器对所述人脸阵列图像进行双尺度分解获取光学图像与红外图像的背景特征图和细节特征图,基于所述解码器将所述背景特征图和细节特征图进行融合获取融合图像;
15.将红外图像和所述融合图像输入所述红外鉴别器以对所述融合图像进行真假鉴
别;
16.将光学图像和所述融合图像输入所述光学鉴别器以对所述融合图像进行真假鉴别;
17.利用红外鉴别器和光学鉴别器的鉴别结果计算所述图像融合模型的损失函数,并且根据所述损失函数更新所述图像融合模型的网络参数,对更新后的图像融合模型重新进行网络训练,直至满足预设的收敛条件。
18.在一实施例中所述损失函数包括生成器损失函数和鉴别器损失函数;所述生成器损失函数和鉴别器损失函数如下式所示:
[0019][0020]
其中,lg表示生成器的损失,lb表示编码器进行双尺度分解的损失,表示生成器的对抗损失,l
con
表示解码器的损失,ld表示双鉴别器的损失,l
dv
表示光学鉴别器的损失,l
di
表示红外鉴别器的损失,λ表示预设的网络系数。
[0021]
在一实施例中,所述lb如下式所示:
[0022][0023]
其中,φ表示tanh(
·
)函数且φ∈[-1,1],表示矩阵的2范数的平方,bv表示光学图像的背景特征图,bi表示红外图像的背景特征图,dv表示光学图像的细节特征图,di表示红外图像的细节特征图,预设的网络系数。
[0024]
在一实施例中,所述如下式所示:
[0025][0026]
其中,e表示数学期望,di(f)表示将融合图像输入红外鉴别器中生成的标量,dv(f)表示将融合图像输入光学鉴别器中生成的标量,f表示融合图像,β表示预设的网络系数。
[0027]
在一实施例中,所述l
con
如下式所示:
[0028][0029]
其中,表示融合图像中的背景损失,表示融合图像中的细节损失,||
·
||f表示矩阵的frobenius范数,表示梯度算子,ξ1、ξ2分别为预设的常数,bf表示融合图像中的背景特征,df表示融合图像中的细节特征。
[0030]
在一实施例中,所述l
dv
如下式所示:
[0031][0032]
其中,f表示融合图像,dv(v)表示将光学图像输入光学鉴别器中生成的标量,di(i)表示将红外图像输入红外鉴别器中生成的标量,i表示红外图像,v表示光学图像。
[0033]
在一实施例中,所述人脸表情识别模型包括vgg19、resnet18以及由全连接层、sofimax函数组成的both网络层;
[0034]
在“基于预先构建的人脸表情识别模型并且根据多个预设的表情标签、所述测试视频预测所述待测目标的人脸表情”的步骤之前,所述方法还包括:
[0035]
基于预设的人脸分割网络获取人脸感兴趣区域数据集;
[0036]
将所述人脸感兴趣区域数据集分别输入所述vgg19和resnet18以获取特征η1和特征η2;
[0037]
将所述特征η1和特征η2进行串行连接获取特征η3,将所述特征η3和预设的表情标签输入所述both网络层获取表情识别结果;
[0038]
利用表情识别结果计算所述人脸表情识别模型的损失函数,并且根据所述损失函数更新所述人脸表情识别模型的网络参数,对更新后的人脸表情识别模型重新进行网络训练,直至满足预设的收敛条件;
[0039]
其中,所述损失函数如下式所示:
[0040][0041]
其中,ls表示人脸表情识别模型的损失,l1表示vgg19的交叉熵损失,l2表示resnet18的交叉熵损失,l3表示both网络层的交叉熵损失,分别为预设的平衡系数;
[0042]
交叉熵损失如下式所示:
[0043][0044]
其中,m表示人脸感兴趣区域数据集中样本的种类,n表示人脸感兴趣区域数据集中样本的个数,yj表示第j类的真实标签,pj表示样本y属于第j类的概率;
[0045][0046]
其中,z为both网络层的输出值,表示η1、η2进行串行连接,表示softmax函数。
[0047]
本发明还提供一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的红外与光学图像融合的人脸表情识别方法。
[0048]
本发明还提供一种控制装置,包括:处理器,适于执行各条程序;存储设备,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的红外与光学图像融合的人脸表情识别方法。
[0049]
本发明的优点在于:
[0050]
本发明提供的红外与光学图像融合的人脸表情识别方法及装置,利用包含红外图像和光学图像的人脸阵列图像组,并进行特征图像的融合,再利用融合图像生成测试视频,生成的测试视频既包含红外图像丰富的热辐射信息及亮度信息,又包含了光学图像丰富的纹理信息,降低了光照背景对表情识别的影响,解决了人脸识别模型在复杂环境下识别精度不高的问题,提高了表情识别的准确性。
[0051]
进一步地,人脸表情识别模型通过vgg19和resnet18两个基分类器,提取不同特征的信息,同时,采用联合微调的方法融合两个基分类器,提高了人脸表情识别的准确度。
[0052]
进一步地,人脸表情识别模型是基于深度可分离卷积的人脸表情识别,实现模型的轻量化。
附图说明
[0053]
图1是本发明的一种红外与光学图像融合的人脸表情识别方法的主要步骤示意图;
[0054]
图2是本发明的生成器的网络结构示意图;
[0055]
图3是本发明的红外鉴别器的网络结构示意图;
[0056]
图4是本发明的图像融合模型的网络训练步骤示意图;
[0057]
图5是本发明的人脸表情识别模型的网络结构示意图;
[0058]
图6是本发明的人脸表情识别模型的网络训练步骤示意图。
具体实施方式
[0059]
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
[0060]
本发明利用包含红外图像及其对应的光学图像的人脸阵列图像组进行红外与光学图像特征融合,通过融合后的图像生成视频,生成的视频既保留了红外图像的热辐射及亮度信息,又保留了光学图像的纹理信息,再对生成的视频进行人脸表情识别,这样可以减少外部光照等非重要因素产生的影响,有利于提高人脸表情识别的精确度。下面结合附图和具体实施例对本发明进行详细描述。
[0061]
参阅附图1,图1示例性示出了一种红外与光学图像融合的人脸表情识别方法的主要步骤。如图1所示,本发明提供的红外与光学图像融合的人脸表情识别方法包括:
[0062]
步骤s1:获取待测目标的人脸阵列图像组,人脸阵列图像组包括多个人脸阵列图像,人脸阵列图像包括红外图像及其对应的光学图像。
[0063]
具体地,该人脸阵列图像组可以由阵列摄像头采集,阵列摄像头包括红外镜头组和光学镜头组。例如,该阵列镜头由四个镜头模组按照2*2阵列形式排列组合而成,即包括2个红外镜头和2个光学镜头;利用阵列红外与光学镜头分别获得阵列红外图像和光学图像,即人脸阵列图像包括两个红外图像和两个光学图像,基于人脸阵列图像构成人脸阵列图像组。
[0064]
步骤s2:基于预先构建的图像融合模型将人脸阵列图像进行双尺度分解获取背景特征图和细节特征图并将背景特征图和细节特征图进行融合得到融合图像。
[0065]
具体地,图像融合模型是基于预设的图像样本并且利用机器学习算法构件的生成对抗神经网络。图像融合模型包括生成器和双鉴别器,生成器包括编码器和解码器,双鉴别器包括红外鉴别器和光学鉴别器。本实施例中的红外与光学图像融合的方法是基于双尺度分解的双鉴别器的红外与光学图像融合方法。通过双尺度分解可以将输入图像分解为包含具有像素强度变化大的低频信息的背景特征图和具有像素强度变化小的高频信息的细节特征图,得到含有不同区域的信息。此方法在具有不同信息的区域上进行融合,可以最大限度地保留红外与光学图像的优势,克服现有融合方法不能针对性地提取不同区域特有信息的缺点。
[0066]
在图像融合模型训练过程中,图像融合模型通过编码器执行图像的双尺度分解,将输入图像分为具有低频与高频信息的背景特征图与细节特征图,通过设置不同的背景与细节内容损失函数,分别将具有不同信息的背景与细节区域进行融合,通过解码器网络生
成最终的融合图像。生成器的网络结构如图2所示。
[0067]
双鉴别器在训练过程中,是将红外图像与光学图像也分别输入双鉴别器,通过设置不同的损失函数,使得融合后的图像具有较丰富的红外的热辐射信息以及对比度信息,同时具有光学图像的纹理与梯度信息,视觉效果更好。红外鉴别器的网络结构如图3所示,需要说明的是,光学鉴别器和红外鉴别器的网络结构相同。
[0068]
参阅附图4,图4示例性示出了图像融合模型的网络训练步骤。如图4所示,图像融合模型的网络训练步骤包括:
[0069]
步骤s21:将人脸阵列图像输入编码器,编码器对人脸阵列图像进行双尺度分解获取光学图像与红外图像的背景特征图和细节特征图,基于解码器将背景特征图和细节特征图进行融合获取融合图像;
[0070]
步骤s22:将红外图像和融合图像输入红外鉴别器以对融合图像进行真假鉴别;
[0071]
步骤s23:将光学图像和所述融合图像输入光学鉴别器以对融合图像进行真假鉴别;
[0072]
步骤24:利用红外鉴别器和光学鉴别器的鉴别结果计算图像融合模型的损失函数,并且根据损失函数更新图像融合模型的网络参数,对更新后的图像融合模型重新进行网络训练,直至满足预设的收敛条件。
[0073]
其中,图像融合模型的损失函数包括生成器损失函数和鉴别器损失函数。生成器损失函数和鉴别器损失函数如公式(1)所示:
[0074][0075]
其中,lg表示生成器的损失,lb表示编码器进行双尺度分解的损失,表示生成器的对抗损失,l
con
表示解码器的损失,ld表示双鉴别器的损失,l
dv
表示光学鉴别器的损失,l
di
表示红外鉴别器的损失,λ表示预设的网络系数。
[0076]
l1如公式(2)所示:
[0077][0078]
其中,φ表示tanh(
·
)函数且φ∈[-1,1],表示矩阵的2范数的平方,bv表示光学图像的背景特征图,bi表示红外图像的背景特征图,dv表示光学图像的细节特征图,di表示红外图像的细节特征图,预设的网络系数。
[0079]
如公式(3)所示:
[0080][0081]
其中,e表示数学期望,di(f)表示将融合图像输入红外鉴别器中生成的标量,dv(f)表示将融合图像输入光学鉴别器中生成的标量,f表示融合图像,β表示预设的网络系数。生成器是使用交叉熵损失来充当对抗损失。
[0082]
l
con
如公式(4)所示:
[0083][0084]
其中,表示融合图像中的背景损失,表示融合图像中的细节损失,||
·
||f表示矩阵的frobenius范数,表示梯度算子,ξ1、ξ2分别为预设的常数,bf表示融合图像中的背景特征,df表示融合图像中的细节特征。其中中的用于在融合图像的背景特征bf中保留红外图像的背景特征bi的对比度信息,用于保留光学图像中背景特征bv的纹理细节。ξ1用于平衡中用于在融合图像的细节特征df中保留光学图像的细节特征dv中的纹理信息,用于保留红外图像细节区域di的亮度及对比度信息,ξ2用于平衡用于平衡β、均为调节参数。
[0085]
l
dv
如公式(5)所示:
[0086][0087]
其中,f表示融合图像,dv(v)表示将光学图像输入光学鉴别器中生成的标量,di(i)表示将红外图像输入红外鉴别器中生成的标量,i表示红外图像,v表示光学图像。
[0088]
利用训练好的图像融合模型将输入的人脸阵列图像组中的每一张人脸阵列图像生成对应的融合图像。
[0089]
步骤s3:将多个融合图像生成测试视频。具体地,将人脸阵列图像组对应的多个融合图像组成测试视频。该测试视频包含了红外热辐射及亮度信息与可见光纹理信息。
[0090]
步骤s4:基于预先构建的人脸表情识别模型并且根据多个预设的表情标签、测试视频预测待测目标的人脸表情。
[0091]
具体地,是将测试视频输入训练好的人脸表情识别模型预测待测目标的人脸表情。该人脸表情识别模型是基于预设的人脸样本、表情标签并且利用机器学习算法构建的卷积神经网络。参阅附图5,图5为人脸表情识别模型的网络结构示意图。人脸表情识别模型包括vgg19、resnet18以及由全连接层、softmax函数组成的both网络层。脸表情识别模型是基于深度可分离卷积的人脸表情识别方法进行表情识别。利是用联合微调的方式整合vgg19、resnet18两个基分类器提取不同特征信息,利用both网络层输出表情预测结果。进一步地,人脸表情识别模型训练过程是利用联合微调的方式整合vgg19和resnet18两个基分类器,将两个基分类器提取的特征η1、η2重新构建成特征η3;最后输入到both网络进行再训练分类。
[0092]
参阅附图6,图6示例性示出了人脸表情识别模型的网络训练步骤。如图6所示,人脸表情识别模型的训练步骤包括:
[0093]
步骤s41:基于预设的人脸分割网络获取人脸感兴趣区域数据集。具体地,利用实例生成mask训练得到人脸分割网络,获得人脸感兴趣区域数据集;人脸分割网络是一个基
于u-net语义分割算法的网络,是一个端到端的u型全卷积网络结构,该网络用卷积层代替全连接层,使结构分为编码器、解码器两部分。人脸分割网络的目的是提取出人脸图像中与表情识别最相关的感兴趣区域,减少非重要因素影响,提高识别精度。
[0094]
步骤s42:将人脸感兴趣区域数据集分别输入vgg19和resnet18以获取特征η1和特征η2。具体地,是采用深度可分离卷积训练两个vgg19和resnet18基分类器。
[0095]
步骤s43:将特征η1和特征η2进行串行连接获取特征η3,将特征η3和预设的表情标签输入both网络层获取表情识别结果。具体地,人脸表情标签包括七类,分别为:愤怒、厌恶、恐惧、高兴、悲伤、惊讶、中性。
[0096]
步骤s44,利用表情识别结果计算人脸表情识别模型的损失函数,并且根据损失函数更新人脸表情识别模型的网络参数,对更新后的人脸表情识别模型重新进行网络训练,直至满足预设的收敛条件。
[0097]
其中,人脸表情识别模型的损失函数如公式(6)所示:
[0098][0099]
其中,ls表示人脸表情识别模型的损失,l1表示vgg19的交叉熵损失,l2表示resnet18的交叉熵损失,l3表示both网络层的交叉熵损失,分别为预设的平衡系数;本实施例中
[0100]
交叉熵损失如下式所示:
[0101][0102]
其中,m表示人脸感兴趣区域数据集中样本的种类,n表示人脸感兴趣区域数据集中样本的个数,yj表示第j类的真实标签,pj表示样本y属于第j类的概率;
[0103][0104]
其中,z为both网络层的输出值,表示η1、η2进行串行连接,表示softmax函数。
[0105]
进一步地,本发明实施例还提供一种存储装置,其中存储有多条程序,该程序适于由处理器加载并执行以实现上述的红外与光学图像融合的人脸表情识别方法。
[0106]
进一步地,本发明实施例还提供一种控制装置,包括:处理器,适于执行各条程序;存储设备,适于存储多条程序;该程序适于由处理器加载并执行以实现上述的红外与光学图像融合的人脸表情识别方法。
[0107]
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0108]
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
[0109]
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域
技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献