一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于自编码结构的半监督人脸识别方法与流程

2022-02-22 17:27:38 来源:中国专利 TAG:


1.本发明涉及人脸识别技术领域,尤其涉及一种基于自编码结构的半监督人脸识别方法。


背景技术:

2.人脸识别,是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流,并自动在图像中检测和跟踪人脸,进而对检测到的人脸进行脸部识别的一系列相关技术,通常也叫做人像识别、面部识别。
3.传统的人脸识别技术主要是基于可见光图像的人脸识别,这也是人们熟悉的识别方式,已有30多年的研发历史。但这种方式有着难以克服的缺陷,尤其在环境光照发生变化时,识别效果会急剧下降,无法满足实际系统的需要。解决光照问题的方案有三维图像人脸识别,和热成像人脸识别。但这两种技术还远不成熟,识别效果不尽人意。
4.申请号为cn201611010248.1的发明专利申请文件中提出了提供半监督子块联合回归的单样本人脸识别方法,该方法首先将人脸划分为多个子块;然后提出基于半监督的子块联合回归模型以充分利用有标签和无标签的人脸图像学习人脸图像的各种变化信息,并加入无标签人脸图像在类别标签坐标空间中距各类等距的约束以避免无标签数据影响模型的鉴别性,利用非严格的增广拉格朗日乘法求解模型以获得每个子块所对应的映射矩阵;在此基础上通过映射矩阵实现对测试图像块的回归分类;最后对所有测试图像块进行投票最终确定分类结果;但这种方法只适用于单样本的人脸识别,做不到对大量样本进行人脸识别。
5.目前存在的人脸识别方案需要进行大量的数据标注,对于一些人力缺乏的公司很难有用比较大的数据集来训练人脸识别模型,但是目前模型的泛化能力很大一部分取决于模型训练使用的数据,一般更大的数据量可以让模型学到更多的人脸隐形特征,从而提高模型的泛化能力(数据越多,模型学到的人脸特征就越多,在用人脸识别时使用更多的人脸特征如眼睛大小,眉毛深浅,通孔间距等比使用单一的特征更具备分辨能力,从而模型的识别能力更高)。


技术实现要素:

6.本发明的主要目的在于提供一种基于自编码结构的半监督人脸识别方法,旨在解决现有技术中任便识别精度低的技术问题。
7.为实现上述目的,本发明提出一种基于自编码结构的半监督人脸识别方法,其包括以下步骤:s1:导入训练样本数据,所述训练样本数据包括已标注人脸数据与未标注人脸数据;s2:构建深度神经网络;s3:使用resnet对训练样本数据进行采样,提取特征,得到embedding特征;
s4:训练整体模型架构,得到特征提取模型backbone;s5:将待识别人脸数据输入特征提取模型,提取出256维/512维的特征,判断不同待识别人脸数据提取出的256维/512维特征的cosin距离是否大于0.5,若是,则认定为同一个人;若否,则认定为不同的人。
8.优选的,所述步骤s3包括以下子步骤:s31:首先使用resnet对训练样本数据进行下采样提取特征,得到embedding特征;s32:增加有监督学习模块loss1,cnn7使用fc全连接进行有监督学习;s33:cnn4、cnn5和cnn6使用上采样,上采样的特征大小与backbone下采样的特征大小一致。
9.优选的,所述步骤s33还包括:设计loss2,loss3和loss4,用于控制生成的特征embedding能够解码到cnn6与cnn1、cnn2与cnn5、 cnn3与cnn4特征图的值一致。
10.优选的,所述loss2,loss3和loss4使用smothl1loss。
11.优选的,所述loss1使用angular-softmax loss。
12.优选的,loss4的输入为两个同样大小的特征图featuremap,输出为两个featuremap的smoothloss值,输出经过反向传递减小cnn6与cnn1、cnn2与cnn5、 cnn3与cnn4的距离,实现数据自动编码解码。
13.优选的,对于已标注的样本数据,其损失函数lossa 表达式为:lossa = λ*loss1 (1-λ)/3*loss2 (1-λ)/3*loss3 (1-λ)/3*loss4,其中,λ∈(0.5, 1);对于未标注的样本数据,其损失函数 lossb表达式为: lossb= loss2 loss3 loss4;整体损失函数loss表达式为:loss = γ*loss1a (1-γ)*lossb,其中,γ∈(0.5, 1) 。
14.本发明中,(1)采用了基本的基于交叉熵损失改进的angular-softmax loss函数,而且引入了无监督学习的自编码结构,由于无监督学习的自编码结构无需对数据进行标注,所以可以大大减少数据标注,提高输入的数据量;自编码结构对backbone上面的特征进行了学习,反向传递时提升了embedding特征的可区分性,提升了模型对于相似但不相同人脸的区分能力,该结构可以大大提升人脸识别1:n的精准度;(2)增加了有监督模块loss1,有标注的样本在使用loss1训练时可以让网络主分支(backbone)尽可能的让类内特征向量更近,类外特征向量更远,而无标注的样本在自编码时可以让主分支(backbone)得到的特征向量更接近原始数据,两者相互促进从而让提取的特征向量更具有区分能力。
附图说明
15.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
16.图1为本发明提出的神经网络训练框图;图2为本发明提出的特征图下采样后上采样结构图;图3为本发明提出的自编码结构示意图;本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
17.应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
18.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
19.目前存在的人脸识别方案需要进行大量的数据标注,对于一些人力缺乏的公司很难有用比较大的数据集来训练人脸识别模型,但是目前模型的泛化能力很大一部分取决于模型训练使用的数据,一般更大的数据量可以让模型学到更多的人脸隐形特征,从而提高模型的泛化能力(数据越多,模型学到的人脸特征就越多,在用人脸识别时使用更多的人脸特征如眼睛大小,眉毛深浅,通孔间距等比使用单一的特征更具备分辨能力,从而模型的识别能力更高)。
20.提供一种基于自编码结构的半监督人脸识别方法,用以解决现有技术中任便识别精度低的技术问题。
21.为便于理解,提出以下几种实施例。
22.实施例1:如图1所示,在本实施例中,在航空乘客人脸识别领域,提出一种基于自编码结构的半监督人脸识别方法,其包括以下步骤:s1:导入乘客训练样本数据,所述训练样本数据包括已标注乘客人脸数据与未标注乘客人脸数据;s2:构建深度神经网络;s3:使用resnet对乘客的训练样本数据进行采样,提取特征,得到embedding特征;s4:训练整体模型架构,得到特征提取模型backbone;s5:将待识别人脸数据输入特征提取模型,提取出256维/512维的特征,判断不同待识别人脸数据提取出的256维/512维特征的cosin距离是否大于0.5,若是,则认定为同一个乘客;若否,则认定为不同的乘客。
23.在本实施例中,所述步骤s3包括以下子步骤:s31:首先使用resnet对训练样本数据进行下采样提取特征,得到embedding特征,其中训练样本数据为待训练的已标注和未标注的样本数据;s32:增加有监督学习模块loss1,cnn7使用fc全连接进行有监督学习;s33:cnn4、cnn5和cnn6使用上采样,上采样的特征大小与backbone下采样的特征大小一致。
24.在本实施例中,所述步骤s33还包括:设计loss2,loss3和loss4,用于控制生成的特征embedding能够解码到cnn6与cnn1、cnn2与cnn5、 cnn3与cnn4特征图的值一致,从而保
证embedding特征能正确表达该图像的特征数据(cnn1,cnn2,cnn3为该图像的特征图数据)。
25.在本实施例中,所述loss2,loss3和loss4使用smothl1loss。
26.在本实施例中,所述loss1使用angular-softmax loss。
27.在本实施例中,如图3所示,减小cnn6与cnn1的差距,可以达到数据自动编码解码的目的。
28.loss4的输入就是两个同样大小的特征图featuremap, 输出就是两个featuremap的smoothloss值,输出经过反向传递减小cnn6与cnn1的差距,可以达到数据自动编码解码的目的,该种学习方式为无监督学习, cnn2与cnn5, cnn3与cnn4原理一样。
29.在本实施例中,对于已标注的样本数据,其损失函数lossa 表达式为:lossa = λ*loss1 (1-λ)/3*loss2 (1-λ)/3*loss3 (1-λ)/3*loss4,其中,λ∈(0.5, 1);对于未标注的样本数据,其损失函数 lossb表达式为: lossb= loss2 loss3 loss4;整体损失函数loss表达式为:loss = γ*loss1a (1-γ)*lossb,其中,γ∈(0.5, 1) ;其中,loss2、loss3、loss4就是无监督学习,自编码结构用的loss。
30.具体的,一般已标注数据和未标注数据可以设置为1:1,在这里,我们将已标注数据和未标注数据可以设置为1:1,当增加未标注数据时可以适当增大λ和γ的值用于训练中的平衡。
31.实施例2:在本实施例中,在考场考生人脸识别领域,提出一种基于自编码结构的半监督人脸识别方法,其包括以下步骤:s1:导入考生训练样本数据,所述训练样本数据包括已标注考生人脸数据与未标注考生人脸数据;s2:构建深度神经网络;s3:使用resnet对考生的训练样本数据进行采样,提取特征,得到embedding特征;s4:训练整体模型架构,得到特征提取模型backbone;s5:将待识别人脸数据输入特征提取模型,提取出256维/512维的特征,判断不同待识别人脸数据提取出的256维/512维特征的cosin距离是否大于0.5,若是,则认定为同一个考生;若否,则认定为不同的考生。
32.在本实施例中,所述步骤s3包括以下子步骤:s31:首先使用resnet对训练样本数据进行下采样提取特征,得到embedding特征,其中训练样本数据为待训练的已标注和未标注的样本数据;s32:增加有监督学习模块loss1,cnn7使用fc全连接进行有监督学习;s33:cnn4、cnn5和cnn6使用上采样,上采样的特征大小与backbone下采样的特征大小一致。
33.在本实施例中,所述步骤s33还包括:设计loss2,loss3和loss4,用于控制生成的特征embedding能够解码到cnn6与cnn1、cnn2与cnn5、 cnn3与cnn4特征图的值一致,从而保
证embedding特征能正确表达该图像的特征数据(cnn1,cnn2,cnn3为该图像的特征图数据)。
34.在本实施例中,所述loss2,loss3和loss4使用smothl1loss。
35.在本实施例中,所述loss1使用angular-softmax loss。
36.在本实施例中,如图3所示,减小cnn6与cnn1的差距,可以达到数据自动编码解码的目的。
37.loss4的输入就是两个同样大小的特征图featuremap, 输出就是两个featuremap的smoothloss值,输出经过反向传递减小cnn6与cnn1的差距,可以达到数据自动编码解码的目的,该种学习方式为无监督学习, cnn2与cnn5, cnn3与cnn4原理一样。
38.在本实施例中,对于已标注的样本数据,其损失函数lossa 表达式为:lossa = λ*loss1 (1-λ)/3*loss2 (1-λ)/3*loss3 (1-λ)/3*loss4,其中,λ∈(0.5, 1);对于未标注的样本数据,其损失函数 lossb表达式为: lossb= loss2 loss3 loss4;整体损失函数loss表达式为:loss = γ*loss1a (1-γ)*lossb,其中,γ∈(0.5, 1) ;其中,loss2、loss3、loss4就是无监督学习,自编码结构用的loss。
39.具体的,在这里,我们将已标注数据和未标注数据可以设置为1:2,当增加未标注数据时可以适当增大λ和γ的值用于训练中的平衡。
40.需要补充的是,本方案采用了基本的基于交叉熵损失改进的angular-softmax loss函数,而且引入了无监督学习的自编码结构,由于无监督学习的自编码结构无需对数据进行标注,所以可以大大减少数据标注,提高输入的数据量。同时由于自编码结构对backbone上面的特征进行了学习,反向传递时提升了embedding特征的可区分性,提升了模型对于相似但不相同人脸的区分能力,该结构可以大大提升人脸识别1:n的精准度。
41.angular-softmax loss函数:一种设计更加优秀的loss,来使得intra-class更加compact,inter-class更加separable,从而提升识别精度。
42.自编码结构:模型增加自编码结构,自编码结构在训练时无需标注样本x的类别信息,自编码结构根据输入x,对输入进行压缩,得到压缩后的特征向量(embedding),即原数据的精髓。
43.如果该部分用在人脸识别模型中,那么该特征向量就能代替人脸的特征提取结果,但是为了让模型对同一个人脸得到的特征向量cos距离更近,不同人脸的cos距离更远,我们增加了有监督模块loss1。我们有标注的样本在使用loss1训练时可以让网络主分支(backbone)尽可能的让类内特征向量更近,类外特征向量更远,而无标注的样本在自编码时可以让主分支(backbone)得到的特征向量更接近原始数据,两者相互促进从而让提取的特征向量更具有区分能力。
44.本技术中引入自编码的半监督而不是全监督的原因在于,通过已标注的人脸数据来让同一个人脸的编码距离更近,通过未标注的人脸来增加人脸编码的距离,这样能达到类内编码距离更近,类间编码距离更远的目的,这样同一个人脸就更容易识别,不同的人脸更容易区分。
45.以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献