人脸选优模型的训练方法、装置和计算机可读介质与流程

2021-11-24 21:59:00 来源：中国专利 TAG：

1.本发明主要涉及人工智能领域，尤其涉及一种人脸选优模型的训练方法、装置和计算机可读介质。

背景技术：

2.随着人工智能技术的发展，其在计算机视觉领域的应用越发成熟。尤其在安防领域需求的不断增多。人脸识别已经成为了安防场景中的非常重要的需求之一。
3.目前，在安防场景下进行人脸识别相比其他场景有更大的挑战，安防场景下的人脸非常小，由于获取图像时人处于自由运动场景，所以存在复杂的人脸姿态和表情，以及安防场景可能存在复杂的光照，遮挡等问题，这些问题会极大的影响人脸识别的效果，导致无法识别人脸或者识别错误。所以在此基础上引入了人脸选优。在一些应用场景，例如安防场景下，人脸选优模型可用于筛选送入识别网络人脸的质量，避免一些姿态过大，遮挡严重，以及一些光照和图像质量较低的人脸送进识别网络导致识别错误，从而造成识别精度的低下。

技术实现要素：

4.本发明要解决的技术问题是提供一种人脸选优模型的训练方法、装置和计算机可读介质，实现对人脸选优模型对人脸图像的适应性筛选，提高后续的人脸识别网络的识别精确度。
5.为解决上述技术问题，本发明提供了一种人脸选优模型的训练方法，包括以下步骤：获取人脸图像数据库和人脸特征图数据库，并选取人脸图像数据库中的人脸图像输入人脸识别模型；获取所述人脸识别模型的输出量与所述人脸特征图数据库进行匹配的结果；根据所述匹配的结果确定所述人脸选优模型的训练数据；基于所述训练数据对所述人脸选优模型进行训练。
6.在本发明的一实施例中，所述人脸识别模型的输出量与所述人脸特征图数据库进行匹配的结果包括，所述人脸图像的id是否匹配正确和所述人脸图像的匹配度是否达到或大于设定阈值。
7.在本发明的一实施例中，根据所述匹配的结果确定所述人脸选优模型的训练数据包括：
8.将所述人脸图像的id匹配正确且所述人脸图像的匹配度达到或大于设定阈值的人脸图像作为正例训练数据；
9.将所述人脸图像的id匹配正确但所述人脸图像的匹配度未达到设定阈值的人脸图像作为负例训练数据；
10.将所述人脸图像的id匹配错误且所述人脸图像的匹配度达到或大于设定阈值的人脸图像作为负例训练数据；
11.将所述人脸图像的id匹配错误但所述人脸图像的匹配度未达到设定阈值的人脸
图像作为负例训练数据。
12.在本发明的一实施例中，基于所述训练数据对所述人脸选优模型进行训练包括：基于正例训练数据和负例训练数据对所述人脸选优模型进行训练。
13.在本发明的一实施例中，所述人脸图像的id匹配的过程包括：基于所述人脸特征图数据库，将输入的所述人脸图像与所述人脸特征图数据库中的图像进行匹配；获得所述人脸特征图数据库中的图像与输入的所述人脸图像的匹配度最高的人脸图像；检测所述匹配度最高的人脸图像的id与输入的所述人脸图像的id是否相同。
14.在本发明的一实施例中，所述匹配度的数值通过匹配算法得出。
15.在本发明的一实施例中，还包括，通过对称交叉熵方式确定所述人脸选优模型的损失函数，并基于所述损失函数对所述人脸选优模型进行优化。
16.在本发明的一实施例中，所述损失函数包括对称交叉熵
17.ι
sce
＝αι
ce
βι
rce
18.其中，交叉熵相反交叉熵α和β为超参数，p为预测值，q为标签值。k为训练数据的批量数。
19.在本发明的一实施例中，所述人脸选优模型包括卷积神经网络。
20.本发明还提供一种人脸选优模型的训练装置，包括：存储器，用于存储可由处理器执行的指令；以及处理器，用于执行所述指令以实现如前任一项所述的方法。
21.本发明还提供一种存储有计算机程序代码的计算机可读介质，所述计算机程序代码在由处理器执行时实现如前任一项所述的方法。
22.与现有技术相比，本发明具有以下优点：本发明的人脸选优模型的训练方法使得在人脸选优模块下不仅能泛化出人脸姿态，光照，遮挡等信息，而且可以过滤掉那些人脸质量很好但识别网络识别不出的图片，从而能够直接提升人脸识别的精确度，并且让识别网络具有良好的适应性。
附图说明
23.包括附图是为提供对本技术进一步的理解，它们被收录并构成本技术的一部分，附图示出了本技术的实施例，并与本说明书一起起到解释本技术原理的作用。附图中：
24.图1是本技术一实施例的人脸选优模型的训练方法的流程图。
25.图2是本技术一实施例的人脸选优模型的训练过程示意图。
26.图3是人脸识别的整体流程示意图。
27.图4是本技术一实施例示出的人脸选优模型的训练装置的示意图。
具体实施方式
28.为了更清楚地说明本技术的实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本技术的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本技术应用于其他类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。
29.此外，需要说明的是，使用“第一”、“第二”等词语来限定零部件或组件，仅仅是为
了便于对相应零部件或组件进行区别，如没有另行声明，上述词语并没有特殊含义，因此不能理解为对本技术保护范围的限制。此外，尽管本技术中所使用的术语是从公知公用的术语中选择的，但是本技术说明书中所提及的一些术语可能是申请人按他或她的判断来选择的，其详细含义在本文的描述的相关部分中说明。此外，要求不仅仅通过所使用的实际术语，而是还要通过每个术语所蕴含的意义来理解本技术。
30.本技术中使用了流程图用来说明根据本技术的实施例的系统所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各种步骤。同时，或将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。
31.本技术的实施例描述一种人脸选优模型的训练方法、装置和计算机可读介质。
32.如前叙述，人脸选优可用于筛选送入识别网络人脸的质量，避免一些姿态过大，遮挡严重，以及一些光照和图像质量较低的人脸送进识别网络导致识别错误，从而造成识别精度的低下。
33.除了上述的例如安防场景带来的图像的复杂性以外，还有算法本身带来的局限性。具体地，由于目前神经网络的可解释性不高，在理论上无法有一个明确的推导过程或者求解得到一个解析解。所以有一些神经网络的行为(例如输出的结果)是很难解释的，其中就包括人脸识别网络中会存在某些送进网络的人脸的姿态，光照，遮挡，图像质量等都是标准的(例如都是正面且无遮挡的人脸图像)，但是人脸识别网络并没有准确的识别出来，这其中存在算法网络设计导致无法泛化的原因，但是受限于本地设备的算力的原因，又无法将神经网络设计的过大。
34.然而，在一些人脸选优网络中仅能筛选出人脸姿态，光照以及图像质量相对较好的图片，故对于上述问题无法很好的解决。但是在安防场景中的人脸识别任务相当一部分的挑战就是算法内部带来的。所以这是一个安防场景下人脸识别亟待解决的问题。本技术技术方案通过对人脸选优模型(或称为人脸选优网络)的训练与优化来解决前述的问题。
35.图1是本技术一实施例的人脸选优模型的训练方法的流程图。
36.如图1所示，人脸选优模型的训练方法包括步骤101，获取人脸图像数据库和人脸特征图数据库，并选取人脸图像数据库中的人脸图像输入人脸识别模型。步骤102，获取所述人脸识别模型的输出量与所述人脸特征图数据库进行匹配的结果。步骤103，根据所述匹配的结果确定所述人脸选优模型的训练数据。步骤104，基于所述训练数据对所述人脸选优模型进行训练。
37.图2是本技术一实施例的人脸选优模型的训练过程示意图。
38.参考图2，在步骤101，获取人脸图像数据库和人脸特征图数据库，并选取人脸图像数据库中的人脸图像输入人脸识别模型203。图2中的201即为输入的人脸图像数据。在一些实施例中，将人脸图像数据库中的人脸图像输入人脸识别模型，得到该人脸图像对应的人脸特征图。人脸特征图包括表征该人脸图像的特征参数。人脸特征图的数据例如以矩阵的形式存储，数据经可视化转换以后，可形成人脸特征图的可视化结果。
39.在一些实施例中，人脸图像数据库中的人脸图像具有相应的id，人脸特征数据库中的人脸图像亦具有相应的id。人脸图像数据库例如是也可用于人脸识别模型(或称为人脸识别网络)的训练数据集。
40.在步骤102，获取所述人脸识别模型的输出量与所述人脸特征图数据库进行匹配
的结果。
41.在一些实施例中，人脸识别模型的输出量与人脸特征图数据库进行匹配计算得到计算结果包括，所述人脸图像的id是否匹配正确和所述人脸图像的匹配度是否达到或大于设定阈值。
42.在一些实施例中，匹配度的数值例如通过匹配算法得出。
43.在步骤103，根据所述匹配的结果确定所述人脸选优模型的训练数据。
44.在一些实施例中，根据所述匹配的结果确定所述人脸选优模型的训练数据包括：将所述人脸图像的id匹配正确且所述人脸图像的匹配度达到或大于设定阈值的人脸图像作为正例训练数据212；将所述人脸图像的id匹配正确但所述人脸图像的匹配度未达到设定阈值的人脸图像作为负例训练数据214；将所述人脸图像的id匹配错误且所述人脸图像的匹配度达到或大于设定阈值的人脸图像作为负例训练数据216；将所述人脸图像的id匹配错误但所述人脸图像的匹配度未达到设定阈值的人脸图像作为负例训练数据218。
45.在步骤104，基于所述训练数据对所述人脸选优模型进行训练。
46.继续参考图2，在一些实施例中，基于所述训练数据对所述人脸选优模型进行训练包括：基于正例训练数据311和负例训练数据312，形成人脸选优模型的训练数据221，输入人脸选优模型208，对所述人脸选优模型进行训练。
47.在一些实施例中，所述人脸图像的id匹配的过程包括：步骤231，基于所述人脸特征图数据库，将输入的所述人脸图像与所述人脸特征图数据库中的图像进行匹配；步骤232，获得所述人脸特征图数据库中的图像与输入的所述人脸图像的匹配度最高的人脸图像；步骤233，检测所述匹配度最高的人脸图像的id与输入的所述人脸图像的id是否相同。
48.在一些实施例中，人脸特征图数据库可包括人脸图像的特征参数，具体例如通过人脸检测算法、人脸跟踪算法、人脸特征点检测算法等方式得到。特征参数例如通过向量的形式表征。
49.如前述，人脸图像的匹配度的数值例如通过匹配算法得出。匹配算法例如包括特征值向量之间欧式距离或余弦距离等。该设定阈值可为根据实际需要设置的数值参数。
50.图3是人脸识别的整体流程示意图。人脸选优模块303是在人脸识别模块308前进行人脸图像筛选。
51.参考图3，人脸识别的整体流程例如还包括人脸图像数据输入模块332、人脸检测模块334、人脸追踪模块336、人脸截取模块338。人脸检测模块334、人脸追踪模块336和人脸截取模块338例如统属于人脸图像数据处理模块341。
52.本技术的人脸选优模型的训练方法(也可称为基于知识蒸馏的人脸选优方法)，与现有的人脸选优方案使用固定的先验策略(例如通过人工的视觉判断后筛选)不同，本技术的技术方案基于人脸识别模型的先验进行人脸选优模型后验估计。具体来说，传统的人脸选优算法就是选出那些人认为(或者说人的视觉观察认为的)人脸姿态位于正面，图像质量清晰，没有遮挡，光照标准的图像。人的先验认为我们选出的标准的人脸是识别模型能识别出的。但实际上由于神经网络的黑盒属性，导致有很多标准人脸在人脸识别网络无法识别的情况。而本技术的人脸选优模型的训练方法(或称为基于知识蒸馏的人脸选优)则可以很好的解决前述的技术问题，实现提高人脸识别网络的识别率的技术效果。
53.具体地，本方法申请的人脸选优模型的训练方法，使人脸选优模型可以过滤掉图
像质量较低的人脸图像，而且可以过滤掉基于先验(即人的先验)认为图像质量较好的人脸，但是人脸识别网络无法识别的图片。实现针对后续的人脸识别网络的专门筛选，从而大大提升人脸识别任务的适应性以及识别精确度。本方法还大大减少了人脸选优模型研发的经济和时间成本，无需重新构建人脸训练数据集以及重新设计网络结构，而仅需用已有的训练数据集(例如人脸识别模型的训练数据集)即可实现对人脸选优模型的训练，进而实现人脸识别网络的识别精确度的提升。
54.此外，本方法还极大的提高处理效率，首先基于本方法的选优处理图片速度极快，占用非常少的算力即可筛选出契合后续人脸识别网络的人脸图片，大大减少了人脸识别网络无实用意义的人脸识别训练次数。
55.基于人的先验知识(具体通过人的视觉判断)认为人脸姿态如果是正脸，且光照良好、没有模糊区域，就是正例，反之则为负例。而本技术的技术方案，得到的人脸选优模型的训练数据并非如此，具体的，在正例训练数据中也有可能存在一些人脸是侧脸，或者也存在一些人脸的光照过强等问题，而负例训练数据中存在一些人脸姿态朝向正面并且光照等条件良好的人脸图像。这种情况下，不同类别的训练数据之间存在一定的交叉。
56.故在本技术一些实施例中，为使人脸选优模型训练的决策边界更为清晰，人脸选优模型的训练方法还包括，通过对称交叉熵(symmetric cross entropy，sce)方式确定所述人脸选优模型的损失函数，并基于所述损失函数对所述人脸选优模型进行优化。
57.在一些实施例中，损失函数包括对称交叉熵
58.ι
sce
＝αι
ce
βι
rce
59.其中，交叉熵相反交叉熵α和β为超参数，p为预测值，q为标签值。k为人脸选优模型的训练数据的批量数，k为计数标记。ε是权重调节参数。
60.p为预测值，具体可指一个概率值(例如取0到1之间的数值)，具体可指人脸选优模型的训练数据中，正例训练数据和负例训练数据的占比。q为标签值，具体到正例或负例用标签值表征，例如通过独热(one
‑
hot)编码方式表示
‘
10’为正例，
‘
01’为负例，该编码结合对应的正例负例占比的数值，即可得到q的值。ε是权重调节参数，可用于平衡logq的权重而不让其占权重过大，ε例如取0.0001。对于q，可设置一个很小的大于零值为其下限，让q取不到0，以避免logq取到负无穷值。
61.在一些实施例中，人脸选优模型包括卷积神经网络。卷积神经网络具体结构可根据需要进行设计和构建。
62.本技术还提供一种人脸选优模型的训练装置，包括：存储器，用于存储可由处理器执行的指令；以及处理器，用于执行所述指令以实现如前所述的方法。
63.图4示出了根据本技术一实施例示出的人脸选优模型的训练装置的示意图。人脸选优模型的训练装置400可包括内部通信总线401、处理器(processor)402、只读存储器(rom)403、随机存取存储器(ram)404、以及通信端口405。人脸选优模型的训练装置400通过通信端口连接网络，并可与其他设备连接。内部通信总线401可以实现人脸选优模型的训练装置400组件间的数据通信。处理器402可以进行判断和发出提示。在一些实施例中，处理器402可以由一个或多个处理器组成。通信端口405可以实现从网络发送和接受信息及数据。人脸选优模型的训练装置400还可以包括不同形式的程序储存单元以及数据储存单元，例
如只读存储器(rom)403和随机存取存储器(ram)404，能够存储计算机处理和/或通信使用的各种数据文件，以及处理器402所执行的可能的程序指令。处理器执行这些指令以实现方法的主要部分。处理器处理的结果可通过通信端口传给用户设备，在用户界面上显示。
64.上述的人脸选优模型的训练装置400可以实施为计算机程序，保存在存储器中，并可记载到处理器402中执行，以实施本技术的人脸选优模型的训练方法。
65.本技术还提供了一种存储有计算机程序代码的计算机可读介质，所述计算机程序代码在由处理器执行时实现如上所述的人脸选优模型的训练方法。
66.本技术的一些方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。处理器可以是一个或多个专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理器件(dapd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、处理器、控制器、微控制器、微处理器或者其组合。此外，本技术的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。例如，计算机可读介质可包括，但不限于，磁性存储设备(例如，硬盘、软盘、磁带
……
)、光盘(例如，压缩盘cd、数字多功能盘dvd
……
)、智能卡以及闪存设备(例如，卡、棒、键驱动器
……
)。
67.计算机可读介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等等、或合适的组合形式。计算机可读介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机可读介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、射频信号、或类似介质、或任何上述介质的组合。
68.同理，应当注意的是，为了简化本技术披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本技术实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本技术对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。
69.虽然本技术已参照当前的具体实施例来描述，但是本技术领域中的普通技术人员应当认识到，以上的实施例仅是用来说明本技术，在没有脱离本技术精神的情况下还可作出各种等效的变化或替换，因此，只要在本技术的实质精神范围内对上述实施例的变化、变型都将落在本技术的权利要求书的范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种城乡规划调查的数据收集方法与流程

人脸选优模型的训练方法、装置和计算机可读介质与流程

相关文献

最热文献