一种人脸嘴部识别方法、装置、系统及存储介质与流程

2023-08-04 09:05:11 来源：中国专利 TAG：

1.本发明涉及人脸识别及金融科技技术领域，更具体地说，涉及一种人脸嘴部识别方法、装置、系统及存储介质。

背景技术：

2.随着移动互联网的发展，智能手机改变了很多工作和生活的方式，让人们足不出户即可享受各种便捷的服务。例如金融机构，尤其是银行业也是如此，在线服务让用户随时随地即可办理银行的查询、转账、理财、交易等业务。
3.身份认证是金融机构保护每个用户账户安全的必要流程和重要手段，而其中，人脸识别是身份认证常用的验证和认证的方法之一。人脸识别的原理是通过图像采集设备（例如手机摄像头）获取图像采集人脸信息，与用户预留的图像进行比对，从而核验是否是用户本人。
4.随着攻击手法的进步，普通的人脸识别也越来越不安全。例如，在拿到用户的一张静态照片，通过ai即可合成出一段视频，甚至可以让静态的照片完成张嘴、摇头、眨眼等动作，来欺骗人脸识别系统；再例如，通过替换摄像头视频流，不需要经过摄像头拍摄，直接将预制好的视频输送到程序中，达到通过识别的目的。
5.口型比对，是人脸活体检测中一项重要技术组成。从视频中切割出精确而稳定的嘴部区域可以极大地提高基于计算机视觉的口型比对系统的稳定性和准确性。另外，标准化嘴部区域切割方法，可以提高数据处理效率，有利于快速开发和迭代口型比对系统。
6.但现有的口型比对方法中，对于嘴部区域的分割方法，主要是通过直接切割检测到的区域来实现。其主要的弊端有：（1）由于是直接从原视频帧中提取目标区域，切割出的嘴部区域大小不固定，需要做二次处理才能被计算机视觉模型有效学习，极大削弱了模型泛化能力；（2）嘴部分割方法没有模块化处理，无法集成到系统中在线上进行数据处理。
7.因此，在app端（客户端）获取用户的图像后进行图像识别时，针对用户提供的不同分辨率、不同清晰程度视频中的嘴部区域进行切割，输出稳定且精确的嘴部区域，并将流程标准化模块化，方便于计算机视觉口型比对系统集成，是本发明主要解决的问题。

技术实现要素：

8.有鉴于此，针对于上述技术问题，本发明提供一种应用于金融科技领域或者金融科技相关技术领域的人脸嘴部识别方法，包括：获取客户端的目标视频；根据所述目标视频，获取与所述目标视频对应的面部平均模板；利用所述面部平均模板进行所述目标视频中的人脸对齐，得到对齐图像信息；对所述对齐图像信息进行嘴部区域裁切，得到所述嘴部区域对应的识别图像，以便于对所述识别图像进行识别。
9.优选地，所述根据所述目标视频，获取与所述目标视频对应的面部平均模板，包括：对所述目标视频进行逐帧读取，获得待处理视频帧；根据所述待处理视频帧获得所述平均模板。
10.优选地，所述根据所述待处理视频帧获得所述平均模板，包括：基于人脸检测算法对所述待处理视频帧进行识别，获得所述平均模板。
11.优选地，所述基于人脸检测算法对所述待处理视频帧进行识别，获得所述平均模板，包括：基于人脸检测算法，对每一帧的所述待处理视频帧进行识别，得到所述待处理视频帧对应的预设数量的面部特征点；将所述目标视频中所有的所述待处理视频帧的帧间的所述面部特征点构成特征点序列；对所述特征点序列进行均值计算，得到所述平均模板。
12.优选地，所述根据所述目标视频，获取与所述目标视频对应的面部平均模板之前，还包括：将所述目标视频根据预视频流统一规格，转换为对应格式的目标视频。
13.优选地，所述视频流统一规格包括预设编码格式和预设封装格式。
14.优选地，所述利用所述面部平均模板进行所述目标视频中的人脸对齐，得到对齐图像信息，包括：根据所述面部平均模板与现有的所述目标视频的人脸模板之间建立映射，得到映射矩阵；利用所述映射矩阵对所述目标视频中的人脸对齐，得到对齐图像信息。
15.优选地，所述利用所述映射矩阵对所述目标视频中的人脸对齐，得到对齐图像信息，包括：应用所述映射矩阵对所述目标视频的所有待处理视频帧和每个所述待处理视频帧对应的面部特征点进行映射转换，得到所述对齐图像信息。
16.优选地，所述应用所述映射矩阵对所述目标视频的所有待处理视频帧和每个所述待处理视频帧对应的面部特征点进行映射转换，得到所述对齐图像信息，包括：利用所述映射矩阵对所述目标视频的每个所述待处理视频帧进行逐帧映射，得到目标尺寸的视频帧序列；以及，使用所述映射矩阵对每个所述待处理视频帧进行针对所述面部特征点的映射，得到目标尺寸的对应的目标特征点；将所述视频帧序列和所述目标特征点作为所述对齐图像信息。
17.优选地，所述对所述对齐图像信息进行嘴部区域裁切，得到所述嘴部区域对应的识别图像，包括：基于所述对齐图像信息，获取每个所述待处理视频帧的特征点序列；根据所述特征点序列进行嘴部区域裁切，得到所述识别图像。
18.优选地，所述基于所述对齐图像信息，获取每个所述待处理视频帧的特征点序列，包括：基于所述对齐图像信息中的所有视频帧序列，逐帧计算所述视频帧序列中每一帧
的roi，得到所述特征点序列。
19.优选地，所述根据所述特征点序列进行嘴部区域裁切，得到所述识别图像，包括：计算所有所述特征点序列的均值，得到特征均值；根据所述特征均值对应的尺寸，对所述视频帧序列中每一帧进行裁切，得到所述识别图像。
20.优选地，所述对所述对齐图像信息进行嘴部区域裁切，得到所述嘴部区域对应的识别图像，以便于对所述识别图像进行识别之后，还包括：获取所述识别图像；对所述识别图像中的特征点进行聚类，得到聚类结果；利用训练好的识别模型对所述聚类结果进行识别，得到识别标签；判断预设身份数据库中是否有所述识别标签对应的身份信息；若是，则判定所述客户端的所述识别标签匹配成功，通过识别流程。
21.此外，为解决上述问题，本发明还提供一种人脸嘴部识别装置，包括：获取模块，用于获取客户端的目标视频；所述获取模块，还用于根据所述目标视频，获取与所述目标视频对应的面部平均模板；对比模块，用于利用所述面部平均模板进行所述目标视频中的人脸对齐，得到对齐图像信息；裁切模块，用于对所述对齐图像信息进行嘴部区域裁切，得到所述嘴部区域对应的识别图像，以便于对所述识别图像进行识别。
22.此外，为解决上述问题，本发明还提供一种人脸嘴部识别系统，包括存储器以及处理器，所述存储器中存储有人脸嘴部识别程序，所述处理器运行所述人脸嘴部识别程序以使所述人脸嘴部识别系统执行如上述所述的人脸嘴部识别方法。
23.此外，为解决上述问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有人脸嘴部识别程序，所述人脸嘴部识别程序被处理器执行时实现如上述所述的人脸嘴部识别方法。
24.本发明提供了一种人脸嘴部识别方法、装置、系统及存储介质，其中，所述方法包括：获取客户端的目标视频；根据所述目标视频，获取与所述目标视频对应的面部平均模板；利用所述面部平均模板进行所述目标视频中的人脸对齐，得到对齐图像信息；对所述对齐图像信息进行嘴部区域裁切，得到所述嘴部区域对应的识别图像，以便于对所述识别图像进行识别。本发明通过获取到目标视频的平均模板并对人脸对齐后，再进行特定区域的裁切，从而得到进一步识别的嘴部区域的识别图像，实现了在不同清晰度与分辨率图片输入下都能保证有稳定大小的脸部区域输出，使得分割的嘴部区域更有匹配性，相较于常规的直接测出坐标值的方式更加合理可靠，同时预备多个检测模型，满足不同硬件条件下的支持，提高了兼容性和准确性。
附图说明
25.图1为本发明人脸嘴部识别方法实施例涉及的硬件运行环境的结构示意图；图2为本发明人脸嘴部识别方法第1实施例的流程示意图；
图3为本发明人脸嘴部识别方法第2实施例中所述步骤s200细化的流程示意图；图4为本发明人脸嘴部识别方法第2实施例中所述步骤s221细化的流程示意图；图5为本发明人脸嘴部识别方法第3实施例的流程示意图；图6为本发明人脸嘴部识别方法第4实施例中步骤s300细化的流程示意图；图7为本发明人脸嘴部识别方法第4实施例中包括步骤s310和步骤s321的流程示意图；图8为本发明人脸嘴部识别方法第4实施例中包括步骤s321细化的流程示意图；图9为本发明人脸嘴部识别方法第5实施例中包括步骤s400细化的流程示意图；图10为本发明人脸嘴部识别方法第5实施例中包括步骤s410细化的流程示意图；图11为本发明人脸嘴部识别方法第5实施例中包括步骤s420细化的流程示意图；图12为本发明人脸嘴部识别方法第5实施例中包括步骤s400之后补充步骤的流程示意图；图13为本发明人脸嘴部识别装置的模块连接示意图。
26.本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
27.下面详细描述本发明的实施例，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。
28.此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。
29.在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。
30.应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
31.如图1所示，是本发明实施例涉及的终端的硬件运行环境的结构示意图。
32.本发明实施例人脸嘴部识别系统，可以为pc，也可以是智能手机、平板电脑或者便携计算机等可移动式终端设备等。该人脸嘴部识别系统中可以包括：处理器1001、例如cpu，网络接口1004、用户接口1003、存储器1005和通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏、输入单元比如键盘、遥控器，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口（如wi-fi接口）。存储器1005可以是高速ram存储器，也可以是稳定的存储器，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。可选地，人脸嘴部识别系统还可以包括rf（radio frequency，射频）电路、音频电路、wifi模块等等。此外，该人脸嘴部识别系统还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。
33.本领域技术人员可以理解，图1中示出的人脸嘴部识别系统并不构成对其的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。如图1所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、数据接口控制程序、网络连接程序以及人脸嘴部识别程序。
34.总之，本发明通过获取到目标视频的平均模板并对人脸对齐后，再进行特定区域的裁切，从而得到进一步识别的嘴部区域的识别图像，实现了在不同清晰度与分辨率图片输入下都能保证有稳定大小的脸部区域输出，使得分割的嘴部区域更有匹配性，相较于常规的直接测出坐标值的方式更加合理可靠，同时预备多个检测模型，满足不同硬件条件下的支持，提高了兼容性和准确性。
35.实施例1：参照图2，本发明实施例提供一种人脸嘴部识别方法，包括：步骤s100，获取客户端的目标视频；上述，本实施例，可以应用于金融科技领域，其中，可以应用于金融机构的app在使用时的用户人脸识别。金融app客户端，可以为用户的智能设备端的金融app，例如银行app、股票交易app、保险app、理财产品app等，此外，也可以应用于电脑端的金融网站的登录。
36.此外，也可以应用于其他需要进行人脸识别进行登录或检测的领域，例如，可以包括但不限于游戏检测及登录、购物app和网站登录、交易app登录、科研软件登录、社交媒体登录等等。
37.上述，用户在客户端进行登录时，首先客户端会获取用户的面部图像，该面部图像即为目标视频。
38.步骤s200，根据所述目标视频，获取与所述目标视频对应的面部平均模板；上述，由目标视频，获得到对应的平均模板。
39.步骤s300，利用所述面部平均模板进行所述目标视频中的人脸对齐，得到对齐图像信息；步骤s400，对所述对齐图像信息进行嘴部区域裁切，得到所述嘴部区域对应的识别图像，以便于对所述识别图像进行识别。
40.其中，在人脸图像识别中，平均模板是指将一个人脸图像集合（视频）中所有人脸帧的相应特征点位置进行平均（即取平均值），从而得到一个代表这个人群平均面部特征的模板。这个平均模板可以作为一个参考，用于对新的人脸进行定位和对齐，以便更准确地进行特征提取或比较。
41.例如，通过视频获取到对应的多图像构成的人脸图像数据集，首先可以先通过人脸检测算法检测每张图像中的人脸，并对其关键点进行定位；然后，将所有图像中的关键点位置进行平均，得到一个代表这个数据集中所有人脸平均特征的模板。最后可以将这个模板用作基准，对该用户的所有人脸图像进行定位和对齐，从而保证每个人脸的特征点都在相同的位置上。这样做可以使得特征提取或比较更加精确可靠。
42.采用平均模板的优点在于，它可以去除个体之间的差异，从而减少因为人脸姿态、表情、光照等因素而导致的特征偏移。通过将所有人脸的关键点位置进行平均，可以得到一个代表该用户的共性的模板，从而更好地捕捉到人脸的共同特征。这样可以使得后续的特征提取或比较更加准确可靠，进而提高算法的性能和效率。
43.总之，本实施例通过获取到目标视频的平均模板并对人脸对齐后，再进行特定区域的裁切，从而得到进一步识别的嘴部区域的识别图像，实现了在不同清晰度与分辨率图片输入下都能保证有稳定大小的脸部区域输出，使得分割的嘴部区域更有匹配性，相较于常规的直接测出坐标值的方式更加合理可靠，同时预备多个检测模型，满足不同硬件条件下的支持，提高了兼容性和准确性。
44.实施例2：参照图3，本发明第2实施例提供一种人脸嘴部识别方法，基于上述实施例1。所述步骤s200，根据所述目标视频，获取与所述目标视频对应的面部平均模板，包括：步骤s210，对所述目标视频进行逐帧读取，获得待处理视频帧；步骤s220，根据所述待处理视频帧获得所述平均模板。
45.上述，步骤s210中，是对目标视频进行逐帧读取，是将目标视频拆分成一系列连续的图像帧。在实际应用中，这些图像帧可以被送入计算机视觉算法进行处理和分析。例如，在图像识别任务中，每个图像帧都可以被输入到神经网络中，以便进行分类、检测或者分割等操作。这种逐帧读取的方法可以使得从一个视频源中获取更加详细的信息，进而提高我们对待处理对象的理解能力，以便于进一步的平均模板的计算。
46.步骤s220中，是根据待处理视频帧获得平均模板，其主要思想是将所有图像帧中的特征区域进行加权平均，以得到代表整个视频的平均图像帧。这种方法的优势在于，能够在考量减少噪声和图像变化对最终结果的影响前提下，定位到特定的区域。例如，在识别人脸时，由于摄像头的不稳定性或者光线条件的改变，每个图像帧都可能存在一些微小的偏差，导致识别结果出现偏差。通过采用平均模板方法，可以有效地消除这种影响，并且提高算法的鲁棒性和准确性。
47.例如，如果需要通过视频来识别人脸，可以将视频逐帧读取，并对每一帧进行目标物体的检测和跟踪。然后，我们可以利用这些图像帧来计算平均模板，得到一个代表整个视频的图像。通过比较每一帧图像与平均模板，就能够快速地发现出现异常的情况，例如目标物体突然消失或者运动轨迹发生异常（例如歪头、倒置、面部扭曲、光阴变化）的图像帧中，仍然能够找到对应的特定部位。这种方法不仅能够提高识别精度，还能够实时监测目标物体的行为变化，具有广泛的应用价值。
48.进一步的，所述步骤s220，根据所述待处理视频帧获得所述平均模板，包括：步骤s221，基于人脸检测算法对所述待处理视频帧进行识别，获得所述平均模板。
49.上述，采用人脸检测算法，对待处理视频帧进行识别，可以从视频帧中准确地提取出人脸区域，进而得到平均模板。这种方法具有以下几个优点：（1）准确率高：基于人脸检测算法的方法可以准确地提取出视频帧中的人脸区域，避免了因为误差导致的计算偏差或者错误。（2）效率高：采用人脸检测算法进行识别，可以快速地从视频帧中提取人脸区域，大大提高了处理的效率。（3）适用性广：人脸检测算法不仅可以应用于单一用户的视频中，也可以应用于多用户的视频中，并且可以适应各种不同的摄像头、拍摄角度和光线条件等因素。
50.综上所述，采用人脸检测算法对待处理视频帧进行识别，是一种准确、高效、适用性广的图像处理方法，可以为后续的分析和处理提供可靠的基础数据。
51.进一步的，参考图4，所述步骤s221，基于人脸检测算法对所述待处理视频帧进行识别，获得所述平均模板，包括：
步骤s2211，基于人脸检测算法，对每一帧的所述待处理视频帧进行识别，得到所述待处理视频帧对应的预设数量的面部特征点；步骤s2212，将所述目标视频中所有的所述待处理视频帧的帧间的所述面部特征点构成特征点序列；步骤s2213，对所述特征点序列进行均值计算，得到所述平均模板。
52.上述，基于人脸检测算法对每一帧进行识别时，使用人脸检测算法对每一帧的待处理视频帧进行识别，目的是找到这个帧中的人脸。常见的人脸检测算法包括haar cascade、hog、yolo、ssd等。这些算法都采用了不同的技术和策略来检测人脸，例如检测图像中的边缘、颜色、纹理或形状等。
53.上述，获得面部特征点的步骤中，当检测到每一帧中的人脸时，可以使用人脸关键点检测算法来获取面部特征点。人脸关键点通常包括眼睛、鼻子、嘴巴、眉毛等特殊位置，例如，可以为468个面部特征点。常见的人脸关键点检测算法包括dlib、mtcnn、opencv等。这些算法通过建立各种模型，并对每个面部特征点进行回归来检测面部关键点。
54.上述，通过构建面部特征点序列步骤得到每个帧的面部特征点。接下来需要将这些特征点组成一个序列，以便于后续计算平均模板。通常可以使用线性插值等技术来填补缺失的面部特征点，确保序列中的面部特征点数目一致。
55.上述，在计算平均模板时，这里的平均模板代表了所有帧的平均面部特征点位置。可以简单地对面部特征点序列中的每个特征点分别进行均值计算，得到每个特征点的平均值，从而得出平均模板。
56.实施例3：参照图5，本发明第3实施例提供一种人脸嘴部识别方法，基于上述实施例1，所述步骤s200，根据所述目标视频，获取与所述目标视频对应的面部平均模板之前，还包括：步骤s500，将所述目标视频根据预视频流统一规格，转换为对应格式的目标视频。
57.进一步的，所述视频流统一规格包括预设编码格式和预设封装格式。
58.上述，在进行人脸识别时，首先需要捕获目标视频，并将其转换为计算机可以处理的数字信号。这个过程中，视频文件会被编码成数字信号数据流，同时还要封装成特定格式的容器，以便于储存、传输与处理。
59.统一视频流的预设编码格式与预设封装格式的作用是为了确保所有输入视频都具有相同的格式，使得后续的处理更加方便和高效。因为不同的视频厂商和设备使用的编码和封装格式可能不同，如果不进行统一处理，就会导致一些问题，例如无法正常解码、播放或者不能够与其他系统进行兼容等问题。
60.将编码格式与封装格式全部根据预设编码格式和预设封装格式统一的目的在于可以实现多平台之间的互通。在采用具体的算法和函数进行视频格式转换时，可以使用ffmpeg这个广泛应用的库，它支持各种编码格式的转换和封装格式的转换，并且提供了非常丰富的api接口，开发者可以快速地进行开发和调试工作。
61.总之，统一视频流的编码格式与封装格式非常重要，能够确保不同设备之间的视频兼容性，同时也为后续的人脸识别算法提供了更好的数据基础。
62.实施例4：参照图6，本发明第4实施例提供一种人脸嘴部识别方法，基于上述实施例1，所述
步骤s300，利用所述面部平均模板进行所述目标视频中的人脸对齐，得到对齐图像信息，包括：步骤s310，根据所述面部平均模板与现有的所述目标视频的人脸模板之间建立映射，得到映射矩阵；步骤s320，利用所述映射矩阵对所述目标视频中的人脸对齐，得到对齐图像信息。
63.上述，步骤s300是基于面部平均模板进行人脸对齐。人脸对齐是本实施例中的重要步骤。
64.需要说明的是，在人脸图像中，由于面部表情、光照、姿态等因素的影响，不同人的面部特征之间存在很大差异。而将所有人脸的面部特征取平均值，可以得到一个平均模板，它代表了一般的面部特征，用于对齐不同人脸的特征点，从而消除人脸间的差异性，提高人脸识别的准确性和鲁棒性。
65.具体的，步骤s310是建立映射矩阵，将面部平均模板与目标视频中的人脸模板进行对应。上述过程可以采用线性变换来实现，比如利用最小二乘法或其他优化方法，求解转换矩阵，使得平均模板与目标视频中的人脸模板之间的距离最小。这个映射矩阵可以将不同尺寸、不同姿态、不同光照条件下的人脸对齐到同一坐标系中，以便后续的特征提取和比对。
66.然后，步骤s320是应用映射矩阵对目标视频中的人脸进行对齐。这个过程可以通过对目标视频帧的人脸区域进行仿射变换来实现，从而得到对齐后的图像信息。在这个过程中，可以利用特征点提取算法来确定人脸的位置和姿态，从而提高对齐的精度和鲁棒性。
67.例如，如要对一个金融app客户端所获取到的人脸进行识别，首先需要得到该客户的平均模板，然后根据视频中的每一帧图像，对其中的人脸进行检测和特征点提取，将提取到的特征点与平均模板进行对齐，并利用所学习到的映射矩阵进行仿射变换，得到对齐后的人脸图像。最后，可以基于对齐后的人脸图像进行特征提取和比对，来完成人脸识别的任务。
68.总之，采用面部平均模板进行人脸对齐的方法，在人脸识别领域具有较好的效果和广泛的应用。它可以有效地消除人脸间的差异性，提高识别准确率和鲁棒性。同时，基于特征点的对齐方法还能够应对不同姿态、表情和光照条件下的人脸识别问题，具有较高的实用性和泛化能力。
69.进一步的，参考图7，所述步骤s320，利用所述映射矩阵对所述目标视频中的人脸对齐，得到对齐图像信息，包括：步骤s321，应用所述映射矩阵对所述目标视频的所有待处理视频帧和每个所述待处理视频帧对应的面部特征点进行映射转换，得到所述对齐图像信息。
70.进一步的，参考图8，所述步骤s321，应用所述映射矩阵对所述目标视频的所有待处理视频帧和每个所述待处理视频帧对应的面部特征点进行映射转换，得到所述对齐图像信息，包括：步骤s3211，利用所述映射矩阵对所述目标视频的每个所述待处理视频帧进行逐帧映射，得到目标尺寸的视频帧序列；以及，步骤s3212，使用所述映射矩阵对每个所述待处理视频帧进行针对所述面部特征点的映射，得到目标尺寸的对应的目标特征点；将所述视频帧序列和所述目标特征点作为
所述对齐图像信息。
71.上述，步骤s3211，和步骤s3212，可以同时执行，或者任意一个步骤在先执行。
72.上述，步骤s3211涉及到对待处理视频帧进行逐帧映射，以得到目标尺寸的视频帧序列。具体而言，该步骤中会使用所述映射矩阵对每一帧进行变换操作，从而将原始视频帧中的内容映射到目标尺寸的位置上。
73.上述，步骤s3211中，该步骤需要对每一帧视频进行变换操作，使得原始视频帧中的内容能够被映射到目标尺寸的位置上。这里的映射矩阵是通过步骤s310建立的，将面部平均模板与目标视频的人脸模板进行匹配得到的矩阵。可以采用仿射变换或者透视变换等不同类型的变换方式来实现映射操作。其中，仿射变换的主要作用是保持图像的形状和大小不变，而透视变换则可以实现更加灵活的变形效果。
74.例如，如果要将一个720p的视频转化为1080p的视频，则需要将每一帧都进行相应的缩放、平移、旋转等变换操作，从而将原始视频帧中的内容适配到新的分辨率上。
75.在具体实现时，可以使用opencv等图像处理库中提供的函数来完成变换操作；例如，cv2.warpaffine函数可以实现仿射变换，cv2.warpperspective函数可以实现透视变换。这些函数的优点是支持高效的图像处理操作，能够在短时间内完成大量的变换计算，从而提高了人脸识别系统的识别速度和准确度。
76.上述，步骤s3212中，需要根据映射矩阵对每一帧视频的面部特征点进行相应的变换操作，从而将原始特征点的位置映射到目标特征点的位置上。这里的目标特征点是指面部平均模板中定义的关键点，它们的位置是固定的，因此可以通过映射矩阵来计算出在目标尺寸下的位置信息。
77.具体实现时，可以采用类似于步骤s3211的方法，使用opencv等库中提供的函数来完成变换操作。比如，cv2.transform函数可以实现对特征点的仿射变换或透视变换操作。需要说明的是，在进行特征点映射时，需要特别关注面部特征点的稳定性和准确性，避免出现误差导致识别结果不准确的情况。
78.进一步的，将前两个步骤得到的信息合并起来，形成对齐后的图像信息。具体而言，将经过映射变换得到的视频帧序列和经过特征点映射得到的目标特征点合并在一起，作为人脸识别模型的输入数据。
79.总之，上述步骤共同实现了对原始视频帧进行人脸对齐的功能，从而提高了人脸识别系统的性能和准确度。
80.实施例5：参照图9，本发明第5实施例提供一种人脸嘴部识别方法，基于上述实施例4，所述步骤s400，对所述对齐图像信息进行嘴部区域裁切，得到所述嘴部区域对应的识别图像，包括：步骤s410，基于所述对齐图像信息，获取每个所述待处理视频帧的特征点序列；步骤s420，根据所述特征点序列进行嘴部区域裁切，得到所述识别图像。
81.上述，在步骤s410中，获取每个待处理视频帧的特征点序列可以采用基于深度学习的人脸关键点检测算法。这类算法通常使用卷积神经网络（cnn）对人脸进行特征提取，并输出每个关键点的位置。
82.常见的开源库包括dlib、opencv等，在这些库中都提供了人脸关键点检测的函数。
例如在dlib库中，可以使用如下函数，以便于获取每个视频帧的特征点序列：即可以采用shape_predictor_68_face_landmarks函数获取每个视频帧的特征点序列。
83.在步骤s420中，根据特征点序列进行嘴部区域裁切可以采用以下方法：提取嘴部特征点序列，例如使用dlib库中的predictor函数获取嘴部特征点的坐标；计算嘴部特征点序列的均值，得到一个平均的口形；在对应尺寸帧上按照平均口形进行裁切，得到所需的识别图像。
84.具体地，对于步骤400，可以定义一个裁切函数crop_mouth()，其输入为一张图片和嘴部特征点序列，输出为裁切后的嘴部区域图像。该函数可以采用如下算法：根据特征点序列计算嘴部区域的边界框，例如取左右两个嘴角点的横坐标范围及上下唇中部的纵坐标作为边界框；根据边界框将原图像进行裁切。
85.这样，可以得到一个用于人脸识别的口型图像。这种方法的优点是简单易实现，而且对于不同尺寸的视频帧都能够适应，同时还可以减少嘴部区域的噪声和干扰信息，提高人脸识别的准确性。
86.进一步的，参考图10，所述步骤s410，基于所述对齐图像信息，获取每个所述待处理视频帧的特征点序列，包括：步骤s411，基于所述对齐图像信息中的所有视频帧序列，逐帧计算所述视频帧序列中每一帧的roi，得到所述特征点序列。
87.进一步的，参考图11，所述步骤s420，根据所述特征点序列进行嘴部区域裁切，得到所述识别图像，包括：步骤s421，计算所有所述特征点序列的均值，得到特征均值；步骤s422，根据所述特征均值对应的尺寸，对所述视频帧序列中每一帧进行裁切，得到所述识别图像。
88.上述，在s411中，需要逐帧计算视频帧序列中每一帧的roi，得到特征点序列。可以采用基于深度学习的人脸检测算法，例如使用mtcnn（multi-task cascaded convolutional networks）或retinaface算法，在视频帧中定位人脸，并提取人脸区域作为roi。
89.具体地，对于步骤s411，可以定义一个函数extract_roi()，其输入为目标视频帧序列和人脸检测模型，输出为特征点序列。该函数可以采用如下算法：循环遍历目标视频帧序列，对每一帧进行人脸检测，得到roi；利用人脸关键点检测算法获取roi中的特征点序列；将特征点序列保存并返回。
90.在进一步的步骤s421中，需要计算所有特征点序列的均值，得到特征均值。这个步骤可以使用numpy库中的mean()函数实现。
91.在步骤s422中，需要根据特征均值对应的尺寸，对视频帧序列中每一帧进行裁切，得到所需的识别图像。具体地，可以定义一个裁切函数crop_mouth_with_mean()，其输入为一张图片、特征均值和目标尺寸，输出为裁切后的嘴部区域图像。该函数可以采用如下算法：
根据特征点序列计算嘴部区域的边界框，例如取左右两个嘴角点的横坐标范围及上下唇中部的纵坐标作为边界框；根据边界框计算出目标尺寸，同时以特征均值作为参考进行修正；在对应尺寸帧上按照平均口形进行裁切，得到所需的识别图像。
92.这种方法的优点是可以根据视频帧序列中每一帧的特征点信息动态调整裁切区域，从而更加准确地提取嘴部区域，并且与实际口型更加贴合。同时，通过使用特征均值进行尺寸修正，也可以进一步提高嘴部识别的准确性。
93.进一步的，参考图12，所述步骤s400，对所述对齐图像信息进行嘴部区域裁切，得到所述嘴部区域对应的识别图像，以便于对所述识别图像进行识别之后，还包括：步骤s600，获取所述识别图像，并对所述识别图像中的特征点进行聚类，得到聚类结果；步骤s700，利用训练好的识别模型对所述聚类结果进行识别，得到识别标签；步骤s800，判断预设身份数据库中是否有所述识别标签对应的身份信息；步骤s900，若是，则判定所述客户端的所述识别标签匹配成功，通过识别流程。
94.上述，在步骤s600中，需要对识别图像中的特征点进行聚类，以得到一组描述图像内容的聚类结果。这些特征点可以包括颜色、形状、纹理等信息。通常使用聚类算法（如k-means）将这些特征点分成不同的组，每个组代表一个聚类中心。聚类结果的数量取决于所选择的算法和参数设置。
95.在步骤s700，中，需要使用训练好的识别模型对聚类结果进行分类，以确定图像内容的类型。这通常涉及将每个聚类中心表示为一个向量，并使用分类算法（如svm或随机森林）将其分配到不同的类别中。
96.在步骤s800中，需要将识别标签与预设的身份数据库进行比较，以确定其是否匹配。如果匹配，则可以将其视为验证成功。如果不匹配，则可以将其视为验证失败。
97.通过采用本实施例中所提供的方法，具有如下优点：（1）自动化：使用计算机视觉和机器学习技术，可以自动分析和识别图像内容，无需人工干预，大大提高了数据处理效率和准确性。（2）可扩展性：该方法可以轻松地适用于大规模数据集和多种图像类型，例如人脸、物品、场景等，因此具有很强的可扩展性和通用性。（3）精度高：使用聚类和分类算法，可以有效地提取图像特征并将其映射到正确的身份标签，从而实现高精度的身份验证。（4）便捷性：该方法可以通过简单的代码实现，并且易于维护和更新。
98.同时，还可以与其他系统集成，例如金融交易系统、金融支付系统、用户身份检测系统、社交媒体及应用程序检测系统、游戏年龄检测及登录系统、科研机构、服务机构、公务机构等单位的检测系统等，以实现更广泛的应用。（5）成本效益高：相较于传统的身份验证方法，如刷卡、密码等，该方法具有更低的成本，并且不需要额外的硬件设备，因此更具成本效益。
99.总之，本实施例所提供的方法具有如下有益效果：（1）输入多样性：输入视频数据宽容度高，可应对不同格式与编码的情况。
100.（2）输出多样性：生成图像格式可指定且可同步生成roi视频进行直观动态对比或作为视频类型数据输入网络。
101.（3）目标区域尺寸稳定性：生成嘴部区域尺寸在单个视频序列之间固定，同时在视
频间保持一定范围内动态变化。既保持了视频间尺寸差异性，也保证了统一视频内输入的稳定。同时在不同视频输入生成图像尺寸时符合正太分布。（4）数据泛化能力更强：根据人脸对齐模块的特征点序列对现有人脸模型的尺寸进行调整，避免了基于经验来调整人脸尺寸，从而能够应用在不同的数据集和数据来源上取得稳定的效果，泛化能力得到极大提升。
102.（5）关键点预测模型可灵活更换：不论是生成68关键点的人脸检测模型还是生成468个特征坐标的模型都可以适配该技术，可以根据需要更换对应模型升级。
103.（6）整个流程可以作输入模块集成到计算机视觉模型系统，实现端到端口型预测。
104.（7）标准化的自动化流程，方便部署和迭代。
105.此外，参考图13，本实施例还提供一种人脸嘴部识别装置，包括：获取模块10，用于获取客户端的目标视频；所述获取模块10，还用于根据所述目标视频，获取与所述目标视频对应的面部平均模板；对比模块20，用于利用所述面部平均模板进行所述目标视频中的人脸对齐，得到对齐图像信息；裁切模块30，用于对所述对齐图像信息进行嘴部区域裁切，得到所述嘴部区域对应的识别图像，以便于对所述识别图像进行识别。
106.此外，本实施例还提供一种人脸嘴部识别系统，包括存储器以及处理器，所述存储器存储有人脸嘴部识别程序，所述处理器运行所述人脸嘴部识别程序以使所述人脸嘴部识别系统执行如上述所述的人脸嘴部识别方法。
107.此外，本实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有人脸嘴部识别程序，所述人脸嘴部识别程序被处理器执行时实现如上述所述人脸嘴部识别方法。
108.总之，本发明通过获取到目标视频的平均模板并对人脸对齐后，再进行特定区域的裁切，从而得到进一步识别的嘴部区域的识别图像，实现了在不同清晰度与分辨率图片输入下都能保证有稳定大小的脸部区域输出，使得分割的嘴部区域更有匹配性，相较于常规的直接测出坐标值的方式更加合理可靠，同时预备多个检测模型，满足不同硬件条件下的支持，提高了兼容性和准确性。
109.上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
110.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种人脸嘴部识别方法、装置、系统及存储介质与流程

一种人脸嘴部识别方法、装置、系统及存储介质与流程

最热文献