一种活体检测方法和系统与流程

2022-12-19 20:37:08 来源：中国专利 TAG：

1.本公开涉及生物识别技术领域，特别涉及一种活体检测方法和系统。

背景技术：

2.活体攻击检测是指在生活识别中，判断用户刷脸过程中的真人与攻击，攻击类型主要包括如照片、手机、屏幕、面具等攻击的技术。随着近年来人脸识别系统的不断发展，活体攻击检测成为人脸识别系统中不可缺少的一环。利用活体攻击检测可以有效的拦截非活体类型的攻击样本。人脸识别系统会布置于各种设备上，这些设备包括手机、电脑等私人设备，以及一些专用的人脸识别设备。刷脸支付设备对于人脸识别系统的安全能力极为严格，为了能适配高等级的安全能力，需要充分利用刷脸过程中的时序信息，例如，从视频中提取的眨眼、表情、动作及背景变化等信息，从而辅助活体攻击检测算法进行最终的分类判断。
3.与单帧图像的活体攻击检测方法不同，以视频为输入的活体攻击检测方法可以包含时间维度的信息，虽然视频片段不会很长，但会包含包括眨眼、表情、动作及背景变化等时序信息，从而对于活体攻击检测提供更多维度的辨识信息。目前的以视频为输入的活体攻击检测方法主要包括基于关键帧的活体攻击检测方法和基于双流网络的活体攻击检测方法。
4.其中，基于关键帧的视频活体攻击检测方法首先通过关键帧提取网络提取视频中的关键帧(往往是内容变化较大的帧)，再通过二维图像活体攻击检测的方式进行分类。该方法整体上还是基于二维图像的方法，关键帧无法充分表征时序信息。基于双流网络的视频活体攻击检测方法是将视频的特征提取拆成两个并行部分(分别为基于单帧rgb的空间特征提取、以及基于光流的时间特征提取)，再通过融合的特征进行活体攻击检测。该方法中的空间特征仅来自于其中一帧，同时时序特征仅来自这一帧前后的光流信息，无法充分利用视频中全部的时空信息。

技术实现要素：

5.本公开的主要目的是提供一种活体检测方法和系统，通过模仿人视觉系统的时序信息提取方式，构建动、静信息提取与融合的视频活体攻击检测模型，从而提高活体攻击检测的特征鲁棒性，为人脸识别系统建立坚实的安全底盘。
6.本公开一方面提供一种活体检测方法，包括：获取目标视频，所述目标视频包括至少一帧图像，所述目标视频中包括至少一个目标对象；对所述目标视频进行视频拆帧，得到第一视频帧子集和第二视频帧子集，所述第一视频帧子集对应第一帧率，所述第二视频帧子集对应第二帧率，所述第一帧率小于所述第二帧率；基于所述第一视频帧子集和所述第二视频帧子集，确定所述目标视频的特征信息；以及基于所述特征信息，确定所述目标对象的活体概率。
7.在一些实施例中，所述确定所述目标视频的特征信息，包括：采用第一检测模型对所述第一视频帧子集进行特征提取，得到静态特征信息；采用第二检测模型对所述第二视
频帧子集进行特征提取，得到动态特征信息；以及基于所述静态特征信息和所述动态特征信息，确定所述特征信息。
8.在一些实施例中，所述第一检测模型和所述第二检测模型中包含相同数量的特征提取模块。
9.在一些实施例中，所述第一检测模型中包含第一级静态特征提取模块、第二级静态特征提取模块和第三级静态特征提取模块；以及所述采用第一检测模型对所述第一视频帧子集进行特征提取，得到静态特征信息，包括：采用第一级静态特征提取模块对所述第一视频帧子集进行特征提取，得到第一级静态特征信息；采用第二级静态特征提取模块对所述第一级静态特征信息进行特征提取，得到第二级静态特征信息；以及采用第三级静态特征提取模块对所述第二级静态特征信息进行特征提取，得到第三级静态特征信息。
10.在一些实施例中，所述第二检测模型中包含第一级动态特征提取模块、第二级动态特征提取模块和第三级动态特征提取模块；以及所述采用第二检测模型对所述第二视频帧子集进行特征提取，得到动态特征信息，包括：采用第一级动态特征提取模块对所述第二视频帧子集进行特征提取，得到第一级动态特征信息；采用第二级动态特征提取模块对所述第一级动态特征信息进行特征提取，得到第二级动态特征信息；以及采用第三级动态特征提取模块对所述第二级动态特征信息进行特征提取，得到第三级动态特征信息。
11.在一些实施例中，所述第一检测模型中的静态特征提取模块的卷积核数大于所述第二检测模型中对应层级的动态特征提取模块的卷积核数。
12.在一些实施例中，每个所述静态特征提取模块的卷积核数同与其对应的所述动态特征提取模块的卷积核数之比与所述第二帧率同所述第一帧率之比正相关。
13.在一些实施例中，所述第二帧率为所述第一帧率的n倍；以及每个所述静态特征提取模块的卷积核数为与其对应层级的动态特征提取模块的卷积核数的n倍，其中，n为大于1的自然数。
14.在一些实施例中，所述基于所述静态特征信息和所述动态特征信息，确定所述特征信息，包括：将所述动态特征信息融合到所述静态特征信息中，得到融合后的静态特征信息；以及基于所述融合后的静态特征信息和所述动态特征信息，确定所述特征信息。
15.在一些实施例中，所述将所述动态特征信息融合到所述静态特征信息中，得到融合后的静态特征信息，包括：将所述第一级动态特征信息与所述第一级静态特征信息进行特征融合，得到融合后的第一级特征信息；将所述融合后的第一级特征信息经过所述第二级静态特征提取模块后，得到第二级特征信息；将所述第二级动态特征信息与所述第二级特征信息进行特征融合，得到融合后的第二级特征信息；将所述融合后的第二级特征信息经过所述第三级静态特征提取模块后，得到第三级特征信息；以及将所述第三级特征信息作为所述融合后的静态特征信息。
16.在一些实施例中，所述基于所述融合后的静态特征信息和所述动态特征信息，确定所述特征信息，包括：将所述第三级动态特征信息作为所述动态特征信息；以及将所述融合后的静态特征信息和所述第三级动态特征信息共同作为所述特征信息。
17.在一些实施例中，所述基于所述特征信息，确定所述目标对象的活体概率，包括：基于所述融合后的静态特征信息，确定所述目标对象的第一活体概率；基于所述动态特征信息，确定所述目标对象的第二活体概率；以及基于所述第一活体概率和所述第二活体概
率，确定所述目标对象的所述活体概率，所述活体概率用于指示所述目标对象为活体对象的概率。
18.在一些实施例中，所述基于所述第一活体概率和所述第二活体概率，确定所述目标对象的所述活体概率，包括：获取所述第一活体概率和所述第二活体概率的权重比；以及基于所述权重比、所述第一活体概率和所述第二活体概率，确定所述目标对象的活体概率。
19.在一些实施例中，在所述确定所述目标对象的活体概率之后，还包括：将所述活体概率与预设概率阈值进行对比；以及确定所述活体概率超过所述预设概率阈值，确定所述目标对象为活体对象。
20.本公开另一方面提供一种活体检测系统，包括：
21.至少一个存储介质，包括至少一个指令集，用于活体检测方法的实施分析；以及
22.至少一个处理器，同所述至少一个存储介质通讯连接，
23.其中，当所述系统运行时，所述至少一个处理器读取所述至少一个指令集，并且根据所述至少一个指令集的指示执行上述任一项所述的活体检测方法。
24.由以上技术方案可知，本公开提供的活体检测方法、执行此方法的系统。所述方法和系统通过获取目标视频，所述目标视频包括至少一帧图像，所述目标视频中包括至少一个目标对象；对所述目标视频进行视频拆帧，得到第一视频帧子集和第二视频帧子集，所述第一视频帧子集对应第一帧率，所述第二视频帧子集对应第二帧率，所述第一帧率小于所述第二帧率；基于所述第一视频帧子集和所述第二视频帧子集，确定所述目标视频的特征信息；以及基于所述特征信息，确定所述目标对象的活体概率。本公开提供的上述方法通过模仿人视觉系统的时序信息提取方式，从目标视频中提取具有不同特征(动态特征信息、静态特征信息)的视频帧子集，并基于两个不同的视频帧子集确定目标视频的特征信息，从而提高活体攻击检测的特征鲁棒性，为人脸识别系统建立坚实的安全底盘。
25.本公开提供的活体检测方法和系统的其他功能将在以下说明书中部分列出。根据描述，以下数字和实例介绍的内容将对那些本领域的普通技术人员显而易见。本公开提供的活体检测方法和系统的创造性方面可以通过实践或使用下面详细实例中所述的方法、装置和组合得到充分解释。
附图说明
26.为了更清楚地说明本公开实施例中的技术方案，下面将对实施例描述中所需要的使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
27.图1示出了根据本公开的一些实施例提供的一种活体检测方法的系统的应用场景示意图；
28.图2示出了根据本公开的一些实施例提供的一种计算设备的结构示意图；
29.图3示出了根据本公开的一些实施例提供的一种活体检测方法的方法流程图；
30.图4示出了根据本公开的一些实施例提供的一种活体检测方法的整体示意图；以及
31.图5示出了根据本公开的一些实施例提供的一种步骤s300的流程图。
具体实施方式
32.以下描述提供了本公开的特定应用场景和要求，目的是使本领域技术人员能够制造和使用本公开中的内容。对于本领域技术人员来说，对所公开的实施例的各种局部修改是显而易见的，并且在不脱离本公开的精神和范围的情况下，可以将这里定义的一般原理应用于其他实施例和应用。因此，本公开不限于所示的实施例，而是与权利要求一致的最宽范围。
33.这里使用的术语仅用于描述特定示例实施例的目的，而不是限制性的。比如，除非上下文另有明确说明，这里所使用的，单数形式“一”，“一个”和“该”也可以包括复数形式。当在本公开中使用时，术语“包括”、“包含”和/或“含有”意思是指所关联的整数，步骤、操作、元素和/或组件存在，但不排除一个或多个其他特征、整数、步骤、操作、元素、组件和/或组的存在或在该系统/方法中可以添加其他特征、整数、步骤、操作、元素、组件和/或组。
34.考虑到以下描述，本公开的这些特征和其他特征、以及结构的相关元件的操作和功能、以及部件的组合和制造的经济性可以得到明显提高。参考附图，所有这些形成本公开的一部分。然而，应该清楚地理解，附图仅用于说明和描述的目的，并不旨在限制本公开的范围。还应理解，附图未按比例绘制。
35.人眼视觉系统中包含80％的p细胞处理静态图像，以及20％的m细胞处理动态图像。而计算机视觉技术(computer vision，cv)是一门研究如何使机器“看”的科学，更进一步的说，就是指通过计算机代替人眼对目标进行识别、测量等的机器视觉，并进一步进行图像处理，使图像经过计算机处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别等技术，还包括常见的人脸识别、人体姿态识别等生物特征识别技术。本公开所披露的活体检测方法和系统就是模仿了人眼视觉系统p、m细胞。
36.本公开中使用的流程图示出了根据本公开中的一些实施例的系统实现的操作。应该清楚地理解，流程图的操作可以不按顺序实现。相反，操作可以以反转顺序或同时实现。此外，可以向流程图添加一个或多个其他操作。可以从流程图中移除一个或多个操作。
37.图1示出了根据本公开中一些实施例中的一种活体检测系统100的示意图。系统100可以包括客户端110、网络120、服务器130以及数据库140。
38.客户端110可以用于采集视频数据(即目标视频)，目标视频包括连续的图像序列，其实质是由一帧帧连续的图像构成。在一些实施例中，客户端110可以包括电脑110a、手机110b、相机110c、摄像机110d、多功能设备110e等具有图像采集功能或视频录制功能的设备。视频数据除了可以通过客户端进行实时采集，还可以预先存储于系统100的客户端110或数据库140中，在需要进行活体检测时直接使用。
39.网络120可以促进信息和/或数据的交换。如图1所示，客户端110、服务器130以及数据库140可以同网络120连接，并且通过网络120互相传输信息和/或数据。在一些实施例中，网络120可以是任何类型的有线或无线网络，也可以是其组合。比如，网络120可以包括电缆网络、有线网络、光纤网络、电信通信网络、内联网、互联网、局域网(lan)、广域网(wan)、无线局域网(wlan)、大都市市区网(man)、广域网(wan)、公用电话交换网(pstn)、蓝牙网络、zigbee网络、近场通信(nfc)网络或类似网络。在一些实施例中，网络120可以包括
一个或多个网络接入点。例如，网络120可以包括一个或多个有线或无线网络接入点，通过该接入点，目标物联网设备100、服务器130以及数据库140的一个或多个组件可以连接到网络120以交换数据和/或信息。
40.服务器130可以是活体检测系统100中专门用来处理程序中的活体检测的计算设备。服务器130可以存储有执行本公开描述的活体检测方法的数据或指令，并可以执行或用于执行所述数据和/或指令。服务器130可以包括具有数据信息处理能力的硬件设备和驱动该硬件设备工作所需必要的程序。当然，服务器130也可以仅为具有数据处理能力的硬件设备，或者，仅为运行在硬件设备中的程序。在一些实施例中，服务器130也可以作为插件，并部署在客户端110。
41.数据库140可以存储数据和/或指令。在一些实施例中，数据库140可以存储服务器130执行或用于执行本公开中描述的活体检测方法的数据和/或指令。客户端110和服务器130可能具有访问数据库140的权限，客户端110和服务器130可以通过网络访问存储在数据库140中的数据或指令。在一些实施例中，数据库140可以直接连接到客户端110和服务器130。在一些实施例中，数据库110可以是服务器130的一部分。在一些实施例中，数据库140可以包括大容量存储、可移动存储、易失性读写存储器、只读存储器(rom)或类似内容，或其任意组合。示例性大容量存储可能包括磁盘、光盘、固态驱动器等非暂时性存储介质(non-transitory storage medium)。示例可移动存储可能包括闪存驱动器、软盘、光盘、存储卡、zip磁盘、磁带等。典型的易失性读写内存可能包括随机存取存储器(ram)。示例ram可能包括动态ram(dram)、双日期速率同步动态ram(ddrsdram)、静态ram(sram)、晶闸管ram(t-ram)和零电容ram(z-ram)等。示例性rom可包括掩码rom(mrom)、可编程rom(prom)、可虚拟可编程rom(perom)、电子可编程rom(eeprom)、光盘(cd-rom)和数字多功能磁盘rom等。
42.应该理解，图1中的客户端110、服务器130的数目仅仅是示意性的。根据实现需要，可以具有任意数目的客户端110和服务器130。
43.需要说明的是，所述活体检测方法可以完全在客户端110上执行，也可以完全在服务器130上执行，还可以部分在客户端110上执行，部分在服务器130上执行。
44.为了方便描述，本公开后面的说明均将以在服务器130上执行所述活体检测方法为例对本公开涉及的技术方案进行描述。
45.图2是根据本公开的一些实施例提供的一种计算设备200的结构示意图。所述计算设备200可以是通用计算机或专用计算机。比如，所述计算设备200可以是服务器、个人电脑、便携式电脑(比如笔记本计算机、平板电脑等)，也可以是有其他计算能力的电子设备。当然，所述计算设备可以是图1中服务器130，也可以是多个开发人员110a、110b、110c(客户端110)用来在网络上进行程序开发的终端设备。
46.如图2所示，所述计算设备200可以包括内部通信总线210。内部通信总线210可以连接不同的系统组件，实现计算设备200中各组件间的数据通信，包括存储介质230、处理器220、通信端口250以及i/o组件260。例如，处理器220可以通过内部通信总线210将数据发送到存储介质230或i/o组件260等其它硬件中。在一些实施例中，内部通信总线210可以为工业标准(isa)总线、扩展工业标准(eisa)总线、视频电子标准(vesa)总线、外部部件互联标准(pci)总线等。
47.所述计算设备200可以包括通信(com)端口250，该可以连接到网络以便计算设备
200同外界的数据通信。所述连接可以是有线连接、无线连接或两者的组合。有线连接可以包括电缆、光缆或电话线等或其任意组合。无线连接可以包括蓝牙、wi-fi、wimax、wlan、zigbee、移动网络(例如，3g、4g或5g等)等或其任意组合。在一些实施例中，通信端口250可以是标准化端口，如rs232、rs485等。在一些实施例中，通信端口250可以是专门设计的端口。
48.所述计算设备200可以包括i/o组件260来支持同所述活体检测系统100中其他计算设备之间的数据通信。在一些实施例中，i/o组件260可以包括输入装置和输出装置。示例性输入装置可以包括摄像头、键盘、鼠标、显示屏和麦克风等，或其任意组合。示例性输出装置可以包括显示装置、语音播放装置(比如，扬声器等等)、打印机、投影仪等或其任意组合。示例性显示装置可以包括液晶显示器(lcd)、基于发光二极管(led)的显示器、平板显示器、曲面显示器、电视设备、阴极射线管(crt)等或其任意组合。
49.所述计算设备200可以包括存储介质230，存储介质230可以包括数据存储装置。所述数据存储装置可以是非暂时性存储介质，也可以是暂时性存储介质。比如，所述数据存储装置可以包括磁盘232、只读存储介质(rom)234或随机存取存储介质(ram)336中的一种或多种。存储介质230还可包括存储在所述数据存储装置中的至少一个指令集。所述指令是计算机程序代码，所述计算机程序代码可以包括执行本公开提供的活体检测方法的程序、例程、对象、组件、数据结构、过程、模块等等。
50.计算设备200还可以包括以一个或多个处理器的形式的处理器220，至少一个处理器220可以同至少一个存储介质230以及通信端口250通过内部通信总线210通信连接。至少一个处理器220用以执行上述至少一个指令集。当活体检测系统001运行时，至少一个处理器220读取所述至少一个指令集，并且根据所述至少一个指令集的指示执行本公开提供的活体检测方法。处理器220可以执行活体检测方法包含的所有步骤。处理器220可以是一个或多个处理器的形式，在一些实施例中，处理器220可以包括一个或多个硬件处理器，例如微控制器，微处理器，精简指令集计算机(risc)，专用集成电路(asic)，特定于应用的指令集处理器(asip)，中央处理单元(cpu)，图形处理单元(gpu)，物理处理单元(ppu)，微控制器单元，数字信号处理器(dsp)，现场可编程门阵列(fpga)，高级risc机器(arm)，可编程逻辑器件(pld)，能够执行一个或多个功能的任何电路或处理器等，或其任何组合。仅出于说明的目的，在所述计算设备200中仅描述了一个处理器220。然而，本领域普通技术人员可以理解的是，本公开中的计算设备200还可以包括多个处理器。因此本公开中所述的由一个处理器执行的方法/步骤/操作也可以由多个处理器共同或分别执行。例如，如果在本公开中，所述计算设备200的处理器可以同时执行步骤a和步骤b。应当理解的是，步骤a和步骤b也可以由两个不同的处理器共同执行。例如，第一处理器执行步骤a，第二处理器执行步骤b，或者第一处理器和第二处理器共同执行步骤a和b。
51.图3示出了根据本公开的一些实施例提供的一种活体检测方法的方法流程图300；图4示出了根据本公开的一些实施例提供的一种活体检测方法的整体示意图。
52.下面将结合图3和图4描述本公开的技术方案。实施所述技术方案的主体可以是图1中的客户端110、网络120、服务器130中的至少一种。具体地，所述客户端110、网络120和/或服务器130可以具有如图2所述的结构，即所述客户端110、网络120和/或服务器130可以是一种用于活体检测的设备，包括：至少一个存储介质，和至少一个处理器。所述至少一个
存储介质中包括至少一个指令集，用于程序中的活体检测。所述至少一个处理器，同所述至少一个存储介质通信连接。当所述系统运行时，所述至少一个处理器可以读取所述至少一个指令集，并且根据所述至少一个指令集的指示执行图3所述的方法300。
53.仅仅为了说明的需要，本公开将以服务器130执行所述方法300为例进行描述。所述方法300可以包括：
54.s310，获取目标视频，所述目标视频包括至少一帧图像，所述目标视频中包括至少一个目标对象。
55.本公开中，服务器130获取的目标视频包括连续的图像序列，比如，所述目标视频可以由一帧帧连续的图像构成的视频数据。目标视频可以通过具有图形采集功能或视频录制功能的客户端110进行实时采集。目标视频也可以是预先存储在系统100的客户端110或数据库140中的视频数据，当需要进行活体检测时，被系统100中的相关设备(例如服务器130)直接调用。
56.目标视频中包括至少一帧图像，例如，目标视频中图像的数量(帧数)可以是几十、几百、几千、几万或是更多。一般情况下，活体检测时拍摄的时间只需几秒甚至更短，对应拍摄到的图像帧数较少。本公开中，目标视频所包含的帧数为几十帧即可进行准确的活体检测识别。由于本公开的技术方案是针对于活体检测，因而用于活体检测的目标视频中包括至少一个目标对象，即所述目标视频的每一帧图像中包括至少一个目标对象。一般情况下，目标对象的数量为一个，少数情况下，也可以大于一个。
57.s320，对所述目标视频进行视频拆帧，得到第一视频帧子集和第二视频帧子集，所述第一视频帧子集对应第一帧率，所述第二视频帧子集对应第二帧率，所述第一帧率小于所述第二帧率。
58.在获取到所述目标视频后，服务器130可以根据具体的需求将目标视频拆分成一帧一帧的图片(即图像帧)，并从拆分出来的图片中抽取部分图片，从而得到具有不同帧率的视频帧子集，这个操作可以称之为对目标视频进行拆帧。比如，服务器可以基于所述目标视频提取出具有不同帧率的第一视频帧子集和第二视频帧子集。其中，第一视频帧子集对应第一帧率，第二视频帧子集对应第二帧率，且第一帧率小于所述第二帧率。因此，第一视频帧子集中所包含的图像帧数小于第二视频帧子集中所包含的图像帧数。在一些实施例中，第一视频帧子集和第二视频帧子集中可以包含相同的图像帧。相应地，目标视频中的某一图像帧既可以被提取到第一视频帧子集中，也可以被提取到第二视频帧子集中。需要注意的是，本公开中，服务器130基于目标视频提取的第一视频帧子集中的图像帧并不局限于目标视频中的关键帧，服务器130基于目标视频提取的第二视频帧子集中的图像帧也不局限于目标视频中的关键帧。由于第一帧率小于第二帧率，因此，可以将第一视频帧子集称为低帧率视频帧子集，将第二视频帧子集称为高帧率视频帧子集。并且，由于帧率对应每秒显示的帧数，则相对于第一视频帧子集，第二视频帧子集由于帧率更大，其更能反映目标视频中所包含的动态信息，例如眨眼、表情、动作变化、背景变化等时序信息。而相对于第二视频帧子集，第一视频帧子集由于帧率较小，其主要反映目标视频中所包含的静态信息，例如人脸纹理信息、手机攻击边框、纸张攻击材质等空间信息。
59.在一些实施例中，服务器130可以通过视频拆帧的方式，从所述目标视频中提取得到第一视频帧子集和第二视频帧子集。本公开中，视频拆帧的方式可以是按时间拆帧、按帧
数拆帧等。应当理解，服务器130还可以通过其它方式(如分帧、抽帧等)从所述目标视频中提取得到第一视频帧子集和第二视频帧子集，只需要满足第一视频帧子集对应第一帧率同第二视频帧子集对应第二帧率不同即可。
60.如图3所示，服务器130提取到第一视频帧子集和第二视频帧子集后，可以继续执行步骤s330，基于所述第一视频帧子集和所述第二视频帧子集，确定所述目标视频的特征信息。
61.具体地，如图5所示，所述步骤s330包括：
62.s331，采用第一检测模型对所述第一视频帧子集进行特征提取，得到静态特征信息；
63.s332，采用第二检测模型对所述第二视频帧子集进行特征提取，得到动态特征信息；
64.本公开中，第一检测模型和第二检测模型均为系统100中预设的信息提取网络。如图4所示，所述第一检测模型和所述第二检测模型可以为两个并行的信息提取网络。其中，第一检测模型可以是静态信息提取网络，通过静态信息提取网络可以提取第一视频帧子集中所包含的静态特征信息。第二检测模型可以是动态信息提取网络，通过动态信息提取网络可以提取第二视频帧子集中所包含的动态特征信息。由于第一视频帧子集所包含的图像帧数小于第二视频帧子集所包含的图像帧数，因而第一检测模型所需处理的数据量小于第二检测模型所需处理的数据量。
65.这样的设置模拟了人眼视觉系统对图像的处理。如前所述，人眼视觉系统中包含80％的p细胞处理静态图像，以及20％的m细胞处理动态图像。本公开中所采用的两个不同的检测模型可以模仿人眼视觉系统p、m细胞，分别用于提取静态特征信息和动态特征信息。
66.本公开中，所述第一检测模型和所述第二检测模型中可以包含不同数量的特征提取模块，也可以包含相同数量的特征提取模块。其中，第一检测模型中所包含的特征提取模块为静态信息提取模块，第二检测模型中所包含的特征提取模块为动态信息提取模块。上述静态信息提取网络和动态信息提取网络为卷积神经网络中的一种，例如，可以是残差网络。对应的，特征提取模块为残差模块。
67.本公开中，特征提取模块的数量可以是1个、2个、3个、4个、5个或是更多个。例如，所述第一检测模型、所述第二检测模型中均包含2个、3个、4个或是其它数量的特征提取模块。应当理解，图4中示出的第一检测模型和第二检测模型中均包含3个特征提取模块，图4中的特征提取模块数量不对第一检测模型和第二检测模型中实际包含的特征提取模块数量具有限制作用。
68.此外，本公开中所述第一检测模型中的静态特征提取模块的卷积核数大于所述第二检测模型中对应层级的动态特征提取模块的卷积核数。卷积核的数量决定了特征提取网络模型的计算复杂度，在卷积核的其他条件相同或相似的情况下，卷积核的数量越多，对应的特征提取网络的计算复杂度越高。本公开中，采用第一检测模型提取第一视频帧子集中的静态特征信息，采用第二检测模型提取第二视频帧子集中的动态特征信息，虽然第一视频帧子集对应的第一帧率小于第二视频帧子集对应的第二帧率。但是，对于视频采集时间较短的场景而言，第二视频帧子集中所包含的帧间变化(如眨眼、表情、动作变化、背景变化等)并不十分明显，因此，本公开还是以第一检测模型从第一视频帧子集中提取的静态特征
信息作为活体检测的主要判断依据，以第二检测模型从第二视频帧子集中提取的动态特征信息作为活体检测的辅助判断依据。因此，对于层级相同的静态特征提取模块和动态特征提取模块而言，本公开的技术方案中，静态特征提取模块中所包含的卷积核数大于动态特征提取模块中所包含的卷积核数。
69.在此基础上，本公开提供的第一检测模型为一个小输入(对应第一视频帧子集的图像帧数较少)、大网络(对应第一检测模型中的静态特征提取模块的卷积核数较多)的模型结构。相应地，本公开中提供的第二检测模型为一个大输入(对应第二视频帧子集的图像帧数较多)、小网络(对应第二检测模型中的动态特征提取模块的卷积核数较少)。也就是说，相比而言，第一检测模型的输入帧数要小于第二检测模型，而第一检测模型中静态特征提取模块的卷积核的数量要多于第二检测模型中动态提取模块的卷积核数。
70.在一些实施例中，每个所述静态特征提取模块的卷积核数同与其对应的所述动态特征提取模块的卷积核数之比与所述第二帧率同所述第一帧率之比正相关。
71.如前所述，由于本公开中所述的第一视频帧子集所包含的图像帧数小于第二视频帧子集所包含的图像帧数，且所述第一检测模型和所述第二检测模型中包含相同数量的特征提取模块。在此基础上，对于层级相同的静态特征提取模块和动态特征提取模块而言，当静态特征提取模块中所包含的卷积核数大于动态特征提取模块中所包含的卷积核数，且每个静态特征提取模块的卷积核数同与其对应的动态特征提取模块的卷积核数之比与第二帧率同第一帧率之比正相关时，可以保证第一检测模型和第二检测模型具有一致的计算复杂度，从而使第一检测模型对静态特征信息的提取效率同第二检测模型对动态特征的提取效率保持一致。
72.具体地，若所述第二帧率为所述第一帧率的n倍，则每个所述静态特征提取模块的卷积核数为与其对应层级的动态特征提取模块的卷积核数的n倍，其中，n为大于1的自然数。例如，对于层级相同的静态特征提取模块和动态特征提取模块而言，当第二帧率为第一帧率的2倍，则每个静态特征提取模块的卷积核数为动态特征提取模块的卷积核数的2倍。应当理解，n还可以是3、4、5等自然数，为了节省篇幅，在此不一一例举。
73.在一些实施例中，以所述第一检测模型和所述第二检测模型中均包含3个特征提取模块为例进行说明。即所述第一检测模型中包含第一级静态特征提取模块、第二级静态特征提取模块和第三级静态特征提取模块。相应地，所述第二检测模型中包含第一级动态特征提取模块、第二级动态特征提取模块和第三级动态特征提取模块。当第二帧率为第一帧率的2倍时，第一级静态特征提取模块所包含的卷积核数为第一级动态特征提取模块所包含的卷积核数的2倍；同理，第二级静态特征提取模块所包含的卷积核数为第二级动态特征提取模块所包含的卷积核数的2倍；第三级静态特征提取模块所包含的卷积核数为第三级动态特征提取模块所包含的卷积核数的2倍。
74.此时，所述第一检测模型(静态信息提取网络)和所述第二检测模型(动态信息提取网络)之间可以并行地提取静态特征信息和动态特征信息，且第一检测模型和第二检测模型具有一致的计算复杂度和提取效率。
75.在此基础上，步骤s331，采用第一检测模型对所述第一视频帧子集进行特征提取，得到静态特征信息，具体可以包括如下步骤：
76.s331-1，采用第一级静态特征提取模块对所述第一视频帧子集进行特征提取，得
到第一级静态特征信息；
77.s331-2，采用第二级静态特征提取模块对所述第一级静态特征信息进行特征提取，得到第二级静态特征信息；
78.s331-3，采用第三级静态特征提取模块对所述第二级静态特征信息进行特征提取，得到第三级静态特征信息。
79.服务器130将第一视频帧子集中所包含的多个图像帧首先通过第一级静态特征提取模块进行特征提取，得到第一级静态特征信息；再依次经过第二级静态特征提取模块得到第二级静态特征信息；经过第三级静态特征提取模块得到第三级静态特征信息。
80.相应地，s332，采用第二检测模型对所述第二视频帧子集进行特征提取，得到动态特征信息，可以包括：
81.s332-1，采用第一级动态特征提取模块对所述第二视频帧子集进行特征提取，得到第一级动态特征信息；
82.s332-2，采用第二级动态特征提取模块对所述第一级动态特征信息进行特征提取，得到第二级动态特征信息；以及
83.s332-3，采用第三级动态特征提取模块对所述第二级动态特征信息进行特征提取，得到第三级动态特征信息。
84.服务器130可以将第二视频帧子集中所包含的多个图像帧首先通过第一级动态特征提取模块进行特征提取，得到第一级动态特征信息；再依次经过第二级动态特征提取模块得到第二级动态特征信息；经过第三级动态特征提取模块得到第三级动态特征信息。
85.s333，基于所述静态特征信息和所述动态特征信息，确定所述特征信息。
86.本公开中，所述特征信息是最终作为活体检测预测的依据。由于本公开采用两个并行的特征提取网络(包括静态信息提取网络和动态信息提取网络)分别提取目标视频的静态特征信息和动态特征信息。因此，服务器130可以综合考虑静态特征信息和动态特征信息，以确定最终进行活体检测的特征信息。采用上述方法可以充分利用目标视频的动态特征信息和静态特征信息，从而提高活体检测的特征鲁棒性。
87.具体地，如图4所示，以第一检测模型和第二检测模型中均包含3个特征提取模块为例，所述步骤s333可以包括：
88.s333-1，将所述动态特征信息融合到所述静态特征信息中，得到融合后的静态特征信息；
89.在一些实施例中，步骤s333-1具体包括：将所述第一级动态特征信息与所述第一级静态特征信息进行特征融合，得到融合后的第一级特征信息；不同层次特征包含不同信息的分布，本公开中，所述第一级动态特征信息和所述第一级静态特征信息为浅层特征，浅层特征包含丰富的空间结构信息、分辨率较高，其具有局部的、精细的特点，因而所述第一级动态特征信息与所述第一级静态特征信息的融合为浅层融合。
90.本公开中，上述将第一级动态特征信息与第一级静态特征信息进行特征融合的方式可以采用加权融合、特征拼接、特征之间对应元素相乘、反卷积、跳跃连接(skip)等方式。以加权融合为例，服务器130分别确定所述第一级动态特征信息的权重值和所述第一级静态特征信息的权重值，再将所述第一级动态特征信息和所述第一级静态特征信息分别乘以各自的权重值后相加，得到融合后的第一级特征信息。应当理解，本公开所述的特征融合方
式可根据实际情况进行选择，上述加权融合方式不对本公开的特征融合方式具有限制作用。
91.之后，服务器130继续将所述融合后的第一级特征信息经过所述第二级静态特征提取模块后，得到第二级特征信息；该步骤区别于步骤s331-2中采用第二级静态特征提取模块对所述第一级静态特征信息进行特征提取，得到第二级静态特征信息。即所述第二级特征信息有别于所述第二级静态特征信息。第二级静态特征提取模块的输入端信息不同，则对应输出的信息也有所不同。本公开中，当第二级静态特征提取模块的输入端输入的是未进行特征融合的第一级静态特征信息时，则输出第二级静态特征信息。而当第二级静态特征提取模块的输入端输入的是经过特征融合后第一级特征信息时，则输出第二级特征信息。
92.之后，服务器130再继续将所述第二级动态特征信息与所述第二级特征信息进行特征融合，得到融合后的第二级特征信息。本公开中，所述第二级动态特征信息和所述第二级特征信息包含丰富的全局上下文特征信息，是更加全局、粗糙的深层特征，因而所述第二级动态特征信息与所述第二级特征信息的融合为深层融合。本公开中，上述将第二级动态特征信息与第二级特征信息进行特征融合的方式同样可以采用加权融合、特征拼接、特征之间对应元素相乘、反卷积、跳跃连接(skip)等方式。
93.之后，服务器130继续将所述融合后的第二级特征信息经过所述第三级静态特征提取模块后，得到第三级特征信息；该步骤区别于步骤s331-3，采用第三级静态特征提取模块对所述第二级静态特征信息进行特征提取，得到第三级静态特征信息。即所述第三级静态特征信息有别于所述第三级特征信息。与第二级静态特征提取模块相同的是，第三级静态特征提取模块的输入端信息不同，则对应输出的信息也有所不同。本公开中，当第三级静态特征提取模块的输入端输入的是未进行特征融合的第二级静态特征信息时，则输出第三级静态特征信息。而当第三级静态特征提取模块的输入端输入的是经过特征融合后第二级特征信息时，则输出第三级特征信息。采用上述方法将动态特征信息融合到静态特征信息中得到所述第三级特征信息后，服务器130进一步将所述第三级特征信息作为所述融合后的静态特征信息。本公开中，通过将动态信息融合到静态信息中的方式，可以获得更加强大的特征表达，从而得到更加鲁棒的特征信息。
94.服务器130确定了融合后的静态特征信息之后，可继续执行步骤s333-2，基于所述融合后的静态特征信息和所述动态特征信息，确定所述特征信息。
95.在一些实施例中，服务器130可以将所述第三级动态特征信息作为所述动态特征信息；并将所述融合后的静态特征信息和所述第三级动态特征信息共同作为所述特征信息。
96.应当理解，当第一检测模型和第二检测模型中包含的特征提取模块的数量为其它数值时，服务器130依然可以采用第一检测模型对第一视频帧子集进行特征提取，得到静态特征信息，服务器130也可以采用第二检测模型对第二视频帧子集进行特征提取，得到动态特征信息。并且，服务器130可以在所述动态特征信息融合到所述静态特征信息的过程中，根据特征提取模块的数量确定浅层融合、深层融合的时机，从而得到融合后的静态特征信息。
97.本公开中，服务器130将所述融合后的静态特征信息和所述动态特征信息作为所
述特征信息。一方面可以充分利用目标视频中的时空信息；另一方面，通过动态特征信息和静态特征信息融合的方式得到的特征信息，可以进一步提高用于活体检测的特征鲁棒性。
98.服务器130在确定了所述特征信息后，可以继续执行步骤s340，基于所述特征信息，确定所述目标对象的活体概率。
99.在一些实施例中，步骤s340可以包括：
100.s341，基于所述融合后的静态特征信息，确定所述目标对象的第一活体概率；
101.s342，基于所述动态特征信息，确定所述目标对象的第二活体概率；
102.本公开中，服务器130可以采用分类器分别计算目标对象的第一活体概率和第二活体概率。由于目标对象的第一活体概率是根据融合后的静态特征信息计算所得，而目标对象的第二活体概率是根据动态特征信息计算所得。因而，服务器130在对目标对象进行活体预测时，可以综合第一活体概率和第二活体概率，计算所述目标对象最终的活体概率。即服务器130确定了所述第一活体概率和所述第二活体概率后，继续执行步骤s343，基于所述第一活体概率和所述第二活体概率，确定所述目标对象的所述活体概率，所述活体概率用于指示所述目标对象为活体对象的概率。
103.具体地，服务器130可以采用分数融合的方式分别获取所述第一活体概率和所述第二活体概率的权重比；再基于所述权重比、所述第一活体概率和所述第二活体概率，确定所述目标对象的活体概率。
104.在一些实施例中，在步骤s340之后，还包括：
105.s350，将所述活体概率与预设概率阈值进行对比；以及
106.s360，确定所述活体概率超过所述预设概率阈值，确定所述目标对象为活体对象。
107.本公开中，当所述活体概率超过所述预设概率阈值时，确定所述目标对象为活体对象(真人)；当所述活体概率未超过所述预设概率阈值时，则确定所述目标对象为非活体对象(非真人)，此时，也可以将所述目标对象称为攻击对象。
108.综上所述，在阅读本详细公开内容之后，本领域技术人员可以明白，前述详细公开内容可以仅以示例的方式呈现，并且可以不是限制性的。尽管这里没有明确说明，本领域技术人员可以理解本公开意图囊括对实施例的各种合理改变，改进和修改。这些改变，改进和修改旨在由本公开提出，并且在本公开的示例性实施例的精神和范围内。
109.此外，本公开中的某些术语已被用于描述本公开的实施例。例如，“一个实施例”，“实施例”和/或“一些实施例”意味着结合该实施例描述的特定特征，结构或特性可以包括在本公开的至少一个实施例中。因此，可以强调并且应当理解，在本公开的各个部分中对“实施例”或“一个实施例”或“替代实施例”的两个或更多个引用不一定都指代相同的实施例。此外，特定特征，结构或特性可以在本公开的一个或多个实施例中适当地组合。
110.应当理解，在本公开的实施例的前述描述中，为了帮助理解一个特征，出于简化本公开的目的，本公开有时将各种特征组合在单个实施例、附图或其描述中。或者，本公开又是将各种特征分散在多个本公开的实施例中。然而，这并不是说这些特征的组合是必须的，本领域技术人员在阅读本公开的时候完全有可能将其中一部分特征提取出来作为单独的实施例来理解。也就是说，本公开中的实施例也可以理解为多个次级实施例的整合。而每个次级实施例的内容在于少于单个前述公开实施例的所有特征的时候也是成立的。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

一种活体检测方法和系统与流程

相关文献

最热文献