脸部反欺骗方法与流程

2021-11-25 01:15:00 来源：中国专利 TAG：

1.本发明涉及双相机(即红
‑
蓝
‑
绿(rgb)相机和近红外(nir)相机)脸部反欺骗方法。

背景技术：

2.现有的脸部反欺骗方法从图像中提取纹理特征来训练分类器，从而区分真实脸部和欺骗脸部。例如，局部二值模式(local binary pattern，lbp)和图像失真分析(image distortionanalysis，ida)能够训练并测试在类似成像条件下拍摄的图像。然而，lbp/ida方法将对相机和照明差异敏感，并且将具有较差的泛化能力。
3.其他反欺骗方法依赖于来自3d相机的深度信息，或者利用用户的协作来执行预定义的脸部动作。3d相机依赖于渡越时间数据且会引起额外的费用，并且利用预定义的脸部动作将会对终端用户不友好且花费额外的时间。

技术实现要素：

4.一种脸部反欺骗的示例性方法，包括：接收具有近红外通道的近红外脸部图像；接收具有红色通道、绿色通道和蓝色通道的红
‑
绿
‑
蓝脸部图像；基于近红外通道、红色通道、绿色通道和蓝色通道生成合成的三通道图像；以及基于合成的三通道图像训练深度神经网络。
5.另一种脸部反欺骗的示例性方法，包括：接收具有近红外通道的近红外脸部图像；接收具有红色通道、绿色通道和蓝色通道的红
‑
绿
‑
蓝脸部图像；以及融合近红外通道、红色通道、绿色通道和蓝色通道的特征图，以形成融合层，其中在深度神经网络的中间级别的卷积层处融合特征图。
附图说明
6.在附图中：
7.图1是根据本发明的一个实施例的第一示例性系统的示意图；
8.图2是根据本发明的一个实施例的第二示例性系统的示意图；
9.图3是根据本发明的一个实施例的示例性的脸部感兴趣区域；
10.图4是根据本发明的一个实施例的示例性的nir
‑
rgb合成三通道图像建模；
11.图5是根据本发明的一个实施例的示例性的nir
‑
rgb三通道合成图像；
12.图6是根据本发明的一个实施例的示例性的nir
‑
rgb三通道合成混合模型的接收机操作特性(roc)曲线；
13.图7是示例性的nir
‑
rgb未对准的合成图像；
14.图8是根据本发明的一个实施例的示例性的mobilenet流；
15.图9是根据本发明的一个实施例的示例性的mobilenet流模型的接收机操作特性(roc) 曲线和比较；
16.图10是根据本发明的一个实施例的另一示例性的mobilenet流模型的接收器操作
特性 (roc)曲线和比较；
17.图11是根据本发明的一个实施例的示例性的方法；以及
18.图12是根据本发明的一个实施例的另一示例性的方法。
具体实施方式
19.以下列出的实施例仅用于说明装置和方法的应用，而不是限制本发明的范围。对该装置和方法的修改的等同形式的修改应归入到权利要求的范围内。
20.贯穿以下说明书和权利要求使用的某些术语用于指代特定系统部件。如本领域技术人员将理解的，不同的公司可以以不同的名称来指代部件和/或方法。该文献无意区分名称不同但功能并非不同的部件和/或方法。
21.在以下讨论和权利要求中，术语“包括”和“包含”以开放式的方式使用，因此可以被解释为“包括，但不限于
…”
。此外，术语“联接”或“连接联接(第三人称)”旨在表示间接或直接的连接。因此，如果第一设备与第二设备联接，则该连接可以通过直接连接或通过经由其他设备和连接的间接连接来实现。
22.图1描绘了示例性的混合计算系统100，该系统可用于实现与过程1100中的一个或多个部分或步骤的操作相关联的神经网络。在该示例中，与所述混合系统相关联的处理器包括现场可编程门阵列(fpga)122、图形处理器单元(gpu)120和中央处理单元(cpu)118。
23.cpu 118、gpu 120和fpga 122具有提供神经网络的能力。cpu是可以执行许多不同功能的通用处理器，它的通用性导致其能执行多个不同任务的能力，然而，它对于多个数据流的处理是有限的，并且它相对于神经网络的功能是有限的。gpu是图形处理器，它具有能够依次处理并行任务的许多小的处理内核。fpga是现场可编程设备，它具有被重配置并且以硬连线电路的方式来执行任何可被编程到cpu或gpu中的功能的能力。由于fpga的编程是以电路形式的，因此其速度是cpu的几倍快，并且明显快于gpu。
24.系统还可以包含其他类型的处理器，例如：加速处理单元(apu，其包括有cpu并且在芯片上具有gpu元件)以及专门用于执行高速数字数据处理的数字信号处理器(dsp)。专用集成电路(asic)也可以执行fpga的硬连线功能，然而，设计和生产asic的交付周期约为一个季度，其并不是在对fpga进行编程中可用的快速周转实现实施方案。
25.图形处理器单元120、中央处理单元118和现场可编程门阵列122连接并连接至存储器接口和控制器112。fpga通过可编程逻辑电路连接至存储器接口，以连接存储器互连130。由于fpga的工作带宽非常大的事实并且为了将fpga的用来执行存储任务的电路最小化，可以使用附加设备。存储器接口和控制器112另外连接至永久存储盘110、存储系统114和只读存储器(rom)116。
26.图1的系统可用于fpga进行编程和训练。gpu利用非结构化数据良好地运行并且可以被用于进行训练，一旦数据被训练完成，则可以找到确定性推论模型(deterministicinference model)，并且cpu可以利用由gpu确定的模型数据对fpga进行编程。
27.存储器接口和控制器连接至中央互连124，中央互连124另外连接至gpu 120、cpu118和fpga 122。中心互连124另外连接至输入和输出接口128和网络接口126。
28.图2描绘了第二示例性混合计算系统200，该系统可用于实现与过程1200中的一个或多个部分或步骤的操作相关联的神经网络。在该示例中，与混合系统相关联的处理器包
括现场可编程门阵列(fpga)210和中央处理单元(cpu)220。
29.fpga电连接至fpga控制器212，该fpga控制器212与直接存储器访问(dma) 218接口连接。dma 218连接至输入缓冲器214和输出缓冲器216，输入缓冲器214和输出缓冲器216都与fpga联接，以分别将数据缓冲到fpga和将数据从fpga缓冲出来。 dma 218具有两个先进先出(fifo)缓冲器，一个用于主cpu，另一个用于fpga，dma 允许向适当的缓冲器写入数据或者从适当的缓冲器读取数据。
30.在dma的cpu侧是主交换机228，其将数据和命令往返传送至dma。dma还连接至同步动态随机存取存储器(sdram)控制器224，该sdram控制器允许数据在fpga和 cpu220之间往返传送，sdram控制器还连接至外部sdram 226和cpu 220。主交换机 228连接至外围接口230。闪存控制器222控制永久存储器并且连接至cpu 220。
31.利用脸部识别进行安全访问的现有系统可能被诸如例如脸部照片打印和视频重放的欺骗攻击所入侵。脸部反欺骗技术正成为脸部验证系统的重要组成部分。反欺骗方法允许系统检测并拒绝欺骗攻击，这增强了系统安全性。目前的反欺骗技术依赖于来自渡越时间分析的三维(3d)深度信息或对诸如微笑、点头、眨眼等预定义动作的识别。目前的脸部反欺骗系统可能呈现出较低的精度以及较差的泛化能力。
32.描述了将来自近红外(nir)和红
‑
蓝
‑
绿(rgb)图像源的信息进行组合以训练深度神经网络的两个实施例。第一实施例利用来自nir和rgb双相机组的双模态输入来捕获人脸的nir和rgb图像并生成合成的三通道图像。第二实施例提供了用于处理人脸的nir输入和rgb输入的双分支网络结构。
33.nir
‑
rgb模型展示了高精确度以及区分真实脸部与欺骗攻击的能力。已将实施例与目前的局部二值模式(lbp)
‑
支持向量机(svm)方法和目前的红外(ir)单模态方法进行了比较。
34.第一实施例利用近红外(nir)相机和红
‑
蓝
‑
绿(rgb)相机基于通过深度神经网络路由的组合式混合通道输入来实现脸部反欺骗。nir相机输入可以提供照明条件不变的图像，而rgb相机可以提供脸部颜色信息。第一实施例基于300个现实受试者和1000个欺骗受试者的数据集而得到具有增强精度的测试结果(真实阳性率(tpr)大于99.9％，假接受率 (far)＝10e
‑
3.5)。
35.nir相机由nir光源、nir传输透镜和nir响应传感器组成。nir相机检测具有700 nm至140 0nm的近红外波长光谱的光，并且通常利用窄nir带通滤光器进行滤光。在手机、平板计算机或计算机屏幕上显示的照片或视频等欺骗攻击的电子版本被近红外相机拒绝，因为这些欺骗攻击并不在nir波长光谱范围内。nir图像可以捕获3d结构细节。nir图像的外观类似于灰度图像，因为有色光并不在nir波长光谱范围内。图像质量相对于环境光变化通常是不变的。然而，nir图像缺乏可见的颜色信息和来自自然光的反射细节。
36.rgb相机接收可见光波长光谱中的数据并处理接近人类视觉感知的彩色图像。rgb相机输出包含丰富的颜色信息和自然环境光在3d物体上的反射。
37.在一个示例中，nir相机和rgb相机在设置为水平线上彼此相距固定距离。nir和 rgb视频帧被同步度捕获并被传送到图像处理系统。
38.脸部检测器可以识别nir图像和rgb图像中的人脸，并返回它们的边界框位置，如图 3所示的300。nir图像和rgb图像对中的边界框310、312、314、320根据它们的位置、大小
和形状进行匹配，以确定它们是否属于同一人脸。在nir
‑
rgb图像中检测到人脸之后，可以提取包括双眼的中心位置的脸部界标316、318。可以从nir图像和rgb图像对中裁剪出脸部感兴趣区域(roi)，并根据两个眼睛中心对齐。
39.可以根据nir和rgb脸部感兴趣区域来重铸合成的三通道图像。该方法的一个示例利用mobilenet v1作为基线分类模型。由于从nir
‑
rgb双相机收集的图像数据有限，因此在 imagenet上预先训练模型权重以初始化训练。在大规模数据集上进行预训练可以提供低级别过滤器权重，该权重捕获用于高级别分类的图像细节。利用小数据集从头开始训练将导致训练不足、缺少泛化能力和模型性能低下。为了重用预先训练的权重，输入利用三通道(rgb) 图像。在一个示例性实施例中，将单通道nir和三通道rgb图像组合以生成合成的三通道图像。
40.第一实施例的前两个变体利用nir通道和r、g、b通道的线性组合将nir
‑
rgb图像对转换为新的合成三通道图像。图4中示出的两个版本(v1，410和v2，412)的公式被训练并测试。变体1(v1，410)在新的r通道上输入nir图像414，在新的g通道上输入近红外图像416，并且将近红外图像418线性地组合到新的b通道上。变体2(v2，412)在新的r通道上输入nir图像420，将蓝色和绿色通道422线性混合到新的g通道上，并且在新的r通道上输入红色通道424。
41.第一实施例的第三变体通过将rgb图像转换为yuv格式、用nir图像代替y通道，并利用y和nir的线性组合作为新的y通道，来根据nir
‑
rgb图像对生成合成的三通道图像。然后该方法将新的yuv通道转换为合成的rgb三通道图像。
42.第一实施例的第四变体通过将rgb图像转换为yuv格式并分解在频域中的y通道和 nir单通道图像，来根据nir
‑
rgb图像对生成合成的三通道图像。该方法将y和nir的高频分解图像组合成高频集合，将y和nir的低频分解图像组合成低频集合，并且根据高频集合和低频集合的频率图像来重构新合成的rgb三通道图像。
43.图5中的500描绘了组合rgb图像512和nir图像510以允许访问rgb图像和近红外图像的优点。rgb图像包含用于区分黑白照片打印的脸部的颜色信息。可以在恒定点光源下捕获nir图像，这增强了在各种环境照明条件下的结构细节。结果是nir
‑
rgb通道514 的合成。
44.在图6中，针对以下模型的输出、nir图像610、利用根据图4的v1，612的nir
‑
rgb 图像和利用根据图4的v2，612的nir
‑
rgb图像绘制了真阳性率(tpr)和假接受率 (far)。在由v1，612和v2，614方法生成的合成三通道图像上训练反欺骗模型，而在 nir图像610上训练相同的模型。如图所示，v1，612和v2，614方法优于仅使用nir图像作为输入610的已有方法。
45.图6指示出v2，614方法优于v1，612方法，这可能是由于v2方法将来自rgb图像的附加颜色信息并入模型中所导致的。v1方法具有两个来自近红外图像通道和一个来自rgb 图像的通道。v2方法利用nir图像中的一个通道和由rgb图像导出的两个通道。
46.基于在nir
‑
rgb三通道合成图像上的训练的方法，观察到将nir图像与rgb图像组合可有利于提高脸部反欺骗性能。生成nir
‑
rgb三通道合成图像部分地基于nir和rgb 图像的精确对准，该对准基于脸部界标检测。该脸部界标检测包括不精确性，并且可能由于大姿态和脸部遮挡物(例如眼镜、头发等)而产生错误。界标检测误差可能导致nir
‑
rgb 脸部
感兴趣区域之间的不对准，从而导致不真实的合成图像，例如图7中描绘的双重图像 700，其导致结构和颜色信息偏移。
47.图8描绘了nir图像和rgb图像经由深度神经网络的路由，其可以以至少两种方式完成。第一实施例的合成三通道图像可以路由经过神经网络，如810所示。经过神经网络的 nir图像和rgb图像的第二路由可以是经过第一初始部分的网络812输入的rgb图像，以及经过第二初始部分的网络814输入的nir图像。在下游的点处，第一初始部分的网络812 和第二初始部分的网络814被级联，并作为一个组合流路由经过神经网络的其余部分。经过神经网络的nir图像和rgb图像的第二路由涉及利用两个分支mobilenet
‑
v1结构的脸部界标检测和脸部对准，所述两个分支mobilenet
‑
v1结构在卷积层(逐深度(depth
‑
wise)的和逐点(point
‑
wise)的)的两个单独分支中以并行方式输入nir通道和rgb通道。
48.这两个分支在合并层816处级联，然后运行经过网络的其余部分。图8中展示了原始 mobilenet v1模型和两个分支mobilenet v1模型的结构。由于两个特征图在几个卷积层之后被合并，因此nir和rgb脸部感兴趣区域之间的不对准(参见图7中的700)对两个信号的融合几乎没有影响。
49.在两个分支模型中，由于级联，在合并层816(conv11)处的输入通道的数量加倍。在合并层(conv11)处的输出通道的数量与原始网络的数量相同。因此，网络结构的其余部分保持不变。
50.至少两个因素对合并层的选择有影响。由于有限的训练数据大小，利用一组预先训练的网络权重来初始化训练。预先训练的权重被加载到两个分支上直到合并层。然而，由于合并层的结构由于级联而改变，因此在合并层之后不使用预先训练的权重。
51.如果两个分支过早合并，则只能在前几层上应用预先训练的权重。可能需要根据有限的数据从头开始对网络的其余部分进行训练。如果两个分支合并得太晚，该模型就像训练两个单独的网络并在它们的末端合并，这将会丢失nir图像和rgb图像之间的低等级和空间相关性。在一个示例中，基于初始实验结果，在层conv11处的合并(图9，920)产生了最佳结果。
52.图9描绘了以下基于mobilenet的模型的真阳性率与假接受率的输出：仅nir 910、合成的三通道nir
‑
rgb v1 912、合成的三通道nir
‑
rgb v2 914、在第6层级联的两分支 nir
‑
rgb 916、在第10层级联的两分支nir
‑
rgb 918、在第11层级联的两分支nir
‑
rgb920，在第12层级联的两分支nir
‑
rgb 922、和在第13层级联的两分支nir
‑
rgb 924。
53.两分支模型(916
‑
924)和nir
‑
rgb合成三通道模型(912
‑
914)的优于仅nir 910的基线模型。由于nir
‑
rgb三通道v2模型(图9，914)具有混合的nir
‑
rgb颜色信息的以及充分利用imagenet预训练模型的能力，所以在测试的模型中实现了最佳性能。
54.图10描绘了针对以下模型的真阳性率与假接受率的输出：仅nir 1010、合成的三通道nir
‑
rgb v1 1012、合成的三通道nir
‑
rgb v2 1014、在第11层级联的两分支nir
‑
rgb1016、和目前支持向量机(svm)方法和nir局部二值模式(lbp)的方法1018。
55.在卷积层11级联的nir
‑
rgb两分支模型(图10，1016)提供比nir
‑
rgb三通道合成 v2模型(图10，1014)略低的性能。一种可能的原因可能是预先训练的权重未被完全重用。 nir
‑
rgb模型明显优于基于lbp
‑
svm算法的传统计算机视觉解决方案(图10，1018)。
56.图11描绘了脸部反欺骗的示例性方法，包括：接收1110具有近红外通道的近红外
脸部图像；以及接收1112具有红色通道、绿色通道和蓝色通道的红
‑
绿
‑
蓝脸部图像。该方法还基于近红外通道、红色通道、绿色通道和蓝色通道生成1114合成的三通道图像，以及基于合成的三通道图像训练1116深度神经网络。
57.在该示例性方法中，合成的三通道图像包括：可以包括近红外通道的第一新通道、可以包括近红外通道的第二新通道、可以包括红色通道、绿色通道和蓝色通道的平均值的第三新通道。
58.合成的三通道图像包括：可以包括近红外通道的第一新通道、可以包括绿色通道和蓝色通道的平均值的第二新通道、可以包括红色通道的第三新通道。
59.该方法还可以包括：将红
‑
绿
‑
蓝脸部图像转换为具有亮度通道、蓝色通道和红色通道的亮度
‑
蓝
‑
红脸部图像；利用近红外线通道替换换新的亮度通道；以及将亮度
‑
蓝
‑
红脸部图像转换为新的合成红
‑
绿
‑
蓝脸部图像。
60.该方法还可以包括：将红绿蓝脸部图像转换为具有亮度通道、蓝色通道和红色通道的亮度蓝红脸部图像；用近红外通道和亮度通道的平均值替换新的亮度通道，并将亮度蓝红脸部图像转换为新的合成红绿蓝脸部图像。
61.该方法还可以包括：将红
‑
绿
‑
蓝脸部图像转换为具有亮度通道、蓝通道和红通道的亮度
‑ꢀ
蓝
‑
红脸部图像；在频域中分解亮度通道；在频域中分解近红外通道，以及将分解的亮度通道和分解的近红外通道的高频分量进行组合。该方法还可以包括：将分解的亮度通道和分解的近红外通道的低频分量进行组合，并且根据组合的高频分量和低频分量来重构新的合成图像。
62.图12描绘了脸部反欺骗的另一示例性方法，包括：接收1210具有近红外通道的近红外脸部图像；以及接收1212具有红色通道、绿色通道和蓝色通道的红
‑
绿
‑
蓝脸部图像。该方法还包括：融合1214近红外通道和红色通道、绿色通道和蓝色通道的特征图以形成融合层，其中在深度神经网络的中间级别的卷积层处融合所述特征图。
63.在该示例中，可以在第11卷积层(conv11)处执行融合，并且可以在逐深度和逐点的基础上执行卷积层融合。针对融合层的输入通道的数量加倍，针对融合层的输出通道的数量保持不变。
64.在即时应用中描述的解决方案示例提供了基于深度学习的脸部反欺骗系统，该系统具有 nir
‑
rgb双模态输入。一个实施例组合nir和rgb双重输入脸部感兴趣区域图像以生成用于训练深度神经网络的合成三通道图像。另一实施例利用两分支神经网络结构，该结构采用 nir和rgb双重输入脸部感兴趣区域图像，并在中间层处融合特征图，以获取低级别和空间相关性。nir
‑
rgb模型在大型数据集(300个现实受试者和1000个欺骗受试者)上进行测试，并且在利用imagenet预先训练权重进行训练之后证实了高性能。
65.本领域的技术人员将了解，本文中所描述的各种说明性的块、模块、元件、部件、方法和算法可实施为电子硬件、计算机软件或两者的组合。为了说明硬件和软件的这种可互换性，上文已经在其功能方面对各种说明性的块、模块、元件、部件、方法和算法进行了总体描述。将该功能实施为硬件还是软件取决于强加于整个系统的特定应用和设计约束。熟练的技术人员可以针对每个特定应用以不同方式来实施所描述的功能。在不脱离本主题技术的范围的情况下，各种部件和块可以被不同地布置(例如以不同的顺序布置，或以不同的方式划分)。
66.应理解，所公开的过程中的步骤的特定顺序或层级是对示例方法的一种说明。基于设计偏好，可以理解，过程中的步骤的特定顺序或层级可以被重新排列。一些步骤可以同时进行。所附方法权利要求以样本顺序呈现各个步骤的要素，并不意味着受限于所呈现的特定顺序或层级。
67.提供前面的描述是为了使本领域技术人员能够实践本文中所描述的各种方面。前面的描述提供了本主题技术的各种示例，并且本主题技术不限于这些示例。对于本领域技术人员来说，对这些方面的各种修改是明显的，并且本文限定的一般原理可以应用于其他方面。因此，权利要求并不旨在受限于本文所示的方面，而是旨在使全部范围与权利要求的语言表述相一致，其中对单数元素的引用并不旨在表示“一个且仅一个”，除非具体如此陈述，而是表示
ꢀ“
一个或多个”。除非另外特别说明，否则术语“一些”是指一个或多个。男性中的代词 (例如，他的)包括女性和中性(例如，她和它的)，反之亦然。标题和副标题(如果有的话)仅为了方便而使用，并不限制本发明。谓语“被配置以”、“可操作以”和“被编程以
”ꢀ
并不暗示着对主语的任何特定的有形或无形修改，而是旨在可被互换地使用。例如，被配置以监视和控制操作或部件的处理器，还可以表示，该处理器被编程以监视和控制操作，或者处理器可操作以监视和控制操作。同样地，被配置以执行代码的处理器，可以被解释为，被编程以执行代码的处理器或可操作以执行代码的处理器。
68.诸如“方面”之类的短语并不暗示这样的方面对于本技术是必不可少的，或者这样的方面适用于主题技术的所有配置。涉及一方面的公开可适用于所有配置、或一个或多个配置。一个方面可以提供一个或多个示例。诸如“方面”的短语可以指代一个或多个方面，反之亦然。诸如“实施例”之类的短语并不暗示这样的实施例对于主题技术是必不可少的，或者这样的实施例适用于主题技术的所有配置。涉及一个实施例的公开可应用于所有实施例，或一个或多个实施例。一个实施例可提供一个或多个示例。诸如“实施例”的短语可以指代一个或多个实施例，反之亦然。诸如“配置”之类的短语并不暗示这样的配置对于主题技术是必不可少的，或者这样的配置适用于主题技术的所有配置。涉及一种配置的公开可应用于所有配置、或一个或多个配置。一种配置可提供一个或多个示例。诸如“配置”的短语可以指一个或多个配置，反之亦然。
69.本文使用词语“示例”来表示“用作示例或说明”。本文描述为“示例”的任何方面或设计不必被解释为比其他方面或设计更优选或更具优势。
70.本领域普通技术人员已知或以后将知道的，贯穿本发明所描述的各个方面的元件的所有结构和功能等同物通过引用被明确地并入本文，并且旨在由权利要求所涵盖。此外，无论在权利要求中是否明确地叙述了这样的公开，本文的公开都不旨在捐献于公众。此外，关于在说明书或权利要求书中使用“包括”、“具有”或类似术语的含义，这样的术语旨在被包括在术语“包含”的方式内，类似于当“包括”在权利要求中被用作连接词时，对“包括”的解释那样。
71.对“一个实施例”、“实施例”、“一些实施例”、“各种实施例”或类似表述的引用表明特定元件或特性被包括在本发明的至少一个实施例中。虽然短语可能出现在多个地方，但短语不一定是指同一个实施例。结合本发明，本领域技术人员将能够设计和并入适合于实现上述功能的各种机制中的任何一种。
72.应理解，本发明仅教导了说明性的实施例的一个示例，并且本领域技术人员在阅
读本发明之后可以容易地设计出本发明的许多变体，并且本发明的范围由以下权利要求确定。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于深度学习模型的图像水印方法与流程

脸部反欺骗方法与流程

相关文献

最热文献