一种活体检测的方法及装置与流程

2022-07-09 21:48:45 来源：中国专利 TAG：

1.本发明涉及智能识别技术领域，具体而言，涉及一种活体检测的方法及装置。

背景技术：

2.随着移动互联网的发展，生物特征身份认证技术的发展越来越丰富，生物特征识别准确率越来越高，使得采用生物特征进行身份认证的应用场景越来越广泛。利用生物特征进行身份认证，能够正确识别出真实用户，排除他人冒仿真实用户。
3.活体检测技术是生物特征身份认证技术的重要组成部分，通过人脸和语音不同细节的分析进行活体检测，包括但不限于：人脸结构光、纹理、深度图、动作指令、简单语音指令进行活体检测。
4.但该活体检测方法，容易被假体样本攻破，例如，在活体检测过程中，依据活体检测对应的检测策略，通过预先构建该检测策略对应的合成视频、和/或语音，能够使得进行活体检测的结果为有效，从而降低了识别准确率。

技术实现要素：

5.有鉴于此，本发明的目的在于提供活体检测的方法及装置，以提高活体的识别准确率。
6.第一方面，本发明实施例提供了活体检测的方法，包括：
7.采集包含语音的人脸视频，确定采集的人脸视频中包含正脸，生成随机文本，将生成的随机文本随机显示在预设屏幕的随机区域内后，提示用户朗读显示的随机文本；
8.采集用户朗读显示的随机文本的视频，确定朗读视频中包含人脸和语音，基于朗读视频，获取用户朗读随机文本时面对屏幕的位置特征向量，以及，用户注视屏幕的视角向量；
9.将位置特征向量和视角向量输入预先训练好的活体一致性检测模型，得到位置特征向量和视角向量的一致性值；
10.若一致性值不小于预设的一致性阈值，确定活体检测通过。
11.结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，在所述确定朗读视频中包含人脸和语音之后，基于朗读视频，获取用户朗读随机文本时面对屏幕的位置特征向量之前，所述方法还包括：
12.计算人脸视频中包含的人脸与朗读视频中包含的人脸活体第一相似度，以及，计算人脸视频中包含的语音与朗读视频中包含的语音活体的第二相似度；
13.若第一相似度大于预设的人脸活体相似度阈值，且第二相似度大于预设的语音活体相似度阈值，执行所述基于朗读视频，获取用户朗读随机文本时面对屏幕的位置特征向量的步骤。
14.结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中，所述位置特征向量包括：人脸至采集摄像头的距离、以视频中图像左上角为原点的双眼中点
的横坐标值以及以视频中图像左上角为原点的双眼中点的纵坐标值，所述视角向量包括：用户注视屏幕的视角向量的角度值、以屏幕左上角为原点的随机文本位置中点的横坐标值以及以屏幕左上角为原点的随机文本位置中点的纵坐标值。
15.结合第一方面，本发明实施例提供了第一方面的第三种可能的实施方式，其中，所述获取用户朗读随机文本时面对屏幕的位置特征向量，以及，用户注视随机文本的视角向量，包括：
16.基于朗读视频的时间轴依次进行采样；
17.在同一采样时间点，分别获取用户在面对屏幕的采样位置特征向量，以及，用户注视随机文本的采样视角向量；
18.对多个采样时间点的采样位置特征向量进行均值处理，得到位置特征向量；以及，
19.对多个采样时间点的采样位置视角向量进行均值处理，得到视角向量。
20.结合第一方面，本发明实施例提供了第一方面的第四种可能的实施方式，其中，所述获取用户朗读随机文本时面对屏幕的位置特征向量，以及，用户注视随机文本的视角向量，包括：
21.基于朗读视频的时间轴依次进行采样；
22.在同一采样时间点，分别获取用户在面对屏幕的采样位置特征向量，得到基于该采样时间点的位置特征向量，以及，用户注视随机文本的采样视角向量，得到基于该采样时间点的视角向量。
23.结合第一方面的第四种可能的实施方式，本发明实施例提供了第一方面的第五种可能的实施方式，其中，所述将位置特征向量和视角向量输入预先训练好的活体一致性检测模型，得到位置特征向量和视角向量的一致性值，包括：
24.针对每一采样时间点，将该采样时间点对应的位置特征向量和视角向量组成向量对；
25.将各采样时间点对应的向量对依次输入所述活体一致性检测模型，得到各向量对分别对应的一致性值。
26.结合第一方面、第一方面的第一种可能的实施方式至第五种可能的实施方式中的任一种可能的实施方式，本发明实施例提供了第一方面的第六种可能的实施方式，其中，所述在若一致性值不小于预设的一致性阈值之后，确定活体检测通过之前，所述方法还包括：
27.提取朗读视频中的人脸图像和声音，利用图像分析方法，确定人脸图像所处的图像背景，以及，利用声音分析方法，确定声音所处的声音背景，若图像背景与声音背景相同，执行所述确认活体检测通过的步骤。
28.第二方面，本发明实施例还提供了一种活体检测的装置，包括：
29.随机显示模块，用于采集包含语音的人脸视频，确定采集的人脸视频中包含正脸，生成随机文本，将生成的随机文本随机显示在预设屏幕的随机区域内后，提示用户朗读显示的随机文本；
30.向量计算模块，用于对采集的用户朗读显示的随机文本的视频，确定朗读视频中包含人脸和语音，基于朗读视频，获取用户朗读随机文本时面对屏幕的位置特征向量，以及，用户注视屏幕的视角向量；
31.一致性计算模块，用于将位置特征向量和视角向量输入预先训练好的活体一致性
检测模型，得到位置特征向量和视角向量的一致性值；
32.检测结果确定模块，若一致性值不小于预设的一致性阈值，确定活体检测通过。
33.第三方面，本技术实施例提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。
34.第四方面，本技术实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述的方法的步骤。
35.本发明实施例提供的活体检测的方法及装置，通过采集包含语音的人脸视频，确定采集的人脸视频中包含正脸，生成随机文本，将生成的随机文本随机显示在预设屏幕的随机区域内后，提示用户朗读显示的随机文本；采集用户朗读显示的随机文本的朗读视频，确定朗读视频中包含人脸和语音，基于朗读视频，获取用户朗读随机文本时面对屏幕的位置特征向量，以及，用户注视屏幕的视角向量；将位置特征向量和视角向量输入预先训练好的活体一致性检测模型，得到位置特征向量和视角向量的一致性值；若一致性值不小于预设的一致性阈值，确定活体检测通过。这样，在单一人脸活体检测以及单一语音活体检测的基础上，采用位置特征向量和视角向量进行一致性识别以及视频中图像和语音所蕴含的背景一致性识别，由于假体攻击基本不可能同时完成人脸面对显示屏位置和注视视角的对应以及视频中图像和语音所蕴含的背景一致性对应，因此能够在防止常规假体攻击的同时，对合成视频等攻击的检测效果更好，有效提高活体检测的准确性。
36.为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。
附图说明
37.为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。
38.图1示出了本发明实施例所提供的活体检测的方法流程示意图；
39.图2示出了本发明实施例所提供的活体检测的装置结构示意图；
40.图3为本技术实施例提供的一种计算机设备300的结构示意图。
具体实施方式
41.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。
42.活体检测技术是生物特征身份认证过程中重要的一环，以防假体样本(如：合成视
频及合成语音)攻击，确保通过认证的是真实用户本人。本发明实施例中，考虑到用户在浏览屏幕上显示的文本时，用户人脸面对屏幕的位置特征向量和用户注视屏幕的视角向量具有唯一对应关系，以及，视频中图像所处的背景和语音所反映的背景具有一致性，这样，通过融合多因素进行活体检测，可以最大程度减少被假体样本攻击的可能性，提高识别安全性。
43.本发明实施例提供了一种活体检测的方法及装置，下面通过实施例进行描述。
44.图1示出了本发明实施例所提供的活体检测的方法流程示意图。如图1所示，该方法包括：
45.步骤101，采集包含语音的人脸视频，确定采集的人脸视频中包含正脸，生成随机文本，将生成的随机文本随机显示在预设屏幕的随机区域内后，提示用户朗读显示的随机文本；
46.本发明实施例中，作为一可选实施例，可以利用目前的人脸活体检测模型进行人脸活体识别，并利用语音活体检测模型进行语音活体识别。其中，人脸活体检测模型能够识别出人脸的二次翻拍照、人脸电子照片、视频录像、蜡像等人脸假体攻击，语音活体检测模型能够识别出语音录音、重放音频、合成语音音频、拼接语音音频等语音假体攻击，若确定采集的人脸视频中存在人脸假体攻击中的任意一种或语音假体攻击中的任意一种，提示用户非活体重新进行活体识别。
47.本发明实施例中，作为一可选实施例，文本包括：数字、文本文字、字母或数字、字母和文本文字的任意组合。
48.本发明实施例中，作为一可选实施例，随机文本的位数为4-8位。例如，随机产生4-8位数字或4-8位文本文字，这样，可有效避免通过预先录制音视频的方式进行假体样本攻击。并将生成的随机文本显示在显示设备的屏幕上，文本在屏幕上的显示位置随机生成，使得后续的活体检测流程中，通过录制音视频的方式，用户的视线不会聚焦在固定的位置上，从而提升活体识别的准确性。
49.本发明实施例中，作为一可选实施例，采用随机男女声语音播报的方式和说明文字，提示用户朗读数字或文本。
50.步骤102，采集用户朗读显示的随机文本的视频，确定朗读视频中包含人脸和语音，基于朗读视频，获取用户朗读随机文本时面对屏幕的位置特征向量，以及，用户注视屏幕的视角向量；
51.本发明实施例中，朗读视频包括用户开始朗读至结束朗读的视频。在采集朗读视频后，再次利用人脸识别模型，对朗读视频进行人脸活体识别，以及，利用语音识别模型，对朗读视频进行语音活体识别。
52.本发明实施例中，作为一可选实施例，在确定朗读视频中包含人脸和语音之后，基于朗读视频，获取用户朗读随机文本时面对屏幕的位置特征向量之前，该方法还包括：
53.计算人脸视频中包含的人脸与朗读视频中包含的人脸活体的第一相似度，以及，计算人脸视频中包含的语音与朗读视频中包含的语音活体的第二相似度；
54.若第一相似度大于预设的人脸活体相似度阈值，且第二相似度大于预设的语音活体相似度阈值，执行所述基于朗读视频，获取用户朗读随机文本时面对屏幕的位置特征向量的步骤。
55.本发明实施例中，采集从用户启动朗读至用户朗读数字或文本结束时的视频，对朗读视频进行图像和语音质检，例如，检测朗读视频中的人脸和人声是否符合检测要求，以确定朗读视频中是否包含合格的人脸和语音(人声)，如果朗读视频中不存在人脸或人声或两者都不存在，即第一相似度不大于人脸相似度阈值，或者，第二相似度不大于语音相似度阈值，采用随机男女声语音播报的方式，提示用户重新朗读显示的随机文本，以重新采集用户朗读显示的随机文本的朗读视频，若播报预先设定的次数均未采集到人脸和人声，则结束流程；若朗读视频中存在人脸和人声，进行后续处理。这样，通过对不同活体检测流程中得到的视频进行多次活体检测，可以有效提升活体检测的准确率。
56.本发明实施例中，位置特征向量用于表征用户人脸面对屏幕在阅读显示的文本时，双眼连线的中点在屏幕中点的位置，可以表示为：
57.l＝[s,l x,l y]t
[0058]
式中，
[0059]
l为位置特征向量；
[0060]
s为人脸至采集摄像头的距离；
[0061]
l
x
为以视频中图像左上角为原点的双眼中点的横坐标值；
[0062]
ly为以视频中图像左上角为原点的双眼中点的纵坐标值。
[0063]
用户注视屏幕的视角向量表示如下：
[0064]
v＝[θ,v
x
,vy]
t
[0065]
式中，
[0066]
v为用户注视屏幕的视角向量；
[0067]
θ为用户注视屏幕的视角向量的角度值；
[0068]vx
为以屏幕左上角为原点的随机文本位置中点的横坐标值；
[0069]vy
为以屏幕左上角为原点的随机文本位置中点的纵坐标值。
[0070]
本发明实施例中，当随机文本长度小于预设的长度阈值时，例如，长度阈值可以为4位或6位等，在该长度阈值内的字符，用户在浏览时，眼睛注视的方位较少发生变化，因而，作为一可选实施例，获取用户朗读随机文本时面对屏幕的位置特征向量，以及，用户注视随机文本的视角向量，包括：
[0071]
基于朗读视频的时间轴依次进行采样；
[0072]
在同一采样时间点，分别获取用户在面对屏幕的采样位置特征向量，以及，用户注视随机文本的采样视角向量；
[0073]
对多个采样时间点的采样位置特征向量进行均值处理，得到位置特征向量；以及，
[0074]
对多个采样时间点的采样位置视角向量进行均值处理，得到视角向量。
[0075]
本发明实施例中，当随机文本长度较小时，进行采样的采样时间点可以为一个或多个，通过对多个采样时间点的向量进行均值处理，可以提升获取的位置特征向量或视角向量的准确性。
[0076]
本发明实施例中，当随机文本长度不小于预设的长度阈值时，作为另一可选实施例，
[0077]
获取用户朗读随机文本时面对屏幕的位置特征向量，以及，用户注视随机文本的视角向量，包括：
[0078]
基于朗读视频的时间轴依次进行采样；
[0079]
在同一采样时间点，分别获取用户在面对屏幕的采样位置特征向量，得到基于该采样时间点的位置特征向量，以及，用户注视随机文本的采样视角向量，得到基于该采样时间点的视角向量。
[0080]
步骤103，将位置特征向量和视角向量输入预先训练好的活体一致性检测模型，得到位置特征向量和视角向量的一致性值；
[0081]
本发明实施例中，作为一可选实施例，将位置特征向量和视角向量输入预先训练好的活体一致性检测模型，得到位置特征向量和视角向量的一致性值，包括：
[0082]
将进行均值处理得到的位置特征向量和视角向量输入所述活体一致性检测模型，得到一致性值。
[0083]
本发明实施例中，作为另一可选实施例，将位置特征向量和视角向量输入预先训练好的活体一致性检测模型，得到位置特征向量和视角向量的一致性值，包括：
[0084]
针对每一采样时间点，将该采样时间点对应的位置特征向量和视角向量组成向量对；
[0085]
将各采样时间点对应的向量对依次输入所述活体一致性检测模型，得到各向量对分别对应的一致性值。
[0086]
本发明实施例中，通过预先构建训练好的活体一致性检测模型，可以基于该活体一致性检测模型进行一致性值检测。作为一可选实施例，构建活体一致性检测模型，包括：
[0087]
a11，获取训练样本视频，所述训练样本视频为摄像头拍摄用户朗读显示在屏幕随机区域内的随机文本的视频；
[0088]
本发明实施例中，显示设备随机生成文本，并随机显示在显示设备屏幕上，通过语音播报方式提示用户朗读随机文本，例如，语音播报方式可以为“请朗读屏幕上的文本”。
[0089]
a12，采集用户朗读显示的随机文本的训练视频，基于朗读训练视频，获取已标注的用户朗读随机文本时面对屏幕的位置特征训练向量，以及，用户注视屏幕的视角训练向量；
[0090]
本发明实施例中，朗读训练视频包括用户注视随机文本进行朗读的正样本训练视频以及用户未注视随机文本或视线偏离随机文本进行朗读的负样本训练视频。
[0091]
本发明实施例中，对于第i个用户，该用户的位置特征训练向量表示为：
[0092]
li＝[si,l
ix
,l
iy
]
t
(i∈n)
[0093]
式中，
[0094]
li为第i个用户的位置特征训练向量；
[0095]
si为第i个用户的人脸至采集摄像头的距离；
[0096]
l
ix
为以视频中图像左上角为原点的第i个用户双眼中点的横坐标值；
[0097]
l
iy
为以视频中图像左上角为原点的第i个用户双眼中点的纵坐标值；
[0098]
n为用户数量。
[0099]
相对应地，用户注视屏幕的视角训练向量表示如下：
[0100]vi
＝[θi,v
ix
,v
iy
]
t
[0101]
式中，
[0102]vi
为第i个用户注视屏幕的视角训练向量；
[0103]
θi为第i个用户注视屏幕的视角训练向量的角度值；
[0104]vix
为以第i个屏幕左上角为原点的随机文本位置中点的横坐标值；
[0105]viy
为以第i个屏幕左上角为原点的随机文本位置中点的纵坐标值。
[0106]
本发明实施例中，对于同一用户的朗读训练视频，可以依据时间轴进行采样，获取该用户在多个采样时间点的位置特征训练向量以及视角训练向量，将同一采样时间点对应的位置特征训练向量以及视角训练向量组成训练向量对。
[0107]
a13，对位置特征训练向量和视角训练向量组成的训练向量对进行二值标记，以训练向量对作为活体一致性检测初始模型的输入，以该训练向量对标记的活体一致性值作为活体一致性检测初始模型的输出，对活体一致性检测初始模型进行训练，得到活体一致性检测模型。
[0108]
本发明实施例中，活体一致性检测初始模型利用下式计算活体一致性值：
[0109][0110][0111]
式中，
[0112]rlvi
为训练向量对的活体一致性相关值。
[0113]
本发明实施例中，通过归一化处理后，活体一致性值在-1至1之间，该值越接近于1，表示用户人脸面对屏幕的位置特征向量和用户注视屏幕的视角向量吻合性越高，存在唯一关系越强。
[0114]
本发明实施例中，基于用户读取随机文本时面对屏幕的位置特征向量和注视随机文本的视角向量，由深度神经网络学习生成的活体一致性检测模型，检测人脸视频和语音是否是合成音视频、录制音视频、拼接音视频等假体攻击。
[0115]
本发明实施例中，依据训练样本视频，利用深度神经网络学习算法进行训练，可以训练出判断用户人脸面对屏幕的位置特征向量和用户注视屏幕的视角向量的唯一对应关系的活体一致性检测模型，从而利用该活体一致性检测模型判断用户当前面对屏幕的位置向量和注视屏幕的视角向量是否一致，从而通过行为方式的一致性判断，确定是否为活体。
[0116]
步骤104，若一致性值不小于预设的一致性阈值，确定活体检测通过。
[0117]
本发明实施例中，对于朗读视频中包含多个采样点的情形，一致性值为活体一致性检测模型输出的各向量对分别对应的一致性值的均值。如果一致性值大于或等于一致性阈值，确定为活体，活体检测通过，如果一致性值小于一致性阈值，确定活体检测未通过，提示用户重新进行活体检测。
[0118]
本发明实施例中，为了进一步提升活体检测的准确性，降低假体攻击，作为一可选实施例，在若一致性值不小于预设的一致性阈值之后，确定活体检测通过之前，该方法还包括：
[0119]
提取朗读视频中的人脸图像和声音，利用图像分析方法，确定人脸图像所处的图像背景，以及，利用声音分析方法，确定声音所处的声音背景，若图像背景与声音背景相同，执行所述确认活体检测通过的步骤。
[0120]
本发明实施例中，对活体检测通过的朗读视频，提取朗读视频中的图像和声音，采用图像分析方法判断用户图像所处的图像背景，采用声音分析方法判断声音所处的声音背景，并比对两者分析结果是否一致。例如，若确定朗读视频中人脸图像所处的图像背景是室内，而声音背景是室外道路，则确定分析结果不一致，即图像背景与声音背景不相同，活体检测未通过，需要重新采集，若一致，通过活体检测，进行身份认证阶段。
[0121]
本发明实施例中，可以预先设置背景的分类，例如，将背景分为：室内、地铁、公交线、机场、闹市等，通过深度神经网络学习算法，对训练视频中的图像和声音所处的背景进行训练，得到利用图像分析方法构建的图像背景识别模型，以及，利用声音分析方法构建的声音背景识别模型。
[0122]
本发明实施例中，若图像背景与声音背景不相同，提示用户重新进行活体检测，其中，图像背景与声音背景不相同包括：识别出的图像背景与识别出的声音背景不相同、识别出图像背景但未识别出声音背景、识别出声音背景但未识别出图像背景。
[0123]
本发明实施例中，作为另一可选实施例，若利用图像分析方法和声音分析方法，未能识别出图像背景和声音背景，确定活体检测通过。作为再一可选实施例，在未能识别出图像背景和声音背景的情形下，还可以综合各步骤的检测结果判断最终的活体检测结果。
[0124]
本发明实施例中，通过融合多因素进行活体检测，只有当所有的活体因素检测通过时，活体检测才通过，这样，可以有效增强活体检测的安全性，同时未改变现有身份认证的流程，用户体验上没有改变。其中，采用位置特征向量和视角向量，以及人脸与语音所处的背景，攻击者基本不可能同时完成人脸面对显示屏位置和注视视角的对应，以及背景信息同步，能够在防止常规假体攻击的同时，对合成视频等攻击的检测效果更好，更高效地完成活体检测，提高活体检测的准确性和安全性。
[0125]
本发明实施例提供的活体检测的方法，通过获取人脸视频，采用利用深度神经网络学习的人脸活体检测模型以及语音活体检测模型进行初步活体检测，以过滤纸质图片、电子图片、录像、蜡像、合成语音等假体攻击；在初步活体检测后，生成随机位数的随机文本，并在屏幕不同区域随机显示，通过获取用户朗读随机文本的语音和用户注视屏幕的视角方向的视频，再次输入利用深度神经网络学习得到的人脸活体检测模型以及语音活体检测模型，判断视频中的人脸和音频是否是图片、录像、录音重放、语音合成或语音拼接等假体攻击；再通过分析获取的视频，计算出用户朗读随机文本时人脸面对屏幕的位置，依据计算的人脸面对屏幕的位置和用户注视屏幕的视角，基于预先构建的活体一致性检测模型，判断计算的人脸面对屏幕的位置特征向量和用户注视屏幕的视角向量是否唯一对应，从而判断是否是真人；最后，通过利用图像分析方法和声音分析方法得到的背景分析模型，分析视频采集的图像和视频中音频两种信号蕴含的背景是否一致，从而有效防御视频合成攻击，提升活体检测的准确性。
[0126]
图2示出了本发明实施例所提供的活体检测的装置结构示意图。如图2所示，该装置包括：
[0127]
随机显示模块201，用于采集包含语音的人脸视频，确定采集的人脸视频中包含正
脸，生成随机文本，将生成的随机文本随机显示在预设屏幕的随机区域内后，提示用户朗读显示的随机文本；
[0128]
向量计算模块202，用于对采集的用户朗读显示的随机文本的视频，确定朗读视频中包含人脸和语音，基于朗读视频，获取用户朗读随机文本时面对屏幕的位置特征向量，以及，用户注视屏幕的视角向量；
[0129]
本发明实施例中，作为一可选实施例，位置特征向量包括：人脸至采集摄像头的距离、以视频中图像左上角为原点的双眼中点的横坐标值以及以视频中图像左上角为原点的双眼中点的纵坐标值，视角向量包括：用户注视屏幕的视角向量的角度值、以屏幕左上角为原点的随机文本位置中点的横坐标值以及以屏幕左上角为原点的随机文本位置中点的纵坐标值。
[0130]
本发明实施例中，作为一可选实施例，获取用户朗读随机文本时面对屏幕的位置特征向量，以及，用户注视随机文本的视角向量，包括：
[0131]
基于朗读视频的时间轴依次进行采样；
[0132]
在同一采样时间点，分别获取用户在面对屏幕的采样位置特征向量，以及，用户注视随机文本的采样视角向量；
[0133]
对多个采样时间点的采样位置特征向量进行均值处理，得到位置特征向量；
[0134]
以及，对多个采样时间点的采样位置视角向量进行均值处理，得到视角向量。
[0135]
本发明实施例中，作为另一可选实施例，获取用户朗读随机文本时面对屏幕的位置特征向量，以及，用户注视随机文本的视角向量，包括：
[0136]
获取用户朗读随机文本时面对屏幕的位置特征向量，以及，用户注视随机文本的视角向量，包括：
[0137]
基于朗读视频的时间轴依次进行采样；
[0138]
在同一采样时间点，分别获取用户在面对屏幕的采样位置特征向量，得到基于该采样时间点的位置特征向量，以及，用户注视随机文本的采样视角向量，得到基于该采样时间点的视角向量。
[0139]
一致性计算模块203，用于将位置特征向量和视角向量输入预先训练好的活体一致性检测模型，得到位置特征向量和视角向量的一致性值；
[0140]
本发明实施例中，作为一可选实施例，一致性计算模块203具体用于：
[0141]
针对每一采样时间点，将该采样时间点对应的位置特征向量和视角向量组成向量对；
[0142]
将各采样时间点对应的向量对依次输入所述活体一致性检测模型，得到各向量对分别对应的一致性值。
[0143]
检测结果确定模块204，若一致性值不小于预设的一致性阈值，确定活体检测通过。
[0144]
本发明实施例中，作为一可选实施例，该装置还包括：
[0145]
二次识别模块(图中未示出)，用于计算人脸视频中包含的人脸与朗读视频中包含的人脸活体的第一相似度，以及，计算人脸视频中包含的语音与朗读视频中包含的语音活体的第二相似度；
[0146]
若第一相似度大于预设的人脸活体相似度阈值，且第二相似度大于预设的语音活
体相似度阈值，执行所述基于朗读视频，获取用户朗读随机文本时面对屏幕的位置特征向量的步骤。
[0147]
本发明实施例中，作为另一可选实施例，该装置还包括：
[0148]
背景检测模块，用于提取朗读视频中的图像和声音，利用图像分析方法，确定人脸图像所处的图像背景，以及，利用声音分析方法，确定声音所处的声音背景，若图像背景与声音背景相同，执行所述确认活体检测通过的步骤。
[0149]
本发明实施例中，作为再一可选实施例，该装置还包括：
[0150]
模型构建模块，用于获取训练样本视频，所述训练样本视频为摄像头拍摄用户朗读显示在屏幕随机区域内的随机文本的视频；
[0151]
采集用户朗读显示的随机文本的朗读训练视频，基于朗读训练视频，获取用户朗读随机文本时面对屏幕的位置特征训练向量，以及，用户注视屏幕的视角训练向量；
[0152]
对位置特征训练向量和视角训练向量组成的训练向量对进行二值标记，以训练向量对作为活体一致性检测初始模型的输入，以该训练向量对标记的活体一致性值作为活体一致性检测初始模型的输出，对活体一致性检测初始模型进行训练，得到活体一致性检测模型。
[0153]
如图3所示，本技术一实施例提供了一种计算机设备300，用于执行图1中的活体检测的方法，该设备包括存储器301、与存储器301通过总线相连的处理器302及存储在该存储器301上并可在该处理器302上运行的计算机程序，其中，上述处理器302执行上述计算机程序时实现上述活体检测的方法的步骤。
[0154]
具体地，上述存储器301和处理器302能够为通用的存储器和处理器，这里不做具体限定，当处理器302运行存储器301存储的计算机程序时，能够执行上述活体检测的方法。
[0155]
对应于图1中的活体检测的方法，本技术实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述活体检测的方法的步骤。
[0156]
具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述活体检测的方法。
[0157]
在本技术所提供的实施例中，应该理解到，所揭露系统和方法，可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，系统或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
[0158]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0159]
另外，在本技术提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。
[0160]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以
存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read-only memory，rom)、随机存取存储器(random access memory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0161]
应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。
[0162]
最后应说明的是：以上所述实施例，仅为本技术的具体实施方式，用以说明本技术的技术方案，而非对其限制，本技术的保护范围并不局限于此，尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本技术实施例技术方案的精神和范围。都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应所述以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种面向目标检测的多尺度融合特征提取方法及系统

一种活体检测的方法及装置与流程

相关文献

最热文献