身份验证方法、装置、服务器及计算机可读存储介质与流程

2022-11-19 07:36:16 来源：中国专利 TAG：

1.本技术涉及计算机技术领域，具体涉及一种身份验证方法、装置、服务器及计算机可读存储介质。

背景技术：

2.在银行系统中，通常包括各种类型的远程业务，在远程业务的办理远程业务时场景中，具体可以通过视频面签方式，对客户进行业务的办理。为了保证视频面签的安全性，在客户使用视频面签时，通常需要对客户的身份进行验证，以避免盗用身份办理业务或者出现其他异常情况，进而影响银行和客户的利益，造成不要必要的财产损失。而目前，对客户通过视频面签办理业务的身份验证的准确性，还有待提高。

技术实现要素：

3.本技术提供的身份验证方法，通过获取用户的更高维度的声纹特征，增强了用户声纹的特征，从而提高了身份验证的准确度。
4.第一方面，本技术提供了一种身份验证方法，所述方法包括：
5.获取目标用户办理当前业务时的视频数据中的声音数据；
6.确定所述声音数据对应的频谱数据；
7.对所述频谱数据进行特征分析，确定得到所述目标用户的初步声纹特征；
8.根据预设的声音处理模型，将所述初始声纹特征映射至高维特征空间，得到目标声纹特征；
9.根据所述目标声纹特征，对所述目标用户进行身份验证。
10.在本技术一些实施例中，所述确定所述声音数据对应的频谱数据，包括：
11.对所述声音数据进行采样，得到采样声音数据；
12.对所述采样声音数据进行滤波处理，得到滤波后的采样声音数据；
13.对所述滤波后的采样声音数据进行加窗处理，得到加窗后的采样声音数据；
14.对所述加窗后的采样声音数据进行傅立叶变换，得到所述采样声音数据的频谱数据。
15.在本技术一些实施例中，所述对所述频谱数据进行特征分析，确定得到所述目标用户的初步声纹特征，包括：
16.对所述声音数据对应的频谱数据进行滤波处理，得到滤波后的频谱数据；
17.确定所述滤波后的频谱数据的对数能量；
18.对所述滤波后的频谱数据的对数能量进行离散余弦变换，得到所述目标用户的声音数据的梅尔倒谱系数，确定所述梅尔倒普系数为所述初始声纹特征。
19.在本技术一些实施例中，所述根据所述目标声纹特征，对所述目标用户进行身份验证，包括：
20.获取预设的声纹模型库中各个预设声纹特征，每个预设声纹特征对应一个用户的
身份信息；
21.确定所述目标声纹特征与各个所述预设声纹特征的余弦相似度，得到相似度比较结果；
22.根据所述相似度比较结果，对所述目标用户进行身份验证。
23.在本技术一些实施例中，所述获取目标用户办理当前业务时的视频数据中的声音数据之前，所述方法还包括：
24.获取每个历史业务中每个用户对应的历史声音数据；
25.确定每个用户对应的历史声音数据的频谱数据；
26.对每个用户对应的历史声音数据的频谱数据进行特征分析，确定得到每个用户对应的初步声纹特征；
27.根据所述声音处理模型，将每个用户对应的初步声纹特征映射至高维特征空间，得到每个用户对应的目标声纹特征；
28.根据每个用户对应的目标声纹特征，构建声纹模型库。
29.在本技术一些实施例中，所述根据所述目标声纹特征，对所述目标用户进行身份验证，包括：
30.根据预设的声音识别模型，对所述目标声纹特征进行识别，得到所述目标声纹特征对应的身份信息，所述声音识别模型根据各个预设声纹特征进行训练得到，每个预设声纹特征对应一个用户的身份信息。
31.在本技术一些实施例中，所述根据所述目标声纹特征，对所述目标用户进行身份验证，包括：
32.通过预设的人脸检测模型，检测所述视频数据是否存在所述目标用户的人脸特征；
33.若所述视频数据存在所述人脸特征，则确定所述目标用户的目标表情特征；
34.对所述目标表情特征进行识别，得到表情识别结果；
35.若表情识别结果表征所述目标用户的表情的真实程度大于预设阈值，则根据所述目标声纹特征对所述目标用户的进行身份验证。
36.第二方面，本技术还提供了一种身份验证装置，所述装置包括：
37.获取模块，用于获取目标用户办理当前业务时的视频数据中的声音数据；
38.确定模块，用于确定所述声音数据对应的频谱数据；
39.分析模块，用于对所述频谱数据进行特征分析，确定得到所述目标用户的初步声纹特征；
40.映射模块，用于根据预设的声音处理模型，将所述初始声纹特征映射至高维特征空间，得到目标声纹特征；
41.验证模块，用于根据所述目标声纹特征，对所述目标用户进行身份验证。
42.在本技术一些实施例中，所述确定模块具体用于：
43.对所述声音数据进行采样，得到采样声音数据；
44.对所述采样声音数据进行滤波处理，得到滤波后的采样声音数据；
45.对所述滤波后的采样声音数据进行加窗处理，得到加窗后的采样声音数据；
46.对所述加窗后的采样声音数据进行傅立叶变换，得到所述采样声音数据的频谱数
据。
47.在本技术一些实施例中，所述分析模块具体用于：
48.对所述声音数据对应的频谱数据进行滤波处理，得到滤波后的频谱数据；
49.确定所述滤波后的频谱数据的对数能量；
50.对所述滤波后的频谱数据的对数能量进行离散余弦变换，得到所述目标用户的声音数据的梅尔倒谱系数，确定所述梅尔倒普系数为所述初始声纹特征。
51.在本技术一些实施例中，所述验证模块具体用于：
52.获取预设的声纹模型库中各个预设声纹特征，每个预设声纹特征对应一个用户的身份信息；
53.确定所述目标声纹特征与各个所述预设声纹特征的余弦相似度，得到相似度比较结果；
54.根据所述相似度比较结果，对所述目标用户进行身份验证。
55.在本技术一些实施例中，所述身份验证装置还包括模型构建模块，所述模型构建模块具体用于：
56.获取每个历史业务中每个用户对应的历史声音数据；
57.确定每个用户对应的历史声音数据的频谱数据；
58.对每个用户对应的历史声音数据的频谱数据进行特征分析，确定得到每个用户对应的初步声纹特征；
59.根据所述声音处理模型，将每个用户对应的初步声纹特征映射至高维特征空间，得到每个用户对应的目标声纹特征；
60.根据每个用户对应的目标声纹特征，构建声纹模型库。
61.在本技术一些实施例中，所述验证模块具体还用于：
62.根据预设的声音识别模型，对所述目标声纹特征进行识别，得到所述目标声纹特征对应的身份信息，所述声音识别模型根据各个预设声纹特征进行训练得到，每个预设声纹特征对应一个用户的身份信息。
63.在本技术一些实施例中，所述验证模块具体还用于：
64.通过预设的人脸检测模型，检测所述视频数据是否存在所述目标用户的人脸特征；
65.若所述视频数据存在所述人脸特征，则确定所述目标用户的目标表情特征；
66.对所述目标表情特征进行识别，得到表情识别结果；
67.若表情识别结果表征所述目标用户的表情的真实程度大于预设阈值，则根据所述目标声纹特征对所述目标用户的进行身份验证。
68.第三方面，本技术还提供了一种服务器，所述服务器包括处理器、存储器以及存储于所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序以实现任一项所述的身份验证方法中的步骤。
69.第四方面，本技术还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行以实现任一项所述的身份验证方法中的步骤。
70.本技术提供的身份验证方法，通过对用户的声音数据先进行初步的特征分析，得
到初步声纹特征，再对初步声纹特征映射至高维特征空间，得到了特征更细化、更丰富的目标声纹特征，使得根据目标声纹特征进行身份验证时，能够提高身份验证的准确性。
附图说明
71.为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
72.图1是本技术实施例中提供的身份验证系统的场景示意图；
73.图2是本技术实施例中身份验证方法的一个实施例流程示意图；
74.图3是本技术实施例中身份验证装置的一个功能模块示意图；
75.图4是本技术实施例中服务器的结构示意图。
具体实施方式
76.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
77.在本技术的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本技术的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。
78.在本技术中，“示例性”一词用来表示“用作例子、例证或说明”。本技术中被描述为“示例性”的任何实施例不一定被解释为比其它实施例更优选或更具优势。同时，可以理解的是，在本技术的具体实施方式中，涉及到用户信息、用户数据等相关的数据，当本技术以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
79.为了使本领域任何技术人员能够实现和使用本技术，给出了以下描述。在以下描述中，为了解释的目的而列出了细节。应当明白的是，本领域普通技术人员可以认识到，在不使用这些特定细节的情况下也可以实现本技术。在其它实例中，不会对公知的结构和过程进行详细阐述，以避免不必要的细节使本技术的描述变得晦涩。因此，本技术并非旨在限于所示的实施例，而是与符合本技术所公开的原理和特征的最广范围相一致。
80.本技术提供了一种身份验证方法、装置、服务器及计算机可读存储介质，以下分别进行详细说明。
81.请参阅图1，图1为本技术实施例所提供的身份验证系统的场景示意图，该身份验证系统可以包括服务器100和终端设备200，该终端设备200可以向该服务器100传输数据。如图1中的服务器100，可以获取该终端设备200发送的视频数据，从而执行本技术中的身份验证方法。
82.本技术实施例中，服务器100其包括但不限于独立的服务器，也可以是服务器组成
的服务器网络或服务器集群等，其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云服务器。其中，云服务器由基于云计算(cloud computing)的大量计算机或网络服务器构成。
83.本技术实施例中，终端设备200其包括但不限可以是台式机、便携式电脑、网络服务器、掌上电脑(personal digital assistant，pda)、平板电脑、无线服务器、嵌入式设备等。
84.本技术的实施例中，服务器100和终端设备200之间可通过任何通信方式实现通信，包括但不限于，基于第三代合作伙伴计划(3rd generation partnership project，3gpp)、长期演进(long term evolution，lte)、全球互通微波访问(worldwide interoperability for microwave access，wimax)的移动通信，或基于tcp/ip协议族(tcp/ip protocol suite，tcp/ip)、用户数据报协议(user datagram protocol，udp)的计算机网络通信等。
85.需要说明的是，图1所示的身份验证系统的场景示意图仅仅是一个示例，本技术实施例描述的身份验证系统以及场景是为了更加清楚的说明本技术实施例的技术方案，并不构成对于本技术实施例提供的技术方案的限定，本领域普通技术人员可知，随着身份验证系统的演变和新业务场景的出现，本技术实施例提供的技术方案对于类似的技术问题，同样适用。
86.如图2所示，图2为本技术实施例中身份验证方法的一个实施例流程示意图，身份验证方法可以包括如下步骤201～205：
87.201、获取目标用户办理当前业务时的视频数据中的声音数据。
88.本技术实施例中，目标用户可以指代正在办理银行业务的用户；当前业务可以指代用户正在办理的银行业务；视频数据为用户办理当前业务时，相关的终端设备采集的用于身份验证的视频影像。其中，获取视频数据中的声音数据可以参照任意的、现有的从视频中提取音频信息的方式，具体此处不做限定。
89.此外，获取声音数据还可以通过系统提问的方式，对用户的声音数据进行采集。例如：用户无论是通过手机app，还是在银行柜台办理当前业务时，办理系统均可以在采集用户视频时，同时对用户进行提问，并采集用户针对每次提问的回答语音，从而得到用户的声音数据。
90.202、确定声音数据对应的频谱数据。
91.其中，确定声音数据的频谱数据可以通过频谱分析的方式进行确定，具体的频谱分析可以参照具体的现有技术，此处不做赘述。
92.为了要进行用户的身份验证，且需要通过声音进行验证。而人声是由若干频率的声音合成而成的，且声音也是一种信号，或者是一种波。因此，声音的本质均为一系列不同频率的正弦信号叠加而成。
93.此外，由于不同用户的声带形状不同，因此对不同频率声音的放大能力不同，因此原本的声音通过不同的共鸣腔体最终改变了原有的频率分布，也就改变了音色。而频谱分析得到的频谱数据能够很好的展现不同的音色，因此能够有助于声音特征的分析。
94.为了更好的实现本技术实施例，在一个本技术实施例中，确定声音数据对应的频谱数据，包括：
95.对声音数据进行采样，得到采样声音数据；对采样声音数据进行滤波处理，得到滤波后的采样声音数据；对滤波后的采样声音数据进行加窗处理，得到加窗后的采样声音数据；对加窗后的采样声音数据进行傅立叶变换，得到采样声音数据的频谱数据。
96.本技术实施例提供了额外的确定频谱数据的方式。首先，获取到用户的声音数据之后，可以按照预设的采样周期对声音数据进行采样，该采样周期的设置可以根据具体的情况进行设置。例如：将采样周期可以设置为20ms至30ms之间。其中，每个采样周期内采集的声音数据为一帧。
97.此时，当原始的声音数据完成采样分帧之后，可以再对采样后的声音数据进行滤波处理，该滤波处理可以为高通滤波处理，目的在于提升声音数据的高频部分，使声音数据保持在低频到高频的整个频带中，从而使得最终形成的频谱变得相对平坦。
98.完成滤波操作之后，可以对滤波后的采样声音数据进行加窗处理。由于，在采样过程中，每一帧的声音数据是从原始的声音数据连续采样得到。假设，原始声音数据为x(t)，并以t(采样周期)进行采样，在这个采样过程中不能正好以周期t截断，因此这个过程需要加窗处理。一般采用汉明窗对每帧语音加窗处理。
99.最后，在对加窗后的采样声音数据进行傅立叶变换，得到采样声音数据的频谱数据即可。
100.203、对频谱数据进行特征分析，确定得到目标用户的初步声纹特征。
101.本实施例中，可以将上述实施例中获取得到的频谱数据输入相应的特征提取模型。其中，该特征提取模型可以为提前训练好的特征提取模型。该特征提取模型可以包括多层的特征提取的神经网络层，该特征提取模型可以仅用于特征提取，不需要进行声音识别。
102.为了更好的实现本技术实施例，在一个本技术实施例中，对频谱数据进行特征分析，确定得到目标用户的初步声纹特征，包括：
103.对声音数据对应的频谱数据进行滤波处理，得到滤波后的频谱数据；确定滤波后的频谱数据的对数能量；对滤波后的频谱数据的对数能量进行离散余弦变换，得到目标用户的声音数据的梅尔倒谱系数，确定梅尔倒普系数为初始声纹特征。
104.上述实施例中，提供了一种通过特征提取模型提取初步声纹特征的实施方式。由于神经网络部署在设备中时，对设备的性能具备一定的要求。即，当设备的硬件条件满足一定的性能时才能加载相应的神经网络模型，因此本技术实施例提供了一种通过非神经网络的方式，提取初步声纹特征。
105.其中，该声音数据对应的频谱数据可以为上述实施例中，通过采样、高通滤波、加窗后得到的频谱数据。也可以为经过一般频谱分析后，得到的频谱数据，具体此处不做限定。需要说明的是，若为通过采样、高通滤波、加窗后得到的频谱数据时，由于该频谱数据经历过采样步骤，因此该频谱数据包括多帧，此时，在进行带通滤波处理时，可以设置多个带通滤波装置，可以同时对多帧的频谱数据进行同时带通滤波，以增加处理效率。
106.此外，确定滤波后的频谱数据的对数能量可以通过如下公式
①
进行确定：
[0107][0108]
其中，hm(k)为完成带通滤波的频谱数据，m为带通滤波器的个数，m为当前带通滤波器的序数；k＝fs(1 n)/fm，fs抽样频率，fm频率抽样值；n为采样点的个数。
[0109]
当获取到滤波后的频谱数据的对数能量s(m)之后，便可以进行离散余弦变换，得
到以梅尔倒谱系数作为的初始声纹特征，具体的可以通过如下公式
②
，进行离散余弦变换：
[0110][0111]
其中，s(m)为对数能量，m为带通滤波器的个数，m为当前带通滤波器的序数；c(n)为梅尔倒谱系数；n为采样点的个数，n为采样点的序数。
[0112]
204、根据预设的声音处理模型，将初始声纹特征映射至高维特征空间，得到目标声纹特征。
[0113]
根据上述实施例，当获取到初步声纹特征之后，为了增加后续验证的准确度，需要将初步声纹特征映射至高维特征空间，以得到目标声纹特征。具体的，可以将初步声纹特征输入至预训练好的映射模型中进行映射，该映射模型包括通用模型(ubm)和受限玻尔兹曼机(rbm)中，ubm和rbm均为一种神经网络模型，其中rbm可以包括i个可见层，和第j个隐藏层。先通过ubm模型提取出低维高斯向量，并将该低纬高斯向量输入仅rbm中，以获得目标声纹特征。
[0114]
其中，该映射模型的训练方式可以包括如下步骤，例如：从底往上无监督地逐层单独训练rbm，每个rbm的权值的计算方法采用对比散度算法，用无标签数据进行每一层的预训练，每一层的预训练结果作为其下一层的输入，依次进行，完成特征无监督学习的过程，得到每个rbm独立的层内优化参数。
[0115]
当完成预训练结束后，对整个网络从后往前采用误差反向传播算法进行权重微调，得到堆叠rbm的整体优化参数，在微调的过程中可以适当的设置迭代次数以及误差限，迭代次数可适当减少，可以根据实际情况作出调整。
[0116]
在预训练的过程中是将低维声学特征映射到高维特征空间中，在这个过程中是将声音数据的特征放大，包括声音数据中说话的内容、音调、情感和话者身份等信息，这个过程可以理解为将这些信息放大的一个过程。而在说话人识别中，和语音识别不同，语音识别强调的是在提取特征时尽量保证语音内容的完整性，因此在预训练之后，以话者身份为数据标签，对预训练后的网络结构运用反向传播算法进行权值的修正和微调。
[0117]
因此，当将初步声音特征输入至该训练好的rbm之后，可以获得目标声纹特征。
[0118]
205、根据目标声纹特征，对目标用户进行身份验证。
[0119]
根据上述实施例可以获取到该目标用户的目标声纹特征，由于需要验证该用户的身份是否一致或者属实。还需要获取该目标用户的其他声音数据，这样才能验证该用户身份的真实性。
[0120]
其中，由于用户在办理业务时，需要确定用户身份，通常情况下会基于用户的身份证号码进行确定，因此在该用户办理之前的业务时，可以采集该身份证号对应的其他语音数据。若该用户为首次在本银行网点进行业务办理时，还可以根据其他银行网点中，采集该身份证号对应的语音数据。
[0121]
当获取到该目标用户之前的语音数据之后，便可以根据本技术实施例中的方式，确定该目标用户之前的语音数据对应的声音特征。此时，将当前业务的目标声纹特征与之前的声音特征进行比对，计算两者之间的相似度即可。当相似度大于一定的程度时，即可以确定该用户为本人。
[0122]
为了更好的实现本技术实施例，在一个本技术实施例中，根据目标声纹特征，对目
标用户进行身份验证，包括：
[0123]
获取预设的声纹模型库中各个预设声纹特征，每个预设声纹特征对应一个用户的身份信息；确定目标声纹特征与各个预设声纹特征的余弦相似度，得到相似度比较结果；根据相似度比较结果，对目标用户进行身份验证。
[0124]
上述实施例中，提供了一种需要获取该用户之前的语音信息。由此可得，每次进行对比时，均需要获取之前的语音信息，该方式较为繁琐。为了减少繁琐的步骤，可以对之前所有在银行网点办理过业务的用户的语音数据进行数据库的建库。即，每当银行网点中出现一位用户进行业务办理，均可以收集该用户的语音信息，并转化为相应的声纹特征，再将声纹特征与该用户的身份信息进行对应。
[0125]
此时，每当出现用户进行业务办理时，可以直接与声纹模型库中的各个声纹特征进行比对，若存在余弦相似度匹配的声纹特征时，再检测此次用户提供的身份信息与声纹模型库中匹配的声纹特征的身份信息是否一致，若一致则可以确定该用户身份验证通过，若不一致，则可以确定该用户身份存在异常情况，此时需要进行人工核实。
[0126]
为了更好的实现本技术实施例，在一个本技术实施例中，获取目标用户办理当前业务时的视频数据中的声音数据之前，方法还包括：
[0127]
获取每个历史业务中每个用户对应的历史声音数据；确定每个用户对应的历史声音数据的频谱数据；对每个用户对应的历史声音数据的频谱数据进行特征分析，确定得到每个用户对应的初步声纹特征；根据声音处理模型，将每个用户对应的初步声纹特征映射至高维特征空间，得到每个用户对应的目标声纹特征；根据每个用户对应的目标声纹特征，构建声纹模型库。
[0128]
根据上述实施例可得，为了减少繁琐的步骤可以对历史的声音数据进行建库。为了提高验证时的准确度，也可以对声纹模型库中声纹特征的信息完整度以及细节程度进行提高。提高的方式，可以通过上述实施例中提供的方式，对声纹模型库中的声纹特征也采取映射至高维特征空间的方式。具体的请参照上述实施例，具体此处不再赘述。
[0129]
为了更好的实现本技术实施例，在一个本技术实施例中，根据目标声纹特征，对目标用户进行身份验证，包括：
[0130]
根据预设的声音识别模型，对目标声纹特征进行识别，得到目标声纹特征对应的身份信息，声音识别模型根据各个预设声纹特征进行训练得到，每个预设声纹特征对应一个用户的身份信息。
[0131]
上述实施例中，提供了一种通过计算声纹特征的余弦相似度的方式进行身份验证，本技术实施例还提供了一种通过神经网络模型的方式进行验证。其中，该声音识别模型也是通过完成训练得到的，具体的训练方式此处不做限定，该声音识别模型的模型结构此处不也不做限定。
[0132]
为了更好的实现本技术实施例，在一个本技术实施例中，根据目标声纹特征，对目标用户进行身份验证，包括：
[0133]
通过预设的人脸检测模型，检测视频数据是否存在目标用户的人脸特征；若视频数据存在人脸特征，则确定目标用户的目标表情特征；对目标表情特征进行识别，得到表情识别结果；若表情识别结果表征目标用户的表情的真实程度大于预设阈值，则根据目标声纹特征对目标用户的进行身份验证。
[0134]
为了进一步提高身份验证的准确性，在声音识别的基础上，还可以添加面部识别。具体的，可以首先检测该视频数据中的人脸数据是否真实的人脸数据，例如米老鼠等动画形象的人脸数据则是虚假的人脸数据。
[0135]
若通过了人脸检测之后，还可以检测该人脸数据中的表情数据，检测人脸中的表情是否为真实表情。
[0136]
若再通过了表情检测之后，此时再进行声音检测，即可以极大的提高身份验证的真实性。
[0137]
需要说明的是，在人脸检测和表情检测时，也可以对应身份信息进行检测，具体对应身份信息的方式如上述实施例相同，例如：获取历史的人脸信息和历史的表情信息。
[0138]
本技术提供的身份验证方法，通过对用户的声音数据先进行初步的特征分析，得到初步声纹特征，再对初步声纹特征映射至高维特征空间，得到了特征更细化、更丰富的目标声纹特征，使得根据目标声纹特征进行身份验证时，能够提高身份验证的准确性。
[0139]
为了更好实施本技术实施例中的身份验证方法，在身份验证方法之上，本技术实施例中还提供了一种身份验证装置，如图3所示，装置300包括：
[0140]
获取模块301，用于获取目标用户办理当前业务时的视频数据中的声音数据；
[0141]
确定模块302，用于确定声音数据对应的频谱数据；
[0142]
分析模块303，用于对频谱数据进行特征分析，确定得到目标用户的初步声纹特征；
[0143]
映射模块304，用于根据预设的声音处理模型，将初始声纹特征映射至高维特征空间，得到目标声纹特征；
[0144]
验证模块305，用于根据目标声纹特征，对目标用户进行身份验证。
[0145]
本技术提供的身份验证装置，可以通过获取模块301获取用户的声音数据，再通过确定模块302，确定该声音数据的频谱数据，再通过分析模块303对用户的声音数据先进行初步的特征分析，得到初步声纹特征，再映射模块304对初步声纹特征映射至高维特征空间，得到了特征更细化、更丰富的目标声纹特征，使得根据目标声纹特征根据验证模块305进行身份验证时，能够提高身份验证的准确性。
[0146]
在本技术一些实施例中，确定模块302具体用于：
[0147]
对声音数据进行采样，得到采样声音数据；
[0148]
对采样声音数据进行滤波处理，得到滤波后的采样声音数据；
[0149]
对滤波后的采样声音数据进行加窗处理，得到加窗后的采样声音数据；
[0150]
对加窗后的采样声音数据进行傅立叶变换，得到采样声音数据的频谱数据。
[0151]
在本技术一些实施例中，分析模块303具体用于：
[0152]
对声音数据对应的频谱数据进行滤波处理，得到滤波后的频谱数据；
[0153]
确定滤波后的频谱数据的对数能量；
[0154]
对滤波后的频谱数据的对数能量进行离散余弦变换，得到目标用户的声音数据的梅尔倒谱系数，确定梅尔倒普系数为初始声纹特征。
[0155]
在本技术一些实施例中，验证模块305具体用于：
[0156]
获取预设的声纹模型库中各个预设声纹特征，每个预设声纹特征对应一个用户的身份信息；
[0157]
确定目标声纹特征与各个预设声纹特征的余弦相似度，得到相似度比较结果；
[0158]
根据相似度比较结果，对目标用户进行身份验证。
[0159]
在本技术一些实施例中，身份验证装置还包括模型构建模块，模型构建模块具体用于：
[0160]
获取每个历史业务中每个用户对应的历史声音数据；
[0161]
确定每个用户对应的历史声音数据的频谱数据；
[0162]
对每个用户对应的历史声音数据的频谱数据进行特征分析，确定得到每个用户对应的初步声纹特征；
[0163]
根据声音处理模型，将每个用户对应的初步声纹特征映射至高维特征空间，得到每个用户对应的目标声纹特征；
[0164]
根据每个用户对应的目标声纹特征，构建声纹模型库。
[0165]
在本技术一些实施例中，验证模块305具体还用于：
[0166]
根据预设的声音识别模型，对目标声纹特征进行识别，得到目标声纹特征对应的身份信息，声音识别模型根据各个预设声纹特征进行训练得到，每个预设声纹特征对应一个用户的身份信息。
[0167]
在本技术一些实施例中，验证模块305具体还用于：
[0168]
通过预设的人脸检测模型，检测视频数据是否存在目标用户的人脸特征；
[0169]
若视频数据存在人脸特征，则确定目标用户的目标表情特征；
[0170]
对目标表情特征进行识别，得到表情识别结果；
[0171]
若表情识别结果表征目标用户的表情的真实程度大于预设阈值，则根据目标声纹特征对目标用户的进行身份验证。
[0172]
本技术实施例还提供一种服务器，该服务器包括处理器、存储器以及存储于存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序以实现本技术实施例中任一项的身份验证方法中的步骤。其中，该服务器，其集成了本技术实施例所提供的任一种身份验证方法，如图4所示，其示出了本技术实施例所涉及的服务器的结构示意图，具体来讲：
[0173]
该服务器可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图4中示出的服务器结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：
[0174]
处理器401是该服务器的控制中心，利用各种接口和线路连接整个服务器的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行服务器的各种功能和处理数据，从而对服务器进行整体监控。可选的，处理器401可包括一个或多个处理核心；处理器401可以是中央处理单元(central processing unit，cpu)，还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现成可编程门阵列(field-programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界是面和应用程序等，调制解调处理器主要处理无线
通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。
[0175]
存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。
[0176]
服务器还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
[0177]
该服务器还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
[0178]
尽管未示出，服务器还可以包括显示单元等，在此不再赘述。具体在本实施例中，服务器中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，例如：
[0179]
获取目标用户办理当前业务时的视频数据中的声音数据；
[0180]
确定声音数据对应的频谱数据；
[0181]
对频谱数据进行特征分析，确定得到目标用户的初步声纹特征；
[0182]
根据预设的声音处理模型，将初始声纹特征映射至高维特征空间，得到目标声纹特征；
[0183]
根据目标声纹特征，对目标用户进行身份验证。
[0184]
本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。
[0185]
为此，本技术实施例提供一种计算机可读存储介质，该存储介质可以包括：只读存储器(rom，read only memory)、随机存取记忆体(ram，random access memory)、磁盘或光盘等。其上存储有计算机程序，计算机程序被处理器进行加载，以执行本技术实施例所提供的任一种身份验证方法中的步骤。例如，计算机程序被处理器进行加载可以执行如下步骤：
[0186]
获取目标用户办理当前业务时的视频数据中的声音数据；
[0187]
确定声音数据对应的频谱数据；
[0188]
对频谱数据进行特征分析，确定得到目标用户的初步声纹特征；
[0189]
根据预设的声音处理模型，将初始声纹特征映射至高维特征空间，得到目标声纹特征；
[0190]
根据目标声纹特征，对目标用户进行身份验证。
[0191]
在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部
分，可以参见上文针对其他实施例的详细描述，此处不再赘述。
[0192]
具体实施时，以上各个单元或结构可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元或结构的具体实施可参见前面的方法实施例，在此不再赘述。
[0193]
以上各个操作的具体实施可参见前面的实施例，在此不再赘述。
[0194]
以上对本技术实施例所提供的一种身份验证方法及装置进行了详细介绍，本文中应用了具体个例对本技术的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本技术的方法及其核心思想；同时，对于本领域的技术人员，依据本技术的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本技术的限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：骗保嫌疑对象的筛查方法、装置、存储介质及电子装置与流程

身份验证方法、装置、服务器及计算机可读存储介质与流程

相关文献

最热文献