基于语音识别的身份认证方法及介质与流程

2023-03-20 07:23:05 来源：中国专利 TAG：

1.本技术涉及身份认证领域，具体涉及一种基于语音识别的身份认证方法和一种存储介质。

背景技术：

2.身份认证，在许多场景中都需要使用；例如，软件系统登录、门禁或关卡出入等。
3.相关技术中，在进行身份认证时，多采用密码、短信验证码、电子令牌、动态码或物理ukey等方式进行。然而，当使用密码的方式时，密码容易遗忘，且密码被他人获知时，容易造成财产损失；而电子令牌、短信验证码、动态码或物理ukey的认证方式均需要借助外部设备，实现成本较高，且对于外部设备的依赖性较强。

技术实现要素：

4.鉴于上述问题，本技术提供了一种基于语音识别的身份认证方法，能够根据用户的语音对用户进行身份验证，提高身份验证的安全性；同时，提高身份验证过程的便利性。
5.为实现上述目的，发明人提供了一种基于语音识别的身份认证方法，包括：获取用户的原始语音数据，并提取所述原始语音数据对应的第一语音特征；获取验证指令，并根据所述验证指令随机生成提示信息，以及将所述提示信息展示给当前用户；获取当前用户根据所述提示信息输入的实时语音数据，并提取所述实时语音数据对应的第二语音特征；将所述第一语音特征与所述第二语音特征进行比对，以判断当前用户的身份是否合法。
6.区别于现有技术，上述技术方案首先提取用户的语音特征，并在需要进行身份验证时，获取当前用户的语音特征，以通过语音特征的比对判断当前用户是否合法；如此，身份验证过程中无需使用外部设备存储验证介质，提高身份验证的便利性；同时，不会因密码丢失或者遗忘而导致身份验证失败，提高身份验证的安全性。
7.在一些实施例中，在提取所述实时语音数据对应的第二语音特征之前，还包括：对所述实时语音数据进行识别，以获取所述实时语音数据所对应的内容信息；判断所述内容信息与所述提示信息是否一致；如果否，则认为当前用户身份不合法。在这些实施例中，通过验证用户实时输入语音数据的内容信息是否与提示信息一致，以防止当前用户通过录播相关用户的语音进行伪装验证；进一步提高身份验证的安全性。
8.在一些实施例中，所述第一语音特征和所述第二语音特征通过梅尔频率倒谱系数进行提取。
9.在一些实施例中，通过梅尔频率倒谱系数进行语音特征提取，包括：对语音数据中的音频进行预加重处理，以弥补高频损耗；对预加重处理后的语音数据进行分帧处理，并对分帧处理后的语音数据进行加窗处理；对加窗处理后的语音数据进行傅里叶变换，以生成相应的语谱图；对傅里叶变换后的语音数据进行滤波处理，并对滤波处理后的语音数据进行对数运算处理，以及对对数运算处理后的语音数据进行基音信息分离和声道信息分离，以得到倒谱域，其中，所述倒谱域的低频刻画了声道信息，所述倒谱域的高频刻画了基音信
息。
10.在一些实施例中，根据以下公式对语音数据中的音频进行预加重处理：
11.h(z)＝1-μz-1
12.其中，h(z)表示高通滤波器函数，μ表示预加重系数，z表示变换音频值；
13.根据以下公式对分帧处理后的语音数据进行加窗处理：
[0014][0015]
其中，w(
……
)表示汉明窗函数，n表示帧数，a表示汉明窗系数，n表示每帧中数据点个数。
[0016]
在一些实施例中，根据以下公式对加窗处理后的语音数据进行傅里叶变换：
[0017][0018]
其中，xa(k)表示第a帧声音数据的频谱，k表示第a帧中fft变换的数据点数，x(n)表示加窗后的每帧声音数据。
[0019]
在一些实施例中，根据以下公式对傅里叶变换后的语音数据进行滤波处理：
[0020][0021]
其中，f表示以hz为单位的实际语音频率，f
mel
表示以梅尔(mel)为单位的感知频域(简称梅尔频域)。
[0022]
在一些实施例中，根据以下公式对滤波处理后的语音数据进行对数运算处理：
[0023][0024]
其中，m表示处理的三角滤波器位置，s(m)表示mel倒谱值，hm(k)为三角滤波器的频率响应，m表示三角滤波器个数。
[0025]
在一些实施例中，根据以下公式对对数运算处理后的语音数据进行基音信息分离和声道信息分离：
[0026][0027]
其中，c(n)表示mfcc特征参数，m表示滤波器个数，n表示mfcc特征参数个数，l表示mfcc系数阶数。
[0028]
为实现上述目的，发明人提供了一种存储介质，存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述基于语音识别的身份认证方法的步骤。
[0029]
上述发明内容相关记载仅是本技术技术方案的概述，为了让本领域普通技术人员能够更清楚地了解本技术的技术方案，进而可以依据说明书的文字及附图记载的内容予以实施，并且为了让本技术的上述目的及其它目的、特征和优点能够更易于理解，以下结合本技术的具体实施方式及附图进行说明。
附图说明
[0030]
附图仅用于示出本技术具体实施方式以及其他相关内容的原理、实现方式、应用、特点以及效果等，并不能认为是对本技术的限制。
[0031]
在说明书附图中：
[0032]
图1为具体实施方式所述基于语音识别的身份认证方法的流程意图。
具体实施方式
[0033]
为详细说明本技术可能的应用场景，技术原理，可实施的具体方案，能实现目的与效果等，以下结合所列举的具体实施例并配合附图详予说明。本文所记载的实施例仅用于更加清楚地说明本技术的技术方案，因此只作为示例，而不能以此来限制本技术的保护范围。
[0034]
在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中各个位置出现的“实施例”一词并不一定指代相同的实施例，亦不特别限定其与其它实施例之间的独立性或关联性。原则上，在本技术中，只要不存在技术矛盾或冲突，各实施例中所提到的各项技术特征均可以以任意方式进行组合，以形成相应的可实施的技术方案。
[0035]
除非另有定义，本文所使用的技术术语的含义与本技术所属技术领域的技术人员通常理解的含义相同；本文中对相关术语的使用只是为了描述具体的实施例，而不是旨在限制本技术。
[0036]
在本技术的描述中，用语“和/或”是一种用于描述对象之间逻辑关系的表述，表示可以存在三种关系，例如a和/或b，表示：存在a，存在b，以及同时存在a和b这三种情况。另外，本文中字符“/”一般表示前后关联对象是一种“或”的逻辑关系。
[0037]
在本技术中，诸如“第一”和“第二”之类的用语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何实际的数量、主次或顺序等关系。
[0038]
在没有更多限制的情况下，在本技术中，语句中所使用的“包括”、“包含”、“具有”或者其他类似的表述，意在涵盖非排他性的包含，这些表述并不排除在包括所述要素的过程、方法或者产品中还可以存在另外的要素，从而使得包括一系列要素的过程、方法或者产品中不仅可以包括那些限定的要素，而且还可以包括没有明确列出的其他要素，或者还包括为这种过程、方法或者产品所固有的要素。
[0039]
与《审查指南》中的理解相同，在本技术中，“大于”、“小于”、“超过”等表述理解为不包括本数；“以上”、“以下”、“以内”等表述理解为包括本数。此外，在本技术实施例的描述中“多个”的含义是两个以上(包括两个)，与之类似的与“多”相关的表述亦做此类理解，例如“多组”、“多次”等，除非另有明确具体的限定。
[0040]
在本技术实施例的描述中，所使用的与空间相关的表述，诸如“中心”“纵向”“横向”“长度”“宽度”“厚度”“上”“下”“前”“后”“左”“右”“竖直”“水平”“垂直”“顶”“底”“内”“外”“顺时针”“逆时针”“轴向”“径向”“周向”等，所指示的方位或位置关系是基于具体实施例或附图所示的方位或位置关系，仅是为了便于描述本技术的具体实施例或便于读者理解，而不是指示或暗示所指的装置或部件必须具有特定的位置、特定的方位、或以特定的方
位构造或操作，因此不能理解为对本技术实施例的限制。
[0041]
除非另有明确的规定或限定，在本技术实施例的描述中，所使用的“安装”“相连”“连接”“固定”“设置”等用语应做广义理解。例如，所述“连接”可以是固定连接，也可以是可拆卸连接，或成一体设置；其可以是机械连接，也可以是电连接，也可以是通信连接；其可以是直接相连，也可以通过中间媒介间接相连；其可以是两个元件内部的连通或两个元件的相互作用关系。对于本技术所属技术领域的技术人员而言，可以根据具体情况理解上述用语在本技术实施例中的具体含义。
[0042]
请参阅图1，图1为根据本发明实施例的基于语音识别的身份认证方法的流程示意图；如图1所示，该基于语音识别的身份认证方法100包括以下步骤：
[0043]
s101，获取用户的原始语音数据，并提取原始语音数据对应的第一语音特征。
[0044]
也就是说，获取用户的原始语音数据，以提取该用户对应的语音特征。
[0045]
作为一种示例，在用户注册时，首先，通过交互界面展示目标文字信息，以便用户根据目标文字信息进行朗读；接着，在用户朗读的过程中，获取其语音，以完成原始语音数据的获取；然后，对获取到的原始语音数据进行波形信息的处理，以完成对应第一语音特征的提取。
[0046]
s102，获取验证指令，并根据验证指令随机生成提示信息，以及将提示信息展示给当前用户。
[0047]
其中，验证指令的获取方式可以有多种。
[0048]
作为一种示例，在软件系统登录场景中，获取用户点击登录按键的点击操作，该点击操作即为验证指令；或者在门禁与关卡场景中，通过传感器获取相应地点的人员通过信息，将获取到的人员通过信息视为验证指令；以获取验证时机。
[0049]
作为一种示例，首先，当用户需要登录系统或者其他类似场景需要进行身份验证时，输入验证指令；接着，系统在接收到验证指令之后，通过随机算法生成一成语，并将该成语通过人机交互界面进行展示，以便用户根据展示的信息进行朗读。
[0050]
s103，获取当前用户根据提示信息输入的实时语音数据，并提取实时语音数据对应的第二语音特征。
[0051]
也就是说，在通过人机界面对提示信息进行展示之后，获取用户实时输入的语音数据，并提取该实时语音数据的语音特征。
[0052]
在一些实施例中，在提取实时语音数据对应的第二语音特征之前，还包括：对实时语音数据进行识别，以获取实时语音数据所对应的内容信息；判断内容信息与提示信息是否一致；如果否，则认为当前用户身份不合法。
[0053]
可以理解，可能存在非法人员非法录制相关用户的语音数据，并在验证过程中进行语音数据的播放，以非法登录系统；通过上述方法，验证实时语音数据对应的内容信息与提示信息是否一致，以判断当前用户是否为非法人员，进而进一步保证身份认证过程的安全性。具体地，假设提示信息为随机生成的成语“心想事成”；接着，对用户输入的实时语音数据进行识别，以得到该实时语音数据对应的文字信息，并判断该文字信息时候为“心想事成”，以判断当前用户是否为非法用户。另外，需要说明的是，为了提高人机交互的体验，以引导用户进行相应的操作，在人机交互界面上，可能会出现引导性的词语，例如“请对屏幕中的成语进行朗读”等；该部分引导性的词语并非提示信息。
[0054]
s104，将第一语音特征与第二语音特征进行比对，以判断当前用户的身份是否合法。
[0055]
在一些实施例中，第一语音特征和第二语音特征通过梅尔频率倒谱系数进行提取。
[0056]
在一些实施例中，通过梅尔频率倒谱系数进行语音特征提取，包括：对语音数据中的音频进行预加重处理，以弥补高频损耗；对预加重处理后的语音数据进行分帧处理，并对分帧处理后的语音数据进行加窗处理；对加窗处理后的语音数据进行傅里叶变换，以生成相应的语谱图；对傅里叶变换后的语音数据进行滤波处理，并对滤波处理后的语音数据进行对数运算处理，以及对对数运算处理后的语音数据进行基音信息分离和声道信息分离，以得到倒谱域，其中，倒谱域的低频刻画了声道信息，倒谱域的高频刻画了基音信息。
[0057]
即言，首先，对音频进行预加重处理，以在一定程度上弥补音频中高频部分的损耗，保护声道信息的完整性。
[0058]
作为一种示例，根据以下公式对语音数据中的音频进行预加重处理：
[0059]
h(z)＝1-μz-1
[0060]
其中，h(z)表示高通滤波器函数，μ表示预加重系数，z表示变换音频值；
[0061]
接着，对音频进行分帧处理；对于音频中的每一帧，对特征固定的持续信号进行处理，以减少非稳态时变的影响。需要说明的是，通常语音识别所采用的语音信号采样频率为8khz或16khz，当语音信号采样频率为8khz时，若帧长度为256个采样点，则对应的时间长度为256/8000*1000＝32ms。
[0062]
然后，对音频进行加窗处理，使得分帧后的信号更加连续，避免分帧后每一帧的起始段与末尾段出现不连续的现象，以降低信号的误差。
[0063]
作为一种示例，根据以下公式对分帧处理后的语音数据进行加窗处理：
[0064][0065]
其中，w(
……
)表示汉明窗函数，n表示帧数，a表示汉明窗系数，n表示每帧中数据点个数。
[0066]
接着，对音频进行fft处理，即对音频进行傅里叶变换，以将语音数据转化到频域，得到相应的语谱图(或称声谱图)；其中，语谱图的横坐标为时间，纵坐标为频率，坐标点为语音数据的能量；如此，可以通过语谱图进一步分析语音数据对应的基音频率和共振峰。
[0067]
作为一种示例，根据以下公式对加窗处理后的语音数据进行傅里叶变换：
[0068][0069]
其中，xa(k)表示第a帧声音数据的频谱，k表示第a帧中fft变换的数据点数，x(n)表示加窗后的每帧声音数据。
[0070]
然后，对音频进行mel滤波处理；具体地，可以通过在高频部分分辨率较低、低频部分分辨率较高；如此，只让预设频率范围内信号通过的方式，对高频信息的幅度进行衰减，达到滤波的目的。
[0071]
作为一种示例，根据以下公式对傅里叶变换后的语音数据进行滤波处理：
[0072][0073]
其中，f表示以hz为单位的实际语音频率，f
mel
表示以梅尔(mel)为单位的感知频域(简称梅尔频域)。
[0074]
接着，对音频进行对数运算处理，因为经过语谱图变换之后，卷积变成了乘法，此时去对数运算就能使其变成加法；也就是说，把卷积信号变成加性信号。
[0075]
作为一种示例，根据以下公式对滤波处理后的语音数据进行对数运算处理：
[0076][0077]
其中，m表示处理的三角滤波器位置，s(m)表示mel倒谱值，hm(k)为三角滤波器的频率响应，m表示三角滤波器个数。
[0078]
然后，进一步将基音信息和声道信息进行分离以得到倒谱域；其中，倒谱域的低频部分刻画了声道信息，高频部分刻画了基音信息。
[0079]
作为一种示例，根据以下公式对对数运算处理后的语音数据进行基音信息分离和声道信息分离：
[0080][0081]
其中，c(n)表示mfcc特征参数，m表示滤波器个数，n表示mfcc特征参数个数，l表示mfcc系数阶数。
[0082]
如此，通过上述方式，当用户需要进行身份识别时，只需要根据人机交互界面显示的信息进行相应的朗读即可完成验证；不需要外部介质对身份验证数据进行承载，降低身份验证成本；同时，免去了因为密码泄露问题造成的安全隐患和密码遗忘而导致的麻烦；另外，通过随机生成提示信息，并验证实时语音信息所对应的内容与提示信息是否一致来排除非法人员登录；能够有效防止非法人员通过录播相关用户语音进行非法验证。
[0083]
为了实现上述实施例，本发明实施例提出了一种存储介质，存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述基于语音识别的身份认证方法的步骤。
[0084]
最后需要说明的是，尽管在本技术的说明书文字及附图中已经对上述各实施例进行了描述，但并不能因此限制本技术的专利保护范围。凡是基于本技术的实质理念，利用本技术说明书文字及附图记载的内容所作的等效结构或等效流程替换或修改产生的技术方案，以及直接或间接地将以上实施例的技术方案实施于其他相关的技术领域等，均包括在本技术的专利保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：用于通过车辆外部的通信设备提供车辆功能的服务器设备和方法与流程

基于语音识别的身份认证方法及介质与流程

相关文献

最热文献