农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

语音生物识别认证实时检测方法及系统与流程

2021-07-13 16:21:00 来源：中国专利 TAG：语音生物实时识别系统识别

本发明属于语音生物识别系统领域，具体来说是一种语音生物识别认证实时检测方法及系统。

背景技术：

语音生物识别(也称为扬声器识别)是一种系统，用于将注册用户的语音建模模型与匹配请求的语音建模模型进行对比，并给出两个语音样本来自同一个人的概率分数，类似于指纹识别或面部识别的工作原理。语音生物识别分为两类，一类称为文本相关，另一类为文本无关。文本相关模式的语音生物识别是指已注册的语音建模的语音，如"我的声音就是我的密码"，必须与身份验证时所说的短语相同。文本无关意味着注册语音可以不同于身份验证语音，但与文本相关模式下相比，它需要很长的注册时间。通常，文本相关的语音生物识别系统用于身份验证，例如应用登录或访问控制。但是，与文本相关的语音生物识别系统容易受到一种称为播放或重播攻击的欺骗攻击。这是当来自正版用户的身份验证短语被录制设备捕获，并且该短语在扬声器上播放以破坏与文本相关的系统时。依赖于文本的系统将扬声器的音频判断为来自正版用户，并允许访问应用程序。

为了抵御此类攻击，依赖于文本的系统通常配有实时检测模块，该模块包含用于判断音频样本来自实时用户还是机器扬声器的算法。但是，此类算法是统计分类器，因此无法可靠地防止重播攻击，尤其是在录制质量高且扬声器质量高时。

此外，其他一些与文本相关的系统使用随机性元素，如随机数字来确保实时性。例如，系统可能会提示用户说出唯一的八位数随机数序列。理论上，如果记录身份验证会话，则录制是无用的，因为下一个会话将具有一组新的数字。但是，这个随机性元素有一个缺点，它必须有一个语音识别，以便系统可以验证口语元素是相同的提示元素。由于语音识别系统没有完美的准确性，如果用户用重音或不受支持的语言/方言说话，则不可靠，这将严重降低语音生物识别系统的总体准确性，并限制可以使用语音生物识别作为身份验证通道的人员数量。

技术实现要素：

为了克服现有技术中所存在的不足，本发明提供了一种语音生物识别认证实时检测方法及系统，解决了背景技术中的无法准确判断生物识别系统接受的音频样本是实时录制的还是预先录制的问题，本发明的检测方法结合对应的系统实现了不使用背景技术中的传统方法来检测语音回放攻击的问题。

本发明提供的语音生物识别认证实时检测方法，包括如下步骤：

步骤s1：生成语音验证的音频文件；

步骤s11：身份验证客户端启动身份验证请求：

步骤s12：扬声器输出声音水印；

所述步骤s11和所述步骤s12在时域上为同时发生或先后发生；

步骤s2：语音生物识别服务器接收所述步骤s1生成的音频文件；

步骤s3：所述步骤s2中的音频文件被所述语音生物识别服务器处理后，发送至所述语音生物识别服务器中的水印处理模块内，进行水印检测。

本发明的一个技术方案，进一步设置为，所述步骤s1生成的音频文件包括所述步骤s11中执行身份验证请求时产生的语音和所述步骤s12执行时的声音水印，两者叠加而成。

本发明的一个技术方案，进一步设置为，所述步骤s1的音频文件经处理转换为所述语音生物识别服务器能够识别的文件类型，再输送至所述语音生物识别服务器内。

本发明的一个技术方案，进一步设置为，所述水印处理模块接收到的文件，经由所述水印处理模块内的算法模块，检测水印。

本发明的一个技术方案，进一步设置为，所述方法还包括如下步骤：

步骤s4：所述步骤s3检测到的水印与客户端提供的扰动比较；

步骤s5：将检测结果返回至所述语音生物识别服务器。

本发明的一个技术方案，进一步设置为，检测到的水印与扰动一致，将“信号为实时信号”返回至所述语音生物识别服务器；检测到的水印与扰动不一致，将“信号为重播信号”返回至所述语音生物识别服务器。

本发明的一个技术方案，进一步设置为，所述水印与扰动不一致包括：水印发生的时刻、水印长度中的一种或多种的组合。

本发明还提供了另一技术方案，语音生物识别认证实时检测系统，应用了上述任一项所述的语音生物识别认证系统的实时检测方法，所述系统包括：

身份验证客户端，用于启动身份验证请求；

扬声器，播放声音水印；

语音生物识别服务器，所述系统将所述音频文件转换格式后发送至所述语音生物识别服务器进行处理。

本发明的一个技术方案，进一步设置为，所述语音生物识别服务器包括水印处理模块，所述水印处理模块用于检测水印。

本发明的有益效果至少为：

(1)本发明在不增加用户体验摩擦的情况下实现实时检测。

(2)本发明保护每个语音身份验证会话不被记录，从而降低播放攻击的风险。

(3)本发明的声纹水印确保了语音口令的唯一性，提高了用户身份验证的安全性和用户生物特征信息的保密性。

附图说明

图1为本发明的语音生物识别认证实时检测方法流程示意图；

图2为本发明的语音生物识别认证实时检测系统的框图。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述，附图中给出了本发明的若干实施例，但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例，相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同；本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明；本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

任何播放攻击发生，必须记录来自目标的文本相关的身份验证短语。可以假定在身份验证上下文之外的正常对话中不使用与文本相关的短语，这些短语如"我的声音是我的密码"或"请验证我的事务"。因此，录制设备记录此类短语的最可能方式是在身份验证会话期间。

本发明中描述的方法展示了语音生物识别认证系统如何在不使用背景技术中提及的传统方法的情况下检测回放攻击。

本发明提供的语音生物识别认证实时检测方法，包括如下步骤：

步骤s1：生成语音验证的音频文件；

步骤s2：语音生物识别服务器接收步骤s1生成的音频文件；

步骤s3：步骤s2中的音频文件被语音生物识别服务器处理后，发送至语音生物识别服务器中的水印处理模块内，进行水印检测。

其中，步骤s11的子步骤如下：

步骤s11：身份验证客户端启动身份验证请求：

步骤s12：扬声器输出声音水印；

步骤s11和步骤s12在时域上为同时发生或先后发生。

进一步地，步骤s1生成的音频文件包括步骤s11中执行身份验证请求时产生的语音和步骤s12执行时的声音水印，两者叠加而成。

进一步地，步骤s1的音频文件经处理转换为语音生物识别服务器能够识别的文件类型，再输送至语音生物识别服务器内。

进一步地，水印处理模块接收到的文件，经由水印处理模块内的算法模块，检测水印。

进一步地，本发明的检测方法还包括如下步骤：

步骤s4：步骤s3检测到的水印与客户端提供的扰动比较；

步骤s5：将检测结果返回至语音生物识别服务器。

详细地，检测到的水印与扰动一致，将“信号为实时信号”返回至语音生物识别服务器；检测到的水印与扰动不一致，将“信号为重播信号”返回至语音生物识别服务器。

其中，水印与扰动不一致包括：水印发生的时刻、水印长度中的一种或多种的组合。

上述的实时检测方法应用于下述的语音生物识别认证实时检测系统中，该实时检测系统包括：

身份验证客户端，用于启动身份验证请求；

扬声器，播放声音水印；

语音生物识别服务器，系统将音频文件转换格式后发送至语音生物识别服务器进行处理。

进一步地，语音生物识别服务器还包括水印处理模块，水印处理模块用于检测水印。

如果身份验证客户端向附近的所有录制设备发出不同的信号，则该身份验证会话将有效地加水印标记，从而使该录制无法用于播放攻击。

每次身份验证客户端启动身份验证请求时，设备上的扬声器都会播放声音水印，该水印将记录在附近的所有录音机中。声音水印将随机播放，并在身份验证请求的开始和身份验证请求结束之间的随机时间播放。当最终的音频文件发送到语音生物识别服务器进行处理时，系统还发送有关水印的相关信息，例如声波图像、播放时刻以及文件开始到文件末尾的发送时间。

语音生物识别服务器中的水印处理模块将利用基于离散fourier变换(dft)的信号处理公式，根据系统提供的扰动，查找音频文件中的水印。如果音频文件中存在与设备提供的符号相同的单个水印，则系统可以得出结论，音频文件来自正版用户。

信号处理公式如下所示：

其中，t0是水印开始的时间，而t1是水印末尾的时间，g(f)是音频频率函数，g(t)是音频时间函数，i是根号-1等于虚数单位i，i²＝-1，i为虚数单位，f是采样率的切点个数。

如果附近有另一个录制设备，用于录制身份验证短语以进行将来的播放攻击，则该水印将存在于录制中。

当录制用作回放攻击时，水印处理模块将检测两个单独的水印，第一个水印与设备提供的符号一致，第二个水印与录制中的水印一致。如果检测到多个水印，则水印处理模块应得出结论，身份验证请求可能来自播放源，而不是正版扬声器。此专利可保护每个语音身份验证会话不被记录，从而降低播放攻击的风险。

具体地结合图1和图2，举例如下：

身份验证客户端启动身份验证请求，同时激活扬声器以广播非自然出现的声音水印，例如，在14khz时，正弦波在60db下播放0.3秒，在麦克风打开后1.0秒的时间标记下播放。然后记录并发送服务器端的大约时间的信息。音频文件保存为16khz16bitwav文件，并转换为base64并发送到语音生物识别服务器进行处理。然后，base64的副本将发送到单独的水印处理模块，其中算法会根据客户端提供的扰动检测水印。如果检测到水印并且与扰动一致，则wpm会将"信号为实时信号"信号返回语音生物识别服务器。如果在不同时间检测到其他水印长度不同，或者水印与元数据中的信息不匹配，则wpm将"信号为重播信号"信号返回语音生物识别服务器，并可采取相应的操作。

假设一个真正的用户正在使用语音生物识别系统，该系统的语音生物识别系统用"我的声音是我的密码"作为给定的短语。当用户按下按钮以启动身份验证会话时，身份验证客户端在按下该按钮后选择一个随机时间点，但在会话结束之前，例如按下按钮后0.3秒，并触发设备上的扬声器以特定频率(如14khz的正弦波)发出唯一的非自然发生的音频签名，时间长度为0.5秒，该音量以将录制到附近所有麦克风(包括身份验证设备上的麦克风)的音量广播。将音频样本发送到服务器进行处理后，水印处理模块将在0.3秒内在音频文件中查找该特定水印签名，长度为0.5秒。水印处理模块还将在音频样本中任何其他时间点查找该14khz的正弦波。

假设正版用户在会话期间被恶意参与者记录，并且该执行者使用该语音样本来破坏正版用户帐户。当身份验证会话启动时，新的水印在按0.4秒长度按下按钮后0.9秒发出。但是，当该音频文件到达服务器进行处理时，水印处理模块将在0.9秒标记上找到水印，播放0.4秒，在0.3秒标记时找到一个水印播放0.5秒。因此，系统可以得出结论，此音频样本可能来自录制的源，而不是实时用户，因为有一个水印不符合一个应该发生的。在这种情况下存在重叠，例如，如果新水印以0.4秒标记发出长度为0.7秒，则音频文件具有从0.3秒标记开始的单个水印，总共播放0.8秒。水印处理模块可以检测水印的启动时间不同，并且发出的长度与客户端应用提供的扰动长度不同。

假设存在注入攻击，并且攻击者以某种方式能够绕过客户端的身份验证完整性，并直接将录制注入服务器。这种类型的攻击会破坏任何播放检测模块，但不会破坏水印处理模块。服务器从客户端接收的水印表示与注入中的水印不同。将只有原始的0.3标记0.5长度，因为不发出任何。受到攻击的身份验证会话在0.3标记0.5长度下收到水印的表示的概率非常小。

在传统的回放攻击中，由于启动身份验证会话和开始录制是两个单独的手动操作，因此水印重叠的可能性非常小，因为水印与水印处理模块无法区分。

以上所述实施例仅表达了本发明的某种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制；应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围；因此，本发明专利的保护范围应以所附权利要求为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于降噪自编码器的高维受损数据无线传输方法与流程

语音生物识别认证实时检测方法及系统与流程

相关文章

最热文献