一种高噪声环境下的声纹识别员工签到方法及系统与流程

2022-12-20 00:06:50 来源：中国专利 TAG：

1.本发明涉及语音识别技术领域，具体而言，涉及一种高噪声环境下的声纹识别员工签到方法及系统。

背景技术：

2.员工签到是企业管理员工的一种重要手段，很多企业都利用了员工签到系统对员工进行管理。而声纹识别作为一种重要的员工识别技术，已经有效地被应用于员工签到系统，在无噪音环境下已经取得了较为理想的效果。
3.然而，很多企业往往不能保持较为安静的环境，在高噪声下的签到系统会出现显著的误差。因此，如何建立一种高噪声环境下的声纹识别员工签到系统，以在高噪声环境下让员工完成准确签到是一个亟待解决的问题。

技术实现要素：

4.本发明的目的在于提供一种高噪声环境下的声纹识别员工签到方法及系统，用以改善现有技术中在高噪声环境下，利用声纹识别进行用户签到会出现显著误差的问题。
5.本发明的实施例是这样实现的：第一方面，本技术实施例提供一种高噪声环境下的声纹识别员工签到方法，其包括以下步骤：获取所有用户的多个音频模板，并利用i-vector计算方法对所有音频模板进行编码，并计算所有音频模板之间相似度；对于同一用户的所有音频模板，若任意两个音频模板的相似度高于第一预设相似值，则表示两个音频模板高度相似，并保留高度相似的两个音频模板中的任一音频模板，以得到该用户的优化音频模板；获取待识别音频信号，并利用多个预设去噪方法对待识别音频信号进行去噪；分别计算不同预设去噪方法处理后的待识别音频信号的峰值信噪比，保留峰值信噪比最高的待识别音频信号作为去噪后的音频信号；将去噪后的音频信号和所有优化音频模板进行相似度计算，若存在优化音频模板与去噪后的音频信号的相似度高于第二预设相似值，则认为该优化音频模板与去噪后的音频信号高度相似，并判定去噪后的音频信号属于该优化音频模板对应的用户，以认定该用户完成了签到；若不存在优化音频模板与去噪后的音频信号高度相似，则将去噪后的音频信号输入至基于卷积神经网络的声纹识别模型；利用基于卷积神经网络的声纹识别模型对去噪后的音频信号进行判定，以判定出与去噪后的音频信号相匹配的用户，并认定该用户完成了签到。
6.在本发明的一些实施例中，上述利用基于卷积神经网络的声纹识别模型对去噪后的音频信号进行判定，以判定出与去噪后的音频信号相匹配的用户的步骤之前，该方法还
包括：基于卷积神经网络，建立声纹识别初始模型；获取中文语音语料数据集，并根据中文语音语料数据集创建多个数据列表，其中，任一数据列表包含同一语音分类标签的不同语音数据集，任一语音数据集包含音频特征；利用多个数据列表训练声纹识别初始模型，以得到基于卷积神经网络的声纹识别模型。
7.在本发明的一些实施例中，上述利用多个数据列表训练声纹识别初始模型，以得到基于卷积神经网络的声纹识别模型的步骤包括：通过任一数据列表训练声纹识别初始模型，并保存训练后的声纹识别初始模型作为预测模型；将未使用的任一数据列表的任一语音数据集输入至预测模型，得到预测音频特征；将预测音频特征和该语音数据集对应的音频特征进行声纹对比得到对比结果，并根据对比结果调整预测模型；重复上述步骤，直至所有数据列表遍历完成，以得到基于卷积神经网络的声纹识别模型。
8.在本发明的一些实施例中，上述利用多个预设去噪方法对待识别音频信号进行去噪的步骤包括：利用小波去噪、fir滤波器去噪和傅里叶去噪对待识别音频信号进行去噪。
9.在本发明的一些实施例中，上述获取所有用户的多个音频模板，并利用i-vector计算方法对所有音频模板进行编码的步骤包括：建立i-vector模型；对任一音频模板依次进行预处理、特征提取后，利用i-vector模型对该音频模板进行编码。
10.在本发明的一些实施例中，上述获取所有用户的多个音频模板的步骤包括：预先录入每个用户的多个语音信息，将语音信息作为音频模板，其中，多个语音信息包含不同场景下的噪声。
11.第二方面，本技术实施例提供一种高噪声环境下的声纹识别员工签到系统，其包括：音频模板编码模块，用于获取所有用户的多个音频模板，并利用i-vector计算方法对所有音频模板进行编码，并计算所有音频模板之间相似度；优化音频模板得到模块，用于对于同一用户的所有音频模板，若任意两个音频模板的相似度高于第一预设相似值，则表示两个音频模板高度相似，并保留高度相似的两个音频模板中的任一音频模板，以得到该用户的优化音频模板；音频信号去噪模块，用于获取待识别音频信号，并利用多个预设去噪方法对待识别音频信号进行去噪；峰值信噪比计算模块，用于分别计算不同预设去噪方法处理后的待识别音频信号的峰值信噪比，保留峰值信噪比最高的待识别音频信号作为去噪后的音频信号；相似度判定模块，用于将去噪后的音频信号和所有优化音频模板进行相似度计
算，若存在优化音频模板与去噪后的音频信号的相似度高于第二预设相似值，则认为该优化音频模板与去噪后的音频信号高度相似，并判定去噪后的音频信号属于该优化音频模板对应的用户，以认定该用户完成了签到；模型输入模块，用于若不存在优化音频模板与去噪后的音频信号高度相似，则将去噪后的音频信号输入至基于卷积神经网络的声纹识别模型；模型认定模块，用于利用基于卷积神经网络的声纹识别模型对去噪后的音频信号进行判定，以判定出与去噪后的音频信号相匹配的用户，并认定该用户完成了签到。
12.在本发明的一些实施例中，上述高噪声环境下的声纹识别员工签到系统还包括：初始模型建立模块，用于基于卷积神经网络，建立声纹识别初始模型；数据列表创建模块，用于获取中文语音语料数据集，并根据中文语音语料数据集创建多个数据列表，其中，任一数据列表包含同一语音分类标签的不同语音数据集，任一语音数据集包含音频特征；模型训练模块，用于利用多个数据列表训练声纹识别初始模型，以得到基于卷积神经网络的声纹识别模型。
13.在本发明的一些实施例中，上述模型训练模块包括：预测模型得到单元，用于通过任一数据列表训练声纹识别初始模型，并保存训练后的声纹识别初始模型作为预测模型；预测音频特征得到单元，用于将未使用的任一数据列表的任一语音数据集输入至预测模型，得到预测音频特征；声纹对比单元，用于将预测音频特征和该语音数据集对应的音频特征进行声纹对比得到对比结果，并根据对比结果调整预测模型；训练完成单元，用于重复上述步骤，直至所有数据列表遍历完成，以得到基于卷积神经网络的声纹识别模型。
14.在本发明的一些实施例中，上述音频信号去噪模块包括：去噪单元，用于利用小波去噪、fir滤波器去噪和傅里叶去噪对待识别音频信号进行去噪。
15.在本发明的一些实施例中，上述音频模板编码模块包括：i-vector模型建立单元，用于建立i-vector模型；i-vector模型编码单元，用于对任一音频模板依次进行预处理、特征提取后，利用i-vector模型对该音频模板进行编码。
16.在本发明的一些实施例中，上述音频模板编码模块包括：音频模板获取单元，用于预先录入每个用户的多个语音信息，将语音信息作为音频模板，其中，多个语音信息包含不同场景下的噪声。
17.第三方面，本技术实施例提供一种电子设备，其包括存储器，用于存储一个或多个程序；处理器。当一个或多个程序被处理器执行时，实现如上述第一方面中任一项的方法。
18.第四方面，本技术实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述第一方面中任一项的方法。
19.相对于现有技术，本发明的实施例至少具有如下优点或有益效果：本发明提供一种高噪声环境下的声纹识别员工签到方法及系统，其包括以下步
骤：获取所有用户的多个音频模板，并利用i-vector计算方法对所有音频模板进行编码，并计算所有音频模板之间相似度。对于同一用户的所有音频模板，若任意两个音频模板的相似度高于第一预设相似值，则表示两个音频模板高度相似，并保留高度相似的两个音频模板中的任一音频模板，以得到该用户的优化音频模板。获取待识别音频信号，并利用多个预设去噪方法对待识别音频信号进行去噪。分别计算不同预设去噪方法处理后的待识别音频信号的峰值信噪比，保留峰值信噪比最高的待识别音频信号作为去噪后的音频信号。将去噪后的音频信号和所有优化音频模板进行相似度计算，若存在优化音频模板与去噪后的音频信号的相似度高于第二预设相似值，则认为该优化音频模板与去噪后的音频信号高度相似，并判定去噪后的音频信号属于该优化音频模板对应的用户，以认定该用户完成了签到。若不存在优化音频模板与去噪后的音频信号高度相似，则将去噪后的音频信号输入至基于卷积神经网络的声纹识别模型。利用基于卷积神经网络的声纹识别模型对去噪后的音频信号进行判定，以判定出与去噪后的音频信号相匹配的用户，并认定该用户完成了签到。该方法及系统首先利用i-vector计算方法对音频模板进行编码，以有效保留每个音频模板的特征，然后计算音频模板两两之间相似度，保留高度相似的两个音频模板中的任一音频模板，以此得到每个用户的优化音频模板，实现了对音频模板进行深度优化，提升了音频模板的可靠性。在签到过程中，该方法及系统首先获取待识别音频信号，然后利用多种预设去噪方法相结合的方式对待识别音频信号进行去噪，仅保留峰值信噪比较高的音频信号，以达到较为理想的去噪效果。然后先通过将去噪后的音频信号与优化音频模板匹配的方法进行声纹识别，在一定程度上降低了计算资源消耗，当通过音频模板匹配无法识别时再利用基于卷积神经网络的声纹识别模型对去噪后的音频信号进行声纹识别，进一步提高了音频信号识别的准确性。从而实现了在高噪声环境下，仍然可以利用声纹识别让员工完成准确签到的目的。
附图说明
20.为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。
21.图1为本发明实施例提供的一种高噪声环境下的声纹识别员工签到方法的流程图；图2为本发明实施例提供的一种建立基于卷积神经网络的声纹识别模型的流程图；图3为本发明实施例提供的一种训练基于卷积神经网络的声纹识别模型的流程图；图4为本发明实施例提供的一种高噪声环境下的声纹识别员工签到系统的结构框图；图5为本发明实施例提供的一种电子设备的示意性结构框图。
22.图标：100-高噪声环境下的声纹识别员工签到系统；110-音频模板编码模块；120-优化音频模板得到模块；130-音频信号去噪模块；140-峰值信噪比计算模块；150-相似度判
定模块；160-模型输入模块；170-模型认定模块；101-存储器；102-处理器；103-通信接口。
具体实施方式
23.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。
24.因此，以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围，而是仅仅表示本技术的选定实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
25.应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本技术的描述中，若出现术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。
26.需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，若出现术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，若出现由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
27.在本技术的描述中，需要说明的是，若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该申请产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本技术和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本技术的限制。
28.在本技术的描述中，还需要说明的是，除非另有明确的规定和限定，若出现术语“设置”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本技术中的具体含义。
29.下面结合附图，对本技术的一些实施方式作详细说明。在不冲突的情况下，下述的各个实施例及实施例中的各个特征可以相互组合。
实施例
30.请参照图1，图1所示为本发明实施例提供的一种高噪声环境下的声纹识别员工签到方法的流程图。本技术实施例提供一种高噪声环境下的声纹识别员工签到方法，其包括以下步骤：s110：获取所有用户的多个音频模板，并利用i-vector计算方法对所有音频模板
进行编码，并计算所有音频模板之间相似度；示例性的，上述用户可以为企业员工，让每位企业员工各自录入自己的多段语音作为每位企业员工的音频模板。
31.具体的，上述i-vector计算方法考虑了说话者之间的差异和信道之间的差异，首先利用i-vector计算方法对音频模板进行编码，可以有效保留每个音频模板的特征。然后再计算音频模板两两之间相似度。
32.s120：对于同一用户的所有音频模板，若任意两个音频模板的相似度高于第一预设相似值，则表示两个音频模板高度相似，并保留高度相似的两个音频模板中的任一音频模板，以得到该用户的优化音频模板；具体的，根据音频模板两两之间相似度，若某段音频模板未与其他音频模板高度相似，则直接保留即可。若任意两段音频模板高度相似，则仅保留其中任意一段音频模板。基于此，得到每个用户的优化音频模板。从而实现了对音频模板进行深度优化，提升了音频模板的可靠性。
33.其中，每个优化音频模板上都附有标签，以方便获取每个优化音频模板相匹配的用户。
34.示例性的，若第一预设相似值为90，当两个音频模板的相似度为88时，则这两个音频模板并不高度相似，当两个音频模板的相似度为92时，这两个音频模板高度相似。
35.s130：获取待识别音频信号，并利用多个预设去噪方法对待识别音频信号进行去噪；具体的，在签到过程中，签到员工输入一段自己的语音，以录入该音频信号，进而获取待识别音频信号。
36.其中，预设去噪方法至少包括小波去噪、fir滤波器去噪和傅里叶去噪。
37.s140：分别计算不同预设去噪方法处理后的待识别音频信号的峰值信噪比，保留峰值信噪比最高的待识别音频信号作为去噪后的音频信号；具体的，利用多种预设去噪方法相结合的方式对待识别音频信号进行去噪，仅保留峰值信噪比较高的音频信号，从而达到了较为理想的去噪效果。
38.s150：将去噪后的音频信号和所有优化音频模板进行相似度计算，若存在优化音频模板与去噪后的音频信号的相似度高于第二预设相似值，则认为该优化音频模板与去噪后的音频信号高度相似，并判定去噪后的音频信号属于该优化音频模板对应的用户，以认定该用户完成了签到；具体的，将去噪后的音频信号和所有用户的所有优化音频模板进行相似度计算。若该段去噪后的音频信号和某个用户的任意一段优化音频模板高度相似，则直接认定该音频信号是该用户的，并认定该用户完成了签到。
39.s160：若不存在优化音频模板与去噪后的音频信号高度相似，则将去噪后的音频信号输入至基于卷积神经网络的声纹识别模型；具体的，若该段去噪后的音频信号和任意员工的任意一段优化音频模板都没有高度相似，则将去噪后的音频信号输入至基于卷积神经网络的声纹识别模型中，以进行下一步检测。
40.s170：利用基于卷积神经网络的声纹识别模型对去噪后的音频信号进行判定，以
判定出与去噪后的音频信号相匹配的用户，并认定该用户完成了签到。
41.具体的，该方法首先通过将去噪后的音频信号与优化音频模板匹配的方法进行声纹识别，在一定程度上降低了计算资源消耗，当通过音频模板匹配无法识别时再利用基于卷积神经网络的声纹识别模型对去噪后的音频信号进行声纹识别，进一步提高了音频信号识别的准确性。从而在高噪声环境下，仍然可以利用声纹识别让员工完成准确签到。
42.请参照图2，图2所示为本发明实施例提供的一种建立基于卷积神经网络的声纹识别模型的流程图。在本实施例的一些实施方式中，上述利用基于卷积神经网络的声纹识别模型对去噪后的音频信号进行判定，以判定出与去噪后的音频信号相匹配的用户的步骤之前，该方法还包括：基于卷积神经网络，建立声纹识别初始模型；获取中文语音语料数据集，并根据中文语音语料数据集创建多个数据列表，其中，任一数据列表包含同一语音分类标签的不同语音数据集，任一语音数据集包含音频特征；利用多个数据列表训练声纹识别初始模型，以得到基于卷积神经网络的声纹识别模型。
43.其中，上述中文语音语料数据集一共有3242个人的语音数据，共1130000条语音数据，利用中文语音语料数据集创建数据列表可以保证语音数据的多样性。
44.上述实现过程中，首先利用中文语音语料数据集创建数据列表，创建的数据列表可以方便读取使用语音数据集，然后利用数据列表训练声纹识别初始模型，得到的基于卷积神经网络的声纹识别模型可以有效识别音频信号属于哪个用户。
45.请参照图3，图3所示为本发明实施例提供的一种训练基于卷积神经网络的声纹识别模型的流程图。在本实施例的一些实施方式中，上述利用多个数据列表训练声纹识别初始模型，以得到基于卷积神经网络的声纹识别模型的步骤包括：通过任一数据列表训练声纹识别初始模型，并保存训练后的声纹识别初始模型作为预测模型；将未使用的任一数据列表的任一语音数据集输入至预测模型，得到预测音频特征；将预测音频特征和该语音数据集对应的音频特征进行声纹对比得到对比结果，并根据对比结果调整预测模型；重复上述步骤，直至所有数据列表遍历完成，以得到基于卷积神经网络的声纹识别模型。
46.具体的，该方法首先通过任意一个未使用的数据列表训练声纹识别初始模型得到预测模型。然后利用预测模型对未使用的任一数据列表的任一语音数据集进行预测，得到预测音频特征。获取该语音数据集对应的音频特征，并使用音频特征与预测音频特征进行两两对比得到对比结果，该对比结果可以表明音频特征的相似度。以对比结果为准，对预测模型进行调整，再利用调整后的预测模型对未使用的任一数据列表的任一语音数据集进行预测，再次进行调整，直至遍历完所有数据列表，从而保证了基于卷积神经网络的声纹识别模型进行声纹识别的准确性。
47.在本实施例的一些实施方式中，上述利用多个预设去噪方法对待识别音频信号进行去噪的步骤包括：
利用小波去噪、fir滤波器去噪和傅里叶去噪对待识别音频信号进行去噪。
48.在本实施例的一些实施方式中，上述获取所有用户的多个音频模板，并利用i-vector计算方法对所有音频模板进行编码的步骤包括：建立i-vector模型；具体的，上述i-vector模型考虑了说话者之间的差异和信道之间的差异。
49.对任一音频模板依次进行预处理、特征提取后，利用i-vector模型对该音频模板进行编码。
50.具体的，首先对任一音频模板进行预加重处理，由于人的生理结构特征，音频信号的高频部分会被抑制住。然后进行分帧处理，一般每一帧是25ms，移帧是10ms。然后进行分窗口操作，最后进行端点检测，以检测出音频信号中没有声音的地方，从而完成了音频模板的预处理。预处理完成后，对音频模板进行特征提取，以捕捉音频模板的信息。
51.在本实施例的一些实施方式中，上述获取所有用户的多个音频模板的步骤包括：预先录入每个用户的多个语音信息，将语音信息作为音频模板，其中，多个语音信息包含不同场景下的噪声。从而保证了音频模板的全面性和多样性。
52.请参照图4，图4所示为本发明实施例提供的一种高噪声环境下的声纹识别员工签到系统100的结构框图。本技术实施例提供一种高噪声环境下的声纹识别员工签到系统100，其包括：音频模板编码模块110，用于获取所有用户的多个音频模板，并利用i-vector计算方法对所有音频模板进行编码，并计算所有音频模板之间相似度；优化音频模板得到模块120，用于对于同一用户的所有音频模板，若任意两个音频模板的相似度高于第一预设相似值，则表示两个音频模板高度相似，并保留高度相似的两个音频模板中的任一音频模板，以得到该用户的优化音频模板；音频信号去噪模块130，用于获取待识别音频信号，并利用多个预设去噪方法对待识别音频信号进行去噪；峰值信噪比计算模块140，用于分别计算不同预设去噪方法处理后的待识别音频信号的峰值信噪比，保留峰值信噪比最高的待识别音频信号作为去噪后的音频信号；相似度判定模块150，用于将去噪后的音频信号和所有优化音频模板进行相似度计算，若存在优化音频模板与去噪后的音频信号的相似度高于第二预设相似值，则认为该优化音频模板与去噪后的音频信号高度相似，并判定去噪后的音频信号属于该优化音频模板对应的用户，以认定该用户完成了签到；模型输入模块160，用于若不存在优化音频模板与去噪后的音频信号高度相似，则将去噪后的音频信号输入至基于卷积神经网络的声纹识别模型；模型认定模块170，用于利用基于卷积神经网络的声纹识别模型对去噪后的音频信号进行判定，以判定出与去噪后的音频信号相匹配的用户，并认定该用户完成了签到。
53.具体的，该系统首先利用i-vector计算方法对音频模板进行编码，以有效保留每个音频模板的特征，然后计算音频模板两两之间相似度，保留高度相似的两个音频模板中的任一音频模板，以此得到每个用户的优化音频模板，实现了对音频模板进行深度优化，提升了音频模板的可靠性。在签到过程中，该系统首先获取待识别音频信号，然后利用多种预设去噪方法相结合的方式对待识别音频信号进行去噪，仅保留峰值信噪比较高的音频信
号，以达到较为理想的去噪效果。然后先通过将去噪后的音频信号与优化音频模板匹配的方法进行声纹识别，在一定程度上降低了计算资源消耗，当通过音频模板匹配无法识别时再利用基于卷积神经网络的声纹识别模型对去噪后的音频信号进行声纹识别，进一步提高了音频信号识别的准确性。从而实现了在高噪声环境下，仍然可以利用声纹识别让员工完成准确签到的目的。
54.在本实施例的一些实施方式中，上述高噪声环境下的声纹识别员工签到系统100还包括：初始模型建立模块，用于基于卷积神经网络，建立声纹识别初始模型；数据列表创建模块，用于获取中文语音语料数据集，并根据中文语音语料数据集创建多个数据列表，其中，任一数据列表包含同一语音分类标签的不同语音数据集，任一语音数据集包含音频特征；模型训练模块，用于利用多个数据列表训练声纹识别初始模型，以得到基于卷积神经网络的声纹识别模型。
55.上述实现过程中，首先利用中文语音语料数据集创建数据列表，创建的数据列表可以方便读取使用语音数据集，然后利用数据列表训练声纹识别初始模型，得到的基于卷积神经网络的声纹识别模型可以有效识别音频信号属于哪个用户。
56.在本实施例的一些实施方式中，上述模型训练模块包括：预测模型得到单元，用于通过任一数据列表训练声纹识别初始模型，并保存训练后的声纹识别初始模型作为预测模型；预测音频特征得到单元，用于将未使用的任一数据列表的任一语音数据集输入至预测模型，得到预测音频特征；声纹对比单元，用于将预测音频特征和该语音数据集对应的音频特征进行声纹对比得到对比结果，并根据对比结果调整预测模型；训练完成单元，用于重复上述步骤，直至所有数据列表遍历完成，以得到基于卷积神经网络的声纹识别模型。
57.具体的，上述模型训练模块首先通过任意一个未使用的数据列表训练声纹识别初始模型得到预测模型。然后利用预测模型对未使用的任一数据列表的任一语音数据集进行预测，得到预测音频特征。获取该语音数据集对应的音频特征，并使用音频特征与预测音频特征进行两两对比得到对比结果，该对比结果可以表明音频特征的相似度。以对比结果为准，对预测模型进行调整，再利用调整后的预测模型对未使用的任一数据列表的任一语音数据集进行预测，再次进行调整，直至遍历完所有数据列表，从而保证了基于卷积神经网络的声纹识别模型进行声纹识别的准确性。
58.在本实施例的一些实施方式中，上述音频信号去噪模块130包括：去噪单元，用于利用小波去噪、fir滤波器去噪和傅里叶去噪对待识别音频信号进行去噪。
59.在本实施例的一些实施方式中，上述音频模板编码模块110包括：i-vector模型建立单元，用于建立i-vector模型；i-vector模型编码单元，用于对任一音频模板依次进行预处理、特征提取后，利用i-vector模型对该音频模板进行编码。
60.具体的，首先对任一音频模板进行预加重处理，由于人的生理结构特征，音频信号的高频部分会被抑制住。然后进行分帧处理，一般每一帧是25ms，移帧是10ms。然后进行分窗口操作，最后进行端点检测，以检测出音频信号中没有声音的地方，从而完成了音频模板的预处理。预处理完成后，对音频模板进行特征提取，以捕捉音频模板的信息。
61.在本实施例的一些实施方式中，上述音频模板编码模块110包括：音频模板获取单元，用于预先录入每个用户的多个语音信息，将语音信息作为音频模板，其中，多个语音信息包含不同场景下的噪声。从而保证了音频模板的全面性和多样性。
62.请参照图5，图5为本技术实施例提供的电子设备的一种示意性结构框图。电子设备包括存储器101、处理器102和通信接口103，该存储器101、处理器102和通信接口103相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器101可用于存储软件程序及模块，如本技术实施例所提供的一种高噪声环境下的声纹识别员工签到系统100对应的程序指令/模块，处理器102通过执行存储在存储器101内的软件程序及模块，从而执行各种功能应用以及数据处理。该通信接口103可用于与其他节点设备进行信令或数据的通信。
63.其中，存储器101可以是但不限于，随机存取存储器（random access memory，ram），只读存储器（read only memory，rom），可编程只读存储器（programmable read-only memory，prom），可擦除只读存储器（erasable programmable read-only memory，eprom），电可擦除只读存储器（electric erasable programmable read-only memory，eeprom）等。
64.处理器102可以是一种集成电路芯片，具有信号处理能力。该处理器102可以是通用处理器，包括中央处理器（central processing unit，cpu）、网络处理器（network processor，np）等；还可以是数字信号处理器（digital signal processing，dsp）、专用集成电路（application specific integrated circuit，asic）、现场可编程门阵列（field－programmable gate array，fpga）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
65.可以理解，图5所示的结构仅为示意，电子设备还可包括比图5中所示更多或者更少的组件，或者具有与图5所示不同的配置。图5中所示的各组件可以采用硬件、软件或其组合实现。
66.在本技术所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本技术的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
67.另外，在本技术各个实施例中的各功能模块可以集成在一起形成一个独立的部
分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。
68.所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器（rom，read-only memory）、随机存取存储器（ram，random access memory）、磁碟或者光盘等各种可以存储程序代码的介质。
69.以上所述仅为本技术的优选实施例而已，并不用于限制本技术，对于本领域的技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。
70.对于本领域技术人员而言，显然本技术不限于上述示范性实施例的细节，而且在不背离本技术的精神或基本特征的情况下，能够以其它的具体形式实现本技术。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本技术的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本技术内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：虚拟人脸生成方法、装置、计算机设备及可读存储介质与流程

一种高噪声环境下的声纹识别员工签到方法及系统与流程

相关文献

最热文献