一种高识别度的说话人识别系统的制作方法

2022-04-02 03:32:21 来源：中国专利 TAG：

1.本发明涉及神经网络、机器学习和信息处理领域，具体涉及一种高识别度的说话人识别系统。

背景技术：

2.说话人识别系统被广泛应用于安防、金融、社保等不同领域中。然而，受各种不确定性因素的制约，当前说话人识别系统的准确率仍然差强人意。
3.这些不确定性因素包括复杂多变的背景噪音、说话人自身的生理波动等等，因此，在复杂背景下研究更有效的特征提取算法和更具鲁棒性的说话人识别算法，对提高说话人识别系统的准确率具有非常重要的意义。

技术实现要素：

4.针对当前说话人识别系统存在的难点和不足，本发明提出了一种高识别度的说话人识别系统。
5.一种高识别度的说话人识别系统，包括：一个语音采集模块，一个特征提取模块，一个模型训练模块和一个说话人识别模块，其中，所述语音采集模块，用于采集说话人的语音，所述特征提取模块，用于提取语音中的说话人特征，所述模型训练模块，是基于改进后tdnn模型，并使用数据增强的方式来训练说话人识别模型，所述说话人识别模块，是通过相似度比对，并根据相似度对比得分来进行说话人识别。
6.该系统工作过程包括：步骤1，由所述语音采集模块对说话人语音进行采集，其中，语音采样率为16khz，语音声道为单声道，语音采集时长为1~8秒，进一步地，将采集到的说话人语音由物理语音信号转换为数字语音信号，输出至所述特征提取模块，步骤2，所述特征提取模块接收所述语音采集模块输出的语音信号，以混合特征作为参数，来提取语音中的说话人特征，具体地，步骤2包括步骤：步骤201，对语音信号进行分帧，分帧的频率为n；步骤202，对输入的语音信号进行初始化，计算公式为：其中，为输入的语音信号，k表示预加重系数，取值范围为0.92-0.98；步骤203，计算出每一帧的熵谱值，并根据熵谱特征对语音进行端点检测，进一步地，提取出有效语音，熵谱值的计算公式为：
其中，表示第i帧的谱熵，n表示向量的维度，表示第i帧的第n个子带占该帧总能量的比例；步骤204，将基音周期系数和频率倒谱系数进行混合作为参数，来提取语音中的说话人特征。
7.具体地，计算公式为：其中，是频率基音特征系数的系数因子，是基音特征参数，是频率倒谱特征系数的系数因子，是频率倒谱系数特征参数。
8.步骤3，所述模型训练模块接收所述特征提取模块输出的说话人特征，以说话人特征作为训练数据，来训练改进后tdnn模型，并将训练后的模型输出至所述说话人识别模块，具体地，步骤3包括步骤：步骤301，采用下列数据增强的方法，对音频数据进行扩充；数据增强一，通过对原始语音信号添加随机规整因子，生成新的语音信号；数据增强二，通过在原始音频上添加高斯噪声，得到带有噪声的语音信号；数据增强三，通过在原始音频上添加混响，得到带有混响的语音信号。
9.数据增强四，通过对原始语音添加不同的扰动系数，来生成不同声道长度的语音信号。
10.步骤302，采用下列方式对原tdnn模型进行改进：改进一，将tdnn每一层的权重矩阵m分解为a矩阵和b矩阵，并且限制b矩阵为半正交矩阵，权重矩阵m满足关系式m=a*b；改进二，在每一层tdnn之间加入dense-relu层；改进三，最后的输出层，采用am-softmax作为分类函数，am-softmax计算公式为：其中，表示输入值，表示类别，n表示样本数量，s和m为超参数，表示输入在类别中的区域，表示类别区域的间隔，表示将类别区域的间隔扩大s倍。
11.步骤303，由特征提取模块对语音中的说话人特征进行特征提取，并将提取到的说话人特征，按照7：2：1的比例，划分为训练集、验证集和测试集，训练改进后tdnn模型；步骤304，将训练完成的改进后tdnn模型，输出至所述说话人识别模块。
12.步骤4，所述说话人识别模块接收所述模型训练模块输出的模型，对于要进行识别的语音，先由所述特征提取模块提取出语音中的说话人特征，再由所述说话人识别模块接收该说话人特征，并进行说话人识别。
13.具体地，步骤4包括步骤：步骤401，由所述说话人识别模块接收所述模型训练模块输出的模型，并设置阈值t，
步骤402，将需要进行识别的语音，由特征提取模块提取出说话人特征；步骤403，将提取出来的说话人特征，输入至已完成训练的改进tdnn模型；步骤404，由模型输出相似度对比得分，进一步地，将相似度对比得分和阈值t进行比较，来判断该语音和训练改进tdnn模型的语音，是否出自于同一人。
14.本发明提出了一种高识别度的说话人识别系统，与现有的技术相比，具有以下有益效果：特征提取阶段：本发明通过对语音进行端点检测，解决了语音中由于存在静声段带来的干扰，并且减少了因为对非说话人语音段进行识别而导致的误检，提高了特征提取的效率；本发明通过联合基音周期系数和频率倒谱系数进行混合作为特征，来提取语音中的说话人特征，解决了在复杂噪声语音中，说话人特征难以提取的问题。
15.说话人识别阶段：本发明通过将原来的权重矩阵m分解为a矩阵和b矩阵，并且限制b矩阵为半正交矩阵，来降低中间层维数，在减少模型参数的同时，提高了模型识别的速度；本发明通过在每一层tdnn之间加入dense-relu层，来增加网络的深度和参数量，提升了模型的性能；本发明通过引入am-softmax分类函数，使得模型获得更稳定的和更快的收敛，进一步提升了说话人识别的准确率。
附图说明
16.图1是本发明的各模块结构示意图；图2是本发明的不同分类函数训练损失对比图。
具体实施方式
17.为了使本发明的目的、特征能够更加的明显和易懂，下面通过实施例并结合附图对本技术方案进行详细说明。
18.如图1所示，一种高识别度的说话人识别系统，包括：一个语音采集模块，一个特征提取模块，一个模型训练模块和一个说话人识别模块，其中，所述语音采集模块，用于采集说话人的语音，所述特征提取模块，用于提取语音中的说话人特征，所述模型训练模块，是基于改进后tdnn模型，并使用数据增强的方式来训练说话人识别模型，所述说话人识别模块，是通过相似度比对，并根据相似度对比得分来进行说话人识别。
19.该系统工作过程包括：步骤1，首先，由所述语音采集模块对说话人语音进行采集，其中，语音采样率为16khz，语音声道为单声道，语音采集时长为1~8秒。
20.然后，将采集到的说话人语音由物理语音信号转换为数字语音信号，输出至所述特征提取模块。
21.步骤2，所述特征提取模块接收所述语音采集模块输出的语音信号，以混合特征作为参数，来提取语音中的说话人特征。
22.具体步骤如下：
首先，对语音信号进行分帧，分帧的频率为n；然后，对输入的语音信号进行初始化，计算公式为：其中，为输入的语音信号，k表示预加重系数，取值范围为0.92-0.98。
23.优选地，分帧频率n设置为15。
24.接着，计算出每一帧的熵谱值，并根据熵谱特征对语音进行端点检测，进一步地，提取出有效语音，熵谱值的计算公式为：其中，表示第i帧的谱熵，n表示向量的维度，表示第i帧的第n个子带占该帧总能量的比例。
25.最后，将基音周期系数和频率倒谱系数进行混合作为参数，来提取语音中的说话人特征。
26.具体地，计算公式为：其中，是频率基音特征系数的系数因子，是基音特征参数，是频率倒谱特征系数的系数因子，是频率倒谱系数特征参数。
27.步骤3，所述模型训练模块接收所述特征提取模块输出的说话人特征，以说话人特征作为训练数据，来训练改进后tdnn模型，并将训练后的模型输出至所述说话人识别模块。
28.具体步骤如下：首先，采用下列数据增强的方法，对音频数据进行扩充。
29.数据增强一，通过对原始语音信号添加随机规整因子，生成新的语音信号。
30.数据增强二，通过在原始音频上添加高斯噪声，得到带有噪声的语音信号。
31.数据增强三，通过在原始音频上添加混响，得到带有混响的语音信号。
32.数据增强四，通过对原始语音添加不同的扰动系数，来生成不同声道长度的语音信号。
33.优选地，扰动系数设置范围是0.5~1.2。
34.然后，采用下列方式对原tdnn模型进行改进：改进一，将tdnn每一层的权重矩阵m分解为a矩阵和b矩阵，并且限制b矩阵为半正交矩阵，权重矩阵m满足关系式m=a*b。
35.优选地，对于矩阵形式m=a*b，如果m＝700*2100，则a＝700*250，b＝250*2100，瓶颈层的节点数为250。
36.改进二，在每一层tdnn之间加入dense-relu层。
37.改进三，最后的输出层，采用am-softmax作为分类函数，am-softmax计算公式为：
其中，表示输入值，表示类别，n表示样本数量，s和m为超参数，表示输入在类别中的区域，表示类别区域的间隔，表示将类别区域的间隔扩大s倍。
38.优选地，设置超参数s=20，参数因子m=0.25。
39.如图2所示，在模型最后的输出层，分别以am-softmax和a-softmax作为分类函数，通过对比同一训练数据集下相同迭代次数的训练结果，可以发现，am-softmax分类函数比a-softmax分类函数更稳定、更快，并且，在模型训练开始时，具有更灵活的角度裕度。
40.接着，由特征提取模块对语音中的说话人特征进行特征提取，并将提取到的说话人特征，按照7：2：1的比例，划分为训练集、验证集和测试集，来训练改进后tdnn模型。
41.具体地，训练改进后tdnn模型时的训练参数是：动量为0.9，总训练时期为26小时，学习率为0.025，衰减指数为10-5
，batchsize为32。
42.最后，将训练完成的改进后tdnn模型，输出至所述说话人识别模块。
43.步骤4，所述说话人识别模块接收所述模型训练模块输出的模型，对于要进行识别的语音，先由所述特征提取模块提取出语音中的说话人特征，再由所述说话人识别模块接收该说话人特征，并进行说话人识别。
44.具体步骤如下：首先，由所述说话人识别模块接收所述模型训练模块输出的模型，并设置阈值t。
45.然后，将需要进行识别的语音，由特征提取模块提取出说话人特征。
46.接着，将提取出来的说话人特征，输入至已完成训练的改进tdnn模型。
47.最后，由模型输出相似度对比得分，进一步地，将相似度对比得分和阈值t进行比较，来判断该语音和训练改进tdnn模型的语音，是否出自于同一人。
48.优选地，阈值t设置为0.6。
49.至此，按照本发明公开的方法，已实施完一次本发明的工作过程。
50.虽然，本说明书中已经用一般性说明及具体实施方案对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：会议音频数据的处理方法、系统、电子设备及存储介质与流程

一种高识别度的说话人识别系统的制作方法

相关文献

最热文献