声纹识别方法、装置、设备及存储介质与流程

2021-09-22 22:04:00 来源：中国专利 TAG：人工智能识别装置方法设备

1.本发明涉及人工智能技术领域，尤其涉及一种声纹识别方法、装置、设备及存储介质。

背景技术：

2.在门禁语音系统中，通常采用声纹识别进行生物认证。然而，在目前的声纹识别中，通常是采用高斯混合模型等传统机器学习模型对用户声纹进行识别，这种方式的声纹识别精度较低。

技术实现要素：

3.鉴于以上内容，有必要提供一种声纹识别方法、装置、设备及存储介质，能够准确的确定出识别音频的识别结果。
4.一方面，本发明提出一种声纹识别方法，所述声纹识别方法包括：
5.获取声纹训练样本，所述声纹训练样本中包括多个样本用户的声纹训练信息、基准声纹信息及特征声纹信息；
6.获取预设学习器，所述预设学习器包括多个网络层；
7.基于每个网络层分别处理所述声纹训练信息、所述基准声纹信息及所述特征声纹信息，得到所述声纹训练信息的训练声纹向量、所述基准声纹信息的基准声纹向量及所述特征声纹信息的特征声纹向量；
8.根据所述训练声纹向量、所述基准声纹向量及所述特征声纹向量计算所述预设学习器的损失值；
9.根据所述损失值调整每个网络层的网络参数，得到与所述预设学习器对应的声纹识别模型；
10.当接收到识别请求时，从所述识别请求获取识别音频；
11.对所述识别音频进行预处理，得到所述识别音频的梅谱信息；
12.根据所述梅谱信息及所述声纹识别模型生成识别结果。
13.根据本发明优选实施例，所述基于每个网络层分别处理所述声纹训练信息、所述基准声纹信息及所述特征声纹信息，得到所述声纹训练信息的训练声纹向量、所述基准声纹信息的基准声纹向量及所述特征声纹信息的特征声纹向量包括：
14.每个网络层中包括卷积网络、全连接网络及正则网络；
15.基于所述卷积网络分别对所述声纹训练信息、所述基准声纹信息及所述特征声纹信息进行卷积处理，得到所述声纹训练信息的第一卷积信息、所述基准声纹信息的第二卷积信息及所述特征声纹信息的第三卷积信息；
16.获取所述全连接网络中的权值矩阵及偏置向量；
17.根据所述权值矩阵及所述偏置向量分别对所述第一卷积信息、所述第二卷积信息及所述第三卷积信息进行处理，得到所述声纹训练信息的第一声纹信息、所述基准声纹信
息的第二声纹信息及所述特征声纹信息的第三声纹信息；
18.基于所述正则网络分别对所述第一声纹信息、所述第二声纹信息及所述第三声纹信息进行正则化处理，得到所述声纹训练信息的所述训练声纹向量、所述基准声纹信息的所述基准声纹向量及所述特征声纹信息的所述特征声纹向量。
19.根据本发明优选实施例，所述根据所述权值矩阵及所述偏置向量分别对所述第一卷积信息、所述第二卷积信息及所述第三卷积信息进行处理，得到所述声纹训练信息的第一声纹信息、所述基准声纹信息的第二声纹信息及所述特征声纹信息的第三声纹信息包括：
20.分别计算所述权值矩阵与所述第一卷积信息、所述第二卷积信息及所述第三卷积信息的乘积，得到所述声纹训练信息的第一运算向量、所述基准声纹信息的第二运算向量及所述特征声纹信息的运算向量；
21.分别计算所述偏置向量与第一运算向量、所述第二运算向量及所述运算向量的总和，得到所述声纹训练信息的所述第一声纹信息、所述基准声纹信息的所述第二声纹信息及所述特征声纹信息的所述第三声纹信息。
22.根据本发明优选实施例，所述根据所述训练声纹向量、所述基准声纹向量及所述特征声纹向量计算所述预设学习器的损失值包括：
23.计算所述基准声纹向量与所述训练声纹向量的第一相似度；
24.计算所述基准声纹向量与所述特征声纹向量的第二相似度；
25.计算所述第一相似度与所述第二相似度的差值，得到相似度差值，并计算所述相似度差值与预设边界值的总和，得到初始损失；
26.将所述初始损失写入预设集合中，得到目标集合；
27.将所述目标集合中取值最大的元素确定为所述损失值。
28.根据本发明优选实施例，所述从所述识别请求获取识别音频包括：
29.解析所述识别请求的报文，得到所述报文携带的数据信息；
30.从所述数据信息中获取与预设标签对应的信息作为检测编号，所述预设标签用于指示识别对象；
31.确定所述识别请求的生成系统；
32.从所述生成系统的日志库中获取包含所述检测编号及音频标识的日志作为音频日志；
33.从所述音频日志中获取与所述音频标识对应的信息作为所述识别音频。
34.根据本发明优选实施例，所述对所述识别音频进行预处理，得到所述识别音频的梅谱信息包括：
35.提取所述识别音频中每帧的音频信息；
36.对所述音频信息进行傅里叶变换处理，得到所述识别音频的频谱图；
37.对所述频谱图进行压缩处理，得到压缩信息；
38.基于梅尔尺度滤波器处理所述压缩信息，得到所述梅谱信息。
39.根据本发明优选实施例，所述根据所述梅谱信息及所述声纹识别模型生成识别结果包括：
40.将所述梅谱信息输入至所述声纹识别模型中，得到输出分数；
41.计算所述输出分数与第一预设阈值的差值，得到第一数值，并计算所述输出分数与第二预设阈值的差值，得到第二数值；
42.若所述第一数值的绝对值小于所述第二数值的绝对值，将所述第一预设阈值所对应的结果确定为所述识别结果；或者
43.若所述第一数值的绝对值大于所述第二数值的绝对值，将所述第二预设阈值所对应的结果确定为所述识别结果。
44.另一方面，本发明还提出一种声纹识别装置，所述声纹识别装置包括：
45.获取单元，用于获取声纹训练样本，所述声纹训练样本中包括多个样本用户的声纹训练信息、基准声纹信息及特征声纹信息；
46.所述获取单元，还用于获取预设学习器，所述预设学习器包括多个网络层；
47.处理单元，用于基于每个网络层分别处理所述声纹训练信息、所述基准声纹信息及所述特征声纹信息，得到所述声纹训练信息的训练声纹向量、所述基准声纹信息的基准声纹向量及所述特征声纹信息的特征声纹向量；
48.计算单元，用于根据所述训练声纹向量、所述基准声纹向量及所述特征声纹向量计算所述预设学习器的损失值；
49.调整单元，用于根据所述损失值调整每个网络层的网络参数，得到与所述预设学习器对应的声纹识别模型；
50.所述获取单元，用于当接收到识别请求时，从所述识别请求获取识别音频；
51.预处理单元，用于对所述识别音频进行预处理，得到所述识别音频的梅谱信息；
52.生成单元，用于根据所述梅谱信息及所述声纹识别模型生成识别结果。
53.另一方面，本发明还提出一种电子设备，所述电子设备包括：
54.存储器，存储计算机可读指令；及
55.处理器，执行所述存储器中存储的计算机可读指令以实现所述声纹识别方法。
56.另一方面，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机可读指令，所述计算机可读指令被电子设备中的处理器执行以实现所述声纹识别方法。
57.由以上技术方案可以看出，本发明通过多个网络层对所述声纹训练信息、所述基准声纹信息及所述特征声纹信息进行处理，并根据计算得到的损失值调整每个网络层的网络参数，由于无需对所述声纹训练样本进行数据打标签，提高了所述声纹识别模型的训练效率，同时，能够避免人工打标签带来的样本误差，提高了所述声纹识别模型的训练精度，进而提高所述识别结果的准确性。
附图说明
58.图1是本发明声纹识别方法的较佳实施例的流程图。
59.图2是本发明声纹识别装置的较佳实施例的功能模块图。
60.图3是本发明实现声纹识别方法的较佳实施例的电子设备的结构示意图。
具体实施方式
61.为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对
本发明进行详细描述。
62.如图1所示，是本发明声纹识别方法的较佳实施例的流程图。根据不同的需求，该流程图中步骤的顺序可以改变，某些步骤可以省略。
63.所述声纹识别方法应用于智慧安防中，从而推动智慧城市的建设。所述声纹识别方法应用于一个或者多个电子设备中，所述电子设备是一种能够按照事先设定或存储的计算机可读指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(application specific integrated circuit，asic)、可编程门阵列(field－programmable gate array，fpga)、数字信号处理器(digital signal processor，dsp)、嵌入式设备等。
64.所述电子设备可以是任何一种可与用户进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、个人数字助理(personal digital assistant，pda)、游戏机、交互式网络电视(internet protocol television，iptv)、智能穿戴式设备等。
65.所述电子设备可以包括网络设备和/或用户设备。其中，所述网络设备包括，但不限于单个网络电子设备、多个网络电子设备组成的电子设备组或基于云计算(cloud computing)的由大量主机或网络电子设备构成的云。
66.所述电子设备所处的网络包括，但不限于：互联网、广域网、城域网、局域网、虚拟专用网络(virtual private network，vpn)等。
67.s10，获取声纹训练样本，所述声纹训练样本中包括多个样本用户的声纹训练信息、基准声纹信息及特征声纹信息。
68.在本发明的至少一个实施例中，所述声纹训练信息是指在训练声纹识别模型时每个样本用户的输入音频所对应的声纹信息，所述基准声纹信息是指每个样本用户基于预设文本而生成的基准音频所对应的声纹信息，所述特征声纹信息是指除该样本用户外的其他用户所产生的音频所对应的声纹信息。
69.需要特别说明的是，所述基准声纹信息的输出用户与所述声纹训练信息的输出用户相同，所述特征声纹信息的输出用户与所述声纹训练信息的输出用户不同。
70.在本发明的至少一个实施例中，所述电子设备可以根据需要识别所属的对象获取声纹训练样本。
71.s11，获取预设学习器，所述预设学习器包括多个网络层。
72.在本发明的至少一个实施例中，所述预设学习器是指训练所述声纹识别模型的初始化配置模型。
73.所述多个网络层分别用于训练所述声纹训练信息、所述基准声纹信息及所述特征声纹信息，也就是说，所述多个网络层的数量通常设置为3。
74.在本发明的至少一个实施例中，所述电子设备根据所述识别类型获取所述预设学习器。
75.通过所述识别类型能够准确获取到训练所述声纹识别模型所需的学习器。
76.s12，基于每个网络层分别处理所述声纹训练信息、所述基准声纹信息及所述特征声纹信息，得到所述声纹训练信息的训练声纹向量、所述基准声纹信息的基准声纹向量及所述特征声纹信息的特征声纹向量。
77.相应地，所述训练声纹向量是指每个样本用户的输入音频所对应的声纹向量，所
述基准声纹向量是指每个样本用户基于预设文本而生成的基准音频所对应的声纹向量，所述特征声纹向量是指除该样本用户外的其他用户所产生的音频所对应的声纹向量。
78.在本发明的至少一个实施例中，所述电子设备基于每个网络层分别处理所述声纹训练信息、所述基准声纹信息及所述特征声纹信息，得到所述声纹训练信息的训练声纹向量、所述基准声纹信息的基准声纹向量及所述特征声纹信息的特征声纹向量包括：
79.每个网络层中包括卷积网络、全连接网络及正则网络；
80.基于所述卷积网络分别对所述声纹训练信息、所述基准声纹信息及所述特征声纹信息进行卷积处理，得到所述声纹训练信息的第一卷积信息、所述基准声纹信息的第二卷积信息及所述特征声纹信息的第三卷积信息；
81.获取所述全连接网络中的权值矩阵及偏置向量；
82.根据所述权值矩阵及所述偏置向量分别对所述第一卷积信息、所述第二卷积信息及所述第三卷积信息进行处理，得到所述声纹训练信息的第一声纹信息、所述基准声纹信息的第二声纹信息及所述特征声纹信息的第三声纹信息；
83.基于所述正则网络分别对所述第一声纹信息、所述第二声纹信息及所述第三声纹信息进行正则化处理，得到所述声纹训练信息的所述训练声纹向量、所述基准声纹信息的所述基准声纹向量及所述特征声纹信息的所述特征声纹向量。
84.通过上述实施方式，能够快速生成所述训练声纹向量、所述基准声纹向量及所述特征声纹向量。
85.具体地，所述电子设备基于所述卷积网络分别对所述声纹训练信息、所述基准声纹信息及所述特征声纹信息进行卷积处理，得到所述声纹训练信息的第一卷积信息、所述基准声纹信息的第二卷积信息及所述特征声纹信息的第三卷积信息包括：
86.获取所述卷积网络中的卷积核，并提取所述卷积核中的核参数；
87.基于所述核参数分别对所述声纹训练信息、所述基准声纹信息及所述特征声纹信息进行卷积运算，得到所述第一卷积信息、所述第二卷积信息及所述第三卷积信息。
88.其中，所述核参数通常是指所述卷积核的核大小。
89.具体地，所述电子设备根据所述权值矩阵及所述偏置向量分别对所述第一卷积信息、所述第二卷积信息及所述第三卷积信息进行处理，得到所述声纹训练信息的第一声纹信息、所述基准声纹信息的第二声纹信息及所述特征声纹信息的第三声纹信息包括：
90.分别计算所述权值矩阵与所述第一卷积信息、所述第二卷积信息及所述第三卷积信息的乘积，得到所述声纹训练信息的第一运算向量、所述基准声纹信息的第二运算向量及所述特征声纹信息的运算向量；
91.分别计算所述偏置向量与第一运算向量、所述第二运算向量及所述运算向量的总和，得到所述声纹训练信息的所述第一声纹信息、所述基准声纹信息的所述第二声纹信息及所述特征声纹信息的所述第三声纹信息。
92.s13，根据所述训练声纹向量、所述基准声纹向量及所述特征声纹向量计算所述预设学习器的损失值。
93.在本发明的至少一个实施例中，所述损失值是指所述预设学习器处理所述声纹训练样本所产生的损失。生成所述损失值的所述预设学习器中的每个网络层的配置参数所对应有相应的初始值。
94.在本发明的至少一个实施例中，所述电子设备根据所述训练声纹向量、所述基准声纹向量及所述特征声纹向量计算所述预设学习器的损失值包括：
95.计算所述基准声纹向量与所述训练声纹向量的第一相似度；
96.计算所述基准声纹向量与所述特征声纹向量的第二相似度；
97.计算所述第一相似度与所述第二相似度的差值，得到相似度差值，并计算所述相似度差值与预设边界值的总和，得到初始损失；
98.将所述初始损失写入预设集合中，得到目标集合；
99.将所述目标集合中取值最大的元素确定为所述损失值。
100.其中，所述预设边界值是指所述预设学习器中预先设定好的参数值。
101.所述预设集合通常是指包含有预设元素的集合，其中，所述预设元素通常设置为0。
102.通过上述实施方式，能够在所述声纹训练样本中不具有标签结果的前提下，准确的确定出所述损失值，同时，由于无需对所述声纹训练样本进行标注，因此，提高所述损失值的确定效率。
103.s14，根据所述损失值调整每个网络层的网络参数，得到与所述预设学习器对应的声纹识别模型。
104.在本发明的至少一个实施例中，所述网络参数是指所述预设学习器中的所有配置参数，所述网络参数具体包括有所述卷积网络中的配置参数、所述全连接网络中的配置参数及所述正则网络中的配置参数。所述网络参数还可以包括所述预设边界值。
105.在本发明的至少一个实施例中，所述声纹识别模型是指所述损失值收敛时所对应的预设学习器。
106.在本发明的至少一个实施例中，所述电子设备根据所述损失值调整每个网络层的网络参数，得到与所述预设学习器对应的声纹识别模型包括：
107.将所述卷积网络中的配置参数、所述全连接网络中的配置参数及所述正则网络中的配置参数确定为所述网络参数；
108.根据预设步长调整所述预设学习器中与所述网络参数所对应的初始值，直至所述损失值不再降低，得到所述声纹识别模型。
109.其中，所述预设步长可以根据调整需求设定的。
110.通过所述损失值能够确保所述声纹识别模型的识别精度。
111.s15，当接收到识别请求时，从所述识别请求获取识别音频。
112.在本发明的至少一个实施例中，所述识别请求中携带有检测编号等信息。所述识别请求是与所述电子设备相通信的系统接收到音频信息时触发生成的。
113.所述识别音频是指需要进行声纹识别的音频。
114.在本发明的至少一个实施例中，所述电子设备从所述识别请求获取识别音频包括：
115.解析所述识别请求的报文，得到所述报文携带的数据信息；
116.从所述数据信息中获取与预设标签对应的信息作为检测编号，所述预设标签用于指示识别对象；
117.确定所述识别请求的生成系统；
118.从所述生成系统的日志库中获取包含所述检测编号及音频标识的日志作为音频日志；
119.从所述音频日志中获取与所述音频标识对应的信息作为所述识别音频。
120.其中，所述数据信息包括，但不限于：所述检测编号等。
121.所述检测编号是指需要进行声纹识别的音频所对应的编号。
122.所述音频标识用于指示音频信息。
123.通过所述预设标签能够准确的从所述数据信息中获取到所述检测编号，通过所述检测编号及所述音频标识能够准确的确定出所述音频日志，从而能够准确的获取到所述识别音频。
124.s16，对所述识别音频进行预处理，得到所述识别音频的梅谱信息。
125.在本发明的至少一个实施例中，所述梅谱信息是基于所述识别音频中的声音频率而生成的信息。
126.在本发明的至少一个实施例中，所述电子设备对所述识别音频进行预处理，得到所述识别音频的梅谱信息包括：
127.提取所述识别音频中每帧的音频信息；
128.对所述音频信息进行傅里叶变换处理，得到所述识别音频的频谱图；
129.对所述频谱图进行压缩处理，得到压缩信息；
130.基于梅尔尺度滤波器处理所述压缩信息，得到所述梅谱信息。
131.通过对所述音频信息进行傅里叶变换处理，能够使生成的所述频谱图具有时频信息，通过对所述频谱图进行压缩处理，提高梅尔尺度滤波器处理所述压缩信息的效率。
132.s17，根据所述梅谱信息及所述声纹识别模型生成识别结果。
133.在本发明的至少一个实施例中，所述识别结果是指所述识别音频所对应的结果。所述识别结果包括是本人及不是本人两种结果。
134.需要强调的是，为进一步保证上述识别结果的私密和安全性，上述识别结果还可以存储于一区块链的节点中。
135.在本发明的至少一个实施例中，所述电子设备根据所述梅谱信息及所述声纹识别模型生成识别结果包括：
136.将所述梅谱信息输入至所述声纹识别模型中，得到输出分数；
137.计算所述输出分数与第一预设阈值的差值，得到第一数值，并计算所述输出分数与第二预设阈值的差值，得到第二数值，所述第一预设阈值小于所述第二预设阈值；
138.若所述第一数值的绝对值小于所述第二数值的绝对值，将所述第一预设阈值所对应的结果确定为所述识别结果；或者
139.若所述第一数值的绝对值大于所述第二数值的绝对值，将所述第二预设阈值所对应的结果确定为所述识别结果。
140.其中，所述第一预设阈值是根据不是本人的配置结果而预先设定的阈值，所述第一预设阈值通常设定为0。
141.所述第二预设阈值是根据是本人的配置结果而预先设定的阈值，所述第二预设阈值通常设定为1。
142.例如，所述输出分数为0.7，则所述第一数值为0.7，所述第二数值为
‑
0.3，经计算，
所述第一数值的绝对值为0.7大于所述第二数值的绝对值0.3，因此，所述识别结果为所述第二预设阈值所对应的结果，即，所述识别结果为：是本人。
143.通过所述第一预设阈值及所述第二预设阈值能够对所述输出分数所对应的结果进行分析，从而提高所述识别结果的准确性。
144.由以上技术方案可以看出，本发明通过多个网络层对所述声纹训练信息、所述基准声纹信息及所述特征声纹信息进行处理，并根据计算得到的损失值调整每个网络层的网络参数，由于无需对所述声纹训练样本进行数据打标签，提高了所述声纹识别模型的训练效率，同时，能够避免人工打标签带来的样本误差，提高了所述声纹识别模型的训练精度，进而提高所述识别结果的准确性。
145.如图2所示，是本发明声纹识别装置的较佳实施例的功能模块图。所述声纹识别装置11包括获取单元110、处理单元111、计算单元112、调整单元113、预处理单元114及生成单元115。本发明所称的模块/单元是指一种能够被处理器13所获取，并且能够完成固定功能的一系列计算机可读指令段，其存储在存储器12中。在本实施例中，关于各模块/单元的功能将在后续的实施例中详述。
146.获取单元110获取声纹训练样本，所述声纹训练样本中包括多个样本用户的声纹训练信息、基准声纹信息及特征声纹信息。
147.在本发明的至少一个实施例中，所述声纹训练信息是指在训练声纹识别模型时每个样本用户的输入音频所对应的声纹信息，所述基准声纹信息是指每个样本用户基于预设文本而生成的基准音频所对应的声纹信息，所述特征声纹信息是指除该样本用户外的其他用户所产生的音频所对应的声纹信息。
148.需要特别说明的是，所述基准声纹信息的输出用户与所述声纹训练信息的输出用户相同，所述特征声纹信息的输出用户与所述声纹训练信息的输出用户不同。
149.在本发明的至少一个实施例中，所述获取单元110可以根据需要识别所属的对象获取声纹训练样本。
150.所述获取单元110获取预设学习器，所述预设学习器包括多个网络层。
151.在本发明的至少一个实施例中，所述预设学习器是指训练所述声纹识别模型的初始化配置模型。
152.所述多个网络层分别用于训练所述声纹训练信息、所述基准声纹信息及所述特征声纹信息，也就是说，所述多个网络层的数量通常设置为3。
153.在本发明的至少一个实施例中，所述获取单元110根据所述识别类型获取所述预设学习器。
154.通过所述识别类型能够准确获取到训练所述声纹识别模型所需的学习器。
155.处理单元111基于每个网络层分别处理所述声纹训练信息、所述基准声纹信息及所述特征声纹信息，得到所述声纹训练信息的训练声纹向量、所述基准声纹信息的基准声纹向量及所述特征声纹信息的特征声纹向量。
156.相应地，所述训练声纹向量是指每个样本用户的输入音频所对应的声纹向量，所述基准声纹向量是指每个样本用户基于预设文本而生成的基准音频所对应的声纹向量，所述特征声纹向量是指除该样本用户外的其他用户所产生的音频所对应的声纹向量。
157.在本发明的至少一个实施例中，所述处理单元111基于每个网络层分别处理所述
声纹训练信息、所述基准声纹信息及所述特征声纹信息，得到所述声纹训练信息的训练声纹向量、所述基准声纹信息的基准声纹向量及所述特征声纹信息的特征声纹向量包括：
158.每个网络层中包括卷积网络、全连接网络及正则网络；
159.基于所述卷积网络分别对所述声纹训练信息、所述基准声纹信息及所述特征声纹信息进行卷积处理，得到所述声纹训练信息的第一卷积信息、所述基准声纹信息的第二卷积信息及所述特征声纹信息的第三卷积信息；
160.获取所述全连接网络中的权值矩阵及偏置向量；
161.根据所述权值矩阵及所述偏置向量分别对所述第一卷积信息、所述第二卷积信息及所述第三卷积信息进行处理，得到所述声纹训练信息的第一声纹信息、所述基准声纹信息的第二声纹信息及所述特征声纹信息的第三声纹信息；
162.基于所述正则网络分别对所述第一声纹信息、所述第二声纹信息及所述第三声纹信息进行正则化处理，得到所述声纹训练信息的所述训练声纹向量、所述基准声纹信息的所述基准声纹向量及所述特征声纹信息的所述特征声纹向量。
163.通过上述实施方式，能够快速生成所述训练声纹向量、所述基准声纹向量及所述特征声纹向量。
164.具体地，所述处理单元111基于所述卷积网络分别对所述声纹训练信息、所述基准声纹信息及所述特征声纹信息进行卷积处理，得到所述声纹训练信息的第一卷积信息、所述基准声纹信息的第二卷积信息及所述特征声纹信息的第三卷积信息包括：
165.获取所述卷积网络中的卷积核，并提取所述卷积核中的核参数；
166.基于所述核参数分别对所述声纹训练信息、所述基准声纹信息及所述特征声纹信息进行卷积运算，得到所述第一卷积信息、所述第二卷积信息及所述第三卷积信息。
167.其中，所述核参数通常是指所述卷积核的核大小。
168.具体地，所述处理单元111根据所述权值矩阵及所述偏置向量分别对所述第一卷积信息、所述第二卷积信息及所述第三卷积信息进行处理，得到所述声纹训练信息的第一声纹信息、所述基准声纹信息的第二声纹信息及所述特征声纹信息的第三声纹信息包括：
169.分别计算所述权值矩阵与所述第一卷积信息、所述第二卷积信息及所述第三卷积信息的乘积，得到所述声纹训练信息的第一运算向量、所述基准声纹信息的第二运算向量及所述特征声纹信息的运算向量；
170.分别计算所述偏置向量与第一运算向量、所述第二运算向量及所述运算向量的总和，得到所述声纹训练信息的所述第一声纹信息、所述基准声纹信息的所述第二声纹信息及所述特征声纹信息的所述第三声纹信息。
171.计算单元112根据所述训练声纹向量、所述基准声纹向量及所述特征声纹向量计算所述预设学习器的损失值。
172.在本发明的至少一个实施例中，所述损失值是指所述预设学习器处理所述声纹训练样本所产生的损失。生成所述损失值的所述预设学习器中的每个网络层的配置参数所对应有相应的初始值。
173.在本发明的至少一个实施例中，所述计算单元112根据所述训练声纹向量、所述基准声纹向量及所述特征声纹向量计算所述预设学习器的损失值包括：
174.计算所述基准声纹向量与所述训练声纹向量的第一相似度；
175.计算所述基准声纹向量与所述特征声纹向量的第二相似度；
176.计算所述第一相似度与所述第二相似度的差值，得到相似度差值，并计算所述相似度差值与预设边界值的总和，得到初始损失；
177.将所述初始损失写入预设集合中，得到目标集合；
178.将所述目标集合中取值最大的元素确定为所述损失值。
179.其中，所述预设边界值是指所述预设学习器中预先设定好的参数值。
180.所述预设集合通常是指包含有预设元素的集合，其中，所述预设元素通常设置为0。
181.通过上述实施方式，能够在所述声纹训练样本中不具有标签结果的前提下，准确的确定出所述损失值，同时，由于无需对所述声纹训练样本进行标注，因此，提高所述损失值的确定效率。
182.调整单元113根据所述损失值调整每个网络层的网络参数，得到与所述预设学习器对应的声纹识别模型。
183.在本发明的至少一个实施例中，所述网络参数是指所述预设学习器中的所有配置参数，所述网络参数具体包括有所述卷积网络中的配置参数、所述全连接网络中的配置参数及所述正则网络中的配置参数。所述网络参数还可以包括所述预设边界值。
184.在本发明的至少一个实施例中，所述声纹识别模型是指所述损失值收敛时所对应的预设学习器。
185.在本发明的至少一个实施例中，所述调整单元113根据所述损失值调整每个网络层的网络参数，得到与所述预设学习器对应的声纹识别模型包括：
186.将所述卷积网络中的配置参数、所述全连接网络中的配置参数及所述正则网络中的配置参数确定为所述网络参数；
187.根据预设步长调整所述预设学习器中与所述网络参数所对应的初始值，直至所述损失值不再降低，得到所述声纹识别模型。
188.其中，所述预设步长可以根据调整需求设定的。
189.通过所述损失值能够确保所述声纹识别模型的识别精度。
190.当接收到识别请求时，所述获取单元110从所述识别请求获取识别音频。
191.在本发明的至少一个实施例中，所述识别请求中携带有检测编号等信息。所述识别请求是与所述电子设备相通信的系统接收到音频信息时触发生成的。
192.所述识别音频是指需要进行声纹识别的音频。
193.在本发明的至少一个实施例中，所述获取单元110从所述识别请求获取识别音频包括：
194.解析所述识别请求的报文，得到所述报文携带的数据信息；
195.从所述数据信息中获取与预设标签对应的信息作为检测编号，所述预设标签用于指示识别对象；
196.确定所述识别请求的生成系统；
197.从所述生成系统的日志库中获取包含所述检测编号及音频标识的日志作为音频日志；
198.从所述音频日志中获取与所述音频标识对应的信息作为所述识别音频。
199.其中，所述数据信息包括，但不限于：所述检测编号等。
200.所述检测编号是指需要进行声纹识别的音频所对应的编号。
201.所述音频标识用于指示音频信息。
202.通过所述预设标签能够准确的从所述数据信息中获取到所述检测编号，通过所述检测编号及所述音频标识能够准确的确定出所述音频日志，从而能够准确的获取到所述识别音频。
203.预处理单元114对所述识别音频进行预处理，得到所述识别音频的梅谱信息。
204.在本发明的至少一个实施例中，所述梅谱信息是基于所述识别音频中的声音频率而生成的信息。
205.在本发明的至少一个实施例中，所述预处理单元114对所述识别音频进行预处理，得到所述识别音频的梅谱信息包括：
206.提取所述识别音频中每帧的音频信息；
207.对所述音频信息进行傅里叶变换处理，得到所述识别音频的频谱图；
208.对所述频谱图进行压缩处理，得到压缩信息；
209.基于梅尔尺度滤波器处理所述压缩信息，得到所述梅谱信息。
210.通过对所述音频信息进行傅里叶变换处理，能够使生成的所述频谱图具有时频信息，通过对所述频谱图进行压缩处理，提高梅尔尺度滤波器处理所述压缩信息的效率。
211.生成单元115根据所述梅谱信息及所述声纹识别模型生成识别结果。
212.在本发明的至少一个实施例中，所述识别结果是指所述识别音频所对应的结果。所述识别结果包括是本人及不是本人两种结果。
213.需要强调的是，为进一步保证上述识别结果的私密和安全性，上述识别结果还可以存储于一区块链的节点中。
214.在本发明的至少一个实施例中，所述生成单元115根据所述梅谱信息及所述声纹识别模型生成识别结果包括：
215.将所述梅谱信息输入至所述声纹识别模型中，得到输出分数；
216.计算所述输出分数与第一预设阈值的差值，得到第一数值，并计算所述输出分数与第二预设阈值的差值，得到第二数值，所述第一预设阈值小于所述第二预设阈值；
217.若所述第一数值的绝对值小于所述第二数值的绝对值，将所述第一预设阈值所对应的结果确定为所述识别结果；或者
218.若所述第一数值的绝对值大于所述第二数值的绝对值，将所述第二预设阈值所对应的结果确定为所述识别结果。
219.其中，所述第一预设阈值是根据不是本人的配置结果而预先设定的阈值，所述第一预设阈值通常设定为0。
220.所述第二预设阈值是根据是本人的配置结果而预先设定的阈值，所述第二预设阈值通常设定为1。
221.例如，所述输出分数为0.7，则所述第一数值为0.7，所述第二数值为
‑
0.3，经计算，所述第一数值的绝对值为0.7大于所述第二数值的绝对值0.3，因此，所述识别结果为所述第二预设阈值所对应的结果，即，所述识别结果为：是本人。
222.通过所述第一预设阈值及所述第二预设阈值能够对所述输出分数所对应的结果
进行分析，从而提高所述识别结果的准确性。
223.由以上技术方案可以看出，本发明通过多个网络层对所述声纹训练信息、所述基准声纹信息及所述特征声纹信息进行处理，并根据计算得到的损失值调整每个网络层的网络参数，由于无需对所述声纹训练样本进行数据打标签，提高了所述声纹识别模型的训练效率，同时，能够避免人工打标签带来的样本误差，提高了所述声纹识别模型的训练精度，进而提高所述识别结果的准确性。
224.如图3所示，是本发明实现声纹识别方法的较佳实施例的电子设备的结构示意图。
225.在本发明的一个实施例中，所述电子设备1包括，但不限于，存储器12、处理器13，以及存储在所述存储器12中并可在所述处理器13上运行的计算机可读指令，例如声纹识别程序。
226.本领域技术人员可以理解，所述示意图仅仅是电子设备1的示例，并不构成对电子设备1的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述电子设备1还可以包括输入输出设备、网络接入设备、总线等。
227.所述处理器13可以是中央处理单元(central processing unit，cpu)，还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现场可编程门阵列(field
‑
programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器13是所述电子设备1的运算核心和控制中心，利用各种接口和线路连接整个电子设备1的各个部分，及执行所述电子设备1的操作系统以及安装的各类应用程序、程序代码等。
228.示例性的，所述计算机可读指令可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器12中，并由所述处理器13执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段，该计算机可读指令段用于描述所述计算机可读指令在所述电子设备1中的执行过程。例如，所述计算机可读指令可以被分割成获取单元110、处理单元111、计算单元112、调整单元113、预处理单元114及生成单元115。
229.所述存储器12可用于存储所述计算机可读指令和/或模块，所述处理器13通过运行或执行存储在所述存储器12内的计算机可读指令和/或模块，以及调用存储在存储器12内的数据，实现所述电子设备1的各种功能。所述存储器12可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。存储器12可以包括非易失性和易失性存储器，例如：硬盘、内存、插接式硬盘，智能存储卡(smart media card，smc)，安全数字(secure digital，sd)卡，闪存卡(flash card)、至少一个磁盘存储器件、闪存器件、或其他存储器件。
230.所述存储器12可以是电子设备1的外部存储器和/或内部存储器。进一步地，所述存储器12可以是具有实物形式的存储器，如内存条、tf卡(trans
‑
flash card)等等。
231.所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实
现上述实施例方法中的全部或部分流程，也可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一计算机可读存储介质中，该计算机可读指令在被处理器执行时，可实现上述各个方法实施例的步骤。
232.其中，所述计算机可读指令包括计算机可读指令代码，所述计算机可读指令代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机可读指令代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read
‑
only memory)、随机存取存储器(ram，random access memory)。
233.本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
234.结合图1，所述电子设备1中的所述存储器12存储计算机可读指令实现一种声纹识别方法，所述处理器13可执行所述计算机可读指令从而实现：
235.获取声纹训练样本，所述声纹训练样本中包括多个样本用户的声纹训练信息、基准声纹信息及特征声纹信息；
236.获取预设学习器，所述预设学习器包括多个网络层；
237.基于每个网络层分别处理所述声纹训练信息、所述基准声纹信息及所述特征声纹信息，得到所述声纹训练信息的训练声纹向量、所述基准声纹信息的基准声纹向量及所述特征声纹信息的特征声纹向量；
238.根据所述训练声纹向量、所述基准声纹向量及所述特征声纹向量计算所述预设学习器的损失值；
239.根据所述损失值调整每个网络层的网络参数，得到与所述预设学习器对应的声纹识别模型；
240.当接收到识别请求时，从所述识别请求获取识别音频；
241.对所述识别音频进行预处理，得到所述识别音频的梅谱信息；
242.根据所述梅谱信息及所述声纹识别模型生成识别结果。
243.具体地，所述处理器13对上述计算机可读指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。
244.在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。
245.所述计算机可读存储介质上存储有计算机可读指令，其中，所述计算机可读指令被处理器13执行时用以实现以下步骤：
246.获取声纹训练样本，所述声纹训练样本中包括多个样本用户的声纹训练信息、基准声纹信息及特征声纹信息；
247.获取预设学习器，所述预设学习器包括多个网络层；
248.基于每个网络层分别处理所述声纹训练信息、所述基准声纹信息及所述特征声纹
信息，得到所述声纹训练信息的训练声纹向量、所述基准声纹信息的基准声纹向量及所述特征声纹信息的特征声纹向量；
249.根据所述训练声纹向量、所述基准声纹向量及所述特征声纹向量计算所述预设学习器的损失值；
250.根据所述损失值调整每个网络层的网络参数，得到与所述预设学习器对应的声纹识别模型；
251.当接收到识别请求时，从所述识别请求获取识别音频；
252.对所述识别音频进行预处理，得到所述识别音频的梅谱信息；
253.根据所述梅谱信息及所述声纹识别模型生成识别结果。
254.所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
255.另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。
256.因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
257.此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。所述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称，而并不表示任何特定的顺序。
258.最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语音关键词检测模型处理方法、装置及计算机设备与流程

声纹识别方法、装置、设备及存储介质与流程

相关文章

最热文献