声纹识别模型训练方法、声纹识别方法及相关设备与流程

2022-02-19 11:43:03 来源：中国专利 TAG：

1.本技术涉及声纹识别技术领域，尤其涉及到一种声纹识别模型训练方法、声纹识别方法及相关设备。

背景技术：

2.声纹识别作为可信的声纹特征认证技术，在身份认证、安全核验等诸多领域和场景中都有广阔的应用前景。但是语音很容易受到各种噪声环境、情绪、身体状况等外部环境和自身因素的影响，因此，提高声纹识别准确率，有着极为重要的现实意义。当前在声纹识别模型的训练过程中，对样本数据的利用率较低，从而导致训练得到的声纹识别模型的准确度较低。

技术实现要素：

3.本技术实施例提供一种声纹识别模型训练方法、声纹识别方法及相关设备，以解决训练得到的声纹识别模型的准确度较低的问题。
4.为了解决上述技术问题，本技术是这样实现的：
5.第一方面，本技术实施例提供了一种声纹识别模型训练方法，包括：
6.将声纹数据依次输入至待训练模型进行多次迭代训练，得到声纹识别模型；
7.其中，所述待训练模型包括l层网络层，l为大于1的整数；在第n次的迭代训练的过程中，包括以下步骤：
8.将所述声纹数据依次经过l层所述网络层进行特征映射，输出声纹向量；
9.在所述声纹向量对应的输出值满足预设条件的情况下，将经过第n次的迭代训练之后的待训练模型确定为声纹识别模型，其中，n为正整数。
10.可以看出，本实施例中，将声纹数据依次经过l层网络层进行特征映射，输出声纹向量，即对样本依次进行了多次特征映射，提高了对样本的利用率，同时，由于后一层网络层进行特征映射得到的特征向量需要基于前一层网络层输出的特征向量，这样，通过l层网络层的层层特征映射，可以得到多种特征向量，而训练得到的声纹识别模型可以对上述多种特征向量均能进行识别，从而提高了最终训练得到的声纹识别模型对声纹数据识别的准确度。另外，由于通过l层网络层的层层特征映射，可以使得声纹数据转化为声纹向量，而声纹向量更容易且更准确的被声纹识别模型所识别，从而进一步提高了最终训练得到的声纹识别模型对声纹识别的准确度。
11.第二方面，本技术实施例提供了一种声纹识别方法，所述方法包括：
12.获取待识别用户的目标声纹数据；
13.将所述目标声纹数据输入至声纹识别模型包括的l层网络层进行特征映射，输出目标声纹向量，所述l为大于1的整数；
14.根据所述目标声纹向量进行声纹识别。
15.可以看出，在本技术实施例中，将目标声纹数据输入至声纹识别模型包括的l层网
络层进行特征映射，输出目标声纹向量，这样，通过l层网络层的层层特征映射，可以得到多种特征向量，而声纹识别模型可以对上述多种特征向量均能进行识别，从而提高了声纹识别模型对声纹数据识别的准确度。另外，由于通过l层网络层的层层特征映射，可以使得目标声纹数据转化为目标声纹向量，而目标声纹向量更容易且更准确的被声纹识别模型所识别，从而进一步提高了声纹识别模型对目标声纹识别的准确度。
16.第三方面，本技术实施例还提供一种声纹识别模型训练装置，包括：
17.训练模块，用于将声纹数据依次输入至待训练模型进行多次迭代训练，得到声纹识别模型；
18.其中，所述待训练模型包括l层网络层，l为大于1的整数；在第n次的迭代训练的过程中，包括以下步骤：
19.将所述声纹数据依次经过l层所述网络层进行特征映射，输出声纹向量；
20.在所述声纹向量对应的输出值满足预设条件的情况下，将经过第n次的迭代训练之后的待训练模型确定为声纹识别模型，其中，n为正整数。
21.第四方面，本技术实施例还提供一种声纹识别装置，包括：
22.获取模块，用于获取待识别用户的目标声纹数据；
23.输出模块，用于将所述目标声纹数据输入至声纹识别模型包括的l层网络层进行特征映射，输出目标声纹向量，所述l为大于1的整数；
24.声纹识别模块，用于根据所述目标声纹向量进行声纹识别。
25.第五方面，本技术实施例还提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述声纹识别模型训练方法或者声纹识别方法中的步骤。
26.第六方面，本技术实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述声纹识别模型训练方法或者声纹识别方法中的步骤。
附图说明
27.为了更清楚地说明本技术实施例的技术方案，下面将对本技术实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
28.图1是本技术实施例提供的一种声纹识别模型训练方法的流程图；
29.图2是本技术实施例提供的一种待训练模型的结构示意图；
30.图3是本技术实施例提供的另一种待训练模型的结构示意图；
31.图4是本技术实施例提供的一种声纹识别方法的流程图；
32.图5是本技术实施例提供的一种声纹识别模型训练装置的结构示意图；
33.图6是本技术实施例提供的一种声纹识别装置的结构示意图；
34.图7是本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
35.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
36.参见图1，图1是本技术实施例提供的声纹识别模型训练方法的流程图，如图1所示，包括以下步骤：
37.步骤101、将声纹数据依次输入至待训练模型进行多次迭代训练，得到声纹识别模型。
38.其中，所述待训练模型包括l层网络层，l为大于1的整数；在第n次的迭代训练的过程中，包括以下步骤：将所述声纹数据依次经过l层所述网络层进行特征映射，以输出声纹向量；在所述声纹向量对应的输出值满足预设条件的情况下，将经过第n次的迭代训练之后的待训练模型确定为声纹识别模型，其中，n为正整数。
39.其中，声纹数据例如可以是声纹特征向量。声纹数据的获取方式在此不做限定，例如：声纹数据可以从样本池中直接获取得到，即声纹数据为样本池中预先存在的声纹数据；另外，声纹数据也可以对音频进行提取得到。
40.另外，还可以对样本池中的样本数据进行数据扩增，数据扩增包括加噪声，加快语速，增加数据扰动等方式中的至少一种。
41.另外，上述数据扩增之后的样本数据可以分为训练集和测试集，而上述声纹数据可以为训练集中的数据，其中，训练集和测试集的比例在此不做限定，例如：可以为8:2。
42.另外，声纹数据的具体类型在此不做限定，作为一种可选的实施方式，所述声纹数据为fbank80特征，而fbank80特征的识别准确度较高，从而可以提高声纹识别模型训练的准确度和训练效率。同时，fbank80特征属于偏向于底层的特征，其对语音信息的反映更为丰富，与声纹识别模型对特征的强大处理能力可以有效匹配，尤其是当声纹识别模型为transformer模型时，fbank80特征可以更加匹配声纹识别模型对特征的强大处理能力。
43.需要说明的是，预设条件的具体内容在此不做限定。
44.作为一种可选的实施方式，预设条件包括：声纹向量对应的输出值小于预设数值。此时，可以认为声纹向量的输出值满足预设条件，即待训练模型已经收敛，从而可以将此时的待训练模型确定为声纹识别模型。
45.其中，声纹向量对应的输出值可以为一个具体数值，输出值与声纹向量为一一对应关系，而上述输出值可以由分类器转化得到，具体步骤可以是：将声纹向量输出值分类器中，输出声纹向量对应的输出值，而上述输出值可以理解为：待训练模型和分类器对于声纹数据的分类预测概率。
46.需要说明的是，上述分类器可以嵌设于声纹识别模型中，即分类器为声纹识别模型的一部分，当然，上述分类器也可以与声纹识别模型连接，即可以作为与声纹识别模型连接的下一级网路层结构。
47.而根据实际可知，声纹数据还可以对应有实际的分类值，而该实际的分类值也可以被称作为实际值，而实际值可以存在于标识信息中，而标识信息可以为声纹数据的标识信息。
48.因此，作为另一种可选的实施方式，所述预设条件包括：声纹向量对应的输出值与声纹数据对应的实际值的差值位于预设范围内。
49.本实施方式中，当声纹向量对应的输出值与声纹数据对应的实际值的差值位于预设范围内，可以认为待训练模型对于声纹数据的分类预测概率贴近于实际分类值，待训练模型是可用的，即可以判断待训练模型收敛，从而可以将进行第n次迭代训练之后的待训练模型确定为声纹识别模型，进而可以使得训练得到的声纹识别模型的准确度较高。
50.其中，声纹数据依次经过l层网络层进行特征映射时，声纹数据在每一层网络层中均需要进行特征映射，且在某一层网络层中的特征映射需要基于前一层网络层中提取的特征实现。这样，通过l层网络层的层层特征映射，可以得到多种特征向量，而训练得到的声纹识别模型可以对上述多种特征向量均能进行识别，从而提高了最终训练得到的声纹识别模型对声纹数据识别的准确度。另外，由于通过l层网络层的层层特征映射，可以使得声纹数据转化为声纹向量，而声纹向量更容易且更准确的被声纹识别模型所识别，从而进一步提高了最终训练得到的声纹识别模型对声纹识别的准确度。
51.其中，l层网络层的具体数量在此不做限定，例如：l可以为4，即可以包括4层网络层，另外，l也可以为大于4的整数。
52.作为一种可选的实施方式，所述l层网络层包括：依次连接的第一网络层、第二网络层、第三网络层和第四网络层；所述将所述声纹数据依次经过l层所述网络层进行特征映射，输出声纹向量，包括：
53.将所述声纹数据输入至所述第一网络层中进行特征映射，输出第一特征向量；
54.将所述第一特征向量输入至所述第二网络层中进行特征映射，输出第二特征向量；
55.将所述第二特征向量输入至所述第三网络层中进行特征映射，输出第三特征向量；
56.将所述第三特征向量输入至所述第四网络层中进行特征映射，输出所述声纹向量；
57.其中，所述第一特征向量、所述第二特征向量、所述第三特征向量和所述声纹向量的维度依次递增。
58.其中，第一特征向量可以被称作为浅层特征，而浅层特征可以指的是倾向于偏底层的特征，主要包含音量、音色、音调等底层特征。
59.第二特征向量可以被称作为浅中层特征，而浅中层特征是在音量、音色、音调等基础特征向量上加以映射的特征，其相比于浅层特征来说，更偏重于声纹信息，也就是对上述信息进行简化，向声纹信息靠拢，但仍然是偏向于底层音量、音色等特征的信息，但已经在向声纹信息(也就是后文中的声纹向量)靠拢。
60.第三特征向量可以被称作为中高层特征，与浅层特征、浅中层特征相比，中高层特征已经逐渐的趋近于声纹特征，中高层特征是可以认为是人耳可辨别的特征与深度网络映射特征的区分特征，人耳已经无法辨别中高层特征(人耳天生对声纹信息不敏感，也就是人耳对根据声音判断是否是一个人的区分能力较差)，而第三网络层可以通过提取较人耳更高层的特征，从而得到较好的声纹语义特征映射关系，但第三网络层提取的第三特征向量还未能表示为声纹特征。
61.声纹向量也可以被称作为高层特征，高层特征是整个待训练模型输出的最高层特征，声纹向量是在浅层特征、浅中层特征和中高层特征的特征映射的基础上输出的特征，声纹向量可以被机器(如分类器)更好的识别，使得识别的准确度较高。
62.从上述可知，第一特征向量、第二特征向量、第三特征向量和声纹向量的维度依次递增，也就是说：第一特征向量、第二特征向量、第三特征向量和声纹向量的向量复杂度和表示信息的多样性是不断递增的。
63.本实施方式中，由于后一层网络层进行特征映射得到的特征向量需要基于前一层网络层输出的特征向量，通过上述第一网络层、第二网络层、第三网络层和第四网络层的特征映射，可以使得最终输出的声纹向量的准确度较高，进而使得最终训练得到的声纹识别模型的准确度也较高。这样，通过l层网络层的层层特征映射，可以得到多种特征向量，而训练得到的声纹识别模型可以对上述多种特征向量均能进行识别，从而提高了最终训练得到的声纹识别模型对声纹数据识别的准确度。另外，由于通过l层网络层的层层特征映射，可以使得声纹数据转化为声纹向量，而声纹向量更容易且更准确的被声纹识别模型所识别，从而进一步提高了最终训练得到的声纹识别模型对声纹识别的准确度。
64.作为一种可选的实施方式，所述第一网络层、所述第二网络层、所述第三网络层和所述第四网络层均包括相互连接的线性层和block块。
65.例如：参见图2，l层网络层包括：依次连接的第一网络层201、第二网络层202、第三网络层203和第四网络层204，而第一网络层201、第二网络层202、第三网络层203和第四网络层204均包括相互连接的线性层和block块，参见图2，以第一网络层201为例，第一网络层201包括线性层2011和block块2012。另外，第四网络层204还可以连接有目标线性层207，目标线性层207可以被称作为linear层，另外，l层网络层还可以包括上述声纹数据的输入层206以及融入层205。
66.其中，线性层可以被称作为线性(linear)层，而block块则可以被称作为变形块(transblock块)，而上述线性层可以进行特征映射，block块可以进行特征映射，同时，block块还可以进行注意力机制拟合。
67.本实施方式中，由于第一网络层、第二网络层、第三网络层和第四网络层中，每一层网络层中均包括相互连接的线性层和block块，且线性层和block块均可以进行特征映射，从而可以进一步增强特征映射的效果。
68.其中，每一层网络层中包括的block块的数量在此不做限定，例如：第一网络层中可以包括2个block块，第二网络层中可以包括2个block块，第三网络层中可以包括6个block块，第四网络层中可以包括2个block块。这样，可以使得在待训练模型的训练过程中，待训练模型的准确性能较高，训练速度较快。
69.即作为一种可选的实施方式，所述第一网络层、所述第二网络层、所述第三网络层和所述第四网络层包括的block块的数量均为多个。
70.这样，由于每一层网络层中叠加多个block块(也就是可以理解为transblock块)可以使得网络层具有不同的感受野，使得l个网络层便于叠加，而l个网络层叠加可以增强待训练模型的映射能力。
71.需要说明的是，声纹数据可以为多维特征向量，也可以为一维特征向量，当声纹数据为一维特征向量时，可以直接输入至第一网络层，当声纹数据为多维特征向量时，可以先
将多维特征向量转化为一维特征向量，然后将一维特征向量输入至第一网络层中。
72.另外，待训练模型的具体类型在此也不做限定，作为一种可选的实施方式，待训练模型可以为在transformer模型的基础上进行改进的模型。
73.由于本实施例中只需要获取到声纹向量，作为另一种可选的实施方式，所述待训练模型为在transformer模型的编码器的基础上改进的模型。例如：将transformer模型的编码器的网络层修改为l层网络层，且每一层网络层中可以包括transblock块层。
74.这样，本实施方式中的待训练模型的结构只需要在transformer模型的编码器的基础上进行改进，而无需用到transformer模型的解码器，从而缩小了待训练模型的结构层，提高了待训练模型的训练效率。
75.例如：参见图3，图3是完整的transformer模型的示意图，transformer模型包括编码器301和解码器302，本实施方式中的待训练模型的结构可以参见图3中的编码器301的结构，编码器301包括l层网络层，而每一层网络层包括的transblock块可以参见图3中的transblock块3010的结构，即编码器301中的每个transblock块3010包括注意力机制层3011、第一相加层3012、线性层3013和第二相加层3014，上述注意力机制层3011也可以被称作为multi
‑
head attention层，第一相加层3012和第二相加层3014可以被称作为add&norm层，而线性层3013可以被称作为feed forward层。
76.其中，第一初始特征向量可以先分别输入至注意力机制层301和第一相加层3012，在第一相加层3012中，可以将第一初始特征向量和第一初始特征向量经过注意力机制层301输出的第一目标特征向量进行相加，然后得到第二初始特征向量，然后将第二初始特征向量分别输出至线性层3013和第二相加层3014中，然后在第二相加层3014中，将第二初始特征向量和第二初始特征向量经过性层3013输出的第二目标特征向量进行相加，得到第三初始特征向量。
77.需要说明的是，当图3所示的transblock块为第一网络层包括的transblock块时，上述第一初始特征向量即可以被理解为上述的声纹数据。而上述第一相加层3012和第二相加层3014中均可以执行的是归一化和相加操作，线性层3013中可以执行的是特征映射操作。
78.作为一种可选的实施方式，参见图2，所述l层网络层还包括：融入层205，所述融入层205与所述第一网络层连接，所述将所述声纹数据输入至所述第一网络层中，进行特征映射，并输出第一特征向量之前，所述方法还包括：
79.将预先获取的待训练特征输入至所述融入层进行特征提取，得到所述声纹数据，其中，所述待训练特征的维度大于所述声纹数据的维度。
80.其中，融入层205也可以被称作为merge层，而融入层205可以用于降低待训练特征的维度，而上述待训练特征可以为从样本池中获取的特征，或者是从样本池中获取的样本数据进行特征提取之后得到的特征。
81.本实施方式中，通过融入层205可以实现降低待训练特征的维度，以得到声纹数据，从而可以方便将声纹数据输入至第一网络层中进行特征映射。
82.本实施例中，通过步骤101，将声纹数据依次经过l层网络层进行特征映射，输出声纹向量，即对样本依次进行了多次特征映射，提高了对样本的利用率，同时，由于后一层网络层进行特征映射得到的特征向量需要基于前一层网络层输出的特征向量，这样，通过l层
网络层的层层特征映射，可以得到多种特征向量，而训练得到的声纹识别模型可以对上述多种特征向量均能进行识别，从而提高了最终训练得到的声纹识别模型对声纹数据识别的准确度。另外，由于通过l层网络层的层层特征映射，可以使得声纹数据转化为声纹向量，而声纹向量更容易且更准确的被声纹识别模型所识别，从而进一步提高了最终训练得到的声纹识别模型对声纹识别的准确度。
83.参见图4，图4是本技术实施例提供的声纹识别方法的流程图，该方法应用于声纹识别模型，所述声纹识别模型与目标分类器连接，如图4所示，方法包括以下步骤：
84.步骤401、获取待识别用户的目标声纹数据。
85.步骤402、将所述目标声纹数据输入至声纹识别模型包括的l层网络层进行特征映射，输出目标声纹向量，所述l为大于1的整数。
86.步骤403、根据所述目标声纹向量进行声纹识别。
87.本技术实施例中，通过步骤401至403，将目标声纹数据输入至声纹识别模型包括的l层网络层进行特征映射，输出目标声纹向量，这样，通过l层网络层的层层特征映射，可以得到多种特征向量，而训练得到的声纹识别模型可以对上述多种特征向量均能进行识别，从而提高了最终训练得到的声纹识别模型对声纹数据识别的准确度。另外，由于通过l层网络层的层层特征映射，可以使得目标声纹数据转化为目标声纹向量，而目标声纹向量更容易且更准确的被声纹识别模型所识别，从而进一步提高了声纹识别模型对目标声纹识别的准确度。
88.作为一种可选的实施方式，所述l层网络层包括：依次连接的第一网络层、第二网络层、第三网络层和第四网络层；
89.所述将所述目标声纹数据输入至声纹识别模型包括的l层网络层进行特征映射，输出目标声纹向量，包括：
90.将所述目标声纹数据输入至所述第一网络层中进行特征映射，输出第一特征向量；
91.将所述第一特征向量输入至所述第二网络层中进行特征映射，输出第二特征向量；
92.将所述第二特征向量输入至所述第三网络层中进行特征映射，输出第三特征向量；
93.将所述第三特征向量输入至所述第四网络层中进行特征映射，输出目标声纹向量；
94.其中，所述第一特征向量、所述第二特征向量、所述第三特征向量和所述目标声纹向量的维度依次递增。
95.这样，通过l层网络层的层层特征映射，可以得到多种特征向量，而声纹识别模型可以对上述多种特征向量均能进行识别，从而提高了声纹识别模型对声纹数据识别的准确度。另外，由于通过l层网络层的层层特征映射，可以使得目标声纹数据转化为目标声纹向量，而目标声纹向量更容易且更准确的被声纹识别模型所识别，从而进一步提高了声纹识别模型对目标声纹数据识别的准确度。
96.作为一种可选的实施方式，所述根据所述目标声纹向量进行声纹识别，包括：
97.将所述目标声纹向量与预先存储的特征向量输入至所述目标分类器，输出似然分
布数值；其中，所述预先存储的特征向量是将目标用户的第二声纹数据输入至所述声纹识别模型输出的。
98.在所述似然分布数值大于预设阈值的情况下，确定所述待识别用户和所述目标用户为相同用户。
99.需要说明的是，目标声纹向量和预先存储的特征向量可以均为x
‑
vector特征，而x
‑
vector特征是深度神经网络所提取出的神经网络特征。
100.其中，预先存储的特征向量可以理解为预先采集的目标用户的第二声纹数据对应的特征向量，可以存储在数据库对应的服务器上。
101.其中，目标分类器的种类在此不做限定，例如：目标分类器可以为plda分类器，即plda分类器中可以运行有plda算法，这样，plda分类器输出的似然分布数值的准确度较高，从而使得待识别用户与目标用户是否为相同用户的判断结果的准确度也更高。
102.其中，上述似然分布数值也可以理解为相似度，即似然分布数值越大，则待识别用户和目标用户为相同用户的可能性越高。
103.本技术实施例中，可以通过声纹识别模型以及与声纹识别模型连接的目标分类器来判断待识别用户与目标用户是否为相同用户，从而提高了对待识别用户的声纹数据的识别结果的准确度，减小了因不能准确识别待识别用户的声纹数据所造成的损失。
104.需要说明的是，本技术实施例中的声纹识别模型可以采用上述实施例中的方法训练得到，因此，本技术实施例中的各个特征均可以参见上述实施例中的相应表述，具体在此不再赘述。
105.参见图5，图5是本技术实施例提供的声纹识别模型训练装置的结构图，能实现上述实施例中声纹识别模型训练方法的细节，并达到相同的效果。如图5所示，声纹识别模型训练装置500包括：
106.训练模块501，用于将声纹数据依次输入至待训练模型进行多次迭代训练，得到声纹识别模型；
107.其中，所述待训练模型包括l层网络层，l为大于1的整数；在第n次的迭代训练的过程中，包括以下步骤：
108.将所述声纹数据依次经过l层所述网络层进行特征映射，输出声纹向量；
109.在所述声纹向量对应的输出值满足预设条件的情况下，将经过第n次的迭代训练之后的待训练模型确定为声纹识别模型，n为正整数。
110.可选地，所述l层网络层包括：依次连接的第一网络层、第二网络层、第三网络层和第四网络层，所述将所述声纹数据依次经过l层所述网络层进行特征映射，输出声纹向量，包括：
111.将所述声纹数据输入至所述第一网络层中进行特征映射，输出第一特征向量；
112.将所述第一特征向量输入至所述第二网络层中进行特征映射，输出第二特征向量；
113.将所述第二特征向量输入至所述第三网络层中进行特征映射，输出第三特征向量；
114.将所述第三特征向量输入至所述第四网络层中进行特征映射，输出所述声纹向量；
115.其中，所述第一特征向量、所述第二特征向量、所述第三特征向量和所述声纹向量的维度依次递增。
116.可选地，所述第一网络层、所述第二网络层、所述第三网络层和所述第四网络层均包括相互连接的线性层和block块。
117.可选地，所述第一网络层、所述第二网络层、所述第三网络层和所述第四网络层包括的block块的数量均为多个。
118.可选地，所述l层网络层还包括：融入层，所述融入层与所述第一网络层连接，所述将所述声纹数据输入至所述第一网络层中进行特征映射，输出第一特征向量之前，所述方法还包括：
119.将预先获取的待训练特征输入至所述融入层进行特征提取，得到所述声纹数据，其中，所述待训练特征的维度大于所述声纹数据的维度。
120.可选地，所述预设条件包括：声纹向量对应的输出值与声纹数据对应的实际值的差值位于预设范围内。
121.可选地，所述声纹数据为fbank80特征。
122.本技术实施例提供的声纹识别模型训练装置能够实现图1的方法实施例中声纹识别模型训练装置实现的各个过程，为避免重复，这里不再赘述。
123.这样，将声纹数据依次经过l层所网络层进行特征映射，以输出声纹向量，提高了对样本的利用率，同时，由于后一层网络层进行特征映射得到的特征向量需要基于前一层网络层输出的特征向量，提高了训练得到的声纹识别模型的准确度。将目标声纹数据输入至声纹识别模型包括的l层网络层进行特征映射，输出目标声纹向量，这样，通过l层网络层的层层特征映射，可以得到多种特征向量，而声纹识别模型可以对上述多种特征向量均能进行识别，从而提高了声纹识别模型对声纹数据识别的准确度。另外，由于通过l层网络层的层层特征映射，可以使得目标声纹数据转化为目标声纹向量，而目标声纹向量更容易且更准确的被声纹识别模型所识别，从而进一步提高了声纹识别模型对目标声纹识别的准确度。
124.参见图6，图6为本技术实施例提供的一种声纹识别装置的结构示意图，声纹识别装置应用于声纹识别模型，所述声纹识别模型与目标分类器连接，如图6所示，所述声纹识别装置600，包括：
125.获取模块601，用于获取待识别用户的目标声纹数据；
126.输出模块602，用于将所述目标声纹数据输入至声纹识别模型包括的l层网络层进行特征映射，输出目标声纹向量，所述l为大于1的整数；
127.声纹识别模块603，用于根据所述目标声纹向量进行声纹识别。
128.可选地，所述l层网络层包括：依次连接的第一网络层、第二网络层、第三网络层和第四网络层；
129.所述输出模块602，包括：
130.第一输出子模块，用于将所述目标声纹数据输入至所述第一网络层中进行特征映射，输出第一特征向量；
131.第二输出子模块，用于将所述第一特征向量输入至所述第二网络层中进行特征映射，输出第二特征向量；
132.第三输出子模块，用于将所述第二特征向量输入至所述第三网络层中进行特征映射，输出第三特征向量；
133.第四输出子模块，用于将所述第三特征向量输入至所述第四网络层中进行特征映射，输出目标声纹向量；
134.其中，所述第一特征向量、所述第二特征向量、所述第三特征向量和所述目标声纹向量的维度依次递增。
135.本技术实施例提供的声纹识别装置能够实现图4的方法实施例中声纹识别装置实现的各个过程，为避免重复，这里不再赘述。
136.这样，可以通过声纹识别模型以及与声纹识别模型连接的目标分类器来判断待识别用户与目标用户是否为相同用户，从而提高了对待识别用户的声纹数据的识别结果的准确度，减小了因不能准确识别待识别用户的声纹数据所造成的损失。通过l层网络层的层层特征映射，可以得到多种特征向量，而声纹识别模型可以对上述多种特征向量均能进行识别，从而提高了声纹识别模型对声纹数据识别的准确度。另外，由于通过l层网络层的层层特征映射，可以使得目标声纹数据转化为目标声纹向量，而目标声纹向量更容易且更准确的被声纹识别模型所识别，从而进一步提高了声纹识别模型对目标声纹识别的准确度。
137.图7为实现本技术各个实施例的一种电子设备的硬件结构示意图。
138.该电子设备700包括但不限于：射频单元701、网络模块702、音频输出单元703、输入单元704、传感器705、显示单元706、用户输入单元707、接口单元708、存储器709、处理器710、以及电源711等部件。本领域技术人员可以理解，图7中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本技术实施例中，电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。
139.其中，当电子设备用于执行声纹识别模型训练方法中的步骤时，处理器710，用于执行以下操作：
140.将声纹数据依次输入至待训练模型进行多次迭代训练，得到声纹识别模型；
141.其中，所述待训练模型包括l层网络层，l为大于1的整数；在第n次的迭代训练的过程中，包括以下步骤：
142.将所述声纹数据依次经过l层所述网络层进行特征映射，以输出声纹向量；
143.在所述声纹向量对应的输出值满足预设条件的情况下，将经过第n次的迭代训练之后的待训练模型确定为声纹识别模型，其中，n为正整数。
144.可选地，所述l层网络层包括：依次连接的第一网络层、第二网络层、第三网络层和第四网络层，处理器710执行的所述将所述声纹数据依次经过l层所述网络层进行特征映射，以输出声纹向量，包括：
145.将所述声纹数据输入至所述第一网络层中进行特征映射，输出第一特征向量；
146.将所述第一特征向量输入至所述第二网络层中进行特征映射，并输出第二特征向量；
147.将所述第二特征向量输入至所述第三网络层中进行特征映射，输出第三特征向量；
148.将所述第三特征向量输入至所述第四网络层中进行特征映射，输出所述声纹向
量；
149.其中，所述第一特征向量、所述第二特征向量、所述第三特征向量和所述声纹向量的维度依次递增。
150.可选地，所述第一网络层、所述第二网络层、所述第三网络层和所述第四网络层均包括相互连接的线性层和block块。
151.可选地，所述第一网络层、所述第二网络层、所述第三网络层和所述第四网络层包括的block块的数量均为多个。
152.可选地，所述l层网络层还包括：融入层，所述融入层与所述第一网络层连接，处理器710，还用于将预先获取的待训练特征输入至所述融入层进行特征提取，得到所述声纹数据，其中，所述待训练特征的维度大于所述声纹数据的维度。
153.可选地，所述预设条件包括：声纹向量对应的输出值与声纹数据对应的实际值的差值位于预设范围内。
154.可选地，所述声纹数据为fbank80特征。
155.其中，当电子设备用于执行声纹识别方法中的步骤时，处理器710，用于执行以下操作：
156.获取待识别用户的目标声纹数据；
157.将所述目标声纹数据输入至声纹识别模型包括的l层网络层进行特征映射，输出目标声纹向量，所述l为大于1的整数；
158.根据所述目标声纹向量进行声纹识别。
159.可选地，所述l层网络层包括：依次连接的第一网络层、第二网络层、第三网络层和第四网络层；
160.处理器710执行的所述将所述目标声纹数据输入至声纹识别模型包括的l层网络层进行特征映射，输出目标声纹向量，包括：
161.将所述目标声纹数据输入至所述第一网络层中进行特征映射，输出第一特征向量；
162.将所述第一特征向量输入至所述第二网络层中进行特征映射，输出第二特征向量；
163.将所述第二特征向量输入至所述第三网络层中进行特征映射，输出第三特征向量；
164.将所述第三特征向量输入至所述第四网络层中进行特征映射，输出目标声纹向量；
165.其中，所述第一特征向量、所述第二特征向量、所述第三特征向量和所述目标声纹向量的维度依次递增。
166.应理解的是，本技术实施例中，射频单元701可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器710处理；另外，将上行的数据发送给基站。通常，射频单元701包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元701还可以通过无线通信系统与网络和其他设备通信。
167.电子设备通过网络模块702为用户提供了无线的宽带互联网访问，如帮助用户收
发电子邮件、浏览网页和访问流式媒体等。
168.音频输出单元703可以将射频单元701或网络模块702接收的或者在存储器709中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元703还可以提供与电子设备700执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元703包括扬声器、蜂鸣器以及受话器等。
169.输入单元704用于接收音频或视频信号。输入单元704可以包括图形处理器(graphics processing unit，gpu)7041和麦克风7042，图形处理器7041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元706上。经图形处理器7041处理后的图像帧可以存储在存储器709(或其它存储介质)中或者经由射频单元701或网络模块702进行发送。麦克风7042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元701发送到移动通信基站的格式输出。
170.电子设备700还包括至少一种传感器705，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板7061的亮度，接近传感器可在电子设备700移动到耳边时，关闭显示面板7061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器705还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。
171.显示单元706用于显示由用户输入的信息或提供给用户的信息。显示单元706可包括显示面板7061，可以采用液晶显示器(liquid crystal display，lcd)、有机发光二极管(organic light
‑
emitting diode,oled)等形式来配置显示面板7061。
172.用户输入单元707可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元707包括触控面板7071以及其他输入设备7072。触控面板7071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板7071上或在触控面板7071附近的操作)。触控面板7071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器710，接收处理器710发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板7071。除了触控面板7071，用户输入单元707还可以包括其他输入设备7072。具体地，其他输入设备7072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。
173.进一步的，触控面板7071可覆盖在显示面板7061上，当触控面板7071检测到在其上或附近的触摸操作后，传送给处理器710以确定触摸事件的类型，随后处理器710根据触摸事件的类型在显示面板7061上提供相应的视觉输出。虽然在图7中，触控面板7071与显示面板7061是作为两个独立的部件来实现电子设备的输入和输出功能，但是在某些实施例中，可以将触控面板7071与显示面板7061集成而实现电子设备的输入和输出功能，具体此
处不做限定。
174.接口单元708为外部装置与电子设备700连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(i/o)端口、视频i/o端口、耳机端口等等。接口单元708可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到电子设备700内的一个或多个元件或者可以用于在电子设备700和外部装置之间传输数据。
175.存储器709可用于存储软件程序以及各种数据。存储器709可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器709可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
176.处理器710是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器709内的软件程序和/或模块，以及调用存储在存储器709内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。处理器710可包括一个或多个处理单元；优选的，处理器710可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器710中。
177.电子设备700还可以包括给各个部件供电的电源711(比如电池)，优选的，电源711可以通过电源管理系统与处理器710逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
178.另外，电子设备700包括一些未示出的功能模块，在此不再赘述。
179.优选的，本技术实施例还提供一种电子设备，包括处理器710，存储器709，存储在存储器709上并可在所述处理器710上运行的计算机程序，该计算机程序被处理器710执行时实现上述声纹识别模型训练方法或者上述声纹识别方法的各个过程，且能达到相同的技术效果，这里不再赘述。
180.本技术实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器710执行时实现上述声纹识别模型训练方法或者上述声纹识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(read
‑
only memory，简称rom)、随机存取存储器(random access memory，简称ram)、磁碟或者光盘等。
181.需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
182.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本技术的技术方案本质上或者说对现有技术做
出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本技术各个实施例所述的方法。
183.上面结合附图对本技术的实施例进行了描述，但是本技术并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本技术的启示下，在不脱离本技术宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本技术的保护之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于语音识别的输电线路防鸟平台的制作方法

声纹识别模型训练方法、声纹识别方法及相关设备与流程

相关文献

最热文献