声纹识别方法、装置、电子设备及存储介质与流程

2021-08-13 19:22:00 来源：中国专利 TAG：识别电子设备装置方法申请

本申请属于声纹识别领域，具体涉及一种声纹识别方法、装置、电子设备及存储介质。

背景技术：

近年来，声纹识别这种新兴的生物识别手段因其安全便利性受到了很大关注。声纹识别是基于不同人的发声器官例如肺、气管、声带、口腔、鼻腔、咽腔等在尺寸和形态方面存在的生理差异，利用每个人语音中包含的独特信息，进行个人身份的识别和验证。相关的声纹识别方法，在对待识别音频数据进行识别时，识别的精度还有待提高。

技术实现要素：

鉴于上述问题，本申请提出了一种声纹识别方法、装置、电子设备以及存储介质，以实现改善上述问题。

第一方面，本申请实施例提供了一种声纹识别方法，所述方法包括：获取待识别音频数据；基于所述待识别音频数据，将声纹库所包括的音频数据对应的用户划分为多个用户群体；获取所述多个用户群体的音频数据的声纹特征向量，分别对所述多个用户群体的音频数据的声纹特征向量进行标准化处理，得到所述多个用户群体各自对应的标准声纹特征向量；获取所述待识别音频数据的声纹特征向量，对所述待识别音频数据的声纹特征向量进行标准化处理，得到第一标准声纹特征向量；基于所述第一标准声纹特征向量和所述多个用户群体各自对应的标准声纹特征向量，从所述多个用户群体中获取所述待识别音频数据对应的声纹识别结果。

第二方面，本申请实施例提供了一种声纹识别装置，所述装置包括数据获取单元、用户群体划分单元、第一向量获取单元、第二向量获取单元以及识别单元。数据获取单元，用于获取待识别音频数据；用户群体划分单元，用于基于所述待识别音频数据，将声纹库所包括的音频数据对应的用户划分为多个用户群体；第一向量获取单元，用于获取所述多个用户群体的音频数据的声纹特征向量，分别对所述多个用户群体的音频数据的声纹特征向量进行标准化处理，得到所述多个用户群体各自对应的标准声纹特征向量；第二向量获取单元，用于获取所述待识别音频数据的声纹特征向量，对所述待识别音频数据的声纹特征向量进行标准化处理，得到第一标准声纹特征向量；识别单元，用于基于所述第一标准声纹特征向量和所述多个用户群体各自对应的标准声纹特征向量，从所述多个用户群体中获取所述待识别音频数据对应的声纹识别结果。

第三方面，本申请实施例提供了一种电子设备，包括一个或多个处理器以及存储器；一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行上述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码运行时执行上述的方法。

本申请实施例提供了一种声纹识别方法、装置、电子设备及存储介质。首先根据待识别音频数据，将声纹库所包括的音频数据对应的用户划分为多个用户群体，再获取待识别音频数据的声纹特征向量，对待识别音频数据的声纹特征向量进行标准化处理，得到第一标准声纹特征向量，然后获取多个用户群体的音频数据的声纹特征向量，分别对多个用户群体的音频数据的声纹特征向量进行标准化处理，得到多个用户群体各自对应的标准声纹特征向量，最后基于第一标准声纹特征向量和多个用户群体各自对应的标准声纹特征向量，从多个用户群体中获取待识别音频数据对应的声纹识别结果。通过上述方法，通过对待识别音频数据的声纹特征向量以及不同用户群体的音频数据的声纹特征向量进行标准化处理，可以使得相同用户群体的声纹特征向量的相似度提高，使得不同用户群体的声纹特征向量相似度降低，从而减少待识别音频数据的声纹特征向量在用户群体中的误匹配，同时可以提高声纹识别的精度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一实施例提出的一种声纹识别方法的流程图；

图2示出了本申请另一实施例提出的一种声纹识别方法的流程图；

图3示出了本申请再一实施例提出的一种声纹识别方法的流程图；

图4示出了本申请再一实施例中提出的一种获取目标用户群体的场景示意图；

图5示出了本申请再一实施例中提出的一种计算相似度的场景示意图；

图6示出了本申请实施例提出的一种声纹识别装置的结构框图；

图7示出了本申请实时中的用于执行根据本申请实施例的声纹识别方法的电子设备的结构框图；

图8示出了本申请实时中的用于保存或者携带实现根据本申请实施例的声纹识别方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

近年来，声纹识别这种新兴的生物识别手段因其安全便利性受到了很大关注。声纹识别是基于不同人的发声器官例如肺、气管、声带、口腔、鼻腔、咽腔等在尺寸和形态方面存在的生理差异，利用每个人语音中包含的独特信息，进行个人身份的识别和验证。

而发明人在对相关的声纹识别方法的研究中发现，相关的声纹识别方法，一般是通过将待识别音频数据输入到训练好的深度神经网络，来得到一个表征音频中用户的声纹特征向量，再将待识别音频数据的声纹特征向量与声纹库中的所有用户的声纹特征向量计算相似度，将相似度超过阈值，且是最高相似度所对应的那个用户作为与待识别音频匹配的用户。但由于不同的用户群体的声纹特征的存在差异性，若两个用户的声纹特征差异很小，会导致在对待识别音频数据进行识别时，不容易识别出待识别音频数据对应的正确的用户，识别的精度还有待提高。

因此，发明人提出了本申请中的通过对待识别音频数据的声纹特征向量以及不同用户群体的音频数据的声纹特征向量进行标准化处理，可以使得相同用户群体的声纹特征向量的相似度提高，使得不同用户群体的声纹特征向量相似度降低，从而减少待识别音频数据的声纹特征向量在用户群体中的误匹配，同时可以提高声纹识别的精度的声纹识别方法、装置电子设备以及存储介质。

下面将结合附图具体描述本申请的各实施例。

请参阅图1，本申请实施例提供的一种声纹识别方法，所述方法包括：

步骤s110：获取待识别音频数据。

作为一种方式，所述待识别音频数据可以包括两个部分的数据，一是需要进行识别的音频，二是关于需要进行识别的音频的一些相关的信息。所述待识别音频数据可以为实时获取的需要进行识别的音频数据，也可以为预先从外部设备获取的需要进行识别的音频数据。待识别音频数据可以为各种类型的音频数据，比如，待识别音频数据可以为游戏中队友进行交流时电子设备录制下的音频数据。其中，外部设备可以为存储有音频数据的电子设备，也可以为可以实时生成音频数据的电子设备等。

在本申请实施例中，待识别音频数据可以预先存储在电子设备的存储区域中，并按照一定的规则将待识别音频数据进行存储，示例性的，可以将待识别音频数据存储在按照指定规则命名的文件中，进而当需要获取待识别音频数据时，可以根据文件命名从电子设备的存储区域中获取到待识别音频数据。

当然，待识别音频数据也可以为外部设备发送的音频数据。具体的，当电子设备需要获取待识别音频数据时，可以先向外部设备发送一个数据获取指令，当外部设备接收到该数据获取指令后，外部设备向电子设备返回一个待识别音频数据。可选的，外部设备返回的待识别音频数据可以为指定的音频数据，也可以为任意一个音频数据，这可以取决于外部设备接收到的数据获取指令中是否包括音频数据的标识(标识可以为待识别音频数据的序号)，若数据获取指令中包括音频数据的标识，则外部设备向电子设备返回与该标识对应的音频数据作为待识别音频数据；若数据获取指令中不包括音频数据的标识，则外部设备向电子设备返回任意一个音频数据作为待识别音频数据。

在外部设备向电子设备返回待识别音频数据时，外部设备可以根据生成音频数据的时间顺序，将生成时间排在最前面的音频数据发送给电子设备作为待识别音频数据。通过上述这种方式，可以避免外部设备中因存储的音频数据太多而导致生成时间最早的待识别音频数据未被识别的问题。

步骤s120：基于所述待识别音频数据，将声纹库所包括的音频数据对应的用户划分为多个用户群体。

在本申请实施例中，由于待识别音频数据可以包括两个部分的数据，一是需要进行识别的音频，二是关于需要进行识别的音频的一些相关的信息，因此在获取到待识别音频数据后，可以根据待识别音频数据中的关于需要进行识别的音频的一些相关的信息，将声纹库中所包括的音频数据对应的用户划分为多个不同的用户群体。其中，用户群体可以理解为由多个用户组成的集合。

可选的，要根据待识别音频数据中的关于需要进行识别的音频的一些相关的信息，将声纹库中所包括的音频数据对应的用户划分为多个不同的用户群体之前，需要对声纹库中的所有音频数据、所有的音频数据各自对应的用户以及音频数据的一些相关信息建立对应关系，进而当获取到待识别音频数据后，根据待识别音频数据中的关于需要进行识别的音频的一些相关的信息，查询预先建立的对应关系，可以将声纹库所包括的音频数据对应的用户划分为多个用户群体。

步骤s130：获取所述多个用户群体的音频数据的声纹特征向量，分别对所述多个用户群体的音频数据的声纹特征向量进行标准化处理，得到所述多个用户群体各自对应的标准声纹特征向量。

作为一种方式，可以通过预先训练好的深度神经网络对多个用户群体的音频数据进行声纹特征提取，获取该深度神经网络输出的多个用户群体的音频数据的声纹特征向量。其中，预先训练好的深度神经网络用于进行声纹特征提取。

具体的，在获取多个用户群体的音频数据的声纹特征向量时，需要将每一个用户群体中的每一个用户对应的音频数据依次输入到预先训练好的深度神经网络中进行声纹特征提取，进而可以依次获取预先训练好的深度神经网络输出的每一个用户的音频数据对应的声纹特征向量。当一个用户群体所包括的所有用户的音频数据都输入到预先训练好的深度神经网络中进行声纹特征提取后，可以获取到预先训练好的深度神经网络输出的该用户群体的音频数据的声纹特征向量。同样的，其他用户群体的音频数据的声纹特征向量也可以通过上述方法来获取。在本申请实施例中，声纹特征向量为未进行标准化处理前提取到的声纹特征向量。

在获取到多个用户群体的音频数据的声纹特征向量后，根据预设规则对每一个用户群体的每一个用户对应的音频数据的声纹特征向量进行标准化处理，得到每一个群体的每一个用户对应的音频数据的标准声纹特征向量。所述标准化处理为将待识别音频对应的声纹特征向量或拟进行标准化处理的用户群体中每个用户的音频数据对应的声纹特征向量与所述拟进行标准化处理的用户群体所对应的音频数据的声纹特征向量的均值及方差，按照预设规则计算从而得到的一个新的声纹特征向量的过程。可以理解，所述声纹特征向量经过所述标准化处理后得到的新的声纹特征向量即为标准声纹特征向量。具体的，所述预设规则如下计算式所示：，其中，表示的是经过标准化处理后得到的所述标准声纹特征向量；表示的是所述待识别音频对应的声纹特征向量或拟进行标准化处理的用户群体中每个用户的音频数据对应的声纹特征向量；表示的是拟进行标准化处理的用户群体所对应的音频数据的声纹特征向量的均值；表示的是拟进行标准化处理的用户群体所对应的音频数据的声纹特征向量的方差。其中，所述待识别音频对应的声纹特征向量经过标准化处理后，获得的所述标准声纹特征向量相较于处理前，更贴近该拟进行标准化处理的用户群体，即为所述用户对应的用户群体的标准声纹特征向量。其中，拟进行标准化处理的用户群体为当前需要进行标准化处理的用户群体。

步骤s140：获取所述待识别音频数据的声纹特征向量，对所述待识别音频数据的声纹特征向量进行标准化处理，得到第一标准声纹特征向量。

作为一种方式，所述第一标准声纹特征向量为将声纹特征向量进行标准化处理后，待识别音频数据对应的标准声纹特征向量。同样的，将待识别音频数据中包括的需要进行识别的音频输入到预先训练好的深度神经网络中进行声纹特征提取，获取该预先训练好的深度神经网络输出的待识别音频数据的声纹特征向量。

在获取到待识别音频数据的声纹特征向量后，根据预设规则对待识别音频的声纹特征向量进行标准化处理，得到待识别音频数据对应的标准声纹特征向量。

步骤s150：基于所述第一标准声纹特征向量和所述多个用户群体各自对应的标准声纹特征向量，从所述多个用户群体中获取所述待识别音频数据对应的声纹识别结果。

当通过上述方法，获取到待识别音频数据对应的标准声纹特征向量，以及多个用户群体所包括的用户的音频数据各自对应的标准声纹特征向量后，将待识别音频数据对应的标准声纹特征向量和多个用户群体所包括的用户的音频数据各自对应的标准声纹特征向量一一进行匹配，从多个用户群体所包括的用户中确定待识别音频数据对应的用户。

本申请提供的一种声纹识别方法，首先根据待识别音频数据，将声纹库所包括的音频数据对应的用户划分为多个用户群体，再获取待识别音频数据的声纹特征向量，对待识别音频数据的声纹特征向量进行标准化处理，得到第一标准声纹特征向量，然后获取多个用户群体的音频数据的声纹特征向量，分别对多个用户群体的音频数据的声纹特征向量进行标准化处理，得到多个用户群体各自对应的标准声纹特征向量，最后基于第一标准声纹特征向量和多个用户群体各自对应的标准声纹特征向量，从多个用户群体中获取待识别音频数据对应的声纹识别结果。通过上述方法，通过对待识别音频数据的声纹特征向量以及不同用户群体的音频数据的声纹特征向量进行标准化处理，可以使得相同用户群体的声纹特征向量的相似度提高，使得不同用户群体的声纹特征向量相似度降低，从而减少待识别音频数据的声纹特征向量在用户群体中的误匹配，同时可以提高声纹识别的精度。

请参阅图2，本申请实施例提供的一种声纹识别方法，所述方法包括：

步骤s210：获取待识别音频数据。

步骤s210具体可以参照上述实施例中的详细解释，故不在本实施例进行赘述。

步骤s220：识别所述待识别音频数据中是否包括用户属性信息，若包括，执行步骤s230、步骤s231、步骤s232以及步骤s233；若不包括，执行步骤s240、步骤s241步骤s232以及步骤s242。

在本申请实施例中，待识别音频数据中可以包括两个部分的数据，一是需要进行识别的音频，二是关于需要进行识别的音频的一些相关的信息。其中，关于需要进行识别的音频的一些相关的信息中可以包括用户属性信息，所述用户属性信息可以包括用户的年龄、用户的性别、用户的职业、用户的姓名、用户的语言类型、用户所处的地域等，在此不做具体限定，可以根据需求进行设置。

当获取到待识别音频数据后，可以对待识别音频数据中包括的关于需要进行识别的音频的一些相关的信息进行识别，确定该信息中是否包括有用户属性信息，进而来对声纹库中所包括的用户进行用户群体划分。

可选的，由于待识别音频数据可以包括多种不同的形式，因此，可以对不同形式的待识别音频数据进行识别。示例性的，可以通过以下两种方式来对待识别音频数据是否包括用户属性信息进行识别。若待识别音频数据为以指定规则进行命名的音频文件，则可以通过读取该音频文件的命名就可以确定待识别音频数据中是否包括用户属性信息，比如，若待识别音频数据是以“张三，26，男”的方式进行命名的音频文件，那么就可以通过命名方式“张三，26，男”，获取到待识别音频数据包括的用户属性信息；若待识别音频数据为单纯的一段音频，则可以通过人工进行识别的方式来判断待识别音频数据中是否包括用户属性信息。当然，也可以将两种方式结合起来判断待识别音频数据中是否包括用户属性信息。

步骤s230：根据所述用户属性信息查询预先建立的对应关系，确定与所述用户属性信息对应的目标用户群体和非目标用户群体，其中，所述对应关系包括用户属性信息和用户之间的对应关系。

作为一种方式，所述对应关系包括用户属性信息和用户之间的对应关系。比如，可以包括年龄和用户之间的对应关系，也可以包括性别与用户之间的对应关系。该对应关系可以为预先根据声纹库中所有用户、用户的音频数据以及用户属性信息进行建立的。

具体的，所述对应关系可以以表格的形式进行展现，也可以以其他的方式进行展现。比如，若以表格的形式展现对应关系，可以如下表所示：

可选的，如上表所示，一个用户可以对应一个用户属性信息，也可以对应多个用户属性信息，在此不做具体限定。

当通过上述方式确定待识别音频数据包括用户属性信息后，可以获取待识别音频数据中所包括的全部用户属性信息，当获取到待识别音频数据中所包括的全部用户属性信息后，根据获取到的用户属性信息查询预先建立的对应关系，将声纹库所包括的用户中与获取到的用户属性有关的用户作为目标用户群体，将声纹库所包括的用户中与获取到的用户属性无关的用户作为非目标用户群体。

其中，与获取到的用户属性有关的用户可以理解为可以通过对应关系查找到与用户属性信息对应的用户；而与获取到的用户属性无关的用户可以理解为通过对应关系查找不到的用户。

步骤s231：获取所述目标用户群体和非目标用户群体的声纹特征向量，分别对所述目标用户群体和非目标用户群体的音频数据的声纹特征向量进行标准化处理，得到所述目标用户群体和非用户群体各自对应的标准声纹特征向量。

在划分好目标用户群体和非目标用户群体后，通过预先训练好的深度神经网络对目标用户群体和非目标用户群体的音频数据进行声纹特征提取，得到目标用户群体中的每一个用户的音频数据对应的声纹特征向量，以及非目标用户群体中的每一个用户的音频数据对应的声纹特征向量。

然后，对目标用户群体中的每一个用户的音频数据对应的声纹特征向量进行标准化处理，得到目标用户群体中的每一个用户的音频数据对应的标准声纹特征向量；对非目标用户群体中的每一个用户的音频数据对应的声纹特征向量，得到非目标用户群体中的每一个用户的音频数据对应的声纹特征向量。

步骤s232：获取所述待识别音频数据的声纹特征向量，对所述待识别音频数据的声纹特征向量进行标准化处理，得到第一标准声纹特征向量。

步骤s232具体可以参照上述实施例中的详细解释，故不在本实施例进行赘述。

步骤s233：基于所述第一标准声纹特征向量和所述目标用户群体和非目标用户群体各自对应的标准声纹特征向量，从所述目标用户群体和非目标用户群体中获取所述待识别音频数据对应的声纹识别结果。

当获取到待识别音频数据对应的第一标准声纹特征向量、目标用户群体中的每一个用户的音频数据对应的标准声纹特征向量，以及非目标用户群体中的每一个用户的音频数据对应的标准声纹特征向量后，将待识别音频数据对应的第一标准声纹特征向量和目标用户群体中的每一个用户的音频数据对应的标准声纹特征向量，以及非目标用户群体中的每一个用户的音频数据对应的标准声纹特征向量一一进行匹配，从目标用户群体和非目标用户群体所包括的用户中确定与待识别音频数据对应的用户。

步骤s240：将所述声纹库中所包括的所有音频数据对应的用户作为目标用户群体。

具体的，若待识别音频数据中不包括用户属性信息，则将声纹库中所包括的所有音频数据对应的用户都作为目标用户群体。

可选的，若待识别音频数据中不包括用户属性信息，那么可以通过目标模型将待识别音频数据的用户属性信息进行补全，在将用户属性信息补全后，再对声纹库中所包括音频数据对应的用户进行用户群体划分，再执行步骤s231、步骤s232以及步骤s233。

具体的步骤可以包括：若所述待识别音频数据中不包括用户属性信息，将所述待识别音频数据输入目标模型，获取所述目标模型输出的所述待识别音频数据对应的用户属性信息；基于所述用户属性信息，将所述声纹库所包括的音频数据对应的用户划分为目标用户群体和非目标用户群体。

在本申请实施例中，所述目标模型为预先训练好的可以补全用户属性信息的神经网络模型。示例性的，所述目标模型可以为性别识别模型，也可以为年龄段划分模型等，其中，性别识别模型用于对待识别音频数据对应的用户的性别进行补全，年龄段划分模型用于对待识别音频数据对应的用户的年龄段进行补全。

当通过目标模型对待识别音频数据的用户属性信息进行补全后，可以根据补全后的用户属性信息，查找预先建立的对应关系，将声纹库所包括的音频数据对应的用户划分为目标用户群体和非目标用户群体。

步骤s241：获取所述目标用户群体的音频数据的声纹特征向量，对所述目标用户群体的音频数据的声纹特征向量进行标准化处理，得到所述目标用户群体对应的标准声纹特征向量。

由于目标用户群体为声纹库所包括的所有音频数据对应的用户，因此，在本申请实例中，所述目标用户群体的音频数据的声纹特征向量为声纹库所包括的音频数据对应的所有用户的声纹特征向量。

步骤s242：基于所述第一标准声纹特征向量和所述目标用户群体对应的标准声纹特征向量，从所述目标用户群体中获取所述待识别音频数据对应的声纹识别结果。

步骤s242具体可以参照上述实施例中的详细解释，故不在本实施例进行赘述。

本申请提供的一种声纹识别方法，首先获取待识别音频数据，识别待识别音频数据中是否包括用户属性信息，若包括，则根据用户属性信息查询预先建立的用户属性信息和用户之间的对应关系，确定与用户属性信息对应的目标用户群体和非目标用户群体，获取目标用户群体和非目标用户群体的声纹特征向量，分别对目标用户群体和非目标用户群体的音频数据的声纹特征向量进行标准化处理，得到目标用户群体和非目标用户群体各自对应的标准声纹特征向量，最后基于待识别音频数据的第一标准声纹特征向量和目标用户群体和非目标用户群体各自对应的标准声纹特征向量，从目标用户群体和非目标用户群体中获取待识别音频数据对应的声纹识别结果；若不包括，则将声纹库中所包括的所有音频数据对应的用户作为目标用户群体，再对目标用户群体的音频数据的声纹特征向量进行标准化处理，得到目标用户群体对应的标准声纹特征向量，最后再基于目标用户群体的标准声纹特征向量以及待识别音频数据的第一标准声纹特征向量，从目标用户群体中获取待识别音频数据的声纹识别结果。通过上述方法，对待识别音频数据的声纹特征向量以及不同用户群体的音频数据的声纹特征向量进行标准化处理，可以使得相同用户群体的声纹特征向量的相似度提高，使得不同用户群体的声纹特征向量相似度降低，从而减少待识别音频数据的声纹特征向量在用户群体中的误匹配，同时可以提高声纹识别的精度。

请参阅图3，本申请实施例提供的一种声纹识别方法，所述方法包括：

步骤s310：获取识别音频数据。

步骤s310具体可以参照上述实施例中的详细解释，故不在本实施例进行赘述。

步骤s320：若所述待识别音频数据中包括用户属性信息，获取所述待识别音频数据对应的用户属性信息。

步骤s320具体可以参照上述实施例中的详细解释，故不在本实施例进行赘述。

步骤s330：根据所述用户属性信息查询预先建立的对应关系，确定与所述用户属性信息对应的目标用户群体和非目标用户群体，其中，所述对应关系包括用户属性信息和用户之间的对应关系。

可选的，若获取到的用户属性信息包括多个，所述用户属性信息包括多个，所述根据所述用户属性信息查询预建立的对应关系，确定与所述用户属性信息对应的目标用户群体和非目标用户群体，包括：查询所述对应关系，以得到所述多个用户属性信息分别对应的参考用户群体；获取所述多个用户属性信息分别对应的参考用户群体的交集，以得到所述多个用户属性信息对应的目标用户群体；将所述对应关系中除所述目标用户群体所包括的用户之外的用户，作为所述多个用户属性信息对应的非目标用户群体。

在本申请实施例中，若获取到的用户属性信息包括多个，那么就可以通过查找预先建立的对应关系，确定与每一个用户属性信息对应的用户群体，以得到多个属性信息对应的多个用户群体。

再获取上述多个用户群体的交集，以得到同时包括获取到的多个用户属性信息的用户群体，将同时包括多个用户属性信息的用户群体作为目标用户群体。示例性的，如图4所示，获取到的用户属性信息包括属性1、属性2、以及属性3，通过查找对应关系发现，与属性1对应的用户群体1包括用户1、用户2、用户3以及用户4；与属性2对应的用户群体2包括用户1、用户2、用户5以及用户6；与属性3对应的用户群体3包括用户1、用户2、用户7以及用户8，获取用户群体1、用户群体2、以及用户群体3的交集确定目标用户人群，因此，目标用户人群包括用户1和用户2，也就是说用户1和用户2同时具备属性1、属性2以及属性3。

步骤s340：获取所述待识别音频数据的声纹特征向量，对所述待识别音频数据的声纹特征向量进行标准化处理，得到第一标准声纹特征向量。

作为一种方式，所述获取所述待识别音频数据的声纹特征向量，对所述待识别音频数据的声纹特征向量进行标准化处理，得到第一标准声纹特征向量，包括：获取所述目标用户群体所对应的音频数据的声纹特征向量的第一均值和第一方差；基于所述第一均值和第一方差对所述待识别音频数据的声纹特征向量进行标准化处理，得到第一标准声纹特征向量。

在本申请实施例中，按照前述标准化处理过程计算得到第一标准声纹特征向量。具体的，所述预设规则如下计算式所示：，其中，表示的是标准化处理后得到的标准声纹特征向量；表示的是未进行标准化处理前提取到的待识别音频的声纹特征向量；表示的是当前进行标准化处理的这个用户群体的声纹特征向量的均值；表示的是当前进行标准化处理的这个用户群体的声纹特征向量的方差。

在对待识别音频数据的声纹特征向量进行标准化处理之前，需要获取目标用户群体中每一个用户的音频数据对应的声纹特征向量，以及目标用户群体的中每一个用户的音频数据的声纹特征向量的均值ua和方差ea，在得到均值ua和方差ea后，按照这个公式计算得到待识别音频数据的第一标准声纹特征向量。其中，为待识别音频数据的声纹特征向量，为目标用户群体所对应的音频数据的声纹特征向量的均值ua，为目标用户群体所对应的音频数据的声纹特征向量的方差ea。

步骤s350：获取所述目标用户群体中每个用户的音频数据的声纹特征向量，对所述目标用户群体中的每个用户的音频数据的声纹特征向量进行标准化处理，得到所述目标用户群体对应的多个第二标准声纹特征向量。

作为一种方式，所述对所述目标用户群体中的每个用户的音频数据的声纹特征向量进行标准化处理，得到所述目标用户群体对应的多个第二标准声纹特征向量，包括：基于所述第一均值和第一方差对所述目标用户群体中的每个用户的音频数据的声纹特征向量进行标准化处理，得到所述目标用户群体对应的多个第二标准声纹特征向量。

当通过上述方法获取到目标用户群体所包括的音频数据对应的声纹特征向量的均值ua和方差ea后，通过这个公式计算得到目标用户群体中的每一个用户的音频数据对应的标准声纹特征向量，其中，为目标用户群体中的每一个用户的音频数据的声纹特征向量，为目标用户群体所对应的音频数据的声纹特征向量的均值ua，为目标用户群体所对应的音频数据的声纹特征向量的方差ea。

步骤s360：获取所述非目标用户群体中每个用户的音频数据的声纹特征向量，对所述非目标用户群体中的每个用户的音频数据的声纹特征向量进行标准化处理，得到所述非目标用户群体对应的多个第三标准声纹特征向量。

同样的，也会获取非目标人群中的每个用户的音频数据的声纹特征向量，然后通过预设规则对非目标人群中的每个用户的音频数据的声纹特征向量进行标准化处理。

作为一种方式，所述对所述非目标用户群体中的每个用户的音频数据的声纹特征向量进行标准化处理，得到所述非目标用户群体对应的多个第三标准声纹特征向量，包括：获取所述非目标用户群体所对应的音频数据的声纹特征向量的第二均值和第二方差；基于所述第二均值和第二方差对所述非目标用户群体中的每个用户的音频数据的声纹特征向量进行标准化处理，得到所述非目标用户群体对应的多个第三标准化声纹特征向量。

具体的，首先获取非目标人群中的每个用户的音频数据的声纹特征向量的均值ub和eb，然后将ub和eb带入这个计算式中，计算得到非目标用户群体中的每一个用户的音频数据对应的标准声纹特征向量，其中，为非目标用户群体中的每一个用户的音频数据的声纹特征向量，为非目标用户群体所对应的音频数据的声纹特征向量的均值ub，为非目标用户群体所对应的音频数据的声纹特征向量的方差eb。

步骤s370：将所述第一标准声纹特征向量与所述多个第二标准声纹特征向量进行相似度计算，以得到对应的多个第一相似度。

当计算得到第一标准声纹特征向量以及多个第二标准声纹特征向量后，将第一标准声纹特征向量与多个第二标准特征向量一一进行相似度计算，得到待识别音频数据与目标用户群体所包括的每一个用户的音频数据的相似度。示例性的，如图5所示，比如第一标准声纹特征向量为向量1，多个第二标准声纹特征向量包括向量a、向量b、向量c以及向量d，那么需要计算向量1和向量a的相似度、向量1与向量b的相似度、向量1与向量c的相似度以及向量1和向量d的相似度，得到相似度1、相似度2、相似度3以及相似度4。

步骤s380：将所述第一标准声纹特征向量与所述多个第三标准声纹特征向量进行相似度计算，以得到对应的多个第二相似度。

当计算得到第一标准声纹特征向量以及多个第三标准声纹特征向量后，将第一标准声纹特征向量与多个第三标准特征向量一一进行相似度计算，得到待识别音频数据与非目标用户群体所包括的每一个用户的音频数据的相似度。

步骤s390：获取所述多个第一相似度与所述多个第二相似度中的最高相似度。

具体的，在计算得到多个第一相似度和多个第二相似度后，可以将多个第一相似度和多个第二相似度按照从高到低的顺序进行排序，将排在最前面的相似度作为最高相似度。

步骤s391：若所述最高相似度大于预设阈值，将所述最高相似度对应的用户作为所述待识别音频数据对应的声纹识别结果。

在本申请实施例中，所述预设阈值为预先设置的能够确定与待识别音频数据对应的用户的相似度阈值。在获取到最高相似度后，将最高相似度与预设阈值进行比较，若最高相似度大于预设阈值，则将最高相似度对应的用户确定为待识别音频数据对应的用户；若最高相似度不大于预设阈值，则确定声纹库所包括的音频数据对应的用户中没有待识别音频数据对应的用户，进而可以将待识别音频数据对应的用户属性信息以及音频添加到声纹库中，并对该用户进行命名，建立用户属性信息、音频数据以及用户之间的对应关系，进而当再一次接收到该待识别音频数据后就可以从声纹库中查找对应的用户。

本申请提供的一种声纹识别方法，首先获取待识别音频数据，获取待识别音频数据的声纹特征向量，对待识别音频数据的声纹特征向量进行标准化处理，得到第一标准声纹特征向量，若待识别音频数据中包括用户属性信息，获取待识别音频数据对应的用户属性信息，根据用户属性信息查询预先建立的对应关系，确定与用户属性信息对应的目标用户群体和非目标用户群体，其中，所述对应关系包括用户属性信息和用户之间的对应关系，然后再获取目标用户群体中每个用户的音频数据的声纹特征向量，对目标用户群体中的每个用户的音频数据的声纹特征向量进行标准化处理，得到目标用户群体对应的多个第二标准声纹特征向量，再获取非目标用户群体中每个用户的音频数据的声纹特征向量，对非目标用户群体中的每个用户的音频数据的声纹特征向量进行标准化处理，得到非目标用户群体对应的多个第三标准声纹特征向量，最后将第一标准声纹特征向量与多个第二标准声纹特征向量进行相似度计算，以得到对应的多个第一相似度，将第一标准声纹特征向量与多个第三标准声纹特征向量进行相似度计算，以得到对应的多个第二相似度，获取多个第一相似度与多个第二相似度中的最高相似度，若最高相似度大于预设阈值，将最高相似度对应的用户作为待识别音频数据对应的声纹识别结果。通过上述方法，对待识别音频数据的声纹特征向量以及不同用户群体的音频数据的声纹特征向量进行标准化处理，可以使得相同用户群体的声纹特征向量的相似度提高，使得不同用户群体的声纹特征向量相似度降低，从而减少待识别音频数据的声纹特征向量在用户群体中的误匹配，同时可以提高声纹识别的精度。

请参阅图6，本申请实施例提供的一种声纹识别装置400，所述装置400包括：

数据获取单元410，用于获取待识别音频数据。

用户群体划分单元420，用于基于所述待识别音频数据，将声纹库所包括的音频数据对应的用户划分为多个用户群体。

作为一种方式，所述用户群体划分单元420还用于若所述待识别音频数据中包括用户属性信息，获取所述待识别音频数据对应的用户属性信息；根据所述用户属性信息查询预先建立的对应关系，确定与所述用户属性信息对应的目标用户群体和非目标用户群体，其中，所述对应关系包括用户属性信息和用户之间的对应关系。

其中，所述用户群体划分单元420还用于查询所述对应关系，以得到所述多个用户属性信息分别对应的参考用户群体；获取所述多个用户属性信息分别对应的参考用户群体的交集，以得到所述多个用户属性信息对应的目标用户群体；将所述对应关系中除所述目标用户群体所包括的用户之外的用户，作为所述多个用户属性信息对应的非目标用户群体。

可选的，所述用户群体划分单元420还用于若所述待识别音频数据中不包括用户属性信息，将所述声纹库中所包括的所有音频数据对应的用户作为目标用户群体。

所述用户群体划分单元420还用于若所述待识别音频数据中不包括用户属性信息，将所述待识别音频数据输入目标模型，获取所述目标模型输出的所述待识别音频数据对应的用户属性信息；基于所述用户属性信息，将所述声纹库所包括的音频数据对应的用户划分为目标用户群体和非目标用户群体。

第一向量获取单元430，用于获取所述多个用户群体的音频数据的声纹特征向量，分别对所述多个用户群体的音频数据的声纹特征向量进行标准化处理，得到所述多个用户群体各自对应的标准声纹特征向量。

可选的，所述第一向量获取单元430用于获取所述目标用户群体中每个用户的音频数据的声纹特征向量；对所述目标用户群体中的每个用户的音频数据的声纹特征向量进行标准化处理，得到所述目标用户群体对应的多个第二标准声纹特征向量；获取所述非目标用户群体中每个用户的音频数据的声纹特征向量；对所述非目标用户群体中的每个用户的音频数据的声纹特征向量进行标准化处理，得到所述非目标用户群体对应的多个第三标准声纹特征向量。

其中，所述第一向量获取单元430还用于基于所述第一均值和第一方差对所述目标用户群体中的每个用户的音频数据的声纹特征向量进行标准化处理，得到所述目标用户群体对应的多个第二标准声纹特征向量。

所述第一向量获取单元430还用于获取所述非目标用户群体所对应的音频数据的声纹特征向量的第二均值和第二方差；基于所述第二均值和第二方差对所述非目标用户群体中的每个用户的音频数据的声纹特征向量进行标准化处理，得到所述非目标用户群体对应的多个第三标准化声纹特征向量。

第二向量获取单元440，用于获取所述待识别音频数据的声纹特征向量，对所述待识别音频数据的声纹特征向量进行标准化处理，得到第一标准声纹特征向量。

具体的，所述第二向量获取单元440还用于获取所述目标用户群体所对应的音频数据的声纹特征向量的第一均值和第一方差；基于所述第一均值和第一方差对所述待识别音频数据的声纹特征向量进行标准化处理，得到第一标准声纹特征向量。

识别单元450，用于基于所述第一标准声纹特征向量和所述多个用户群体各自对应的标准声纹特征向量，从所述多个用户群体中获取所述待识别音频数据对应的声纹识别结果。

可选的，所述识别单元450还用于将所述第一标准声纹特征向量与所述多个第二标准声纹特征向量进行相似度计算，以得到对应的多个第一相似度；将所述第一标准声纹特征向量与所述多个第三标准声纹特征向量进行相似度计算，以得到对应的多个第二相似度；获取所述多个第一相似度与所述多个第二相似度中的最高相似度；若所述最高相似度大于预设阈值，将所述最高相似度对应的用户作为所述待识别音频数据对应的声纹识别结果。

需要说明的是，本申请中装置实施例与前述方法实施例是相互对应的，装置实施例中具体的原理可以参见前述方法实施例中的内容，此处不再赘述。

下面将结合图7对本申请提供的一种电子设备进行说明。

请参阅图7，基于上述的声纹识别方法、装置，本申请实施例还提供的另一种可以执行前述声纹识别方法的电子设备800。电子设备800包括相互耦合的一个或多个（图中仅示出一个）处理器802、存储器804以及网络模块806。其中，该存储器804中存储有可以执行前述实施例中内容的程序，而处理器802可以执行该存储器804中存储的程序。

其中，处理器802可以包括一个或者多个处理核。处理器802利用各种接口和线路连接整个电子设备800内的各个部分，通过运行或执行存储在存储器804内的指令、程序、代码集或指令集，以及调用存储在存储器804内的数据，执行电子设备800的各种功能和处理数据。可选地，处理器802可以采用数字信号处理（digitalsignalprocessing，dsp）、现场可编程门阵列（field－programmablegatearray，fpga）、可编程逻辑阵列（programmablelogicarray，pla）中的至少一种硬件形式来实现。处理器802可集成中央处理器（centralprocessingunit，cpu）、图像处理器（graphicsprocessingunit，gpu）和调制解调器等中的一种或几种的组合。其中，cpu主要处理操作系统、用户界面和应用程序等；gpu用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器802中，单独通过一块通信芯片进行实现。

存储器804可以包括随机存储器（randomaccessmemory，ram），也可以包括只读存储器（read-onlymemory）。存储器804可用于存储指令、程序、代码、代码集或指令集。存储器804可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令（比如触控功能、声音播放功能、图像播放功能等）、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备800在使用中所创建的数据（比如电话本、音视频数据、聊天记录数据）等。

所述网络模块806用于接收以及发送电磁波，实现电磁波与电信号的相互转换，从而与通讯网络或者其他设备进行通讯，例如和音频播放设备进行通讯。所述网络模块806可包括各种现有的用于执行这些功能的电路元件，例如，天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块（sim）卡、存储器等等。所述网络模块806可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。上述的无线网络可包括蜂窝式电话网、无线局域网或者城域网。例如，网络模块806可以与基站进行信息交互。

请参考图8，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质900中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质900可以是诸如闪存、eeprom（电可擦除可编程只读存储器）、eprom、硬盘或者rom之类的电子存储器。可选地，计算机可读存储介质900包括非易失性计算机可读介质（non-transitorycomputer-readablestoragemedium）。计算机可读存储介质900具有执行上述方法中的任何方法步骤的程序代码910的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码910可以例如以适当形式进行压缩。

本申请提供的一种声纹识别方法、装置、电子设备以及存储介质，首先根据待识别音频数据，将声纹库所包括的音频数据对应的用户划分为多个用户群体，再获取待识别音频数据的声纹特征向量，对待识别音频数据的声纹特征向量进行标准化处理，得到第一标准声纹特征向量，然后获取多个用户群体的音频数据的声纹特征向量，分别对多个用户群体的音频数据的声纹特征向量进行标准化处理，得到多个用户群体各自对应的标准声纹特征向量，最后基于第一标准声纹特征向量和多个用户群体各自对应的标准声纹特征向量，从多个用户群体中获取待识别音频数据对应的声纹识别结果。通过上述方法，通过对待识别音频数据的声纹特征向量以及不同用户群体的音频数据的声纹特征向量进行标准化处理，可以使得相同用户群体的声纹特征向量的相似度提高，使得不同用户群体的声纹特征向量相似度降低，从而减少待识别音频数据的声纹特征向量在用户群体中的误匹配，同时可以提高声纹识别的精度。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语音信号去混响方法、装置和电子设备与流程

声纹识别方法、装置、电子设备及存储介质与流程

相关文章

最热文献