技术特征:
1.一种声纹识别方法,其特征在于,所述方法包括:
获取待识别音频数据;
基于所述待识别音频数据,将声纹库所包括的音频数据对应的用户划分为多个用户群体;
获取所述多个用户群体的音频数据的声纹特征向量,分别对所述多个用户群体的音频数据的声纹特征向量进行标准化处理,得到所述多个用户群体各自对应的标准声纹特征向量;
获取所述待识别音频数据的声纹特征向量,对所述待识别音频数据的声纹特征向量进行标准化处理,得到第一标准声纹特征向量;
基于所述第一标准声纹特征向量和所述多个用户群体各自对应的标准声纹特征向量,从所述多个用户群体中获取所述待识别音频数据对应的声纹识别结果。
2.根据权利要求1所述的方法,其特征在于,所述标准化处理为根据所述待识别音频的声纹特征向量或拟进行标准化处理的用户群体中每个用户的音频数据的声纹特征向量,与所述拟进行标准化处理的用户群体所对应的音频数据的声纹特征向量的均值及方差,按照预设规则计算得到新的声纹特征向量的过程。
3.根据权利要求1所述的方法,其特征在于,所述多个用户群体包括目标用户群体和非目标用户群体,所述基于所述待识别音频数据,将声纹库所包括的音频数据对应的用户划分为多个用户群体,包括:
若所述待识别音频数据中包括用户属性信息,获取所述待识别音频数据对应的用户属性信息;
根据所述用户属性信息查询预先建立的对应关系,确定与所述用户属性信息对应的目标用户群体和非目标用户群体,其中,所述对应关系包括用户属性信息和用户之间的对应关系。
4.根据权利要求3所述的方法,其特征在于,所述用户属性信息包括多个,所述根据所述用户属性信息查询预建立的对应关系,确定与所述用户属性信息对应的目标用户群体和非目标用户群体,包括:
查询所述对应关系,以得到多个用户属性信息分别对应的参考用户群体;
获取所述多个用户属性信息分别对应的参考用户群体的交集,以得到所述多个用户属性信息对应的目标用户群体;
将所述对应关系中除所述目标用户群体所包括的用户之外的用户,作为所述多个用户属性信息对应的非目标用户群体。
5.根据权利要求3所述的方法,其特征在于,所述获取所述待识别音频数据的声纹特征向量,对所述待识别音频数据的声纹特征向量进行标准化处理,得到第一标准声纹特征向量,包括:
获取所述目标用户群体所对应的音频数据的声纹特征向量的第一均值和第一方差;
基于所述第一均值和第一方差对所述待识别音频数据的声纹特征向量进行标准化处理,得到第一标准声纹特征向量。
6.根据权利要求5所述的方法,其特征在于,所述获取所述多个用户群体的音频数据的声纹特征向量,分别对所述多个用户群体的音频数据的声纹特征向量进行标准化处理,得到所述多个用户群体各自对应的标准声纹特征向量,包括:
获取所述目标用户群体中每个用户的音频数据的声纹特征向量;
对所述目标用户群体中的每个用户的音频数据的声纹特征向量进行标准化处理,得到所述目标用户群体对应的多个第二标准声纹特征向量;
获取所述非目标用户群体中每个用户的音频数据的声纹特征向量;
对所述非目标用户群体中的每个用户的音频数据的声纹特征向量进行标准化处理,得到所述非目标用户群体对应的多个第三标准声纹特征向量。
7.根据权利要求6所述的方法,其特征在于,所述基于所述第一标准声纹特征向量和所述多个用户群体各自对应的标准声纹特征向量,从所述多个用户群体中获取所述待识别音频数据对应的声纹识别结果,包括:
将所述第一标准声纹特征向量与所述多个第二标准声纹特征向量进行相似度计算,以得到对应的多个第一相似度;
将所述第一标准声纹特征向量与所述多个第三标准声纹特征向量进行相似度计算,以得到对应的多个第二相似度;
获取所述多个第一相似度与所述多个第二相似度中的最高相似度;
若所述最高相似度大于预设阈值,将所述最高相似度对应的用户作为所述待识别音频数据对应的声纹识别结果。
8.根据权利要求6所述的方法,其特征在于,所述对所述目标用户群体中的每个用户的音频数据的声纹特征向量进行标准化处理,得到所述目标用户群体对应的多个第二标准声纹特征向量,包括:
基于所述第一均值和第一方差对所述目标用户群体中的每个用户的音频数据的声纹特征向量进行标准化处理,得到所述目标用户群体对应的多个第二标准声纹特征向量。
9.根据权利要求6所述的方法,其特征在于,所述对所述非目标用户群体中的每个用户的音频数据的声纹特征向量进行标准化处理,得到所述非目标用户群体对应的多个第三标准声纹特征向量,包括:
获取所述非目标用户群体所对应的音频数据的声纹特征向量的第二均值和第二方差;
基于所述第二均值和第二方差对所述非目标用户群体中的每个用户的音频数据的声纹特征向量进行标准化处理,得到所述非目标用户群体对应的多个第三标准声纹特征向量。
10.根据权利要求1所述的方法,其特征在于,所述多个用户群体包括目标用户群体和非目标用户群体,所述基于所述待识别音频数据,将声纹库所包括的音频数据对应的用户划分为多个用户群体,包括:
若所述待识别音频数据中不包括用户属性信息,将所述声纹库中所包括的所有音频数据对应的用户作为目标用户群体;
所述获取所述多个用户群体的音频数据的声纹特征向量,分别对所述多个用户群体的音频数据的声纹特征向量进行标准化处理,得到所述多个用户群体各自对应的标准声纹特征向量,包括:
获取所述目标用户群体的音频数据的声纹特征向量,对所述目标用户群体的音频数据的声纹特征向量进行标准化处理,得到所述目标用户群体对应的标准声纹特征向量;
所述基于所述第一标准声纹特征向量和所述多个用户群体各自对应的标准声纹特征向量,从所述多个用户群体中获取所述待识别音频数据对应的声纹识别结果,包括:
基于所述第一标准声纹特征向量和所述目标用户群体对应的标准声纹特征向量,从所述目标用户群体中获取所述待识别音频数据对应的声纹识别结果。
11.根据权利要求1所述的方法,其特征在于,所述基于所述待识别音频数据,将声纹库所包括的音频数据对应的用户划分为多个用户群体,还包括:
若所述待识别音频数据中不包括用户属性信息,将所述待识别音频数据输入目标模型,获取所述目标模型输出的所述待识别音频数据对应的用户属性信息;
基于所述用户属性信息,将所述声纹库所包括的音频数据对应的用户划分为目标用户群体和非目标用户群体。
12.一种声纹识别装置,其特征在于,所述装置包括:
数据获取单元,用于获取待识别音频数据;
用户群体划分单元,用于基于所述待识别音频数据,将声纹库所包括的音频数据对应的用户划分为多个用户群体;
第一向量获取单元,用于获取所述多个用户群体的音频数据的声纹特征向量,分别对所述多个用户群体的音频数据的声纹特征向量进行标准化处理,得到所述多个用户群体各自对应的标准声纹特征向量;
第二向量获取单元,用于获取所述待识别音频数据的声纹特征向量,对所述待识别音频数据的声纹特征向量进行标准化处理,得到第一标准声纹特征向量;
识别单元,用于基于所述第一标准声纹特征向量和所述多个用户群体各自对应的标准声纹特征向量,从所述多个用户群体中获取所述待识别音频数据对应的声纹识别结果。
13.一种电子设备,其特征在于,包括一个或多个处理器以及存储器;一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行权利要求1-11任一所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序代码,其中,在所述程序代码被处理器运行时执行权利要求1-11任一所述的方法。
技术总结
本申请实施例公开了一种声纹识别方法、装置、电子设备及存储介质。所述方法包括:获取待识别音频数据;基于所述待识别音频数据,将声纹库所包括的音频数据对应的用户划分为多个用户群体;获取所述多个用户群体的音频数据的声纹特征向量,分别对所述多个用户群体的音频数据的声纹特征向量进行标准化处理,得到所述多个用户群体各自对应的标准声纹特征向量;获取所述待识别音频数据的声纹特征向量,对所述待识别音频数据的声纹特征向量进行标准化处理,得到第一标准声纹特征向量;基于所述第一标准声纹特征向量和所述多个用户群体各自对应的标准声纹特征向量,从所述多个用户群体中获取所述待识别音频数据对应的声纹识别结果,提高声纹识别的精度。
技术研发人员:李亚桐;黄润乾
受保护的技术使用者:深圳市声扬科技有限公司
技术研发日:2021.07.01
技术公布日:2021.08.13
本文用于企业家、创业者技术爱好者查询,结果仅供参考。