豪萨语声纹识别模型的训练方法、识别方法及装置与流程

2022-07-02 00:46:51 来源：中国专利 TAG：

1.本发明涉及声纹识别技术领域，具体涉及豪萨语声纹识别模型的训练方法、识别方法及装置。

背景技术：

2.语音识别是将人类的声音信号转化为文本的过程，是人工智能感知领域的重要技术之一。随着深度学习技术的发展，语音识别的精度和速度都取得了长远的进步。现如今，语音识别技术已经渗透到我们日常生活中的许多应用中，如智能音箱，导购机器人等产品。然而，现有的语音识别研究大多只关注于人数使用最多的语种，如英语和汉语，这导致了语音识别的应用只局限在较为发达的地区和城市。
3.世界上有6809种语言，大多是为使用人数很少的小语种，针对小语种的语音识别的研究是拉近不同语种人群之间交流的关键桥梁。其中，豪萨语是属于亚非语系乍得语族，是非洲最重要的三大语言之一。对于声纹识别模型而言，对其训练一般都需要几千小时的音频，而豪萨语作为小语种，所能够收集的样本数据较少。由于样本数据的缺乏，就会导致训练得到的声纹识别模型的准确性较低，进而导致声纹识别的准确率较低。

技术实现要素：

4.有鉴于此，本发明实施例提供了一种豪萨语声纹识别模型的训练方法、识别方法及装置，以解决声纹识别的准确率较低的问题。
5.根据第一方面，本发明实施例提供了一种豪萨语声纹识别模型的训练方法，包括：
6.获取英语音频样本的第一频域特征及第一声纹特征，以及豪萨语音频样本的第二频域特征及第二声纹特征；
7.基于所述第一频域特征以及所述第一声纹特征对豪萨语声纹识别模型进行训练，确定所述豪萨语声纹识别模型的初始参数，得到初始豪萨语声纹识别模型；
8.基于所述第二频域特征以及所述第二声纹特征对所述初始豪萨语声纹识别模型进行训练，调整所述初始豪萨语声纹识别模型的初始参数，确定目标豪萨语声纹识别模型，所述目标豪萨语声纹识别模型的输出为说话人的声纹特征。
9.本发明实施例提供的豪萨语声纹识别模型的训练方法，由于豪萨语音频样本的数量较少，且豪萨语与英语较为相似，在对豪萨语声纹识别模型进行训练时，先基于英语音频样本对豪萨语声纹识别模型进行训练，将训练得到的参数作为豪萨语声纹识别模型的初始参数；再基于豪萨语音频样本对初始豪萨语语音模型进行再次训练，进而对初始参数进行微调。即，通过迁移学习的方法既能够避免豪萨语音频样本不足的问题，又保证训练得到的豪萨语声纹识别模型的准确性。
10.结合第一方面，在第一方面第一实施方式中，所述基于所述第一频域特征以及所述第一声纹特征对豪萨语声纹识别模型进行训练，确定所述豪萨语声纹识别模型的初始参数，得到初始豪萨语声纹识别模型，包括：
11.将所述第一频域特征输入所述豪萨语声纹识别模型中，得到第一预测声纹特征；
12.基于所述第一声纹特征以及所述第一预测声纹特征的误差，对所述豪萨语声纹识别模型的参数进行调整，确定所述初始豪萨语声纹识别模型。
13.本发明实施例提供的豪萨语声纹识别模型的训练方法，将英语音频样本对应的第一频域特征经豪萨语声纹识别模型的处理后得到第一预测声纹特征，再利用该网络预测得到声纹特征与音频样本对应的声纹特征进行误差比较，以对模型参数进行调整，可以保证所确定出的初始豪萨语声纹识别模型的初始参数的准确性。
14.结合第一方面第一实施方式，在第一方面第二实施方式中，所述将所述第一频域特征输入所述豪萨语声纹识别模型中，得到第一预测声纹特征，包括：
15.利用所述豪萨语声纹识别模型中的第一网络模型对所述第一频域特征进行处理，得到帧级别的说话人信息；
16.利用所述豪萨语声纹识别模型中的第二网络模型对所述帧级别的说话人信息进行聚类，得到句子级别的说话人信息，确定所述第一预测声纹特征。
17.本发明实施例提供的豪萨语声纹识别模型的训练方法，在豪萨语声纹识别模型中设置两个网络模型，首先进行帧级别的说话人信息，再利用第二网络模型对第一网络模型的输出进行聚类分析，确定第一预测声纹特征；即，通过聚类方式得到第一预测声纹特征，可以保证第一预测声纹特征的准确性，提高模型训练的效率。
18.结合第一方面第一实施方式，在第一方面第三实施方式中，所述基于所述第一声纹特征以及所述第一预测声纹特征的误差，对所述豪萨语声纹识别模型的参数进行调整，确定所述初始豪萨语声纹识别模型的初始参数，包括：
19.利用所述第一声纹特征以及所述第一预测声纹特征进行损失函数的计算；
20.基于所述损失函数的计算结果，对所述豪萨语声纹识别模型的参数进行调整，确定所述初始豪萨语声纹识别模型的初始参数。
21.结合第一方面，在第一方面第四实施方式中，所述基于所述豪萨语音频样本以及所述第二声纹特征对所述初始豪萨语声纹识别模型进行训练，调整所述初始豪萨语声纹识别模型的初始参数，确定目标豪萨语声纹识别模型，包括：
22.将所述第二频域特征输入所述初始豪萨语声纹识别模型中，得到第二预测声纹特征；
23.基于所述第二声纹特征以及所述第二预测声纹特征的误差，对所述初始豪萨语声纹识别模型的初始参数进行调整，确定所述目标豪萨语声纹识别模型。
24.本发明实施例提供的豪萨语声纹识别模型的训练方法，在初始参数确定的基础上，再利用豪萨语音频样本对初始参数进行微调，一方面能够保证目标豪萨语声纹识别模型的准确性，另一方面能够提高模型训练的效率。
25.结合第一方面，在第一方面第五实施方式中，所述获取英语音频样本的第一频域特征，以及，所述获取豪萨语音频样本的第二频域特征，包括：
26.将所述英语音频样本以及所述豪萨语音频样本分别划分为静音段与非静音段；
27.分别对非静音段的所述英语音频样本以及非静音段的所述豪萨语音频样本进行傅里叶变换处理，以得到所述第一频域特征以及所述第二频域特征。
28.本发明实施例提供的豪萨语声纹识别模型的训练方法，在进行频域特征的处理之
前，先将音频样本中的静音段去除，可以减少数据处理量，提高训练效率。
29.结合第一方面，或第一方面第一实施方式至第五实施方式中任一项，在第一方面第六实施方式中，还包括：
30.获取内类数据以及内间数据，所述内类数据为同一说话人的音频数据，所述内间数据为不同说话人的音频数据；
31.提取所述内类数据以及所述内间数据的频域特征；
32.将提取出的频域特征输入所述目标豪萨语声纹识别模型中，确定各个所述内类数据对应的声纹特征，以及各个所述内间数据对应的声纹特征；
33.基于各个所述内类数据对应的声纹特征的相似度，以及各个所述内间数据对应的声纹特征的相似度，确定声纹识别阈值。
34.本发明实施例提供的豪萨语声纹识别模型的训练方法，在目标豪萨语声纹识别模型确定之后，在利用大量的内类数据以及内间数据进行声纹识别阈值的确定，可以保证所确定出的声纹识别阈值的准确性，提高后续利用该模型进行声纹识别的准确性。
35.根据第二方面，本发明实施例还提供了一种豪萨语声纹识别方法，包括：
36.获取待识别音频；
37.提取所述待识别音频的频域特征；
38.将提取出的频域特征输入目标豪萨语声纹识别模型中，得到目标声纹特征，所述目标豪萨语声纹识别模型是根据本发明第一方面，或第一方面任一项实施方式中所述的豪萨语声纹识别模型的训练方法训练得到的；
39.基于所述目标声纹特征、声纹特征库中的待匹配声纹特征以及声纹识别阈值，确定所述待识别音频对应的说话人。
40.本发明实施例提供的豪萨语声纹识别方法，在准确的目标声纹识别模型的基础上，对待识别音频进行识别，可以保证识别的准确性。
41.根据第三方面，本发明实施例还提供了一种豪萨语声纹识别模型的训练装置，包括：
42.第一获取模块，用于获取英语音频样本的第一频域特征及第一声纹特征，以及豪萨语音频样本的第二频域特征及第二声纹特征；
43.第一提取模块，用于提取所述英语音频样本的第一频域特征以及所述豪萨语音频样本的第二频域特征；
44.第一训练模块，用于基于所述第一频域特征以及所述第一声纹特征对豪萨语声纹识别模型进行训练，确定所述豪萨语声纹识别模型的初始参数，得到初始豪萨语声纹识别模型；
45.第二训练模块，用于基于所述第二频域特征以及所述第二声纹特征对所述初始豪萨语声纹识别模型进行训练，调整所述初始豪萨语声纹识别模型的初始参数，确定目标豪萨语声纹识别模型，所述目标豪萨语声纹识别模型的输出为说话人的声纹特征。
46.本发明实施例提供的豪萨语声纹识别模型的训练装置，由于豪萨语音频样本的数量较少，且豪萨语和英语较为相似，在对豪萨语声纹识别模型进行训练时，先基于英语音频样本对豪萨语声纹识别模型进行训练，将训练得到的参数作为豪萨语声纹识别模型的初始参数；再基于豪萨语音频样本对初始豪萨语语音模型进行再次训练，进而对初始参数进行
微调。即，通过迁移学习的方法既能够避免豪萨语音频样本不足的问题，又保证训练得到的豪萨语声纹识别模型的准确性。
47.根据第四方面，本发明实施例还提供了一种豪萨语声纹识别装置，包括：
48.第二获取模块，用于获取待识别音频；
49.第二提取模块，用于提取所述待识别音频的频域特征；
50.识别模块，用于将提取出的频域特征输入目标豪萨语声纹识别模型中，得到目标声纹特征，所述目标豪萨语声纹识别模型是根据本发明第一方面，或第一方面任一项实施方式中所述的豪萨语声纹识别模型的训练方法训练得到的；
51.确定模块，用于基于所述目标声纹特征、声纹特征库中的待匹配声纹特征以及声纹识别阈值，确定所述待识别音频对应的说话人。
52.本发明实施例提供的豪萨语声纹识别装置，在准确的目标声纹识别模型的基础上，对待识别音频进行识别，可以保证识别的准确性。
53.根据第五方面，本发明实施例提供了一种电子设备，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行第一方面或者第一方面的任意一种实施方式中所述的豪萨语声纹识别模型的训练方法，或执行第二方面所述的豪萨语声纹识别方法。
54.根据第六方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行第一方面或者第一方面的任意一种实施方式中所述的豪萨语声纹识别模型的训练方法，或执行第二方面所述的豪萨语声纹识别方法。
附图说明
55.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
56.图1是根据本发明实施例的豪萨语声纹识别模型的训练方法的流程图；
57.图2是根据本发明实施例的豪萨语声纹识别模型的训练方法的流程图；
58.图3是根据本发明实施例的豪萨语声纹识别模型的训练方法的流程图；
59.图4是根据本发明实施例的豪萨语声纹识别方法的流程图；
60.图5是根据本发明实施例的豪萨语声纹识别模型的训练装置的结构框图；
61.图6是根据本发明实施例的豪萨语声纹识别模型的训练装置的结构框图；
62.图7是本发明实施例提供的电子设备的硬件结构示意图。
具体实施方式
63.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
64.根据本发明实施例，提供了一种豪萨语声纹识别模型的训练方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
65.在本实施例中提供了一种豪萨语声纹识别模型的训练方法，可用于电子设备，如电脑、移动终端等，图1是根据本发明实施例的豪萨语声纹识别模型的训练方法的流程图，如图1所示，该流程包括如下步骤：
66.s11，获取英语音频样本的第一频域特征及第一声纹特征，以及豪萨语音频样本的第二频域特征及第二声纹特征。
67.由于豪萨语与英语比较类似，可以利用英语音频数据豪萨语声纹识别模型进行训练；再利用豪萨语音频数据对其进行参数微调即可。
68.英语音频样本的第一频域特征及第一声纹特征，以及豪萨语音频样本的第二频域特征及第二声纹特征，可以是电子设备从外界获取到的，也可以是存储在电子设备中的等等，在此对电子设备获取上述特征的方式并不做任何限制。
69.例如，在电子设备中存储有两种语种的数据库，分别为英语数据库以及豪萨语数据库。其中，英语数据库中包括各个英语音频样本的第一频域特征及第一声纹特征；豪萨语数据库中包括各个豪萨语音频样本的第二频域特征及第二声纹特征。也可以认为，英语数据库中的各个英语音频样本对应有第一频域特征及第一声纹特征；豪萨语数据库中的各个豪萨语音频样本对应有第二频域特征及第二声纹特征。
70.s12，基于第一频域特征以及第一声纹特征对豪萨语声纹识别模型进行训练，确定豪萨语声纹识别模型的初始参数，得到初始豪萨语声纹识别模型。
71.电子设备在对豪萨语声纹模型进行训练时，可以先依据经验值设置豪萨语声纹模型中的各个参数；再利用第一时域特特征以及第一声纹特征对豪萨语声纹识别模型进行训练，确定豪萨语声纹识别模型的初始参数，得到初始豪萨语声纹识别模型。
72.豪萨语声纹识别模型的输入为频域特征，输出为声纹特征。即，电子设备将第一频域特征输入豪萨语声纹识别模型之后，输出预测得到的声纹特征。电子设备再利用预测得到的声纹特征与第一声纹特征对模型参数进行更新。经过多次训练，以及相应的参数更新，可以确定初始参数并得到初始豪萨语声纹识别模型。
73.在此对豪萨语声纹识别模型的具体模型结构并不做任何限制，只需保证其输入为频域特征，输出为声纹特征即可，具体模型结构可以根据实际情况进行相应的设置。
74.s13，基于第二频域特征以及第二声纹特征对初始豪萨语声纹识别模型进行训练，调整初始豪萨语声纹识别模型的初始参数，确定目标豪萨语声纹识别模型。
75.其中，所述目标豪萨语声纹识别模型的输出为说话人的声纹特征。
76.与上述s12类似地，电子设备在上述s12中得到初始豪萨语声纹识别模型之后，再利用豪萨语音频样本对应的第二频域特征以及第二声纹特征对初始豪萨语声纹识别模型进行训练，对初始豪萨语声纹识别模型中的初始参数进行调整，最终确定目标豪萨语声纹识别模型。
77.具体地，基于英语音频样本以及豪萨语音频样本对豪萨语声纹识别模型分批进行训练。首先，基于英语音频样本进行第一次训练，得到初始豪萨语声纹识别模型；其次，基于
豪萨语音频样本在初始豪萨语声纹识别模型的基础进行第二次训练，得到目标豪萨语声纹识别模型。
78.本实施例提供的豪萨语声纹识别模型的训练方法，由于豪萨语音频样本的数量较少，且豪萨语和英语较为相似，在对豪萨语声纹识别模型进行训练时，先基于英语音频样本对豪萨语声纹识别模型进行训练，将训练得到的参数作为豪萨语声纹识别模型的初始参数；再基于豪萨语音频样本对初始豪萨语语音模型进行再次训练，进而对初始参数进行微调。即，通过迁移学习的方法既能够避免豪萨语音频样本不足的问题，又保证训练得到的豪萨语声纹识别模型的准确性。
79.在本实施例中提供了一种豪萨语声纹识别模型的训练方法，可用于电子设备，如电脑、移动终端等，图2是根据本发明实施例的豪萨语声纹识别模型的训练方法的流程图，如图2所示，该流程包括如下步骤：
80.s21，获取英语音频样本的第一频域特征及第一声纹特征，以及豪萨语音频样本的第二频域特征及第二声纹特征。
81.详细请参见图1所示实施例的s11，在此不再赘述。
82.s22，基于第一频域特征以及第一声纹特征对豪萨语声纹识别模型进行训练，确定豪萨语声纹识别模型的初始参数，得到初始豪萨语声纹识别模型。
83.其中，所述的豪萨语声纹识别模型包括第一网络模型以及第二网络模型，所述第二网络模型的输入与第一网络模型的输出连接。第二网络模型用于对第一网络模型的输出进行聚类，以得到预测声纹特征。
84.具体地，上述s22可以包括如下步骤：
85.s221，将第一频域特征输入豪萨语声纹识别模型中，得到第一预测声纹特征。
86.电子设备将英语音频样本对应的第一频域特征输入豪萨语声纹识别模型中，输出第一预测声纹特征。
87.作为本实施例的一种可选实施方式，上述s221可以包括如下步骤：
88.(1)利用豪萨语声纹识别模型中的第一网络模型对第一频域特征进行处理，得到帧级别的说话人信息。
89.第一网络模型可以为mobilenet网络模块，电子设备将第一频域特征输出mobilenet网络模块中，得到帧级别的说话人信息。
90.例如，第一网络模型的输入为200帧，输出为20帧，再利用第一网络对200帧数据进行处理时，可以采用滑动窗口对200帧数据进行特征提取，输出帧级别的说话人信息。
91.需要说明的是，第一网络模型并不限于上述的mobilenet网络模块，也可以为其他网络模块。例如，mobilenetv1、mobilenetv3、resnet、vgg等网络都可以替换。其中，使用mobilenetv2网络主要是它比其它两种mobilenet网络效果更稳定；相比vgg效果好，比resnet网络训练更快网络更小而效果基本没有太大损失。
92.具体采用哪种网络模块作为第一网络模型在此并不做任何限定，具体可以根据实际情况进行相应的设置。
93.(2)利用豪萨语声纹识别模型中的第二网络模型对帧级别的说话人信息进行聚类，得到句子级别的说话人信息，确定第一预测声纹特征。
94.第二网络模型可以是glvad网络模块，电子设备将第一网络模型输出的帧级别的
说话人信息输入第二网络模型中，利用第二网络模型对帧级别的说话人信息进行聚类，得到句子级别的说话人信息，并将句子级别的说话人信息确定为第一预测声纹特征。
95.其中，所述的第二网络模型并不限于上文所述的glvad网络模块，也可以为amsoftmax、ge2e等等，在此对其并不做任何限定，只需保证第二网络模型能够对第一网络模型的输出进行聚类处理即可。
96.s222，基于第一声纹特征以及第一预测声纹特征的误差，对豪萨语声纹识别模型的参数进行调整，确定初始豪萨语声纹识别模型。
97.电子设备在利用豪萨语声纹识别模型预测得到第一预测声纹特征之后，利用预测得到的第一预测声纹特征与英语音频样本对应的第一声纹特征进行误差比对，从而对豪萨语声纹识别模型的参数进行调整，确定初始豪萨语声纹识别模型。
98.在本实施例的一种可选实施方式中，上述s222可以包括如下步骤：
99.(1)利用第一声纹特征以及第一预测声纹特征进行损失函数的计算。
100.电子设备利用对第一声纹特征以及第一预测声纹特征进行损失函数的计算，得到相应的损失函数值。
101.(2)基于损失函数的计算结果，对豪萨语声纹识别模型的参数进行调整，确定初始豪萨语声纹识别模型的初始参数。
102.电子设备在计算得到损失函数值之后，对豪萨语声纹识别模型的参数进行调整，确定初始参数，相应地，就可以确定初始豪萨语声纹识别模型。
103.s23，基于第二频域特征以及第二声纹特征对初始豪萨语声纹识别模型进行训练，调整初始豪萨语声纹识别模型的初始参数，确定目标豪萨语声纹识别模型。
104.其中，所述目标豪萨语声纹识别模型的输出为说话人的声纹特征。
105.具体地，上述s23可以包括如下步骤：
106.s231，将第二频域特征输入初始豪萨语声纹识别模型中，得到第二预测声纹特征。
107.电子设备在上述s22中得到的初始豪萨语声纹识别模型，是利用大量英语音频样本对豪萨语声纹识别模型进行训练得到的。再通过迁移学习的方式，利用豪萨语音频样本对初始豪萨语声纹识别模型的参数进行微调。其中，此处的参数微调可以是通过设置不同的学习率分别对第一网络模型以及第二网络模型的参数进行学习及调整。
108.其中，电子设备将豪萨语音频样本对应的第二频域特征输入初始豪萨语声纹识别模型中，得到第二预测声纹特征的具体方式，与上文s22中得到第一预测声纹特征的实现方式类似。具体请上述s22的详细描述，在此不再赘述。
109.s232，基于第二声纹特征以及第二预测声纹特征的误差，对初始豪萨语声纹识别模型的初始参数进行调整，确定目标豪萨语声纹识别模型。
110.电子设备在得到第二预测声纹特征之后，利用第二声纹特征以及第二预测声纹特征的误差对初始参数进行调整的方式，与上述s22中确定初始参数的方式类似。详细请参见上述s22的相关描述，在此不再赘述。
111.本实施例提供的豪萨语声纹识别模型的训练方法，将英语音频样本对应的第一频域特征经豪萨语声纹识别模型的处理后得到第一预测声纹特征，再利用该网络预测得到声纹特征与音频样本对应的声纹特征进行误差比较，以对模型参数进行调整，可以保证所确定出的初始豪萨语声纹识别模型的初始参数的准确性；此外，在初始参数确定的基础上，再
利用豪萨语音频样本对初始参数进行微调，一方面能够保证目标豪萨语声纹识别模型的准确性，另一方面能够提高模型训练的效率。
112.在本实施例中提供了一种豪萨语声纹识别模型的训练方法，可用于电子设备，如电脑、移动终端等，图3是根据本发明实施例的豪萨语声纹识别模型的训练方法的流程图，如图3所示，该流程包括如下步骤：
113.s31，获取英语音频样本的第一频域特征及第一声纹特征，以及豪萨语音频样本的第二频域特征及第二声纹特征。
114.具体地，上述s31可以包括如下步骤：
115.s311，将英语音频样本以及豪萨语音频样本分别划分为静音段与非静音段。
116.其中，英语音频样本与豪萨语音频样本的频域特征的处理方式相同，在下文中以英语音频样本的处理为例进行详细描述。
117.电子设备在获取到英语音频样本之后，对英语音频样本进行去噪、端点检测和特征提取等处理之后，得到相应的第一频域特征。具体地，电子设备通过logmmse算法对英语音频样本进行去噪增强，然后对增强后得到的语音利用webrtc_vad技术将语音划分为静音段和非静音段。
118.s312，分别对非静音段的英语音频样本以及非静音段的豪萨语音频样本进行傅里叶变换处理，以得到第一频域特征以及第二频域特征。
119.电子设备经静音段的音频数据去除，仅对非静音段的音频数据进行处理。具体地，电子设备对非静音段的英语音频样本进行傅里叶变换和归一化处理，得到相应的第一频域特征。
120.s32，基于第一频域特征以及第一声纹特征对豪萨语声纹识别模型进行训练，确定豪萨语声纹识别模型的初始参数，得到初始豪萨语声纹识别模型。
121.详细请参见图2所示实施例的s22，在此不再赘述。
122.s33，基于第二频域特征以及第二声纹特征对初始豪萨语声纹识别模型进行训练，调整初始豪萨语声纹识别模型的初始参数，确定目标豪萨语声纹识别模型。
123.其中，所述目标豪萨语声纹识别模型的输出为说话人的声纹特征。
124.详细请参见图2所示实施例的s23，在此不再赘述。
125.s34，获取内类数据以及内间数据。
126.其中，所述内类数据为同一说话人的音频数据，所述内间数据为不同说话人的音频数据。
127.电子设备可以获取到属于不同说话人的音频数据，在获取到不同说话人的音频数据之后，按照说话人对获取到的音频数据进行划分，得到属于各个说话人的音频数据。
128.例如，说话人1，对应有n1个音频数据；
129.说话人2，对应有n2个音频数据；
130.说话人m，对应有nm个音频数据。
131.进一步地，可以将说话人1的n1个音频数据称之为内类数据；将说话人1的n1个音频数据，与说话人2的n2个音频数据称之为内间数据。
132.s35，提取内类数据以及内间数据的频域特征。
133.电子设备在获取到内类数据以及内间数据之后，分别提取各个音频数据的频域特
征。其中，频域特征的提取方式可以参见上述s31的描述，在此不再赘述。
134.s36，将提取出的频域特征输入目标豪萨语声纹识别模型中，确定各个内类数据对应的声纹特征，以及各个内间数据对应的声纹特征。
135.电子设备将提取出的频域特征输入目标豪萨语声纹识别模型中，得到对应于内类数据的声纹特征，以及对应于内间数据的声纹特征。
136.s37，基于各个内类数据对应的声纹特征的相似度，以及各个内间数据对应的声纹特征的相似度，确定声纹识别阈值。
137.在得到内类数据的声纹特征，以及内间数据的声纹特征之后，计算内类和内间的豪萨语的声纹特征的相似度。其中，同一个说话人不同语句之间的相似度尽量的高，不同说话人之间的相似度尽量的低。
138.电子设备在计算得到各个内类数据对应的声纹特征的相似度，以及各个内间数据对应的声纹特征的相似度的之后，可以基于上述内类数据以及内间数据的相似度的目标，确定声纹识别阈值。
139.例如，可以取最小平均错误概率下的相似度值作为说话人识别的阈值。当速率相等时，公共值称为等错误率。该值表明错误接受的比例等于错误拒绝的比例。等错误率值越低，生物识别系统的准确度越高。电子设备可以根据实际需求，设置不同的等错误率，以得到满足不同需求的声纹识别阈值。
140.本实施例提供的豪萨语声纹识别模型的训练方法，在进行频域特征的处理之前，先将音频样本中的静音段去除，可以减少数据处理量，提高训练效率；此外，在目标豪萨语声纹识别模型确定之后，在利用大量的内类数据以及内间数据进行声纹识别阈值的确定，可以保证所确定出的声纹识别阈值的准确性，提高后续利用该模型进行声纹识别的准确性。
141.根据本发明实施例，提供了一种豪萨语声纹识别方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
142.在本实施例中提供了一种豪萨语声纹识别方法，可用于电子设备，如电脑、移动终端等，图4是根据本发明实施例的豪萨语声纹识别方法的流程图，如图4所示，该流程包括如下步骤：
143.s41，获取待识别音频。
144.待识别音频可以是电子设备实时采集到的，也可以是电子设备从外界获取到的等等，在此对待识别音频的获取方式并不做任何限定。
145.s42，提取待识别音频的频域特征。
146.电子设备获取到待识别音频之后，可以利用图3所示实施例的s31的方式提取待识别音频的频域特征。
147.s43，将提取出的频域特征输入目标豪萨语声纹识别模型中，得到目标声纹特征。
148.其中，所述目标豪萨语声纹识别模型是根据上述实施例中所述的豪萨语声纹识别模型的训练方法训练得到的。
149.电子设备将频域特征输入目标豪萨语声纹识别模型中，得到目标声纹特征。其中，
关于目标豪萨语声纹识别模型请参见上述实施例的相关描述，在此不再赘述。
150.在本实施例的一些可选实施方式中，电子设备在得到目标声纹特征之后，可以对其进行切分得到多个目标声纹子特征；再对多个目标声纹子特征进行均衡平滑处理，得到处理后的声纹特征，后续利用处理后的声纹特征进行说话人识别，可以提升短语音识别效果，使得短语音效果近似长语音的效果。
151.s44，基于目标声纹特征、声纹特征库中的待匹配声纹特征以及声纹识别阈值，确定待识别音频对应的说话人。
152.电子设备在得到目标声纹特征之后，可以分别计算目标声纹特征与声纹特征库中的待匹配声纹特征的相似度；在计算得到相似度之后，将其与声纹识别与之进行比较，从而就可以确定目标声纹特征与待匹配声纹特征是否来自于同一说话人。
153.例如，在电子设备中存储有不同说话人的待匹配声纹特征，在确定出目标声纹特征与待匹配声纹特征匹配时，就可以确定待识别音频与声纹特征库中的说话人匹配；进一步地，查找该待匹配声纹特征对应的说话人信息，就可以确定待识别音频对应的说话人信息。
154.本实施例提供的豪萨语声纹识别方法，在准确的目标声纹识别模型的基础上，对待识别音频进行识别，可以保证识别的准确性。
155.在本实施例中还提供了一种豪萨语声纹识别模型的训练装置，以及豪萨语声纹识别装置。该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。
156.本实施例提供一种豪萨语声纹识别模型的训练装置，如图5所示，包括：
157.第一获取模块51，用于获取英语音频样本的第一频域特征及第一声纹特征，以及豪萨语音频样本的第二频域特征及第二声纹特征；
158.第一提取模块52，用于提取所述英语音频样本的第一频域特征以及所述豪萨语音频样本的第二频域特征；
159.第一训练模块53，用于基于所述第一频域特征以及所述第一声纹特征对豪萨语声纹识别模型进行训练，确定所述豪萨语声纹识别模型的初始参数，得到初始豪萨语声纹识别模型；
160.第二训练模块54，用于基于所述第二频域特征以及所述第二声纹特征对所述初始豪萨语声纹识别模型进行训练，调整所述初始豪萨语声纹识别模型的初始参数，确定目标豪萨语声纹识别模型，所述目标豪萨语声纹识别模型的输出为说话人的声纹特征。
161.本实施例提供的豪萨语声纹识别模型的训练装置，由于豪萨语音频样本的数量较少，且豪萨语和英语较为相似，在对豪萨语声纹识别模型进行训练时，先基于英语音频样本对豪萨语声纹识别模型进行训练，将训练得到的参数作为豪萨语声纹识别模型的初始参数；再基于豪萨语音频样本对初始豪萨语语音模型进行再次训练，进而对初始参数进行微调。即，通过迁移学习的方法既能够避免豪萨语音频样本不足的问题，又保证训练得到的豪萨语声纹识别模型的准确性。
162.本实施例提供一种豪萨语声纹识别装置，如图6所示，包括：
163.第二获取模块61，用于获取待识别音频；
164.第二提取模块62，用于提取所述待识别音频的频域特征；
165.识别模块63，用于将提取出的频域特征输入目标豪萨语声纹识别模型中，得到目标声纹特征，所述目标豪萨语声纹识别模型是根据本发明第一方面，或第一方面任一项实施方式中所述的豪萨语声纹识别模型的训练方法训练得到的；
166.确定模块64，用于基于所述目标声纹特征、声纹特征库中的待匹配声纹特征以及声纹识别阈值，确定所述待识别音频对应的说话人。
167.本实施例提供的豪萨语声纹识别装置，在准确的目标声纹识别模型的基础上，对待识别音频进行识别，可以保证识别的准确性。
168.本实施例中的豪萨语声纹识别模型的训练装置、或豪萨语声纹识别装置是以功能单元的形式来呈现，这里的单元是指asic电路，执行一个或多个软件或固定程序的处理器和存储器，和/或其他可以提供上述功能的器件。
169.上述各个模块的更进一步的功能描述与上述对应实施例相同，在此不再赘述。
170.本发明实施例还提供一种电子设备，具有上述图5所示的豪萨语声纹识别模型的训练装置，或图6所示的豪萨语声纹识别装置。
171.请参阅图7，图7是本发明可选实施例提供的一种电子设备的结构示意图，如图7所示，该电子设备可以包括：至少一个处理器71，例如cpu(central processing unit，中央处理器)，至少一个通信接口73，存储器74，至少一个通信总线72。其中，通信总线72用于实现这些组件之间的连接通信。其中，通信接口73可以包括显示屏(display)、键盘(keyboard)，可选通信接口73还可以包括标准的有线接口、无线接口。存储器74可以是高速ram存储器(random access memory，易挥发性随机存取存储器)，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器74可选的还可以是至少一个位于远离前述处理器71的存储装置。其中处理器71可以结合图5或图6所描述的装置，存储器74中存储应用程序，且处理器71调用存储器74中存储的程序代码，以用于执行上述任一方法步骤。
172.其中，通信总线72可以是外设部件互连标准(peripheral component interconnect，简称pci)总线或扩展工业标准结构(extended industry standard architecture，简称eisa)总线等。通信总线72可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。
173.其中，存储器74可以包括易失性存储器(英文：volatile memory)，例如随机存取存储器(英文：random-access memory，缩写：ram)；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)，硬盘(英文：hard disk drive，缩写：hdd)或固态硬盘(英文：solid-state drive，缩写：ssd)；存储器74还可以包括上述种类的存储器的组合。
174.其中，处理器71可以是中央处理器(英文：central processing unit，缩写：cpu)，网络处理器(英文：network processor，缩写：np)或者cpu和np的组合。
175.其中，处理器71还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文：application-specific integrated circuit，缩写：asic)，可编程逻辑器件(英文：programmable logic device，缩写：pld)或其组合。上述pld可以是复杂可编程逻辑器件
(英文：complex programmable logic device，缩写：cpld)，现场可编程逻辑门阵列(英文：field-programmable gate array，缩写：fpga)，通用阵列逻辑(英文：generic array logic,缩写：gal)或其任意组合。
176.可选地，存储器74还用于存储程序指令。处理器71可以调用程序指令，实现如本技术图1至3实施例中所示的豪萨语声纹识别模型的训练方法，或图4实施例中所示的豪萨语声纹识别方法。
177.本发明实施例还提供了一种非暂态计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的豪萨语声纹识别模型的训练方法，或豪萨语声纹识别方法。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(read-only memory，rom)、随机存储记忆体(random access memory，ram)、快闪存储器(flash memory)、硬盘(hard disk drive，缩写：hdd)或固态硬盘(solid-state drive，ssd)等；所述存储介质还可以包括上述种类的存储器的组合。
178.虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

豪萨语声纹识别模型的训练方法、识别方法及装置与流程

相关文献

最热文献