一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

豪萨语声纹识别模型的训练方法、识别方法及装置与流程

2022-07-02 00:46:51 来源:中国专利 TAG:

技术特征:
1.一种豪萨语声纹识别模型的训练方法,其特征在于,包括:获取英语音频样本的第一频域特征及第一声纹特征,以及豪萨语音频样本的第二频域特征及第二声纹特征;基于所述第一频域特征以及所述第一声纹特征对豪萨语声纹识别模型进行训练,确定所述豪萨语声纹识别模型的初始参数,得到初始豪萨语声纹识别模型;基于所述第二频域特征以及所述第二声纹特征对所述初始豪萨语声纹识别模型进行训练,调整所述初始豪萨语声纹识别模型的初始参数,确定目标豪萨语声纹识别模型,所述目标豪萨语声纹识别模型的输出为说话人的声纹特征。2.根据权利要求1所述的训练方法,其特征在于,所述基于所述第一频域特征以及所述第一声纹特征对豪萨语声纹识别模型进行训练,确定所述豪萨语声纹识别模型的初始参数,得到初始豪萨语声纹识别模型,包括:将所述第一频域特征输入所述豪萨语声纹识别模型中,得到第一预测声纹特征;基于所述第一声纹特征以及所述第一预测声纹特征的误差,对所述豪萨语声纹识别模型的参数进行调整,确定所述初始豪萨语声纹识别模型。3.根据权利要求2所述的训练方法,其特征在于,所述将所述第一频域特征输入所述豪萨语声纹识别模型中,得到第一预测声纹特征,包括:利用所述豪萨语声纹识别模型中的第一网络模型对所述第一频域特征进行处理,得到帧级别的说话人信息;利用所述豪萨语声纹识别模型中的第二网络模型对所述帧级别的说话人信息进行聚类,得到句子级别的说话人信息,确定所述第一预测声纹特征。4.根据权利要求2所述的训练方法,其特征在于,所述基于所述第一声纹特征以及所述第一预测声纹特征的误差,对所述豪萨语声纹识别模型的参数进行调整,确定所述初始豪萨语声纹识别模型的初始参数,包括:利用所述第一声纹特征以及所述第一预测声纹特征进行损失函数的计算;基于所述损失函数的计算结果,对所述豪萨语声纹识别模型的参数进行调整,确定所述初始豪萨语声纹识别模型的初始参数。5.根据权利要求1所述的训练方法,其特征在于,所述基于所述豪萨语音频样本以及所述第二声纹特征对所述初始豪萨语声纹识别模型进行训练,调整所述初始豪萨语声纹识别模型的初始参数,确定目标豪萨语声纹识别模型,包括:将所述第二频域特征输入所述初始豪萨语声纹识别模型中,得到第二预测声纹特征;基于所述第二声纹特征以及所述第二预测声纹特征的误差,对所述初始豪萨语声纹识别模型的初始参数进行调整,确定所述目标豪萨语声纹识别模型。6.根据权利要求1所述的训练方法,其特征在于,所述获取英语音频样本的第一频域特征,以及,所述获取豪萨语音频样本的第二频域特征,包括:将所述英语音频样本以及所述豪萨语音频样本分别划分为静音段与非静音段;分别对非静音段的所述英语音频样本以及非静音段的所述豪萨语音频样本进行傅里叶变换处理,以得到所述第一频域特征以及所述第二频域特征。7.根据权利要求1-6中任一项所述的训练方法,其特征在于,还包括:获取内类数据以及内间数据,所述内类数据为同一说话人的音频数据,所述内间数据
为不同说话人的音频数据;提取所述内类数据以及所述内间数据的频域特征;将提取出的频域特征输入所述目标豪萨语声纹识别模型中,确定各个所述内类数据对应的声纹特征,以及各个所述内间数据对应的声纹特征;基于各个所述内类数据对应的声纹特征的相似度,以及各个所述内间数据对应的声纹特征的相似度,确定声纹识别阈值。8.一种豪萨语声纹识别方法,其特征在于,包括:获取待识别音频;提取所述待识别音频的频域特征;将提取出的频域特征输入目标豪萨语声纹识别模型中,得到目标声纹特征,所述目标豪萨语声纹识别模型是根据权利要求1-7中任一项所述的豪萨语声纹识别模型的训练方法训练得到的;基于所述目标声纹特征、声纹特征库中的待匹配声纹特征以及声纹识别阈值,确定所述待识别音频对应的说话人。9.一种豪萨语声纹识别模型的训练装置,其特征在于,包括:第一获取模块,用于获取英语音频样本的第一频域特征及第一声纹特征,以及豪萨语音频样本的第二频域特征及第二声纹特征;第一提取模块,用于提取所述英语音频样本的第一频域特征以及所述豪萨语音频样本的第二频域特征;第一训练模块,用于基于所述第一频域特征以及所述第一声纹特征对豪萨语声纹识别模型进行训练,确定所述豪萨语声纹识别模型的初始参数,得到初始豪萨语声纹识别模型;第二训练模块,用于基于所述第二频域特征以及所述第二声纹特征对所述初始豪萨语声纹识别模型进行训练,调整所述初始豪萨语声纹识别模型的初始参数,确定目标豪萨语声纹识别模型,所述目标豪萨语声纹识别模型的输出为说话人的声纹特征。10.一种豪萨语声纹识别装置,其特征在于,包括:第二获取模块,用于获取待识别音频;第二提取模块,用于提取所述待识别音频的频域特征;识别模块,用于将提取出的频域特征输入目标豪萨语声纹识别模型中,得到目标声纹特征,所述目标豪萨语声纹识别模型是根据权利要求1-7中任一项所述的豪萨语声纹识别模型的训练方法训练得到的;确定模块,用于基于所述目标声纹特征、声纹特征库中的待匹配声纹特征以及声纹识别阈值,确定所述待识别音频对应的说话人。11.一种电子设备,其特征在于,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1-7中任一项所述的豪萨语声纹识别模型的训练方法,或权利要求8所述的豪萨语声纹识别方法。12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行权利要求1-7中任一项所述的豪萨语声纹识别模型的训练方法,或权利要求8所述的豪萨语声纹识别方法。

技术总结
本发明声纹识别技术领域,具体涉及豪萨语声纹识别模型的训练方法、识别方法及装置,所述训练方法包括获取英语音频样本的第一频域特征及第一声纹特征,以及豪萨语音频样本的第二频域特征及第二声纹特征;基于所述第一频域特征以及所述第一声纹特征对豪萨语声纹识别模型进行训练,确定所述豪萨语声纹识别模型的初始参数,得到初始豪萨语声纹识别模型;基于所述第二频域特征以及所述第二声纹特征对所述初始豪萨语声纹识别模型进行训练,调整所述初始豪萨语声纹识别模型的初始参数,确定目标豪萨语声纹识别模型。通过迁移学习的方法既能够避免豪萨语音频样本不足的问题,又保证训练得到的豪萨语声纹识别模型的准确性。得到的豪萨语声纹识别模型的准确性。得到的豪萨语声纹识别模型的准确性。


技术研发人员:李威勇 龚科
受保护的技术使用者:暗物智能科技(广州)有限公司
技术研发日:2020.12.25
技术公布日:2022/6/30
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献