一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

模型训练方法、声纹特征的提取方法及其设备、程序产品与流程

2022-02-22 07:16:08 来源:中国专利 TAG:

技术特征:

1.一种模型训练方法,包括:

获取应用在第一场景的第一模型、第一子帧以及目标子帧,所述第一子帧是对应用在第一场景的第一音频进行分帧处理得到的,所述目标子帧是对应用在目标场景的目标音频进行分帧处理得到的;其中,所述第一音频具有标注信息;

提取所述第一子帧的第一频谱特征,并提取所述目标子帧的目标频谱特征;

根据所述第一子帧的第一频谱特征、所述第一音频的标注信息、所述目标子帧的目标频谱特征以及所述目标子帧所属的目标音频,对所述第一模型进行训练,得到目标模型。

2.根据权利要求1所述的方法,其中,根据所述第一子帧的第一频谱特征、所述第一音频的标注信息、所述目标子帧的目标频谱特征以及所述目标子帧所属的目标音频,对所述第一模型进行训练,得到目标模型,包括:

重复执行下述步骤,直到满足预设的停止训练条件:

将所述第一频谱特征以及所述目标频谱特征输入所述第一模型,得到与所述第一频谱特征对应的识别结果,以及与所述目标子帧对应的目标特征向量;

利用所述第一频谱特征的识别结果以及所述第一音频的标注信息、所述目标子帧的目标特征向量以及所述目标子帧所属的目标音频确定损失函数的值,并利用所述损失函数的值优化所述第一模型,得到优化后的第一模型;

其中,满足所述预设的停止训练条件时得到的优化后的第一模型为目标模型。

3.根据权利要求2所述的方法,其中,所述利用所述第一频谱特征的识别结果以及所述第一音频的标注信息、所述目标子帧的目标特征向量以及所述目标子帧所属的目标音频确定损失函数的值,包括:

根据所述第一频谱特征的识别结果以及所述第一音频的标注信息确定第一损失函数的值;

根据各个所述目标子帧的目标特征向量以及各个所述目标子帧所属的目标音频,确定第二损失函数的值;所述第二损失函数的值用于表征多个目标子帧的目标特征向量之间的比对信息;

根据所述第一损失函数的值、所述第二损失函数的值确定所述损失函数的值。

4.根据权利要求3所述的方法,其中,所述根据各个所述目标子帧的目标特征向量以及各个所述目标子帧所属的目标音频,确定第二损失函数的值,包括:

根据属于相同的目标音频的目标子帧的目标特征向量,确定第一比对信息;

根据属于不同的目标音频的目标子帧的目标特征向量,确定第二比对信息;

根据所述第一比对信息、所述第二比对信息,确定所述第二损失函数的值。

5.根据权利要求3或4所述的方法,其中,所述根据所述第一损失函数的值、所述第二损失函数的值确定所述损失函数的值,包括:

将所述第一损失函数的值与加权后的第二损失函数的值之间的差,确定为所述损失函数的值。

6.根据权利要求1-5任一项所述的方法,其中,所述提取所述第一子帧的第一频谱特征,包括:

针对任一第一子帧,确定该第一子帧的初始频谱特征;

获取该第一子帧的关联第一子帧,该第一子帧的关联第一子帧包括:位于该第一子帧之前的第一预设数量的第一子帧,和/或,位于该第一子帧之后的第二预设数量的第一子帧;

根据该第一子帧的关联第一子帧的初始频谱特征,确定该第一子帧的特征均值;

确定该第一子帧的初始频谱特征与该第一子帧的特征均值的差值,为该第一子帧的第一频谱特征。

7.根据权利要求1所述的方法,其中,所述提取所述目标子帧的目标频谱特征,包括:

针对任一目标子帧,

确定该目标子帧的初始频谱特征;

获取该目标子帧的关联目标子帧,该目标子帧的关联目标子帧包括:位于该目标子帧之前的第三预设数量的目标子帧,和/或,位于该目标子帧之后的第四预设数量的目标子帧;

根据该目标子帧的关联目标子帧的初始频谱特征,确定该目标子帧的特征均值;

确定该目标子帧的初始频谱特征与该目标子帧的特征均值的差值,为该目标子帧的目标频谱特征。

8.根据权利要求1-7任一项所述的方法,所述获取应用在第一场景的第一模型,包括:

利用所述第一子帧的第一频谱特征以及所述第一音频的标注信息训练预设模型,得到所述第一模型。

9.一种声纹特征的提取方法,包括:

获取待识别的音频数据,提取所述音频数据的频谱特征;

将所述频谱特征输入目标模型,得到所述音频数据的声纹特征;所述目标模型为通过权利要求1-8任一项所述的方法训练得到的。

10.一种模型训练装置,包括:

训练数据获取单元,用于获取应用在第一场景的第一模型、第一子帧以及目标子帧,所述第一子帧是对应用在第一场景的第一音频进行分帧处理得到的,所述目标子帧是对应用在目标场景的目标音频进行分帧处理得到的;其中,所述第一音频具有标注信息;

频谱特征提取单元,用于提取所述第一子帧的第一频谱特征,并提取所述目标子帧的目标频谱特征;

训练单元,用于根据所述第一子帧的第一频谱特征、所述第一音频的标注信息、所述目标子帧的目标频谱特征、以及所述目标子帧所属的目标音频对所述第一模型进行训练,得到目标模型。

11.根据权利要求10所述的装置,其中,所述训练单元,包括识别模块、训练模块:

所述识别模块、所述训练模块重复执行下述步骤,直到满足预设的停止训练条件:

所述识别模块将所述第一频谱特征以及所述目标频谱特征输入所述第一模型,得到与所述第一频谱特征对应的识别结果,以及与所述目标子帧对应的目标特征向量;

所述训练模块利用所述第一频谱特征的识别结果以及所述第一音频的标注信息、所述目标子帧的目标特征向量以及所述目标子帧所属的目标音频确定损失函数的值,并利用所述损失函数的值优化所述第一模型,得到优化后的第一模型;

其中,满足所述预设的停止训练条件时得到的优化后的第一模型为目标模型。

12.根据权利要求11所述的装置,其中,所述训练模块还用于:

根据所述第一频谱特征的识别结果以及所述第一频谱特征的标注信息确定第一损失函数的值;

根据各个所述目标子帧的目标特征向量以及各个所述目标子帧所属的目标音频,确定第二损失函数的值;所述第二损失函数的值用于表征多个目标子帧的目标特征向量之间的比对信息;

根据所述第一损失函数的值、所述第二损失函数的值确定所述损失函数的值。

13.根据权利要求12所述的装置,其中,所述训练模块还用于:

根据属于相同的目标音频的目标子帧的目标特征向量,确定第一比对信息;

根据属于不同的目标音频的目标子帧的目标特征向量,确定第二比对信息;

根据所述第一比对信息、所述第二比对信息,确定所述第二损失函数的值。

14.根据权利要求12或13所述的装置,其中,所述训练模块还用于:

将所述第一损失函数的值与加权后的第二损失函数的值之间的差,确定为所述损失函数的值。

15.根据权利要求10-14任一项所述的装置,其中,所述频谱特征提取单元包括第一特征提取模块,用于:

针对任一第一子帧,确定该第一子帧的初始频谱特征;

获取该第一子帧的关联第一子帧,该第一子帧的关联第一子帧包括:位于所述第一子帧之前的第一预设数量的第一子帧,和/或,位于所述第一子帧之后的第二预设数量的第一子帧;

根据该第一子帧的关联第一子帧的初始频谱特征,确定该第一子帧的特征均值;

确定该第一子帧的初始频谱特征与该第一子帧的特征均值的差值,为该第一子帧的第一频谱特征。

16.根据权利要求10-14任一项所述的装置,其中,所述频谱特征提取单元包括目标特征提取模块,用于:

针对任一目标子帧,确定该目标子帧的初始频谱特征;

获取该目标子帧的关联目标子帧,该目标子帧的关联目标子帧包括:位于该目标子帧之前的第三预设数量的目标子帧,和/或,位于该目标子帧之后的第四预设数量的目标子帧;

根据该述目标子帧的关联目标子帧的初始频谱特征,确定该目标子帧的特征均值;

确定该目标子帧的初始频谱特征与该目标子帧的特征均值的差值,为该目标子帧的目标频谱特征。

17.根据权利要求10-16任一项所述的装置,所述训练数据获取单元还用于:

利用所述第一子帧的第一频谱特征以及所述第一音频的标注信息训练预设模型,得到所述第一模型。

18.一种声纹特征的提取装置,包括:

音频数据获取单元,用于获取待识别的音频数据,提取所述音频数据的频谱特征;

声纹特征提取单元,用于将所述频谱特征输入预设的目标模型,得到所述音频数据的声纹特征;所述目标模型为通过权利要求10-17任一项所述的装置训练得到的。

19.一种电子设备,包括:

至少一个处理器;以及

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法。

21.一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现权利要求1-9中任一项所述方法的步骤。


技术总结
本公开提供的模型训练方法、声纹特征的提取方法及其设备、程序产品中,涉及一种模型训练方法、声纹特征的提取方法及其设备、程序产品。技术方案包括:获取应用在第一场景的第一模型、第一子帧以及目标子帧其中,第一音频具有标注信息;提取第一子帧的第一频谱特征,并提取目标子帧的目标频谱特征;根据第一子帧的第一频谱特征、第一音频的标注信息、目标子帧的目标频谱特征以及目标子帧所属的目标音频,对第一模型进行训练,得到目标模型。这种实施方式中将子帧所属的目标音频的信息作为子帧的标注信息,从而能够利用具有标注信息的第一音频和目标音频对第一模型进行训练,得到可以识别目标场景中音频的声纹特征的目标模型。

技术研发人员:赵情恩;
受保护的技术使用者:北京百度网讯科技有限公司;
技术研发日:2021.11.02
技术公布日:2022.02.01
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献