一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语音转换模型的训练、应用方法、装置、设备及存储介质与流程

2021-09-03 23:13:00 来源:中国专利 TAG:语音 模型 转换 方法 装置

技术特征:
1.一种语音转换模型的训练方法,其特征在于,所述语音转换模型包括:矢量量化编码器和解码器,所述方法包括:获取训练集,所述训练集包含语音和与所述语音对应的说话人标识,所述语音包括第一语音和第二语音,所述第一语音和所述第二语音为同一个说话人的包含不同说话内容的语音;将所述第一语音输入所述矢量量化编码器,得到第一内容向量和第一说话人向量,将所述第二语音输入所述矢量量化编码器,得到第二内容向量和第二说话人向量;根据所述第一说话人向量和所述第二说话人向量确定第一损失值;将所述第一内容向量和所述第二说话人向量输入所述解码器得到预测的语音,并根据所述预测的语音和所述第一语音确定第二损失值;基于所述第一损失值和所述第二损失值迭代优化所述语音转换模型的参数,得到训练好的语音转换模型。2.根据权利要求1所述的训练方法,其特征在于,所述方法包括:将所述语音经过傅里叶变换得到语音的梅尔谱图,其中,所述语音包括:第一语音和第二语音;将所述语音的梅尔谱图输入所述矢量量化编码器,根据得到的矢量量化编码结果确定内容向量;根据所述矢量量化编码结果与所述语音的梅尔谱图的差异确定说话人向量。3.根据权利要求2所述的训练方法,其特征在于,所述将所述第一内容向量和所述第二说话人向量输入所述解码器得到预测的语音包括:将所述第一内容向量和所述第二说话人向量相加得到重构的梅尔谱;将所述重构的梅尔谱输入所述解码器,得到所述预测的语音。4.根据权利要求1所述的训练方法,其特征在于,所述方法还包括:将所述训练集划分为预设大小的批数据,其中,所述批数据由来自预设数量个说话人的第一语音和第二语音组成;将所述批数据输入语音转换模型,得到所述批数据的第一损失值和第二损失值;基于所述批数据的第一损失值和第二损失值迭代优化所述语音转换模型的参数,得到训练好的语音转换模型。5.根据权利要求1所述的训练方法,其特征在于,所述方法还包括:将所述训练集在所述语音转换模型的训练中传递预设数量个时期,对所述语音转换模型的参数进行迭代优化;其中,所述时期为将所述训练集在所述语音转换模型的训练中完整传递并完成一次迭代的过程。6.一种语音转换模型的应用方法,其特征在于,所述语音转换模型是根据权利要求1

5中任一项所述的方法训练得到的,所述应用方法包括:将源说话人的语音输入所述训练好的语音转换模型的矢量量化编码器,得到源内容向量;将目标说话人的语音输入所述训练好的语音转换模型的矢量量化编码器,得到目标说话人向量;将所述源内容向量和所述目标说话人向量输入所述训练好的语音转换模型的解码器,
得到转换后的语音。7.一种语音转换模型的训练装置,其特征在于,所述语音转换模型包括:矢量量化编码器和解码器,所述训练装置包括:训练集获取模块,用于获取训练集,所述训练集包含语音和与所述语音对应的说话人标识,所述语音包括第一语音和第二语音,所述第一语音和所述第二语音为同一个说话人的包含不同说话内容的语音;语音编码模块;用于将所述第一语音输入所述矢量量化编码器,得到第一内容向量和第一说话人向量,将所述第二语音输入所述矢量量化编码器,得到第二内容向量和第二说话人向量;第一损失计算模块,用于根据所述第一说话人向量和所述第二说话人向量确定第一损失值;第二损失计算模块,用于将所述第一内容向量和所述第二说话人向量输入所述解码器得到预测的语音,并根据所述预测的语音和所述第一语音确定第二损失值;模型输出模块,用于基于所述第一损失值和所述第二损失值迭代优化所述语音转换模型的参数,得到训练好的语音转换模型。8.一种语音转换模型的应用装置,其特征在于,所述语音转换模型是根据权利要求1

5中任一项所述的方法训练得到的,所述应用装置包括:源内容向量确定模块,用于将源说话人的语音输入所述训练好的语音转换模型的矢量量化编码器,得到源内容向量;目标说话人向量确定模块,用于将目标说话人的语音输入所述训练好的语音转换模型的矢量量化编码器,得到目标说话人向量;语音转换模块,用于将所述源内容向量和所述目标说话人向量输入所述训练好的语音转换模型的解码器,得到转换后的语音。9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器;所述存储器用于存储计算机程序;所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至5中任一项所述的语音转换模型的训练方法或权利要求6所述的语音转换模型的应用方法。10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1至5中任一项所述的语音转换模型的训练方法或权利要求6所述的语音转换模型的应用方法。

技术总结
本申请涉及语音处理技术,尤其涉及语音转换模型的训练、应用方法、装置、设备及存储介质。基于矢量量化对语音进行编码,通过新的训练目标得到了效果较好的语音转换模型。方法包括:获取包含语音和说话人标识的训练集,语音包括来自同一说话人的第一语音和第二语音。将第一语音输入矢量量化编码器得到第一内容向量和第一说话人向量,将第二语音输入矢量量化编码器得到第二内容向量和第二说话人向量。根据第一说话人向量和第二说话人向量确定第一损失值。将第一内容向量和第二说话人向量输入解码器得到预测的语音,根据预测的语音和第一语音确定第二损失值。基于第一损失值和第二损失值迭代优化语音转换模型的参数,得到训练好的语音转换模型。的语音转换模型。的语音转换模型。


技术研发人员:张旭龙 王健宗
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2021.06.01
技术公布日:2021/9/2
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜