一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语音合成方法、模型训练方法、设备及存储介质与流程

2022-04-06 19:10:50 来源:中国专利 TAG:

技术特征:
1.一种语音合成方法,其特征在于,所述方法包括:获取待合成文本,输入到训练好的目标语音合成模型,得到所述待合成文本对应的目标语音,其中,所述训练好的目标语音合成模型通过如下方法得到:根据预训练集对预设的语音合成模型进行预训练,得到语音合成模型,其中,所述预训练集包括多个说话人的语音样本,所述语音合成模型包括时长预测网络;确定目标应用场景对应的目标时长预测网络,并采用所述目标时长预测网络替换所述语音合成模型的时长预测网络,得到目标语音合成模型;获取目标训练集,其中,所述目标训练集包括目标说话人的语音样本;从所述预训练集中获取与所述目标说话人的同类说话人的语音样本,对所述同类说话人的语音样本进行mask加噪处理,得到加噪语音样本;根据所述目标训练集和所述加噪语音样本对所述目标语音合成模型进行训练,得到所述训练好的目标语音合成模型。2.根据权利要求1所述的方法,其特征在于,所述预设的语音合成模型包括序列到序列网络和时长预测网络;所述根据预训练集对预设的语音合成模型进行预训练,得到语音合成模型,包括:根据预训练集对预设的语音合成模型的所述序列到序列网络和时长预测网络进行预训练,保存所述序列到序列网络和时长预测网络的参数,得到语音合成模型。3.根据权利要求2所述的方法,其特征在于,所述多个说话人的语音样本包括所述多个说话人的音频数据的声学特征,以及所述多个说话人的音频数据的文本对应的音素时长;所述根据预训练集对预设的语音合成模型的所述序列到序列网络和时长预测网络进行预训练,包括:将所述预训练集中多个说话人的语音样本输入至预设的语音合成模型中,在所述序列到序列网络的编码端对所述声学特征和所述音素时长进行编码,得到声学特征编码向量和音素时长编码向量;在所述序列到序列网络的解码端增加对噪声的嵌入操作得到噪声嵌入向量;以所述音素时长编码向量作为输入,所述音素时长作为预测目标,训练所述时长预测网络;基于所述声学特征编码向量、所述音素时长编码向量和所述噪声嵌入向量,以所述声学特征作为预测目标,训练所述序列到序列网络网络。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:在训练所述时长预测网络时,计算所述时长预测网络的第一损失函数;在训练所述序列到序列网络时,计算所述序列到序列网络的第二损失函数;根据所述第一损失函数和所述第二损失函数,计算所述预设的语音合成模型的损失函数,直至所述损失函数收敛,得到语音合成模型。5.根据权利要求4所述的方法,其特征在于,所述多个说话人的语音样本包括所述多个说话人的音频数据对应的标签,所述标签包括clean标签和noise标签;所述在训练所述序列到序列网络时,计算所述序列到序列网络的第二损失函数,包括:根据所述声学特征编码向量、所述音素时长编码向量和所述噪声嵌入向量获得融合预测向量;
在所述序列到序列网络的解码端对所述融合预测向量进行自回归解码,以使所述序列到序列网络在所述标签为clean标签时学习预测clean声学特征、所述标签为noise标签时学习预测noise声学特征,计算所述序列到序列网络网络的第二损失函数。6.根据权利要求1-5任一项所述的方法,其特征在于,所述根据所述目标训练集和所述加噪语音样本对所述目标语音合成模型进行训练,得到所述训练好的目标语音合成模型,包括:将所述目标训练集中目标说话人的语音样本和所述加噪语音样本输入至所述目标语音合成模型进行训练,重新定义损失函数,直至所述重新定义的损失函数收敛,得到训练好的目标语音合成模型。7.根据权利要求6所述的方法,其特征在于,所述重新定义损失函数包括:将所述序列到序列网络的第二损失函数重新定义为结构相似性ssim损失函数;根据所述ssim损失函数重新定义所述目标语音合成模型的损失函数。8.根据权利要求1所述的方法,其特征在于,所述根据预训练集对预设的语音合成模型进行预训练,得到语音合成模型之前,包括:从预设语音库中获取多个说话人对应的第一音频数据和所述第一音频数据的文本,以及所述第二音频数据和所述第二音频数据的文本,其中,所述第一音频数据的质量高于所述第二音频数据;根据所述第一音频数据和所述第一音频数据的文本,以及所述第二音频数据和所述第二音频数据的文本,建立预训练集。9.根据权利要求1所述的方法,其特征在于,所述确定目标应用场景对应的目标时长预测网络,并采用所述目标时长预测网络替换所述语音合成模的时长预测网络,得到目标语音合成模型,包括:从预设多种应用场景对应的时长预测网络中选取与所述时长预测网络余弦距离最近的时长预测网络,作为目标应用场景对应的目标时长预测网络;或从预设多种应用场景对应的时长预测网络中匹配目标应用场景对应的时长预测网络,作为目标时长预测网络。10.根据权利要求1所述的方法,其特征在于,所述对所述同类说话人的语音样本进行mask加噪处理,包括:对所述同类说话人的语音样本中的声学特征在时域和频域上进行加噪。11.一种语音合成模型的训练方法,其特征在于,所述方法包括:根据预训练集对预设的语音合成模型进行预训练,得到语音合成模型,其中,所述预训练集包括多个说话人的语音样本,所述语音合成模型包括时长预测网络;确定目标应用场景对应的目标时长预测网络,并采用所述目标时长预测网络替换所述语音合成模型的时长预测网络,得到目标语音合成模型;获取目标训练集,其中,所述目标训练集包括目标说话人的语音样本;从所述预训练集中获取与所述目标说话人的同类说话人的语音样本,对所述同类说话人的语音样本进行mask加噪处理,得到加噪语音样本;根据所述目标训练集和所述加噪语音样本对所述目标语音合成模型进行训练,得到训练好的目标语音合成模型。
12.一种计算机设备,其特征在于,所述计算机设备包括:存储器和处理器;其中,所述存储器与所述处理器连接,用于存储程序;所述处理器用于通过运行所述存储器中存储的程序,实现如权利要求1-10中任一项所述的语音合成方法的步骤,或者实现如权利要求11所述的语音合成模型的训练方法的步骤。13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1-10中任一项所述的语音合成方法的步骤,或者实现如权利要求11所述的语音合成模型的训练方法的步骤。

技术总结
本申请提供一种语音合成方法、模型训练方法、设备及存储介质,该语音合成方法包括:获取待合成文本,输入到训练好的目标语音合成模型,得到待合成文本对应的目标语音;其中,根据预训练集对预设的语音合成模型进行预训练得到语音合成模型;采用目标应用场景对应的目标时长预测网络替换语音合成模型的时长预测网络,得到目标语音合成模型;获取目标训练集,目标训练集包括目标说话人的语音样本;从预训练集中挑选出目标说话人的同类说话人的语音样本进行mask加噪得到加噪语音样本;根据目标训练集和加噪语音样本对目标语音合成模型进行训练,得到训练好的目标语音合成模型。本申请能够合成与特定说话人说话风格更为契合的高质量自然流畅语音。质量自然流畅语音。质量自然流畅语音。


技术研发人员:宋锐 江源
受保护的技术使用者:科大讯飞股份有限公司
技术研发日:2021.12.31
技术公布日:2022/4/5
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献