技术特征:
1.一种少语料的语音模型训练及合成方法,包括模型训练及语音合成;
其特征在于,所述模型训练包括如下步骤:
s1.收集训练样本集,所述训练样本集包括多个音色的样本,每一样本包括文本及对应的音频文件,其中至少1个音色的样本数据符合基准音色标准,所述基准音色标准为预设的标准;
s2.对各个样本的文本进行音素化处理,得到音素化文本;对各个样本的音频文件采用相同方法提取梅尔特征;在符合基准音色标准的样本中选择一个作为基准音色样本;
s3.对语音模型进行训练,得到泛化模型;训练方法为:所有样本的音素化文本作为输入,对应音频的梅尔特征作为输出,训练语音模型;
s4.将基准音色样本在泛化模型基础上做微调训练,得到基准模型;
s5.将训练样本集的所有样本按音色分类,训练音色转化的转换模型,每一类音色对应一个转换模型;
s6.使用训练样本集的所有样本训练泛化声码器模型,然后使用每个音色对应的样本分别在此泛化声码器模型上进行微调训练,得到每个音色对应的个性声码器模型。
2.根据权利要求1所述的少语料的语音模型训练及合成方法,其特征在于:所述步骤s3中的语音模型为tacotron、fastspeech模型中任意一种。
3.根据权利要求1所述的少语料的语音模型训练及合成方法,其特征在于:所述步骤s5中训练使用的转换模型为stargan-vc模型。
4.根据权利要求1所述的少语料的语音模型训练及合成方法,其特征在于:所述基准音色标准为样本的音频数据时间长度大于10小时。
5.根据权利要求1所述的少语料的语音模型训练及合成方法,其特征在于,样本的音频文件时间长度大于10分钟。
6.根据权利要求1所述的少语料的语音模型训练及合成方法,其特征在于,训练样本集中各个样本的文本完全不同。
7.根据权利要求1所述的少语料的语音模型训练及合成方法,其特征在于,所述语音合成包括如下步骤:
s7.将待合成文本进行预处理得到音素化文本,并输入基准模型,得到待合成文本基准音色的梅尔特征;
s8.将步骤s7得到的梅尔特征送入目标音色对应的转换模型转化,得到目标音色的梅尔特征;
s9.将步骤s7中目标音色的梅尔特征送入对应音色的个性声码器模型,从而合成出指定音色的声音。
技术总结
一种少语料的语音模型训练及合成方法,包括模型训练及语音合成;所述模型训练包括如下步骤:S1.收集训练样本集;S2.对各个样本进行音素化处理,提取梅尔特征;S3.对语音模型进行训练,得到泛化模型MA;S4.将基准音色样本在泛化模型MA基础上做微调训练,得到基准模型MB;S5.将训练样本集的所有样本按音色分类,训练音色转化的转换模型MTR;S6.使用训练样本集的所有样本训练得到每个音色对应的个性声码器模型MG。本发明仅需要基准音色较大数据量,即可实现对其他音色的少语料训练并得到合成音频所需模型,模型训练时间缩短,通过转换模型和个性声码器模型训练,提升了后续语音合成效果。
技术研发人员:曹艳艳;陈佩云
受保护的技术使用者:成都启英泰伦科技有限公司
技术研发日:2021.05.22
技术公布日:2021.06.18
本文用于企业家、创业者技术爱好者查询,结果仅供参考。