一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语音合成方法以及相关装置、设备与流程

2022-03-22 22:53:14 来源:中国专利 TAG:

技术特征:
1.一种语音合成方法,其特征在于,所述语音合成方法包括:获取到目标对象的音素、音高以及音素时长;以及获取到待合成对象,确定所述待合成对象的梅尔谱,基于所述梅尔谱提取所述待合成对象的音色特征矩阵;通过语音合成模型对所述目标对象的音素、音高以及音素时长进行编码,得到编码数据;通过所述语音合成模型对所述音色特征矩阵以及所述编码数据进行解码,得到所述待合成对象的合成语音。2.根据权利要求1所述的语音合成方法,其特征在于,所述获取到待合成对象,确定所述待合成对象的梅尔谱的步骤包括:获取到所述待合成对象,对所述待合成对象进行分帧加窗以及傅里叶变换,得到所述待合成对象的线性谱;将所述线性谱输入到梅尔滤波器组中进行滤波处理,得到所述梅尔谱。3.根据权利要求1或2所述的语音合成方法,其特征在于,所述基于所述梅尔谱提取所述待合成对象的音色特征矩阵的步骤包括:将所述梅尔谱输入到深度学习网络中,利用所述深度学习网络提取出所述待合成对象的音色特征矩阵。4.根据权利要求1所述的语音合成方法,其特征在于,所述语音合成模型包括相互级联的编码器、注意力网络以及解码器;所述通过语音合成模型对所述目标对象的音素、音高以及音素时长进行编码,得到编码数据的步骤包括:通过所述语音合成模型中的编码器对所述目标对象的音素、音高以及音素时长进行编码,得到编码数据;所述通过所述语音合成模型对所述音色特征矩阵以及所述编码数据进行解码,得到所述待合成对象的合成语音的步骤包括:通过所述语音合成模型中的注意力网络以及解码器依次对所述音色特征矩阵以及所述编码数据进行解码,得到所述合成语音。5.根据权利要求4所述的语音合成方法,其特征在于,所述注意力网络包括基于位置的注意力机制。6.根据权利要求4所述的语音合成方法,其特征在于,所述语音合成模型还包括断句子模型;所述通过所述语音合成模型中的解码器对所述音色特征矩阵以及所述编码数据进行解码,得到所述合成语音的步骤还包括:通过所述语音合成模型中的断句子模型对解码后的数据进行断句,得到所述合成语音。7.根据权利要求4-6任一项所述的语音合成方法,其特征在于,所述获取到目标对象的音素、音高以及音素时长的步骤之前包括:获取到样本音频,并提取出所述样本音频的音素、音高以及音素时长,其中,所述样本音频的音素、音高以及音素时长分别涵盖预设音素范围、预设音高范围以及预设音素时长
范围;将所述样本音频的音素、音高以及音素时长输入到初始模型中的编码器中进行编码,得到样本编码数据;确定所述样本音频的样本梅尔谱,基于所述样本梅尔谱提取所述样本音频的音色特征矩阵;将所述样本音频的音色特征矩阵以及所述样本编码数据依次输入到初始模型中的注意力网络以及解码器进行解码,得到样本合成语音;响应于所述样本合成语音与所述样本音频之间的相似度满足预设要求,则获取到所述语音合成模型。8.根据权利要求1所述的语音合成方法,其特征在于,所述获取到目标对象的音素、音高以及音素时长的步骤包括:获取到目标音频,并从所述目标音频中提取出对应的音素、音高以及音素时长;或获取到目标文本,并基于所述目标文本确定对应的音素、音高以及音素时长。9.一种语音合成装置,其特征在于,所述语音合成装置包括:获取模块,用于获取到目标对象的音素、音高以及音素时长;提取模块,用于获取到待合成对象,确定所述待合成对象的梅尔谱,基于所述梅尔谱提取所述待合成对象的音色特征矩阵;编码模块,用于通过语音合成模型对所述目标对象的音素、音高以及音素时长进行编码,得到编码数据;解码模块,用于通过所述语音合成模型对所述音色特征矩阵以及所述编码数据进行解码,得到所述待合成对象的合成语音。10.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述处理器用于执行所述存储器中存储的程序指令,以实现如权利要求1至8任一项所述的语音合成方法。11.一种计算机可读存储介质,其上存储有程序指令,其特征在于,所述程序指令被处理器执行时实现如权利要求1至8任一项所述的语音合成方法。

技术总结
本申请公开了语音合成方法以及相关装置、设备,其中,语音合成方法包括:获取到目标对象的音素、音高以及音素时长;以及获取到待合成对象,确定待合成对象的梅尔谱,基于梅尔谱提取待合成对象的音色特征矩阵;通过语音合成模型对目标对象的音素、音高以及音素时长进行编码,通过语音合成模型得到编码数据;对音色特征矩阵以及编码数据进行解码,得到待合成对象的合成语音。上述方案,通过基于目标对象的音素、音高以及音素时长对待合成对象进行语音合成,能够在合成语音内基于目标对象的音素、音高以及音素时长并还原待合成对象的音色,从而提高语音合成的精度和效果。提高语音合成的精度和效果。提高语音合成的精度和效果。


技术研发人员:周阳
受保护的技术使用者:广州虎牙科技有限公司
技术研发日:2021.10.29
技术公布日:2022/3/21
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献