一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语音合成方法及相关装置和电子设备、存储介质与流程

2021-12-14 21:55:00 来源:中国专利 TAG:

技术特征:
1.一种语音合成方法,其特征在于,包括:获取待合成文本的待合成音素;利用语音合成模型对所述待合成音素进行合成处理,得到合成音频;其中,所述语音合成模型是利用发言对象的样本数据训练预设语音网络而得到的,所述样本数据是利用所述发言对象的第一音频提取得到的,所述样本数据包括所述第一音频的样本音素序列以及所述第一音频的样本音频频谱和融合音频频谱,且所述样本音素序列包含若干样本音素,所述样本音频频谱包含若干样本音频帧,所述样本融合频谱是分别融合各个所述样本音素对应的所述样本音频帧而得到的。2.根据权利要求1所述的方法,其特征在于,所述预设语音网络的训练步骤包括:对所述样本音素序列进行编码,得到样本音素表示;对所述样本音素表示进行解码,得到预测融合频谱,并对所述样本融合频谱进行解码,得到预测音频频谱;基于所述样本音频频谱与所述预测音频频谱之间的差异,以及所述样本融合频谱与所述预测融合频谱之间的差异,优化所述预设语音网络。3.根据权利要求2所述的方法,其特征在于,所述预设语音网络包括音素编码子网络、第一解码子网络和第二解码子网络;其中,所述音素编码子网络用于对所述样本音素序列进行编码,得到所述样本音素表示,所述第一解码子网络用于对所述样本音素表示进行解码,得到所述预测融合频谱,所述第二解码子网络用于对所述样本融合频谱进行解码,得到所述预测音频频谱。4.根据权利要求2所述的方法,其特征在于,所述语音合成模型是对所述预设语音网络进行若干轮训练得到的;所述对所述样本融合频谱进行解码,得到预测音频频谱,包括:基于当前训练轮次,确定所述样本融合频谱的选择概率;其中,所述当前训练轮次与所述选择概率负相关;基于所述选择概率,得到所述当前训练轮次的样本解码频谱;其中,所述样本解码频谱是在所述样本融合频谱、所述预测融合频谱中选择的;对所述样本解码频谱进行解码,得到所述预测音频频谱。5.根据权利要求4所述的方法,其特征在于,在所述样本解码频谱为所述预测融合频谱的情况下;在所述对所述样本解码频谱进行解码,得到所述预测音频频谱之前,所述方法还包括:对所述预测融合频谱进行降噪优化,得到预测优化频谱;所述对所述样本解码频谱进行解码,得到所述预测音频频谱,包括:对所述预测优化频谱进行解码,得到所述预测音频频谱。6.根据权利要求5所述的方法,其特征在于,所述预设语音网络还包括频谱优化子网络,所述频谱优化子网络用于对所述预测融合频谱进行降噪优化;和/或,所述预设语音网络的训练步骤还包括:基于所述样本音频频谱与所述预测音频频谱之间的差异,得到第一损失值,并基于所述样本融合频谱与所述预测融合频谱之间的差异,得到第二损失值,以及基于所述预测优化频谱与所述样本融合频谱之间的差异,得到第三损失值;基于所述第一损失值、所述第二损失值和所述第三损失值,优化所述预设语音网络。
7.根据权利要求1所述的方法,其特征在于,所述第一音频包含多个语种;所述发言对象的第一音频的获取步骤包括:获取若干参考对象的第二音频;其中,所述第二音频包含一个语种;将所述第二音频的音色转换为所述发言对象的音色,得到第三音频;基于所述第三音频,按照预设策略获取所述发言对象的候选音频;将所述发言对象的候选音频进行拼接,得到所述第一音频。8.根据权利要求7所述的方法,其特征在于,所述基于所述第三音频,按照预设策略获取所述发言对象的候选音频,包括:获取音频数据集合;其中,所述音频数据集合包括所述第三音频和所述发言对象的第四音频,且所述第四音频包含一个语种;按照所述预设策略,在所述音频数据集合内选择得到所述候选音频。9.根据权利要求7或8所述的方法,其特征在于,所述预设策略包括以下至少一者:相邻所述候选音频所包含的语种不同,所述发言对象的候选音频的总时长与预设时长之间的差值在预设范围之内。10.根据权利要求1所述的方法,其特征在于,所述样本融合频谱的获取步骤包括:识别所述若干样本音素的持续时长;对于每一所述样本音素,融合所述持续时长内的所述样本音频帧,得到所述样本音素的样本融合帧;基于所述若干样本音素的样本融合帧,得到所述样本融合频谱。11.根据权利要求10所述的方法,其特征在于,所述持续时长是利用隐马尔可夫模型识别得到的;和/或,所述融合所述持续时长内的所述样本音频帧,得到所述样本音素的样本融合帧,包括:对所述持续时长内的所述样本音频帧取均值,得到所述样本融合帧。12.一种语音合成装置,其特征在于,包括:音素获取模块,用于获取待合成文本的待合成音素;合成处理模块,用于利用语音合成模型对所述待合成音素进行合成处理,得到合成音频;其中,所述语音合成模型是利用发言对象的样本数据训练预设语音网络而得到的,所述样本数据是利用所述发言对象的第一音频提取得到的,所述样本数据包括所述第一音频的样本音素序列以及所述第一音频的样本音频频谱和融合音频频谱,且所述样本音素序列包含若干样本音素,所述样本音频频谱包含若干样本音频帧,所述样本融合频谱是分别融合各个所述样本音素对应的所述样本音频帧而得到的。13.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述存储器中存储有程序指令,所述处理器用于执行所述程序指令以实现权利要求1至11任一项所述的语音合成方法。14.一种计算机可读存储介质,其特征在于,存储有能够被处理器运行的程序指令,所述程序指令用于实现权利要求1至11任一项所述的语音合成方法。

技术总结
本申请公开了一种语音合成方法及相关装置和电子设备、存储介质,其中,语音合成方法包括:获取待合成文本的待合成音素;利用语音合成模型对待合成音素进行合成处理,得到合成音频;其中,语音合成模型是利用发言对象的样本数据训练预设语音网络而得到的,样本数据是利用发言对象的第一音频提取得到的,样本数据包括第一音频的样本音素序列以及第一音频的样本音频频谱和融合音频频谱,且样本音素序列包括若干样本音素,样本音频频谱包含若干样本音频帧,样本融合频谱是分别融合各个样本音素对应的样本音频帧而得到的。上述方案,能够提高语音合成质量。语音合成质量。语音合成质量。


技术研发人员:宋飞豹 江源 宋锐 侯秋侠
受保护的技术使用者:科大讯飞股份有限公司
技术研发日:2021.07.07
技术公布日:2021/12/13
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献