一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于人工智能的语音合成方法、装置、计算机设备及介质与流程

2022-09-07 17:07:24 来源:中国专利 TAG:

技术特征:
1.一种语音合成方法,其特征在于,所述语音合成方法包括:获取目标用户的参考语音频谱和目标语音音素,基于训练好的语音合成模型对所述参考语音频谱和所述目标语音音素进行处理,所述语音合成模型包括训练好的频谱编码器、训练好的音素编码器、训练好的识别编码器、训练好的用户表征预测器以及训练好的频谱解码器;所述处理包括:将所述参考语音频谱输入至所述训练好的频谱编码器,得到参考音色内容特征,将所述目标语音音素输入至所述训练好的音素编码器,得到目标内容特征;将所述参考音色内容特征和所述目标内容特征输入至所述训练好的识别编码器,得到目标音色内容特征;对所述目标音色内容特征进行采样,将采样结果输入至所述训练好的用户表征预测器,得到用户身份内容特征;将所述目标音色内容特征和所述用户身份内容特征进行特征融合,将得到的融合特征输入至所述训练好的频谱解码器,得到目标用户的语音合成结果。2.根据权利要求1所述的语音合成方法,其特征在于,在所述语音合成模型训练时,在所述语音合成模型中添加临时嵌入层和预训练好的临时编码器,以样本用户的样本语音频谱、样本语音音素和样本用户编号作为训练样本,以真实样本频谱作为训练标签;所述语音合成模型的训练过程包括:将所述样本语音频谱输入至所述频谱编码器进行特征提取,得到样本频谱特征;将所述样本语音音素输入至所述音素编码器进行特征提取,得到样本音素特征;将所述样本用户编号输入至所述临时嵌入层进行特征提取,得到样本嵌入向量;将所述样本频谱特征和所述样本音素特征进行特征融合,将得到的第一融合特征输入所述识别编码器,得到样本音色内容特征;将所述样本嵌入向量和所述样本音素特征进行特征融合,将得到的第二融合特征输入至所述预训练好的临时编码器,得到样本身份内容特征;对所述样本音色内容特征进行高斯采样,将采样结果输入至所述用户表征预测器,得到样本预测编号;将所述采样结果与所述样本用户编号相乘,得到融合样本频谱特征;将所述融合样本频谱特征输入至所述频谱解码器,得到预测语音频谱。3.根据权利要求2所述的语音合成方法,其特征在于,所述语音合成模型训练过程还包括:根据所述样本音色内容特征、所述样本身份内容特征、所述样本预测编号、所述样本用户编号、所述预测语音频谱和所述真实样本频谱计算损失函数,以所述损失函数为依据,通过梯度下降法更新所述频谱编码器、所述音素编码器、所述识别编码器、所述用户表征预测器和所述频谱解码器的参数。4.根据权利要求3所述的语音合成方法,其特征在于,所述损失函数包括:相对熵,所述相对熵根据所述样本音色内容特征和所述样本身份内容特征计算得到,以所述相对熵为依据,通过梯度下降法更新所述频谱编码器、所述音素编码器和所述识别编码器的参数,直至所述相对熵收敛,得到预训练好的频谱编码器、预训练好的音素编码器和预训练好的识别编码器。
5.根据权利要求4所述的语音合成方法,其特征在于,所述损失函数还包括:第一均方差损失,所述第一均方差损失根据所述预测编号和所述样本用户编号计算得到,以所述第一均方差损失为依据,通过梯度下降法更新所述用户表征预测器的参数,直至所述第一均方差损失收敛,得到预训练好的用户表征预测器。6.根据权利要求5所述的语音合成方法,其特征在于,所述损失函数还包括:第二均方差损失,所述第二均方差损失根据所述预测语音频谱和所述真实样本频谱计算得到,以所述第二均方差损失为依据,通过梯度下降法更新所述频谱解码器的参数,直至所述第二均方差损失收敛,得到预训练好的频谱解码器。7.一种语音合成装置,其特征在于,所述语音合成装置包括:数据获取模块:用于获取目标用户的参考语音频谱和目标语音音素;频谱编码器,用于输入所述参考语音频谱,输出参考音色内容特征;音素编码器,用于输入所述目标语音音素,输出目标内容特征;识别编码器,用于输入所述参考音色内容特征和所述目标内容特征,输出目标音色内容特征;用户表征预测器,用于对所述目标音色内容特征进行采样,根据得到的采样结果输出用户身份内容特征;频谱解码器:用于将所述目标音色内容特征和所述用户身份内容特征进行特征融合,根据得到的融合特征输出目标用户的语音合成结果。8.根据权利要求7所述的语音合成装置,其特征在于,所述语音合成装置还包括:临时嵌入层,用于在进行模型训练时,输入样本用户编号,输出样本嵌入向量;临时编码器,用于在进行模型训练时,将所述样本嵌入向量和所述音素编码器提取的样本音素特征进行特征融合,根据得到的融合特征输出样本身份内容特征。9.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的语音合成方法。10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的语音合成方法。

技术总结
本发明适用于语音合成技术领域,尤其涉及基于人工智能的语音合成方法、装置、计算机设备及介质。本发明通过将参考语音频谱输入至频谱编码器,得到参考音色内容特征,将目标语音音素输入至音素编码器,得到目标内容特征,将参考音色内容特征和目标内容特征输入至识别编码器,得到目标音色内容特征后进行采样,将采样结果输入至用户表征预测器,得到用户身份内容特征后和目标音色内容特征进行特征融合,将融合特征输入至频谱解码器,得到目标用户的语音合成结果,通过一一对应的目标音色内容特征和用户身份内容特征融合得到的融合特征,来表征目标用户音色和目标内容,降低了合成语音的音色与用户本身音色的差异,优化了语音合成效果。效果。效果。


技术研发人员:张旭龙 王健宗 程宁
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2022.07.12
技术公布日:2022/9/6
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献