一种语音合成方法、装置、电子设备及存储介质与流程

2023-01-05 17:38:12 来源：中国专利 TAG：

技术特征：
1.一种语音合成方法，其特征在于，所述方法包括：获取待合成文本，并输入已训练的语音合成模型；其中，所述语音合成模型的训练数据为多组，每组所述训练数据包括文本样本以及相应的语音样本，多组所述训练数据携带至少一种情感信息；所述待合成文本与其中一组训练数据中的目标文本样本对应；获取所述语音合成模型输出的携带目标情感信息的合成语音；所述目标情感信息为所述目标文本样本相应的目标语音样本所携带的情感信息。2.根据权利要求1所述的方法，其特征在于，所述语音合成模型的训练过程包括：获取多组所述训练数据；其中，所述文本样本携带有韵律标注；提取所述语音样本的语音特征以及韵律特征；所述韵律特征用于表征所述语音样本的情感信息；利用所述语音特征、所述韵律特征以及所述文本样本对语音合成模型进行有监督训练，得到已训练的语音合成模型。3.根据权利要求2所述的方法，其特征在于，所述语音合成模型的训练次数大于预设阈值，以使所述语音合成模型过拟合。4.根据权利要求1所述的方法，其特征在于，所述方法应用于人机语音场景；多组所述训练数据的文本样本包括预设的对话内容；所述待合成文本包括所述预设的对话内容以及自定义内容。5.一种语音合成装置，其特征在于，所述装置包括：输入模块，用于获取待合成文本，并输入已训练的语音合成模型；其中，所述语音合成模型的训练数据为多组，每组所述训练数据包括文本样本以及相应的语音样本，多组所述训练数据携带至少一种情感信息；所述待合成文本与其中一组训练数据中的目标文本样本对应；输出模块，用于获取所述语音合成模型输出的携带目标情感信息的合成语音；所述目标情感信息为所述目标文本样本相应的目标语音样本所携带的情感信息。6.根据权利要求5所述的装置，其特征在于，所述装置还包括训练模块，用于：获取多组所述训练数据；其中，所述文本样本携带有韵律标注；提取所述语音样本的语音特征以及韵律特征；所述韵律特征用于表征所述语音样本的情感信息；利用所述语音特征、所述韵律特征以及所述文本样本对语音合成模型进行有监督训练，得到已训练的语音合成模型。7.根据权利要求6所述的装置，其特征在于，所述语音合成模型的训练次数大于预设阈值，以使所述语音合成模型过拟合。8.根据权利要求5所述的装置，其特征在于，所述装置应用于人机语音场景；多组所述训练数据的文本样本包括预设的对话内容；所述待合成文本包括所述预设的对话内容以及自定义内容。9.一种电子设备，其特征在于，所述电子设备包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器调用所述可执行指令时实现权利要求1-4任一所述方法的操作。
10.一种计算机可读存储介质，其特征在于，其上存储有计算机指令，其特征在于，所述计算机指令被处理器执行时实现权利要求1-4任一所述方法的步骤。

技术总结
本申请提供一种语音合成方法、装置、电子设备及存储介质，所述方法包括：获取待合成文本，并输入已训练的语音合成模型；其中，语音合成模型的训练数据为多组，每组训练数据包括文本样本以及相应的语音样本，多组训练数据携带至少一种情感信息；待合成文本与其中一组训练数据中的目标文本样本对应；获取语音合成模型输出的携带目标情感信息的合成语音；目标情感信息为目标文本样本相应的目标语音样本所携带的情感信息。如此，针对上述待合成文本可以合成出携带有目标情感信息的合成语音，且目标感情信息与目标文本样本相应的语音样本所携带的情感信息一致，使得合成语音具有情感表现力，提高了合成语音的质量与用户体验。提高了合成语音的质量与用户体验。提高了合成语音的质量与用户体验。

技术研发人员：汤志淼陈新月宋成业
受保护的技术使用者：零犀（北京）科技有限公司
技术研发日：2022.11.29
技术公布日：2022/12/30

再多了解一些

2/2 首页上一页 1 2

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种语音合成用声学模型训练方法与流程

一种语音合成方法、装置、电子设备及存储介质与流程

相关文献

最热文献