一种语音合成方法、装置和用于语音合成的装置与流程

2021-09-17 23:28:00 来源：中国专利 TAG：装置语音合成语音用于方法

技术特征：
1.一种语音合成方法，其特征在于，所述方法包括：获取音频训练数据，所述音频训练数据包括不同音色特征以及不同情感特征的音频数据；根据所述音频训练数据训练语音合成模型，所述语音合成模型包括不同音色特征的音频训练数据训练得到的音色模型参数，以及不同情感特征的音频训练数据训练得到的韵律模型参数；将待合成的文本数据、至少一个说话人标识、以及情感标识输入所述语音合成模型，通过所述语音合成模型输出语音合成数据，所述语音合成数据包含所述说话人标识对应的音色特征以及所述情感标识对应的情感特征。2.根据权利要求1所述的方法，其特征在于，所述根据所述音频训练数据训练语音合成模型，包括：从所述音频训练数据中提取韵律特征；将提取的韵律特征输入解码器，训练语音合成模型，所述语音合成模型包括编码器参数、韵律提取参数、音色模型参数、韵律模型参数；从所述音频训练数据中分别选取单一音色特征的音频数据，并固定所述语音合成模型中的编码器参数和韵律提取参数不变，分别训练不同音色特征对应的音色模型参数；从所述音频训练数据中分别选取单一音色特征以及单一情感特征的音频数据，并固定所述语音合成模型中的编码器参数和韵律提取参数不变，分别训练不同情感特征的韵律模型参数。3.根据权利要求2所述的方法，其特征在于，所述从所述音频训练数据中提取韵律特征，包括：从所述音频训练数据中提取声学特征；从提取的声学特征中提取层级变分自动编码器向量；所述将提取的韵律特征输入解码器，训练语音合成模型，包括：将提取的层级变分自动编码器向量作为韵律特征输入解码器，基于提取的声学特征训练语音合成模型。4.根据权利要求1所述的方法，其特征在于，所述通过所述语音合成模型输出语音合成数据，包括：通过所述语音合成模型确定所述说话人标识对应的音色模型参数，以及所述情感标识对应的韵律模型参数；根据所述文本数据和所述韵律模型参数，预测目标音频的层级变分自动编码器向量；根据所述文本数据预测文本时长特征，并根据预测的时长特征对所述文本数据的音素级文本特征进行扩帧处理，得到扩帧后的帧级文本特征；将所述帧级文本特征、预测的层级变分自动编码器向量、以及说话人标识输入解码器，通过解码器根据所述帧级文本特征、预测的层级变分自动编码器向量、以及所述说话人标识对应的音色模型参数，预测目标声学特征；将预测的目标声学特征转换成语音波形，得到目标音频。5.根据权利要求3或4所述的方法，其特征在于，所述层级变分自动编码器向量包括句子级、音素级、帧级的变分自动编码器向量。
6.根据权利要求2所述的方法，其特征在于，所述从所述音频训练数据中提取韵律特征，包括：从所述音频训练数据中提取声学特征、基频特征、以及能量特征；所述将提取的韵律特征输入解码器，训练语音合成模型，包括：将提取的基频特征和能量特征作为韵律特征输入解码器，基于提取的声学特征训练语音合成模型。7.根据权利要求1所述的方法，其特征在于，所述情感特征包括开心、高兴、生气、悲伤、愤怒中的任意一种。8.一种语音处理的装置，其特征在于，所述装置包括：数据获取模块，用于获取音频训练数据，所述音频训练数据包括不同音色特征以及不同情感特征的音频数据；模型训练模块，用于根据所述音频训练数据训练语音合成模型，所述语音合成模型包括不同音色特征的音频训练数据训练得到的音色模型参数，以及不同情感特征的音频训练数据训练得到的韵律模型参数；语音合成模块，用于将待合成的文本数据、至少一个说话人标识、以及情感标识输入所述语音合成模型，通过所述语音合成模型输出语音合成数据，所述语音合成数据包含所述说话人标识对应的音色特征以及所述情感标识对应的情感特征。9.根据权利要求8所述的装置，其特征在于，所述模型训练模块，包括：韵律特征提取子模块，用于从所述音频训练数据中提取韵律特征；模型训练子模块，用于将提取的韵律特征输入解码器，训练语音合成模型，所述语音合成模型包括编码器参数、韵律提取参数、音色模型参数、韵律模型参数；音色模型参数训练子模块，用于从所述音频训练数据中分别选取单一音色特征的音频数据，并固定所述语音合成模型中的编码器参数和韵律提取参数不变，分别训练不同音色特征对应的音色模型参数；韵律模型参数训练子模块，用于从所述音频训练数据中分别选取单一音色特征以及单一情感特征的音频数据，并固定所述语音合成模型中的编码器参数和韵律提取参数不变，分别训练不同情感特征的韵律模型参数。10.根据权利要求9所述的装置，其特征在于，所述韵律特征提取子模块，包括：声学特征提取单元，用于从所述音频训练数据中提取声学特征；向量提取单元，用于从提取的声学特征中提取层级变分自动编码器向量；所述模型训练子模块，具体用于将提取的层级变分自动编码器向量作为韵律特征输入解码器，基于提取的声学特征训练语音合成模型。11.根据权利要求8所述的装置，其特征在于，所述语音合成模型包括：参数确定子模块，用于确定所述说话人标识对应的音色模型参数，以及所述情感标识对应的韵律模型参数；向量预测子模块，用于根据所述文本数据和所述韵律模型参数，预测目标音频的层级变分自动编码器向量；扩帧处理子模块，用于根据所述文本数据预测文本时长特征，并根据预测的时长特征对所述文本数据的音素级文本特征进行扩帧处理，得到扩帧后的帧级文本特征；
声学特征预测子模块，用于将所述帧级文本特征、预测的层级变分自动编码器向量、以及说话人标识输入解码器，通过解码器根据所述帧级文本特征、预测的层级变分自动编码器向量、以及所述说话人标识对应的音色模型参数，预测目标声学特征；音频转换子模块，用于将预测的目标声学特征转换成语音波形，得到目标音频。12.根据权利要求8或9所述的装置，其特征在于，所述层级变分自动编码器向量包括句子级、音素级、帧级的变分自动编码器向量。13.根据权利要求9所述的装置，其特征在于，所述韵律特征提取子模块，具体用于从所述音频训练数据中提取声学特征、基频特征、以及能量特征；所述模型训练子模块，具体用于将提取的基频特征和能量特征作为韵律特征输入解码器，基于提取的声学特征训练语音合成模型。14.一种用于语音合成的装置，其特征在于，所述装置包括有存储器，以及一个以上的程序，其中一个以上程序存储于存储器中，且经配置以由一个以上处理器执行所述一个以上程序，所述一个以上程序包含用于进行如权利要求1至7中任一所述的语音合成方法的指令。15.一种机器可读介质，其上存储有指令，当所述指令由装置的一个或多个处理器执行时，使得装置执行如权利要求1至7中任一所述的语音合成方法。

技术总结
本发明实施例提供了一种语音合成方法、装置和用于语音合成的装置。其中的方法包括：获取音频训练数据，音频训练数据包括不同音色特征以及不同情感特征的音频数据；根据音频训练数据训练语音合成模型，所述语音合成模型包括不同音色特征的音频训练数据训练得到的音色模型参数，以及不同情感特征的音频训练数据训练得到的韵律模型参数；将待合成的文本数据、至少一个说话人标识、以及情感标识输入语音合成模型，通过语音合成模型输出语音合成数据，语音合成数据包含说话人标识对应的音色特征以及情感标识对应的情感特征。本发明实施例可以合成不同音色特征以及不同情感特征组合的目标音频，可以扩展语音合成模型的适用范围。可以扩展语音合成模型的适用范围。可以扩展语音合成模型的适用范围。

技术研发人员：王睿敏孟凡博刘恺陈伟
受保护的技术使用者：北京搜狗科技发展有限公司
技术研发日：2021.06.11
技术公布日：2021/9/16

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种语音合成方法、装置和用于语音合成的装置与流程

相关文章

最热文献