语音合成方法、装置、计算机可读介质及电子设备与流程

2022-05-18 04:57:15 来源：中国专利 TAG：

技术特征：
1.一种语音合成方法，其特征在于，包括：获取待合成文本对应的音素序列；根据所述音素序列和所述待合成文本，生成所述待合成文本对应的音素级别的tobi表征序列和韵律声学特征，并根据所述tobi表征序列和所述韵律声学特征，生成所述待合成文本对应的声学特征信息；根据所述声学特征信息，生成所述待合成文本对应的第一音频信息。2.根据权利要求1所述的方法，其特征在于，所述根据所述音素序列和所述待合成文本，生成所述待合成文本对应的音素级别的tobi表征序列和韵律声学特征，并根据所述tobi表征序列和所述韵律声学特征，生成所述待合成文本对应的声学特征信息，包括：将所述音素序列和所述待合成文本输入到预先训练好的语音合成模型中，以通过所述语音合成模型根据所述音素序列和所述待合成文本，生成所述待合成文本对应的音素级别的tobi表征序列和韵律声学特征，并根据所述tobi表征序列和所述韵律声学特征，生成所述待合成文本对应的声学特征信息。3.根据权利要求2所述的方法，其特征在于，所述语音合成模型包括编码网络、注意力网络、解码网络、韵律语言特征预测模块、韵律声学特征预测模块、嵌入层、第一拼接模块、第二拼接模块以及第三拼接模块；其中，所述韵律语言特征预测模块，用于根据所述待合成文本，生成所述待合成文本对应的音素级别的tobi表征序列；所述嵌入层，用于根据所述音素序列，生成所述待合成文本对应的音素表征序列；所述第一拼接模块，用于将所述音素级别的tobi表征序列与所述音素表征序列进行拼接，得到第一拼接序列；所述编码网络，用于对所述第一拼接序列进行编码，生成编码序列；所述第二拼接模块，用于将所述编码序列与所述音素级别的tobi表征序列进行拼接，得到第二拼接序列；所述韵律声学特征预测模块，用于根据所述第二拼接序列，生成所述待合成文本对应的韵律声学特征；所述第三拼接模块，用于将所述编码序列和所述韵律声学特征进行拼接，得到第三拼接序列；所述注意力网络，用于根据所述第三拼接序列，生成所述待合成文本对应的语义表征；所述解码网络，用于根据所述语义表征，生成所述待合成文本对应的声学特征信息。4.根据权利要求3所述的方法，其特征在于，所述韵律语言特征预测模块包括依次连接的第一子嵌入层、韵律语言特征预测网络、第二子嵌入层以及扩展层；其中，所述第一子嵌入层，用于提取所述待合成文本对应的词级别的深层表征；所述韵律语言特征预测网络，用于根据所述深层表征，生成词级别的tobi标签；所述第二子嵌入层，用于根据所述tobi标签，生成所述待合成文本对应的词级别的tobi表征序列；所述扩展层，用于对所述词级别的tobi表征序列进行扩展，得到所述待合成文本对应的音素级别的tobi表征序列。5.根据权利要求4所述的方法，其特征在于，所述语音合成模型通过如下方式训练得
到：获取训练文本；确定所述训练文本对应的训练音素序列、词级别的训练tobi标签、训练韵律声学特征以及训练声学特征信息；通过将所述训练文本作为所述第一子嵌入层的输入，将所述第一子嵌入层的输出作为所述韵律语言特征预测网络的输入，将所述词级别的训练tobi标签作为所述韵律语言特征预测网络的目标输出，将所述韵律语言特征预测网络的输出作为所述第二子嵌入层的输入，将所述第二子嵌入层的输出作为所述扩展层的输入，将所述训练音素序列作为所述嵌入层的输入，将所述扩展层的输出和所述嵌入层的输出作为所述第一拼接模块的输入，将所述第一拼接模块的输出作为所述编码网络的输入，将所述编码网络的输出和所述扩展层的输出作为所述第二拼接模块的输入，将所述第二拼接模块的输出作为所述韵律声学特征预测模块的输入，将所述训练韵律声学特征作为所述韵律声学特征预测模块的目标输出，将所述韵律声学特征预测模块的输出和所述编码网络的输出作为所述第三拼接模块的输入，将所述第三拼接模块的输出作为所述注意力网络的输入，将所述注意力网络的输出作为所述解码网络的输入，将所述训练声学特征信息作为所述解码网络的目标输出的方式进行模型训练，以得到所述语音合成模型。6.根据权利要求1-5中任一项所述的方法，其特征在于，所述韵律声学特征包括所述待合成文本对应的音素级别的基频、能量以及发音时长中的至少一者。7.根据权利要求1-5中任一项所述的方法，其特征在于，所述方法还包括：将所述第一音频信息与目标背景音乐进行合成，得到第二音频信息。8.一种语音合成装置，其特征在于，包括：获取模块，用于获取待合成文本对应的音素序列；第一生成模块，用于根据所述获取模块获取到的所述音素序列和所述待合成文本，生成所述待合成文本对应的音素级别的tobi表征序列和韵律声学特征，并根据所述tobi表征序列和所述韵律声学特征，生成所述待合成文本对应的声学特征信息；第二生成模块，用于根据所述第一生成模块生成的所述声学特征信息，生成所述待合成文本对应的第一音频信息。9.一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理装置执行时实现权利要求1-7中任一项所述方法的步骤。10.一种电子设备，其特征在于，包括：存储装置，其上存储有一个或多个计算机程序；一个或多个处理装置，用于执行所述存储装置中的所述一个或多个计算机程序，以实现权利要求1-7中任一项所述方法的步骤。

技术总结
本公开涉及一种语音合成方法、装置、计算机可读介质及电子设备。方法包括：获取待合成文本对应的音素序列；根据音素序列和待合成文本，生成待合成文本对应的TOBI表征序列和韵律声学特征，根据TOBI表征序列和韵律声学特征，生成待合成文本对应的声学特征信息；根据声学特征信息，生成待合成文本对应的第一音频信息。TOBI表征序列能赋予不同语句合适的节奏、强调和语调特性，同时韵律声学特征可显式体现对应韵律事件的具体声学体现，从而在提升合成音频的韵律自然度的同时控制音频强度，由此能在相同的韵律语言表现下，使不同的韵律声学特征体现不同的语义变化，使合成音频更加自然，更具有抑扬顿挫的听感，更符合说话者所表达的语意。语意。语意。

技术研发人员：林浩鹏马泽君
受保护的技术使用者：北京有竹居网络技术有限公司
技术研发日：2022.02.25
技术公布日：2022/5/17

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语音合成方法、装置、存储介质及电子设备与流程

语音合成方法、装置、计算机可读介质及电子设备与流程

相关文献

最热文献