一种基于world-tacotron的语音合成方法、系统及服务器与流程

2021-07-16 19:06:00 来源：中国专利 TAG：服务器方法语音合成系统人工智能

技术特征：
1.一种基于world
‑
tacotron的语音合成方法，其特征在于，包括：获取样本文本，将所述样本文本分别转化为单词序列和字符序列；对所述字符序列进行编码，得到编码表示；对所述单词序列进行短语中断预测，得到韵律向量；将所述韵律向量和所述编码表示连接成一个联合向量，对所述联合向量进行解码，得到第一声学特征序列；根据所述韵律向量计算韵律参数预测损失，根据所述第一声学特征序列计算声学特征损失，对所述韵律参数预测损失和所述声学特征损失进行训练，得到语音合成模型；将待处理文本输入所述语音合成模型进行处理，并将处理后得到的第二声学特征序列合成声音波形。2.根据权利要求1所述的基于world
‑
tacotron的语音合成方法，其特征在于：所述将所述样本文本分别转化为单词序列和字符序列的步骤包括：对所述样本文本进行分词，得到单词序列；将所述样本文本转化为带声调的拼音形式序列，将所述拼音形式序列转化为字符序列。3.根据权利要求1所述的基于world
‑
tacotron的语音合成方法，其特征在于：所述对所述字符序列进行编码，得到编码表示的步骤包括：将所述字符序列输入编码器，在所述编码器的输出端得到编码表示；其中，所述编码器为基于tacotron模型的编码器。4.根据权利要求1所述的基于world
‑
tacotron的语音合成方法，其特征在于：所述对所述单词序列进行短语中断预测，得到韵律向量的步骤包括：将所述单词序列输入韵律生成器中，在所述韵律生成器的输出端得到韵律向量。5.根据权利要求1所述的基于world
‑
tacotron的语音合成方法，其特征在于：所述将所述韵律向量和所述编码表示连接成一个联合向量的步骤包括：将单词序列中的每个单词对应的韵律向量分配到每个单词的所有字符，得到字符级别韵律向量；将所述编码表示与所述字符级别韵律向量进行拼接，得到联合向量。6.根据权利要求5所述的基于world
‑
tacotron的语音合成方法，其特征在于：所述对所述联合向量进行解码，得到声学特征序列的步骤包括：将所述联合向量输入解码器中，在所述解码器的输出端得到声学特征序列；其中，所述解码器为基于tacotron模型的具有注意机制的解码器。7.根据权利要求1所述的基于world
‑
tacotron的语音合成方法，其特征在于：所述根据所述韵律向量计算韵律参数预测损失，根据所述第一声学特征序列计算声学特征损失，对所述韵律参数预测损失和所述声学特征损失进行训练，得到语音合成模型的步骤包括：以真实韵律向量为标签，计算韵律参数预测损失；所述真实韵律为根据所述样本文本对应的语音音频，对所述单词序列进行独热编码获得；将所述第一声学特征序列与多维声学特征的均方误差记为声学特征损失；其中，所述多维声学特征是从所述语音音频提取所得；将韵律参数预测损失和声学特征损失加权求和作为全局损失，利用全局损失进行反向
传播训练，得到训练好的语音合成模型。8.根据权利要求1所述的基于world
‑
tacotron的语音合成方法，其特征在于：所述将第二声学特征序列合成声音波形的步骤包括：将所述第二声学特征序列输入声码器中，在所述声码器的输出端得到相应的声音波形；其中，所述声码器为world声码器。9.一种基于world
‑
tacotron的语音合成系统，其特征在于，包括：输入模块，用于获取样本文本和待处理文本；文本预处理模块，用于将所述样本文本或待处理文本转化为单词序列和字符序列；编码器，用于对所述字符序列进行编码，得到编码表示；韵律生成器，用于对所述单词序列进行短语中断预测，得到韵律向量；处理模块，用于将所述韵律向量和所述编码表示连接成一个联合向量；还用于根据所述韵律向量计算韵律参数预测损失，根据第一声学特征序列计算声学特征损失，对所述韵律参数预测损失和所述声学特征损失进行训练，得到语音合成模型；解码器，用于对所述联合向量进行解码，得到第一声学特征序列或第二声学特征序列；声码器，用于将所述第二声学特征序列合成声音波形。10.一种服务器，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于：所述处理器执行所述程序时实现权利要求1
‑
8中任意一项所述的基于world
‑
tacotron的语音合成方法。

再多了解一些

2/3 首页上一页 1 2 3 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种基于world-tacotron的语音合成方法、系统及服务器与流程

相关文章

最热文献