一种细粒度韵律可控的情感语音合成方法、系统及存储介质与流程

2022-11-30 09:45:37 来源：中国专利 TAG：

技术特征：
1.一种细粒度韵律可控的情感语音合成方法，其特征在于，所述方法的步骤包括，获取初始文本数据，将初始文本数据转化为对应的拼音序列，将初始文本数据的拼音序列输入第一编码模型得到文本隐藏向量序列，将初始文本数据和对应的音频数据输入第二编码模型得到韵律向量序列；将预设的参考音频的梅尔语谱图输入到第三编码模型，得到情感表示向量；将前一帧的声学特征序列输入预设的预处理模型进行非线性变换，得到中间特征向量；将所述情感表示向量和中间特征向量相加输入到第一循环神经网络中，得到第一隐藏状态序列；基于第一隐藏状态序列与文本隐藏向量序列计算能量值，将能量值和韵律向量序列输入注意力机制利用递推算法得到当前帧的对齐向量；将对齐向量与文本隐藏向量序列进行加权求和得到上下文向量；将所述上下文向量与第一隐藏状态序列输入到第二循环神经网络中，得到第二隐藏状态序列；将第二隐藏状态序列输入到第一线性映射层，得到预测的当前帧的声学特征序列，将声学特征序列输入到声码器，得到当前帧的语音波形，组合全部帧的语音波形，输出最终的语音数据。2.根据权利要求1所述的细粒度韵律可控的情感语音合成方法，其特征在于，将初始文本数据转化为对应的拼音字符的步骤包括；获取所述初始文本数据的每个字，在预设的第一匹配库中为每个字匹配对应的拼音字符，根据初始文本数据中字的顺序将拼音字符连接为拼音序列。3.根据权利要求1所述的细粒度韵律可控的情感语音合成方法，其特征在于，将初始文本数据和对应的音频数据输入第二编码模型得到韵律向量序列的步骤包括：通过强制对齐方法获取文本中每个字素对应的持续时间，按照持续时间长短对字素进行三类等级的划分：持续时间小于第一时间长度的字素标记为快速字素，持续时间中等的字素标记为正常字素，持续时间在第二时间长度以上的字素标记为慢速字素，其中，所述第二时间长度大于所述第一时间长度；将每个字素按照持续时间进行等级划分后，基于输入的字素序列得到等长的持续时间等级序列；根据预设的第二匹配库，将持续时间等级序列转换为韵律向量序列。4.根据权利要求1所述的细粒度韵律可控的情感语音合成方法，其特征在于，根据如下公式，基于第一隐藏状态序列与文本隐藏向量序列计算能量值：e
i，j
＝tanh(s
i
h
j
)；e
i，j
表示第i帧的第j个字素的能量值，s
i
表示第i帧的第一隐藏状态序列，h
j
表示第j个字素的文本隐藏向量序列，tanh表示双曲正切函数。5.根据权利要求1所述的细粒度韵律可控的情感语音合成方法，其特征在于，将能量值和韵律向量序列输入注意力机制利用递推算法得到当前帧的对齐向量的步骤包括：将能量值与所述韵律向量序列相加，并通过线性投影层，得到第一转移概率；将所述第一转移概率通过sigmoid激活函数进行处理，得到第二转移概率；
基于第二转移概率和上一帧的对齐向量计算当前帧的对齐向量。6.根据权利要求5所述的细粒度韵律可控的情感语音合成方法，其特征在于，根据如下公式，基于第二转移概率和上一帧的对齐向量计算当前帧的对齐向量：a
i，j
＝(1-w
i，j
)a
i-1，j
w
i，j
a
i-1，j-1
；其中：其中：a
i，j
表示第i个帧的对齐向量中第j个字素对应的位置的值，w
i，j
表示第i个帧的对齐向量中第j个字素对应的位置的第二转移概率，a
i-1，j
表示第i-1个帧的对齐向量中第j个字素对应的位置的值，a
i-1，j-1
表示第i-1个帧的对齐向量中第j-1个字素对应的位置的值；sigmoid()表示sigmoid激活函数；表示第i帧的对齐向量中第j个字素对应的位置的第一转移概率，dnn表示线性投影层，l
i，j
表示第i帧的对齐向量中第j个字素对应的位置的韵律向量序列。7.根据权利要求1所述的细粒度韵律可控的情感语音合成方法，其特征在于，根据如下公式，将对齐向量与文本隐藏向量序列进行加权求和得到上下文向量：其中，c
i
表示第i个帧的上下文向量，a
i，j
表示当前第i个帧的对齐向量中第j个字素对应的位置的值，h
j
表示第j个字素的文本隐藏向量序列。8.根据权利要求1-7任一项所述的细粒度韵律可控的情感语音合成方法，其特征在于，将声学特征序列输入到声码器的步骤包括：将声学特征序列通过postnet网络，将postnet网络输出的序列与初始的声学特征序列相加，得到更新后的声学特征序列。9.一种细粒度韵律可控的情感语音合成系统，其特征在于，该系统包括计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该系统实现如权利要求1-8任一项所述方法的步骤。10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，该计算机程序被处理器执行时以实现如权利要求1-8任一项所述方法的步骤。

技术总结
本发明提供一种细粒度韵律可控的情感语音合成方法、系统及存储介质，该方法包括，将拼音序列输入第一编码模型得到文本隐藏向量序列，将初始文本数据和对应的音频数据输入第二编码模型得到韵律向量序列；梅尔语谱图输入到第三编码模型得到情感表示向量；将前一帧的声学特征序列进行非线性变换得到中间特征向量；将情感表示向量和中间特征向量相加输入到第一循环神经网络中，得到第一隐藏状态序列；计算能量值，利用递推算法得到当前帧的对齐向量；进行加权求和得到上下文向量；输入到第二循环神经网络中，得到第二隐藏状态序列；输入到第一线性映射层，得到当前帧的声学特征序列，输入到声码器，得到预测的当前帧的语音波形，输出最终的语音数据。输出最终的语音数据。输出最终的语音数据。

技术研发人员：柯登峰邓雅月李雅谢海山潘镭郭勇
受保护的技术使用者：柯登峰
技术研发日：2022.08.30
技术公布日：2022/11/29

再多了解一些

2/2 首页上一页 1 2

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种集成式汽车路噪主动噪声控制方法和系统与流程

一种细粒度韵律可控的情感语音合成方法、系统及存储介质与流程

相关文献

最热文献