一种语音合成方法以及语音合成系统与流程

2021-06-04 12:02:00 来源：中国专利 TAG：语音合成合成方法系统

技术特征：
1.一种语音合成方法，其特征在于，包括：将待输入文本转换成文本编码向量；将待输入梅尔声谱转换成风格编码向量；基于当前时间周期的待输入梅尔声谱、上一时间周期的所述文本编码向量以及上一时间周期的所述风格编码向量，确定出目标梅尔声谱；将所述目标梅尔声谱转换成音频信号。2.根据权利要求1所述的语音合成方法，其特征在于，所述将待输入文本转换成文本编码向量，包括：对所述待输入文本进行嵌入处理，生成序列形式的文本向量；将所述文本向量输入预设卷积神经网络，并将所述预设卷积神经网络的输出数据输入预设循环神经网络，由所述预设循环神经网络输出预设长度的文本编码向量。3.根据权利要求1所述的语音合成方法，其特征在于，所述将待输入梅尔声谱转换成风格编码向量，包括：将所述待输入梅尔声谱经过预设卷积神经网络、预设循环神经网络以及预设全连接网络，转换成编码序列；将所述编码序列经过多头注意力机制，生成相对于每个预设特征向量的加权系数，所述预设特征向量表征朗读风格；基于所述加权系数，对所述预设特征向量进行加权处理，生成预设长度的风格编码向量。4.根据权利要求1所述的语音合成方法，其特征在于，所述基于当前时间周期的待输入梅尔声谱、上一时间周期的所述文本编码向量以及上一时间周期的所述风格编码向量，确定出目标梅尔声谱，包括：将所述当前时间周期的待输入梅尔声谱输入预处理网络，由所述预处理网络生成编码的梅尔声谱特征；将所述上一时间周期的所述文本编码向量与所述上一时间周期的所述风格编码向量经过注意力机制，得到上一时间周期的上下文向量；将所述编码的梅尔声谱特征与所述上一时间周期的上下文向量进行拼接，并将拼接后的向量输入预设循环神经网络，由所述预设循环神经网络生成解码输出；将当前时间周期的文本编码向量与当前时间周期的风格编码向量经过注意力机制，得到当前时间周期的上下文向量；将所述解码输出与所述当前时间周期的上下文向量进行拼接，并将拼接后的向量输入第一线性投影层以及第二线性投影层，由所述第一线性投影层生成结束标识，由所述第二线性投影层生成声谱残差向量以及信号值向量，将所述声谱残差向量与所述信号量向量进行拼接，生成所述目标梅尔声谱。5.根据权利要求4所述的语音合成方法，其特征在于，所述将所述目标梅尔声谱转换成音频信号，包括：将所述目标梅尔声谱经过预设卷积神经网络、预设全连接网络，生成帧级别的特征条件向量；基于所述目标梅尔声谱，计算出当前帧的线性预测参数；
基于所述线性预测参数，对所述目标梅尔声谱进行线性预测，得到当前时间周期的预测值向量；将所述特征条件向量、所述当前时间周期的预测值向量、所述上一时间周期的声谱残差向量以及所述上一时间周期的信号量向量进行拼接，生成当前时间周期的特征向量；将所述当前时间周期的特征向量经过预设卷积神经网络、预设全连接网络，预测出当前时间周期的残差值向量；确定所述当前时间周期的预测值向量与所述当前时间周期的残差值向量的加和为所述音频信号。6.一种语音合成系统，其特征在于，包括：文本编码器、风格编码器、解码器以及合成器；所述文本编码器用于将待输入文本转换成文本编码向量；所述风格编码器用于将待输入梅尔声谱转换成风格编码向量；所述解码器与所述文本编码器以及所述风格编码器相连，用于基于当前时间周期的待输入梅尔声谱、上一时间周期的所述文本编码向量以及上一时间周期的所述风格编码向量，确定出目标梅尔声谱；所述合成器与所述解码器相连，用于将所述目标梅尔声谱转换成音频信号。7.根据权利要求6所述的语音合成系统，其特征在于，所述文本编码器将待输入文本转换成文本编码向量，具体用于：对所述待输入文本进行嵌入处理，生成序列形式的文本向量；将所述文本向量输入预设卷积神经网络，并将所述预设卷积神经网络的输出数据输入预设循环神经网络，由所述预设循环神经网络输出预设长度的文本编码向量。8.根据权利要求6所述的语音合成系统，其特征在于，所述风格编码器将待输入梅尔声谱转换成风格编码向量，具体用于：将所述待输入梅尔声谱经过预设卷积神经网络、预设循环神经网络以及预设全连接网络，转换成编码序列；将所述编码序列经过多头注意力机制，生成相对于每个预设特征向量的加权系数，所述预设特征向量表征朗读风格；基于所述加权系数，对所述预设特征向量进行加权处理，生成预设长度的风格编码向量。9.根据权利要求6所述的语音合成系统，其特征在于，所述解码器基于当前时间周期的待输入梅尔声谱、上一时间周期的所述文本编码向量以及上一时间周期的所述风格编码向量，确定出目标梅尔声谱，具体用于：将所述当前时间周期的待输入梅尔声谱输入预处理网络，由所述预处理网络生成编码的梅尔声谱特征；将所述上一时间周期的所述文本编码向量与所述上一时间周期的所述风格编码向量经过注意力机制，得到上一时间周期的上下文向量；将所述编码的梅尔声谱特征与所述上一时间周期的上下文向量进行拼接，并将拼接后的向量输入预设循环神经网络，由所述预设循环神经网络生成解码输出；将当前时间周期的文本编码向量与当前时间周期的风格编码向量经过注意力机制，得
到当前时间周期的上下文向量；将所述解码输出与所述当前时间周期的上下文向量进行拼接，并将拼接后的向量输入第一线性投影层以及第二线性投影层，由所述第一线性投影层生成结束标识，由所述第二线性投影层生成声谱残差向量以及信号值向量，将所述声谱残差向量与所述信号量向量进行拼接，生成所述目标梅尔声谱。10.根据权利要求6所述的语音合成系统，其特征在于，所述合成器将所述目标梅尔声谱转换成音频信号，具体用于：将所述目标梅尔声谱经过预设卷积神经网络、预设全连接网络，生成帧级别的特征条件向量；基于所述目标梅尔声谱，计算出当前帧的线性预测参数；基于所述线性预测参数，对所述目标梅尔声谱进行线性预测，得到当前时间周期的预测值向量；将所述特征条件向量、所述当前时间周期的预测值向量、所述上一时间周期的声谱残差向量以及所述上一时间周期的信号量向量进行拼接，生成当前时间周期的特征向量；将所述当前时间周期的特征向量经过预设卷积神经网络、预设全连接网络，预测出当前时间周期的残差值向量；确定所述当前时间周期的预测值向量与所述当前时间周期的残差值向量的加和为所述音频信号。

再多了解一些

2/3 首页上一页 1 2 3 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于影响权重的频域卷积盲源分离幅度相关性的排序方法与流程

一种语音合成方法以及语音合成系统与流程

相关文章

最热文献