语音合成方法、可读存储介质及计算机程序产品与流程

2021-10-20 00:35:00 来源：中国专利 TAG：可读实施计算机程序方法

技术特征：
1.一种语音合成方法，其特征在于，该方法包括：将文本转换为音素向量序列；从所述音素向量序列中提取上下文特征向量序列；将所述上下文特征向量序列中的每个向量依次输入到长短期记忆模型，依次得到为每个向量预测的频谱；在所述长短期记忆模型输出的频谱上依次设置预设第一帧长的采样窗，每次向声码器输入一个采样窗内的帧，依次得到每个采样窗对应的音频。2.根据权利要求1所述的方法，其特征在于，所述在所述长短期记忆模型输出的频谱上依次设置预设第一帧长的采样窗，包括：在所述lstm模型输出的频谱上依次设置预设第一帧长的采样窗，且相邻两个采样窗重叠预设第二帧长，第二帧长<第一帧长。3.根据权利要求2所述的方法，其特征在于，所述依次得到每个采样窗对应的音频之后，进一步包括：在声码器输出的音频中，查找到当前采样窗与后一采样窗重叠的帧对应的音频，将查找到的音频移除。4.根据权利要求1所述的方法，其特征在于，所述将文本转换为音素向量序列，包括：根据音素字典，将文本转换为音素序列；将所述音素序列输入到音素嵌入模型，得到音素向量序列。5.根据权利要求1所述的方法，其特征在于，所述从所述音素向量序列中提取上下文特征向量序列，包括：将所述音素向量序列输入到前馈转换器模型，得到从所述音素向量序列中提取的上下文特征向量序列；将所述上下文特征向量序列输入到时长预测模型，得到每个音素的预测时长，根据每个音素的预测时长分别对对应音素进行长度扩充，得到经过时长调节后的上下文特征向量序列。6.根据权利要求1所述的方法，其特征在于，所述声码器为：多波段梅尔生成式对抗网络声码器。7.根据权利要求1所述的方法，其特征在于，所述频谱为梅尔频谱。8.一种非瞬时计算机可读存储介质，所述非瞬时计算机可读存储介质存储指令，其特征在于，所述指令在由处理器执行时使得所述处理器执行如权利要求1至7中任一项所述的语音合成方法的步骤。9.一种计算机程序产品，包括计算机程序或指令，其特征在于，该计算机程序或指令被处理器执行时实现如权利要求1至7中任一项所述的语音合成方法的步骤。

技术总结
本发明实施例提出语音合成方法、可读存储介质及计算机程序产品。方法包括：将文本转换为音素向量序列；从所述音素向量序列中提取上下文特征向量序列；将所述上下文特征向量序列中的每个向量依次输入到长短期记忆模型，得到预测的频谱；在所述长短期记忆模型输出的频谱上依次设置预设第一帧长的采样窗，每次向声码器输入一个采样窗内的帧，依次得到每个采样窗对应的音频。本发明实施例减少了语音合成的延迟。迟。迟。

技术研发人员：文成谭兴军韩阳邹伟李先刚
受保护的技术使用者：北京房江湖科技有限公司
技术研发日：2021.08.13
技术公布日：2021/10/19

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：回声消除的测试方法、终端以及存储装置与流程
下一篇：语音识别方法、装置、计算机设备及存储介质与流程

语音合成方法、可读存储介质及计算机程序产品与流程

相关文献

最热文献