语音合成方法、装置、电子设备及可读存储介质与流程

2022-07-20 15:30:16 来源：中国专利 TAG：

技术特征：
1.一种语音合成方法，其特征在于，所述方法包括：获取待合成文本的音素特征；将所述音素特征作为已训练声学模型的输入，并基于所述声学模型中的处理层生成所述音素特征对应的声学信息；所述处理层中包含至少一对第一采样模块和第二采样模块；所述第一采样模块用于降低特征维度，所述第二采样模块用于恢复特征维度；所述已训练声学模型基于长度不小于预设长度阈值的样本文本训练得到；基于所述声学信息，获取所述待合成文本对应的语音。2.根据权利要求1所述方法，其特征在于，所述处理层包括编码层和/或解码层；任一所述处理层中均包含至少一对所述第一采样模块和第二采样模块。3.根据权利要求1所述方法，其特征在于，所述声学模型通过下述方式预先训练得到的：获取所述样本文本的音素特征以及声学信息，得到样本音素特征以及样本声学信息；将所述样本音素特征作为初始声学模型的输入，基于所述初始声学模型中处理层中的第一采样模块降低所述处理层的输入特征的特征维度，基于所述处理层中的处理模块对降低后的所述输入特征进行处理，并基于所述处理层中的第二采样模块恢复处理后的所述输入特征的特征维度，以获取所述处理层的输出特征；所述输入特征基于所述初始声学模型得到；基于所述输出特征获取所述初始声学模型的预测声学信息，并基于所述预测声学信息以及所述样本声学信息，训练得到所述已训练声学模型。4.根据权利要求3所述方法，其特征在于，任一对所述第一采样模块和第二采样模块之间设置有残差连接；所述基于所述处理层中的第二采样模块恢复处理后的所述输入特征的特征维度之前，所述方法还包括：获取所述第一采样模块输出的残差信息，并为所述处理后的所述输入特征增加所述残差信息。5.根据权利要求4所述方法，其特征在于，所述任一对所述第一采样模块的第一采样参数和第二采样模块的第二采样参数之间互为倒数。6.根据权利要求3所述方法，其特征在于，所述将所述样本音素特征作为初始声学模型的输入之前，所述方法还包括：检测所述样本音素特征的特征维度是否为采样参数之积的整数倍；所述采样参数之积为所述处理层中各第一采样参数之间的乘积或各第二采样参数之间的乘积；若不为所述采样参数之积的整数倍，则扩充所述样本音素特征的特征维度，直至所述样本音素特征的特征维度为所述采样参数之积的整数倍。7.一种语音合成装置，其特征在于，所述装置包括：第一获取模块，用于获取待合成文本的音素特征；生成模块，用于将所述音素特征作为已训练声学模型的输入，并基于所述声学模型中的处理层生成所述音素特征对应的声学信息；所述处理层中包含至少一对第一采样模块和第二采样模块；所述第一采样模块用于降低特征维度，所述第二采样模块用于恢复特征维度；所述已训练声学模型基于长度不小于预设长度阈值的样本文本训练得到；
第二获取模块，用于基于所述声学信息，获取所述待合成文本对应的语音。8.根据权利要求7所述装置，其特征在于，所述处理层包括编码层和/或解码层；任一所述处理层中均包含至少一对所述第一采样模块和第二采样模块。9.一种电子设备，其特征在于，包括：处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-6中任一项所述的语音合成的方法。10.一种可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行权利要求1-6中任一项所述的语音合成的方法。

技术总结
本发明实施例提供了一种语音合成方法、装置、电子设备及可读存储介质，所述方法通过获取待合成文本的音素特征；将音素特征作为已训练声学模型的输入，并基于声学模型中的处理层生成音素特征对应的声学信息；处理层中包含至少一对第一采样模块和第二采样模块；第一采样模块用于降低特征维度，第二采样模块用于恢复特征维度；已训练声学模型基于长度不小于预设长度阈值的样本文本训练得到；基于声学信息，获取待合成文本对应的语音。这样，通过在声学模型中的第一采样模块和第二采样模块对音素序列参与计算的特征维度先降低，在处理之后再恢复，从而一定程度上可以不对长文本进行强行断句直接进行语音合成。断句直接进行语音合成。断句直接进行语音合成。

技术研发人员：李婉李健武卫东陈明
受保护的技术使用者：北京捷通华声科技股份有限公司
技术研发日：2022.03.24
技术公布日：2022/7/19

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种可防止共振啸叫的音响吉他的制作方法

语音合成方法、装置、电子设备及可读存储介质与流程

相关文献

最热文献