一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语音合成方法、装置、设备及存储介质与流程

2021-08-31 17:44:00 来源:中国专利 TAG:语音合成 装置 方法 设备 存储介质

技术特征:

1.一种语音合成方法,其特征在于,包括:

将待处理的文本数据的每个字转成相应的音素;

根据预先构建的音素与数值映射字典,将所述文本数据的每个音素转成相应的音素数值;

根据所述音素数值,通过预先训练的声学模型,获得所述文本数据对应的梅尔频谱;其中,所述声学模型根据音素向量与音素数值映射基于神经网络模型训练得到;

将所述梅尔频谱输入到声码器中以将所述梅尔频谱转换成音频。

2.如权利要求1所述的语音合成方法,其特征在于,所述方法还包括以下所述声学模型训练步骤:

将预先采集的文本样本的每个字转成相应的音素;

根据所述音素与数值映射字典,将所述文本样本的每个音素转换成音素数值;

获取所述文本样本的每个音素的音频特征;

根据所述文本样本的每个音素的音频特征,得到所述文本样本的音素向量;

以所述文本样本的音素向量和音素数值为训练集,对神经网络模型进行训练,得到所述声学模型。

3.如权利要求1所述的语音合成方法,其特征在于,所述将待处理的文本数据的每个字转成相应的音素,包括:

将所述文本数据的每个字转成拼音;

根据预先构建的拼音与音素字典文件,将每个拼音映射成音素。

4.如权利要求2所述的语音合成方法,其特征在于,所述获取所述文本样本的每个音素的音频特征,包括:

对预存的音频数据进行归一化处理;

获取所述音频数据对应的文本样本中每个字对应的拼音;

根据归一化后的音频数据、所述文本样本对应的拼音及预先构建的拼音与音素字典文件,通过预先预先训练好的对齐模型,获得音频与音素的对齐结果;

根据所述对齐结果,读取所述文本样本中每个音素的音频范围;

根据每个音素的音频范围切分出每个音素在所述文本样本中音频特征。

5.如权利要求4所述的语音合成方法,其特征在于,所述根据所述对齐结果,读取所述文本样本中每个音素的音频范围,包括:

读取所述对齐结果对应的textgrid文件,并根据所述textgrid文件,获取所述文本样本中每个音素的起始时间和终止时间;

将任一音素的起始时间至终止时间对应范围,作为任一音素对应的音频范围。

6.如权利要求2所述的语音合成方法,其特征在于,所述根据所述文本样本的每个音素的音频特征,得到所述文本样本的音素向量,包括:

获取属于第i种音素的所有音频特征,并计算第i种音素的所有音频特征中的最大音频长度;

根据所述最大音频长度,对第i种音素的所有音频特征进行插值处理;其中,插值后的音频特征的长度等于所述最大音频长度;

根据每个音素插值后的音频特征,得到音素向量。

7.如权利要求6所述的语音合成方法,其特征在于,所述根据每个音素插值后的音频特征,得到音素向量,包括:

将每个音素插值后的音频特征转换为梅尔频谱;

计算每个音素对应的梅尔频谱的帧数量,作为对应音素的时长值;

根据属于第i种音素的所有时长值,计算第i种音素的时长平均值;

根据各种音素的时长平均值构建一维矩阵,作为音素向量。

8.一种语音合成装置,其特征在于,包括:

音素转换模块,用于将待处理的文本数据的每个字转成相应的音素;

数值转换模块,用于根据预先构建的音素与数值映射字典,将所述文本数据的每个音素转成相应的音素数值;

频谱获取模块,用于根据所述音素数值,通过预先训练的声学模型,获得所述文本数据对应的梅尔频谱;其中,所述声学模型根据音素向量与音素数值映射基于神经网络模型训练得到;

音频转换模块,用于将所述梅尔频谱输入到声码器中以将所述梅尔频谱转换成音频。

9.一种语音合成设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的语音合成方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7任一项所述的语音合成方法。


技术总结
本发明提供了一种语音合成方法、装置、设备及存储介质,该方法包括:将待处理的文本数据的每个字转成相应的音素;根据预先构建的音素与数值映射字典,将所述文本数据的每个音素转成相应的音素数值;根据所述音素数值,通过预先训练的声学模型,获得所述文本数据对应的梅尔频谱;其中,所述声学模型根据音素向量与音素数值映射基于神经网络模型训练得到;将所述梅尔频谱输入到声码器中以将所述梅尔频谱转换成音频。本发明能有效提高语音合成的效果,使得合成的音频更加自然、真实,同时能提高语音合成的推理速度。

技术研发人员:徐波
受保护的技术使用者:多益网络有限公司;广州多益网络股份有限公司;广东利为网络科技有限公司
技术研发日:2021.06.03
技术公布日:2021.08.31
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜