语音合成方法、装置、设备及介质与流程

2021-09-29 00:50:00 来源：中国专利 TAG：人工智能介质装置公开方法

技术特征：
1.一种语音合成方法，包括：获取目标文本的语义特征、音素特征以及声学特征；对所述语义特征与所述声学特征执行第一对齐操作，得到第一对齐结果；对所述音素特征与所述声学特征执行第二对齐操作，得到第二对齐结果；根据所述第一对齐结果和所述第二对齐结果进行特征融合，得到融合特征；基于所述融合特征生成所述目标文本对应的合成语音。2.如权利要求1所述的语音合成方法，其中，获取目标文本的语义特征包括：将所述目标文本输入至预训练得到的语义特征提取模型；通过所述语义特征提取模型对所述目标文本执行语义特征提取操作，得到所述目标文本的语义特征。3.如权利要求2所述的语音合成方法，其中，所述语义特征提取操作包括：对目标文本进行字符切分，得到字符序列；获取所述字符序列对应的字符编码；基于所述字符编码进行语义特征提取。4.如权利要求2所述的语音合成方法，其中，所述语义特征提取模型包括bert模型。5.如权利要求1所述的语音合成方法，其中，获取目标文本的音素特征包括：将所述目标文本输入至预设的字素转音素单元，得到所述字素转音素单元输出的音素序列；将所述音素序列输入至预训练得到的编码器；通过所述编码器对所述音素序列执行音素特征提取操作，得到所述目标文本对应的音素特征。6.如权利要求5所述的语音合成方法，其中，所述音素特征提取操作包括：获取所述音素序列对应的音素编码；根据所述音素编码提取中间特征向量；其中，所述中间特征向量体现有所述音素编码中的局部特征信息以及上下文信息；基于所述中间特征向量进行音素特征提取。7.如权利要求6所述的语音合成方法，其中，根据所述音素编码提取中间特征向量包括：基于所述音素编码连续执行n次指定的组合操作，将第n次所述组合操作输出的特征向量作为中间特征向量；其中，第1次所述组合操作的输入为所述音素编码，第i次所述组合操作的输入为第i
‑
1次所述组合操作的输出；n为不小于1的自然数，i的取值范围为[2，n]；所述组合操作包括卷积操作和非线性变换操作。8.如权利要求6所述的语音合成方法，其中，基于所述中间特征向量进行音素特征提取包括：通过预设的长短期记忆网络对所述中间特征向量进行音素特征提取。9.如权利要求1至8任一项所述的语音合成方法，其中，所述第一对齐操作和所述第二对齐操作均为基于注意力机制的对齐操作。10.如权利要求1所述的语音合成方法，其中，基于所述第一对齐结果和所述第二对齐结果进行特征融合，得到融合特征包括：
基于所述第一对齐结果和所述第二对齐结果执行特征拼接操作，得到拼接后的特征；对所述拼接后的特征执行卷积操作，得到融合特征。11.如权利要求1所述的语音合成方法，其中，基于所述融合特征生成所述目标文本对应的合成语音包括：通过预训练得到的解码器对所述融合特征进行自回归解码，得到梅尔谱；通过声码器将所述梅尔谱转换为音频，并将所述音频作为所述目标文本对应的合成语音。12.一种语音合成装置，包括：特征获取模块，用于获取目标文本的语义特征、音素特征以及声学特征；第一对齐模块，用于对所述语义特征与所述声学特征执行第一对齐操作，得到第一对齐结果；第二对齐模块，用于对所述音素特征与所述音素特征执行第二对齐操作，得到第二对齐结果；特征融合模块，用于基于所述第一对齐结果和所述第二对齐结果进行特征融合，得到融合特征；语音生成模块，用于基于所述融合特征生成所述目标文本对应的合成语音。13.一种电子设备，包括：处理器；以及存储程序的存储器，其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1
‑
11中任一项所述的语音合成方法。14.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1
‑
11中任一项所述的语音合成方法。

技术总结
本公开提供一种语音合成方法、装置、设备及介质，其中该方法包括：获取目标文本的语义特征、音素特征以及声学特征；对语义特征与声学特征执行第一对齐操作，得到第一对齐结果；对音素特征与声学特征执行第二对齐操作，得到第二对齐结果；根据第一对齐结果和第二对齐结果进行特征融合，得到融合特征；基于融合特征生成目标文本对应的合成语音。本公开可以较好地提升语音合成效果。地提升语音合成效果。地提升语音合成效果。

技术研发人员：郭少彤陈昌滨贺刚
受保护的技术使用者：北京世纪好未来教育科技有限公司
技术研发日：2021.08.27
技术公布日：2021/9/28

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于MIDI技术的电子口哨的制作方法

语音合成方法、装置、设备及介质与流程

相关文章

最热文献