一种基于韵律特征的并行语音合成方法及装置、介质、设备

2022-07-10 03:16:06 来源：中国专利 TAG：

技术特征：
1.一种基于韵律特征的并行语音合成方法，其特征在于，包括：(1)将待合成语音文本正则化，即按照事先设定的正则化规则，将非标准化的语音文本转换为标准化文本；(2)将所述正则化语音文本并行转换为音素序列和音素级别韵律序列；(3)将所述音素序列和所述音素级别韵律序列利用声学模型预测其梅尔频谱图；(4)将所述梅尔频谱图利用声码器转换为所述待合成语音文本的语音信号。2.根据权利要求1所述的一种基于韵律特征的并行语音合成方法，其特征在于，所述步骤2中所述正则化语音文本转换为音素序列，包括：利用基于条件随机场的中文文本转音素模型g2pc将所述正则化语音文本转换为拼音；利用自定义的拼音和音素字典，将所述拼音映射到对应音素并生成所述音素序列。3.根据权利要求1所述的一种基于韵律特征的并行语音合成方法，其特征在于，所述步骤2中所述正则化语音文本转换为音素级别韵律序列包括：对所述正则化语音文本进行分词及词性标注工作；利用韵律预测网络，将标注后的所述正则化语音文本转换为词级别韵律序列；利用长度对齐机制将所述词级别韵律序列映射到所述音素级别韵律序列。4.根据权利要求3所述的一种基于韵律特征的并行语音合成方法，其特征在于：所述韵律预测网络为两个双向长短期记忆人工神经网络lstm与两个线性层组成的模型或预训练语言模型bert。5.根据权利要求1所述的一种基于韵律特征的并行语音合成方法，其特征在于：所述步骤3中的声学模型，包括编码器模块、解码器模块和后处理网络；所述编码器模块和解码器模块均基于conformer blocks；所述解码器模块采用非自回归的结构；所述后处理网络对所述预测的梅尔频谱图进行校正，同时捕捉所述音素序列和所述音素级别韵律序列间长期依赖关系和细节特征，以提升合成语音的音质和流畅度。6.根据权利要求5所述的一种基于韵律特征的并行语音合成方法，其特征在于：所述编码器模块为4层conformer blocks，所述解码器模块为6层conformer blocks，所述后处理网络为5层一维卷积，且卷积核大小为1
×
3。7.根据权利要求1所述的一种基于韵律特征的并行语音合成方法，其特征在于：所述步骤4中的声码器是hifi-gan声码器。8.一种基于韵律特征的并行语音合成，其特征在于，包括：信息获取模块，适于获取待合成语音文本，并将其进行正则化；音素序列生成模块，适于将所述正则化语音文本转换为音素序列；音素级别韵律序列生成模块，适于将所述正则化语音文本转换为音素级别韵律序列；频谱生成模块，适于将所述音素序列和所述音素级别韵律序列利用声学模型预测其梅尔频谱图；语音合成模块，适于将所述梅尔频谱图利用声码器转换为所述待合成语音文本的语音信号。9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-7中任一项所述的基于韵律特征的并行语音合成方
法。10.一种计算设备，其特征在于，所述计算设备包括处理器以及存储器：所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；所述处理器用于根据所述程序代码中的指令执行权利要求1-7中任一项所述的基于韵律特征的并行语音合成方法。

技术总结
本发明提出了一种基于韵律特征的并行语音合成方法及装置、设备、介质，属于语音合成技术领域。该方法包括：首先将待合成语音文本正则化；将所述正则化语音文本并行转换为音素序列和音素级别韵律序列；将所述音素序列和所述音素级别韵律序列利用声学模型预测其梅尔频谱图；将所述梅尔频谱图利用声码器转换为所述待合成语音文本的语音信号。本专利融合自回归合成和非自回归合成的优势，不仅能有效提升语音合成的音质、流畅度、速度和鲁棒性，而且能实现实时的高效语音合成。基于本专利开发的系统可广泛应用于人工智能领域的智能化语音合成，如智能客服、智能音响、语音播报、地图导航和有声读物等人机交互场景。声读物等人机交互场景。声读物等人机交互场景。

技术研发人员：王国强
受保护的技术使用者：上海工程技术大学
技术研发日：2022.03.30
技术公布日：2022/7/8

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语音检测方法、装置、电子设备、存储介质及产品与流程

一种基于韵律特征的并行语音合成方法及装置、介质、设备

相关文献

最热文献