一种音色、口音可控的中英文语音合成方法及装置与流程

2021-09-07 21:52:00 来源：中国专利 TAG：音色口音中英文可控语音

技术特征：
1.一种音色、口音可控的中英文语音合成方法，其特征在于，包括训练阶段和推理阶段，所述训练阶段包括以下步骤：步骤s11、获取多说话人、单语言的语音训练数据库；步骤s12、将不同语言的文本处理为统一表征方式，并对音频提取声学特征；步骤s13、将步骤s12处理后的文本输入文本编码器，得到文本向量；并将步骤s12得到的声学特征分别输入说话人特征提取器及语言特征提取器，得到说话人识别向量及语言识别向量；步骤s14、将步骤s13得到的文本向量与说话人识别向量、文本向量与语言识别向量分别输入到注意力网络，输出最终的说话人识别向量与语言识别向量，并计算两者的格拉姆矩阵grammatrix；步骤s15、将步骤s13得到的文本向量、步骤s14得到的最终的说话人识别向量与语言识别向量共同输入到解码器decoder得到预测声学特征；步骤s16、采用损失函数对步骤s15得到的预测声学特征、步骤s12得到的声学特征、步骤s14得到的格拉姆矩阵进行梯度计算，对整个模型进行训练。2.根据权利要求1所述的一种音色、口音可控的中英文语音合成方法，其特征在于，所述推理阶段包括以下步骤：步骤s21.对待合成文本进行规范化处理，并处理为统一表征方式；步骤s22.将文本及目标音频分别输入经训练的文本编码器、说话人特征提取器、语言特征提取器，得到文本向量、说话人识别向量、语言识别向量；步骤s23.将步骤s22得到的文本向量与说话人识别向量、文本向量与语言识别向量分别输入到经训练的注意力网络，得到最终的说话人识别向量与语言识别向量；步骤s24.将步骤s22得到的文本向量、步骤s23得到的说话人识别向量与语言识别向量共同输入到经训练的解码器，得到预测声学特征，通过对语言识别向量乘以不同的尺度来对预测声学特征的口音强弱进行控制；步骤s25.采用声码器将步骤s24得到的预测声学特征转换为音频。3.根据权利要求1或2所述的一种音色、口音可控的中英文语音合成方法，其特征在于，所述步骤s11还包括：每种语言各具有一定数量的说话人单语语音训练数据库，并涵盖中英文文本及对应的音频。4.根据权利要求1或2所述的一种音色、口音可控的中英文语音合成方法，其特征在于，所述步骤s12中的统一表征方式为音素、unicode编码或字符统一的表达方式；提取的声学特征包括梅尔频谱特征、线性预测系数特征lpc、线性频谱特征、基频f0、频谱包络、以及非周期信号参数。5.根据权利要求1或2所述的一种音色、口音可控的中英文语音合成方法，其特征在于，所述步骤s13中的文本编码器和步骤s15中的解码器为循环神经网络结构rnn或自注意力网络结构transformer。6.根据权利要求1或2所述的一种音色、口音可控的中英文语音合成方法，其特征在于，所述步骤s14具体为：在注意力网络中，文本编码向量作为查询向量query，说话人识别向量或语言识别向量作为键值key
‑
value，输出最终的说话人识别向量与语言识别向量与文本
编码向量步长一致。7.根据权利要求1或2所述的一种音色、口音可控的中英文语音合成方法，其特征在于，所述步骤s16中的损失函数为均方误差损失函数m步骤se或平均绝对误差损失函数mae。8.根据权利要求7所述的一种音色、口音可控的中英文语音合成方法，其特征在于，所述步骤s16为：通过预测声学特征与真实声学特征之间的损失函数实现对声学特征的重构，格拉姆矩阵与0之间的损失函数保证说话人识别特征与语言识别特征的正交，通过梯度回传对整个模型进行训练。9.根据权利要求2所述的一种音色、口音可控的中英文语音合成方法，其特征在于，所述步骤s25中的声码器为直接将声学特征转换为音频信号的传统信号处理算法或深度学习网络预训练模型。10.一种音色、口音可控的中英文语音合成装置，其特征在于，包括：文本处理模块，用于将中英文文本规范化处理，并且将文本转换为统一表征方式；信息编码模块，用于对经过文本处理模块处理后的文本进行编码，得到文本向量；对目标音频进行编码，得到说话人识别向量和语言识别向量；注意力控制模块，用于将信息编码模块得到的文本编码向量作为查询向量，将信息编码模块得到的说话人识别向量以及语言识别向量作为键值，输出注意力加权后的最终说话人识别向量和语言识别向量；信息解码模块，用于输入经信息编码模块得到的文本向量、注意力控制模块得到的最终说话人识别向量及语言识别向量，输出预测声学特征；声码器模块，用于输入信息解码模块得到的预测声学特征，输出音频。

技术总结
本发明提出一种音色、口音可控的中英文语音合成方法及装置，所述方法包括了训练阶段和推理阶段，在训练阶段包括：获取语音训练数据库；将不同语言的文本处理为统一表征方式，并对音频提取声学特征；然后分别进行处理得到文本向量、说话人识别向量及语言识别向量，然后，输出最终的说话人识别向量与语言识别向量，并计算两者的格拉姆矩阵；再将文本向量、最终的说话人识别向量与语言识别向量共同输入到解码器得到预测声学特征；采用损失函数对预测声学特征、声学特征、格拉姆矩阵进行梯度计算，对整个模型进行训练。随后通过训练的模型进行推理阶段实现音频输出，实现了中英文语音合成中对音色变换、口音强弱的控制。口音强弱的控制。口音强弱的控制。

技术研发人员：朱海王昆周琳珉刘书君
受保护的技术使用者：四川启睿克科技有限公司
技术研发日：2021.06.18
技术公布日：2021/9/6

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：音频水印处理方法、装置、电子设备及存储介质与流程

一种音色、口音可控的中英文语音合成方法及装置与流程

相关文章

最热文献