语音合成方法和相关设备、装置、介质与流程

2021-10-09 00:18:00 来源：中国专利 TAG：介质音频处理装置方法相关

技术特征：
1.一种语音合成方法，其特征在于，包括：获取以待合成语种表达的待合成文本的待合成音素；利用语音合成模型对所述待合成音素、待合成对象的对象特征表示和所述待合成语种的语种特征表示进行合成处理，得到合成语谱图；其中，所述语音合成模型是利用样本对象的样本数据训练预设语音网络而得到的，所述样本数据包括所述样本对象的第一音频、所述样本对象的对象特征表示和所述第一音频对应发言语种的语种特征表示，所述对象特征表示用于表征音色特征、发音特征中至少一者，所述样本对象包括目标对象及与所述目标对象的相关对象，且所述相关对象的对象特征表示与所述目标对象的对象特征表示相关。2.根据权利要求1所述的方法，其特征在于，所述相关对象的筛选步骤包括：获取使用发言语种发言的发言对象的第二音频；其中，所述发言对象包括所述目标对象和若干候选对象；基于所述第二音频，获取所述发言对象的对象特征表示和所述发言语种的语种特征表示；基于所述对象特征表示的聚类结果选择所述候选对象，得到所述相关对象。3.根据权利要求2所述的方法，其特征在于，所述基于所述对象特征表示的聚类结果选择所述候选对象，得到所述相关对象，包括：将所述发言对象的对象特征表示进行聚类，得到若干特征集合；将所述目标对象的对象特征表示所在的特征集合，作为目标集合；选择所述目标集合内所述候选对象，作为所述相关对象。4.根据权利要求2所述的方法，其特征在于，所述预设语音网络包括基线网络，所述发言对象的对象特征表示和所述发言语种的语种特征表示是利用所述第二音频训练所述基线网络而得到的。5.根据权利要求4所述的方法，其特征在于，所述基于所述第二音频，获取所述发言对象的对象特征表示和所述发言语种的语种特征表示，包括：提取所述第二音频的第一音素，并获取所述第二音频对应的发言对象的初始对象表示和所述第二音频对应的发言语种的初始语种表示；利用所述第一音素、所述初始对象表示和所述初始语种表示训练所述基线网络，以优化所述基线网络的网络参数、所述初始对象表示和所述初始语种表示；响应于所述基线网络的训练结果满足第一条件，将最新优化得到的初始对象表示作为所述对象特征表示，并将最新优化得到的初始语种表示作为所述语种特征表示。6.根据权利要求5所述的方法，其特征在于，所述基线网络包括：音素编码子网络和解码子网络；所述利用所述第一音素、所述初始对象表示和所述初始语种表示训练所述基线网络，以优化所述基线网络的网络参数、所述初始对象表示和所述初始语种表示，包括：利用所述音素编码子网络对所述第一音素进行编码，得到第一音素表示；利用解码子网络对所述第一音素表示、所述初始对象表示和所述初始语种表示进行解码，得到第一预测语谱图；基于所述第一预测语谱图和所述第二音频的第一实际语谱图之间的差异，优化所述基线网络的网络参数、所述初始对象表示和所述初始语种表示。
7.根据权利要求1所述的方法，其特征在于，所述预设语音网络包括基线网络以及与所述基线网络连接的语谱预测子网络，且所述基线网络包括音素编码子网络和解码子网络；所述语音合成模型的训练步骤包括：提取所述第一音频的第二音素和第二实际语谱图；利用所述音素编码子网络对所述第二音素进行编码，得到第二音素表示；利用所述语谱预测子网络对所述第二音素表示进行预测，得到样本预测语谱表示，并基于所述第二实际语谱图得到样本实际语谱表示；利用解码子网络对所述第二音素表示、所述样本实际语谱表示、所述对象特征表示和所述语种特征表示进行解码，得到第二预测语谱图；基于所述第二预测语谱图和所述第二实际语谱图之间的差异，以及所述样本预测语谱表示和所述样本实际语谱表示之间的差异，优化所述预设语音网络的网络参数；响应于所述预设语音网络的训练结果满足第二条件，得到所述语音合成模型。8.根据权利要求7所述的方法，其特征在于，所述第二实际语谱图包含若干实际音频帧；所述基于所述第二实际语谱图得到样本实际语谱表示，包括：基于所述第二实际语谱图，识别得到各个音素的第一时长；对于每一所述音素，基于所述第一时长内的实际音频帧的统计值，得到所述音素的表示元素；基于所述各个音素的表示元素，得到所述样本实际语谱表示。9.根据权利要求7所述的方法，其特征在于，所述语音合成模型是所述预设语音网络经过若干轮训练得到的；所述基于所述第二预测语谱图和所述第二实际语谱图之间的差异，以及所述样本预测语谱表示和所述样本实际语谱表示之间的差异，优化所述预设语音网络的网络参数，包括：基于所述第二预测语谱图和所述第二实际语谱图之间的差异，得到第一损失；基于所述样本预测语谱表示和所述样本实际语谱表示之间的差异，得到第二损失；以及，基于各个音素的预测时长和第二时长之间的差异，得到第三损失；其中，所述预测时长是所述解码子网络在解码过程中预测得到的，所述第二时长是预设时长预测网络对所述第二音素进行预测得到的；分别利用第一权重、第二权重和第三权重对所述第一损失、第二损失和所述第三损失加权处理，得到总损失；其中，所述第三权重与训练轮次负相关；基于所述总损失，优化所述预设语音网络的网络参数。10.根据权利要求1所述的方法，其特征在于，所述语音合成模型包括基线网络以及与所述基线网络连接的语谱预测子网络，且所述基线网络包括音素编码子网络和解码子网络；所述利用语音合成模型对所述待合成音素、待合成对象的对象特征表示和所述待合成语种的语种特征表示进行合成处理，得到合成语谱图，包括：利用所述音素编码子网络对所述待合成音素进行编码，得到待合成音素表示；利用所述语谱预测子网络对所述待合成音素表示进行预测，得到待合成语谱表示；利用所述解码子网络对所述待合成音素表示、所述待合成语谱表示、所述对象特征表示和所述语种特征表示进行解码，得到合成语谱图。
11.一种语音合成装置，其特征在于，包括：音素获取模块，用于获取以待合成语种表达的待合成文本的待合成音素；合成处理模块，用于利用语音合成模型对所述待合成音素、待合成对象的对象特征表示和所述待合成语种的语种特征表示进行合成处理，得到合成语谱图；其中，所述语音合成模型是利用样本对象的样本数据训练预设语音网络而得到的，所述样本数据包括所述样本对象的第一音频、所述样本对象的对象特征表示和所述第一音频对应发言语种的语种特征表示，所述对象特征表示用于表征音色特征、发音特征中至少一者，所述样本对象包括目标对象及与所述目标对象的相关对象，且所述相关对象的对象特征表示与所述目标对象的对象特征表示相关。12.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现权利要求1至10任一项所述的语音合成方法。13.一种计算机可读存储介质，其特征在于，存储有能够被处理器运行的程序指令，所述程序指令用于实现权利要求1至10任一项所述的语音合成方法。

技术总结
本申请公开了一种语音合成方法和相关设备、装置、介质，其中，语音合成方法包括：获取以待合成语种表达的待合成文本的待合成音素；利用语音合成模型对待合成音素、待合成对象的对象特征表示和待合成语种的语种特征表示进行合成处理，得到合成语谱图；其中，语音合成模型是利用样本对象的样本数据训练预设语音网络而得到的，样本数据包括样本对象的第一音频、样本对象的对象特征表示和第一音频对应发言语种的语种特征表示，对象特征表示用于表征音色特征、发音特征中至少一者，样本对象包括目标对象及与目标对象的相关对象，且相关对象的对象特征表示与目标对象的对象特征表示相关。上述方案，能够提高语音合成质量。能够提高语音合成质量。能够提高语音合成质量。

技术研发人员：宋飞豹江源宋锐侯秋侠
受保护的技术使用者：科大讯飞股份有限公司
技术研发日：2021.07.02
技术公布日：2021/10/8

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：车辆以及车辆用语音识别系统和方法与流程

语音合成方法和相关设备、装置、介质与流程

相关文章

最热文献