语音合成方法及相关装置、电子设备和存储介质与流程

2022-04-09 06:36:57 来源：中国专利 TAG：

技术特征：
1.一种语音合成方法，其特征在于，包括：将待合成文本进行口语化转换，得到口语化文本；其中，所述口语化转换参考至少一种转换模式；提取所述口语化文本的音素序列，并预测所述口语化文本的口语化控制标签；其中，所述口语化控制标签用于控制发音状态；基于所述音素序列和所述口语化控制标签，合成得到所述待合成文本的口语化语音。2.根据权利要求1所述的方法，其特征在于，所述口语化文本基于口语化预测网络得到，所述口语化预测网络采用若干样本文本对训练得到，所述样本文本对包括第一样本文本和第二样本文本，且所述第二样本文本通过口语化录制得到，所述第一样本文本在所述第二样本文本基础上经书面化转换得到。3.根据权利要求2所述的方法，其特征在于，所述口语化预测网络的训练步骤包括：基于所述第一样本文本和所述第二样本文本之间的编辑距离，将所述第一样本文本和所述第二样本文本进行对齐；基于所述第一样本文本和所述第二样本文本之间的对齐结果，获取所述第一样本文本中各个样本词语的样本编辑标签；其中，所述样本编辑标签包括样本编辑类型和样本编辑文本；基于所述口语化预测网络预测所述第一样本文本中所述各个样本词语的预测编辑标签；其中，所述预测编辑标签包括预测编辑类型和预测编辑文本；基于所述样本编辑标签和所述预测编辑标签之间的差异，调整所述口语化预测网络的网络参数。4.根据权利要求3所述的方法，其特征在于，所述将待合成文本进行口语化转换，得到口语化文本，包括：基于所述口语化预测网络预测所述待合成文本中各个词语的编辑标签；其中，所述编辑标签包括编辑类型和编辑文本；分别对所述各个词语，基于所述词语的编辑文本，执行所述词语的编辑类型所对应的编辑操作，得到所述口语化文本。5.根据权利要求1所述的方法，其特征在于，所述口语化控制标签包括第一标签，所述第一标签表征所述音素序列中各个音素所属的词语是否属于语气词。6.根据权利要求5所述的方法，其特征在于，所述第一标签的获取步骤包括：将所述口语化文本中位于语气词词表的词语，作为候选词语；基于所述候选词语在所述口语化文本中的词语位置，确定所述候选词语是否属于语气词；基于所述音素序列中各个音素所属的词语是否属于所述语气词，得到所述第一标签。7.根据权利要求1所述的方法，其特征在于，所述口语化控制标签包括第二标签，所述第二标签表征所述音素序列中各个音素的时长。8.根据权利要求7所述的方法，其特征在于，所述第二标签的获取步骤包括：提取所述口语化文本的语义特征表示，并提取所述口语化文本的韵律边界信息；基于所述语义特征表示和所述韵律边界信息进行拖音预测，得到所述音素序列中各个音素的音素类别；其中，所述音素类别为拖音音素、普通音素中任一者；
对所述拖音音素和普通音素分别进行时长预测，得到所述各个音素的时长；基于所述音素序列中各个音素的时长，得到所述第二标签。9.根据权利要求8所述的方法，其特征在于，所述音素类别基于拖音预测网络得到，所述拖音预测网络采用若干样本文本训练得到，所述样本文本的样本音素序列中标注有各个样本音素的音素类别，且样本音素的音素类别基于所述样本音素的实际时长与预测时长之间的时长差值得到；其中，所述样本文本由样本语音识别得到，所述样本音素的实际时长通过所述样本语音获取得到，所述样本音素的预测时长通过预先训练的时长预测网络预测得到。10.根据权利要求1所述的方法，其特征在于，所述口语化控制标签包括情感特征表示，所述情感特征表示的获取步骤包括：获取所述口语化文本的若干参考文本；其中，所述若干参考文本包括在所述口语化文本之前和/或之后的交互文本；基于所述口语化文本的语义特征表示和各所述参考文本的语义特征表示，得到所述口语化文本的情感特征表示。11.根据权利要求10所述的方法，其特征在于，所述情感特征表示基于情感预测网络得到，所述情感预测网络采用若干样本文本训练得到，所述样本文本标注有样本情感特征表示，且所述样本文本由样本语音识别得到，所述样本情感特征表示通过预先训练的语音情感网络对所述样本语音预测得到。12.根据权利要求1所述的方法，其特征在于，所述口语化语音基于语音合成模型合成得到，且所述语音合成模型采用若干样本数据训练得到，所述样本数据基于与预设口语化场景相关的对话主题和对话提纲录制得到。13.一种语音合成装置，其特征在于，包括：口语转换模块，用于将待合成文本进行口语化转换，得到口语化文本；其中，所述口语化转换参考至少一种转换模式；音素提取模块，用于提取所述口语化文本的音素序列；标签预测模块，用于预测所述口语化文本的口语化控制标签；其中，所述口语化控制标签用于控制发音状态；声音合成模块，用于基于所述音素序列和所述口语化控制标签，合成得到所述待合成文本的口语化语音。14.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现权利要求1至12任一项所述的语音合成方法。15.一种计算机可读存储介质，其特征在于，存储有能够被处理器运行的程序指令，所述程序指令用于实现权利要求1至12任一项所述的语音合成方法。

技术总结
本申请公开了一种语音合成方法及相关装置、电子设备和存储介质，其中，语音合成方法包括：将待合成文本进行口语化转换，得到口语化文本；其中，口语化转换参考至少一种转换模式；提取口语化文本的音素序列，并预测口语化文本的口语化控制标签；其中，口语化控制标签用于控制发音状态；基于音素序列和口语化控制标签，合成得到待合成文本的口语化语音。上述方案，能够实现口语化的语音合成，以提升用户交互体验。互体验。互体验。

技术研发人员：伍宏传胡亚军江源
受保护的技术使用者：科大讯飞股份有限公司
技术研发日：2021.12.28
技术公布日：2022/4/8

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于焦点信息的语音合成方法、装置、设备和存储介质与流程

语音合成方法及相关装置、电子设备和存储介质与流程

相关文献

最热文献