一种语音合成模型的训练方法及装置与流程

2021-06-29 21:50:00 来源：中国专利 TAG：语音装置模型训练智能

技术特征：
1.一种语音合成模型的训练方法，其特征在于，包括：对历史语音合成模型进行训练，得到多说话人模型；获取当前训练数据中的当前说话人id和当前输入文本，其中，所述当前输入文本的数据量少于所述多说话人模型在训练过程中历史输入文本的数据量，所述当前输入文本的音素以韵母为单位；基于所述多说话人模型、所述当前说话人id和所述当前输入文本对当前语音合成模型进行训练。2.根据权利要求1所述的方法，其特征在于，对历史语音合成模型进行训练，得到多说话人模型，其中，所述历史语音合成模型包括：历史编码器、历史解码器和历史对齐模块，所述解码器包括第一历史解码器和第二历史解码器；所述多说话人模型包括：第一说话人模型和第二说话人模型，训练过程包括：获取训练数据中的历史说话人id和历史输入文本；基于所述历史说话人id，确定历史说话人矢量，基于所述历史说话人矢量，所述历史输入文本，所述历史编码器和所述历史第一解码器对所述历史对齐模块进行训练，得到第一说话人模型，其中，所述第一说话人模型中包括：历史目标对齐模块；基于所述历史说话人矢量，所述历史输入文本，所述历史编码器、所述第二历史解码器和所述目标历史对齐模块进行训练，得到第二说话人模型。3.根据权利要求2所述的方法，其特征在于，还包括：所述历史输入文本中的音素以字为单位。4.根据权利要求2所述的方法，其特征在于，基于所述多说话人模型、所述说话人id和所述输入文本对当前语音合成模型进行训练，其中，所述当前语音合成模型包括：当前编码器、当前解码器和当前对齐模块，所述解码器包括第一当前解码器和第二当前解码器，训练过程包括：对所述第一说话人模型和所述当前说话人id进行线性组合，确定第一说话人矢量；采用所述第一说话人矢量，所述当前输入文本，所述当前编码器和所述第一当前解码器对所述当前对齐模块进行训练，得到目标当前对齐模块；基于所述第二说话人模型和所述当前说话人id，确定第二说话人矢量，采用所述第二说话人矢量，所述当前输入文本，所述当前编码器、所述第二当前解码器和所述目标当前对齐模块训练所述第二说话人矢量、所述当前编码器和所述第二当前解码器。5.根据权利要求4所述的方法，其特征在于，还包括：获取所述第一说话人模型中的第一历史解码器第一训练结果和所述第二说话人模型中第二历史解码器的第二训练结果；将所述第一训练结果赋给所述第一当前解码器作为初始值；将所述第二训练结果赋给所述第二当前解码器作为初始值。6.一种语音合成模型的训练装置，其特征在于，包括：第一训练模块，用于对历史语音合成模型进行训练，得到多说话人模型；获取模块，用于获取当前训练数据中的当前说话人id和当前输入文本，其中，所述当前输入文本的数据量少于所述多说话人模型在训练过程中历史输入文本的数据量，所述当前输入文本的音素以韵母为单位；
第二训练模块，用于基于所述多说话人模型、所述当前说话人id和所述当前输入文本对当前语音合成模型进行训练。7.根据权利要求6所述的装置，其特征在于，所述历史语音合成模型包括：历史编码器、历史解码器和历史对齐模块，所述解码器包括第一历史解码器和第二历史解码器；所述多说话人模型包括：第一说话人模型和第二说话人模型，所述第一训练模块包括：第一获取单元，用于获取训练数据中的历史说话人id和历史输入文本；第一训练单元，用于基于所述历史说话人id，确定历史说话人矢量，基于所述历史说话人矢量，所述历史输入文本，所述历史编码器和所述历史第一解码器对所述历史对齐模块进行训练，得到第一说话人模型，其中，所述第一说话人模型中包括：历史目标对齐模块；第二训练单元，用于基于所述历史说话人矢量，所述历史输入文本，所述历史编码器、所述第二历史解码器和所述目标历史对齐模块进行训练，得到第二说话人模型。8.根据权利要求7所述的装置，其特征在于，还包括：所述历史输入文本中的音素以字为单位。9.根据权利要求7所述的装置，其特征在于，所述当前语音合成模型包括：当前编码器、当前解码器和当前对齐模块，所述解码器包括第一当前解码器和第二当前解码器，所述第二训练模块包括：确定单元，用于对所述第一说话人模型和所述当前说话人id进行线性组合，确定第一说话人矢量；第三训练单元，用于采用所述第一说话人矢量，所述当前输入文本，所述当前编码器和所述第一当前解码器对所述当前对齐模块进行训练，得到目标当前对齐模块；第四训练单元，用于基于所述第二说话人模型和所述当前说话人id，确定第二说话人矢量，采用所述第二说话人矢量，所述当前输入文本，所述当前编码器、所述第二当前解码器和所述目标当前对齐模块训练所述第二说话人矢量、所述当前编码器和所述第二当前解码器。10.根据权利要求9所述的装置，其特征在于，还包括：第二获取单元，用于获取所述第一说话人模型中的第一历史解码器第一训练结果和所述第二说话人模型中第二历史解码器的第二训练结果；第一赋值单元，用于将所述第一训练结果赋给所述第一当前解码器作为初始值；第二赋值单元，用于将所述第二训练结果赋给所述第二当前解码器作为初始值。

再多了解一些

2/3 首页上一页 1 2 3 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于MFCC和BP神经网络的说话人识别系统及方法与流程

一种语音合成模型的训练方法及装置与流程

相关文章

最热文献