一种多语言语音合成模型的训练方法及装置与流程

2021-11-29 13:10:00 来源：中国专利 TAG：

技术特征：
1.一种多语言语音合成模型的训练方法，所述多语言语音合成模型包括：编码器、解码器以及风格预测器，所述编码器包括风格编码器以及文本编码器，所述方法包括：获得各样本语言对应的样本音频，针对每一样本音频，执行如下步骤a
‑
j，以训练所述编码器以及所述解码器，其中，所述步骤a
‑
j包括：a：对所述样本音频进行特征提取，得到梅尔谱特征标签；对所述样本音频对应的转录文本进行音素转换，得到样本音素序列；b：将所述梅尔谱特征标签和所述样本音频的说话人标识标签，输入所述风格编码器，得到当前概率分布以及当前风格向量；c：基于所述当前概率分布与标准正态分布，确定第一损失值；d：将所述当前风格向量输入第一分类器，得到第一说话人标识；e：将所述样本音素序列输入所述文本编码器，得到当前内容向量；f：将所述当前内容向量输入第二分类器，得到第二说话人标识；g：基于所述第一说话人标识、所述第二说话人标识和所述说话人标识标签，确定第二损失值；h：将所述说话人标识标签、所述当前风格向量以及所述当前内容向量，输入所述解码器，得到预测梅尔谱特征；i：基于所述梅尔谱特征标签以及所述预测梅尔谱特征，确定第三损失值；j：以最小化所述第一损失值、所述第二损失值和所述第三损失值为目标，训练所述编码器以及所述解码器；将每一样本音频的梅尔谱特征标签和说话人标识标签，输入已训练的所述风格编码器，得到每一样本音频的风格向量标签；针对每一样本音频，将该样本音频的说话人标识标签及样本音素序列，输入所述风格预测器，得到预测风格向量对应的方差向量和均值向量；利用所述方差向量和均值向量以及该样本音频的风格向量标签，确定似然度；以最大化所述似然度为目标，训练所述风格预测器。2.根据权利要求1所述的方法，其中，所述对所述样本音频进行特征提取，得到梅尔谱特征标签，包括：对所述样本音频进行预加重，得到对应的加重样本音频；对所述加重样本音频进行分帧，得到对应的子音频；针对每一子音频进行加窗；对每一加窗后的子音频进行快速傅里叶变换，得到每一加窗后的子音频的频谱，并基于每一加窗后的子音频的频谱，确定每一加窗后的子音频的能量谱；利用梅尔滤波器以及每一加窗后的子音频的能量谱，得到每一加窗后的子音频对应的梅尔谱特征，以得到所述样本音频的梅尔谱特征标签。3.根据权利要求1所述的方法，其中，所述对所述样本音频对应的转录文本进行音素转换，得到样本音素序列，包括：对所述样本音频对应的转录文本进行音素转换，得到初始音素序列；将所述初始音素序列中各音素，与所述样本音频中各音素对应的音对齐，得到样本音素序列。
4.根据权利要求1所述的方法，还包括：对待合成文本进行音素转换，得到待合成音素序列；将所述待合成音素序列输入已训练的所述文本编码器，得到待合成内容向量；将第一目标说话人标识以及所述待合成音素序列，输入已训练的所述风格预测器，获得目标风格向量；将所述待合成内容向量、第二目标说话人标识以及所述目标风格向量，输入已训练的所述解码器，得到目标梅尔谱特征；将所述目标梅尔谱特征输入已训练的声码器，得到目标音频。5.根据权利要求1所述的方法，其中，所述确定第二损失值，包括：基于所述第一说话人标识和所述说话人标识标签，确定第一子损失值；基于所述第二说话人标识和所述说话人标识标签，确定第二子损失值；基于所述第一子损失值和所述第二子损失值，确定第二损失值。6.根据权利要求1
‑
5任一项所述的方法，其中，所述风格编码器包括：第一说话人向量转换层、二维卷积网络层、循环神经网络层以及变分编码器；所述将所述梅尔谱特征标签和所述样本音频的说话人标识标签，输入所述风格编码器，得到当前概率分布以及当前风格向量，包括：将所述说话人标识标签输入所述第一说话人向量转换层，得到第一说话人向量；将所述梅尔谱特征标签，输入所述二维卷积网络层，得到第一卷积特征；将所述第一卷积特征和所述第一说话人向量输入所述循环神经网络层，得到目标状态结果；将所述目标状态结果输入所述变分编码器，得到所述当前概率分布；基于所述当前概率分布采样，得到所述当前风格向量。7.根据权利要求1
‑
5任一项所述的方法，其中，所述文本编码器包括：第一音素向量转换层以及第一全局自注意力网络层；所述将所述样本音素序列输入所述文本编码器，得到当前内容向量，包括：将所述样本音素序列输入所述第一音素向量转换层，得到第一音素向量；将所述第一音素向量输入所述第一全局自注意力网络层，得到所述当前内容向量。8.根据权利要求1
‑
5任一项所述的方法，其中，所述解码器包括：第二说话人向量转换层、第二全局自注意力网络层以及线性映射层；所述将所述说话人标识标签、所述当前风格向量以及所述当前内容向量，输入所述解码器，得到预测梅尔谱特征，包括：将所述说话人标识标签输入所述第二说话人向量转换层，得到第二说话人向量；将所述第二说话人向量、所述当前风格向量以及所述当前内容向量，输入所述第二全局自注意力网络层，得到中间特征；将所述中间特征输入所述线性映射层，得到所述预测梅尔谱特征。9.根据权利要求1
‑
5任一项所述的方法，其中，所述风格预测器包括：第三说话人向量转换层、第二音素序列转换层、一维卷积网络层和高斯混合密度网络层；所述将该样本音频的说话人标识标签及样本音素序列，输入所述风格预测器，得到预测风格向量对应的方差向量和均值向量，包括：
将所述说话人标识标签输入所述第三说话人向量转换层，得到第三说话人向量；将所述样本音素序列输入所述第二音素序列转换层，得到第二音素向量；将所述第三说话人向量和所述第二音素向量，输入所述一维卷积网络层，得到第二卷积特征；将所述第二卷积特征输入所述高斯混合密度网络层，得到所述预测风格向量对应的方差向量和均值向量。10.一种多语言语音合成模型的训练装置，所述多语言语音合成模型包括：编码器、解码器以及风格预测器，所述编码器包括风格编码器以及文本编码器，所述装置包括：获得模块，配置为获得各样本语言对应的样本音频；第一训练模块，配置为针对每一样本音频，通过如下单元对该样本音频进行处理，以训练所述编码器以及所述解码器，其中，所述第一训练模块包括：特征提取转换单元，配置为对所述样本音频进行特征提取，得到梅尔谱特征标签；对所述样本音频对应的转录文本进行音素转换，得到样本音素序列；第一输入单元，配置为将所述梅尔谱特征标签和所述样本音频的说话人标识标签，输入所述风格编码器，得到当前概率分布以及当前风格向量；第一确定单元，配置为基于所述当前概率分布与标准正态分布，确定第一损失值；第二输入单元，配置为将所述当前风格向量输入第一分类器，得到第一说话人标识；第三输入单元，配置为将所述样本音素序列输入所述文本编码器，得到当前内容向量；第四输入单元，配置为将所述当前内容向量输入第二分类器，得到第二说话人标识；第二确定单元，配置为基于所述第一说话人标识、所述第二说话人标识和所述说话人标识标签，确定第二损失值；第五输入单元，配置为将所述说话人标识标签、所述当前风格向量以及所述当前内容向量，输入所述解码器，得到预测梅尔谱特征；第三确定单元，配置为基于所述梅尔谱特征标签以及所述预测梅尔谱特征，确定第三损失值；训练单元，配置为以最小化所述第一损失值、所述第二损失值和所述第三损失值为目标，训练所述编码器以及所述解码器；第一输入模块，配置为将每一样本音频的梅尔谱特征标签和说话人标识标签，输入已训练的所述风格编码器，得到每一样本音频的风格向量标签；第二训练模块，配置为针对每一样本音频，将该样本音频的说话人标识标签及样本音素序列，输入所述风格预测器，得到预测风格向量对应的方差向量和均值向量；利用所述方差向量和均值向量以及该样本音频的风格向量标签，确定似然度；以最大化所述似然度为目标，训练所述风格预测器。

技术总结
本说明书实施例提供一种多语言语音合成模型的训练方法及装置，方法包括：基于各样本语言的样本音频的梅尔谱特征标签、样本音素序列、说话人标识标签，分别训练风格编码器、文本编码器以及解码器，以获得可以将音频的音色(通过说话人标识表征)、风格以及文本内容解耦开的风格编码器、文本编码器以及解码器，进而利用样本音频的说话人标识标签及样本音素序列，以及已训练的风格编码器输出的该样本音频的风格向量作为标签，训练风格预测器，以得到多语言语音合成模型。多语言语音合成模型。多语言语音合成模型。

技术研发人员：张鹏远尚增强颜永红
受保护的技术使用者：中国科学院声学研究所
技术研发日：2021.08.30
技术公布日：2021/11/28

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：酪朊塑料在制备义甲的应用的制作方法

一种多语言语音合成模型的训练方法及装置与流程

相关文献

最热文献