一种语音转换模型的训练方法及装置与流程

2021-12-07 21:04:00 来源：中国专利 TAG：

技术特征：
1.一种语音转换模型的训练方法，所述语音转换模型包括编码器、瓶颈层以及解码器，所述方法包括：对样本音频进行特征提取，得到梅尔谱特征标签以及基频序列；将所述梅尔谱特征标签输入所述编码器，得到第一内容向量；将所述第一内容向量输入所述瓶颈层，得到当前码本向量以及第二内容向量，其中，所述瓶颈层用于去除输入向量中的说话人信息，所述当前码本向量为与所述第一内容向量距离最近的向量；基于所述第一内容向量和所述当前码本向量，确定第一损失值；将所述第一内容向量输入感知机层，得到所述第一内容向量对应的各字符或空白符的发射概率；基于所述样本音频对应的转录文本标签以及所述发射概率，确定第二损失值；将归一化后的所述基频序列、所述第二内容向量以及所述样本音频对应的说话人标签，输入所述解码器，得到预测梅尔谱特征；基于所述梅尔谱特征标签以及所述预测梅尔谱特征，确定第三损失值；以最小化所述第一损失值、所述第二损失值以及所述第三损失值为目标，训练所述编码器、瓶颈层以及解码器。2.根据权利要求1所述的方法，其中，所述对所获得的样本音频进行特征提取，得到梅尔谱特征标签以及基频序列，包括：对所述样本音频进行预加重，得到对应的加重样本音频；对所述加重样本音频进行分帧，得到对应的子音频；针对每一子音频进行加窗；对每一加窗后的子音频进行快速傅里叶变换，得到每一加窗后的子音频的频谱，并基于每一加窗后的子音频的频谱，确定每一加窗后的子音频的能量谱；利用梅尔滤波器以及每一加窗后的子音频的能量谱，得到每一加窗后的子音频对应的梅尔谱特征，以得到所述样本音频对应的梅尔谱特征；基于每一加窗后的子音频，确定所述样本音频对应的基频序列。3.根据权利要求1所述的方法，其中，所述编码器包括卷积神经网络层以及全局自注意力神经网络层；所述将所述梅尔谱特征标签输入所述编码器，得到第一内容向量，包括：将所述梅尔谱特征标签输入所述卷积神经网络层，得到中间特征序列；将所述中间特征序列输入所述全局自注意力神经网络层，得到所述第一内容向量。4.根据权利要求3所述的方法，其中，所述全局自注意力神经网络层包括采用多头自注意力的自注意力子层以及前馈神经网络子层；所述将所述中间特征序列输入所述全局自注意力神经网络层，得到所述第一内容向量，包括：将所述中间特征序列输入所述自注意力子层，以使所述自注意力子层，针对其每头自注意力，对所述中间特征序列进行第一线性映射，得到每头自注意力对应的问询矩阵、键值矩阵以及值矩阵；对每头自注意力对应的问询矩阵、键值矩阵以及值矩阵进行缩放点积注意力操作，得到每头自注意力对应的中间向量；对所有头自注意力对应的中间向量的第一
拼接向量进行第二线性映射操作，得到对应的输出结果；将所述输出结果输入所述前馈神经网络子层，以使所述前馈神经网络子层，对所述输出结果进行第三线性映射操作，得到第一线性映射结果；将所述第一线性映射结果输入修正线性单元，得到中间修正结果；对所述中间修正结果进行第四线性映射操作，得到所述第一内容向量。5.根据权利要求1所述的方法，其中，所述瓶颈层包括：包含第一数量个待训练的多维码本向量的码本向量层，以及时间抖动模块；所述将所述第一内容向量输入所述瓶颈层，得到当前码本向量以及第二内容向量，包括：将所述第一内容向量输入所述码本向量层，计算所述第一内容向量与每一码本向量之间的距离；基于计算所得的距离，确定出与所述第一内容向量距离最近的码本向量，作为所述当前码本向量；将所述当前码本向量输入所述时间抖动模块，得到所述第二内容向量。6.根据权利要求1所述的方法，其中，所述解码器包括第一线性映射层、全局自注意力机制模块、前向计算模块以及第二线性映射层；所述将归一化后的所述基频序列、所述第二内容向量以及所述样本音频对应的说话人标签，输入所述解码器，得到预测梅尔谱特征，包括：将归一化后的所述基频序列、所述第二内容向量以及所述样本音频对应的说话人标签进行拼接，得到第二拼接向量；将所述第二拼接向量输入所述解码器，以使所述解码器依次基于第一线性映射层、全局自注意力机制模块、前向计算模块以及第二线性映射层，对所输入的拼接向量进行处理，得到所述预测梅尔谱特征。7.根据权利要求1
‑
6任一项所述的方法，还包括：对待转换音频进行特征提取，得到所述待转换音频对应的待转换梅尔谱特征以及待转换基频序列；将所述待转换梅尔谱特征输入已训练的所述编码器，得到第三内容向量；将所述第三内容向量输入已训练的所述瓶颈层，得到第四内容向量；将归一化后的所述待转换基频序列、所述第四内容向量以及所选择的目标说话人标签，输入已训练的所述解码器，得到转换后的梅尔谱特征；将所述转换后的梅尔谱特征输入已训练的声码器，得到所述待转换音频对应的转换后的目标音频。8.一种语音转换模型的训练装置，所述语音转换模型包括编码器、瓶颈层以及解码器，所述装置包括：特征提取模块，配置为对样本音频进行特征提取，得到梅尔谱特征标签以及基频序列；第一输入模块，配置为将所述梅尔谱特征标签输入所述编码器，得到第一内容向量；第二输入模块，配置为将所述第一内容向量输入所述瓶颈层，得到当前码本向量以及第二内容向量，其中，所述瓶颈层用于去除输入向量中的说话人信息，所述当前码本向量为与所述第一内容向量距离最近的向量；第一确定模块，配置为基于所述第一内容向量和所述当前码本向量，确定第一损失值；
第三输入模块，配置为将所述第一内容向量输入感知机层，得到所述第一内容向量对应的各字符或空白符的发射概率；第二确定模块，配置为基于所述样本音频对应的转录文本标签以及所述发射概率，确定第二损失值；第四输入模块，配置为将归一化后的所述基频序列、所述第二内容向量以及所述样本音频对应的说话人标签，输入所述解码器，得到预测梅尔谱特征；第三确定模块，配置为基于所述梅尔谱特征标签以及所述预测梅尔谱特征，确定第三损失值；训练模块，配置为以最小化所述第一损失值、所述第二损失值以及所述第三损失值为目标，训练所述编码器、瓶颈层以及解码器。9.根据权利要求8所述的装置，其中，所述特征提取模块，具体配置为对所述样本音频进行预加重，得到对应的加重样本音频；对所述加重样本音频进行分帧，得到对应的子音频；针对每一子音频进行加窗；对每一加窗后的子音频进行快速傅里叶变换，得到每一加窗后的子音频的频谱，并基于每一加窗后的子音频的频谱，确定每一加窗后的子音频的能量谱；利用梅尔滤波器以及每一加窗后的子音频的能量谱，得到每一加窗后的子音频对应的梅尔谱特征，以得到所述样本音频对应的梅尔谱特征；基于每一加窗后的子音频，确定所述样本音频对应的基频序列。10.一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1
‑
7中任一项所述的方法。

技术总结
本说明书实施例提供一种语音转换模型的训练方法及装置，方法包括：对样本音频进行特征提取，得到梅尔谱特征标签及基频序列；将梅尔谱特征标签输入编码器，得到第一内容向量；将第一内容向量输入瓶颈层，得到当前码本向量及第二内容向量；基于第一内容向量和当前码本向量，确定第一损失值；将第一内容向量输入感知机层，得到第一内容向量对应的各字符或空白符的发射概率；基于样本音频的转录文本标签及发射概率，确定第二损失值；将归一化后的基频序列、第二内容向量及样本音频的说话人标签，输入解码器，得到预测梅尔谱特征；基于梅尔谱特征标签及预测梅尔谱特征，确定第三损失值；以最小化上述损失值为目标，训练语音转换模型。型。型。

技术研发人员：张鹏远陈子毅颜永红
受保护的技术使用者：中国科学院声学研究所
技术研发日：2021.09.06
技术公布日：2021/12/6

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种丢包补偿方法、装置、电子设备及存储介质与流程

一种语音转换模型的训练方法及装置与流程

相关文献

最热文献