一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种语音转换的方法、装置及电子设备与流程

2021-09-10 22:16:00 来源:中国专利 TAG:语音 电子设备 装置 可读 转换

技术特征:
1.一种语音转换的方法,其特征在于,包括:确定语音识别模型,确定目标用户的变声模型,并确定声码器模型;所述语音识别模型是基于文本标注不存在声调标注的音频数据训练得到的,所述变声模型是基于所述语音识别模型所提取出的音频数据的特征向量训练得到的;获取源用户的源音频数据,基于所述语音识别模型提取所述源音频数据的特征向量,所述源音频数据的特征向量不存在声调标注;基于所述变声模型将所述源音频数据的特征向量转换为所述目标用户的声学特征;将所述目标用户的声学特征输入至所述声码器模型,将所述目标用户的声学特征转换为所述目标用户的音频信号。2.根据权利要求1所述的方法,其特征在于,所述确定语音识别模型包括:获取样本音频数据,并去除所述样本音频数据的文本标注中的声调标注;以所述样本音频数据作为输入、以相应的去除声调标注后的文本标注作为输出进行训练,生成语音识别模型。3.根据权利要求2所述的方法,其特征在于,所述以所述样本音频数据作为输入、以相应的去除声调标注后的文本标注作为输出进行训练,包括:提取所述样本音频数据的语音特征;以所述样本音频数据的语音特征作为输入、以相应的去除声调标注后的文本标注作为输出进行训练。4.根据权利要求1所述的方法,其特征在于,所述确定目标用户的变声模型包括:获取样本用户的第一音频数据,并提取所述第一音频数据的声学特征;获取目标用户的第二音频数据,并提取所述第二音频数据的声学特征;根据所述语音识别模型提取所述第一音频数据的特征向量,根据所述语音识别模型提取所述第二音频数据的特征向量,所述第一音频数据的特征向量和所述第二音频数据的特征向量均不存在声调标注;以所述第一音频数据的特征向量作为输入、所述第一音频数据的声学特征作为输出进行训练,生成变声基线模型;以所述第二音频数据的特征向量作为输入、所述第二音频数据的声学特征作为输出对所述变声基线模型进行微调,生成所述目标用户的变声模型。5.根据权利要求4所述的方法,其特征在于,所述变声模型包括编码器、自注意力层、双层长短期记忆层和解码器,所述编码器和所述解码器均包含多个深度神经网络层;所述编码器用于将音频数据的特征向量编码为第一隐层特征;所述第一隐层特征依次经过所述自注意力层、所述双层长短期记忆层后生成第二隐层特征;所述解码器用于将所述第二隐层特征转换为相应的声学特征。6.根据权利要求1所述的方法,其特征在于,所述确定声码器模型,包括:获取样本用户的第三音频数据,并提取所述第三音频数据的声学特征和音频信号;获取目标用户的第四音频数据,并提取所述第四音频数据的声学特征和音频信号;以所述第三音频数据的声学特征作为输入、所述第三音频数据的音频信号作为输出进行训练,生成声码器基线模型;以所述第四音频数据的声学特征作为输入、所述第四音频数据的音频信号作为输出对
所述声码器基线模型进行微调,生成所述目标用户的声码器模型。7.根据权利要求1

6任意一项所述的方法,其特征在于,所述特征向量为语音后验概率向量。8.一种语音转换的装置,其特征在于,包括:确定模块,用于确定语音识别模型,确定目标用户的变声模型,并确定声码器模型;所述语音识别模型是基于文本标注不存在声调标注的音频数据训练得到的,所述变声模型是基于所述语音识别模型所提取出的音频数据的特征向量训练得到的;特征提取模块,用于获取源用户的源音频数据,基于所述语音识别模型提取所述源音频数据的特征向量,所述源音频数据的特征向量不存在声调标注;转换模块,用于基于所述变声模型将所述源音频数据的特征向量转换为所述目标用户的声学特征;声码器模块,用于将所述目标用户的声学特征输入至所述声码器模型,将所述目标用户的声学特征转换为所述目标用户的音频信号。9.一种电子设备,包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述收发器、所述存储器和所述处理器通过所述总线相连,其特征在于,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的语音转换的方法中的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的语音转换的方法中的步骤。

技术总结
本发明提供了一种语音转换的方法、装置及电子设备,其中,该方法包括:确定语音识别模型、目标用户的变声模型、声码器模型;基于语音识别模型提取源音频数据的特征向量,源音频数据的特征向量不存在声调标注;将源音频数据的特征向量转换为目标用户的声学特征;将目标用户的声学特征转换为目标用户的音频信号。通过本发明实施例提供的语音转换的方法、装置及电子设备,基于未标注声调的音频数据训练语音识别模型,使得语音识别模型所提取出的源音频数据的特征向量不存在声调信息,从而可以弱化训练阶段与转换阶段之间的声调差异,能够将源音频数据转换为与目标用户更接近的声学特征,从而提高了转换后的音频与所需音频之间的相似度。度。度。


技术研发人员:王旭 衷奕 饶丰 魏萌
受保护的技术使用者:北京一起教育科技有限责任公司
技术研发日:2021.06.15
技术公布日:2021/9/9
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜