一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语音转换方法、装置、服务器及存储介质与流程

2021-07-27 15:30:00 来源:中国专利 TAG:语音 装置 器及 转换 方法

技术特征:

1.一种语音转换方法,其特征在于,包括:

获取训练样本数据,所述训练样本数据包括第一样本对或第二样本对,所述第一样本对包括第一语音数据和第二语音数据,所述第一语音数据对应的情绪标签与第二语音数据对应的情绪标签不同,所述第二样本对包括第三语音数据和所述第三语音数据对应的文本信息;

调用预设的语音转换模型,所述语音转换模型包括文本编码器、语音编码器、情绪编码器和特征转换层;

若所述训练样本数据为所述第一样本对,则将所述第一语音数据输入所述语音编码器进行编码操作,得到语音特征向量,并将所述第二语音数据输入所述情绪编码器进行编码操作,得到第一情绪特征向量;

将所述语音特征向量和所述第一情绪特征向量输入所述特征转换层进行处理,得到第一线性谱图和第一梅尔谱图;

根据所述第一线性谱图和所述第一梅尔谱图,确定所述语音转换模型是否收敛;以及

若所述训练样本数据为所述第二样本对,则将所述第三语音数据输入所述情绪编码器进行编码操作,得到第二情绪特征向量,并将所述文本信息输入所述文本编码器进行编码操作,得到文本特征向量;

将所述文本特征向量和所述第二情绪特征向量输入所述特征转换层进行处理,得到第二线性谱图和第二梅尔谱图;

根据所述第二线性谱图和所述第二梅尔谱图,确定所述语音转换模型是否收敛;

若所述语音转换模型未收敛,则更新所述语音转换模型的模型参数,并执行获取训练样本数据的步骤,直至所述语音转换模型收敛;

获取待转换的目标语音数据,以及获取表征目标情绪的参考语音数据;

将所述目标语音数据和所述参考语音数据输入收敛的所述语音转换模型,得到表征所述目标情绪的目标语音信号。

2.如权利要求1所述的语音转换方法,其特征在于,所述获取训练样本数据,包括:

获取多个训练样本,所述训练样本包括语音数据、所述语音数据对应的文本信息和情绪标签;

根据所述多个训练样本,构造所述第一样本对和所述第二样本对;

选取所述第一样本对或者所述第二样本对作为训练样本数据。

3.如权利要求2所述的语音转换方法,其特征在于,所述根据所述多个训练样本,构造所述第一样本对和所述第二样本对,包括:

确定待选取的第一情绪标签和第二情绪标签;

从所述多个训练样本中选取所述第一情绪标签对应的第一语音数据与所述第二情绪标签对应的第二语音数据进行组合,得到第一样本对;

从所述多个训练样本中选取第三语音数据与所述第三语音数据对应的文本信息进行组合,得到多个第二样本对。

4.如权利要求2所述的语音转换方法,其特征在于,所述选取所述第一样本对或者所述第二样本对作为训练样本数据,包括:

确定模型训练任务,所述模型训练任务包括第一训练任务和第二训练任务,所述第一训练任务用于实现语音到语音转换的模型训练,所述第二训练任务用于实现文本到语音转换的模型训练;

若所述模型训练任务为第一训练任务,则将所述第一样本对作为训练样本数据;

若所述模型训练任务为第二训练任务,则将所述第二样本对作为训练样本数据。

5.如权利要求4所述的语音转换方法,其特征在于,所述确定模型训练任务,包括:

确定预设函数的输出结果,所述预设函数包括随机输出第一元素和第二元素的函数;

当所述输出结果为所述第一元素时,确定所述模型训练任务为第一训练任务;

当所述输出结果为所述第二元素时,确定所述模型训练任务为第二训练任务。

6.如权利要求1-5中任一项所述的语音转换方法,其特征在于,所述特征转换层包括注意力层、解码器和后处理网络;所述将所述语音特征向量和所述第一情绪特征向量输入所述特征转换层进行处理,得到第一线性谱图和第一梅尔谱图,包括:

将所述语音特征向量和所述第一情绪特征向量输入所述注意力层进行映射,得到目标特征向量;

将所述目标特征向量输入所述解码器进行解码,得到第一梅尔谱图;

将所述第一梅尔频谱输入所述后处理网络进行处理,得到第一线性谱图。

7.如权利要求1-5中任一项所述的语音转换方法,其特征在于,所述将所述目标语音数据和所述参考语音数据输入收敛的所述语音转换模型,得到表征所述目标情绪的目标语音信号,包括:

将所述目标语音数据输入所述语音编码器进行编码操作,以提取所述目标语音数据的语音特征向量,将所述参考语音数据输入所述情绪编码器进行编码操作,以提取所述参考语音数据的情绪特征向量;

将所述目标语音数据的语音特征向量和所述参考语音数据的情绪特征向量输入所述特征转换层进行处理,得到目标线性谱图;

将所述目标线性谱图转换输入收敛的所述语音转换模型的声码器进行声码转换,得到表征所述目标情绪的目标语音信号。

8.一种语音转换装置,其特征在于,所述语音转换装置包括:

获取模块,用于获取训练样本数据,所述训练样本数据包括第一样本对或第二样本对,所述第一样本对包括第一语音数据和第二语音数据,所述第一语音数据对应的情绪标签与第二语音数据对应的情绪标签不同,所述第二样本对包括第三语音数据和所述第三语音数据对应的文本信息;

调用模块,用于调用预设的语音转换模型,所述语音转换模型包括文本编码器、语音编码器、情绪编码器和特征转换层;

第一编码模块,用于若判断所述训练样本数据为所述第一样本对,则将所述第一语音数据输入所述语音编码器进行编码操作,得到语音特征向量,并将所述第二语音数据输入所述情绪编码器进行编码操作,得到第一情绪特征向量;

第一转换模块,用于将所述语音特征向量和所述第一情绪特征向量输入所述特征转换层进行处理,得到第一线性谱图和第一梅尔谱图;

第一确定模块,用于根据所述第一线性谱图和所述第一梅尔谱图,确定所述语音转换模型是否收敛;以及

第二编码模块,用于若判断所述训练样本数据为所述第二样本对,则将所述第三语音数据输入所述情绪编码器进行编码操作,得到第二情绪特征向量,并将所述文本信息输入所述文本编码器进行编码操作,得到文本特征向量;

第二转换模块,用于将所述文本特征向量和所述第二情绪特征向量输入所述特征转换层进行处理,得到第二线性谱图和第二梅尔谱图;

第二确定模块,用于根据所述第二线性谱图和所述第二梅尔谱图,确定所述语音转换模型是否收敛;

更新模块,用于若所述语音转换模型未收敛,则更新所述语音转换模型的模型参数,并执行获取训练样本数据的步骤,直至所述语音转换模型收敛;

所述获取模块,还用于获取待转换的目标语音数据,以及获取表征目标情绪的参考语音数据;

输入模块,用于将所述目标语音数据和所述参考语音数据输入收敛的所述语音转换模型,得到表征所述目标情绪的目标语音信号。

9.一种服务器,其特征在于,所述服务器包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如权利要求1至7所述的语音转换方法的步骤。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如权利要求1至7所述的语音转换方法的步骤。


技术总结
本申请涉及人工智能中的语音处理,提供一种语音转换方法、装置、服务器及存储介质,该方法包括:获取训练样本数据,训练样本数据包括第一样本对或第二样本对;若训练样本数据为第一样本对,则将第一语音数据输入语音编码器,得到语音特征向量,并将第二语音数据输入情绪编码器,得到第一情绪特征向量;将语音特征向量和第一情绪特征向量输入特征转换层,得到第一线性谱图和第一梅尔谱图;根据第一线性谱图和第一梅尔谱图,更新语音转换模型的模型参数,直至语音转换模型收敛;将待转换的目标语音数据以及表征目标情绪的参考语音数据输入收敛的语音转换模型,得到目标语音信号。本申请能够提高语音转换的准确度。

技术研发人员:孙奥兰;王健宗;程宁
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2021.04.28
技术公布日:2021.07.27
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜