一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据转换方法及计算机存储介质与流程

2022-02-20 20:17:53 来源:中国专利 TAG:

技术特征:
1.一种数据转换方法,包括:获取待转换文本对应的音素向量、文本向量和目标人声的声纹特征向量;根据所述音素向量和所述文本向量,获得所述待转换文本对应的语言学特征向量;根据所述文本向量和所述声纹特征向量,预测获得所述待转换文本的隐藏韵律矢量;根据所述语言学特征向量、所述隐藏韵律矢量和所述声纹特征向量,生成所述待转换文本对应的语音频谱信息。2.根据权利要求1所述的方法,其中,所述文本向量为所述待转换文本中的每个字符对应的字符文本向量。3.根据权利要求1或2所述的方法,其中,所述数据转换方法通过韵律模型执行,所述韵律模型至少包括:音素编码网络、文本编码网络、隐藏韵律矢量预测网络、向量拼接层和解码网络;所述音素编码网络,用于获取待转换文本对应的音素向量;所述文本编码网络,用于获取待转换文本对应的文本向量;所述隐藏韵律矢量预测网络,用于根据所述待转换文本对应的文本向量和获取的目标人声的声纹特征向量,预测获得所述待转换文本的隐藏韵律矢量;所述向量拼接层,用于对所述音素向量和所述文本向量进行加和,获得所述待转换文本对应的语言学特征向量;以及,对所述语言学特征向量、所述隐藏韵律矢量和所述声纹特征向量进行拼接,生成拼接向量;所述解码网络,用于对所述拼接向量进行解码,获得所述待转换文本对应的语音频谱信息。4.根据权利要求3所述的方法,其中,所述文本编码网络包括字符编码网络和上下文编码网络;所述字符编码网络,用于对所述待转换文本进行字符级别的编码,生成用于和所述音素向量进行加和的字符文本向量;所述上下文编码网络,用于对所述待转换文本进行字符级别的编码,生成用于与所述声纹特征向量一起输入所述隐藏韵律矢量预测网络的字符文本向量。5.根据权利要求4所述的方法,其中,所述方法还包括:获取训练样本,所述训练样本包括待转换文本样本及对应的语音样本、和声纹特征样本向量,所述语音样本为频段为0-2khz频段的语音样本;使用所述训练样本对所述韵律模型进行训练。6.根据权利要求5所述的方法,其中,所述韵律模型还包括韵律编码网络;所述使用所述训练样本对所述韵律模型进行训练,包括:将所述待转换文本样本对应的音素输入音素编码网络,获得对应的音素样本向量;将所述待转换文本样本的字符输入文本编码网络,获得对应的字符样本文本向量;将所述语音样本、所述音素样本向量、所述字符样本文本向量和所述声纹特征样本向量输入韵律编码网络,获得对应的第一隐藏韵律样本矢量;基于所述音素样本向量、所述字符样本文本向量、所述声纹特征样本向量和所述第一隐藏韵律样本矢量,对所述韵律模型进行训练。7.根据权利要求6所述的方法,其中,
所述将所述待转换文本样本的字符输入文本编码网络,获得对应的字符样本文本向量,包括:将所述待转换文本的字符分别输入字符编码网络和上下文编码网络,获得对应的第一字符样本文本向量和第二字符样本文本向量;所述将所述语音样本、所述音素样本向量、所述字符样本文本向量和所述声纹特征样本向量输入韵律编码网络,获得对应的第一隐藏韵律样本矢量,包括:将所述语音样本、所述音素样本向量、所述第一字符样本文本向量和所述声纹特征样本向量输入韵律编码网络,获得对应的第一隐藏韵律样本矢量。8.根据权利要求7所述的方法,其中,所述将所述语音样本、所述音素样本向量、所述第一字符样本文本向量和所述声纹特征样本向量输入韵律编码网络,获得对应的第一隐藏韵律样本矢量包括:通过所述韵律编码网络的第一卷积层基于所述音素样本向量和所述声纹特征样本向量,对所述语音样本进行特征提取,获得第一韵律样本特征;通过所述韵律编码网络的池化层对所述第一韵律样本特征进行字符级别的池化处理,获得字符级别的韵律样本特征;通过所述韵律编码网络的第二卷积层基于所述第一字符样本文本向量和所述声纹特征样本向量,对所述字符级别的韵律样本特征进行特征提取,获得第二韵律样本特征;通过所述韵律编码网络的矢量化层对所述第二韵律样本特征进行矢量化处理,获得第一隐藏韵律样本矢量。9.根据权利要求7所述的方法,其中,所述基于所述音素样本向量、所述字符样本文本向量、所述声纹特征样本向量和所述第一隐藏韵律样本矢量,对所述韵律模型进行训练,包括:将所述第二字符样本文本向量和所述声纹特征样本向量输入所述隐藏韵律矢量预测网络,预测获得第二隐藏韵律样本矢量;根据所述第一隐藏韵律样本矢量和所述第二隐藏韵律样本矢量的差异,对所述隐藏韵律矢量预测网络进行训练。10.一种数据转换方法,包括:获取向智能设备发送的用户指令的响应,所述响应中包含有针对所述用户指令的待回复文本;获取所述待回复文本对应的音素向量、文本向量和目标人声的声纹特征向量;根据所述音素向量和所述文本向量,获得所述待回复文本对应的语言学特征向量;根据所述文本向量和所述声纹特征向量,预测获得所述待回复文本的隐藏韵律矢量;根据所述语言学特征向量、所述隐藏韵律矢量和所述声纹特征向量,生成所述待回复文本对应的语音频谱信息;根据所述语音频谱信息生成所述待回复文本对应的语音并播放。11.一种数据转换方法,包括:获取待直播对象对应的直播剧本文本;获取所述直播剧本文本对应的音素向量、文本向量和目标人声的声纹特征向量;根据所述音素向量和所述文本向量,获得所述直播剧本文本对应的语言学特征向量;根据所述文本向量和所述声纹特征向量,预测获得所述直播剧本文本的隐藏韵律矢量;
根据所述语言学特征向量、所述隐藏韵律矢量和所述声纹特征向量,生成所述直播剧本文本对应的语音频谱信息;根据所述语音频谱信息生成所述直播剧本文本对应的直播语音。12.一种数据转换方法,包括:获取待演播的剧本文本,其中,所述待演播的剧本文本包括以下之一:音频或视频对应的台词剧本、电子书文本内容;获取所述剧本文本对应的音素向量、文本向量和目标人声的声纹特征向量;根据所述音素向量和所述文本向量,获得所述剧本文本对应的语言学特征向量;根据所述文本向量和所述声纹特征向量,预测获得所述剧本文本的隐藏韵律矢量;根据所述语言学特征向量、所述隐藏韵律矢量和所述声纹特征向量,生成所述剧本文本对应的语音频谱信息;根据所述语音频谱信息生成所述剧本文本对应的演播语音。13.一种数据转换方法,包括:通过韵律模型的音素编码网络获取待转换文本对应的音素向量;并且,通过所述韵律模型的文本编码网络获取所述待转换文本对应的文本向量;通过所述韵律模型的隐藏韵律矢量预测网络根据所述待转换文本对应的文本向量和获取的目标人声的声纹特征向量,预测获得所述待转换文本的隐藏韵律矢量;通过所述韵律模型的向量拼接层对所述音素向量和所述文本向量进行加和,获得所述待转换文本对应的语言学特征向量;以及,对所述语言学特征向量、所述隐藏韵律矢量和所述声纹特征向量进行拼接,生成拼接向量;通过所述韵律模型的解码网络对所述拼接向量进行解码,获得所述待转换文本对应的语音频谱信息。14.一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-13中任一所述的数据转换方法。

技术总结
本申请实施例提供了一种数据转换方法及计算机存储介质,其中,数据转换方法包括:获取待转换文本对应的音素向量、文本向量和目标人声的声纹特征向量;根据所述音素向量和所述文本向量,获得所述待转换文本对应的语言学特征向量;根据所述文本向量和所述声纹特征向量,预测获得所述待转换文本的隐藏韵律矢量;根据所述语言学特征向量、所述隐藏韵律矢量和所述声纹特征向量,生成所述待转换文本对应的语音频谱信息。通过本申请实施例,能够使得为待转换为语音的文本确定的韵律更为准确。换为语音的文本确定的韵律更为准确。换为语音的文本确定的韵律更为准确。


技术研发人员:任意 雷鸣 黄智颖 张仕良 陈谦 鄢志杰
受保护的技术使用者:阿里巴巴达摩院(杭州)科技有限公司
技术研发日:2021.12.20
技术公布日:2022/1/18
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献