一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语音合成装置、方法、电子设备和存储介质与流程

2021-07-09 13:20:00 来源:中国专利 TAG:语音合成 电子设备 装置 计算机 申请

技术特征:
1.一种语音合成装置,其特征在于,其包括语音合成处理模块和语音增强模块,所述语音合成处理模块的输出与所述语音增强模块的输入相连;其中,所述语音合成处理模块包括:文本编码器、韵律控制模块、位置敏感注意力模块、注意力过渡机制模块、解码器和声码器;其中,所述文本编码器用于基于输入的文本提取文本特征;所述韵律控制模块用于对所述文本编码器输出的文本特征增加韵律特征,将得到的包含文本特征和韵律特征的特征数据输入所述位置敏感注意力模块;所述位置敏感注意力模块用于根据位置敏感注意力机制获取所述特征数据中预设时间步长的对齐特征,将所述对齐特征输入所述注意力过渡机制模块;所述注意力过渡机制模块用于根据所述对齐特征计算各个预设时间步长对应的修正注意概率,并将所述修正注意概率输入所述解码器;所述解码器用于基于所述包含文本特征和韵律特征的特征数据生成频谱图,其中在生成频谱图过程中所述解码器根据所述对齐特征和所述修正注意概率确定在各时间步长上移动或者停留;所述声码器用于将所述频谱图转换为音频;所述语音增强模块用于对所述音频提取音频特征,对所述音频特征进行增强处理,并输出增强处理后的合成语音。2.根据权利要求1所述的语音合成装置,其中,所述语音合成装置是通过对神经网络进行训练而生成的,采用的训练数据包括文本以及阅读所述文本的语音。3.根据权利要求1或2所述的语音合成装置,其中,所述韵律控制模块包括韵律控制编码器,所述韵律控制编码器用于对接收到的音频进行处理以输出所述音频的韵律特征,所述韵律特征包括所述音频的梅尔普特征。4.根据权利要求1或2所述的语音合成装置,其中,所述在生成频谱图过程中所述解码器根据所述对齐特征和所述修正注意概率确定在各时间步长上移动或者停留,包括:如果第k个时间步长对应的修正注意概率大于或等于第一阈值,所述解码器确定在所述第k个时间步长上向前移动至第k

1个时间步长;如果第k个时间步长对应的修正注意概率小于所述第一阈值,所述解码器确定在所述第k个时间步长上停留至第k 1个时间步长到达;其中,所述第一阈值介于0至1之间。5.一种语音合成方法,其特征在于,所述语音合成方法基于权利要求1

4中任一项所述的语音合成装置,所述语音合成方法包括:将目标文本输入所述语音合成装置的所述文本编码器,将目标音频输入所述语音合成装置的所述韵律控制模块;接收所述语音合成装置输出的经过增强处理的合成语音,所述合成语音携带有所述目标音频的韵律特征。6.一种语音合成方法,其特征在于,所述语音合成方法基于权利要求1

4中任一项所述的语音合成装置,所述语音合成方法包括:提取目标文本的文本特征;对所述文本特征增加目标音频的韵律特征,得到包含文本特征和韵律特征的特征数据;
根据位置敏感注意力机制获取所述特征数据中预设时间步长的对齐特征;根据所述对齐特征计算各个预设时间步长对应的修正注意概率,所述修正注意概率能够使位置敏感注意力机制确定在各个时间步长上移动或者停留;在所述位置敏感注意力机制下根据所述包含文本特征和韵律特征的特征数据生成频谱图;将所述频谱图转换为音频;对所述音频提取音频特征,对所述音频特征进行增强处理,输出增强处理后的合成语音。7.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求6所述的方法。8.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行如权利要求6所述的方法。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜