一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语音合成方法及装置与流程

2021-10-22 21:48:00 来源:中国专利 TAG:语音合成 装置 方法

技术特征:
1.一种语音合成方法,其特征在于,包括:获取待进行语音合成的文本;针对所述文本中的每个句子,将所述句子输入预设的属性识别模型,获取所述句子的属性特征;所述属性特征包括:说话方标识,和/或,情感类型;根据所述句子以及所述句子的属性特征,生成具有所述属性特征的语音;对所述文本中各个句子对应的语音进行合成处理,得到合成语音。2.根据权利要求1所述的方法,其特征在于,所述针对所述文本中的每个句子,将所述句子输入预设的属性识别模型,获取所述句子的属性特征之前,还包括:获取第一训练数据,所述第一训练数据中的每个训练样本包括:训练文本以及对应的属性特征;采用所述第一训练数据对初始的属性识别模型进行训练,得到所述预设的属性识别模型。3.根据权利要求1所述的方法,其特征在于,所述属性识别模型包括:说话方识别子模型和情感识别子模型;所述针对所述文本中的每个句子,将所述句子输入预设的属性识别模型,获取所述句子的属性特征,包括:针对所述文本中的每个句子,将所述句子输入所述说话方识别子模型,获取所述句子的说话方标识;和/或,针对所述文本中的每个句子,将所述句子输入所述情感识别子模型,获取所述句子的情感类型。4.根据权利要求3所述的方法,其特征在于,所述说话方识别子模型的数量为多个,每个说话方识别子模型对应一个说话方标识,用于识别句子的说话方标识是否为说话方识别子模型对应的说话方标识;所述情感识别子模型的数量为多个,每个情感识别子模型对应一种情感类型,用于识别句子的情感类型是否为情感识别子模型对应的情感类型。5.根据权利要求1所述的方法,其特征在于,所述根据所述句子以及所述句子的属性特征,生成具有所述属性特征的语音,包括:获取与所述句子的属性特征对应的语音合成模型;将所述句子输入与所述句子的属性特征对应的语音合成模型,获取具有所述属性特征的语音。6.根据权利要求5所述的方法,其特征在于,所述将所述句子输入与所述句子的属性特征对应的语音合成模型,获取具有所述属性特征的语音之前,还包括:针对所述属性特征,获取与所述属性特征对应的第二训练数据,所述第二训练数据中的每个训练样本包括:训练文本的属性特征,以及所述训练文本对应的语音;采用所述第二训练数据对初始的语音合成模型进行训练,得到与所述属性特征对应的语音合成模型。7.一种语音合成装置,其特征在于,包括:获取模块,用于获取待进行语音合成的文本;
输入模块,用于针对所述文本中的每个句子,将所述句子输入预设的属性识别模型,获取所述句子的属性特征;所述属性特征包括:说话方标识,和/或,情感类型;生成模块,用于根据所述句子以及所述句子的属性特征,生成具有所述属性特征的语音;处理模块,用于对所述文本中各个句子对应的语音进行合成处理,得到合成语音。8.根据权利要求7所述的装置,其特征在于,还包括:训练模块;所述获取模块,还用于获取第一训练数据,所述第一训练数据中的每个训练样本包括:训练文本以及对应的属性特征;所述训练模块,用于采用所述第一训练数据对初始的属性识别模型进行训练,得到所述预设的属性识别模型。9.根据权利要求7所述的装置,其特征在于,所述属性识别模型包括:说话方识别子模型和情感识别子模型;所述输入模块具体用于,针对所述文本中的每个句子,将所述句子输入所述说话方识别子模型,获取所述句子的说话方标识;和/或,针对所述文本中的每个句子,将所述句子输入所述情感识别子模型,获取所述句子的情感类型。10.根据权利要求9所述的装置,其特征在于,所述说话方识别子模型的数量为多个,每个说话方识别子模型对应一个说话方标识,用于识别句子的说话方标识是否为说话方识别子模型对应的说话方标识;所述情感识别子模型的数量为多个,每个情感识别子模型对应一种情感类型,用于识别句子的情感类型是否为情感识别子模型对应的情感类型。11.根据权利要求7所述的装置,其特征在于,所述生成模块具体用于,获取与所述句子的属性特征对应的语音合成模型;将所述句子输入与所述句子的属性特征对应的语音合成模型,获取具有所述属性特征的语音。12.根据权利要求11所述的装置,其特征在于,所述生成模块具体还用于,针对所述属性特征,获取与所述属性特征对应的第二训练数据,所述第二训练数据中的每个训练样本包括:训练文本的属性特征,以及所述训练文本对应的语音;采用所述第二训练数据对初始的语音合成模型进行训练,得到与所述属性特征对应的语音合成模型。13.一种语音合成装置,其特征在于,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6中任一所述的语音合成方法。14.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的语音合成方法。

技术总结
本申请提出一种语音合成方法及装置,其中方法包括:获取待进行语音合成的文本;针对文本中的每个句子,将句子输入预设的属性识别模型,获取句子的属性特征;属性特征包括:说话方标识,和/或,情感类型;根据句子以及句子的属性特征,生成具有属性特征的语音;对文本中各个句子对应的语音进行合成处理,得到合成语音,该方法可自动识别出文本中句子的属性特征,并根据句子的属性特征生成具有属性特征的语音,进而进行语音合成,提高了语音合成的准确度和效率,同时,降低了语音合成的成本。降低了语音合成的成本。降低了语音合成的成本。


技术研发人员:刘崴 张海雷 胡一川 汪冠春 褚瑞 李玮
受保护的技术使用者:北京奔影网络科技有限公司
技术研发日:2020.03.31
技术公布日:2021/10/21
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜