一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

中英文混合的语音合成方法、装置、电子设备和存储介质与流程

2021-09-10 21:20:00 来源:中国专利 TAG:地说 中英文 电子设备 装置 混合

技术特征:
1.一种中英文混合的语音合成方法,其特征在于,包括:对包含中文文本和英文文本的初始文本进行正则化,将所述中文文本转换成带音调的拼音,将所述英文文本转换成单词;将正则化后的文本与对应的初始音频对齐,获得带停顿韵律的对齐文本;对所述对齐文本进行音素转换,将所述对齐文本中的拼音和单词分别转换成对应的cmu音素;将每个cmu音素转换成音素向量输入声学模型,获得对应于所述初始文本的梅尔谱特征;将所述梅尔谱特征输入声码器,合成目标音频。2.如权利要求1所述的语音合成方法,其特征在于,所述对所述对齐文本进行音素转换之前,还包括:获得覆盖所有拼音的声母和韵母,并获得cmu发音词典;建立第一转换关系,使每个声母和每个韵母根据所述第一转换关系映射至所述cmu发音词典中对应的cmu音素,且每个音调根据所述第一转换关系转换成不同于所述cmu发音词典中的重读标识的数字标识;建立第二转换关系,使不在所述cmu发音词典中的单词根据所述第二转换关系转换成对应的cmu音素。3.如权利要求2所述的语音合成方法,其特征在于,所述对所述对齐文本进行音素转换,包括:根据所述第一转换关系,将所述对齐文本中的拼音转换成对应的cmu音素;根据所述cmu发音词典和/或所述第二转换关系,将所述对齐文本中的单词转换成对应的cmu音素;以及返回所述对齐文本中的停顿韵律。4.如权利要求1所述的语音合成方法,其特征在于,所述将所述中文文本转换成带音调的拼音,包括:对所述中文文本中的标点符号进行处理,保留逗号、句号和问号并转换成英文格式;对所述中文文本中的数字和符号进行处理,将所述数字和符号按照实际场景读法转换成中文格式;将处理后的中文文本中的所有中文转换成带音调的拼音。5.如权利要求1所述的语音合成方法,其特征在于,所述将所述英文文本转换成单词,包括:对所述英文文本中的标点符号进行处理,保留逗号、句号、单引号和问号并转换成英文格式;将所述英文文本中的数字转换成单词。6.如权利要求1所述的语音合成方法,其特征在于,所述将正则化后的文本与对应的初始音频对齐,包括:将正则化后的文本中的拼音和单词与所述初始音频进行对齐;根据所述初始音频的各段静音时长,在对齐后的初始文本的对应位置添加各级停顿韵律。
7.如权利要求1所述的语音合成方法,其特征在于,所述声学模型基于seq2seq的编码器

解码器网络构建,包括双向长短期记忆网络、多层卷积神经网络和全连接层,并采用注意力机制学习音素向量与梅尔谱特征之间的对齐关系。8.如权利要求7所述的语音合成方法,其特征在于,所述声学模型包括中文编码器和英文编码器;训练时,将训练文本同时输入所述中文编码器和所述英文编码器;使用时,将拼音对应的音素向量输入所述中文编码器,将单词对应的音素向量输入所述英文编码器。9.如权利要求1所述的语音合成方法,其特征在于,所述声码器基于melgan的生成对抗网络构建。10.一种中英文混合的语音合成装置,其特征在于,包括:正则化模块,配置为对包含中文文本和英文文本的初始文本进行正则化,将所述中文文本转换成带音调的拼音,将所述英文文本转换成单词;对齐模块,配置为将正则化后的文本与对应的初始音频对齐,获得带停顿韵律的对齐文本;音素转换模块,配置为对所述对齐文本进行音素转换,将所述对齐文本中的拼音和单词分别转换成对应的cmu音素;声学模型模块,配置为将每个cmu音素转换成音素向量输入声学模型,获得对应于所述初始文本的梅尔谱特征;声码器模块,配置为将所述梅尔谱特征输入声码器,合成目标音频。11.一种电子设备,其特征在于,包括:一处理器;一存储器,所述存储器中存储有可执行指令;其中,所述可执行指令被所述处理器执行时,实现如权利要求1

9任一项所述的中英文混合的语音合成方法。12.一种计算机可读的存储介质,用于存储程序,其特征在于,所述程序被处理器执行时实现如权利要求1

9任一项所述的中英文混合的语音合成方法。

技术总结
本发明涉及语言处理技术领域,提供一种中英文混合的语音合成方法、装置、电子设备和存储介质。所述语音合成方法包括:对包含中文文本和英文文本的初始文本进行正则化,将所述中文文本转换成带音调的拼音,将所述英文文本转换成单词;将正则化后的文本与对应的初始音频对齐,获得带停顿韵律的对齐文本;对所述对齐文本进行音素转换,将所述对齐文本中的拼音和单词分别转换成对应的CMU音素;将每个CMU音素转换成音素向量输入声学模型,获得对应于所述初始文本的梅尔谱特征;将所述梅尔谱特征输入声码器,合成目标音频。本发明通过将中文和英文转换成统一的CMU音素,实现将中英文发音映射至同一发音空间中,有效提升中英文混合语音的合成效果。的合成效果。的合成效果。


技术研发人员:陈子浩 罗超 周明康 邹宇 李巍 严丽
受保护的技术使用者:携程科技(上海)有限公司
技术研发日:2021.06.21
技术公布日:2021/9/9
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜