一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种融合韵律和个人信息的中文语音合成方法与流程

2021-09-15 01:41:00 来源:中国专利 TAG:韵律 个人信息 中文 融合 语音

技术特征:
1.一种融合韵律和个人信息的中文语音合成方法,其特征在于,包括如下步骤:步骤1:将输入文本、输入文本对应的拼音和输入文本的词法句法特征输入层次化韵律预测模型,得到输入文本的多层韵律信息;步骤2:将输入文本对应的拼音、声调输入到声学模型,得到输入文本对应的语音特征谱图;步骤3:将多层韵律信息引入声学模型,将层次化韵律预测模型和声学模型进行联合形成新的声学模型;步骤4:在新的声学模型中引入说话人信息,形成个性化语音合成模型,支持多人个性化语音合成。2.根据权利要求1所述的中文语音合成方法,其特征在于,在所述步骤1中,所述层次化韵律预测模型包括编码模块和多任务学习模块,所述编码模块:将输入文本输入预训练的bert语言模型,得到文本的上下文表示,将其与输入文本对应的拼音、词法句法特征表示进行拼接,然后经多层全连接网络进行编码;所述多任务学习模块是一个层次化的基于双向门控循环网络的条件随机场模型:将文本韵律分为四层,对于每一层的韵律,采用将低层韵律预测结果和编码层输出经全连接网络转换后输入条件随机场模型bigru

crf预测下一层的方式实现。3.根据权利要求2所述的中文语音合成方法,其特征在于,在所述步骤2中,所述声学模型包括编码单元和解码模块,所述编码单元:将输入语句编码成上下文语义表示,在transformer模块的基础上引入一个门控线性单元来增强对信息流的控制和三个卷积模块来建模局部信息;所述解码模块:自回归生成最终的语音特征谱图;包括一个注意力机制模块,通过注意力机制学习输入序列和输出序列的映射关系。4.根据权利要求3所述的中文语音合成方法,其特征在于,所述门控线性单元用于对信息流进行控制;所述三个卷积模块分别为两个仿inception网络分支结构和深度可分离卷积模块;所述仿inception网络分支结构:用于对特征层面进行多粒度融合;所述深度可分离卷积模块:用于对特征层面的深度和空间的信息进行解耦。5.根据权利要求3所述的中文语音合成方法,其特征在于,在所述注意力机制模块中,采用基于前向的注意力机制保持声学模型的注意力对齐路径单调递进,同时使用对角注意力损失来促进声学模型的收敛速度。6.根据权利要求5所述的中文语音合成方法,其特征在于,在所述注意力机制模块中,前向注意力机制保证当前解码时刻的注意力状态只能由前一时刻前一编码步位置或者相同编码步位置的注意力状态转移而来,确保了声学模型在学习对齐时,注意力权重对齐路径保持单调递进。7.根据权利要求1

6任一项所述的中文语音合成方法,其特征在于,通过三种优化步骤对声学模型进行优化,三种优化步骤分别为差分损失优化步骤、波形损失优化步骤、混合输入优化步骤,所述差分损失优化步骤:首先将真实谱图和合成谱图经过一阶差分计算得到对应处理图像,然后再对其两者进行均方差损失操作;
所述波形损失优化步骤:首先通过声码器将真实谱图和语音特征谱图转换成对应的波形,然后计算两个波形之间的失真程度当作波形损失,使得声学模型生成的谱图经过相位重建之后的音频更接近原始音频;所述混合输入优化步骤:将预测信息和真实信息混合作为解码模块的输入。8.根据权利要求7所述的中文语音合成方法,其特征在于,在所述混合输入优化步骤中,在训练时刻,在每一个解码时刻采取上一时刻的预测值和该时刻的真实值的拼接作为解码模块的输入;在推理时刻,在每一个解码时刻,将上一时刻的预测值进行复制拼接的值作为解码模块的输入。9.一种中文语音合成系统,其特征在于,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现权利要求1-8中任一项所述的中文语音合成方法的步骤。10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现权利要求1-8中任一项所述的中文语音合成方法的步骤。

技术总结
本发明提供了一种融合韵律和个人信息的中文语音合成方法,中文语音合成方法包括如下步骤:步骤1:将输入文本、输入文本对应的拼音和输入文本的词法句法特征输入层次化韵律预测模型,得到输入文本的多层韵律信息;步骤2:将输入文本对应的拼音、声调等输入到声学模型,得到输入文本对应的语音特征谱图;步骤3:将多层韵律信息引入声学模型,将层次化韵律预测模型和声学模型进行联合,形成新的声学模型;步骤4:在新的声学模型中引入说话人信息,形成个性化语音合成模型,支持多人个性化语音合成。本发明有益效果:本发明在目前端到端合成模型的基础上,提高音频质量、速度;单人和多人的应用场景下,探索一种联合韵律预测任务和梅尔谱图生成任务的多任务学习方法,使得合成音频的停顿节奏感更自然,更贴近原始音频。更贴近原始音频。更贴近原始音频。


技术研发人员:汤步洲 付沪豪 刘超
受保护的技术使用者:哈尔滨工业大学(深圳)
技术研发日:2021.06.16
技术公布日:2021/9/14
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜