语音合成系统的生成方法、装置、设备及存储介质与流程

2021-08-24 16:08:00 来源：中国专利 TAG：语音合成装置生成计算机方法

技术特征：

1.一种语音合成系统的生成方法，其特征在于，所述方法包括：

获取预设训练集中的训练样本，并对所获取的训练样本进行分解以得到相应的声学参数和多个特征参数；

根据预设的听感量化编码规则对每个训练样本的特征参数进行听感量化编码以得到相应的中间编码信息；

将所得到的中间编码信息输入预设的神经网络模型中进行训练以得到一中间模型；

将所获取的训练样本的声学参数输入所述中间模型进行训练，以得到相应的目标语音合成系统。

2.如权利要求1所述的方法，其特征在于，所述特征参数包括发音人、语种、情感风格以及残差信息，所述根据预设的听感量化编码规则对每个训练样本的特征参数进行听感量化编码以得到相应的中间编码信息的步骤，包括：

根据用户发送的标志请求分别标志每个训练样本的发音人、语种以及情感风格，以确定发音人量化编码、语种量化编码以及情感风格量化编码；

随机初始化每个训练样本的残差信息以得到相应的残差量化编码。

3.如权利要求2所述的方法，其特征在于，所述预设的神经网络模型包括全连接前馈网络模型以及长短时记忆网络模型，所述将所得到的中间编码信息输入预设的神经网络模型中进行训练以得到一中间模型的步骤，包括：

将所得到的中间编码信息输入全连接前馈网络中进行训练，以得到一第一神经网络模型并输出对应的第一参数信息；

将所输出的第一参数信息输入长短时记忆网络模型中进行训练，以得到一第二神经网络模型；

将训练后得到的第一神经网络模型以及第二神经网络模型组合确定为中间模型。

4.如权利要求3所述的方法，其特征在于，所述将所获取的训练样本的声学参数输入所述中间模型进行训练，以得到相应的目标语音合成系统的步骤，包括：

将所获取的训练样本的声学参数输入所述第一神经网络模型中进行训练，以得到第一语音合成模型并输出对应的第二参数信息；

将所输出的第二参数信息输入第二神经网络模型中进行训练，以得到第二语音合成模型；

将训练后得到的第一语音合成模型以及第二语音合成模型组合确定为目标语音合成系统。

5.如权利要求3所述的方法，其特征在于，所述长短时记忆网络模型包括3层长短时记忆网络子模型，所述将所输出的第一参数信息输入长短时记忆网络模型中进行训练，以得到一第二神经网络模型的步骤，包括：

将所输出的第一参数信息输入第一层长短时记忆网络子模型后，将第一层长短时记忆网络子模型的输出内容输入第二长短时记忆网络子模型，再将第二长短时记忆网络子模型的输出内容输入第三长短时记忆网络子模型，以完成对长短时记忆网络模型的训练，从而得到一第二神经网络模型。

6.如权利要求2所述的方法，其特征在于，所述预设的神经网络模型所采用的模型公式：

p(x，λ^s，λ^l，λ^e，λ^r│c)＝p(λ^s)p(λ^l)p(λ^r)p(λ^e│c，λ^l，λ^s)p(x│λ^s，λ^l，λ^e，λ^r，c)

其中，训练集中的训练样本的声学参数为{x：x1，x2，x3，...，xn}，与其对应的文本为{c：c1，c2，c3，...，cn}，λ^s为发音人量化编码、λ^l为语种量化编码、λ^e为情感风格量化编码，λ^r为残差量化编码。

7.如权利要求1所述的方法，其特征在于，所述方法还包括：

若检测到新增的训练样本，根据预设的听感量化编码规则对每个新增的训练样本的特征参数进行听感量化编码以得到相应的中间编码信息；

将所得到的中间编码信息输入目标语音合成系统中进行再次训练以得到一新的中间模型；

将所得到的新增的训练样本的声学参数输入所新增的中间模型中进行训练，以得到新的目标语音合成系统。

8.一种语音合成系统的生成装置，其特征在于，所述装置包括：

样本获取单元，用于获取预设训练集中的训练样本，并对所获取的训练样本进行分解以得到相应的声学参数和多个特征参数；

量化编码单元，用于根据预设的听感量化编码规则对每个训练样本的特征参数进行听感量化编码以得到相应的中间编码信息；

第一训练单元，用于将所得到的中间编码信息输入预设的神经网络模型中进行训练以得到一中间模型；

第二训练单元，用于将所获取的训练样本的声学参数输入所述中间模型进行训练，以得到相应的目标语音合成系统。

9.一种计算机设备，其特征在于，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器执行如权利要求1-7中任一项所述的方法。

技术总结
本发明实施例公开了一种语音合成系统的生成方法、装置、计算机设备及存储介质，其中所述方法包括获取预设训练集中的训练样本，并对所获取的训练样本进行分解以得到相应的声学参数和多个特征参数；根据预设的听感量化编码规则对每个训练样本的特征参数进行听感量化编码以得到相应的中间编码信息；将所得到的中间编码信息输入预设的神经网络模型中进行训练以得到一中间模型；将所获取的训练样本的声学参数输入所述中间模型进行训练，以得到相应的目标语音合成系统。本发明可以提高语音合成系统的自然度和对合成语音的控制力，以及提高用户的使用体验度，还能应用于智慧政务等场景中，从而推动智慧城市的建设。

技术研发人员：孙奥兰;王健宗;程宁
受保护的技术使用者：平安科技(深圳)有限公司
技术研发日：2021.05.20
技术公布日：2021.08.24

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种用于声控发光驻波实验仪的声光转换阵列的制作方法

语音合成系统的生成方法、装置、设备及存储介质与流程

相关文章

最热文献