语音合成方法、装置、电子设备以及程序产品与流程

2021-06-11 21:44:00 来源：中国专利 TAG：数据处理流媒体电子设备装置实施

技术特征：

1.一种语音合成方法，其特征在于，包括：

获取声学特征数据在多个采样时刻的特征采样数据；

利用语音合成网络同时对所述多个采样时刻的特征采样数据进行预测处理，获得所述多个采样时刻中任意两个目标采样时刻的线性预测数据和非线性预测数据；

根据所述两个目标采样时刻的线性预测数据和非线性预测数据，确定所述两个目标采样时刻的语音合成数据。

2.根据权利要求1所述的语音合成方法，其特征在于，所述利用语音合成网络同时对所述多个采样时刻的特征采样数据进行预测处理，获得所述多个采样时刻中任意两个目标采样时刻的线性预测数据和非线性预测数据，包括：

对多个采样时刻的特征采样数据进行线性预测处理，分别获得第m个采样时刻的线性语音数据pm和第m 1个采样时刻的线性语音数据pm 1；

获取第m-1个采样时刻的语音合成数据sm-1和非线性语音数据em-1，以及第m-2个采样时刻的语音合成数据sm-2和非线性语音数据em-2；

对第m个采样时刻以及第m 1个采样时刻的特征采样数据、语音合成数据sm-1、非线性语音数据em-1、语音合成数据sm-2、非线性语音数据em-2、线性语音数据pm以及线性语音数据pm 1进行非线性预测处理，获得第m个采样时刻的非线性语音数据em和第m 1个采样时刻的非线性语音数据em 1。

3.根据权利要求2所述的语音合成方法，其特征在于，所述语音合成网络包括帧率子网络和采样点子网络；

所述非线性预测处理，包括：

将第m个采样时刻以及第m 1个采样时刻的特征采样数据输入至所述帧率子网络，获得输出向量f；

将所述语音合成数据sm-1、非线性语音数据em-1、语音合成数据sm-2、非线性语音数据em-2、线性语音数据pm、线性语音数据pm 1以及输出向量f输入至所述采样点子网络，输出所述第m个采样时刻的非线性语音数据em和第m 1个采样时刻的非线性语音数据em 1。

4.根据权利要求3所述的语音合成方法，其特征在于，所述采样点子网络包括：采样层、映射层、全连接层、分类器；

将所述语音合成数据sm-1、非线性语音数据em-1、语音合成数据sm-2、非线性语音数据em-2、线性语音数据pm、线性语音数据pm 1以及输出向量f输入至所述采样层，输出采样数据；

将获得的采样数据输入至所述映射层，以对所述采样数据进行数据映射，获得第m个采样时刻对应的采样数据，和第m 1个采样时刻对应的采样数据；

将所述第m个采样时刻对应的采样数据，和第m 1个采样时刻对应的采样数据分别依次输入至所述全连接层和分类器，分别获得输出的第m个采样时的采样分布和第m 1个采样时刻的采样分布；

根据所述第m个采样时的采样分布确定第m个采样时刻的非线性语音数据em；以及，根据所述第m 1个采样时刻的采样分布确定第m 1个采样时刻的非线性语音数据em 1。

5.根据权利要求4所述的语音合成方法，其特征在于，所述语音合成网络为lpcnet网络，所述采样层为所述lpcnet网络中的gru层。

6.根据权利要求5所述的语音合成方法，其特征在于，所述gru层包括第一gru层和第二gru层；

所述第一gru层和第二gru层采用不同的采样频率对输入该层的数据进行采样处理。

7.一种语音合成装置，其特征在于，包括：

获取模块，用于获取声学特征数据在多个采样时刻的特征采样数据；

处理模块，利用语音合成网络同时对所述多个采样时刻的特征采样数据进行预测处理，获得所述多个采样时刻中任意两个目标采样时刻的线性预测数据和非线性预测数据；

合成模块，根据所述两个目标采样时刻的线性预测数据和非线性预测数据，确定所述两个目标采样时刻的语音合成数据。

8.一种电子设备，其特征在于，包括：存储器和处理器；

所述存储器用于存储程序指令；

所述处理器用于调用所述存储器中的程序指令执行如权利要求1-6任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序；所述计算机程序被执行时，实现如权利要求1-6任一项所述的方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-6任一项所述的方法的步骤。

技术总结
本公开的实施例提供的语音合成方法、装置、电子设备以及程序产品，通过获取声学特征数据在多个采样时刻的特征采样数据；利用语音合成网络同时对所述多个采样时刻的特征采样数据进行预测处理，获得所述多个采样时刻中任意两个目标采样时刻的线性预测数据和非线性预测数据；根据所述两个目标采样时刻的线性预测数据和非线性预测数据，确定所述两个目标采样时刻的语音合成数据，本公开提供的语音合成方法可针对声学特征数据的多个采样时刻中相邻的两个目标采样时刻同时进行预测处理，得到该两个目标采样时刻的语音合成数据，从而在保证语音合成质量的同时极大的提升了语音合成的实时率。

技术研发人员：文成;郭庭炜
受保护的技术使用者：北京嘀嘀无限科技发展有限公司
技术研发日：2021.03.11
技术公布日：2021.06.11

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种采用圆棒连接不同长度钢片发生的声音结构的制作方法

语音合成方法、装置、电子设备以及程序产品与流程

相关文章

最热文献