语音合成方法、系统、设备及存储介质与流程

2021-09-17 20:53:00 来源：中国专利 TAG：信号处理语音方法设备语音合成

技术特征：
1.一种语音合成方法，其特征在于，包括：获取待合成文本在多个通道上的声学特征，不同通道对应不同声学频带；利用结合了线性预测编码的神经网络对所述多个通道上的声学特征进行预测，得到所述多个通道上的线性预测参数和非线性残差；根据所述多个通道的上的线性预测参数和非线性残差进行语音合成，得到所述待合成文本对应的合成语音。2.根据权利要求1所述的方法，其特征在于，所述获取待合成文本在多个通道上的声学特征，包括：接收语音合成系统中前端模块发送的待合成文本在多个通道上的声学特征；所述待合成文本在多个通道上的声学特征是所述前端模块对所述待合成文本进行特征提取得到的。3.根据权利要求1所述的方法，其特征在于，所述获取待合成文本在多个通道上的声学特征，包括：获取所述待合成文本对应的初始语音；利用与所述多个通道对应的滤波器对所述初始语音进行子带分析，得到多通道上的语音信号；对所述多通道上的语音信号分别进行特征提取，得到多个通道上的声学特征。4.根据权利要求1-3任一项所述的方法，其特征在于，利用结合了线性预测编码的神经网络对所述多个通道上的声学特征进行预测，得到所述多个通道上的线性预测参数和非线性残差，包括：将所述多个通道上的声学特征输入多通道线性预测网络声码器，所述多通道线性预测网络声码器包含结合了线性预测编码的神经网络；以及利用所述多通道线性预测网络声码器对所述多个通道上的声学特征进行预测，得到所述多个通道上的线性预测参数和非线性残差。5.根据权利要求4所述的方法，其特征在于，利用所述多通道线性预测网络声码器对所述多个通道上的声学特征进行预测，得到所述多个通道上的线性预测参数和非线性残差，包括：利用所述多通道线性预测网络声码器中的帧速率网络，对所述多个通道上的声学特征以帧为单位进行特征转换得到条件向量；对所述多个通道上的声学特征分别进行线性预测编码，得到多个通道上的线性预测参数；基于所述条件向量和所述多个通道上的线性预测参数，利用所述多通道线性预测网络声码器中的采样率网络预测所述多个通道上的非线性残差。6.根据权利要求5所述的方法，其特征在于，根据所述多个通道的上的线性预测参数和非线性残差进行语音合成，得到所述待合成文本对应的合成语音，包括：在所述多通道线性预测网络声码器内，对每个通道，根据所述通道上的线性预测参数和非线性残差进行语音合成，得到所述通道上的合成语音；将所述多个通道上的合成语音进行叠加，得到所述待合成文本对应的合成语音。7.根据权利要求6所述的方法，其特征在于，将所述多个通道上的合成语音进行叠加，得到所述待合成文本对应的合成语音，包括：
对所述多个通道上的合成语音进行上采样，得到所述多个通道上具有指定采样率的合成语音；对所述多个通道上具有指定采样率的合成语音进行叠加，得到所述待合成文本对应的合成语音。8.根据权利要求6所述的方法，其特征在于，每个通道上的声学特征包括：多个采样特征；对所述多个通道上的声学特征分别进行线性预测编码，得到多个通道上的线性预测参数，包括：对每个通道，对所述通道上的当前采样特征和所述通道上前一采样特征对应的合成语音进行线性预测，得到所述通道上当前采样特征对应的线性预测参数。9.根据权利要求8所述的方法，其特征在于，基于所述条件向量和所述多个通道上的线性预测参数，利用所述多通道线性预测网络声码器中的采样率网络预测所述多个通道上的非线性残差，包括：将所述条件向量、所述多个通道上当前采样特征对应的线性预测参数、所述多个通道上前一采样特征对应的合成语音以及所述采样率网络输出的所述多个通道上前一采样特征对应的非线性残差输入所述采样率网络进行非线性预测，得到所述多个通道上当前采样特征对应的非线性残差。10.根据权利要求9所述的方法，其特征在于，所述采样率网络包括：主采样率网络和与所述多个通道对应的多个子采样率网络；将所述条件向量、所述多个通道上当前采样特征对应的线性预测参数、所述多个通道上前一采样特征对应的合成语音以及所述采样率网络输出的所述多个通道上前一采样特征对应的非线性残差输入所述采样率网络进行非线性预测，得到所述多个通道上当前采样特征对应的非线性残差，包括：将所述条件向量、所述多个通道上当前采样特征对应的线性预测参数、所述多个通道上前一采样特征对应的合成语音以及所述采样率网络输出的所述多个通道上前一采样特征对应的非线性残差输入所述主采样率网络进行向量化处理，得到参数向量；将所述参数向量分别输入所述多个子采样率网络进行残差分类，得到所述多个通道上当前采样特征对应的非线性残差。11.根据权利要求10所述的方法，其特征在于，所述主采样率网络依次包括：连接层、门控制循环单元gru
a
和门控制循环单元gru
b
；所述每个子采样率网络依次包括：对偶全连接层、分类器以及采样层。12.一种多通道线性预测网络声码器，其特征在于，包括：支持多通道输入的帧速率网络、多个线性预测编码器lpc、支持多通道输入的采样率网络以及合成网络；所述帧速率网络，用于接收待合成文本在多个通道上的声学特征，对所述多个通道上的声学特征以帧为单位进行特征转换得到条件向量，并将所述条件向量输出至所述采样率网络；所述多个lpc，用于对所述多个通道上的声学特征分别进行线性预测编码，得到多个通道上的线性预测参数，并输出至所述采样率网络和所述合成网络；所述采样率网络，用于基于所述条件向量和所述多个通道上的线性预测参数，预测所述多个通道上的非线性残差，并输出至所述合成网络；
所述合成网络，用于根据所述多个通道上的线性预测参数和非线性残差进行语音合成，得到所述待合成文本对应的合成语音。13.根据权利要求12所述的声码器，其特征在于，所述合成网络包括：与所述多个通道对应的多个合成子网络，以及叠加子网络；每个合成子网络，用于根据其对应通道上的线性预测参数和非线性残差进行语音合成，得到其对应通道上的合成语音，并输出至所述叠加子网络；所述叠加子网络，用于对所述多个通道上的合成语音进行叠加，得到所述待合成文本对应的合成语音。14.根据权利要求13所述的声码器，其特征在于，所述合成网络还包括：上采样模块，用于对所述多个通道上的合成语音进行上采样，得到所述多个通道上具有指定采样率的合成语音，并输出至所述叠加子网络，以供所述叠加子网络对所述多个通道上具有指定采样率的合成语音进行叠加，得到所述待合成文本对应的合成语音。15.根据权利要求14所述的声码器，其特征在于，每个通道上的声学特征包括：多个采样特征；每个lpc具体用于：对其对应通道上的当前采样特征和其对应通道上前一采样特征对应的合成语音进行线性预测，得到其对应通道上当前采样特征对应的线性预测参数。16.根据权利要求15所述的声码器，其特征在于，所述采样率网络具体用于：根据所述条件向量、所述多个通道上当前采样特征对应的线性预测参数、所述多个通道上前一采样特征对应的合成语音以及所述采样率网络输出的所述多个通道上前一采样特征对应的非线性残差，预测所述多个通道上当前采样特征对应的非线性残差。17.根据权利要求16所述的声码器，其特征在于，所述采样率网络包括：主采样率网络和与所述多个通道对应的多个子采样率网络；所述主采样率网络，用于对所述条件向量、所述多个通道上当前采样特征对应的线性预测参数、所述多个通道上前一采样特征对应的合成语音以及所述采样率网络输出的所述多个通道上前一采样特征对应的非线性残差进行向量化处理，得到参数向量，并输出至所述多个子采样率网络；所述多个子采样率网络，用于分别对所述参数向量进行残差分类，得到所述多个通道上当前采样特征对应的非线性残差。18.根据权利要求17所述的声码器，其特征在于，所述主采样率网络依次包括：连接层、门控制循环单元gru
a
和门控制循环单元gru
b
；所述每个子采样率网络依次包括：对偶全连接层、分类器以及采样层。19.一种语音合成设备，其特征在于，包括：存储器和处理器；所述存储器用于存储计算机程序；所述处理器与所述存储器耦合，用于执行所述计算机程序，以用于：获取待合成文本在多个通道上的声学特征，不同通道对应不同声学频带；利用结合了线性预测编码的神经网络对所述多个通道上的声学特征进行预测，得到所述多个通道上的线性预测参数和非线性残差；根据所述多个通道的上的线性预测参数和非线性残差进行语音合成，得到所述待合成文本对应的合成语音。20.根据权利要求19所述的设备，其特征在于，所述处理器具体用于：将所述多个通道上的声学特征输入多通道线性预测网络声码器，所述多通道线性预测
网络声码器包含结合了线性预测编码的神经网络；以及利用所述多通道线性预测网络声码器对所述多个通道上的声学特征进行预测，得到所述多个通道上的线性预测参数和非线性残差。21.根据权利要求20所述的设备，其特征在于，所述处理器具体用于：利用所述多通道线性预测网络声码器中的帧速率网络，对所述多个通道上的声学特征以帧为单位进行特征转换得到条件向量；对所述多个通道上的声学特征分别进行线性预测编码，得到多个通道上的线性预测参数；基于所述条件向量和所述多个通道上的线性预测参数，利用所述多通道线性预测网络声码器中的采样率网络预测所述多个通道上的非线性残差。22.根据权利要求21所述的设备，其特征在于，所述处理器具体用于：在所述多通道线性预测网络声码器内，对每个通道，根据所述通道上的线性预测参数和非线性残差进行语音合成，得到所述通道上的合成语音；将所述多个通道上的合成语音进行叠加，得到所述待合成文本对应的合成语音。23.一种语音合成方法，其特征在于，包括：接收终端设备发送的语音合成请求，所述语音合成请求包含待合成文本；对所述待合成文本进行特征提取，得到所述待合成文本在多个通道上的声学特征；利用结合了线性预测编码的神经网络对所述多个通道上的声学特征进行预测，得到所述多个通道上的线性预测参数和非线性残差；根据所述多个通道的上的线性预测参数和非线性残差进行语音合成，得到所述待合成文本对应的合成语音；以及将所述待合成语音返回给所述终端设备，以供所述终端设备输出所述合成语音。24.根据权利要求23所述的方法，其特征在于，在对所述待合成文本进行特征提取，得到所述待合成文本在多个通道上的声学特征之前，还包括：根据所述待合成文本的属性和/或用户属性判断是否需要使用多通道语音合成方案；若判断结果为是，执行对所述待合成文本进行特征提取，得到所述待合成文本在多个通道上的声学特征的操作。25.根据权利要求24所述的方法，其特征在于，还包括：若判断结果为否，对所述待合成文本进行特征提取，得到所述待合成文本在单个通道上的声学特征；利用单通道的线性预测网络声码器对所述单个通道上的声学特征进行语音合成，得到所述待合成文本对应的合成语音；以及将所述待合成语音返回给所述终端设备，以供所述终端设备输出所述合成语音。26.根据权利要求25所述的方法，其特征在于，还包括：接收所述终端设备发送的请求使用多通道语音合成方案的信息；对所述待合成文本进行特征提取，得到所述待合成文本在多个通道上的声学特征具体为：根据请求使用多通道语音合成方案的信息，对所述待合成文本进行特征提取，得到所述待合成文本在多个通道上的声学特征。27.一种语音合成系统，其特征在于，包括：终端设备以及用于语音合成的服务端设备；
所述终端设备，用于向所述服务端设备发送语音合成请求，所述语音合成请求包含待合成文本；以及接收所述服务端设备返回的所述待合成文本对应的合成语音并输出所述合成语音；所述服务端设备，用于接收到所述语音合成请求，对所述待合成文本进行特征提取，得到所述待合成文本在多个通道上的声学特征；利用结合了线性预测编码的神经网络对所述多个通道上的声学特征进行预测，得到所述多个通道上的线性预测参数和非线性残差；根据所述多个通道的上的线性预测参数和非线性残差进行语音合成，得到所述待合成文本对应的合成语音；将所述合成语音返回给所述终端设备。28.根据权利要求27所述的系统，其特征在于，所述终端设备还用于：根据用户属性、所述待合成文本的属性或用户的指示，确定需要使用多通道语音合成方案，并向所述服务端设备发送请求使用多通道语音合成方案的信息；或者，所述服务端设备具体用于：根据所述终端设备发送的请求使用多通道语音合成方案的信息，对所述待合成文本进行特征提取，得到所述待合成文本在多个通道上的声学特征。29.根据权利要求27所述的系统，其特征在于，所述服务端设备还用于：根据所述待合成文本的属性和/或用户属性判断是否需要使用多通道语音合成方案；若判断结果为是，执行对所述待合成文本进行特征提取，得到所述待合成文本在多个通道上的声学特征。30.一种存储有计算机程序的计算机可读存储介质，其特征在于，当所述计算机程序被一个或多个处理器执行时，致使所述一个或多个处理器执行权利要求1-11以及23-26中任一项所述方法中的步骤。

技术总结
本申请实施例提供一种语音合成方法、系统、设备及存储介质。在本申请实施例中，提供一种多通道线性预测网络声码器，支持多通道输入，通过获取待合成文本在多个通道上的声学特征，利用该多通道线性预测网络声码器可合成出该待合成文本对应的语音信号；其中，基于线性预测进行语音合成可保证语音合成质量，与此同时，借助于多通道的优势可提高语音合成效率。借助于多通道的优势可提高语音合成效率。借助于多通道的优势可提高语音合成效率。

技术研发人员：杨辰雨雷鸣
受保护的技术使用者：阿里巴巴集团控股有限公司
技术研发日：2020.03.16
技术公布日：2021/9/16

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种语音转码及电路通断控制的装置的制作方法

语音合成方法、系统、设备及存储介质与流程

相关文章

最热文献