一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语音合成方法、装置、电子设备以及程序产品与流程

2021-06-11 21:44:00 来源:中国专利 TAG:数据处理 流媒体 电子设备 装置 实施
语音合成方法、装置、电子设备以及程序产品与流程

本公开的实施例涉及流媒体数据处理技术,尤其涉及一种语音合成方法、装置、电子设备以及程序产品。



背景技术:

在语音技术中,声码器质量将决定了其合成语音的质量。随着深度学习技术的发展,将深度学习技术中的神经网络用于对声码器质量的提升成为可能。

lpcnet声码器是一种将神经网络与线性预测编码(linearpredictivecoding,简称lpc)进行结合的声码器,其在wavernn网络的基础上,将采样值分解为线性和非线性两部分,以通过线性预测对线性部分进行输出,通过神经网络对非线性进行给出,以实现声码器中的采样值的获得。

这样的方式能够有效保证语音合成的语音质量,但lpcnet声码器的复杂程度和计算量仍然较大,这也使得语音合成所需要的运算时间和运算资源较多,不利于实际应用。



技术实现要素:

本公开的实施例提供一种语音合成方法、装置、电子设备以及程序产品。

一方面,本公开的实施例提供一种语音合成方法,包括:

获取声学特征数据在多个采样时刻的特征采样数据;

利用语音合成网络同时对所述多个采样时刻的特征采样数据进行预测处理,获得所述多个采样时刻中任意两个目标采样时刻的线性预测数据和非线性预测数据;

根据所述两个目标采样时刻的线性预测数据和非线性预测数据,确定所述两个目标采样时刻的语音合成数据。

另一方面,本公开的实施例提供一种语音合成装置,包括:

获取模块,用于获取声学特征数据在多个采样时刻的特征采样数据;

处理模块,利用语音合成网络同时对所述多个采样时刻的特征采样数据进行预测处理,获得所述多个采样时刻中任意两个目标采样时刻的线性预测数据和非线性预测数据;

合成模块,根据所述两个目标采样时刻的线性预测数据和非线性预测数据,确定所述两个目标采样时刻的语音合成数据。

再一方面,本公开的实施例提供一种电子设备,包括:存储器和处理器;

所述存储器用于存储程序指令;

所述处理器用于调用所述存储器中的程序指令执行如前任一项所述的方法。

又一方面,本公开的实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序;所述计算机程序被执行时,实现如前任一项所述的方法。

最后一方面,本公开的实施例提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如前任一项所述的方法的步骤。

本公开的实施例提供的语音合成方法、装置、电子设备以及程序产品,通过获取声学特征数据在多个采样时刻的特征采样数据;利用语音合成网络同时对所述多个采样时刻的特征采样数据进行预测处理,获得所述多个采样时刻中任意两个目标采样时刻的线性预测数据和非线性预测数据;根据所述两个目标采样时刻的线性预测数据和非线性预测数据,确定所述两个目标采样时刻的语音合成数据,本公开提供的语音合成方法可针对声学特征数据的多个采样时刻中相邻的两个目标采样时刻的特征采样数据同时进行预测处理,得到该两个目标采样时刻的语音合成数据,从而在保证语音合成质量的同时极大的提升了语音合成的实时率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。

图1为本公开所基于网络系统架构示意图;

图2为本公开实施例提供的一种语音合成方法的流程示意图;

图3为本公开实施例提供的一种语音合成网络的结构示意图;

图4为本公开实施例提供的一种语音合成装置的结构示意图;

图5是根据一示例性实施例示出的一种电子设备的框图。

通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

首先对本公开的实施例所涉及的名词进行解释:

声码器,是一种对语音信号进行分析,提取出语音信号的声学特征数据加以编码和加密,以取得和信道的匹配,经信息通道传递到接受端,再根据收到的声学特征数据恢复原始语音波形的处理模块。

lpcnet,是一个将数字信号处理技术和神经网络技术巧妙结合应用于声码器的网络,其可在普通的cpu上实时合成高质量语音。

本公开的实施例提供的语音合成方法,可以适用于图1为本公开所基于网络系统架构示意图。如图1所示,该网络系统包括:语音合成装置1和电子设备2。

其中,本公开所述的语音合成装置1可安装或集成于电子设备1中,电子设备1具体可为智能终端,如智能手机、平板电脑、台式电脑等可按照预设的运算逻辑进行数据运算处理的设备。

其中,电子设备2可通过从网络获取待合成语音文本的方式,分析并得到相应的声学特征数据,以及该声学特征数据对应的特征采样数据。然后,语音合成装置1将从电子设备2中获取这些特征采样数据并进行相应的处理,得到语音合成数据。该语音合成数据可重新返回至电子设备2,以供电子设备2使用和播放。

需要说明的是,图1所示的电子设备1可以适用于不同的网络制式,例如,可以适用于全球移动通讯(globalsystemofmobilecommunication,简称gsm)、码分多址(codedivisionmultipleaccess,简称cdma)、宽带码分多址(widebandcodedivisionmultipleaccess,简称wcdma)、时分同步码分多址(timedivision-synchronouscodedivisionmultipleaccess,简称td-scdma)、长期演进(longtermevolution,简称lte)系统及未来的5g等网络制式。可选的,上述网络系统的电子设备可以为5g通信系统中高可靠低时延通信(ultra-reliableandlowlatencycommunications,urllc)传输的场景中的系统。

上述电子设备可以是无线终端也可以是有线终端。无线终端可以是指向用户提供语音和/或其他业务数据连通性的设备,具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备。无线终端可以经无线接入网(radioaccessnetwork,简称ran)与一个或多个核心网设备进行通信,无线终端可以是移动终端,如移动电话(或称为“蜂窝”电话)和具有移动终端的计算机,例如,可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置,它们与无线接入网交换语言和/或数据。再例如,无线终端还可以是个人通信业务(personalcommunicationservice,简称pcs)电话、无绳电话、会话发起协议(sessioninitiationprotocol,简称sip)话机、无线本地环路(wirelesslocalloop,简称wll)站、个人数字助理(personaldigitalassistant,简称pda)等设备。无线终端也可以称为系统、订户单元(subscriberunit)、订户站(subscriberstation),移动站(mobilestation)、移动台(mobile)、远程站(remotestation)、远程终端(remoteterminal)、接入终端(accessterminal)、用户终端(userterminal)、用户代理(useragent)、用户设备(userdeviceoruserequipment),在此不作限定。可选的,上述电子设备还可以是智能手表、平板电脑等设备。

本公开的实施例具体的应用场景可例如,智能语音播报、导航、智能音响、语音助手中的语音合成场景。如前所述的,声码器作为语音合成场景的关键组成部分,对语音质量具有关键性的作用。

随着深度学习技术不断发展,将深度学习技术中的神经网络用于对声码器质量的提升成为可能,以wavenet为代表的基于神经网络的声码器便应运而生。但wavenet的网络结构十分复杂、利用其进行语音合成处理时将需要对数据进行极大计算量的运算,这也使得将该wavenet声码器运用到前述的电子设备(如移动终端)中是十分困难的。

而随着技术的进步,lpcnet声码器应运而生,lpcnet声码器是一种将神经网络与线性预测编码(linearpredictivecoding,简称lpc)进行结合的轻量级的声码器。其在wavernn网络的基础上,将语音合成数据中的采样值分解为线性和非线性两部分,以通过线性预测对线性部分进行输出,通过神经网络对非线性进行给出,以实现声码器中的采样值的获得。

但是,在将现有的lpcnet声码器运用到电子设备的方式能够有效保证语音合成的语音质量,但现有的lpcnet声码器的复杂程度和计算量仍然较大,这也使得语音合成所需要的运算时间和运算资源较多,不利于实际应用。

面对该问题,本公开通过对lpcnet声码器的结构以及处理方式进行一定改进,以使得本公开在对语音进行合成时,可同时对于两个采样点的语音合成数据进行预测和处理,即在不降低合成语音质量的同时显著提升处理的实时率。

下面以具体地实施例对本公开的实施例的技术方案以及本公开的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本公开的实施例的实施例进行描述。

第一方面,参考图2,图2为本公开实施例提供的一种语音合成方法的流程示意图。本公开实施例提供的语音合成方法,包括:

步骤101、获取声学特征数据在多个采样时刻的特征采样数据。

步骤102、利用语音合成网络同时对所述多个采样时刻的特征采样数据进行预测处理,获得所述多个采样时刻中任意两个目标采样时刻的线性预测数据和非线性预测数据。

步骤103、根据所述两个目标采样时刻的线性预测数据和非线性预测数据,确定所述两个目标采样时刻的语音合成数据。

需要说明的是,本示例的提供的处理方法的执行主体为前述的语音合成装置,其可安装在前述的电子设备中,以对电子设备中的声学特征数据的特征采样数据进行处理。

具体来说,首先,语音合成装置将获得声学特征数据的特征采样数据。声学特征数据用于表示待合成语音的源信息的声学特征信息,其中,源信息具体可为在时域上具有连续性的一段内容信息,为了便于处理,将源信息进行从时域到频域上的变化,并对变化后的数据进行声学特征提取等处理,以得到本公开中的声学特征数据。一般来说,得到的声学特征数据为多个语音帧的数据。

对于每一语音帧来说,为了使得处理结果更为精准,还将对每一语音帧的声学特征数据进行多次采样,以得到每一语音帧在多个采样时刻下的特征采样数据。

语音合成装置将根据获得的特征采样数据,对语音合成网络采用自回归的处理方式,对多个采样时刻中的两个目采样时刻的数据进行预测,获得相应的预测数据。

最后,语音合成装置将对两个目标采样时刻的线性预测数据和非线性预测数据,分别进行合成处理,以得到两个目标采样时刻的语音合成数据。

本公开的实施例提供的语音合成方法可针对声学特征数据的多个采样时刻中的特征采样数据同时进行预测处理,得到多个采样时刻中任意两个目标采样时刻的语音合成数据,从而在保证语音合成质量的同时极大的提升了语音合成的实时率。

图3为本公开实施例提供的一种语音合成网络的结构示意图,如图3所示的,该语音合成网络具体可为基于lpcnet的网络,其具体可包括帧率子网络和采样点子网络。

该语音合成方法具体可包括:

步骤201、获取声学特征数据在多个采样时刻的特征采样数据。

与前述实施方式类似的是,在本实施例中,声学特征数据将被多次采样,以得到多个采样时刻的特征采样数据。

步骤202、对多个采样时刻中的特征采样数据进行线性预测处理,分别获得第m个采样时刻的线性语音数据pm和第m 1个采样时刻的线性语音数据pm 1。

具体来说,以对多个采样时刻中的第m个采样时刻以及第m 1个采样时刻的线性语音数据进行预测为例,首先,语音合成装置将利用线性预测模块对多个采样时刻特征采样数据进行线性预测处理,以得到线性预测系数;然后将利用历史语音合成数据与线性预测系数进行组合以得到第m个采样时刻的线性语音数据pm和第m 1个采样时刻的线性语音数据pm 1。

其中,在确定第m个采样时刻的线性语音数据pm时,将利用第m-16至m-1的语音合成数据[sm-16,sm-15,……sm-1]的历史语音合成数据与线性预测系数进行组合;

类似的,在确定第m 1个采样时刻的线性语音数据pm 1时,将利用第m-15至m的语音合成数据[sm-15,sm-15,……sm]的历史语音合成数据与线性预测系数进行组合。

其中,该线性预测处理是基于信号处理技术实现的。

步骤203、获取第m-1个采样时刻的语音合成数据sm-1和非线性语音数据em-1,以及第m-2个采样时刻的语音合成数据sm-2和非线性语音数据em-2。

具体来说,语音合成装置中的语音合成网络是采用自回归的处理方式进行数据预测的,因此,对于第m个采样时刻以及第m 1个采样时刻的语音合成数据的预测来说,语音合成装置会先获取其目标采样时刻的前若干采样时刻的相关数据,如第m-1个采样时刻的语音合成数据sm-1和非线性语音数据em-1,以及第m-2个采样时刻的语音合成数据sm-2和非线性语音数据em-2。

步骤204、对第m个采样时刻以及第m 1个采样时刻的特征采样数据、语音合成数据sm-1、非线性语音数据em-1、语音合成数据sm-2、非线性语音数据em-2、线性语音数据pm以及线性语音数据pm 1进行非线性预测处理,获得第m个采样时刻的非线性语音数据em和第m 1个采样时刻的非线性语音数据em 1。

具体来说,在该步骤204中是基于神经网络算法对语音合成数据中的非线性语音数据进行预测的。

其中,如图3所示的,语音合成网络包括有帧率子网络和采样点子网络。

与现有的lpcnet网络类似的是,在帧率子网络中包括有多串联的卷积层以及多个串联的全连接层,通过将包括有第m个采样时刻以及第m 1个采样时刻的特征采样数据依次通过这些网络结构层,可最终获得以输出向量f。

也就是说,首先可将第m个采样时刻以及第m 1个采样时刻的特征采样数据输入至所述帧率子网络,获得输出向量f。

随后,将采用自回归的方式将各数据输入至采样点子网络,以得到第m个采样时刻的非线性语音数据em和第m 1个采样时刻的非线性语音数据em 1。

即,将所述语音合成数据sm-1、非线性语音数据em-1、语音合成数据sm-2、非线性语音数据em-2、线性语音数据pm、线性语音数据pm 1以及输出向量f输入至所述采样点子网络,输出所述第m个采样时刻的非线性语音数据em和第m 1个采样时刻的非线性语音数据em 1。

特别的,如图3所示的,与现有技术不同的是,在本公开提供的采样点网络中,将会共用部分结构层,以同时对两个时刻的数据进行处理,然后通过增设的映射层,将处理结果进行区分,以采用这样的方式获得两个时刻的非线性预测数据。

进一步具体来说,在图3所示的网络中,采样点子网络包括:采样层、映射层、全连接层、分类器。

相应的步骤204具体还可包括:

将所述语音合成数据sm-1、非线性语音数据em-1、语音合成数据sm-2、非线性语音数据em-2、线性语音数据pm、线性语音数据pm 1以及输出向量f输入至所述采样层,输出采样数据;

将获得的采样数据输入至所述映射层,以对所述采样数据进行数据映射,获得第m个采样时刻对应的采样数据,和第m 1个采样时刻对应的采样数据;

将所述第m个采样时刻对应的采样数据,和第m 1个采样时刻对应的采样数据分别依次输入至所述全连接层和分类器,分别获得输出的第m个采样时的采样分布和第m 1个采样时刻的采样分布;

根据所述第m个采样时的采样分布确定第m个采样时刻的非线性语音数据em;以及,根据所述第m 1个采样时刻的采样分布确定第m 1个采样时刻的非线性语音数据em 1。

可选实施方式中,音合成网络为lpcnet网络,所述采样层为所述lpcnet网络中的gru层。所述gru层包括第一gru层和第二gru层;而所述第一gru层和第二gru层采用不同的采样频率对输入该层的数据进行采样处理。

在本公开提供的实施例中,针对多个采样时刻的非线性预测数据的获得过程来说,与现有的lpcnet网络的预测过程相比,其在采样层上的处理次数是减半的,这能够显著提高对于每一语音帧的声学特征数据的处理效率,提高语音合成实时率。

第二方面,参考图4,图4为本公开提供的语音合成装置的结构示意图。其中的语音合成装置,包括:

获取模块10,用于获取声学特征数据在多个采样时刻的特征采样数据;

处理模块20,利用语音合成网络同时对所述多个采样时刻的特征采样数据进行预测处理,获得所述多个采样时刻中任意两个目标采样时刻的线性预测数据和非线性预测数据;

合成模块30,根据所述两个目标采样时刻的线性预测数据和非线性预测数据,确定所述两个目标采样时刻的语音合成数据。

可选实施例中,所述处理模块20,具体用于:

对多个采样时刻的特征采样数据进行线性预测处理,分别获得第m个采样时刻的线性语音数据pm和第m 1个采样时刻的线性语音数据pm 1;

获取第m-1个采样时刻的语音合成数据sm-1和非线性语音数据em-1,以及第m-2个采样时刻的语音合成数据sm-2和非线性语音数据em-2;

对第m个采样时刻以及第m 1个采样时刻的特征采样数据、语音合成数据sm-1、非线性语音数据em-1、语音合成数据sm-2、非线性语音数据em-2、线性语音数据pm以及线性语音数据pm 1进行非线性预测处理,获得第m个采样时刻的非线性语音数据em和第m 1个采样时刻的非线性语音数据m 1。

可选实施例中,所述语音合成网络包括帧率子网络和采样点子网络;

所述处理模块20,具体用于将第m个采样时刻以及第m 1个采样时刻的特征采样数据输入至所述帧率子网络,获得输出向量f;将所述语音合成数据sm-1、非线性语音数据em-1、语音合成数据sm-2、非线性语音数据em-2、线性语音数据pm、线性语音数据pm 1以及输出向量f输入至所述采样点子网络,输出所述第m个采样时刻的非线性语音数据em和第m 1个采样时刻的非线性语音数据em 1。

可选实施例中,所述采样点子网络包括:采样层、映射层、全连接层、分类器;

所述处理模块20,具体用于将所述语音合成数据sm-1、非线性语音数据em-1、语音合成数据sm-2、非线性语音数据em-2、线性语音数据pm、线性语音数据pm 1以及输出向量f输入至所述采样层,输出采样数据;将获得的采样数据输入至所述映射层,以对所述采样数据进行数据映射,获得第m个采样时刻对应的采样数据,和第m 1个采样时刻对应的采样数据;将所述第m个采样时刻对应的采样数据,和第m 1个采样时刻对应的采样数据分别依次输入至所述全连接层和分类器,分别获得输出的第m个采样时的采样分布和第m 1个采样时刻的采样分布;根据所述第m个采样时的采样分布确定第m个采样时刻的非线性语音数据em;以及,根据所述第m 1个采样时刻的采样分布确定第m 1个采样时刻的非线性语音数据em 1。

可选实施例中,所述语音合成网络为lpcnet网络,所述采样层为所述lpcnet网络中的gru层。

可选实施例中,所述gru层包括第一gru层和第二gru层;

所述第一gru层和第二gru层采用不同的采样频率对输入该层的数据进行采样处理。

本公开的实施例提供的语音合成方法,通过获取声学特征数据在多个采样时刻的特征采样数据;利用语音合成网络同时对所述多个采样时刻的特征采样数据进行预测处理,获得所述多个采样时刻中任意两个目标采样时刻的线性预测数据和非线性预测数据;根据所述两个目标采样时刻的线性预测数据和非线性预测数据,确定所述两个目标采样时刻的语音合成数据,本公开提供的语音合成方法可针对声学特征数据的多个采样时刻中相邻的两个目标采样时刻同时进行预测处理,得到该两个目标采样时刻的语音合成数据,从而在保证语音合成质量的同时极大的提升了语音合成的实时率。

图5是根据一示例性实施例示出的一种电子设备的框图,该设备可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。

装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(i/o)接口812,传感器组件814,以及通信组件816。

处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在装置800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,流媒体等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当装置800处于操作模式,如拍摄模式或流媒体模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(mic),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。

i/o接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到装置800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如cmos或ccd图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如wifi,2g或3g,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。

在示例性实施例中,装置800可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。

在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质,当该存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述电子设备的语音合成方法。

一种计算机程序产品,包括计算机指令,该计算机指令被处理器执行如前任一项所述的方法,其实现原理和技术效果类似,此处不再赘述。

本公开还提供如下实施例:

实施例1、一种语音合成方法,包括:

获取声学特征数据在多个采样时刻的特征采样数据;

利用语音合成网络同时对所述多个采样时刻的特征采样数据进行预测处理,获得所述多个采样时刻中任意两个目标采样时刻的线性预测数据和非线性预测数据;

根据所述两个目标采样时刻的线性预测数据和非线性预测数据,确定所述两个目标采样时刻的语音合成数据。

实施例2、根据实施例1所述的语音合成方法,所述利用语音合成网络同时对所述多个采样时刻的特征采样数据进行预测处理,获得所述多个采样时刻中任意两个目标采样时刻的线性预测数据和非线性预测数据,包括:

对多个采样时刻的特征采样数据进行线性预测处理,分别获得第m个采样时刻的线性语音数据pm和第m 1个采样时刻的线性语音数据pm 1;

获取第m-1个采样时刻的语音合成数据sm-1和非线性语音数据em-1,以及第m-2个采样时刻的语音合成数据sm-2和非线性语音数据em-2;

对第m个采样时刻以及第m 1个采样时刻的特征采样数据、语音合成数据sm-1、非线性语音数据em-1、语音合成数据sm-2、非线性语音数据em-2、线性语音数据pm以及线性语音数据pm 1进行非线性预测处理,获得第m个采样时刻的非线性语音数据em和第m 1个采样时刻的非线性语音数据em 1。

实施例3、根据实施例2所述的语音合成方法,所述语音合成网络包括帧率子网络和采样点子网络;

所述非线性预测处理,包括:

将第m个采样时刻以及第m 1个采样时刻的特征采样数据输入至所述帧率子网络,获得输出向量f;

将所述语音合成数据sm-1、非线性语音数据em-1、语音合成数据sm-2、非线性语音数据em-2、线性语音数据pm、线性语音数据pm 1以及输出向量f输入至所述采样点子网络,输出所述第m个采样时刻的非线性语音数据em和第m 1个采样时刻的非线性语音数据em 1。

实施例4、根据实施例3所述语音合成方法,所述采样点子网络包括:采样层、映射层、全连接层、分类器;

将所述语音合成数据sm-1、非线性语音数据em-1、语音合成数据sm-2、非线性语音数据em-2、线性语音数据pm、线性语音数据pm 1以及输出向量f输入至所述采样层,输出采样数据;

将获得的采样数据输入至所述映射层,以对所述采样数据进行数据映射,获得第m个采样时刻对应的采样数据,和第m 1个采样时刻对应的采样数据;

将所述第m个采样时刻对应的采样数据,和第m 1个采样时刻对应的采样数据分别依次输入至所述全连接层和分类器,分别获得输出的第m个采样时的采样分布和第m 1个采样时刻的采样分布;

根据所述第m个采样时的采样分布确定第m个采样时刻的非线性语音数据em;以及,根据所述第m 1个采样时刻的采样分布确定第m 1个采样时刻的非线性语音数据em 1。

实施例5、根据实施例4所述的语音合成方法,所述语音合成网络为lpcnet网络,所述采样层为所述lpcnet网络中的gru层。

实施例6、根据实施例5所述的语音合成方法,所述gru层包括第一gru层和第二gru层;

所述第一gru层和第二gru层采用不同的采样频率对输入该层的数据进行采样处理。

实施例7、一种语音合成装置,包括:

获取模块,用于获取声学特征数据在多个采样时刻的特征采样数据;

处理模块,利用语音合成网络同时对所述多个采样时刻的特征采样数据进行预测处理,获得所述多个采样时刻中任意两个目标采样时刻的线性预测数据和非线性预测数据;

合成模块,根据所述两个目标采样时刻的线性预测数据和非线性预测数据,确定所述两个目标采样时刻的语音合成数据。

实施例8、根据实施例7所述的语音合成装置,所述处理模块,具体用于:

对多个采样时刻的特征采样数据进行线性预测处理,分别获得第m个采样时刻的线性语音数据pm和第m 1个采样时刻的线性语音数据pm 1;

获取第m-1个采样时刻的语音合成数据sm-1和非线性语音数据em-1,以及第m-2个采样时刻的语音合成数据sm-2和非线性语音数据em-2;

对第m个采样时刻以及第m 1个采样时刻的特征采样数据、语音合成数据sm-1、非线性语音数据em-1、语音合成数据sm-2、非线性语音数据em-2、线性语音数据pm以及线性语音数据pm 1进行非线性预测处理,获得第m个采样时刻的非线性语音数据em和第m 1个采样时刻的非线性语音数据em 1。

实施例9、根据实施例8所述的语音合成装置,所述语音合成网络包括帧率子网络和采样点子网络;

所述处理模块,具体用于将第m个采样时刻以及第m 1个采样时刻的特征采样数据输入至所述帧率子网络,获得输出向量f;将所述语音合成数据sm-1、非线性语音数据em-1、语音合成数据sm-2、非线性语音数据em-2、线性语音数据pm、线性语音数据pm 1以及输出向量f输入至所述采样点子网络,输出所述第m个采样时刻的非线性语音数据em和第m 1个采样时刻的非线性语音数据em 1。

实施例10、根据实施例9所述语音合成装置,所述采样点子网络包括:采样层、映射层、全连接层、分类器;

所述处理模块,具体用于将所述语音合成数据sm-1、非线性语音数据em-1、语音合成数据sm-2、非线性语音数据em-2、线性语音数据pm、线性语音数据pm 1以及输出向量f输入至所述采样层,输出采样数据;将获得的采样数据输入至所述映射层,以对所述采样数据进行数据映射,获得第m个采样时刻对应的采样数据,和第m 1个采样时刻对应的采样数据;将所述第m个采样时刻对应的采样数据,和第m 1个采样时刻对应的采样数据分别依次输入至所述全连接层和分类器,分别获得输出的第m个采样时的采样分布和第m 1个采样时刻的采样分布;根据所述第m个采样时的采样分布确定第m个采样时刻的非线性语音数据em;以及,根据所述第m 1个采样时刻的采样分布确定第m 1个采样时刻的非线性语音数据em 1。

实施例11、根据实施例10所述的语音合成装置,所述语音合成网络为lpcnet网络,所述采样层为所述lpcnet网络中的gru层。

实施例12、根据实施例11所述的语音合成装置,所述gru层包括第一gru层和第二gru层;

所述第一gru层和第二gru层采用不同的采样频率对输入该层的数据进行采样处理。

实施例13、一种电子设备,包括:存储器和处理器;

所述存储器用于存储程序指令;

所述处理器用于调用所述存储器中的程序指令执行如实施例1-6任一项所述的方法。

实施例14、一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序;所述计算机程序被执行时,实现如实施例1-6任一项所述的方法。

实施例15、一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现实施例1-6任一项所述的方法的步骤。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开的实施例旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求书指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜