一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语音合成方法、语音合成模型处理方法、装置和电子设备与流程

2021-08-27 13:36:00 来源:中国专利 TAG:方法 语音合成 人工智能 电子设备 装置
语音合成方法、语音合成模型处理方法、装置和电子设备与流程

本申请涉及人工智能技术领域,特别是涉及一种语音合成方法、语音合成模型处理方法、装置和电子设备。



背景技术:

随着人工智能技术不断发展,人工智能技术在多个领域展开研究和应用。而自然语言处理(naturelanguageprocessing,nlp)和语音处理是人工智能技术中的一个重要方向,如通过语音合成模型对文本进行语音合成得到合成语音,从而可以向用户播放合成语音。

在一些应用场景中,需要将文本合成为不同语种的合成语音,此时需要一些文本和不同发音对象采用不同语种发出的语音分别对不同语音合成模型进行训练。由于不同发音对象的音色不同,当模型训练完成后,将根据训练后的语音合成模型对待合成的文本进行语音合成,从而可以得到不同语种且不同音色的合成语音。在进行语音合成的过程中,若从某一语种切换到另一语种,需要调用不同的语音合成模型,此时不但会出现音色不一致的问题,还影响语音的自然度和流畅度。



技术实现要素:

基于此,有必要针对上述技术问题,提供一种语音合成方法、语音合成模型处理方法、装置和电子设备,能够确保语种切换前后合成语音的音色保持一致,并且使合成语音自然且流畅。

一种语音合成方法,所述方法包括:

获取待合成的文本的音子序列;

通过语音合成模型对所述音子序列进行音色处理,得到包括目标音色信息的声学特征;所述语音合成模型,是基于目标文本的音子序列以及至少一个目标语种的目标语音进行训练所得的;所述目标语音与所述目标文本对应,是根据从不同音色的语音样本提取的声学特征生成的具有目标音色的语音;

通过所述语音合成模型对所述声学特征进行语音合成,得到至少一个所述目标语种的且为所述目标音色的合成语音。

在其中的一个实施例中,所述语音合成模型中包括声学模型;所述方法还包括:

分别对至少一个所述目标语种的语音样本进行声学特征提取,得到训练声学特征;

基于所述训练声学特征生成至少一个所述目标语种的具有目标音色的目标语音;

当从与所述目标语音对应的目标文本中获得训练音子序列时,通过所述声学模型对所述训练音子序列进行音色处理,得到包括所述目标音色信息的训练声学特征;

基于所述训练声学特征和从所述目标语音中提取的声学特征之间的损失值,对所述声学模型进行参数调整。

在其中的一个实施例中,所述语音合成模型中包括声码器;所述方法还包括:

在所述目标语音中进行声学特征提取,得到目标声学特征;

通过所述声码器对所述目标声学特征进行语音合成,得到至少一个所述目标语种的目标预测语音;所述目标预测语音具有所述目标音色;

基于所述目标预测语音和所述目标语音之间的损失值,对所述声码器进行参数调整。

一种语音合成装置,所述装置包括:

获取模块,用于获取待合成的文本的音子序列;

处理模块,用于通过语音合成模型对所述音子序列进行音色处理,得到包括目标音色信息的声学特征;所述语音合成模型,是基于目标文本的音子序列以及至少一个目标语种的目标语音进行训练所得的;所述目标语音与所述目标文本对应,是根据从不同音色的语音样本提取的声学特征生成的具有目标音色的语音;

合成模块,用于通过所述语音合成模型对所述声学特征进行语音合成,得到至少一个所述目标语种的且为所述目标音色的合成语音。

一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

获取待合成的文本的音子序列;

通过语音合成模型对所述音子序列进行音色处理,得到包括目标音色信息的声学特征;所述语音合成模型,是基于目标文本的音子序列以及至少一个目标语种的目标语音进行训练所得的;所述目标语音与所述目标文本对应,是根据从不同音色的语音样本提取的声学特征生成的具有目标音色的语音;

通过所述语音合成模型对所述声学特征进行语音合成,得到至少一个所述目标语种的且为所述目标音色的合成语音。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

获取待合成的文本的音子序列;

通过语音合成模型对所述音子序列进行音色处理,得到包括目标音色信息的声学特征;所述语音合成模型,是基于目标文本的音子序列以及至少一个目标语种的目标语音进行训练所得的;所述目标语音与所述目标文本对应,是根据从不同音色的语音样本提取的声学特征生成的具有目标音色的语音;

通过所述语音合成模型对所述声学特征进行语音合成,得到至少一个所述目标语种的且为所述目标音色的合成语音。

上述语音合成方法、装置、电子设备和存储介质,首先从不同音色的语音样本提取声学特征,并基于提取的声学特征生成具有目标音色的至少一个目标语种的目标语音,根据该目标文本的音子序列以及与该目标文本对应的具有目标音色的目标语音,对语音合成模型进行训练,从而无需使用不同目标语种不同音色的目标语音训练不同的语音合成模型,提高了模型训练效率。此外,利用训练后的语音合成模型对待合成的文本的音子序列进行音色处理,得到包括目标音色信息的声学特征,然后通过该训练后的语音合成模型对声学特征进行语音合成,得到目标音色的至少一个目标语种的合成语音,从而即便从某一语种切换到另一语种,其合成语音的音色保持不变,而且由于不需要更换语音合成模型,可以使合成语音自然且流畅。

一种语音合成模型处理方法,所述方法包括:

分别对至少一个目标语种的语音样本进行声学特征提取,得到训练声学特征;各所述语音样本之间的音色不同;

基于所述训练声学特征生成至少一个所述目标语种的且具有目标音色的目标语音;

当从与所述目标语音对应的目标文本中获得训练音子序列时,通过语音合成模型对所述训练音子序列进行音色处理,得到包括目标音色信息的训练声学特征;

通过所述语音合成模型对所述训练声学特征进行语音合成,得到至少一个所述目标语种的预测语音;所述预测语音具有所述目标音色信息对应的目标音色;

基于所述预测语音与所述目标语音之间的损失值,对所述语音合成模型中的网络参数进行调整。

一种语音合成模型处理装置,所述装置包括:

提取模块,用于分别对至少一个目标语种的语音样本进行声学特征提取,得到训练声学特征;各所述语音样本之间的音色不同;

生成模块,用于基于所述训练声学特征生成至少一个所述目标语种的且具有目标音色的目标语音;

处理模块,用于当从与所述目标语音对应的目标文本中获得训练音子序列时,通过语音合成模型对所述训练音子序列进行音色处理,得到包括目标音色信息的训练声学特征;

合成模块,用于通过所述语音合成模型对所述训练声学特征进行语音合成,得到至少一个所述目标语种的预测语音;所述预测语音具有所述目标音色信息对应的目标音色;

调整模块,用于基于所述预测语音与所述目标语音之间的损失值,对所述语音合成模型中的网络参数进行调整。

一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

分别对至少一个目标语种的语音样本进行声学特征提取,得到训练声学特征;各所述语音样本之间的音色不同;

基于所述训练声学特征生成至少一个所述目标语种的且具有目标音色的目标语音;

当从与所述目标语音对应的目标文本中获得训练音子序列时,通过语音合成模型对所述训练音子序列进行音色处理,得到包括目标音色信息的训练声学特征;

通过所述语音合成模型对所述训练声学特征进行语音合成,得到至少一个所述目标语种的预测语音;所述预测语音具有所述目标音色信息对应的目标音色;

基于所述预测语音与所述目标语音之间的损失值,对所述语音合成模型中的网络参数进行调整。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

分别对至少一个目标语种的语音样本进行声学特征提取,得到训练声学特征;各所述语音样本之间的音色不同;

基于所述训练声学特征生成至少一个所述目标语种的且具有目标音色的目标语音;

当从与所述目标语音对应的目标文本中获得训练音子序列时,通过语音合成模型对所述训练音子序列进行音色处理,得到包括目标音色信息的训练声学特征;

通过所述语音合成模型对所述训练声学特征进行语音合成,得到至少一个所述目标语种的预测语音;所述预测语音具有所述目标音色信息对应的目标音色;

基于所述预测语音与所述目标语音之间的损失值,对所述语音合成模型中的网络参数进行调整。

上述语音合成模型处理方法、装置、电子设备和存储介质,从不同音色的语音样本提取中进行声学特征提取,并基于提取的训练声学特征生成具有目标音色且不同目标语种的目标语音,根据该目标文本的音子序列以及与该目标文本对应的具有目标音色且不同目标语种的目标语音,对语音合成模型进行训练,即可得到用于合成具有目标音色且不同目标语种的语音合成模型,从而无需使用不同目标语种不同音色的目标语音训练不同的语音合成模型,有效地提高了模型训练效率。

附图说明

图1为一个实施例中语音合成方法和语音合成模型处理方法的应用环境图;

图2为一个实施例中语音合成方法的流程示意图;

图3为一个实施例中触发展示页面中的文本进行语音合成的示意图;

图4为一个实施例中语音合成方法应用于对展示页面中的文本进行语音合成应用场景的流程示意图;

图5为一个实施例中服务器合成语音并向各终端分发相应目标语种的合成语音的流程示意图;

图6为一个实施例中通过语音合成模型提取声学特征和合成语音的流程示意图;

图7为一个实施例中声码器的结构框图;

图8为一个实施例中对语音合成模型进行训练的流程示意图;

图9为一个实施例中通过ppgs模型和声音转换模型得到目标音色的梅尔谱特征的示意图;

图10为一个实施例中对ppgs模型和声音转换模型进行训练的示意图;

图11为另一个实施例中对语音合成模型进行训练的流程示意图;

图12为一个实施例中语音合成模型处理方法的流程示意图;

图13为一个实施例中语音合成系统的结构框图;

图14为一个实施例中构建目标音色的多语种语音库的示意图;

图15为另一个实施例中语音合成系统的结构框图;

图16为一个实施例中语音合成装置的结构框图;

图17为另一个实施例中语音合成装置的结构框图;

图18为一个实施例中语音合成模型处理装置的结构框图;

图19为一个实施例中电子设备的内部结构图;

图20为另一个实施例中电子设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

人工智能(artificialintelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

语音技术(speechtechnology)的关键技术有自动语音识别技术(asr)和语音合成技术(tts)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。自然语言处理(naturelanguageprocessing,nlp)是计算机科学领域与人工智能领域中的一个重要方向,包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

本申请实施例提供的方案涉及人工智能的语音技术、自然语言处理和机器学习等技术,具体通过如下实施例进行说明:

本申请提供的语音合成方法和语音合成模型处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。该语音合成方法可以由终端102或服务器104执行,或由终端102和服务器104协同执行,这里以该语音合成方法终端102执行为例进行说明:终端102从本地(如图1中灰色虚线框内的文本)获取待合成的文本,或从服务器104获取待合成的文本,基于该文本得到对应的音子序列;通过语音合成模型对音子序列进行音色处理,得到包括目标音色信息的声学特征;其中,该语音合成模型,是终端102或服务器104基于目标文本的音子序列以及至少一个目标语种的目标语音进行训练所得的,并部署于终端102;目标语音与目标文本对应,是根据从不同音色的语音样本提取的声学特征生成的具有目标音色的语音;通过语音合成模型对声学特征进行语音合成,得到至少一个目标语种的且为目标音色的合成语音。

此外,以该语音合成方法服务器104执行为例进行说明:服务器104分别对至少一个目标语种的语音样本进行声学特征提取,得到训练声学特征;基于训练声学特征生成至少一个目标语种的且具有目标音色的目标语音;当从与目标语音对应的目标文本中获得训练音子序列时,通过语音合成模型对训练音子序列进行音色处理,得到包括目标音色信息的训练声学特征;通过语音合成模型对训练声学特征进行语音合成,得到至少一个目标语种的预测语音;预测语音具有目标音色信息对应的目标音色;基于预测语音与目标语音之间的损失值,对语音合成模型中的网络参数进行调整,然后将训练完成后的语音合成模型部署于终端102,从而终端102可以实现上述语音合成方法的步骤。此外,该训练完成后的语音合成模型也可以部署于服务器104,以便服务器104也可以实现上述语音合成方法的步骤。

其中,终端102可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱和智能手表等。此外,终端102还可以是智能车载设备,该智能车载设备可以利用文本的音子序列进行语音合成,得到目标音色的合成语音,从而实现与用户之间的语音交互。

服务器104可以是独立的物理服务器,也可以是区块链系统中的服务节点,该区块链系统中的各服务节点之间形成组成点对点(p2p,peertopeer)网络,p2p协议是一个运行在传输控制协议(tcp,transmissioncontrolprotocol)协议之上的应用层协议。此外,服务器104还可以是多个物理服务器构成的服务器集群,可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(contentdeliverynetwork,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器104上可以安装需求管理系统的服务端,通过该服务端可以与终端104进行交互。

终端102与服务器104之间可以通过蓝牙、usb(universalserialbus,通用串行总线)或者网络等通讯连接方式进行连接,本申请在此不做限制。

在一个实施例中,如图2所示,提供了一种语音合成方法,以该方法由电子设备执行,该电子设备可以是图1中的终端102或服务器104,即该方法可以由终端102或服务器104执行。在接下来的实施例中,以电子设备为终端102为例进行说明,包括以下步骤:

s202,获取待合成的文本的音子序列。

其中,待合成的文本可以指用来合成语音的文本,该待合成的文本可以是一篇文章,或一篇文章中的一段文字、一行文字或几个词组。该文章可以是各种领域的,如科技、体育、休闲娱乐、美食和文学等领域。

音子可以指待合成的文本中字符或文字的发音音子,如汉字中的声母和韵母。对应地,音子序列可以指多个音子所组成的序列。

在一个实施例中,终端响应于文字转语音操作,获取所要合成语音的文本(即待合成的文本),然后对该待合成的文本进行文本解析,如对该待合成的文本进行分词处理,然后对分词处理所得的多个待合成的分词和/或待合成的字进行注音,从而得到每个分词和/或待合成的字的音子,将所得的音子进行组合得到音子序列。

具体地,终端上安装文字转语音的语音合成系统,该语音合成系统中部署了语音合成模型。因此,在检测到文字转语音操作时,终端生成语音合成业务请求,将该语音合成业务请求发送至语音合成系统。响应于语音合成业务请求,终端利用语音合成系统从语音合成业务请求中提取待合成的文本;对该文本进行分词处理,得到待合成的分词;将每个分词进行音子转换,得到待合成的分词音子;对所得的分词音子进行组合,得到该文本的音子序列,如待合成的文本为“你喜欢红魔还是iphone”,对应的分词为“你”、“喜欢”、“红魔”、“还是”、“iphone”、“”,则在得到这几个分词对应的分词音子时,对这几个分词对应的分词音子进行组合,即可得到该文本的音子序列nixihuanhongmohaishieayefeowen。

例如,如图3所示,当用户点击图3的(a)图中语音播报按钮,则会生成语音合成业务请求,终端上的语音合成系统获取该展示页面中的正文内容(即图3中虚线框内的文字),然后对该正文内容进行分词处理和音子转换,从而得到该正文内容的音子序列。此外,如图3的(b)图所示,当响应于选择操作而选中标题内容时,显示弹出框,响应于在合成语音按钮上触发的语音合成操作,终端上的语音合成系统获取该展示页面中的标题内容,然后对该标题内容进行分词处理和音子转换,从而得到该标题内容的音子序列。此外,还可以按照上述方法获取指定部分的正文内容的音子序列。

在一个实施例中,终端在得到待合成的文本时,可以将该文本进行语种翻译,即把该文本翻译成其它语种的文本,从而得到一个或多个不同目标语种的文本,然后进行文本解析,得到一个或多个目标语种的文本的音子序列,如中文文本的因子序列、英文文本的因子序列。

s204,通过语音合成模型对音子序列进行音色处理,得到包括目标音色信息的声学特征。

其中,语音合成模型是基于目标文本的音子序列以及至少一个目标语种的目标语音进行训练所得的,目标语音与目标文本对应,是根据从不同音色的语音样本提取的声学特征生成的具有目标音色的语音,从而音子序列输入到语音合成模型之后,可以得到至少一个目标语种的声学特征,每个声学特征中均包括目标音色信息。此外,该语音合成模型可以包括声学模型和声码器。具有目标音色的目标语音指的是具有目标发音对象的音色特点的目标语音。

该目标语音是根据从不同音色的语音样本提取的声学特征生成的语音,如从用户a~e录制的不同语种的语音样本中提取声学特征,然后根据提取的声学特征生成具有目标音色的、且为一个或多个不同目标语种的目标语音。

目标语种可以指将待合成的文本合成用户可能期望的语种,在训练过程中,可以使用至少一个目标语种的目标语音以及对应目标文本的音子序列对语音合成模型进行训练,从而可以得到用户所期望语种的用于合成语音的语音合成模型。例如,语音合成模型训练完成后,用户可以通过该语音合成模型将待合成的文本合成为英文合成语音,和/或法文合成语音等,以便进行语音播放。

在一个实施例中,s204具体可以包括:终端可以将音子序列进行声学特征转换,并在转换过程中添加目标发音对象的音色信息(简称目标音色信息),从而得到包含目标音色信息的声学特征。其中,声学特征可以是频域的梅尔谱特征。

s206,通过语音合成模型对声学特征进行语音合成,得到至少一个目标语种的且为目标音色的合成语音。

其中,至少一个目标语种的且为目标音色的合成语音指的是:一个或多个目标语种的合成语音,且该合成语音具有同一种目标音色。如得到某个特定用户音色的英语合成语音、汉语合成语音和法语合成语音等。

在一个实施例中,终端可以通过语音合成模型对声学特征进行反变换,从而得到至少一个目标语种的合成语音。其中,该合成语音具有目标音色;该反变换可以是傅里叶反变换。

为了更加直观且清楚地了解上述实施例的方案,这里结合图4进行说明:当用户选择展示页面中的标题内容时,显示弹出框;用户在弹出框中触摸合成语音按钮,此时通过语音合成业务请求将该标题内容发送给语音合成系统,该语音合成系统上部署了语音合成模型(包括声学模型和声码器)。当获取到标题内容的音子序列时,将该音子序列输入到语音合成模型中的声学模型,通过声学模型对音子序列进行转换,得到梅尔谱特征;然后将该梅尔谱特征输入至声码器,该声码器对梅尔谱特征进行傅里叶反变换,得到具有目标音色的标题内容的合成语音,然后通过终端的扬声器进行语音播报,从而用户可以听到合成语音。其中,该合成语音可以是常用的目标语种,也可以是用户指定的目标语种,如用户在触摸合成语音按钮之后,终端还会显示语种选择框,在该语种选择框内选择一种或多种目标语种,从而可以得到指定目标语种的合成语音。需要指出的是,当得到至少一个目标语种的合成语音时,可以依序播放各合成语音,也可以播放用户最常用目标语种的合成语音。由于语音合成模型可以合成至少一个目标语种的合成语音,因此在进行语种切换时,可以很流畅的切换到用户所需要的目标语种的合成语音,而且切换前后音色保持不变,使切换前后的合成语音自然且流畅。

作为另一个示例,若终端为智能车载设备,则在接收到用户发出的语音时,该语音如“请播放‘吻别’这首歌”,智能车载设备获取与该语音对应的文本,该文本如“好的,现在为您播放这首歌”,然后获取该文本的音子序列,通过语音合成模型对该音子序列进行音色处理,得到包括目标音色信息的声学特征,通过语音合成模型对声学特征进行语音合成,得到目标音色的合成语音并进行播放,如以某个播音员或明星的音色来播放内容为“好的,现在为您播放这首歌”的合成语音。此外,在播放合成语音的过程中,为用户开启音乐软件,并在播放合成语音之后,为用户播放点播的歌曲。

作为第三个示例,如图5所示,当语音合成方法应用于服务器时,服务器可以获取待合成的文本的音子序列,然后通过语音合成模型中的声学模型对音子序列进行处理,得到梅尔谱特征;然后通过语音合成模型中的声码器对该梅尔谱特征进行反变换,得到至少一个目标语种合成语音,该合成语音具有目标音色,如具有某个歌手、演员或播音员的音色的合成语音;服务器根据各终端所请求的语种要求,分别将至少一个目标语种的合成语音发送给对应的终端,如将目标语种1的合成语音发送给终端1,以此类推。

上述实施例中,首先从不同音色的语音样本提取声学特征,并基于提取的声学特征生成具有目标音色的至少一个目标语种的目标语音,根据该目标文本的音子序列以及与该目标文本对应的具有目标音色且不同目标语种的目标语音,对语音合成模型进行训练,从而无需使用不同目标语种不同音色的目标语音训练不同的语音合成模型,提高了模型训练效率。此外,利用训练后的语音合成模型对待合成的文本的音子序列进行音色处理,得到包括目标音色信息的声学特征,然后通过该训练后的语音合成模型对声学特征进行语音合成,得到目标音色的至少一个目标语种的合成语音,从而即便从某一语种切换到另一语种,其合成语音的音色保持不变,而且由于不需要更换语音合成模型,可以使合成语音自然且流畅。

在一个实施例中,如图6所示,s204具体可以包括:

s602,通过语音合成模型对音子序列进行语义特征提取,得到语义特征。

其中,语义特征指的是各分词在待合成的文本中的上下文信息。音子序列包括对该文本中各分词进行音子转换所得的分词音子。

在一个实施例中,s602具体可以包括:终端通过声学模型中的编码器对音子序列中的各分词音子进行编码,得到包含语义特征的编码向量。其中,声学模型采用的是序列到序列(sequence-to-sequence)的结构,其包括编码器(encoder)、解码器(decoder)和注意力(attention)网络,如图7所示。举例来说,假设音子序列为[x1,x2,...,xu],终端将该音子序列输入至编码器,编码器对输入的音子序列[x1,x2,...,xu]进行编码,得到包含语义特征的编码向量[h1,h2,...,hu]。

s604,基于目标发音对象的目标音色信息对语义特征进行音色处理,得到至少一个目标语种的包括目标音色信息的声学特征。

其中,目标音色信息是语音合成模型在训练过程中学习到的目标发音对象的音色特征。

在一个实施例中,s604具体可以包括:终端通过声学模型中的解码器,基于目标发音对象的目标音色信息对编码向量进行解码,得到至少一个目标语种的包括目标音色信息的声学特征。

在一个实施例中,上述基于目标发音对象的目标音色信息对编码向量进行解码的步骤,具体可以包括:终端通过声学模型中的注意力网络,确定编码向量中各分词的关注程度;其中,各分词在文本中的关注程度不同;按照关注程度对编码向量中与各分词对应的词编码向量进行加权处理,得到加权编码向量;基于目标发音对象的目标音色信息对加权编码向量进行解码。

其中,注意力网络的作用是计算解码器所要重点关注编码向量中的元素(即词编码向量),对于重点关注的元素使用权重大的值进行加权处理,从而可以有效提升模型建模精度。

例如,接着上个例子,假设音子序列为[x1,x2,...,xu],终端将该音子序列输入至编码器,编码器对输入的音子序列[x1,x2,...,xu]进行编码,得到包含语义特征的编码向量[h1,h2,...,hu]。解码器在解码过程中,注意力网络实时确定编码向量中各元素的关注程度,对不同关注程度的元素采用不同权重进行加权,从而解码器可以得到梅尔谱特征[y1,y2,...yt]。需要指出的是,decoder是一个自回归的结构,开始状态为y0,基于y0生成y1之后,再根据y1生成y2,如此往复得到梅尔谱特征[y1,y2,...yt]。

此外,在获得声学特征之后,该方法还包括:

s606,通过语音合成模型对声学特征进行语音合成,得到至少一个目标语种的且为目标音色的合成语音。

其中,s606的具体步骤可以参考图2实施例中的s206。

s608,播放该合成语音。

具体地,终端通过扬声器播放合成语音。此外,在播放之前,终端还可以对该合成语音进行去噪处理。

上述实施例中,利用语音合成模型可以将待合成的文本的音子序列转换为包含目标音色信息的声学特征,从而可以得到将该声学特征进行语音合成得到具有目标音色的至少一个目标语种的合成语音,避免了所得的不同目标语种的合成语音音色不一致的问题。此外,可以利用声学模型中的编码器和解码器对音子序列进行编解码得到声学特征,并且在解码过程中,注意力网络可以计算编码器每一步应该关注编码向量的哪些部分,可以提升声学特征的精度。

在一个实施例中,在进行语音合成之前,终端可以对语音合成模型进行训练,或者可以通过服务器对语音合成模型进行训练,并在训练完成后,将其部署于终端。如图8所示,语音合成模型的训练步骤具体可以包括:

s802,分别对至少一个目标语种的语音样本进行声学特征提取,得到训练声学特征。

其中,语音样本可以指不同发音对象录制的语音,不同对象录制的语音,其语种和音色均不同。上述不同发音对象包括目标发音对象和其他发音对象,而目标发音对象可以指用户所需音色的发音对象,如在进行语音合成时,用户想要某演员a的音色,则该演员a即为目标发音对象。训练声学特征可以是包含目标发音对象的目标发音信息的梅尔谱特征。

在一个实施例中,终端在获得至少一个目标语种的语音样本后,从该语音样本中提取mfcc(melfrequencycepstrumcoefficient,梅尔倒谱系数),然后根据梅尔倒谱系数确定语音样本的训练语义特征;对训练语义特征进行音色处理,得到梅尔谱特征。其中,训练语义特征也即ppgs表征,用于表示语音样本中各语音帧属于目标音子的后验概率(phoneticposteriorgrams,ppgs)

其中,上述从该语音样本中提取梅尔倒谱系数的步骤,具体可以包括:终端对语音样本进行分帧,然后进行傅里叶变换得到各帧语音的频谱,并根据各帧语音的频谱确定功率谱,取对数得到与功率谱对应的对数功率谱;终端将对数功率谱输入梅尔尺度的三角滤波器,经离散余弦变换后得到梅尔倒谱系数。

例如,假设所语音样本的信号表达式为x(n),分帧和加窗后的语音为x’(n)=x(nh(n),对加窗后的语音x’(n)=x(nh(n)进行离散傅里叶变换,得到对应的频谱信号为:

其中,n表示离散傅里叶变换的点数。

获得各帧语音的频谱时,终端计算出对应的功率谱,并求出功率谱的对数值得到对数功率谱,将对数功率谱输入梅尔尺度的三角滤波器,经离散余弦变换后得到梅尔倒谱系数,所得梅尔倒谱系数的表达式为:

将上述的对数功率谱带入离散余弦变换,求出l阶的梅尔频率倒谱参数,l阶指的是梅尔倒谱系数阶数,可以取值取12~16。m指的是三角滤波器个数。

在得到梅尔倒谱系数之后,终端可以通过ppgs提取模型对梅尔倒谱系数进行处理,得到ppgs表征;然后,通过声音转换模型对ppgs表征进行处理,得到梅尔谱特征。如图9所示,从发音对象a的语音样本中提取mfcc,然后将mfcc输入至ppgs提取模型得到ppgs表征,接着将ppgs表征输入声音转换模型,得到包含目标发音信息的梅尔谱特征。

其中,上述的ppgs提取模型和声音转换模型在应用之前,进行模型训练。其中,模型训练分两个阶段:即先训练ppgs提取模型,待ppgs提取模型收敛时,将收敛的ppgs提取模型与声音转换模型一起进行训练,如图10所示。

在一个实施例中,s802之前,可以先对语音样本进行语音增强(如降噪)处理,然后对经过语音增强处理之后的语音样本进行声学特征提取。

s804,基于训练声学特征生成至少一个目标语种的具有目标音色的目标语音。

在一个实施例中,终端可以通过声码器对训练声学特征进行反变换,从而得到至少一个目标语种的目标语音,所得的这些目标语音均具有目标音色。其中,反变换可以是傅里叶反变换。

s806,当从与目标语音对应的目标文本中获得训练音子序列时,通过语音合成模型对训练音子序列进行音色处理,得到包括目标音色信息的训练声学特征。

s808,通过语音合成模型对训练声学特征进行语音合成,得到至少一个目标语种的且具有目标音色的预测语音。

s810,基于预测语音与目标语音之间的损失值,对语音合成模型中的网络参数进行调整。

上述s806~s810为语音合成模型的训练过程,可以将所有目标语音作为训练集对语音合成模型进行训练,还可以分两个阶段对该语音合成模型进行训练,其中:阶段1,基于目标发音对象发出的语音样本作为目标语音进行训练,当模型收敛后进入阶段2的训练;阶段2,利用生成的具有目标音色(即目标发音对象的音色)的目标语音继续对语音合成模型进行训练。

接下来,对上述两种阶段的训练过程进行描述,具体如下:

阶段1,基于目标发音对象发出的语音样本作为目标语音进行训练。

在一个实施例中,目标语种包括目标发音对象发出相应语音样本的第一类语种,因此训练音子序列包括第一类语种对应的第一训练音子序列。s806具体可以包括:终端通过语音合成模型对第一训练音子序列进行音色处理,得到包括目标音色信息的第一训练声学特征;s808具体可以包括:终端通过语音合成模型对第一训练声学特征进行语音合成,得到具有目标音色的第一类语种的语音;s810具体可以包括:终端基于第一类语种的语音与目标语音之间的第一损失值,对语音合成模型中的网络参数进行调整,直至语音合成模型收敛。

在得到第一损失值后,终端将第一损失值在语音合成模型中反向传播,从而得到语音合成模型中各网络参数的梯度值,基于该梯度值对语音合成模型中各网络参数进行调整。

阶段2,利用生成的具有目标音色的目标语音继续对语音合成模型进行训练。

在一个实施例中,目标语种包括其他不同语种发音对象发出相应语音样本的第二类语种,训练音子序列包括第二类语种对应的第二训练音子序列;s806具体可以包括:终端当基于第一损失值调整语音合成模型中的网络参数达到模型收敛时,通过语音合成模型对第二训练音子序列进行音色处理,得到包括目标音色信息的第二训练声学特征;s808具体可以包括:终端通过语音合成模型对第二训练声学特征进行语音合成,得到具有目标音色的第二类语种的语音;s810具体可以包括:终端基于第二类语种的语音与目标语音之间的第二损失值,对语音合成模型中的网络参数进行调整,直至语音合成模型收敛,从而完成第二阶段的训练,得到最终的语音合成模型。

在得到第二损失值后,终端将第二损失值在语音合成模型中反向传播,从而得到语音合成模型中各网络参数的梯度值,基于该梯度值对语音合成模型中各网络参数进行调整。

上述实施例中,从不同音色的语音样本提取中进行声学特征提取,并基于提取的训练声学特征生成具有目标音色且不同目标语种的目标语音,根据该目标文本的音子序列以及与该目标文本对应的具有目标音色且不同目标语种的目标语音,对语音合成模型进行训练,即可得到用于合成具有目标音色且不同目标语种的语音合成模型,从而无需使用不同目标语种不同音色的目标语音训练不同的语音合成模型,有效地提高了模型训练效率。

在一个实施例中,针对语音合成模型的训练,除图8实施例的联合训练之外,还可以单独对语音合成模型中的声学模型和声码器进行训练,如图11所示,训练步骤具体可以包括:

s1102,分别对至少一个目标语种的语音样本进行声学特征提取,得到训练声学特征。

其中,各语音样本之间的音色不同。

s1104,基于训练声学特征生成至少一个目标语种的具有目标音色的目标语音。

s1106,当从与目标语音对应的目标文本中获得训练音子序列时,通过声学模型对训练音子序列进行音色处理,得到包括目标音色信息的训练声学特征。

其中,上述s1102~s1106的具体步骤,可以参考图8实施例中的s802~s806。

s1108,基于训练声学特征和从目标语音中提取的声学特征之间的损失值,对声学模型进行参数调整。

在一个实施例中,在得到损失值后,终端将损失值在声学模型中反向传播,从而得到声学模型中各网络参数的梯度值,基于该梯度值对声学模型中各网络参数进行调整,直至声学模型收敛。

在对声学模型进行训练的过程中,终端还可以对声码器进行训练,具体步骤包括:终端在目标语音中进行声学特征提取,得到目标声学特征;通过声码器对目标声学特征进行语音合成,得到不同目标语种的目标预测语音,该目标预测语音具有目标音色;基于目标预测语音和目标语音之间的损失值,对声码器进行参数调整。

其中,声码器的模型结构可以是wavernn结构,而wavernn结构是一个单层的循环神经网络。

上述实施例中,从不同音色的语音样本提取中进行声学特征提取,并基于提取的训练声学特征生成具有目标音色且不同目标语种的目标语音,根据该目标文本的音子序列以及与该目标文本对应的具有目标音色且不同目标语种的目标语音,对声学模型进行训练;此外,在目标语音中进行声学特征提取得到目标声学特征,基于目标声学特征和目标语音对声码器进行训练,即可得到用于合成具有目标音色且不同目标语种的语音合成模型(该语音合成模型包括训练后的声学模型和声码器),从而无需使用不同目标语种不同音色的目标语音训练不同的语音合成模型,有效地提高了模型训练效率。

在一个实施例中,如图12所示,提供了一种语音合成模型处理方法,以该方法由电子设备执行,该电子设备可以是图1中的终端102或服务器104,即该方法可以由终端102或服务器104执行。在接下来的实施例中,以电子设备为服务器104为例进行说明,包括以下步骤:

s1202,分别对至少一个目标语种的语音样本进行声学特征提取,得到训练声学特征。

其中,各语音样本之间的音色不同。

在一个实施例中,训练声学特征包括梅尔谱特征;s1202具体包括:终端分别从至少一个目标语种的语音样本中提取梅尔倒谱系数;根据梅尔倒谱系数确定语音样本的训练语义特征,训练语义特征用于表示语音样本中各语音帧属于目标音子的后验概率;对训练语义特征进行音色处理,得到梅尔谱特征。

s1204,基于训练声学特征生成至少一个目标语种的且具有目标音色的目标语音。

s1206,当从与目标语音对应的目标文本中获得训练音子序列时,通过语音合成模型对训练音子序列进行音色处理,得到包括目标音色信息的训练声学特征。

s1208,通过语音合成模型对训练声学特征进行语音合成,得到至少一个目标语种的预测语音,预测语音具有目标音色信息对应的目标音色。

s1210,基于预测语音与目标语音之间的损失值,对语音合成模型中的网络参数进行调整。

其中,上述s1202~s1210的具体步骤,可以参考图8实施例s802~s810,以及图11实施例s1102~s1108。

上述实施例中,从不同音色的语音样本提取中进行声学特征提取,并基于提取的训练声学特征生成具有目标音色且不同目标语种的目标语音,根据该目标文本的音子序列以及与该目标文本对应的具有目标音色且不同目标语种的目标语音,对语音合成模型进行训练,即可得到用于合成具有目标音色且不同目标语种的语音合成模型,从而无需使用不同目标语种不同音色的目标语音训练不同的语音合成模型,有效地提高了模型训练效率。

接下来,结合多语种的语音合成系统结构对上述方案进行说明,具体如下:

如图13所示,该语音合成系统结构主要分为数据层、模型层和服务层三个层,其中:

(1)数据层

数据层的主要作用是获得用于训练语音合成模型(该语音合成模型包括声学模型和声码器)的训练集。首先,需目标发音对象根据制定的文本录制高质量的某语种的语音,如录制中文语音。录制完成以后,分别对录制的语音和制定的文本进行校对和标注。

其中,校对过程会去除掉语音中录制错误的语句,此外,还可以对错误的语句进行补录。标注过程包括注音和标注韵律等。需要指出的是,注音需要根据实际语音标注读音,比如对于中文,多音字“地”标注为“di”或“de”;此外,韵律需要根据语音停顿情况进行标注,如中文一般划分为4个停顿层级:句子级边界标为#4,语调短语标为#3,韵律短语标为#2,韵律词标为#1。

当目标发音对象录制了某语种(如中文)的语音后,根据搭建的声音转换系统将任意语音转换为目标发音对象的音色(简称目标音色)。其中,声音转换系统中可以包括ppgs提取模型和声音转换模型。此外,声音转换系统中还可以包括声码器,用于合成具有目标音色的语音。

声音转换系统搭建流程可参考图10,主要包含ppgs提取模型训练和声音转换模型训练。其中,将该说话人无关语音识别模型作为ppgs提取模型进行模型训练,训练后的ppgs提取模型用来从mfcc中提取ppgs表征。ppgs表征表示输入每一帧语音属于某个发音音子的后验概率,可以视为去除了音色信息的语义空间的归一化表征。上述的说话人无关语音识别模型(即ppgs提取模型)采用tdnn(timedelayneuralnetwork,时延神经网络)结构,tdnn结构是一个多层的神经网络结构,低层处理窄上下文信息,高层处理宽上下文信息,不同层学习不同时间分辨率的信息,通过这种结构可以较好学习长的上下文依赖关系。

其中,声音转换模型采用blstm(bidirectionallongshort-termmemory,双向长短时记忆神经网络)结构,其输入为ppgs表征,输出为梅尔谱特征。该ppgs表征可以通过训练后的ppgs提取模型从mfcc中提取。将输出的梅尔谱特征与从训练集的语音中提取的梅尔谱特征进行对比,计算出损失值,从而对声音转换模型进行优化。训练完成后,声音转换模型就可以学习到从ppgs表征到目标发音对象音色的梅尔谱特征之间的映射关系,从而在应用时,输入任意音色的语音,都可以保持其语义信息,而将其音色转换为具有目标发音对象音色的语音。其中,目标发音对象音色指的是目标发音对象的音色,即目标音色。

声音转换系统搭建完成后,可以利用该声音转换系统构建具有目标发音对象音色特点的多语种语音库,具体流程如图14所示。准备大量标准英文语音,提取该标准英文语音中的mfcc,然后通过ppgs提取模型得到相应的ppgs表征,通过声音转换模型得到具有目标发音对象音色的梅尔谱特征,最后通过语种无关的声码器(如wavernn声码器,即神经网络生码器)将梅尔谱特征反变换为具有目标发音对象音色的英文语音。

其中,语种无关的声码器输入是梅尔谱特征,输出是具有目标发音对象音色的语音,此外,该声码器可采用多语种的语音进行训练。

同理,也可以将大量标准日文语音转换为具有目标发音对象音色特点的日文语音。将上述生成的英文语音、日文语音与目标发音对象录制的中文语音等组合起来,得到多语种语音,再加上相应的标注文件,便得到多语种语音库,将该多语种语音库中的语音以及对应的文本标注作为训练集对语音合成模型进行训练。上述语种语音仅仅是举例,而非穷举,实际应用过程中,还可以包括其它语种的语音。

通过上述操作,得到具备目标发音对象音色特点的多语种语音库。需要注意的是,目标发音对象仅仅需要录制某个语种的语音即可(示例中为中文语音),即仅需要录制单语种的语音。

(2)模型层

模型层主要是通过语音合成系统将需要进行语音合成的文本转换为具有目标音色的语音。其中,语音合成系统主要包括前端的文本分析模块和语音合成模型,其中,语音合成模型中包括声学模型和声码器等,如图15所示。该文本分析模块可以将输入的文本转换为音子序列,声学模型将音子序列转换为梅尔谱特征,声码器根据梅尔谱特征生成最终语音信号。

对于声学模型和声码器的训练,首先使用目标发音对象录制的某语种语音训练声学模型,然后训练声码器,该训练过程为第一阶段;此外,也可以对声学模型和声码器进行联合训练。接下来,介绍第一阶段中声学模型和声码器独立训练的过程,对于声学模型的训练:首先解析训练集内的文本标注,基于该文本标注得到音子序列,例如对于中文,音子序列即为声韵母序列;在得到音子序列之后,将该音子序列作为声学模型的输入,从而根据音子序列不断学习梅尔谱特征,以使学习的梅尔谱特征与从训练集中语音提取的梅尔谱特征一致。其中,声学模型采用sequence-to-sequence的结构,如图7所示,该结构主要包含encoder、decoder和attention网络三个部分。encoder对输入音子序列[x1,x2,...,xu]进行编码得到[h1,h2,...,hu],decoder是一个自回归的结构,开始状态为y0,根据y0生成y1之后,再根据y1生成y2,如此往复,生成输出序列[y1,y2,...yt],attention模块作用是计算decoder每一步应该关注编码结果的哪些部分,可以有效提升模型建模精度。

对于声码器的训练:从训练集的语音提取梅尔谱特征作为输入,以学习到具有目标发音对象音色的语音。其中,声码器的模型结构采用wavernn结构,该wavernn结构是一个单层的循环神经网络。

上述声学模型和声码器训练收敛后,将其作为初始化模型,然后进行第二阶段的训练,即使用数据层生成的目标发音对象的多语种音库继续对声学模型和声码器进行训练。需要注意的是,在训练过程中会将语种标签也作为输入,拼接到encoder的输出后边引入到模型中。对于第二阶段的训练,具体训练方法与第一阶段的训练方法是一致的,只是模型输入的数据不同。通过上述第一阶段和第二阶段的训练,可以得到多语种的声学模型和声码器。

(3)服务层

模型层训练所得的多语种的声学模型和声码器,可以部署到服务器,从而服务器可以通过网络接收终端的语音合成服务请求,然后进行语音合成服务。终端将待合成的文本(如“你喜欢红魔还是iphone”)通过语音合成服务请求发送到服务器,服务器在得到待合成的文本后,会进行文本分析,文本分析如分词处理和注音等,将其解析为音子序列(如“nixihuanhuawweihaishieayefeowen”),然后通过多语种的声学模型得到对应的梅尔谱特征,最后通过声码器反变换得到具有目标发音对象音色的语音,并将合成的语音通过网络返回给终端,以便用户收听合成的具有目标发音对象音色的语音。

应该理解的是,虽然图2、图5、图6、图8、图11、图12的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、图5、图6、图8、图11、图12中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中,如图16所示,提供了一种语音合成装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为电子设备的一部分,该装置具体包括:获取模块1602、处理模块1604和合成模块1606,其中:

获取模块1602,用于获取待合成的文本的音子序列;

处理模块1604,用于通过语音合成模型对音子序列进行音色处理,得到包括目标音色信息的声学特征;语音合成模型,是基于目标文本的音子序列以及至少一个目标语种的目标语音进行训练所得的;目标语音与目标文本对应,是根据从不同音色的语音样本提取的声学特征生成的具有目标音色的语音;

合成模块1606,用于通过语音合成模型对声学特征进行语音合成,得到至少一个目标语种的且为目标音色的合成语音。

上述实施例中,首先从不同音色的语音样本提取声学特征,并基于提取的声学特征生成具有目标音色的至少一个目标语种的目标语音,根据该目标文本的音子序列以及与该目标文本对应的具有目标音色且不同目标语种的目标语音,对语音合成模型进行训练,从而无需使用不同目标语种不同音色的目标语音训练不同的语音合成模型,提高了模型训练效率。此外,利用训练后的语音合成模型对待合成的文本的音子序列进行音色处理,得到包括目标音色信息的声学特征,然后通过该训练后的语音合成模型对声学特征进行语音合成,得到目标音色的至少一个目标语种的合成语音,从而即便从某一语种切换到另一语种,其合成语音的音色保持不变,而且由于不需要更换语音合成模型,可以使合成语音自然且流畅。

在一个实施例中,获取模块1602,还用于响应于语音合成业务请求,从语音合成业务请求中提取待合成的文本;对文本进行分词处理,得到待合成的分词;将每个分词进行音子转换,得到待合成的分词音子;对所得的分词音子进行组合,得到文本的音子序列。

在一个实施例中,处理模块1604,还用于通过语音合成模型对音子序列进行语义特征提取,得到语义特征;基于目标发音对象的目标音色信息对语义特征进行音色处理,得到至少一个目标语种的包括目标音色信息的声学特征;其中,目标音色信息,是语音合成模型在训练过程中学习到的目标发音对象的音色特征。

在一个实施例中,语音合成模型中包括声学模型;处理模块1604,还用于通过声学模型中的编码器对音子序列中的各分词音子进行编码,得到包含语义特征的编码向量;语义特征是各分词在文本中的上下文信息。

在一个实施例中,处理模块1604,还用于通过声学模型中的解码器,基于目标发音对象的目标音色信息对编码向量进行解码,得到至少一个目标语种的包括目标音色信息的声学特征。

在一个实施例中,处理模块1604,还用于通过声学模型中的注意力网络,确定编码向量中各分词的关注程度;其中,各分词在文本中的关注程度不同;按照关注程度对编码向量中与各分词对应的词编码向量进行加权处理,得到加权编码向量;基于目标发音对象的目标音色信息对加权编码向量进行解码。

上述实施例中,利用语音合成模型可以将待合成的文本的音子序列转换为包含目标音色信息的声学特征,从而可以得到将该声学特征进行语音合成得到具有目标音色的不同目标语种的合成语音,避免了所得的不同目标语种的合成语音音色不一致的问题。此外,可以利用声学模型中的编码器和解码器对音子序列进行编解码得到声学特征,并且在解码过程中,注意力网络可以计算编码器每一步应该关注编码向量的哪些部分,可以提升声学特征的精度。

在一个实施例中,如图17所示,该装置还包括:

提取模块1608,用于分别对至少一个目标语种的语音样本进行声学特征提取,得到训练声学特征;各语音样本之间的音色不同;

生成模块1610,用于基于训练声学特征生成至少一个目标语种的具有目标音色的目标语音;

处理模块1604,还用于当从与目标语音对应的目标文本中获得训练音子序列时,通过语音合成模型对训练音子序列进行音色处理,得到包括目标音色信息的训练声学特征;

合成模块1606,还用于通过语音合成模型对训练声学特征进行语音合成,得到至少一个目标语种的且具有目标音色的预测语音;

调整模块1612,用于基于预测语音与目标语音之间的损失值,对语音合成模型中的网络参数进行调整。

在一个实施例中,目标语种包括目标发音对象发出相应语音样本的第一类语种,训练音子序列包括第一类语种对应的第一训练音子序列;

处理模块1604,还用于通过语音合成模型对第一训练音子序列进行音色处理,得到包括目标音色信息的第一训练声学特征;

合成模块1606,还用于通过语音合成模型对第一训练声学特征进行语音合成,得到具有目标音色的第一类语种的语音;

调整模块1612,还用于基于第一类语种的语音与目标语音之间的第一损失值,对语音合成模型中的网络参数进行调整。

在一个实施例中,目标语种包括其他不同语种发音对象发出相应语音样本的第二类语种,训练音子序列包括第二类语种对应的第二训练音子序列;

处理模块1604,还用于当基于第一损失值调整语音合成模型中的网络参数达到模型收敛时,通过语音合成模型对第二训练音子序列进行音色处理,得到包括目标音色信息的第二训练声学特征;

合成模块1606,还用于通过语音合成模型对第二训练声学特征进行语音合成,得到具有目标音色的第二类语种的语音;

调整模块1612,还用于基于第二类语种的语音与目标语音之间的第二损失值,对语音合成模型中的网络参数进行调整。

上述实施例中,从不同音色的语音样本提取中进行声学特征提取,并基于提取的训练声学特征生成具有目标音色且不同目标语种的目标语音,根据该目标文本的音子序列以及与该目标文本对应的具有目标音色且不同目标语种的目标语音,对语音合成模型进行训练,即可得到用于合成具有目标音色且不同目标语种的语音合成模型,从而无需使用不同目标语种不同音色的目标语音训练不同的语音合成模型,有效地提高了模型训练效率。

在一个实施例中,语音合成模型中包括声学模型;

提取模块1608,用于分别对至少一个目标语种的语音样本进行声学特征提取,得到训练声学特征;各语音样本之间的音色不同;

生成模块1610,用于基于训练声学特征生成至少一个目标语种的具有目标音色的目标语音;

处理模块1604,用于当从与目标语音对应的目标文本中获得训练音子序列时,通过声学模型对训练音子序列进行音色处理,得到包括目标音色信息的训练声学特征;

调整模块1612,用于基于训练声学特征和从目标语音中提取的声学特征之间的损失值,对声学模型进行参数调整。

在一个实施例中,语音合成模型中包括声码器;

提取模块1608,还用于在目标语音中进行声学特征提取,得到目标声学特征;

合成模块1606,还用于通过声码器对目标声学特征进行语音合成,得到至少一个目标语种的目标预测语音;该目标预测语音具有目标音色;

调整模块1612,还用于基于目标预测语音和目标语音之间的损失值,对声码器进行参数调整。

上述实施例中,从不同音色的语音样本提取中进行声学特征提取,并基于提取的训练声学特征生成具有目标音色且不同目标语种的目标语音,根据该目标文本的音子序列以及与该目标文本对应的具有目标音色且不同目标语种的目标语音,对声学模型进行训练;此外,在目标语音中进行声学特征提取得到目标声学特征,基于目标声学特征和目标语音对声码器进行训练,即可得到用于合成具有目标音色且不同目标语种的语音合成模型(该语音合成模型包括训练后的声学模型和声码器),从而无需使用不同目标语种不同音色的目标语音训练不同的语音合成模型,有效地提高了模型训练效率。

关于语音合成装置的具体限定可以参见上文中对于语音合成方法的限定,在此不再赘述。上述语音合成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于电子设备中的处理器中,也可以以软件形式存储于电子设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,如图18所示,提供了一种语音合成模型处理装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为电子设备的一部分,该装置具体包括:提取模块1802、生成模块1804、处理模块1806、合成模块1808和调整模块1810,其中:

提取模块1802,用于分别对至少一个目标语种的语音样本进行声学特征提取,得到训练声学特征;各语音样本之间的音色不同;

生成模块1804,用于基于训练声学特征生成至少一个目标语种的且具有目标音色的目标语音;

处理模块1806,用于当从与目标语音对应的目标文本中获得训练音子序列时,通过语音合成模型对训练音子序列进行音色处理,得到包括目标音色信息的训练声学特征;

合成模块1808,用于通过语音合成模型对训练声学特征进行语音合成,得到至少一个目标语种的预测语音,预测语音具有目标音色信息对应的目标音色;

调整模块1810,用于基于预测语音与目标语音之间的损失值,对语音合成模型中的网络参数进行调整。

在一个实施例中,训练声学特征包括梅尔谱特征;提取模块1802,还用于分别从至少一个目标语种的语音样本中提取梅尔倒谱系数;根据梅尔倒谱系数确定语音样本的训练语义特征,训练语义特征用于表示语音样本中各语音帧属于目标音子的后验概率;对训练语义特征进行音色处理,得到梅尔谱特征。

上述实施例中,从不同音色的语音样本提取中进行声学特征提取,并基于提取的训练声学特征生成具有目标音色且不同目标语种的目标语音,根据该目标文本的音子序列以及与该目标文本对应的具有目标音色且不同目标语种的目标语音,对语音合成模型进行训练,即可得到用于合成具有目标音色且不同目标语种的语音合成模型,从而无需使用不同目标语种不同音色的目标语音训练不同的语音合成模型,有效地提高了模型训练效率。

在一个实施例中,目标语种包括目标发音对象发出相应语音样本的第一类语种,训练音子序列包括第一类语种对应的第一训练音子序列;

处理模块,还用于通过语音合成模型对第一训练音子序列进行音色处理,得到包括目标音色信息的第一训练声学特征;

合成模块,还用于通过语音合成模型对第一训练声学特征进行语音合成,得到具有目标音色的第一类语种的语音;

调整模块,还用于基于第一类语种的语音与目标语音之间的第一损失值,对语音合成模型中的网络参数进行调整。

在一个实施例中,目标语种包括其他不同语种发音对象发出相应语音样本的第二类语种,训练音子序列包括第二类语种对应的第二训练音子序列;

处理模块,还用于当基于第一损失值调整语音合成模型中的网络参数达到模型收敛时,通过语音合成模型对第二训练音子序列进行音色处理,得到包括目标音色信息的第二训练声学特征;

合成模块,还用于通过语音合成模型对第二训练声学特征进行语音合成,得到具有目标音色的第二类语种的语音;

调整模块,还用于基于第二类语种的语音与目标语音之间的第二损失值,对语音合成模型中的网络参数进行调整。

上述实施例中,从不同音色的语音样本提取中进行声学特征提取,并基于提取的训练声学特征生成具有目标音色且不同目标语种的目标语音,根据该目标文本的音子序列以及与该目标文本对应的具有目标音色且不同目标语种的目标语音,对语音合成模型进行训练,即可得到用于合成具有目标音色且不同目标语种的语音合成模型,从而无需使用不同目标语种不同音色的目标语音训练不同的语音合成模型,有效地提高了模型训练效率。

在一个实施例中,语音合成模型中包括声学模型;

提取模块,用于分别对至少一个目标语种的语音样本进行声学特征提取,得到训练声学特征;各语音样本之间的音色不同;

生成模块,用于基于训练声学特征生成至少一个目标语种的具有目标音色的目标语音;

处理模块,用于当从与目标语音对应的目标文本中获得训练音子序列时,通过声学模型对训练音子序列进行音色处理,得到包括目标音色信息的训练声学特征;

调整模块,用于基于训练声学特征和从目标语音中提取的声学特征之间的损失值,对声学模型进行参数调整。

在一个实施例中,语音合成模型中包括声码器;

提取模块,还用于在目标语音中进行声学特征提取,得到目标声学特征;

合成模块,还用于通过声码器对目标声学特征进行语音合成,得到至少一个目标语种的目标预测语音;该目标预测语音具有目标音色;

调整模块,还用于基于目标预测语音和目标语音之间的损失值,对声码器进行参数调整。

上述实施例中,从不同音色的语音样本提取中进行声学特征提取,并基于提取的训练声学特征生成具有目标音色且不同目标语种的目标语音,根据该目标文本的音子序列以及与该目标文本对应的具有目标音色且不同目标语种的目标语音,对声学模型进行训练;此外,在目标语音中进行声学特征提取得到目标声学特征,基于目标声学特征和目标语音对声码器进行训练,即可得到用于合成具有目标音色且不同目标语种的语音合成模型(该语音合成模型包括训练后的声学模型和声码器),从而无需使用不同目标语种不同音色的目标语音训练不同的语音合成模型,有效地提高了模型训练效率。

关于语音合成模型处理装置的具体限定可以参见上文中对于语音合成模型处理方法的限定,在此不再赘述。上述语音合成模型处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于电子设备中的处理器中,也可以以软件形式存储于电子设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种电子设备,该电子设备可以是服务器,其内部结构图可以如图19所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的数据库用于存储语音数据。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音合成模型处理方法,也可以实现一种语音合成方法。

在一个实施例中,提供了一种电子设备,该电子设备可以是终端,其内部结构图可以如图20所示。该电子设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、运营商网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种语音合成方法,也可以实现一种语音合成模型处理方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解,图19和图20中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,还提供了一种电子设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-onlymemory,rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(randomaccessmemory,ram)或外部高速缓冲存储器。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(staticrandomaccessmemory,sram)或动态随机存取存储器(dynamicrandomaccessmemory,dram)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜