农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

语音合成系统的生成方法、装置、设备及存储介质与流程

2021-08-24 16:08:00 来源：中国专利 TAG：语音合成装置生成计算机方法

本发明涉及语音合成领域，尤其涉及一种语音合成系统的生成方法、装置、计算机设备及存储介质。

背景技术：

近年来，随着神经网络学习算法被引入到语音合成领域，其更好的建模精度和强大的数据利用能力，迅速替代了传统的隐马尔科夫模型(hiddenmarkovmod-el，hmm)在统计建模语音合成方法中的地位，成为语音合成的主流方法。例如，ling提出了使用受限玻尔兹曼机(re-strictedboltzmannmachines，rbms)和深度信念网络(deepbeliefnetwork，dbn)替换掉hmm模型中状态分布中的高斯分布，以提升模型的表征能力；考虑到深度全连接网络(deepneuralnetworks，dnn)强大的建模能力，zen提出完全抛hmm模型，使用dnn直接对文本特征到声学参数的映射进行建模；为了考虑声学参数相邻帧之间的关系，fan、zen进一步提出使用递归神经网络(recurrentneuralnetwork，rnn)和长短时记忆单元(longshorttermmemory，lstm)对文本特征到声学参数的映射进行建模。

目前，在使用单人1小时左右标准录音棚所录语音数据作为训练数据的情况下，该lstm-rnn模型可以获得自然度约3.7mos分左右的语音合成系统。进一步提升单人的标准录音棚所录语音数据至10小时左右，可提升语音合成系统的自然度接近4.0mos分。但高质量的录音数据采集是较为困难的，录制单人标准录音棚所录语音数据10小时以上的周期和工作量很大，故要进一步提升训练数据量，混用多人数据来训练语音合成系统成为必要选择，但是若直接使用多人的海量数据来训练lstm-rnn模型以合成语音合成系统，由于发音人音色、风格等存在巨大差别，其所合成的模型会因识别混乱等问题而导致无法有效地实现语音合成。

技术实现要素：

本发明实施例提供一种语音合成系统的生成方法、装置、计算机设备及存储介质，不仅能够有效提高语音合成系统的自然度以及对合成语音的控制力，还能够提高用户的使用体验度。

第一方面，本发明实施例提供了一种语音合成系统的生成方法，该方法包括：

获取预设训练集中的训练样本，并对所获取的训练样本进行分解以得到相应的声学参数和多个特征参数；

根据预设的听感量化编码规则对每个训练样本的特征参数进行听感量化编码以得到相应的中间编码信息；

将所得到的中间编码信息输入预设的神经网络模型中进行训练以得到一中间模型；

将所获取的训练样本的声学参数输入所述中间模型进行训练，以得到相应的目标语音合成系统。

第二方面，本发明实施例还提供了一种语音合成系统的生成装置，该装置包括：

样本获取单元，用于获取预设训练集中的训练样本，并对所获取的训练样本进行分解以得到相应的声学参数和多个特征参数；

量化编码单元，用于根据预设的听感量化编码规则对每个训练样本的特征参数进行听感量化编码以得到相应的中间编码信息；

第一训练单元，用于将所得到的中间编码信息输入预设的神经网络模型中进行训练以得到一中间模型；

第二训练单元，用于将所获取的训练样本的声学参数输入所述中间模型进行训练，以得到相应的目标语音合成系统。

第三方面，本发明实施例还提供了一种计算机设备，其包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序当被处理器执行时可实现上述方法。

本发明实施例提供了一种语音合成系统的生成方法、装置、计算机设备及存储介质。其中，所述方法包括：获取预设训练集中的训练样本，并对所获取的训练样本进行分解以得到相应的声学参数和多个特征参数；根据预设的听感量化编码规则对每个训练样本的特征参数进行听感量化编码以得到相应的中间编码信息；将所得到的中间编码信息输入预设的神经网络模型中进行训练以得到一中间模型；将所获取的训练样本的声学参数输入所述中间模型进行训练，以得到相应的目标语音合成系统。本发明实施例由于对训练数据的特征参数进行量化编码，并以此对神经网络模型进行训练，可得到一能识别多种特征参数的语音合成系统，实现提高语音合成系统的自然度、对合成语音的控制力，以及提高用户的使用体验度的效果。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种语音合成系统的生成方法的流程示意图；

图1a是本发明实施例提供的一种语音合成系统的生成方法的应用场景示意图；

图2是本发明实施例提供的一种语音合成系统的生成方法的子流程示意图；

图3是本发明实施例提供的一种语音合成系统的生成方法的子流程示意图；

图4是本发明实施例提供的一种语音合成系统的生成方法的子流程示意图；

图5是本发明另一实施例提供的一种语音合成系统的生成方法的流程示意图；

图6是本发明实施例提供的一种语音合成系统的生成装置的示意性框图；

图7是本发明实施例提供的一种语音合成系统的生成装置的量化编码单元的示意性框图；

图8是本发明实施例提供的一种语音合成系统的生成装置的第一训练单元的示意性框图；

图9是本发明实施例提供的一种语音合成系统的生成装置的第二训练单元的示意性框图；

图10是本发明另一实施例提供的一种语音合成系统的生成装置的示意性框图；

图11是本发明实施例提供的一种计算机设备结构组成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

请参阅图1和图1a，图1是本申请实施例提供的一种语音合成系统的生成方法的示意流程图，图1a是本申请实施例中语音合成系统的生成方法的应用场景示意图。该语音合成系统的生成方法可以运行在智能手机(如android手机、ios手机等)、平板电脑、笔记本电脑以及智能设备等终端或服务器中，通过获取多人的混合语音文本数据，并将其作为训练样本进行听感量化编码，从而实现对特征参数的量化，通过听感量化编码以及声学参数对神经网络模型进行训练，可以得到实现多人多语种多风格的语音合成的语音合成系统。如图1所示，该方法的步骤包括步骤s101～s104。

步骤s101，获取预设训练集中的训练样本，并对所获取的训练样本进行分解以得到相应的声学参数和多个特征参数。

在本实施例中，该预设训练集中包括海量多人音频数据，即预设训练集中的训练样本可以是由不同的发音人提供的，语言的种类也可以是有多种，如可以是汉语、也可能包括韩语等，同时，训练样本也可以是有相应的情感风格。例如，通常可以将跟语音内容相关的作为声学参数，可以将跟听感相关的作为特征参数。在神经网络框架下的，通过对声学参数和特征参数的提取训练，能够高质量又稳定地实现文本到语音的预测。

步骤s102，根据预设的听感量化编码规则对每个训练样本的特征参数进行听感量化编码以得到相应的中间编码信息。

在本实施例中，听感量化编码是指把语音信息听感中的不同属性特征相互剥离，具体可以是通过多组训练样本中的发音人、语种以及情感风格等来进行听感量化编码，将自然语流中形形色色的复杂变体使用统一模型来建模。

在一实施例中，如图2所示，所述特征参数包括发音人、语种、情感风格以及残差信息，所述步骤s102具体可以包括步骤s201～s202。

步骤s201，根据用户发送的标志请求分别标志每个训练样本的发音人、语种以及情感风格，以确定发音人量化编码、语种量化编码以及情感风格量化编码。

在本实施例中，终端可以根据用户发送的标志请求来标志每个训练样本的发音人、语种以及情感风格，即通过人工进行标志定义。其中，发音人是指不同的说话人，语种可以是中文、英文或者其他的语言，情感风格可以悲伤、高兴、生气等日常情绪。

步骤s202，随机初始化每个训练样本的残差信息以得到相应的残差量化编码。

在本实施例中，残差信息是指发音人在录制语音数据时由于情绪、环境、时间差异等不同状态下发音上的变化信息，无法进行人工标记，为此将每个句子使用一个单独的残差量化编码表示，残差量化编码可以随机初始化，作为可选的，残差量化编码可以是通过模型训练进行更新得到。

步骤s103，将所得到的中间编码信息输入预设的神经网络模型中进行训练以得到一中间模型。

在本实施例中，确定训练样本的中间编码信息后即可以将所产生的中间编码信息输入到预设的神经网络模型中进行训练，训练完成后即可以得到一个中间模型。该中间模型可以实现对中间编码信息所对应的听感量化编码的预测控制，即实现对多发音人、多语种、多情绪风格的控制能力，即可便于后续实现多种类型的语音的合成。其中，该预设的神经网络可以是预先设置基线网络模型，该基线网络模型可以是全连接前馈(feed-forward，ff)网络模型以及长短时记忆(lstm-rnn)网络模型。

在一实施例中，所述预设的神经网络模型所采用的模型公式可以如下：

p(x，λ^s，λ^l，λ^e，λ^r│c)＝p(λ^s)p(λ^l)p(λ^r)p(λ^e│c，λ^l，λ^s)p(x│λ^s，λ^l，λ^e，λ^r，c)

其中，训练集中的训练样本的声学参数为{x：x1，x2，x3，...，xn}，与其对应的文本为{c：c1，c2，c3，...，cn}，x为帧级声学参数，c为训练样本经帧级拓展的音素上下文信息，λ^s为发音人量化编码、λ^l为语种量化编码、λ^e为情感风格量化编码，λ^r为残差量化编码。

其中，为实现对合成语音的有效控制，可显示地对发音人、语种以及情感风格进行听感量化编码，直接对这些听感量化编码和声学参数的联合分布进行建模。具体的，发音人、语种和文本时不相关的，情感风格依赖于发音人、语种以及文本；残差量化编码是训练样本的语音中去除文本、说话人、语种以及情感风格后剩余的信息，与其余的听感量化编码都不相关，采用听感量化编码可使得得到的模型在控制情感风格等方面的能力更强。

在一实施例中，如图3所示，所述预设的神经网络模型包括全连接前馈网络模型以及长短时记忆网络模型，所述步骤s103具体可以包括步骤s301～s303。

步骤s301，将所得到的中间编码信息输入全连接前馈网络中进行训练，以得到一第一神经网络模型并输出对应的第一参数信息。

在本实施例中，终端能够将所得到的中间编码信息输入全连接前馈网络中，其中，输入的中间编码信息可以为发音人量化编码、语种量化编码以及情感风格量化编码等信息。此时训练之后能够得到相应的第一神经网络模型，同时还能够输出对应的第一参数信息。

步骤s302，将所输出的第一参数信息输入长短时记忆网络模型中进行训练，以得到一第二神经网络模型。

在本实施例中，获得所输出的第一参数信息后，可以将其输入长短时记忆网络模型中进行训练，从而得到一第二神经网络模型。进一步地，长短时记忆网络模型所包含的长短时记忆网络子模型的数量不限，可以根据用户的实际需要选择对应的数量，例如，可以确定为2个长短时记忆网络模型，可以确定为3个长短时记忆网络模型，也可以确定为4个或5个长短时记忆网络模型，具体数量在本实施例中并不做限定。

在一实施例中，所述长短时记忆网络模型包括3层长短时记忆网络子模型，其中所述步骤s302具体可以包括：

将所输出的第一参数信息输入第一层长短时记忆网络子模型后，将第一层长短时记忆网络子模型的输出内容输入第二长短时记忆网络子模型，再将第二长短时记忆网络子模型的输出内容输入第三长短时记忆网络子模型，以完成对长短时记忆网络模型的训练，从而得到一第二神经网络模型。

其中，若长短时记忆网络模型包括3层长短时记忆网络子模型，此时所输出的第一参数信息可输入第一层长短时记忆网络子模型并得到一相应的输出内容，此时该输出内容输入第二层长短时记忆网络子模型可以得到一新的输出内容，将新的输出内容又输入第三层长短时记忆网络子模型进行训练，此时可以得到一个完整的第二神经网路模型。

步骤s303，将训练后得到的第一神经网络模型以及第二神经网络模型组合确定为中间模型。

在本实施例中，将训练后得到的第一神经网络模型和第二神经网络模型作为一个整体以得到中间模型。

步骤s104，将所获取的训练样本的声学参数输入所述中间模型进行训练，以得到相应的目标语音合成系统。

在本实施例中，确定中间模型后，可以将所获取的训练样本的声学参数输入所述中间模型再次进行训练，从而可以得到一个最终的目标语音合成系统，该目标语音合成系统可以根据需要合成具有相应的音色、语种或情感的语音，提高语音合成系统的自然度和对合成语音的控制力，以及提高用户的使用体验度，还能应用于智慧政务等场景中，从而推动智慧城市的建设。

在一实施例中，如图4所示，若所述预设的神经网络模型包括全连接前馈网络模型以及长短时记忆网络模型，所述步骤s104具体也可以包括步骤s401～s403。

步骤s401，将所获取的训练样本的声学参数输入所述第一神经网络模型中进行训练，以得到第一语音合成模型并输出对应的第二参数信息。

在本实施例中，由于第一神经网络模型由全连接前馈网络模型通过中间编码信息训练得来，故所获取的训练样本的声学参数还需继续输入该第一神经网络模型中，以得到第一语音合成模型，同时通过训练还输出对应的第二参数信息。

步骤s402，将所输出的第二参数信息输入第二神经网络模型中进行训练，以得到第二语音合成模型。

在本实施例中，该第二神经网络模型由长短时记忆网络模型通过第一参数信息训练得来，故所输出的第二参数信息还需对第二神经网络模型进行训练，从而相应地得到第二语音合成模型。

步骤s403，将训练后得到的第一语音合成模型以及第二语音合成模型组合确定为目标语音合成系统。

在本实施例中，可以将训练后地第一语音合成模型以及第二语音合成模型进行组合，从而确定为目标语音合成系统。该目标语音合成系统在语音合成时，能够指定合成语音的发音人、语种和情感风格，显著提高了对合成语音的控制力。

另，在一实施例中，所述方法还可以包括：若目标语音合成系统接收到待合成信息，合成所述待合成信息对应的语音信息。当目标语音合成系统接收到待合成信息时，可以合成所述待合成信息对应地语音信息，该语音信息可根据需求包括发音人、语种和情感风格等特征，即可实现跨语种、跨情感风格的语音合成。

综上，本实施例可以提高语音合成系统的自然度和对合成语音的控制力，以及提高用户的使用体验度，还能应用于智慧政务等场景中，从而推动智慧城市的建设。

请参阅图5，图5是本发明另一实施例提供的一种语音合成系统的生成方法的示意流程图。该方法可以运行在智能手机(如android手机、ios手机等)、平板电脑、笔记本电脑以及智能设备等终端中。如图5所示，该方法的步骤包括步骤s501～s507。其中与上述实施例中的步骤s101-s104类似的步骤的相关解释和详细说明在此不再赘述，下面详细说明的为本实施例中所增加的步骤。

步骤s501，获取预设训练集中的训练样本，并对所获取的训练样本进行分解以得到相应的声学参数和多个特征参数。

在本实施例中，该预设训练集中包括海量多人音频数据，即预设训练集中的训练样本可以是由不同的发音人提供的，语言的种类也可以是有多种，如可以是汉语、也可能包括韩语等，同时，训练样本也可以是有相应的情感风格。例如，通常可以将跟语音内容相关的作为声学参数，可以将跟听感相关的作为特征参数。在神经网络框架下的，通过对声学参数和特征参数的提取训练，能够高质量又稳定地实现文本到语音的预测。

步骤s502，根据预设的听感量化编码规则对每个训练样本的特征参数进行听感量化编码以得到相应的中间编码信息。

在本实施例中，听感量化编码是指把语音信息听感中的不同属性特征相互剥离，具体可以是通过多组训练样本中的发音人、语种以及情感风格等来进行听感量化编码，将自然语流中形形色色的复杂变体使用统一模型来建模。

步骤s503，将所得到的中间编码信息输入预设的神经网络模型中进行训练以得到一中间模型。

在本实施例中，确定训练样本的中间编码信息后即可以将所产生的中间编码信息输入到预设的神经网络模型中进行训练，训练完成后即可以得到一个中间模型。该中间模型可以实现对中间编码信息所对应的听感量化编码的预测控制，即实现对多发音人、多语种、多情绪风格的控制能力，即可便于后续实现多种类型的语音的合成。其中，该预设的神经网络可以是预先设置基线网络模型，该基线网络模型可以是全连接前馈(feed-forward，ff)网络模型以及长短时记忆(lstm-rnn)网络模型。

步骤s504，将所获取的训练样本的声学参数输入所述中间模型进行训练，以得到相应的目标语音合成系统。

在本实施例中，确定中间模型后，可以将所获取的训练样本的声学参数输入所述中间模型再次进行训练，从而可以得到一个最终的目标语音合成系统，该目标语音合成系统可以根据需要合成具有相应的音色、语种或情感的语音，提高语音合成系统的自然度和对合成语音的控制力，以及提高用户的使用体验度，还能应用于智慧政务等场景中，从而推动智慧城市的建设。

步骤s505，若检测到新增的训练样本，根据预设的听感量化编码规则对每个新增的训练样本的特征参数进行听感量化编码以得到相应的中间编码信息。

在本实施例中，若检测到由新增的训练样本，为了扩大目标语音合成系统的识别范围，提高用户的使用体验度，使其适用范围更广泛，此时可以根据预设的听感量化编码规则对每个新增的训练样本的特征参数进行听感量化编码以得到相应的中间编码信息以便对目标语音合成系统进行深度训练。

步骤s506，将所得到的中间编码信息输入目标语音合成系统中进行再次训练以得到一新的中间模型。

在本实施例中，将所得到的中间编码信息输入目标语音合成系统中，可以对目标语音合成系统进行再次训练，从而得到一新的中间模型。

步骤s507，将所得到的新增的训练样本的声学参数输入所新增的中间模型中进行训练，以得到新的目标语音合成系统。

在本实施例中，又新增的训练样本的声学参数还需要在相应的中间编码信息输入到目标语音合成系统中得到新的中间模型后，继续对新的中间模型进行训练，从而得到可合成语音范围更广的新的目标语音合成系统，即通过使用本实施例中的迁移学习的方法，将多人混合模型迁移到新的发音人上，显著降低了生成语音合成系统所需数据的要求。

本领域普通技术员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory，rom)等。

请参阅图6，对应上述一种语音合成系统的生成方法，本发明实施例还提出一种语音合成系统的生成装置，语音合成系统的生成装置可以配置于台式电脑、平板电脑、手提电脑等终端中。该装置100包括：样本获取单元101、量化编码单元102、第一训练单元103、第二训练单元104。

样本获取单元101，用于获取预设训练集中的训练样本，并对所获取的训练样本进行分解以得到相应的声学参数和多个特征参数。

在本实施例中，该预设训练集中包括海量多人音频数据，即预设训练集中的训练样本可以是由不同的发音人提供的，语言的种类也可以是有多种，如可以是汉语、也可能包括韩语等，同时，训练样本也可以是有相应的情感风格。例如，通常可以将跟语音内容相关的作为声学参数，可以将跟听感相关的作为特征参数。在神经网络框架下的，通过对声学参数和特征参数的提取训练，能够高质量又稳定地实现文本到语音的预测。

量化编码单元102，用于根据预设的听感量化编码规则对每个训练样本的特征参数进行听感量化编码以得到相应的中间编码信息。

在本实施例中，听感量化编码是指把语音信息听感中的不同属性特征相互剥离，具体可以是通过多组训练样本中的发音人、语种以及情感风格等来进行听感量化编码，将自然语流中形形色色的复杂变体使用统一模型来建模。

在一实施例中，如图7所示，所述特征参数包括发音人、语种、情感风格以及残差信息，所述量化编码单元102具体可以包括第一编码单元201以及第二编码单元202。

第一编码单元201，用于根据用户发送的标志请求分别标志每个训练样本的发音人、语种以及情感风格，以确定发音人量化编码、语种量化编码以及情感风格量化编码。

在本实施例中，终端可以根据用户发送的标志请求来标志每个训练样本的发音人、语种以及情感风格，即通过人工进行标志定义。其中，发音人是指不同的说话人，语种可以是中文、英文或者其他的语言，情感风格可以悲伤、高兴、生气等日常情绪。

第二编码单元202，用于随机初始化每个训练样本的残差信息以得到相应的残差量化编码。

在本实施例中，残差信息是指发音人在录制语音数据时由于情绪、环境、时间差异等不同状态下发音上的变化信息，无法进行人工标记，为此将每个句子使用一个单独的残差量化编码表示，残差量化编码可以随机初始化，作为可选的，残差量化编码可以是通过模型训练进行更新得到。

第一训练单元103，用于将所得到的中间编码信息输入预设的神经网络模型中进行训练以得到一中间模型。

在本实施例中，确定训练样本的中间编码信息后即可以将所产生的中间编码信息输入到预设的神经网络模型中进行训练，训练完成后即可以得到一个中间模型。该中间模型可以实现对中间编码信息所对应的听感量化编码的预测控制，即实现对多发音人、多语种、多情绪风格的控制能力，即可便于后续实现多种类型的语音的合成。其中，该预设的神经网络可以是预先设置基线网络模型，该基线网络模型可以是全连接前馈(feed-forward，ff)网络模型以及长短时记忆(lstm-rnn)网络模型。

在一实施例中，所述预设的神经网络模型所采用的模型公式可以如下：

p(x，λ^s，λ^l，λ^e，λ^r│c)＝p(λ^s)p(λ^l)p(λ^r)p(λ^e│c，λ^l，λ^s)p(x│λ^s，λ^l，λ^e，λ^r，c)

其中，训练集中的训练样本的声学参数为{x：x1，x2，x3，...，xn}，与其对应的文本为{c：c1，c2，c3，...，cn}，x为帧级声学参数，c为训练样本经帧级拓展的音素上下文信息，λ^s为发音人量化编码、λ^l为语种量化编码、λ^e为情感风格量化编码，λ^r为残差量化编码。

其中，为实现对合成语音的有效控制，可显示地对发音人、语种以及情感风格进行听感量化编码，直接对这些听感量化编码和声学参数的联合分布进行建模。具体的，发音人、语种和文本时不相关的，情感风格依赖于发音人、语种以及文本；残差量化编码是训练样本的语音中去除文本、说话人、语种以及情感风格后剩余的信息，与其余的听感量化编码都不相关，采用听感量化编码可使得得到的模型在控制情感风格等方面的能力更强。

在一实施例中，如图8所示，所述预设的神经网络模型包括全连接前馈网络模型以及长短时记忆网络模型，所述第一训练单元103具体可以包括第一处理单元301、第二处理单元302以及模型组合单元303。

第一处理单元301，用于将所得到的中间编码信息输入全连接前馈网络中进行训练，以得到一第一神经网络模型并输出对应的第一参数信息。

在本实施例中，终端能够将所得到的中间编码信息输入全连接前馈网络中，其中，输入的中间编码信息可以为发音人量化编码、语种量化编码以及情感风格量化编码等信息。此时训练之后能够得到相应的第一神经网络模型，同时还能够输出对应的第一参数信息。

第二处理单元302，用于将所输出的第一参数信息输入长短时记忆网络模型中进行训练，以得到一第二神经网络模型。

在本实施例中，获得所输出的第一参数信息后，可以将其输入长短时记忆网络模型中进行训练，从而得到一第二神经网络模型。进一步地，长短时记忆网络模型所包含的长短时记忆网络子模型的数量不限，可以根据用户的实际需要选择对应的数量，例如，可以确定为2个长短时记忆网络模型，可以确定为3个长短时记忆网络模型，也可以确定为4个或5个长短时记忆网络模型，具体数量在本实施例中并不做限定。

在一实施例中，所述长短时记忆网络模型包括3层长短时记忆网络子模型，其中所述第二处理单元302具体可以用于将所输出的第一参数信息输入第一层长短时记忆网络子模型后，将第一层长短时记忆网络子模型的输出内容输入第二长短时记忆网络子模型，再将第二长短时记忆网络子模型的输出内容输入第三长短时记忆网络子模型，以完成对长短时记忆网络模型的训练，从而得到一第二神经网络模型。

其中，若长短时记忆网络模型包括3层长短时记忆网络子模型，此时所输出的第一参数信息可输入第一层长短时记忆网络子模型并得到一相应的输出内容，此时该输出内容输入第二层长短时记忆网络子模型可以得到一新的输出内容，将新的输出内容又输入第三层长短时记忆网络子模型进行训练，此时可以得到一个完整的第二神经网路模型。

模型组合单元303，用于将训练后得到的第一神经网络模型以及第二神经网络模型组合确定为中间模型。

在本实施例中，将训练后得到的第一神经网络模型和第二神经网络模型作为一个整体以得到中间模型。

在一实施例中，所述预设的神经网络模型所采用的模型公式如下：

第二训练单元104，用于将所获取的训练样本的声学参数输入所述中间模型进行训练，以得到相应的目标语音合成系统。

在本实施例中，确定中间模型后，可以将所获取的训练样本的声学参数输入所述中间模型再次进行训练，从而可以得到一个最终的目标语音合成系统，该目标语音合成系统可以根据需要合成具有相应的音色、语种或情感的语音，提高语音合成系统的自然度和对合成语音的控制力，以及提高用户的使用体验度，还能应用于智慧政务等场景中，从而推动智慧城市的建设。

在一实施例中，如图9所示，所述第二训练单元104具体可以包括第三处理单元401、第四处理单元402、目标确定单元403。

第三处理单元401，用于将所获取的训练样本的声学参数输入所述第一神经网络模型中进行训练，以得到第一语音合成模型并输出对应的第二参数信息。

在本实施例中，由于第一神经网络模型由全连接前馈网络模型通过中间编码信息训练得来，故所获取的训练样本的声学参数还需继续输入该第一神经网络模型中，以得到第一语音合成模型，同时通过训练还输出对应的第二参数信息。

第四处理单元402，用于将所输出的第二参数信息输入第二神经网络模型中进行训练，以得到第二语音合成模型。

在本实施例中，该第二神经网络模型由长短时记忆网络模型通过第一参数信息训练得来，故所输出的第二参数信息还需对第二神经网络模型进行训练，从而相应地得到第二语音合成模型。

目标确定单元403，用于将训练后得到的第一语音合成模型以及第二语音合成模型组合确定为目标语音合成系统。

在本实施例中，可以将训练后地第一语音合成模型以及第二语音合成模型进行组合，从而确定为目标语音合成系统。该目标语音合成系统在语音合成时，能够指定合成语音的发音人、语种和情感风格，显著提高了对合成语音的控制力。

在一实施例中，所述装置还可以包括语音合成单元，用于若目标语音合成系统接收到待合成信息，合成所述待合成信息对应的语音信息。当目标语音合成系统接收到待合成信息时，可以合成所述待合成信息对应地语音信息，该语音信息可根据需求包括发音人、语种和情感风格等特征，即可实现跨语种、跨情感风格的语音合成。

请参阅图10，对应上述一种语音合成系统的生成方法，本发明另一实施例还提出一种语音合成系统的生成装置，该装置500包括：样本获取单元501、量化编码单元502、第一训练单元503、第二训练单元504、检测编码单元505、第三训练单元506、第四训练单元507。

样本获取单元501，用于获取预设训练集中的训练样本，并对所获取的训练样本进行分解以得到相应的声学参数和多个特征参数。

量化编码单元502，用于根据预设的听感量化编码规则对每个训练样本的特征参数进行听感量化编码以得到相应的中间编码信息。

第一训练单元503，用于将所得到的中间编码信息输入预设的神经网络模型中进行训练以得到一中间模型。

第二训练单元504，用于将所获取的训练样本的声学参数输入所述中间模型进行训练，以得到相应的目标语音合成系统。

检测编码单元505，用于若检测到新增的训练样本，根据预设的听感量化编码规则对每个新增的训练样本的特征参数进行听感量化编码以得到相应的中间编码信息。

在本实施例中，若检测到由新增的训练样本，为了扩大目标语音合成系统的识别范围，提高用户的使用体验度，使其适用范围更广泛，此时可以根据预设的听感量化编码规则对每个新增的训练样本的特征参数进行听感量化编码以得到相应的中间编码信息以便对目标语音合成系统进行深度训练。

第三训练单元506，用于将所得到的中间编码信息输入目标语音合成系统中进行再次训练以得到一新的中间模型。

在本实施例中，将所得到的中间编码信息输入目标语音合成系统中，可以对目标语音合成系统进行再次训练，从而得到一新的中间模型。

第四训练单元507，用于将所得到的新增的训练样本的声学参数输入所新增的中间模型中进行训练，以得到新的目标语音合成系统。

在本实施例中，又新增的训练样本的声学参数还需要在相应的中间编码信息输入到目标语音合成系统中得到新的中间模型后，继续对新的中间模型进行训练，从而得到可合成语音范围更广的新的目标语音合成系统，即通过使用本实施例中的迁移学习的方法，将多人混合模型迁移到新的发音人上，显著降低了生成语音合成系统所需数据的要求。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述语音合成系统的生成装置500和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

由以上可见，在硬件实现上，以上样本获取单元101、量化编码单元102、第一训练单元103、第二训练单元104等可以以硬件形式内嵌于或独立于语音合成系统的生成装置中，也可以以软件形式存储于语音合成系统的生成装置的存储器中，以便处理器调用执行以上各个单元对应的操作。该处理器可以为中央处理单元(cpu)、微处理器、单片机等。

上述语音合成系统的生成装置可以实现为一种计算机程序的形式，计算机程序可以在如图11所示的计算机设备上运行。

图11为本发明一种计算机设备的结构组成示意图。该设备可以是终端，也可以是服务器，其中，终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等具有通信功能的电子设备。服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参照图11，该计算机设备600包括通过系统总线601连接的处理器602、存储器、内存储器604和网络接口605，其中，存储器可以包括非易失性存储介质603和内存储器604。

该非易失性存储介质603可存储操作系统6031和计算机程序6032，该计算机程序6032被执行时，可使得处理器602执行一种语音合成系统的生成方法。

该处理器602用于提供计算和控制能力，支撑整个计算机设备600的运行。

该内存储器604为非易失性存储介质603中的计算机程序6032的运行提供环境，该计算机程序6032被处理器602执行时，可使得处理器602执行一种语音合成系统的生成方法。

该网络接口605用于与其它设备进行网络通信。本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备600的限定，具体的计算机设备600可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器602用于运行存储在存储器中的计算机程序6032，以实现上述语音合成系统的生成方法的步骤。

应当理解，在本申请实施例中，处理器602可以是中央处理单元(centralprocessingunit，cpu)，该处理器602还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)、现成可编程门阵列(field-programmablegatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序可存储于一存储介质中，该存储介质为计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序，该计算机程序被处理器执行时使处理器执行上述语音合成系统的生成方法的步骤。

所述存储介质为实体的、非瞬时性的存储介质，例如可以是u盘、移动硬盘、只读存储器(read-onlymemory，rom)、磁碟或者光盘等各种可以存储程序代码的实体存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种用于声控发光驻波实验仪的声光转换阵列的制作方法

语音合成系统的生成方法、装置、设备及存储介质与流程

相关文章

最热文献