语音合成方法、装置、服务器及存储介质与流程

2021-07-09 12:57:00 来源：中国专利 TAG：语音装置器及方法申请

1.本申请涉及语音处理的技术领域，尤其涉及一种语音合成方法、装置、服务器及存储介质。

背景技术：

2.声音作为文字内容的载体之一，能够在日常生活中有效地进行信息传递，因此语音交互技术一直都是人们关注的对象。例如，客服系统的语音交互过程涉及大量的语音合成场景，从智能客服到短视频智能配音或者有声书等都是长时间的语音交互过程，因而目前的语音合成以追求提高用户的感知体验为主。目前市面上的语音合成产品多采用语音合成模型，语音合成模型的训练样本涉及不同场景、人物、情感等要素，训练样本的数量非常庞大，实现语音合成的效率较低。因此，如何提高语音合成的效率成为了亟需解决的问题。

技术实现要素：

3.本申请的主要目的在于提供一种语音合成方法、装置、服务器及存储介质，旨在提高语音合成的效率。
4.第一方面，本申请提供一种语音合成方法，包括：
5.获取语音样本，所述语音样本包括用户的语音数据、所述语音数据对应的语音情绪标签和所述用户的身份标签；
6.调用待训练的语音合成模型，所述语音合成模型包括参考编码器、嵌入层和解码器；
7.将所述语音样本输入所述参考编码器进行编码处理，以提取所述语音数据的韵律特征向量和音色特征向量，其中，所述韵律特征向量是根据所述语音情绪标签对所述语音数据编码得到的，所述音色特征向量是根据所述身份标签对所述语音数据编码得到的；
8.将所述韵律特征向量、所述音色特征向量以及与所述语音数据对应的文本特征向量输入所述嵌入层进行叠加操作，得到目标特征向量；
9.将所述目标特征向量输入所述解码器进行解码处理，以获取所述语音数据的预测梅尔频谱；
10.获取所述语音数据的真实梅尔频谱，并根据所述预测梅尔频谱和真实梅尔频谱，调整所述语音合成模型的模型参数，直至所述语音合成模型收敛；
11.获取待合成语音的目标语音情绪标签和目标身份标签，将所述目标语音情绪标签和所述目标身份标签输入至收敛的所述语音合成模型，得到所述待合成语音的梅尔频谱；
12.根据所述待合成语音的梅尔频谱，生成目标语音信息。
13.第二方面，本申请还提供一种语音合成装置，所述语音合成装置包括：
14.获取模块，用于获取语音样本，所述语音样本包括用户的语音数据和所述语音数据对应的语音情绪标签和所述用户的身份标签；
15.调用模块，用于调用待训练的语音合成模型，所述语音合成模型包括参考编码器、
嵌入层和解码器；
16.编码模块，用于将所述语音样本输入所述参考编码器进行编码处理，以提取所述语音数据的韵律特征向量和音色特征向量，其中，所述韵律特征向量是根据所述语音情绪标签对所述语音数据编码得到的，所述音色特征向量是根据所述身份标签对所述语音数据编码得到的；
17.叠加模块，用于将所述韵律特征向量、所述音色特征向量以及与所述语音数据对应的文本特征向量输入所述嵌入层进行叠加操作，得到目标特征向量；
18.解码模块，用于将所述目标特征向量输入所述解码器进行解码处理，以获取所述语音数据的预测梅尔频谱；
19.所述获取模块，还用于获取所述语音数据的真实梅尔频谱；
20.调整模块，用于根据所述预测梅尔频谱和真实梅尔频谱，调整所述语音合成模型的模型参数，直至所述语音合成模型收敛；
21.所述获取模块，还用于获取待合成语音的目标语音情绪标签和目标身份标签；
22.输入模块，用于将所述目标语音情绪标签和所述目标身份标签输入至收敛的所述语音合成模型，得到所述待合成语音的梅尔频谱；
23.生成模块，用于根据所述待合成语音的梅尔频谱，生成目标语音信息。
24.第三方面，本申请还提供一种服务器，所述服务器包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如上所述的语音合成方法的步骤。
25.第四方面，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如上所述的语音合成方法的步骤。
26.本申请提供一种语音合成方法、装置、服务器及存储介质，本申请通过获取语音样本，语音样本包括用户的语音数据、语音数据对应的语音情绪标签和用户的身份标签；调用待训练的语音合成模型，语音合成模型包括参考编码器、嵌入层和解码器；将语音样本输入参考编码器进行编码处理，以提取语音数据的韵律特征向量和音色特征向量；将韵律特征向量、音色特征向量以及与语音数据对应的文本特征向量输入嵌入层进行叠加操作，得到目标特征向量；将目标特征向量输入解码器进行解码处理，以获取语音数据的预测梅尔频谱；获取语音数据的真实梅尔频谱，并根据预测梅尔频谱和真实梅尔频谱，调整语音合成模型的模型参数，直至语音合成模型收敛；获取待合成语音的目标语音情绪标签和目标身份标签，将目标语音情绪标签和目标身份标签输入至收敛的语音合成模型，得到待合成语音的梅尔频谱；根据待合成语音的梅尔频谱，生成目标语音信息。通过嵌入语音样本的目标特征向量，能够有效减少模型训练过程中所需的训练样本数量，语音合成模型能够快速收敛，且语音合成时无需输入参考语音，减少了数据处理过程，从而提高语音合成的效率。
附图说明
27.为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
28.图1为本申请实施例提供的一种语音合成方法的步骤流程示意图；
29.图2为图1中的语音合成方法的子步骤流程示意图；
30.图3为本申请实施例提供的一种语音合成装置的示意性框图；
31.图4为图3中的语音合成装置的子模块的示意性框图；
32.图5为本申请实施例提供的一种服务器的结构示意性框图。
33.本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
34.下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。
35.附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。另外，虽然在装置示意图中进行了功能模块的划分，但是在某些情况下，可以以不同于装置示意图中的模块划分。
36.本申请实施例提供一种语音合成方法、装置、服务器及存储介质。其中，该语音合成方法可应用于服务器中，服务器存储有语音合成模型，语音合成模型包括参考编码器、嵌入层和解码器。该服务器可以为单台的服务器，也可以为由多台服务器组成的服务器集群。
37.下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。
38.请参照图1，图1为本申请实施例提供的一种语音合成方法的步骤流程示意图。
39.如图1所示，该语音合成方法包括步骤s101至步骤s108。
40.步骤s101、获取语音样本，语音样本包括用户的语音数据、语音数据对应的语音情绪标签和用户的身份标签。
41.服务器获取作为训练样本的语音数据，语音数据携带有对应的语音情绪标签和用户的身份标签，用户的语音数据、语音数据对应的语音情绪标签和用户的身份标签共同组成语音样本，语音样本可以是一个或者多个。将语音样本输入至服务器存储的语音合成模型中，以供语音样本中的语音数据、语音数据对应的语音情绪标签和用户的身份标签，对语音合成模型进行训练。
42.在一实施例中，获取语音样本，包括：获取多个第一语音样本和多个第二语音样本，第一语音样本包括第一语音数据和第一语音数据对应的语音情绪标签，第二语音样本包括第二语音数据和第二语音数据对应的身份标签；通过多个第一语音样本训练第一预设分类器，得到训练好的话语情绪分类器，以及通过多个第二语音样本训练第二预设分类器，得到训练好的用户身份分类器；获取用户的目标语音数据，通过话语情绪分类器确定目标语音数据对应的语音情绪标签，并通过用户身份分类器确定目标语音数据对应的身份标签；将语音情绪标签和身份标签标注于目标语音数据，得到语音样本。
43.需要说明的是，通过多个第一语音样本和多个第二语音样本训练出话语情绪分类器和用户身份分类器，然后能够通过话语情绪分类器和用户身份分类器获取大量未标注的
语音数据的语音情绪标签和身份标签，有利于进一步得到大数据量的语音样本，加快语音样本的获取效率，无需浪费大量的人力和时间进行样本标注，能够极大提高语音合成模型的训练效率。
44.示例性的，多个第一语音样本例如包括5种带情绪标签的语音数据，每种带情绪标签的语音数据的数量大于300条，多个第一语音样本例如包括5种带身份标签的语音数据，每种带身份标签的语音数据的数量大于400条；利用交叉熵损失对话语情绪分类器和用户身份分类器进行分类效果评价，当交叉熵损失小于等于设定值时，得到训练好的话语情绪分类器和用户身份分类器。然后获取多个用户用不同情绪表达的参考语音数据，通过训练好的话语情绪分类器和用户身份分类器对目标语音数据进行分类，得到每个目标语音数据对应的语音情绪标签和用户的身份标签，将语音情绪标签和身份标签标注于目标语音数据，可便捷地得到多个语音样本。
45.步骤s102、调用待训练的语音合成模型，语音合成模型包括参考编码器、嵌入层和解码器。
46.语音合成模型可以预先存储于服务器中，参考编码器用于对语音样本中的语音数据进行编码处理，以提取语音数据的韵律特征向量和音色特征向量；嵌入层用于对参考编码器输出的韵律特征向量、音色特征向量以及与语音数据对应的文本特征向量进行叠加操作，得到目标特征向量；解码器用于将目标特征向量输入解码器进行解码处理，以获取语音数据的预测梅尔频谱。
47.在一实施例中，参考编码器包括第一参考编码器和第二参考编码器，第一参考编码器和第二参考编码器皆可由卷积神经网络和循环神经网络构成；嵌入层(embedding)包括第一嵌入层和第二嵌入层，第一嵌入层和第二嵌入层可以为卷积神经网络；解码器包括一层包含256个gru网络的rnn注意力模型与两层residual(残差)gru网络。通过解码层能够准确地对目标特征向量进行解码，从而得到语音数据的预测梅尔频谱。
48.步骤s103、将语音样本输入参考编码器进行编码处理，以提取语音数据的韵律特征向量和音色特征向量。
49.其中，韵律特征向量是根据语音情绪标签对所述语音数据编码得到的，音色特征向量是根据身份标签对所述语音数据编码得到的。参考编码器例如由卷积神经网络与循环神经网络构成，在获取语音数据中的语音情绪标签和身份标签之后，参考编码器能够根据语音情绪标签从语音数据中提取韵律特征向量，并根据身份标签从语音数据中提取音色特征向量。韵律特征向量包括用户的语音数据的韵律信息，例如包括停顿，声音强弱等信息。音色特征向量包括用户的语音数据的音色信息，不同用户之间的音色存在差异。
50.在一实施例中，参考编码器包括第一参考编码器和第二参考编码器。第一参考编码器用于根据语音情绪标签从语音数据中提取韵律特征向量，第二参考编码器用于根据身份标签从语音数据中提取音色特征向量。
51.示例性的，第一参考编码器和第二参考编码器由卷积堆栈、rnn和专注力模块组成，通过对语音数据进行批处理归一化，并经过以relu作为激活函数的6个二维卷积层栈，可以快速准确地提取语音数据中的韵律特征向量和音色特征向量，6个二维卷积层栈可分别使用64、64、128、128、256、256个输出通道。
52.步骤s104、将韵律特征向量、音色特征向量以及与语音数据对应的文本特征向量
输入嵌入层进行叠加操作，得到目标特征向量。
53.将韵律特征向量、音色特征向量以及与语音数据对应的文本特征向量输入嵌入层，便于嵌入层对韵律特征向量、音色特征向量以及文本特征向量进行叠加操作，得到目标特征向量。通过目标特征向量对语音合成模型进行训练，目标特征向量能够嵌入到语音合成模型中，减少语音合成模型的训练样本数量需求，从而提高语音合成模型的训练效率。
54.在一实施例中，如图2所示，嵌入层包括第一嵌入层和第二嵌入层；步骤s104包括：子步骤s1041至子步骤s1042。
55.子步骤s1041、将所述韵律特征向量和所述音色特征向量输入所述第一嵌入层进行组合，得到组合特征向量。
56.需要说明的是，将韵律特征向量与音色特征向量进行组合，例如包括对韵律特征向量与音色特征向量进行拼接。其中，拼接方法包括行拼接或者列拼接，可根据实际情况进行灵活运用和转置。通过组合特征向量与文本特征向量进行叠加得到的目标特征向量，对语音合成模型进行训练，目标特征向量能够嵌入到语音合成模型中，减少语音合成模型的训练样本数量需求，从而提高语音合成模型的训练效率。
57.示例性的，韵律特征向量为k*m的矩阵向量，音色特征向量为e*m的矩阵向量，拼接得到(k e)*m的矩阵向量，将该(k e)*m的矩阵向量作为组合特征向量。又例如，韵律特征向量为m*k的矩阵向量，音色特征向量为m*e的矩阵向量，拼接得到m*(k e)的组合特征向量。示例性的，韵律特征向量为k*n的矩阵向量，音色特征向量为e*n的矩阵向量，拼接得到(k e)*n的矩阵向量，将该(k e)*n的矩阵向量作为组合特征向量。
58.在一实施例中，得到目标特征向量之前，还包括：调整组合特征向量和/或文本特征向量，使得所述组合特征向量与所述文本特征向量的矩阵尺寸一致。之后，将矩阵尺寸一致的所述组合特征向量和所述文本特征向量输入所述第二嵌入层进行叠加，得到目标特征向量。需要说明的是，第二嵌入层获取的组合特征向量与文本特征向量是一个矩阵向量，组合特征向量的矩阵尺寸与文本特征向量的矩阵尺寸可能不同，因此不能直接叠加，需要对组合特征向量和/或文本特征向量进行调整，使得组合特征向量与文本特征向量的矩阵尺寸一致，以便第二嵌入层将组合特征向量与语音数据对应的文本特征向量进行叠加，快速得到目标特征向量。
59.在一实施例中，调整组合特征向量和/或文本特征向量，包括：确定待调整的目标矩阵尺寸；获取组合特征向量的第一矩阵尺寸，根据目标矩阵尺寸和第一矩阵尺寸，确定组合特征向量的待调整的第一矩阵位置；通过预设标识填充待调整的第一矩阵位置；和/或，获取文本特征向量的第二矩阵尺寸，根据目标矩阵尺寸和第二矩阵尺寸，确定文本特征向量的待调整的第二矩阵位置；通过预设标识填充待调整的第二矩阵位置。
60.进一步地，目标矩阵尺寸可以为第二嵌入层的预设输出矩阵的矩阵尺寸，目标矩阵尺寸大于等于第一矩阵尺寸以及第二矩阵尺寸，预设标识可以为0，通过维度扩展的方式调整组合特征向量和/或文本特征向量，使得组合特征向量、文本特征向量的矩阵尺寸为预设输出矩阵的矩阵尺寸，便于叠加调整后的组合特征向量与文本特征向量。
61.进一步地，目标矩阵尺寸可以由用户灵活设置，例如从组合特征向量或文本特征向量的矩阵尺寸中选取维度较大的矩阵尺寸作为目标矩阵尺寸，若选取文本特征向量的矩阵尺寸作为目标矩阵尺寸，则按照目标矩阵尺寸确定组合特征向量的待调整的矩阵位置
(矩阵位置的空缺位置)，并调整组合特征向量，通过元素0充填组合特征向量的待调整的矩阵位置，使得组合特征向量的矩阵尺寸为目标矩阵尺寸。
62.子步骤s1042、将所述组合特征向量和所述语音数据对应的文本信息的文本特征向量输入所述第二嵌入层进行叠加，得到目标特征向量。
63.其中，文本信息与用户述说的语音数据对应，可通过语音识别模型获取，或者携带于语音样本中，提取文本信息中的特征信息，得到文本特征向量。调整组合特征向量和/或文本特征向量，使得组合特征向量与文本特征向量的矩阵尺寸一致；将矩阵尺寸一致的所述组合特征向量和所述文本特征向量输入所述第二嵌入层进行叠加，得到目标特征向量。由于调整后的组合特征向量与文本特征向量的矩阵尺寸一致，第二嵌入层能够快速地将组合特征向量与语音数据对应的文本特征向量进行叠加，得到目标特征向量。
64.在一实施例中，目标矩阵尺寸与第二嵌入层的预设输出矩阵的矩阵尺寸一致，能够直接输出目标特征向量。在一些实施例中，目标矩阵尺寸与第二嵌入层的预设输出矩阵的矩阵尺寸不一致，则需要调整目标特征向量，使得目标特征向量与第二嵌入层的预设输出矩阵的矩阵尺寸一致，得到更新的目标特征向量，从而输出更新的目标特征向量。
65.需要说明的是，叠加调整后的组合特征向量与文本特征向量，可理解为组合特征向量与文本特征向量嵌入至语音合成模型。组合特征向量的生成一开始是随机的，但是随着模型训练的深入，组合特征向量会越来越准确，目标特征向量也会越来越准确，能够有效减少模型训练过程中所需的训练样本数量和模型构建时间周期。
66.在一实施例中，将韵律特征向量、音色特征向量以及与语音数据对应的文本特征向量输入嵌入层进行叠加操作，以调整韵律特征向量、音色特征向量和/或文本特征向量，使得韵律特征向量、音色特征向量以及文本特征向量的矩阵尺寸一致；叠加调整后的韵律特征向量、音色特征向量与文本特征向量，得到目标特征向量。需要说明的是，对韵律特征向量、音色特征向量和/或文本特征向量进行调整，使得韵律特征向量、音色特征向量和/或文本特征向量的矩阵尺寸一致，以便嵌入层将组合特征向量与语音数据对应的文本特征向量进行叠加，快速得到目标特征向量。具体实施过程可参照前述实施例，本实施例不再赘述。
67.步骤s105、将目标特征向量输入解码器进行解码处理，以获取语音数据的预测梅尔频谱。
68.解码层例如为解码器，解码器包括一层包含256个gru网络的rnn注意力模型与两层residual(残差)gru网络。通过解码层能够准确地对目标特征向量进行解码，从而得到语音数据的预测梅尔频谱。
69.步骤s106、获取语音数据的真实梅尔频谱，并根据预测梅尔频谱和真实梅尔频谱，调整语音合成模型的模型参数，直至语音合成模型收敛。
70.预测梅尔频谱是根据上述模型训练预测得到的，真实梅尔频谱是根据语音数据的声谱图进行梅尔过滤变换得到的，例如，对语音数据进行傅里叶变换，得到语音数据的声谱图，将语音数据的声谱图景观梅尔标度滤波器组，得到真实梅尔频谱。语音合成模型例如为tacotron模型，根据预测梅尔频谱和真实梅尔频谱，调整语音合成模型的模型参数，直至语音合成模型收敛，模型训练过程中所需的训练样本数量较少，从而能够快速地对语音合成模型进行训练，收敛的语音合成模型能够快速准确地进行语音合成。
71.在一实施例中，根据梅尔频谱和真实梅尔频谱，计算语音合成模型的模型损失值；基于模型损失值更新语音合成模型的模型参数，根据多个语音样本对更新模型参数的语音合成模型进行迭代训练；当确定更新模型参数的语音合成模型处于收敛状态，得到训练好的语音合成模型。
72.其中，确定语音合成模型的迭代次数是否达到预设迭代次数，若确定语音合成模型的迭代次数达到预设迭代次数，则确定语音合成模型处于收敛状态；若确定语音合成模型的迭代次数未达到预设迭代次数，则确定语音合成模型未处于收敛状态；或者，确定语音合成模型的迭代时间是否大于等于预设迭代时间，若语音合成模型的迭代时间大于等于预设迭代时间，则确定语音合成模型处于收敛状态；若语音合成模型的迭代时间小于预设迭代时间，则确定语音合成模型未处于收敛状态。预设迭代时间和预设迭代次数可由用户灵活设置，本申请实施例不做具体限定。
73.进一步地，若确定语音合成模型未处于收敛状态，则根据语音样本继续对语音合成模型进行训练，直至更新后的语音合成模型收敛。
74.在一实施例中，语音合成模型收敛之后，记录语音情绪标签与韵律特征向量之间的关联信息，并记录身份标签与音色特征向量之间的关联信息，以及记录语音情绪标签和身份标签，与组合特征向量之间的关联信息，以便语音合成模型的后续应用过程中能够进行快速调用和推理，提高语音合成效率。
75.通过嵌入语音样本的目标特征向量，能够有效减少模型训练过程中所需的训练样本数量和模型构建时间周期，从而提高语音合成模型的训练效率。
76.示例性的，假如训练一个语音合成模型需要a条语音文本，共有b个人物角色，c种情感，d种场景，则需要的训练样本的数据集数量为a*b*c*d条定制化语音，这会来极大的工作量，需要消耗大量资金和大量时间，导致语音合成模型的训练周期大且效率低下。而应用本申请实施例的技术方案，在a条语音文本，共有b个人物角色，c种情感，d种场景下，需要的训练样本的数据集数量为(a b c)*d条定制化语音，即假定采用嵌入层代替简单的物理标签，训练一个基础说话模型需要a条语言数据，训练角色标签的嵌入层需要b条语音，训练语音情感的嵌入层需要c条语音，极大的减少了训练样本的对数据要求和模型构建时间周期，提高语音合成模型的训练效率。
77.步骤s107、获取待合成语音的目标语音情绪标签和目标用户的身份标签，将目标语音情绪标签和目标身份标签输入至收敛的语音合成模型，得到待合成语音的梅尔频谱。
78.其中，目标语音情绪标签和目标用户的身份标签可以由用户自行指定，目标语音情绪标签包括愤怒、悲哀、恐惧、快乐、惊奇和厌恶等，身份标签包括能够代表用户的标识，包括姓名、标识号等。
79.需要说明的是，导入语音合成模型中的信息包括目标语音情绪标签和目标用户的身份标签，但可以不包括待合成语音(参考语音)，因此语音合成模型的应用过程中能够进行快速推理，提高语音合成效率。
80.在一实施例中，将目标语音情绪标签和目标身份标签输入参考编码器进行处理，以提取目标语音情绪标签对应的目标韵律特征向量，以及目标身份标签对应的目标音色特征向量；将目标韵律特征向量、目标音色特征向量以及与待合成语音对应的目标文本特征向量输入嵌入层进行叠加操作，得到候选特征向量；将候选特征向量输入解码器进行解码
处理，得到待合成语音的梅尔频谱。
81.其中，目标韵律特征向量是根据目标语音情绪标签提取到的，目标音色特征向量根据目标身份标签提取到的。韵律特征向量和音色特征向量嵌定于语音合成模型中，参考编码器能够根据语音情绪标签确定对应的目标韵律特征向量，并根据身份标签确定对应的目标音色特征向量。与现有技术不同的是，本申请无需输入参考语音，也无需从参考语音提取韵律特征向量和音色特征向量，能够提高语音合成效率。
82.在一实施例中，参考编码器包括第一参考编码器和第二参考编码器。第一参考编码器用于根据语音情绪标签确定相关联的目标韵律特征向量，第二参考编码器用于根据身份标签确定相关联的目标音色特征向量。
83.示例性的，用户选取“愤怒”作为目标语音情绪标签和选取“小刘”作为目标用户的身份标签，并将目标语音情绪标签和目标用户的身份标签输入至语音合成模型，使得语音合成模型中的参考编码器确定“愤怒”相关联的韵律特征向量以及确定“小刘”相关联的音色特征向量。
84.需要说明的是，将目标韵律特征向量、目标音色特征向量以及与待合成语音对应的目标文本特征向量输入嵌入层进行叠加操作，包括对韵律特征向量与音色特征向量进行拼接，得到拼接特征向量，再将拼接特征向量和与待合成语音对应的目标文本特征向量输入嵌入层进行叠加操作，得到候选特征向量。其中，拼接方法包括行拼接或者列拼接，可根据实际情况进行灵活运用和转置。
85.具体地，获取语音数据对应的文本信息的文本特征向量，并确定待调整的目标矩阵尺寸；根据目标矩阵尺寸调整组合特征向量和/或文本特征向量，使得组合特征向量与文本特征向量的矩阵尺寸一致；叠加调整后的组合特征向量与文本特征向量，得到目标特征向量。具体实施过程可参照前述实施例，本实施例在此不再赘述。
86.步骤s108、根据待合成语音的梅尔频谱，生成目标语音信息。
87.将待合成语音的梅尔频谱输入至声码器，得到目标语音信息，其中，声码器例如包括wavenet或wavernn，从而将待合成语音的梅尔频谱变为能够播放的wav文件，最终完成语音合成过程，目标语音信息与目标语音情绪标签和目标用户的身份标签相对应，能够表达目标用户的目标语音情绪。
88.上述实施例提供的语音合成方法，通过获取语音样本，语音样本包括用户的语音数据、语音数据对应的语音情绪标签和用户的身份标签；调用待训练的语音合成模型，语音合成模型包括参考编码器、嵌入层和解码器；将语音样本输入参考编码器进行编码处理，以提取语音数据的韵律特征向量和音色特征向量；将韵律特征向量、音色特征向量以及与语音数据对应的文本特征向量输入嵌入层进行叠加操作，得到目标特征向量；将目标特征向量输入解码器进行解码处理，以获取语音数据的预测梅尔频谱；获取语音数据的真实梅尔频谱，并根据预测梅尔频谱和真实梅尔频谱，调整语音合成模型的模型参数，直至语音合成模型收敛；获取待合成语音的目标语音情绪标签和目标身份标签，将目标语音情绪标签和目标身份标签输入至收敛的语音合成模型，得到待合成语音的梅尔频谱；根据待合成语音的梅尔频谱，生成目标语音信息。通过嵌入语音样本的目标特征向量，能够有效减少模型训练过程中所需的训练样本数量，语音合成模型能够快速收敛，且语音合成时无需输入参考语音，在语音合成的应用过程中能够快速推理，可以有效的提高语音合成效率。
89.请参照图3，图3为本申请实施例提供的一种语音合成装置的示意性框图。
90.如图3所示，该语音合成装置200，包括：获取模块201、调用模块202、编码模块203、叠加模块204、解码模块205、调整模块206、输入模块207和生成模块208，其中：
91.获取模块201，用于获取语音样本，所述语音样本包括用户的语音数据和所述语音数据对应的语音情绪标签和所述用户的身份标签；
92.调用模块202，用于调用待训练的语音合成模型，所述语音合成模型包括参考编码器、嵌入层和解码器；
93.编码模块203，用于将所述语音样本输入所述参考编码器进行编码处理，以提取所述语音数据的韵律特征向量和音色特征向量，其中，所述韵律特征向量是根据所述语音情绪标签对所述语音数据编码得到的，所述音色特征向量是根据所述身份标签对所述语音数据编码得到的；
94.叠加模块204，用于将所述韵律特征向量、所述音色特征向量以及与所述语音数据对应的文本特征向量输入所述嵌入层进行叠加操作，得到目标特征向量；
95.解码模块205，用于将所述目标特征向量输入所述解码器进行解码处理，以获取所述语音数据的预测梅尔频谱；
96.所述获取模块201，还用于获取所述语音数据的真实梅尔频谱；
97.调整模块206，用于根据所述预测梅尔频谱和真实梅尔频谱，调整所述语音合成模型的模型参数，直至所述语音合成模型收敛；
98.所述获取模块201，还用于获取待合成语音的目标语音情绪标签和目标身份标签；
99.输入模块207，用于将所述目标语音情绪标签和所述目标身份标签输入至收敛的所述语音合成模型，得到所述待合成语音的梅尔频谱；
100.生成模块208，用于根据所述待合成语音的梅尔频谱，生成目标语音信息。在一个实施例中，所述嵌入层包括第一嵌入层和第二嵌入层，如图4所示，叠加模块204包括：
101.组合子模块2041，用于将所述韵律特征向量和所述音色特征向量输入所述第一嵌入层进行组合，得到组合特征向量。
102.叠加子模块2042，用于将所述组合特征向量和所述语音数据对应的文本信息的文本特征向量输入所述第二嵌入层进行叠加，得到目标特征向量。
103.在一个实施例中，叠加模块204还用于：
104.调整所述组合特征向量和/或所述文本特征向量，使得所述组合特征向量与所述文本特征向量的矩阵尺寸一致；
105.所述将所述组合特征向量和所述文本特征向量输入所述第二嵌入层进行叠加，得到目标特征向量，包括：
106.将矩阵尺寸一致的所述组合特征向量和所述文本特征向量输入所述第二嵌入层进行叠加，得到目标特征向量。
107.在一个实施例中，叠加模块204还用于：
108.确定待调整的目标矩阵尺寸；
109.获取所述组合特征向量的第一矩阵尺寸，根据所述目标矩阵尺寸和所述第一矩阵尺寸，确定所述组合特征向量的待调整的第一矩阵位置；
110.通过预设标识填充待调整的所述第一矩阵位置；和/或
111.获取所述文本特征向量的第二矩阵尺寸，根据所述目标矩阵尺寸和所述第二矩阵尺寸，确定所述文本特征向量的待调整的第二矩阵位置；
112.通过预设标识填充待调整的所述第二矩阵位置。
113.在一个实施例中，调整模块206还用于：
114.根据所述梅尔频谱和真实梅尔频谱，计算所述语音合成模型的模型损失值；
115.基于所述模型损失值更新所述语音合成模型的模型参数，根据多个所述语音样本对更新模型参数的所述语音合成模型进行迭代训练；
116.当确定更新模型参数的所述语音合成模型处于收敛状态，得到训练好的语音合成模型。
117.在一个实施例中，获取模块201还用于：
118.获取多个第一语音样本和多个第二语音样本，所述第一语音样本包括第一语音数据和所述第一语音数据对应的语音情绪标签，所述第二语音样本包括第二语音数据和所述第二语音数据对应的身份标签；
119.通过所述多个第一语音样本训练第一预设分类器，得到训练好的话语情绪分类器，以及通过所述多个第二语音样本训练第二预设分类器，得到训练好的用户身份分类器；
120.获取用户的目标语音数据，通过所述话语情绪分类器确定所述目标语音数据对应的语音情绪标签，并通过所述用户身份分类器确定所述目标语音数据对应的身份标签；
121.将所述语音情绪标签和身份标签标注于所述目标语音数据，得到所述语音样本。
122.在一个实施例中，输入模块207还用于：
123.将所述目标语音情绪标签和所述目标身份标签输入所述参考编码器进行处理，得到所述目标语音情绪标签对应的目标韵律特征向量和所述目标身份标签对应的目标音色特征向量；
124.将所述目标韵律特征向量、所述目标音色特征向量以及与所述待合成语音对应的目标文本特征向量输入所述嵌入层进行叠加操作，得到候选特征向量；
125.将候选特征向量输入所述解码器进行解码处理，得到所述待合成语音的梅尔频谱。
126.需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各模块及单元的具体工作过程，可以参考前述语音合成方法实施例中的对应过程，在此不再赘述。
127.上述实施例提供的装置可以实现为一种计算机程序的形式，该计算机程序可以在如图5所示的服务器上运行。
128.请参阅图5，图5为本申请实施例提供的一种服务器的结构示意性框图。
129.如图5所示，该服务器包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括非易失性存储介质和内存储器。
130.非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种语音合成方法。
131.处理器用于提供计算和控制能力，支撑整个服务器的运行。
132.内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种语音合成方法。
133.该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的服务器的限定，具体的服务器可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
134.应当理解的是，处理器可以是中央处理单元(central processing unit，cpu)，该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现场可编程门阵列(field
‑
programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
135.其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：
136.获取语音样本，所述语音样本包括用户的语音数据、所述语音数据对应的语音情绪标签和所述用户的身份标签；
137.调用待训练的语音合成模型，所述语音合成模型包括参考编码器、嵌入层和解码器；
138.将所述语音样本输入所述参考编码器进行编码处理，以提取所述语音数据的韵律特征向量和音色特征向量，其中，所述韵律特征向量是根据所述语音情绪标签对所述语音数据编码得到的，所述音色特征向量是根据所述身份标签对所述语音数据编码得到的；
139.将所述韵律特征向量、所述音色特征向量以及与所述语音数据对应的文本特征向量输入所述嵌入层进行叠加操作，得到目标特征向量；
140.将所述目标特征向量输入所述解码器进行解码处理，以获取所述语音数据的预测梅尔频谱；
141.获取所述语音数据的真实梅尔频谱，并根据所述预测梅尔频谱和真实梅尔频谱，调整所述语音合成模型的模型参数，直至所述语音合成模型收敛；
142.获取待合成语音的目标语音情绪标签和目标身份标签，将所述目标语音情绪标签和所述目标身份标签输入至收敛的所述语音合成模型，得到所述待合成语音的梅尔频谱；
143.根据所述待合成语音的梅尔频谱，生成目标语音信息。
144.在一个实施例中，所述嵌入层包括第一嵌入层和第二嵌入层；所述处理器在实现所述将所述韵律特征向量、所述音色特征向量以及与所述语音数据对应的文本特征向量输入所述嵌入层进行叠加操作，得到目标特征向量时，用于实现：
145.将所述韵律特征向量和所述音色特征向量输入所述第一嵌入层进行组合，得到组合特征向量；
146.将所述组合特征向量和所述语音数据对应的文本信息的文本特征向量输入所述第二嵌入层进行叠加，得到目标特征向量。
147.在一个实施例中，所述处理器在实现所述将所述组合特征向量和所述文本特征向量输入所述第二嵌入层进行叠加，得到目标特征向量之前，还用于实现：
148.调整所述组合特征向量和/或所述文本特征向量，使得所述组合特征向量与所述文本特征向量的矩阵尺寸一致；
149.所述将所述组合特征向量和所述文本特征向量输入所述第二嵌入层进行叠加，得到目标特征向量，包括：
150.将矩阵尺寸一致的所述组合特征向量和所述文本特征向量输入所述第二嵌入层进行叠加，得到目标特征向量。
151.在一个实施例中，所述处理器在实现所述调整所述组合特征向量和/或所述文本特征向量时，用于实现：
152.确定待调整的目标矩阵尺寸；
153.获取所述组合特征向量的第一矩阵尺寸，根据所述目标矩阵尺寸和所述第一矩阵尺寸，确定所述组合特征向量的待调整的第一矩阵位置；
154.通过预设标识填充待调整的所述第一矩阵位置；和/或
155.获取所述文本特征向量的第二矩阵尺寸，根据所述目标矩阵尺寸和所述第二矩阵尺寸，确定所述文本特征向量的待调整的第二矩阵位置；
156.通过预设标识填充待调整的所述第二矩阵位置。
157.在一个实施例中，所述处理器在实现所述根据所述预测梅尔频谱和真实梅尔频谱，调整所述语音合成模型的模型参数，直至所述语音合成模型收敛时，用于实现：
158.根据所述梅尔频谱和真实梅尔频谱，计算所述语音合成模型的模型损失值；
159.基于所述模型损失值更新所述语音合成模型的模型参数，根据多个所述语音样本对更新模型参数的所述语音合成模型进行迭代训练；
160.当确定更新模型参数的所述语音合成模型处于收敛状态，得到训练好的语音合成模型。
161.在一个实施例中，所述处理器在实现所述获取语音样本时，用于实现：
162.获取多个第一语音样本和多个第二语音样本，所述第一语音样本包括第一语音数据和所述第一语音数据对应的语音情绪标签，所述第二语音样本包括第二语音数据和所述第二语音数据对应的身份标签；
163.通过所述多个第一语音样本训练第一预设分类器，得到训练好的话语情绪分类器，以及通过所述多个第二语音样本训练第二预设分类器，得到训练好的用户身份分类器；
164.获取用户的目标语音数据，通过所述话语情绪分类器确定所述目标语音数据对应的语音情绪标签，并通过所述用户身份分类器确定所述目标语音数据对应的身份标签；
165.将所述语音情绪标签和身份标签标注于所述目标语音数据，得到所述语音样本。
166.在一个实施例中，所述处理器在实现所述将所述目标语音情绪标签和所述目标身份标签输入至收敛的所述语音合成模型，得到所述待合成语音的梅尔频谱时，用于实现：
167.将所述目标语音情绪标签和所述目标身份标签输入所述参考编码器进行处理，得到所述目标语音情绪标签对应的目标韵律特征向量和所述目标身份标签对应的目标音色特征向量；
168.将所述目标韵律特征向量、所述目标音色特征向量以及与所述待合成语音对应的目标文本特征向量输入所述嵌入层进行叠加操作，得到候选特征向量；
169.将候选特征向量输入所述解码器进行解码处理，得到所述待合成语音的梅尔频谱。
170.需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，
上述描述服务器的具体工作过程，可以参考前述语音合成方法实施例中的对应过程，在此不再赘述。
171.本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序中包括程序指令，所述程序指令被执行时所实现的方法可参照本申请语音合成方法的各个实施例。
172.其中，所述计算机可读存储介质可以是前述实施例所述的服务器的内部存储单元，例如所述服务器的硬盘或内存。所述计算机可读存储介质也可以是所述服务器的外部存储设备，例如所述服务器上配备的插接式硬盘，智能存储卡(smart media card，smc)，安全数字(secure digital，sd)卡，闪存卡(flash card)等。
173.应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。
174.还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
175.上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

再多了解一些

1/3 1 2 3 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种语音合成方法、装置、电子设备及存储介质与流程

语音合成方法、装置、服务器及存储介质与流程

相关文章

最热文献