语音合成模型的训练方法、语音合成方法及相关装置与流程

2022-11-09 22:58:23 来源：中国专利 TAG：

1.本发明涉及语音合成技术领域，具体而言，涉及一种语音合成模型的训练方法、语音合成方法及相关装置。

背景技术：

2.情感语音合成技术(emotional text-to-speech,etts)是将文本转成多情感语音的技术，可用于高拟人的语音助手、ai有声朗读等场景。情感语音合成技术是通过对真人的带多情感表现的录音数据进行学习，从而实现相同输入文本，生成不同情感表现语音的能力。
3.现有技术为了构建一个语音合成系统，除了录制多情感语音库之外，还需要对每句录制语音进行情感强度的标注。而情感强度的标注对于标注人员的要求非常高。并且，如果标注的不是整句话的语音情感强度，而是某个词或字的情感强度的话，增加了标注难度，降低了语音合成的效率和准确率。

技术实现要素：

4.本发明的目的之一在于提供一种语音合成模型的训练方法、语音合成方法及相关装置，其能够在没有任何情感强度标注情况下进行训练得到语音合成模型，提高了语音合成模型的训练效率和准确率，且得到的语音合成模型可实现在合成的语音中任意粒度的情感强度控制。
5.第一方面，本发明提供过一种语音合成模型的训练方法，所述语音合成模型包括声学模型、情感强度提取器、情感强度预测器和声码器；所述方法包括：获取训练样本集；所述训练样本集中包括多个训练样本；通过所述情感强度提取器，提取每个所述训练样本对应的情感强度值；基于所述训练样本以及所述训练样本对应的所述情感强度值，对所述声学模型和所述情感强度预测器进行训练，直至所述声学模型和所述情感强度预测器均达到各自的训练条件；对所述声码器进行训练，直至达到所述声码器的训练条件，获得训练后的所述语音合成模型。
6.第二方面，本发明一种语音合成方法，所述方法包括：获取待合成文本、目标说话人和目标情感类型；确定所述待合成文本的语言学特征、所述目标说话人的说话人嵌入向量以及所述目标情感类型的情感嵌入向量；将所述语言学特征、所述说话人嵌入向量和所述情感嵌入向量输入到预训练的语音合成模型的情感强度预测器中，得到情感强度序列；所述语音合成模型是根据如第一方面所述的语音合成模型的训练方法得到的；将所述情感强度序列和所述情感嵌入向量进行点乘运算，并将所述点乘运算的结果、所述语言学特征和所述说话人嵌入向量输入到所述语音合成模型的声学模型中，得到声学特征；将所述声学特征输入到所述语音合成模型的声码器中，输出所述待合成文本对应的目标音频。
7.第三方面，本发提供一种语音合成模型的训练装置，所述语音合成模型包括声学模型、情感强度提取器、情感强度预测器和声码器；包括：获取模块，用于获取训练样本集；
所述训练样本集中包括多个训练样本；提取模块，用于通过所述情感强度提取器，提取每个所述训练样本对应的情感强度值；训练模块，用于基于每个所述训练样本以及每个所述训练样本对应的所述情感强度值，对所述声学模型和所述情感强度预测器进行训练，直至所述声学模型和所述情感强度预测器均达到各自的训练条件；对所述声码器进行训练，直至达到所述声码器的训练条件，获得训练后的所述语音合成模型。
8.第四方面，本发提供一种语音合成装置，包括：获取模块，用于获取待合成文本、目标说话人和目标情感类型；确定模块，用于确定所述待合成文本的语言学特征、所述目标说话人的说话人嵌入向量以及所述目标情感类型的情感嵌入向量；合成模块，用于:将所述语言学特征、所述说话人嵌入向量和所述情感嵌入向量输入到预训练的语音合成模型的情感强度预测器中，输出情感强度序列；所述语音合成模型是根据如第一方面所述的语音合成模型的训练方法得到的；将所述情感强度序列、所述语言学特征和所述说话人嵌入向量输入到所述语音合成模型的声学模型中，输出声学特征；将所述声学特征输入到所述语音合成模型的声码器中，输出所述待合成文本对应的目标音频。
9.第五方面，本发明提供一种电子设备，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机程序，所述处理器可执行所述计算机程序以实现第一方面或者第二方面所述的方法。
10.第六方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面或者第二方面所述的方法。
11.本发明提供的语音合成模型的训练方法、语音合成方法及相关装置，所述语音合成模型包括声学模型、情感强度提取器、情感强度预测器和声码器；所述方法包括：获取训练样本集；所述训练样本集中包括多个训练样本；通过所述情感强度提取器，提取每个所述训练样本对应的情感强度值；基于所述训练样本以及所述训练样本对应的所述情感强度值，对所述声学模型和所述情感强度预测器进行训练，直至所述声学模型和所述情感强度预测器均达到各自的训练条件；对所述声码器进行训练，直至达到所述声码器的训练条件，获得训练后的所述语音合成模型。本发明实施例可以通过训练过程让情感强度提取器能够学到训练样本中的情感强度，从而无需人工标注情感强度，进而可以基于情感强度提取器提取的情感强度作为训练样本的标签对语音合成模型进行训练，提高了语音合成模型的训练效率和准确率。
附图说明
12.为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。
13.图1为本技术实施例提供的语音合成模型的训练方法的应用场景示意图；
14.图2为本技术实施例提供的一种语音合成模型的训练方法的示意性流程图；
15.图3为本发明实施例提供的步骤s203的一种结构示意图；
16.图4为本发明实施例提供的步骤s204的一种结构示意图；
17.图5为本发明实施例提供的语音合成方法的原理示意图；
18.图6为本发明实施例提供的语音合成方法的示意性流程图；
19.图7为本发明实施例提供的语音合成模型的训练装置的功能模块图；
20.图8为本发明实施例提供的语音合成装置的功能模块图；
21.图9为本发明实施例提供的电子设备的结构示意图。
具体实施方式
22.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
23.因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
24.应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。
25.在本发明的描述中，需要说明的是，若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。
26.此外，若出现术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。
27.需要说明的是，在不冲突的情况下，本发明的实施例中的特征可以相互结合。
28.情感语音合成技术(emotional text-to-speech,etts)是将文本转成多情感语音的技术，可用于高拟人的语音助手、ai有声朗读等场景。情感语音合成技术是通过对真人的带多情感表现的录音数据进行学习，从而实现相同输入文本，生成不同情感表现语音的能力。
29.现有技术中，为了构建一个情感强度可调节的语音合成系统，除了录制多情感语音库之外，还需要对每句录制语音进行情感强度的标注。而情感强度的标注对于标注人员的要求非常高。并且，如果标注的不是整句话的语音情感强度，而是某个词或字的情感强度的话，这对于标注人员几乎是可能完成的任务。
30.为了解决上述文本，本发明实施例提供了一种语音合成模型的训练方法，该训练方法在只给定多情感语音音库，且没有任何多情感强度标注情况下，可以构建一个多情感语音合成系统，该系统可实现在合成的语音中任意粒度的情感强度控制。
31.下面将对本发明实施例提供的语音合成模型以及语音合成模型的训练方法进行详细介绍。
32.本技术实施例提供的语音合成模型的训练方法可以应用于具备模型训练功能的设备，如终端设备、服务器等。其中，终端设备具体可以为智能手机、计算机、个人数字助理(personal digital assitant，pda)、平板电脑等；服务器具体可以为应用服务器，也可以
为web服务器，在实际应用部署时，该服务器可以为独立服务器，也可以为集群服务器。
33.在实际应用中，终端设备和服务器可以单独训练语音合成模型，也可以彼此交互训练语音合成模型，二者交互训练语音合成模型时，终端设备可以从服务器处获取训练样本集，进而利用该训练样本集进行模型训练，得到语音合成模型，或者，服务器可以从终端处获取训练样本集，进而利用该训练样本集进行模型训练，得到语音合成模型。
34.应理解，终端设备或服务器执行本技术实施例提供的训练方法，训练得到语音合成模型后，可以将该语音合成模型发送至其他终端设备，以在这些终端设备上运行上述语音合成模型，实现相应的功能；也可以将该语音合成模型发送至其他服务器，以在其他服务器上运行上述语音合成模型，通过这些服务器实现相应的功能。
35.为了便于理解本技术实施例提供的技术方案，下面以服务器训练语音合成模型为例，结合实际应用场景对本技术实施例提供的训练方法进行介绍。
36.参见图1，图1为本技术实施例提供的语音合成模型的训练方法的应用场景示意图。该场景中包括终端设备101和用于模型训练的服务器102，终端设备101和服务器102通过网络连接。其中，终端设备101能够为服务器提供预先录制多情感语音数据库，其中，多情感语音音库录制过程如下：准备特定文本语料让目标发音进行录制，文本语料中包括中性(无情感)对应文本，以及n个情感对应的提示性文本。如，当需要录制高兴语音时，提供的文本语料可以为：“今天我考试又考了100分，爸爸又会给我买玩具了，我太高兴了”，诸如此类情感提示性强的文本语料，录制完毕后，一个多情感语音库内包含：语音数据、该语音数据对应的文本、该语音数据的情感类型标签。
37.服务器102通过网络从终端设备101处获取到多情感语音数据库，将多情感语音数据库中的语音数据和文本语料进行特征提取，并基于提取到的声学特征和语言学特征组成训练样本集，接下来，服务器可以基于声学模型、情感强度提取器、情感强度预测器和声码器构建初始的语音合成模型，并利用训练样本集对初始的语音合成模型执行本发明实施例提供的训练方法，最终得到目标发音对象对应的语音合成模型。
38.服务器102生成语音合成模型后，可以进一步将该语音合成模型发送至终端设备101，以在终端设备101上运行该语音合成模型，利用这些语音合成模型实现相应的功能。
39.可以理解的是，本发明实施例可以预先训练得到多语音合成模型，即每个目标说话人对应一个语音合成模型，在一些实施方式中，多种语音合成模型可以存储于终端设备101或者服务器102本地，在需要使用语音合成模型的场景中，若需要合成目标说话人的语音，可以直接从本地读取目标说话人对应的语音合成模型的文件即可。
40.需要说明的是，上述图1所示的应用场景仅为一种示例，在实际应用中，本技术实施例提供的语音合成模型的训练方法还可以应用于其他应用场景，在此不对该语音合成模型的训练方法的应用场景做任何限定。
41.请参见图2，图2为本发明实施例提供的语音合成模型的训练方法的示意性流程图，为了便于描述，下述实施例以服务器作为执行主体进行描述，应理解，该语音合成模型的训练方法的执行主体并不仅限于服务器，还可以应用于终端设备等具备模型训练功能的设备。如图2所示，该语音合成模型训练方法包括以下步骤：
42.s201、获取训练样本集；训练样本集中包括多个训练样本；
43.s201、通过情感强度提取器，提取每个训练样本对应的情感强度值；
44.s202、基于训练样本以及训练样本对应的情感强度值，对声学模型和情感强度预测器进行训练，直至声学模型和情感强度预测器均达到各自的训练条件；
45.s203、对声码器进行训练，直至达到声码器的训练条件，获得训练后的语音合成模型。
46.根据本发明实施例提供的语音合成模型的训练方法，首先获得训练样本集，然后通过情感强度提取器提取训练样本对应的情感强度，然后基于训练样本和训练样本对应的情感强度，对声学模型和情感强度预测模型进行训练，当声学模型和情感强度预测模型均达到各自的训练条件之后，再去训练声码器，当声码器达到训练条件之后，即可，得到语音合成模型，本发明实施例可以通过训练过程让情感强度提取器能够学到训练样本中的情感强度，从而无需人工标注情感强度，进而可以基于情感强度提取器提取的情感强度作为训练样本的标签对语音合成模型进行训练，提高了语音合成模型的训练效率和准确率。
47.下面本发明实施例将结合附图2～附图4对上述步骤s201至步骤s204进行详细介绍。
48.在步骤s201中，获取训练样本集。
49.在本发明实施例中，训练样本集中包括多个训练样本，训练样本集是基于预先录制的多人多情感语音库得到的，这一条数据的语言学特征是拼音带音调的字符串”ni2hao3”，如此，我们提取每句话的语言学特征。通过录制目标说话人针对特定文本语料的发音音频，进而对发音音频和特定文本语料进行特征提取，将提取到的声学特征、语言学特征以及发音音频对应的情感类型的标签、以及目标说话人的说话人标签，组成训练样本。
50.因此，在本发明实施例中，每个训练样本包括：目标说话人的语音数据对应的声学特征、语音数据对应的文本的语言学特征、语音数据对应的情感类型的情感嵌入向量、目标说话人的说话人嵌入向量。
51.其中，情感嵌入向量是用来表征不同情感类型的向量，对于每一种情感，都可以用一个向量e来表征，e_高兴＝[0.3,0.44,0.89...]；说话人嵌入向量用来区分不同目标说话人，对于每一个目标说话人，都可以用一个向量s来表征，s_说话人a＝[0.7,0.9,0.23,...]，情感嵌入向量e和说话人嵌入向量s的向量维度可以基于实际需求进行设置，此处不作限定。
[0052]
因此，在一种可选的实施方式中，上述步骤s201的执行方式可以包括如下步骤：
[0053]
a1,采集目标说话人的多条语音数据；
[0054]
a2,对每条语音数据进行特征提取，获得每条语音数据对应的声学特征；
[0055]
a3,对每条语音数据对应的文本进行特征提取，获得文本对应的语言学特征；
[0056]
a4,基于每条语音数据对应的声学特征、每条语音数据对应的文本的语言学特征、每条语音数据对应的情感类型的情感嵌入向量、以及目标说话人的说话人嵌入向量，组成训练样本集。
[0057]
例如，多人多情感语音库中的一条数据为：(“你好”，00001.wav)，表示该条录音数据的录制内容是“你好”，相应音频文件是“00001.wav”。“你好”对应的语言学特征是拼音带音调的字符串”ni2hao3”，“00001.wav”对应的声学特征可以采用80维的梅尔谱特征。
[0058]
在步骤s202中、通过情感强度提取器，提取每个训练样本对应的情感强度值。
[0059]
在本发明实施例中，情感强度提取器，只在训练阶段使用，用于提取情感强度，该
情感强度提取器是一个神经网络，接受声学特征作为输入，输入的声学特征是事先根据音节的时长进行切分得到的，例如，“你好”对应的音节为“ni2”和“hao3”，其中，2和3分别表示音调，那么整句话“你好”对应的声学特征就会被切分成两段，前一段对应“ni2”，后一段对应“hao3”，情感强度提取器接受声学特征后，可以提取“ni2”和“hao3”各自对应的情感强度值。
[0060]
为了能够在训练过程中让情感强度提取器能够自动学到每一个音节对应声学特征段中的情感强度，从而实现无需人工标注情感强度的效果，本发明实施例将情感强度模块和声学模型主体通过门机制相连接，并进行联合训练的方式，在训练过程中进行基于声学模型的损失函数的损失值反向梯度传导进行训练，其中反向梯度会从声学模型直接传导到情感强度模块，从而进行训练。
[0061]
其中，上述的门机制是一种将情感强度值与情感嵌入进行点乘运算的机制，对于每一段声学特征，情感强度提取器会输出一个情感强度g_t，t代表音节的序号，例如“ni2”的序号为0,“hao3”的序号为1。该情感强度g_t会和情感嵌入向量e进行点乘，从而得到某一个情感类型的情感表征，门机制的存在使得其对情感嵌入的改动限制在情感嵌入的模，而模表征了情感强度。
[0062]
在一种可选的实施方式中，情感强度提取器可以是任意有序列建模能力的神经网络：如lstm/transformer等，是现有的一种能够提取情感强度的技术。对于每一段语音，情感强度提取器可以基于声学特征提取一个向量表征e_strength_rep，该向量表征经过情感强度提取器的全连接层，被映射到一个浮点数strength_rep，将这个浮点数与情感嵌入向量进行点乘即表征进入了门机制：
[0063]
门机制的输出＝sigmoid(strength_rep)x e_emotion
[0064]
其中，x表征点乘；sigmoid(strength_rep)是一个0-1的浮点数，代表情感强度，如0.7。该sigmoid(strength_rep)乘上情感嵌入向量e_emotion后，会将e_emotion的模变成原来的0.7倍，则最终输入给声学模型的就是情感强度调整以后的情感嵌入。
[0065]
可以理解的是，从带有情感的语音中的声学特征进行特征提取的话，提取的情感强度信息会是一个高度相关的特征，即，一段语音，它包含的情感强度信息是唯一的。最终，声学模型的重建损失值会将梯度传导到情感强度提取器上，指导其输出的表征情感强度的特征信息，越来越适配最终声学特征的输出声学特征。从而，达到无监督训练情感强度提取器的目的。
[0066]
在步骤s203中、基于训练样本以及训练样本对应的情感强度值，对声学模型和情感强度预测器进行训练，直至声学模型和情感强度预测器均达到各自的训练条件。
[0067]
在本发明实施例中，声学模型可以选用任意主流的语音合成声学模型结构，如durian,tacotron，fastspeech等，此处不作限定。
[0068]
在训练声学模型的过程中，需要将训练样本中的语言学特征、说话人嵌入向量、经过情感强度(情感强度即情感强度模块门机制的输出)点乘后的情感嵌入输入到声学模型，声学模型输出预测出的帧级别的声学特征，并基于预测的声学特征和训练样本中的真实声学特征计算损失函数的损失值，在训练情感强度预测器的过程中，将训练样本中的语言学特征、说话人嵌入向量和情感嵌入向量，经由情感强度预测器进行预测，得到预测的情感强度值，并基于预测的情感强度值和情感强度提取器提取的情感强度值计算损失函数的损失
值。
[0069]
因此，在一种可选的实施方式中，上述步骤s203的执行方式可以参见图3所示，图3为本发明实施例提供的步骤s203的示意性流程图：
[0070]
s203-1、通过门机制，将训练样本对应的情感强度值和情感嵌入向量进行点乘运算，得到训练样本对应的情感强度序列。
[0071]
在本发明实施例中，情感强度值是声学特征中每个音节对应的情感强度值，例如，情感强度提取器会输出一个情感强度g_t，t代表音节的序号，例如“ni2”的序号为0,“hao3”的序号为1，那么针对“你好”，提取的情感强度值分别为音节“ni2”对应的g_0、音节“hao3”对应的g_1，将g_0、g_1与情感嵌入向量进行点乘运算，就能得到情感强度序列。
[0072]
s203-2、将训练样本对应的语言学特征、说话人嵌入向量和情感强度序列输入声学模型中，得到预测的声学特征，并基于预测的声学特征和训练样本中的声学特征，计算第一损失函数的损失值。
[0073]
s203-3、将训练样本对应的语言学特征、说话人嵌入向量和情感嵌入向量输入到情感强度预测器，得到情感强度预测值，并基于情感强度预测值和情感强度值计算第二损失函数的损失值。
[0074]
s203-4、将第一损失函数的损失值反向传播至声学模型和情感强度提取器，以对声学模型的模型参数和情感强度提取器的模型参数进行迭代更新，直到第一损失函数收敛。
[0075]
s203-5、将第二损失函数的损失值反向传播至情感强度预测器，以对情感强度预测器的模型参数进行迭代更新，直到第二损失函数收敛。
[0076]
可以理解的是，上述第一损失函数收敛条件可以是：第一损失函数的损失值不再显著变化，或者第一损失函数的损失值小于预设阈值，第二损失函数的收敛条件与上述收敛条件类似，此处不再赘述。
[0077]
需要说明的是，上述步骤s203-2与步骤s203-3之间、步骤s2033与步骤s203-5之间并无执行的先后顺序，在一些场景中，步骤s203-2与步骤s203-3可以同时被执行，步骤s2033与步骤s203-5可以同时被执行。
[0078]
通过上述步骤s203对声学模型和情感强度预测器同时训练之后，即执行步骤s204，完成对声码器的训练。
[0079]
在步骤s204中、对声码器进行训练，直至达到声码器的训练条件，获得训练后的语音合成模型。
[0080]
在本技术实施例中，将声学模型和情感强度预测器训练完成之后，可以利用训练后的声学模型预测每个训练样本对应的声学特征，进而将预测的声学特征输入到声码器中，声码器可以预测出训练样本对应的语音数据，计算预测的语音数据和训练样本对应的真实语音数据之间的损失值，通过该损失值反向调节声码器的模型参数，直到满足训练条件。
[0081]
当声码器对应的第三损失函数收敛之后，由于情感强度预测器经过训练后已经具备预测情感强度的能力，可以，因此，由训练后的声学模型、情感强度预测器和声码器组成的语音合成模型即为本发明实施例的期望得到的语音合成模型。
[0082]
因此，在一种可选的实施方式中，上述步骤s204的执行方式可以参见图4，图4为本
发明实施例提供的步骤s204的示意性流程图：
[0083]
s204-1，根据训练样本，利用训练后的声学模型得到预测的声学特征。
[0084]
在本发明实施例中，训练后的声学模型得到预测的声学特征的方式与训练过程类似，即：将训练样本中的声学特征输入到情感强度提取器中，得到情感强度值，将情感强度值与该训练样本中的情感嵌入向量进行点乘运算，得到情感强度序列，将该训练样本中的语言学特征、说话人嵌入向量和该情感强度序列输入到训练后的声学模型中，得到预测是声学特征。
[0085]
s204-2，将预测的声学特征输入声码器中，得到预测的语音数据。
[0086]
本技术中的声码器可以采用任意主流神经网络结构，可以但不限于是hifi-gan。
[0087]
s204-3，基于预测的语音数据和训练样本中的语音数据，计算第三损失函数的损失值；
[0088]
s204-4，将第三损失函数的损失值反向传播至声码器，以对声码器的模型参数进行迭代更新，直到第三损失函数收敛,获得训练后的语音合成模型。
[0089]
通过上述实施方式，即可得到训练后的语音合成模型，进而可以将语音模型存储在服务器本地，或者将语音合成模型发送到终端设备，执行相应的语音合成任务。
[0090]
下面将介绍本发明实施例基于训练后的语音合成模型，进行语音合成的实施例。
[0091]
请参见图5，图5为本发明实施例提供的一种语音合成模型的原理示意图。
[0092]
如图5所示，在得到语音合成模型之后，可以将待合成文本对应的语言学特征、说话人嵌入向量和目标情感类型的情感嵌入向量输入到情感强度预测器中，得到预测的情感强度值，再将预测的情感强度值和情感嵌入向量通过门机制，得到情感强度序列，进而将语言学特征、说话人嵌入向量和情感强度序列输入到声学模型中，得到声学特征，将声学特征输入到声码器中，即可合成待合成文本对应的音频。
[0093]
因此，本发明实施例提供的语音合成方法可以参见图6，图6为本发明实施例提供的语音合成模型的示意性流程图，为了便于描述，下述实施例以服务器作为执行主体进行描述，应理解，该语音合成模型的执行主体并不仅限于服务器，还可以应用于终端设备等的设备。如图2所示，该语音合成模型训练方法包括以下步骤：
[0094]
s301、获取待合成文本、目标说话人和目标情感类型。
[0095]
在可选的实施方式中，待合成文本可以是预先生成的，也可以是实时录制的语音对应的文本。目标情感类型可以高兴、伤心、愤怒等任意一种类型。
[0096]
s302、确定待合成文本的语言学特征、目标说话人的说话人嵌入向量以及目标情感类型的情感嵌入向量。
[0097]
在本发明实施例中，对待合成文本进行音节划分，可以得到语言学特征，例如，待合成文本是“你好，我叫天天”，那么语言学特征则为“ni2hao3,wo3jiao4tian1tian1”，目标情感类型为高兴，则情感嵌入向量为[0.3,0.44,0.89...],目标说话人为说话人a，则说话人嵌入向量则为[0.7,0.9,0.23,...]。
[0098]
s303、将语言学特征、说话人嵌入向量和情感嵌入向量输入到预训练的语音合成模型的情感强度预测器中，得到情感强度序列。
[0099]
例如，继续参见上述示例，根据上述“ni2hao3,wo3jiao4tian1tian1”、[0.3,0.44,0.89...]、[0.7,0.9,0.23,...]，得到的情感强度序列则为g＝[0.2(对应ni2),0.4(对应
hao3),0.5(对应wo3),0.7(对应jiao4),0.6(对应tian1),0.5(对应tian1)]。
[0100]
可以理解的是，该语音合成模型是根据本发明实施例提供的语音合成模型的训练方法得到的，可以是训练训练存储在服务器本地中，也可以是实时训练出来的，此处不作限定。
[0101]
s304、将情感强度序列和情感嵌入向量进行点乘运算，并将点乘运算的结果、语言学特征和说话人嵌入向量输入到语音合成模型的声学模型中，得到声学特征。
[0102]
s305、将声学特征输入到语音合成模型的声码器中，输出待合成文本对应的目标音频。
[0103]
在可选的实施方式中，现有的大部分多情感语音合成技术生成的语音情感强度是单一的且不可调节的，无法满足用户需求，为了解决上述问题，本发明实施例给出了一种可选的实施方式，即在上述步骤s304之前，还可以包括如下步骤：
[0104]
b1，获取针对情感强度序列的更新操作；更新操作为升高或者降低；
[0105]
b2，基于更新操作，获得更新后的情感强度序列。
[0106]
在本发明实施例中，更新操作的粒度是如下任意一种：音节；词；句子，下面对这些操作粒度进行详细说明。
[0107]
继续以上述例子进行说明，假设待合成文本为“你好，我叫天天”，获得的情感强度序列为g＝[0.2,0.4,0.5,0.7,0.6,0.5]，每个数值对应一个音节。
[0108]
更新操作的粒度为音节：可以直接调节情感强度序列中任意一个音节对应的情感强度。例如，用户希望将音节“你”情感强度提升为0.5，则更新后的情感强度序列g_update＝[0.2-》0.5,0.4,0.5,0.7,0.6,0.5],表明将音节“你”的情感强度值“0.2”增加为“0.5”。
[0109]
更新操作的粒度为词：用户期望将某个词对应情感强度统一做处理，从而修改某个词对应的情感强度，例如将“你好”情感强度进行下降，则可以直接修改情感强度序列为g_update＝[0.2-》0.1,0.4-》0.1,0.5,0.7,0.6,0.5]，表明将情感强度值音节“你”对应的情感强度值“0.2”降低为“0.1”，将音节“好”对应的情感强度值“0.4”降低为“0.1”；也可以对目标调整词对应音节的默认情感强度乘上一个系数alpha＝1.5(增强情感强度为默认的1.5倍)，更新后的情感强度序列g_update＝[0.2x1.5-》0.3,0.4x1.5-》0.6,0.5,0.7,0.6,0.5]，表明将情感强度值音节“你”和“好”对应的情感强度值升高1.5倍。
[0110]
使用控更新后的情感强度序列，结合情感嵌入通过门机制，得到最终的情感表征，联合其他的输入特征一起，经过声学模型，输出声学特征。
[0111]
更新操作的粒度为句子：对于整个待合成文本，也可以通过对默认情感强度全局乘上系数alpha来调整。例如，将整个待合成文本的情感强度增强为默认的0.5倍(alpha＝0.5)，则更新后的情感强度序列g_update＝[0.2x0.5-》0.1,0.4x0.5-》0.2,0.5x0.5-》0.25,0.7x0.5-》0.35,0.6x0.5-》0.3,0.5x0.5-》0.25]。
[0112]
基于更新后的情感强度序列执行步骤s304至步骤s305，从而可以得到情感强度不同的音频。
[0113]
本技术实施例提供的语音合成模型的训练方法可以在硬件设备或者以软件模块的形式实现中执行，当语音合成模型的训练方法以软件模块的形式实现时，本技术实施例还提供一种语音合成模型的训练方法装置，请参见图7，图7为本技术实施例提供的语音合成模型的训练装置的功能模块图，该语音合成模型的训练装置400可以包括：
[0114]
第一获取模块410，用于获取训练样本集；训练样本集中包括多个训练样本；
[0115]
提取模块420，用于通过情感强度提取器，提取每个训练样本对应的情感强度值；
[0116]
训练模块430，用于基于每个训练样本以及每个训练样本对应的情感强度值，对声学模型和情感强度预测器进行训练，直至声学模型和情感强度预测器均达到各自的训练条件；对声码器进行训练，直至达到声码器的训练条件，获得训练后的语音合成模型。
[0117]
可以理解的是，第一获取模块410、提取模块420和训练模块430可以协同的执行图2中的各个步骤以实现相应的技术效果。
[0118]
在可选的实施方式中，训练样本包括：目标说话人的语音数据对应的声学特征、语音数据对应的文本的语言学特征、语音数据对应的情感类型的情感嵌入向量、目标说话人的说话人嵌入向量；情感强度提取器与声学模型通过门机制连接；训练模块430具体用于执行图3、图4所示的各个步骤以实现相应的技术效果。
[0119]
在可选的实施方式中，第一获取模块410具体用于：采集目标说话人的多条语音数据；对每条语音数据进行特征提取，获得每条语音数据对应的声学特征；对每条语音数据对应的文本进行特征提取，获得文本对应的语言学特征；基于每条语音数据对应的声学特征、每条语音数据对应的文本的语言学特征、每条语音数据对应的情感类型的情感嵌入向量、以及目标说话人的说话人嵌入向量，组成训练样本集。
[0120]
本技术实施例提供的语音合成方法可以在硬件设备或者以软件模块的形式实现中执行，当语音合成方法以软件模块的形式实现时，本技术实施例还提供一种语音合成模型的训练方法装置，请参见图8，图8为本技术实施例提供的语音合成装置的功能模块图，该语音合成装置500可以包括：
[0121]
第二获取模块510，用于获取待合成文本、目标说话人和目标情感类型；
[0122]
确定模块520，用于确定待合成文本的语言学特征、目标说话人的说话人嵌入向量以及目标情感类型的情感嵌入向量。
[0123]
合成模块530，用于将语言学特征、说话人嵌入向量和情感嵌入向量输入到预训练的语音合成模型的情感强度预测器中，输出情感强度序列；语音合成模型是根据本发明实施例提供的语音合成模型的训练方法得到的；将情感强度序列、语言学特征和说话人嵌入向量输入到语音合成模型的声学模型中，输出声学特征；将声学特征输入到语音合成模型的声码器中，输出待合成文本对应的目标音频。
[0124]
可以理解的是，第二获取模块510、确定模块520和合成模块530可以协同的执行图6中的各个步骤以实现相应的技术效果。
[0125]
在可选的实施方式中，该语音合成装置500还可以包括更新模块，第二获取模块510还用于获取针对情感强度序列的更新操作；更新操作为升高或者降低；更新模块用于基于更新操作，获得更新后的情感强度序列。
[0126]
本发明实施例还提供了一种电子设备，请参见图9，图9为本发明实施例提供的电子设备的结构框图。
[0127]
如图9所示，电子设备600包括存储器601、处理器602和通信接口603，该存储器601、处理器602和通信接口603相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
[0128]
存储器601可用于存储软件程序及模块，如本发明实施例提供的语音合成模型的
训练装置400或者语音合成装置500的指令/模块，可以软件或固件(firmware)的形式存储于存储器601中或固化在电子设备600的操作系统(operating system，os)中，处理器602通过执行存储在存储器601内的软件程序及模块，从而执行各种功能应用以及数据处理。该通信接口603可用于与其他节点设备进行信令或数据的通信。
[0129]
其中，存储器601可以是但不限于，随机存取存储器(random access memory，ram)，只读存储器(read only memory，rom)，可编程只读存储器(programmable read-onlymemory，prom)，可擦除只读存储器(erasable programmable read-only memory，eprom)，电可擦除只读存储器(electric erasable programmable read-only memory，eeprom)等。
[0130]
处理器602可以是一种集成电路芯片，具有信号处理能力。该处理器602可以是通用处理器，包括中央处理器(central processing unit，cpu)、网络处理器(networkprocessor，np)等；还可以是数字信号处理器(digital signal processing，dsp)、专用集成电路(application specific integrated circuit，asic)、现场可编程门阵列(field－programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0131]
可以理解，图9所示的结构仅为示意，电子设备600还可以包括比图9中所示更多或者更少的组件，或者具有与图9所示不同的配置。图9所示的各组件可以采用硬件、软件或其组合实现。
[0132]
本技术实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如前述实施方式中任一项的语音合成模型的训练方法或者语音合成方法。该计算机可读存储介质可以是，但不限于，u盘、移动硬盘、rom、ram、prom、eprom、eeprom、磁碟或者光盘等各种可以存储程序代码的介质。
[0133]
以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种主动降噪的MEMS麦克风组件及使用方法与流程

语音合成模型的训练方法、语音合成方法及相关装置与流程

相关文献

最热文献