模型训练和语音合成方法、装置、设备及介质与流程

2023-02-10 13:40:21 来源：中国专利 TAG：

1.本发明涉及语音处理技术领域，尤其涉及一种模型训练和语音合成方法、装置、设备及介质。

背景技术：

2.随着文本转语音(text to speech，tts)技术的发展，越来越多的领域采用该种技术，以提高用户的体验。现有技术中，可以通过预先训练完成的声学模型，生成文本信息对应的声学特征。后续基于该声学特征以及声码器，获取该文本信息对应的语音信息。而近几年来，为了提高用户的体验，并可以为用户提供个性化的服务，如何将文本信息转化成目标发音人的语音信息成为人们日益关注的问题。
3.现有技术中，可以基于预先采集目标发音人大量的语音数据，对原始声学模型进行训练，以得到训练完成的目标声学模型。后续根据获取到的文本信息的文本特征以及该目标声学模型，可以准确地获取目标发音人发出该文本信息时的声学特征。后续基于该声学特征以及声码器，获取目标发音人发出该文本信息时的语音数据。对于该种方法，如果希望获取到自然、准确地语音数据，一般需要预先采集目标发音人3万句以上、或者15小时以上的语音数据，才能保证该目标声学模型的准确性，提高了获取到目标发音人的语音样本的难度以及所耗费的成本都非常的大。

技术实现要素：

4.本发明实施例提供了一种模型训练和语音合成方法、装置、设备及介质，用以解决现有获取到目标发音人的语音合成模型难度、以及所耗费的成本非常大的问题。
5.本发明实施例提供了一种语音合成模型的训练方法，所述方法包括：
6.获取目标发音人的第一语音样本和非目标发音人的第二语音样本；
7.基于所述第二语音样本的第二文本特征及所述第二语音样本的声学特征，对原始声学模型进行训练，得到基础声学模型，并通过所述基础声学模型，确定所述第二文本特征的声学特征；基于所述第二文本特征的声学特征以及所述第二文本特征对应的第二语音样本，对基础声码器进行训练，得到基础声码器；
8.基于所述第一语音样本的第一文本特征、所述目标发音人的目标发音人标识以及所述第一语音样本的声学特征，对所述基础声学模型进行训练，以获取所述目标发音人的目标声学模型；以及通过所述目标声学模型，确定所述第一文本特征的声学特征；基于所述第一文本特征的声学特征以及所述第一文本特征对应的第一语音样本，对所述基础声码器进行训练，以获取所述目标发音人的目标声码器。
9.本发明实施例提供了一种基于上述的语音合成模型训练方法训练得到的语音合成模型的语音合成方法，所述语音合成模型包括目标声学模型和目标声码器，所述方法包括：
10.通过目标发音人的目标声学模型，基于待合成文本的文本特征和所述目标发音人
的目标发音人标识，获取所述待合成文本对应的至少一个目标声学特征；针对所述至少一个目标声学特征，通过所述目标声学模型对应的目标声码器，基于该目标声学特征，获取所述目标声学特征对应的语音帧在每个采样点的预测信号值；依次根据每个所述目标声学特征分别对应的语音帧在每个采样点的预测信号值，确定所述待合成文本对应的合成语音数据。
11.本发明实施例提供了一种语音合成模型的训练装置，所述装置包括：
12.获取单元，用于获取目标发音人的第一语音样本和非目标发音人的第二语音样本；
13.第一训练单元，用于基于所述第二语音样本的第二文本特征及所述第二语音样本的声学特征，对原始声学模型进行训练，得到基础声学模型，并通过所述基础声学模型，确定所述第二文本特征的声学特征；基于所述第二文本特征的声学特征以及所述第二文本特征对应的第二语音样本，对基础声码器进行训练，得到基础声码器；
14.第二训练单元，用于基于所述第一语音样本的第一文本特征、所述目标发音人的目标发音人标识以及所述第一语音样本的声学特征，对所述基础声学模型进行训练，以获取所述目标发音人的目标声学模型；以及通过所述目标声学模型，确定所述第一文本特征的声学特征；基于所述第一文本特征的声学特征以及所述第一文本特征对应的第一语音样本，对所述基础声码器进行训练，以获取所述目标发音人的目标声码器。
15.本发明提供了一种基于如上述所述语音合成模型训练方法训练得到的语音合成模型的语音合成装置，所述语音合成模型包括目标声学模型和目标声码器，所述装置包括：
16.第一处理模块，用于通过目标发音人的目标声学模型，基于待合成文本的文本特征和所述目标发音人的目标发音人标识，获取所述待合成文本对应的至少一个目标声学特征；
17.第二处理模块，用于针对所述至少一个目标声学特征，通过所述目标声学模型对应的目标声码器，基于该目标声学特征，获取所述目标声学特征对应的语音帧在每个采样点的预测信号值；
18.确定模块，用于依次根据每个所述目标声学特征分别对应的语音帧在每个采样点的预测信号值，确定所述待合成文本对应的合成语音数据。
19.本发明提供了一种电子设备，所述电子设备至少包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序时实现如上述所述语音合成模型训练方法的步骤，或者，实现如上述所述语音合成方法的步骤。
20.本发明提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述语音合成模型训练方法的步骤，或者，实现如上述所述语音合成方法的步骤。
21.本发明实施例中，由于分别对声学模型和声码器均进行了训练，使得获取到的目标声码器更加适用于合成目标发音人的合成语音数据，提高用户体验。并且会结合已训练的声学模型的输出结果对声码器进行训练，使得声码器在合成语音数据时，可以考虑到已训练的声学模型的输出结果中所存在的误差，从而生成更加自然，贴近目标发音人音色的合成语音数据，进一步提高了训练得到的目标语音合成模型的精度，有利于后续通过该目标语音合成模型实现目标发音人的语音合成。此外，在基于大量的非目标发音人的第二语
音样本，训练得到了基础声学模型以及基础声码器后，基于少量的目标发音人的语音样本，即可实现获得目标发音人的目标语音合成模型，极大地降低了获取目标发音人的语音样本的难度、以及所耗费的成本。
附图说明
22.为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
23.图1为本发明实施例提供的一种语音合成模型训练过程示意图；
24.图2为本发明实施例提供的具体的语音合成模型的训练过程示意图；
25.图3为本发明实施例提供的一种语音合成过程示意图；
26.图4为本发明实施例提供的一种语音合成模型的训练装置的结构示意图；
27.图5为本发明实施例提供的一种语音合成装置的结构示意图；
28.图6为本发明实施例提供的一种电子设备的结构示意图；
29.图7为本发明实施例提供的再一种电子设备的结构示意图。
具体实施方式
30.下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。
31.为了降低获取到目标发音人的语音合成模型的难度、以及所耗费的成本，本发明实施例提供了一种模型训练和语音合成方法、装置、设备及介质。
32.实施例1：图1为本发明实施例提供的一种语音合成模型训练过程示意图，该过程包括：
33.s101：获取目标发音人的第一语音样本和非目标发音人的第二语音样本。
34.本发明实施例提供的语音合成模型的训练方法应用于电子设备，该电子设备可以为如机器人等智能设备，也可以是服务器。
35.在本发明实施例中，语音合成模型包括声学模型和声码器。
36.一般情况下，如果要获取到比较精准的目标发音人的目标语音合成模型的话，需要预先采集目标发音人15小时以上，或3万句以上的语音数据。后续基于这些大量的语音数据，对原始语音合成模型所包括的原始声学模型进行训练，才能获得目标发音人的目标语音合成模型。但实际应用过程中，采集目标发音人的语音数据的难度是非常大的，一般无法采集到足够的语音数据对原始声学模型进行训练，导致获取到的目标语音合成模型的精度较差。因此，为了降低获取目标发音人的目标语音合成模型的难度，可以采集大量的非目标发音人的语音样本(记为第二语音样本)，以先通过这些第二语音样本，对原始语音合成模型所包括的原始声学模型和原始声码器进行训练，以获取训练完成的基础语音合成模型，即获取基础声学模型和基础声码器。后续只需采集少量的目标发音人的语音样本(记为第一语音样本)，对预先训练的基础语音合成模型继续训练，即对基础声学模型和基础声码器
继续训练，以获取训练完成的目标发音人的目标语音合成模型，即获取目标声学模型和目标声码器。
37.为了准确地生成目标发音人的目标语音合成模型，需要预先获取少量的用于训练该目标发音人的目标语音合成模型的第一语音样本。其中，无需采集大量的目标发音人的语音信息，该第一语音样本远少于第二语音样本的数量，其一般为几十句，比如，20句左右的语音数据即可。当然，为了进一步提高目标语音合成模型的精度，也可以尽可能收集更多的第一语音样本。
38.本发明实施例中，s101中获取第一语音样本包括以下至少一种方式：
39.方式1、将录制得到的目标发音人的语音数据，确定为第一语音样本。
40.在采集第一语音样本的过程中，目标发音人可以在专业的录音环境中录制语音数据，将录制的语音数据确定为第一语音样本，也可以是通过智能终端录制语音数据，基于录制的语音数据确定第一语音样本。
41.当目标发音人需要定制自己的个性化语音合成模型时，先进行语音样本数据的录制。在一种可能的实施方式中，通过智能终端(如手机、平板电脑等)录制语音数据。
42.具体的，可以向智能终端输入触发操作。其中，目标发音人向智能终端输入触发操作的方式有很多，该触发操作可以是目标发音人触发了智能终端的显示屏上显示的虚拟按钮，也可以是目标发音人向智能终端输入了语音信息，还可以是目标发音人在智能终端的显示屏上绘制了图形指令等，具体实施过程中，可以根据实际需求进行灵活设置，在此不做具体限定。智能终端接收到了目标发音人输入的触发操作后，可以将目标发音人选择的预先录制好的语音数据上传给电子设备，也可以进入语音录制功能，开始实时录制目标发音人的语音数据，并将录制的多条语音数据上传给电子设备，以使电子设备基于接收到的语音数据确定第一语音样本。
43.由于目标发音人无需到专业的录音环境录制语音数据，通过智能终端便可以录制语音数据，大大降低了获取目标发音人的语音数据的难度以及成本，极大地提高了用户体验。并且，在本发明实施例中，目标发音人不需要通过智能设备录制大量的语音数据，比如，几百句或几小时以上的语音数据，通过录制的少量的语音数据即可确定第一语音样本，进一步降低了获取目标发音人的语音数据的难度以及成本，极大地提高了用户体验，实现了可以定制目标发音人的第一语音样本。
44.当通过智能终端录制语音数据时，可以将通过智能终端录制得到的语音数据确定为目标发音人的原始语音数据。由于该原始语音数据中可能存在大量的工作环境中的噪声，因此可以先对录制得到的原始语音数据进行音频处理，比如，对该原始语音数据进行降噪处理，和/或去混响处理，以得到干净的语音数据。然后，将音频处理后的语音数据确定为第一语音样本。
45.需要说明的是，对该原始语音数据进行降噪处理，和/或去混响处理的具体过程，均属于现有技术，在此不做具体赘述。
46.方式2、为了尽可能获取到大量的第一语音样本，可以在上述方式1的基础上，可以对获取到的第一语音样本进行扩充。
47.作为一种可能的实施方式，通过音色转换技术以及录制得到的目标发音人的语音数据，将非目标发音人(比如，专业录音员)的语音数据，转换为目标发音人的目标语音数
据，并将得到的目标语音数据，确定为第一语音样本，从而实现对第一语音样本的扩充。
48.具体实施中，先训练得到目标发音人的音色转换模型，再通过该音色转换模型将非目标发音人的语音数据转换为目标发音人对应的语音数据，其中，非目标发音人的语音数据与转换得到的目标发音人的语音数据对应的文本内容是相同的。
49.举例说明音色转换模型的训练过程，预先获取同一文本内容对应的非目标发音人的语音数据和目标发音人的语音数据，作为样本语音数据。基于非目标发音人的样本语音数据、以及目标发音人对应的样本语音数据，对原始音色转换模型进行训练，以得到目标发音人的音色转换模型。后续通过训练得到的音色转换模型，将非目标发音人的任一语音数据输入至该音色转换模型，即可输出该目标发音人对应的目标语音数据，输入的语音数据与输出的语音数据的文本内容是相同的。
50.其中，通过音色转换技术以及录制得到的目标发音人的语音数据，将非目标发音人的语音数据，转换为目标发音人的目标语音数据的过程属于现有技术，在此不做具体限定。
51.作为另一种可能的实施方式，还可以将目标发音人的至少两个语音数据(包括录制得到的目标发音人的语音数据、和/或通过音色转换技术得到的目标语音数据)进行拼接处理，将拼接处理后获取到的拼接语音数据，确定为第一语音样本。
52.以目标发音人的至少两个语音数据包括录制得到的目标发音人的语音数据、和/或通过音色转换技术得到的目标语音数据为例，获取拼接语音数据包括以下几种方式：
53.方式一、可以将获取到的目标发音人的语音数据确定为基础语音数据，该基础语音数据可以是上述实施例中的原始语音数据，可以是上述实施例中的音频处理后的语音数据，也可以是上述实施例中通过音色转换技术获取到的目标语音数据。将该目标发音人的至少两个不同的基础语音数据进行拼接，确定出拼接语音数据(为了方便描述，记为第一拼接语音数据)。将每个基础语音样本以及每个第一拼接语音数据均确定为第一语音样本。
54.方式二、可以将获取到的目标发音人的语音数据确定为基础语音数据，将该目标发音人的至少一个基础语音数据复制成设定倍数，将该至少一个复制的语音数据与对应的基础语音数据进行拼接，确定出拼接语音数据(为了方便描述，记为第二拼接语音数据)。可以理解的是，该第二拼接语音数据是由至少两个相同的语音数据拼接而成的。将每个基础语音样本以及每个第二拼接语音数据均确定为第一语音样本。
55.方式三、可以将获取到的目标发音人的语音数据确定为基础语音数据，将该目标发音人的至少一个基础语音数据复制成设定倍数，将至少两个不同的语音数据(包括复制后的语音数据与基础语音数据)进行拼接，确定出拼接语音数据(为了方便描述，记为第三拼接语音数据)。将每个基础语音样本以及每个第三拼接语音数据均确定为第一语音样本。
56.在一种可能的实施方式中，可以同时通过上述的方式一至方式三中的至少两种方式，对目标发音人的至少两个语音数据进行拼接处理。其中，第二语音样本也可以通过上述的方式获取，重复之处不再赘述。
57.由于在通过录制得到的目标发音人的语音数据确定第一语音样本的基础上，可以通过音色转换技术，将非目标发音人的语音数据，转换为目标发音人的目标语音数据，并将得到的目标语音数据，确定为第一语音样本，也可以对目标发音人的至少两个语音数据(包括目标发音人的语音数据、和/或通过音色转换技术得到的目标语音数据)进行拼接处理，
并将拼接处理得到的语音数据确定为第一语音样本，从而实现对目标发音人的第一语音样本的扩充，进一步降低获取目标发音人的第一语音样本的难度和所耗费的成本，也有利于根据获取到的大量的第一语音样本，对语音合成模型进行训练，提高获取到的语音合成模型的精度和鲁棒性。
58.s102：基于第二语音样本的第二文本特征及该第二语音样本的声学特征，对原始声学模型进行训练，得到基础声学模型，并通过基础声学模型，确定该第二文本特征的声学特征；基于该第二文本特征的声学特征以及该第二文本特征对应的第二语音样本，对基础声码器进行训练，得到基础声码器。
59.由于实际应用过程中，声学模型的输入为文本特征，输出为该文本特征对应的声学特征，因此，当基于上述的实施例获取到第二语音样本后，获取每个第二语音样本的文本特征(记为第二文本特征)，以及每个第二语音样本的声学特征(记为第二声学特征)，以基于第二语音样本的第二文本特征以及第二声学特征，对原始声学模型进行训练，得到基础声学模型。
60.需要说明的是，获取第二语音样本的第二声学特征为现有技术，比如，每个第二语音样本的第二声学特征则可以是通过声学特征提取算法获取，也可以是通过声学特征提取模型获取。具体实施中，可以根据实际需求进行灵活设置，在此不做具体限定。
61.在一种可能的实施方式中，获取每个第二语音样本的文本特征过程包括：针对每个第二语音样本，先获取该第二语音样本对应的文本内容，具体的获取方法可以是通过语音识别模型获取，也可以是通过人工标注的方式获取。获取到文本内容后，再提取该文本内容的文本特征，即可获取该第二语音样本的第二文本特征。具体提取文本内容的第二文本特征的方法可以是通过文本分析算法提取文本内容的第二文本特征，比如，句法分析、词法分析等，也可以是通过人工标注的方式确定。
62.本发明实施例中，任一第二文本特征包括：发音序列、第二语音样本中包括的每个词语的词性和分词信息、第二语音样本的语调、以及发音序列对应的韵律特征中的至少一种。
63.在一种可能的实施方式中，由于不同的第二语音样本所采用的语言可能是不同，使得在获取任一第二语音样本的发音序列时，可以根据第二语音样本所采用的语言以及卡耐基梅隆大学(carnegie mellon university，cmu)发音字典确定。比如，第二语音样本所采用的语言为中文，则该第二语音样本的发音序列可以是声韵母序列，第二语音样本所采用的语言为英文，则该第二语音样本的发音序列可以是音节序列等。
64.本发明实施例中，任一第二语音样本的第二声学特征包括：该第二语音样本的音频谱参数、该第二语音样本的音频时长、以及该第二语音样本的基频中的至少一种。
65.在一种可能的实施方式中，由于第二语音样本来自不同的非目标发音人，为了指示声学模型预测某一非目标发音人的声学特征，在本发明实施例中，可以分别确定每个第二语音样本所属的非目标发音人对应的发音人标识。
66.其中，发音人标识可以是数字、字符串等，也可以是其他形式的，只要可以唯一标识该非目标发音人的表示形式均可用于本发明实施例中。具体实施过程中，可以根据实际需求进行灵活设置。
67.在一种可能的实施方式中，获取任一第二语音样本的第二文本特征、该第二语音
样本的发音人标识，将该第二文本特征以及发音人标识输入到原始声学模型。通过原始声学模型，基于输入的第二文本特征以及发音人标识，确定对应该发音人标识及第二文本特征的声学特征(为了便于描述，将基于声学模型得到的声学特征记为第三声学特征)。其中，该第三声学特征可以理解为该发音人标识的发音人在发出该第二文本特征对应的文本时的语音数据的声学特征。基于该第三声学特征以及对应的第二声学特征，对原始声学模型的至少一个参数的参数值进行调整，以得到基础声学模型。
68.在对原始声学模型进行训练的过程中，不仅将第二文本特征输入到原始声学模型中，用于对原始声学模型进行训练，还会将发音人标识输入到原始声学模型，以对原始声学模型进行训练，以使该声学模型可以学习到不同发音人的声学特征，使得后续通过已训练的声学模型，可以准确地确定每个第二语音样本所对应的非目标发音人的声学特征，即准确地确定不同发音人的声学特征，有利于后续更加准确地合成不同发音人的合成语音数据。
69.由于包含有大量的用于训练原始声学模型的第二语音样本，针对每个第二语音样本的第二文本特征，均执行上述的步骤，直到满足预设的第一收敛条件。
70.其中，满足预设的第一收敛条件可以为基于每个第二语音样本的第二声学特征、以及通过当前已训练的声学模型确定的对应的第三声学特征，所确定的损失值的和小于预设的第一损失阈值，或对原始声学模型进行训练的迭代次数达到预先设置的最大迭代次数(为了便于描述，将原始声学模型训练的收敛条件中的最大迭代次数记为第一最大迭代次数)等。具体实施中可以灵活进行设置，在此不做具体限定。
71.在一种可能的实施方式中，在对原始声学模型训练时，把第二语音样本分训练样本和测试样本，先基于训练样本对原始声学模型进行训练，再基于测试样本对上述已训练的基础声学模型的可靠程度进行验证。其中，原始声学模型一般是深度神经网络模型，比如，tacotron模型。
72.为了能够合成语音数据，文本特征输入到声学模型后，通过该声学模型，获取到文本特征的声学特征后，再将该声学特征输入到声码器中，以通过该声码器，可以获取到该声学特征对应的语音帧在每个采样点的预测信号值。因此，当基于上述的实施例获取到基础声学模型后，可以通过该基础声学模型，基于输入的第二文本特征，确定该第二文本特征的第三声学特征。然后将该第三声学特征输入到原始声码器中，通过该原始声码器，基于输入的第三声学特征，获取该第三声学特征对应的语音帧在每个采样点的预测信号值。基于获取到的预测信号值以及对应的第二语音样本，对原始声码器进行训练，以得到训练完成的基础声码器，从而提高获取到的合成语音数据的精确度。
73.由于包含有大量的第二语音样本，针对每个第二语音样本，均执行上述对原始声码器进行训练的步骤，直到满足预设的第二收敛条件，确定获取到训练完成的基础声码器。
74.其中，满足预设的第二收敛条件可以为基于每个第二语音样本中每个音频帧在每个采样点的音频值及其通过当前已训练的声码器确定的对应的预测音频值，所确定的损失值的和小于预设的第二损失阈值，或对原始声码器进行训练的迭代次数达到预先设置的最大迭代次数(为了便于描述，将声码器训练的收敛条件中的最大迭代次数记为第二最大迭代次数)等。具体实施中可以灵活进行设置，在此不做具体限定。
75.在一种可能的实施方式中，在对原始声码器进行训练时，把第二语音样本分训练
样本和测试样本，先基于训练样本对原始声码器进行训练，再基于测试样本对上述已训练的基础声码器的可靠程度进行验证。
76.s103：基于第一语音样本的第一文本特征、目标发音人的目标发音人标识以及第一语音样本的声学特征，对基础声学模型进行训练，以获取目标发音人的目标声学模型；以及通过目标声学模型，确定第一文本特征的声学特征；基于第一文本特征的声学特征以及该第一文本特征对应的第一语音样本，对基础声码器进行训练，以获取目标发音人的目标声码器。
77.当基于上述实施例中的步骤，获取到基础语音合成模型了之后，只需基于目标发音人的第一语音样本，对该基础语音合成模型进行进一步地训练，以使该基础语音合成模型更加适用于合成目标发音人的语音数据即可。
78.同样的，由于声学模型的输入为文本特征，输出为该文本特征对应的声学特征，因此，基于上述实施例获取到第一语音样本后，获取每个第一语音样本的文本特征(记为第一文本特征)，以及每个第一语音样本的声学特征(记为第一声学特征)，以基于第一语音样本的第一文本特征以及第一声学特征，对基础声学模型进行训练，得到目标发音人的目标声学模型。
79.本发明实施例中，任一第一语音样本的第一声学特征包括：该第一语音样本的音频谱参数、该第一语音样本的音频时长以及该第一语音样本的基频中的至少一种。
80.需要说明的是，获取第一语音样本的第一声学特征的方法与上述获取第二语音样本的第二声学特征的方法相同，重复之处不作赘述。
81.本发明实施例中，任一第一语音样本的第一文本特征包括：发音序列、第一语音样本中包括的每个词语的词性和分词信息、第一语音样本的语调、以及发音序列对应的韵律特征中的至少一种。
82.在一种可能的实施方式中，由于不同的第一语音样本所采用的语言可能是不同，使得在获取任一第一语音样本的发音序列时，可以根据第一语音样本所采用的语言以及卡耐基梅隆大学(carnegie mellon university，cmu)发音字典确定。比如，第一语音样本所采用的语言为中文，则该第一语音样本的发音序列可以是声韵母序列，第一语音样本所采用的语言为英文，则该第一语音样本的发音序列可以是音节序列等。
83.需要说明的是，获取第一语音样本的第一文本特征的方法与上述获取第二语音样本的第二文本特征的方法相同，重复之处不作赘述。
84.在一种可能的实施方式中，为了指示声学模型预测目标发音人的声学特征，在本发明实施例中，可以确定目标发音人所对应的发音人标识(记为目标发音人标识)。
85.其中，目标发音人标识可以是数字、字符串等，也可以是其他形式的，只要可以唯一标识该目标发音人的表示形式均可用于本发明实施例中。具体实施过程中，可以根据实际需求进行灵活设置。
86.在一种可能的实施方式中，获取任一第一语音样本的第一文本特征、该第一语音样本的目标发音人标识，将该第一文本特征以及目标发音人标识输入到基础声学模型。通过基础声学模型，基于输入的第一文本特征以及目标发音人标识，确定对应该目标发音人标识及该第一文本特征的声学特征(为了便于描述，将基于基础声学模型得到的声学特征记为第三声学特征)。基于该第四声学特征以及对应的第一声学特征，对基础声学模型的至
少一个参数的参数值进行调整，以得到目标声学模型。
87.在一种可能的实施方式中，由于基于上述实施例获取到的基础声学模型，已经可以学习到第二语音样本所属的非目标发音人发出的语音信息中比较普遍的声学特征。因此，后续在基于每个第一语音样本，对该基础声学模型进行进一步地训练时，无需对该基础声学中的所有参数均进行调整，只需对其中的部分参数进行调整即可。
88.在本发明实施例中，当获取到基础声学模型后，可以将该基础声学模型中的参数分为第一类参数和第二类参数，其中，第一类参数的参数值可能不会因为样本数据的不同而变化，或者变化幅度很小(第一类参数也称为固定参数或底层参数)，第二类参数的参数值会因为样本数据的不同而发生变化且变化幅度较大(第二类参数也称为可调参数或顶层参数)，即将该基础声学模型包含的每个参数中，除第一类参数之外的其他参数确定为第二类参数。其中，该第一类参数的参数量一般非常的大，而第二类参数的参数量则相对较少，可以减少后续对基础声学模型训练时所需调整的参数的数量。
89.当确定了基础声学模型中的每个第一类参数之后，将基础声学模型中的各第一类参数的参数值，分别确定为目标声学模型中的与各第一类参数对应的参数的参数值。后续在该基础声学模型的基础上，采用迁移学习的思想训练得到目标声学模型，即在基础声学模型确定的各第一类参数的参数值的基础上，对各第二类参数的参数值进行调优。
90.在一种可能的实施方式中，第一类参数包括基础声学模型中编码器(encode)所包含的参数；第二类参数包括基础声学模型中的学习率、迭代次数、批量大小(batchsize)、解码器(decode)所包含的参数中的至少一种。
91.后续在基于每个第一语音样本，对该基础声学模型进行进一步地训练时，只对基础声学模型中的第二类参数的参数值进行调整即可，以确定目标声学模型中的第二类参数对应参数的参数值。
92.由于包含有若干个用于训练基础声学模型的第一语音样本，针对每个第一语音样本的第一文本特征，均执行上述的步骤，直到满足预设的第三收敛条件。
93.其中，满足预设的第三收敛条件可以为基于每个第一语音样本的第一声学特征、以及通过当前已训练的基础声学模型确定的对应的第四声学特征，所确定的损失值的和小于预设的第三损失阈值，或对基础声学模型进行训练的迭代次数达到预先设置的最大迭代次数(为了便于描述，将基础声学模型训练的收敛条件中的最大迭代次数记为第三最大迭代次数)等。具体实施中可以灵活进行设置，在此不做具体限定。
94.在一种可能的实施方式中，在对基础声学模型训练时，把第一语音样本分训练样本和测试样本，先基于训练样本对基础声学模型进行训练，再基于测试样本对上述已训练的目标声学模型的可靠程度进行验证。
95.当基于上述的实施例获取到目标声学模型后，可以通过该目标声学模型，基于输入的第一文本特征，确定该第一文本特征的第四声学特征。然后再将该第四声学特征输入到基础声码器中，通过该基础声码器，基于输入的第四声学特征，获取该第四声学特征对应的语音帧在每个采样点的预测信号值。基于获取到的预测信号值以及对应的第一语音样本，对基础声码器进行训练，以得到训练完成的目标声码器，从而提高获取到的合成语音数据的精确度。
96.在一种可能的实施方式中，由于基础声码器已经学习到了第二语音样本所属的非
目标发音人在发音时的共同特性了，后续在对基础声码器继续训练时，可以对该基础声码器的参数的参数值进行微调。基于此，预先对该基础声码器的学习率进行设置，后续在对基础声码器中参数的参数值进行调整时，根据该预先设置的学习率，可以有效控制每个参数的参数值调整的幅度，有利于更准确地确定何时该基础声码器达到预设的收敛条件(为了方便描述，记为第四收敛条件)。当基于上述的实施例获取到第四声学特征对应的语音帧在每个采样点的预测信号值后，基于获取到的预测信号值、对应的第一语音样本以及预设的学习率，对基础声码器的参数值进行微调。
97.由于包含有大量的用于训练基础声学模型的第一语音样本，针对每个第一语音样本，均执行上述对基础声码器进行训练的步骤，直到满足预设的第四收敛条件，确定获取到训练完成的目标声码器。
98.其中，满足预设的第四收敛条件可以为基于每个第一语音样本中每个音频帧在每个采样点的音频值及其通过当前已训练的基础声码器确定的对应的预测音频值，所确定的损失值的和小于预设的第四损失阈值，或对基础声码器进行训练的迭代次数达到预先设置的最大迭代次数(为了便于描述，将基础声码器训练的收敛条件中的最大迭代次数记为第四最大迭代次数)等。具体实施中可以灵活进行设置，在此不做具体限定。
99.在一种可能的实施方式中，在对基础声码器进行训练时，把第一语音样本分训练样本和测试样本，先基于训练样本对基础声码器进行训练，再基于测试样本对上述已训练的目标声码器的可靠程度进行验证。
100.实施例2：为了准确地合成目标发音人的某一语言的语音数据，在上述实施例的基础上，在本发明实施例中，在收集第二语音样本的过程中，可以获取多种语言的第二语音样本，以使得基于该多种语言(即两种或两种以上的语言)的第二语音样本所训练出的基础声学模型，可以合成多种语言的声学特征。
101.在一种可能的实施方式中，可以获取多个非目标发音人的一种或多种语言的第二语音样本，比如，获取到的第二语音样本分别为采用英语的样本1及样本2、采用中文的样本3以及采用韩语的样本4，样本1和样本3来自于发音人a，样本2来自于发音人b，样本4来自于发音人c；也可以获取每个非目标发音人的一种语言的第二语音样本，比如，获取到的第二语音样本分别为采用英语的样本1及样本2、采用中文的样本3以及采用韩语的样本4，样本1来自于发音人a，样本2来自于发音人b，样本4来自于发音人c以及样本3来自于发音人d。
102.为了指示声学模型预测某一语言的声学特征，在本发明实施例中，可以分别确定每个第二语音样本的语言所对应的语言标识信息。其中，该语言标识信息可以是数字、字符串等，也可以是其他形式的，只要可以唯一标识该种语言的表示形式均可用于本发明实施例中。具体实施过程中，可以根据实际需求进行灵活设置。
103.在一种可能的实施方式中，在训练原始声学模型时，获取到了任一第二语音样本的第二文本特征以及第二语音样本的发音人标识以后，还要获取该第二语音样本的语言标识信息。将该第二文本特征、发音人标识以及语言标识信息均输入到原始声学模型。通过原始声学模型，基于该第二文本特征、发音人标识以及语言标识信息，获取对应该发音人标识、语言标识信息及该第二文本特征的第三声学特征。其中，该第三声学特征可以理解为该发音人标识的发音人采用该语音标识信息的语音发出该第二文本特征的文本时的语音数据中的声学特征。后续基于该第三声学特征以及对应的第二声学特征，对该原始声学模型
的参数值进行调整，以得到训练完成的支持至少一种语言的基础声学模型。
104.而为了合成目标发音人至少一种语言的目标声学模型，在本发明实施例中，也尽可能的获取目标发音人的至少一种语言的第一语言样本。获取到目标发音人的第一语音样本后，根据该第一语音样本所采用的语言，确定该第一语音样本对应的语言标识信息，以基于该语言标识信息，对基础声学模型进行训练，获取该语言标识信息所对应的目标语言的目标声学模型。
105.在一种可能的实施方式中，当基于第一语音样本对基础声学模型进行训练时，获取到了任一第一语音样本的第一文本特征以及目标发音人的目标发音人标识以后，还要获取该第一语音样本的语言标识信息。将该第一文本特征、目标发音人标识以及语言标识信息均输入到基础声学模型。通过基础声学模型，基于该第一文本特征、目标发音人标识以及语言标识信息，获取对应该发音人标识、语言标识信息及该第一文本特征的第四声学特征。后续基于该第四声学特征以及其对应的第一声学特征，对该基础声学模型的参数值进行调整，以得到训练完成的该语言标识信息所对应的目标语言的目标声学模型。
106.实施例3：为了准确地训练目标发音人的目标声学模型，在上述各实施例的基础上，可通过如下方式确定目标发音人的目标发音人标识：
107.方式i、为目标发音人分配一个发音人标识。
108.其中，可以将预先设置的发音人标识分配给该目标发音人，也可以在确定目标发音人标识时，实时确定分配给该目标发音人的发音人标识，比如，在确定目标发音人标识时，随机确定一个发音人标识并分配给该目标发音人。
109.方式ii、可以获取目标发音人的至少一个目标身份特征，再根据预设的算法(比如，哈希算法)以及该至少一个目标身份特征，确定目标发音人标识。
110.在本发明实施例中，电子设备获取到的至少一个目标身份特征可以是其他设备发送的，也可以是自身采集的。
111.例如，目标发音人可以通过智能设备注册账户、向智能设备输入语音数据以注册目标发音人的声纹特征、以及向智能设备输入目标发音人的用户画像特征等方式，方便智能设备获取到该目标发音人的至少一个目标身份特征，从而将目标发音人希望定制语音合成模型的定制请求以及该至少一个目标身份特征均发送至用于模型训练的电子设备。电子设备接收到了目标发音人的定制请求后，可以根据获取到的至少一个目标身份特征，确定目标发音人标识。
112.其中，该目标身份特征包括用户画像特征，和/或，声纹特征。其中，用户画像特征可以是用户的性别、年龄、爱好、说话语速等至少一种特征。
113.方式iii、可以从非目标发音人中，选定某一非目标发音人的发音人标识作为目标发音人标识。
114.在一种可能的实施方式中，预设有匹配条件。对于每个非目标发音人，可以确定该目标发音人的身份特征是否满足预设的匹配条件。将身份特征满足预设的匹配条件的非目标发音人的发音人标识作为目标发音人标识。
115.具体的，由于不同的非目标发音人所采用的语言是不同的，在从非目标发音人中，选定某一非目标发音人的发音人标识作为目标发音人标识时，需要该非目标发音人所采用的语言中，应该包括目标发音人所采用的目标语言。因此，可以为了准确地确定目标发音人
标识，可以先从第二语音样本中，确定采用目标语言的目标语音样本。然后对于每个目标语音样本所对应的非目标发音人，确定该非目标发音人的身份特征是否满足预设的匹配条件。将身份特征满足预设的匹配条件的非目标发音人的发音人标识作为目标发音人标识。
116.作为一种可能的实施方式，预设的匹配条件可以包括如下的几种情况：
117.情况a、预设的匹配条件为非目标发音人与目标发音人之间相同的身份特征的数量大于预设的数量阈值。
118.具体的，对于每个非目标发音人，可以确定该非目标发音人与目标发音人之间相同的身份特征的数量。若该数量大于预设的数量阈值，则认为该非目标发音人的身份特征满足预设的匹配条件。后续将该非目标发音人的发音人标识确定为目标发音人标识。
119.其中，在设置数量阈值时，可以根据场景的不同，设置不同的值。如果希望非目标发音人与目标发音人相似，可以将该数量阈值设置的大一些，如果希望避免无法确定身份特征满足预设的匹配条件的非目标发音人的情况，可以将该数量阈值设置的小一些。
120.例如，若身份特征只包括用户画像特征，则可以针对每个目标语音样本所对应的非目标发音人，确定该非目标发音人的每个用户画像特征与对应的目标发音人画像特征是否相同，从而确定该非目标发音人与目标发音人之间相同的身份特征的数量，即确定该非目标发音人所对应的特征数量。比如，非目标发音人a的用户画像特征包括性别女、年龄23岁、爱好画画以及语速适中，目标发音人b的目标发音人画像特征包括性别女、年龄23岁、爱好运动以及语速较快，确定该非目标发音人a的性别女与目标发音人b的性别女相同，该非目标发音人a的年龄23岁与目标发音人b的年龄23岁相同，该非目标发音人a的爱好画画与目标发音人b的爱好运动不相同，该非目标发音人a的语速适中与目标发音人b的语速较快不相同，确定该非目标发音人a对应的特征数量为2。若确定该非目标发音人对应的特征数量大于预设的数量阈值，则可以将该非目标发音人的发音人标识确定为目标发音人标识。
121.情况b、预设的匹配条件为非目标发音人对应的特征数量为所有非目标发音人对应的特征数量中的最大值。
122.具体的，对于每个非目标发音人，可以确定该非目标发音人与目标发音人之间相同的身份特征的数量(记为特征数量)。获取到每个非目标发音人对应的特征数量后，可以确定特征数量最大值所对应的非目标发音人的身份特征满足预设的匹配条件。
123.情况c、预设的匹配条件为在每个第二语音样本所对应的非目标发音人中，该非目标发音人的声纹特征与目标发音人的目标声纹特征的相似度最大，和/或，该非目标发音人的声纹特征与目标发音人的目标声纹特征的相似度大于预设的相似度阈值。
124.其中，在设置相似度阈值时，可以根据场景的不同，设置不同的值。如果希望非目标发音人与目标发音人的音色相似，可以将该相似度阈值设置的大一些，如果希望避免无法确定身份特征满足预设的匹配条件的非目标发音人的情况，可以将该相似度阈值设置的小一些。
125.例如，若身份特征只包括声纹特征，则可以针对每个目标语音样本所对应的非目标发音人，确定该非目标发音人的声纹特征与目标发音人的目标声纹特征的相似度。若确定该非目标发音人的相似度大于预设的相似度阈值，则可以将该非目标发音人的发音人标识确定为目标发音人标识。
126.上述情况a～情况c可以任一情况单独应用，也可以将至少两种情况进行结合。比
如，预设的匹配条件为非目标发音人与目标发音人之间相同的身份特征的数量大于预设的数量阈值，且该非目标发音人的声纹特征与目标发音人的目标声纹特征的相似度大于预设的相似度阈值，也可以为非目标发音人对应的特征数量为所有非目标发音人对应的特征数量中的最大值，且该非目标发音人的声纹特征与目标发音人的目标声纹特征的相似度大于预设的相似度阈值等。
127.例如，若身份特征包括用户画像特征和声纹特征，则可以针对每个目标语音样本所对应的非目标发音人，确定该非目标发音人的每个用户画像特征与目标发音人对应的用户画像特征是否相同，从而确定该非目标发音人与目标发音人之间相同的身份特征的数量，即确定该非目标发音人所对应的特征数量。若确定该非目标发音人对应的特征数量大于预设的数量阈值，且该非目标发音人的声纹特征满足预设的相似度阈值，则可以将该非目标发音人的发音人标识确定为目标发音人标识。
128.在一种可能的实施方式中，若从非目标发音人中，确定身份特征满足预设的匹配条件的非目标发音人的数量为1，则可以直接将该非目标发音人的发音人标识确定为目标发音人标识。
129.在一种可能的实施方式中，若从非目标发音人中，确定身份特征满足预设的匹配条件的非目标发音人的数量大于1，则可以将确定的任一选定的非目标发音人的发音人标识确定为目标发音人标识。
130.在另一种可能的实施方式中，若从非目标发音人中，确定身份特征满足预设的匹配条件的非目标发音人的数量大于1，即存在至少两个选定的非目标发音人，则可以根据预设的非目标发音人的优先级，从选定的非目标发音人中，选择优先级最高的非目标发音人的发音人标识确定为目标发音人标识。
131.在本发明实施例中，任一非目标发音人的优先级可以是根据人工设置的方式确定，也可以是根据非目标发音人的第二语音样本的数量，和/或，非目标发音人对应的语言数量确定，其中，语言数量是指属于非目标发音人的第二语音样本所采用的语言的数量。
132.为了方便对本发明实施例提供的语音合成模型的训练方法进行说明，下面通过具体的实施例并结合附图2进行详细的介绍，图2为本发明实施例提供的具体的语音合成模型的训练过程示意图，如图2所示该语音合成模型的训练过程主要包括训练基础模型、声音定制两个部分，以执行主体为第一服务器为例，下面针对每个部分进行说明：
133.第一部分：训练基础模型
134.s201：第一服务器获取大量非目标发音人的第二语音样本。
135.在对原始语音合成模型进行训练的过程中，可以基于多人的语音数据训练该原始语音合成模型，比如，可以获取几百个非目标发音人的第二语音样本，且任一非目标发音人对应有几百句的第二语音样本。
136.在一种可能的实施方式中，为了使得训练的基础语音合成模型可以确定多种语言的声学特征，可以获取多种语言的第二语音样本，比如，获取到的第二语音样本中包括中文的第二语音样本以及英文的第二语音样本。
137.s202：第一服务器对获取到的第二语音样本进行特征提取。
138.由于后续在基于获取到的第二语音样本，训练原始语音合成模型(包括原始声学模型以及原始声码器)时，根据该原始声学模型以及原始声码器的输入和输出，从第二语音
样本提取到的特征包括第二语音样本的声学特征以及第二文本特征。其中，具体的对获取到的第二语音样本进行特征提取的过程已在上述实施例中进行描述，重复之处在此不做具体赘述。
139.s203：第一服务器基于获取到的第二语音样本以及s202提取到的特征，对原始语音合成模型进行训练，得到训练完成的基础语音合成模型。
140.其中，原始语音合成模型主要包括原始声学模型和原始声码器两个模型。在训练原始声学模型时，将s202提取到的第二文本特征、语言标识信息以及发音人标识当作原始声学模型的输入，通过该原始声学模型，确定对应该第二文本特征、语言标识信息以及发音人标识的声学特征。由于在对原始声学模型进行训练的过程中，还会基于语言标识信息以及发音人标识，对该原始声学模型进行训练，使得获取到的基础声学模型可以确定不同发音人发出不同语言时的声学特征中的规律。
141.在训练原始声码器时，将基础声学模型的输出结果，即基础声学模型确定的某一第二文本特征对应的声学特征作为输入。通过该原始声码器，基于输入的声学特征，确定该声学特征对应的语音帧在每个采样点的预测信号值。
142.通过上述的步骤，即可训练得到基础声学模型和基础声码，即获取到基础语音合成模型。经过大量非目标发音人的多种语言的第二语音样本所训练出的基础语音合成模型，不仅可以支持多发音人的语音合成，还能支持多种语言的语音合成。
143.第二部分：声音定制
144.s204：第一服务器获取目标发音人的第一语音样本。
145.其中，可以通过智能终端(如智能手机等)录制目标发音人少量的语音数据，比如，20句、25句左右，并将录制得到的语音数据，确定为后续用于训练基础语音合成模型的第一语音样本。
146.在一种可能的实施例中，获取到目标发音人通过智能终端录制的少量的语音数据后，可以先对该语音数据进行音频处理，比如，降噪处理和/或去混响处理，以得到干净的语音数据。然后对干净的语音数据进行数据扩充，如：使用音色转换技术去生成一批和用户音色相近的目标语音数据，或，目标发音人的至少两个语音数据(包括干净的语音数据以及目标语音数据)进行拼接处理，以使目标发音人的第一语音样本扩充到几百句级别。其中，具体的对干净的语音数据进行数据扩充的过程已在上述实施例中进行说明，重复之处不做赘述。
147.s205：第一服务器对获取到的第一语音样本进行特征提取。
148.由于后续在基于获取到的第一语音样本，训练基础语音合成模型(包括基础声学模型以及基础声码器)时，根据该基础声学模型以及基础声码器的输入和输出，从第一语音样本提取到的特征包括第一语音样本的声学特征以及第一文本特征。具体的对获取到的第一语音样本进行特征提取的过程已在上述实施例中进行描述，重复之处在此不做具体赘述。
149.在一种可能的实施方式中，为了指示声学模型预测目标发音人的声学特征，在本发明实施例中，可以确定目标发音人的目标发音人标识。具体的确定目标发音人标识的过程已在上述实施例中进行描述，重复之处在此不做具体赘述。
150.s206：第一服务器基于第一语音样本以及s205提取到的特征，对s203获取到的基
础语音合成模型进行训练，以获取目标发音人的目标语音合成模型。
151.在s203训练得到的基础声学模型的基础上，利用深度学习的迁移算法，对该基础声学模型的部分参数的参数值进行微调，以使训练得到的目标声学模型的输出结果更贴近目标发音人的真实语音数据的声学特征。同时由于基础声码器在还原除第二语音样本的非目标发音人之外的发音人的音色还原度，不如还原第二语音样本的非目标发音人的音色的还原度。因此，可以在s203获取到的基础声码器的基础上，也利用深度学习的迁移算法，对基础声码器的参数的参数值进行微调，以使通过已训练的目标声码器生成的合成语音数据更加贴近目标发音人真实发出的语音数据。
152.基于上述的步骤最终可以得到的目标声学模型和目标声码器，即获取到的目标语音合成模型。
153.实施例4：本发明实施例还提供了一种语音合成方法，图3为本发明实施例提供的一种语音合成过程的示意图，该过程包括：
154.s301：通过目标发音人的目标声学模型，基于待合成文本的文本特征和该目标发音人的目标发音人标识，获取待合成文本对应的至少一个目标声学特征。
155.s302：针对至少一个目标声学特征，通过目标声学模型对应的目标声码器，基于该目标声学特征，获取目标声学特征对应的语音帧在每个采样点的预测信号值。
156.s303：依次根据每个目标声学特征分别对应的语音帧在每个采样点的预测信号值，确定待合成文本对应的合成语音数据。
157.本发明实施例提供的语音合成方法应用于电子设备，该电子设备可以为如机器人等智能设备，也可以为服务器。其中，本发明实施例中进行语音合成的电子设备可以与上述进行语音合成模型训练的电子设备相同，也可以不同。
158.在一种可能的实施方式中，由于在进行语音合成模型训练的过程中，一般采用离线的方式，进行语音合成模型训练的。
159.当目标发音人希望声音定制时，可以通过在智能设备上输入合成请求，该合成请求中携带有待合成文本，以通过该合成请求可以控制智能设备合成该待合成文本对应的合成语音数据。其中，具体输入合成请求的方式有很多，比如，输入合成请求的方式可以是通过输入语音信息的方式输入，也可以对智能设备的显示屏上显示的虚拟按钮进行操作的方式输入等，具体实施过程中可以根据需求进行灵活设置，在此不做具体限定。当智能设备获取到合成请求后，可以将该合成请求以及目标发音人的身份信息发送至进行语音合成的电子设备。
160.其中，目标发音人的身份信息可以是通过目标发音人在智能设备上登录的账号确定，也可以通过目标发音人的面部或指纹图像确定，还可以通过目标发音人的声纹确定。具体的实施过程中可以根据实际需求进行灵活设置，在此不做具体限定。
161.进行语音合成的电子设备接收到该合成请求以及目标发音人的目标身份特征后，可以对该合成请求进行解析，获取该合成请求中携带的待合成文本。并根据预先保存的身份信息与发音人的标识信息的对应关系，确定目标发音人的身份信息所对应的目标发音人标识。再从预先训练的每个发音人标识的语音合成模型中，确定目标发音人标识的目标语音合成模型(包括目标声学模型和目标声码器)，即动态加载该目标发音人的目标语音合成模型。
162.例如，若进行语音合成的电子设备为服务器，则智能设备在获取到目标发音人输入的合成请求后，将该目标发音人的身份信息以及合成请求发送至服务器。服务器接收到合成请求后，对该合成请求进行解析，获取待合成文本。并根据预先保存的身份信息与发音人的标识信息的对应关系，确定该目标身份特征对应的标识信息。再从预先训练的每个发音人标识的语音合成模型中，确定目标发音人标识的目标语音合成模型。服务器提取该待合成文本的文本特征，并根据该文本特征以及目标语音合成模型，获取该目标发音人发出该待合成文本的合成语音数据并控制智能设备输出该合成语音数据。
163.需要说明的是，该目标发音人的目标合成模型的具体训练过程已在上述实施例进行描述，重复之处不做赘述。
164.当基于上述的实施例获取到目标语音合成模型后，通过目标发音人的目标声学模型，基于待合成文本的文本特征以及目标发音人的目标发音人标识，获取待合成文本对应的至少一个目标声学特征。
165.在一种可能的实施方式中，预先训练的目标语音合成模型可以合成目标发音人的至少一种语言的合成语音数据。因此，为了准确地合成目标语言的合成语音数据，当获取到待合成文本的文本特征后，可以通过预先保存的文本特征与语言的对应关系，确定该文本特征对应的语言，即该待合成文本的目标语言。根据语言与标识信息的对应关系，确定该目标语言的语言标识信息。在将待合成文本的目标语言、目标发音人标识输入到目标声学模型的同时，也将语言标识信息输入到目标声学模型中。通过该目标声模型，基于该目标语言的语言标识信息，获取待合成文本对应的至少一个目标声学特征；其中，目标声学模型支持合成目标语言的声学特征。
166.针对获取到的至少一个目标声学特征，通过该目标声学模型所对应的目标声码器，基于该目标声学特征，获取该目标声学特征对应的语音帧在每个采样点的预测信号值。依次根据每个目标声学特征分别对应的语音帧在每个采样点的预测信号值，确定待合成文本对应的合成语音数据。
167.下面结合附图2对本发明实施例提供的语音合成方法进行介绍，如图2所示，图中除了包含有训练基础模型、声音定制这两个部分之外，还包含有声音合成部分。由于在进行目标语音合成模型训练的过程中，一般采用离线的方式，进行模型训练的电子设备(比如，第一服务器)预先基于s201～s207的步骤，获得训练完成的目标语音合成模型。后续进行语音合成的电子设备(比如，第二服务器)可以获取基于上述实施例中训练完成的目标语音合成模型进行语音合成。其中，进行模型训练的电子设备与进行语音合成的电子设备可以相同，也可以不同，在此不作具体限定。现以进行模型训练的电子设备为第一服务器，进行语音合成的电子设备为第二服务器，第一服务器和第二服务器不同为例，对本发明实施例提供的语音合成方法进行详细的介绍：
168.s207：第二服务器从第一服务器获取目标发音人的目标语音合成模型并保存。其中，目标语音合成模型包括目标声学模型和目标声码器。
169.s208：第二服务器获取目标发音人输入的待合成文本，例如“北京天气怎么样”。
170.s209：第二服务器获取目标发音人标识以及待合成文本“北京天气怎么样”的文本特征。
171.具体的，第二服务器获取目标发音人标识以及待合成文本“北京天气怎么样”的文
本特征的过程已在上述实施例中进行说明，在此不做赘述。
172.s210：第二服务器通过目标发音人的目标声学模型，基于目标发音人标识和待合成文本的文本特征，获取待合成文本对应的至少一个目标声学特征。
173.s211：第二服务器通过目标声学模型对应的目标声码器以及至少一个目标声学特征，获取待合成文本对应的合成语音数据。
174.需要说明的是，具体的通过目标声学模型对应的目标声码器以及至少一个目标声学特征，获取待合成文本对应的合成语音数据的过程也已经在上述实施例中进行说明，在此不做赘述。
175.第二服务器获取到合成语音数据后，可以将该合成语音数据发送至智能设备，以使智能设备可以将接收到的合成语音数据输出。
176.实施例5：本发明实施例还提供了一种语音合成模型的训练装置，图4为本发明实施例提供的一种语音合成模型的训练装置的结构示意图，该装置包括：
177.获取单元41，用于获取目标发音人的第一语音样本和非目标发音人的第二语音样本；
178.第一训练单元42，用于基于第二语音样本的第二文本特征及该第二语音样本的声学特征，对原始声学模型进行训练，得到基础声学模型，并通过基础声学模型，确定第二文本特征的声学特征；基于该第二文本特征的声学特征及该第二文本特征对应的第二语音样本，对基础声码器进行训练，得到基础声码器；
179.第二训练单元43，用于基于第一语音样本的第一文本特征、目标发音人的目标发音人标识以及第一语音样本的声学特征，对基础声学模型进行训练，以获取目标发音人的目标声学模型；以及通过目标声学模型，确定第一文本特征的声学特征；基于第一文本特征的声学特征以及该第一文本特征对应的第一语音样本，对基础声码器进行训练，以获取目标发音人的目标声码器。
180.在一种可能的实施方式中，第一语音样本还对应有用于标识该第一语音样本所采用的语言的语言标识信息；
181.第二训练单元43，具体用于基于语言标识信息，对基础声学模型进行训练，以获取该语言标识信息所对应的目标语言的目标声学模型。
182.在一种可能的实施方式中，装置还包括：预处理单元；
183.预处理单元，用于通过如下任一种方式确定目标发音人标识：
184.根据目标发音人的至少一个目标身份特征，确定目标发音人标识；
185.从非目标发音人中，选择身份特征满足预设的匹配条件的非目标发音人，并将选定的非目标发音人的发音人标识，确定为目标发音人标识。
186.在一种可能的实施方式中，预处理单元，具体用于通过如下至少一种方式确定非目标发音人的身份特征满足预设的匹配条件：
187.若非目标发音人与目标发音人之间相同的身份特征的数量大于预设的数量阈值，则确定非目标发音人的身份特征满足匹配条件；
188.若非目标发音人对应的特征数量为所有非目标发音人对应的特征数量中的最大值，则确定非目标发音人的身份特征满足匹配条件；特征数量为非目标发音人与目标发音人之间相同的身份特征的数量。
189.在一种可能的实施方式中，预处理单元，具体用于从第二语音样本中，确定采用目标语言的目标语音样本；从目标语音样本对应的非目标发音人中，选择身份特征满足预设的匹配条件的非目标发音人。
190.在一种可能的实施方式中，预处理单元，具体用于若存在至少两个选定的非目标发音人，则根据预设的非目标发音人的优先级，从选定的非目标发音人中，选择优先级最高的非目标发音人的发音人标识确定为目标发音人标识。
191.在一种可能的实施方式中，获取单元41，具体用于通过如下一项或多项方式获取第一语音样本：
192.将录制得到的目标发音人的语音数据，确定为第一语音样本；
193.通过音色转换技术，将非目标发音人的语音数据，转换为目标发音人的目标语音数据，并将得到的目标语音数据，确定为第一语音样本；
194.对目标发音人的至少两个语音数据进行拼接处理，并将拼接处理得到的语音数据确定为第一语音样本；其中，语音数据包括录制得到的目标发音人的语音数据、和/或通过音色转换技术得到的目标语音数据。
195.在一种可能的实施方式中，获取单元41，具体用于通过智能终端录制得到目标发音人的原始语音数据；对原始语音数据进行音频处理，并将音频处理后的语音数据确定为第一语音样本，其中，音频处理包括降噪处理、和/或去混响处理。
196.在一种可能的实施方式中，第二训练单元43，具体用于通过基础声码器，基于第四声学特征，获取该第四声学特征对应的语音帧在每个采样点的预测信号值；基于预测信号值、第一语音样本以及预设的学习率，对基础声码器的参数的参数值进行微调。
197.实施例6：本发明实施例还提供了一种语音合成装置，语音合成模型包括目标声学模型和目标声码器，图5为本发明实施例提供的一种语音合成装置的结构示意图，该装置包括：
198.第一处理模块51，用于通过目标发音人的目标声学模型，基于待合成文本的文本特征和目标发音人的目标发音人标识，获取待合成文本对应的至少一个目标声学特征；
199.第二处理模块52，用于针对至少一个目标声学特征，通过目标声学模型对应的目标声码器，基于该目标声学特征，获取目标声学特征对应的语音帧在每个采样点的预测信号值；
200.确定模块53，用于依次根据每个目标声学特征分别对应的语音帧在每个采样点的预测信号值，确定待合成文本对应的合成语音数据。
201.在一种可能的实施方式中，第一处理模块51，具体用于通过目标声学模型，基于目标语言的语言标识信息，获取待合成文本对应的至少一个目标声学特征；其中，目标声学模型支持合成目标语言的声学特征。
202.实施例7：在上述实施例的基础上，本发明实施例还提供了一种电子设备，图6为本发明实施例提供的一种电子设备的结构示意图，如图6所示，包括：处理器61、通信接口62、存储器63和通信总线64，其中，处理器61，通信接口62，存储器63通过通信总线64完成相互间的通信；
203.存储器63中存储有计算机程序，当程序被处理器61执行时，使得处理器61执行如下步骤：
204.获取目标发音人的第一语音样本和非目标发音人的第二语音样本；基于第二语音样本的第二文本特征及该第二语音样本的声学特征，对原始声学模型进行训练，得到基础声学模型，并通过基础声学模型，确定第二文本特征的声学特征；基于该第二文本特征的声学特征以及该第二文本特征对应的第二语音样本，对基础声码器进行训练，得到基础声码器；基于第一语音样本的第一文本特征、目标发音人的目标发音人标识以及第一语音样本的声学特征，对基础声学模型进行训练，以获取目标发音人的目标声学模型；以及通过目标声学模型，确定第一文本特征的声学特征；基于该第一文本特征的声学特征以及该第一文本特征对应的第一语音样本，对基础声码器进行训练，以获取目标发音人的目标声码器。
205.由于上述电子设备解决问题的原理与语音合成模型训练方法相似，因此上述电子设备的实施可以参见方法的实施例1-3，重复之处不再赘述。
206.实施例8：在上述实施例的基础上，本发明实施例还提供了一种电子设备，图7为本发明实施例提供的再一种电子设备的结构示意图，如图7所示，包括：处理器71、通信接口72、存储器73和通信总线74，其中，处理器71，通信接口72，存储器73通过通信总线74完成相互间的通信；
207.存储器73中存储有计算机程序，当程序被处理器71执行时，使得处理器71执行如下步骤：
208.通过目标发音人的目标声学模型，基于待合成文本的文本特征和目标发音人的目标发音人标识，获取待合成文本对应的至少一个目标声学特征；针对至少一个目标声学特征，通过目标声学模型对应的目标声码器，基于该目标声学特征，获取目标声学特征对应的语音帧在每个采样点的预测信号值；依次根据每个目标声学特征分别对应的语音帧在每个采样点的预测信号值，确定待合成文本对应的合成语音数据。
209.由于上述电子设备解决问题的原理与语音合成方法相似，因此上述电子设备的实施可以参见方法的实施例4，重复之处不再赘述。
210.上述电子设备提到的通信总线可以是外设部件互连标准(peripheral component interconnect，pci)总线或扩展工业标准结构(extended industry standard architecture，eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口72用于上述电子设备与其他设备之间的通信。存储器可以包括随机存取存储器(random access memory，ram)，也可以包括非易失性存储器(non-volatile memory，nvm)，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。
211.上述处理器可以是通用处理器，包括中央处理器、网络处理器(network processor，np)等；还可以是数字指令处理器(digital signal processing，dsp)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
212.实施例9：在上述各实施例的基础上，本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质内存储有可由处理器执行的计算机程序，当程序在处理器上运行时，使得处理器执行时实现如下步骤：
213.获取目标发音人的第一语音样本和非目标发音人的第二语音样本；基于第二语音样本的第二文本特征及该第二语音样本的声学特征，对原始声学模型进行训练，得到基础
声学模型，并通过基础声学模型，确定第二文本特征的声学特征；基于该第二文本特征的声学特征以及该第二文本特征对应的第二语音样本，对基础声码器进行训练，得到基础声码器；基于第一语音样本的第一文本特征、目标发音人的目标发音人标识以及该第一语音样本的声学特征，对基础声学模型进行训练，以获取目标发音人的目标声学模型；以及通过目标声学模型，确定第一文本特征的声学特征；基于该第一文本特征的声学特征以及该第一文本特征对应的第一语音样本，对基础声码器进行训练，以获取目标发音人的目标声码器。
214.由于上述计算机可读存储介质解决问题的原理与语音合成模型训练方法相似，因此上述计算机可读存储介质的实施可以参见方法的实施1-3，重复之处不再赘述。
215.实施例10：在上述各实施例的基础上，本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质内存储有可由处理器执行的计算机程序，当程序在处理器上运行时，使得处理器执行时实现如下步骤：
216.通过目标发音人的目标声学模型，基于待合成文本的文本特征和目标发音人的目标发音人标识，获取待合成文本对应的至少一个目标声学特征；针对至少一个目标声学特征，通过目标声学模型对应的目标声码器，基于该目标声学特征，获取目标声学特征对应的语音帧在每个采样点的预测信号值；依次根据每个目标声学特征分别对应的语音帧在每个采样点的预测信号值，确定待合成文本对应的合成语音数据。
217.由于上述计算机可读存储介质解决问题的原理与语音合成方法相似，因此上述计算机可读存储介质的实施可以参见方法的实施例4，重复之处不再赘述。
218.本领域内的技术人员应明白，本技术的实施例可提供为方法、系统、或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
219.本技术是参照根据本技术的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
220.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
221.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
222.显然，本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样，倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围
之内，则本技术也意图包含这些改动和变型在内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：用于处理嵌入在MPEG-H3D音频流中的辅媒体流的方法及设备与流程

模型训练和语音合成方法、装置、设备及介质与流程

相关文献

最热文献