语音合成模型训练和语音合成方法、设备及存储介质与流程

2021-08-24 16:08:00 来源：中国专利 TAG：语音合成人工智能模型训练申请

本申请涉及人工智能技术领域，尤其涉及一种语音合成模型训练和语音合成方法、设备及存储介质。

背景技术：

随着人工智能技术的发展，人机对话逐渐进入人们的生活，常见的应用场景包括：智能客服机器人、智能音箱、聊天机器人等。人机对话的核心在于机器能够在所构建的系统框架下，根据事先训练或学习的数据，自动对用户输入的语音或文本进行理解和分析，并给出相应的语音答复。在现有技术中，机器主要语音合成技术实现语音答复。

但是，现有的语音合成技术合成的语音经常有一定的机械感，语言衔接不自然，用户体验较差。

技术实现要素：

本申请的多个方面提供一种语音合成模型训练和语音合成方法、设备及存储介质，用以提高语音合成时语言之间的衔接的自然度，进而降低语音合成的机械感。

本申请实施例提供一种语音合成模型训练方法，包括：

获取多个文本样本；并利用第一语音合成模型，合成所述多个文本样本对应的多个音频样本；

利用所述多个文本样本及所述多个音频样本进行模型训练，以得到第二语音合成模型；

其中，所述第一语音合成模型可合成待合成文本中属于设定文本的文本片段的音频；所述第二语音合成模型可合成所述待合成文本中不属于所述设定文本的文本片段的音频。

本申请实施例还提供一种语音合成方法，包括：

获取待合成文本；

从所述待合成文本中，识别出第一文本片段和第二文本片段，所述第一文本片段对应的音频已由第一语音合成模型预先合成；

利用第二语音合成模型，合成所述第二文本片段对应的音频；所述第二语音合成模型是以所述第一语音合成模型合成的音频作为样本训练得到的；

对所述第一文本片段对应的音频和第二文本片段对应的音频进行拼接，以得到所述待合成文本的音频。

本申请实施例还提供一种计算机设备，包括：存储器和处理器；其中，所述存储器，用于存储计算机程序；

所述处理器耦合至所述存储器，用于执行所述计算机程序以用于：

获取多个文本样本；并利用第一语音合成模型，合成所述多个文本样本对应的多个音频样本；

利用所述多个文本样本及所述多个音频样本进行模型训练，以得到第二语音合成模型；

本申请实施例还提供一种计算机设备，包括：存储器和处理器；其中，所述存储器，用于存储计算机程序；

所述处理器耦合至所述存储器，用于执行所述计算机程序以用于：

获取待合成文本；

从所述待合成文本中，识别出第一文本片段和第二文本片段，所述第一文本片段对应的音频已由第一语音合成模型预先合成；

利用第二语音合成模型，合成所述第二文本片段对应的音频；所述第二语音合成模型是以所述第一语音合成模型合成的音频作为样本训练得到的；

对所述第一文本片段对应的音频和第二文本片段对应的音频进行拼接，以得到所述待合成文本的音频。

本申请实施例还提供一种存储有计算机指令的计算机可读存储介质，当所述计算机指令被一个或多个处理器执行时，致使所述一个或多个处理器执行上述语音合成模型训练方法和/或语音合成方法中的步骤。

在本申请实施例中，利用第一语音合成模型合成的音频样本来训练第二语音合成模型，这种模型训练方法得到的第二语音合成模型，在与第一语音合成模型配合来合成待合成文本的音频时，可使两种模型得到音频片段衔接更加自然，有助于提高合成语音的自然度和流畅度，使得两种模型配合得到的音频更像同一个人说话。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1a为本申请实施例提供的一种语音合成模型训练方法的流程示意图；

图1b为本申请实施例提供的一种参数合成模型训练方法的流程示意图；

图1c为本申请实施例提供的一种端到端模型训练方法的流程示意图；

图2为本申请实施例提供的另一种语音合成模型训练方法的流程示意图；

图3为本申请实施例提供的一种语音合成方法的流程示意图；

图4和图5为本申请实施例提供的计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

针对现有的语音合成技术合成的语音有一定的机械感，语言衔接不自然的技术问题，在本申请一些实施例中，利用第一语音合成模型合成的音频样本来训练第二语音合成模型，这种模型训练方法得到的第二语音合成模型，在与第一语音合成模型配合来合成待合成文本的音频时，可使两种模型合成的音频片段衔接更加自然，有助于提高合成语音的自然度和流畅度，使得两种模型配合得到的音频更像同一个人说话。

以下结合附图，详细说明本申请各实施例提供的技术方案。

应注意到：相同的标号在下面的附图以及实施例中表示同一物体，因此，一旦某一物体在一个附图或实施例中被定义，则在随后的附图和实施例中不需要对其进行进一步讨论。

图1a为本申请实施例提供的一种语音合成模型训练方法的流程示意图。

如图1a所示，该方法包括：

101、获取多个文本样本。

102、利用第一语音合成模型，合成多个文本样本对应的多个音频样本。

103、利用多个文本样本及多个音频样本进行模型训练，以得到第二语音合成模型。

在本实施例中，多个是指2个或2个以上。在本实施例中，不限定文本样本的具体数量和实现形式。其中，一个文本样本可以为一个字、一个词语、一个短语、一句话、一段话或一篇文章等等，但不限于此。

在本实施例中，第一语音合成模型和第二语音合成模型的初始模型架构不同，两种方式进行语音合成时各有优劣。为了更好地发挥第一语音合成模型和第二语音合成模型的优势，实现优劣互补，在本实施例中，可利用第一语音合成模型合成待合成样本中属于设定文本的文本片段的音频；并利用第二语音合成模型可合成待合成文本中不属于设定文本的文本片段的音频。在本申请实施例中，为了便于描述和区分，将待合成文本中属于设定文本的文本片段定义为第一文本片段，并待合成文本中将不属于设定文本的文本片段定义为第二文本片段。其中，第一文本片段和第二文本片段的数量，均由待合成文本的具体内容实现。

在一些实施例中，设定样本可以指在语音合成所应用的场景中经常会使用到的高频词汇。例如，在天气预报的应用场景中，设定样本可以为气象、穿衣指南或者固定用语等；在交通运输的应用场景中，设定样本可以为报站时的问候语、开场语、结束语等，如“下一站是”、“前方到站”、“请留意身边的老人、小孩、孕妇以及其他需要帮助的乘客”等等，而对于具体的站名则枚举量比较大，可不属于设定样本。

在另一些实施例中，设定样本可以为属性值可以枚举的词汇。例如，时间“今天、明天、后天”、四季“春夏秋冬”、国家、城市名称等等。对于不可枚举的词汇可以为数字、温度、站名等等。在又一些实施例中，设定样本可以为发音标准的词汇。对于一些语气词、语气助词、拟声词等可视为发音不标准的词汇，例如“哎呦喂”、“哦呵呵”“嗦嗦”、“啦啦”等等，但不限于此。

下面以一个具体的文本样本为例，对设定样本进行示例性说明。假设文本样本为“明天a城市晴转多云，气温变化不大，预计市区最高气温在20度左右，夜间受冷空气影响，气温开始下降，最低温度在15度左右”。对于这段文字，诸如“晴转多云”、“气温变化不大”、“预计市区最高温度”“夜间受冷空气影响”、“气温开始下降”、“最低温度”这些经常使用的情景用语可设置为设定文本；对于“明天”和“a城市”这些可枚举的词汇也可设置为设定文本；由于温度值千变万化，因此“20度”和“15度”无法进行枚举，不属于设备文本，上述文段中其它不成整句的部分也可不属于设定文本。

对于设定文本，可预先利用第一语音合成模型进行合成而预设在电子设备中，这样在进行语音合成时，便可直接从预设的音频库中索引中待合成文本中属于设定文本的第一文本片段的音频，有助于提高语音合成效率。对于待合成文本中不属于设定文本的第二文本片段则可利用第二语音合成样本实时合成对应的音频；之后，将第一文本片段的音频和第二文本片段的音频进行拼接，得到待合成文本的音频。这样，有助于提高语音合成效率。但是，由于第一语音合成模型和第二语音合成模型合成音频的原理不同，导致第一文本片段的音频和第二文本片段的音频进行拼接，得到的待合成文本的音频在拼接处过渡不自然，听起来像不同的人在说话，机械感较强，用户体验较差。

为了解决上述问题，在本实施例中，利用第一语音合成模型合成多个文本样本对应的多个音频样本，之后，利用多个文本样本以及利用第一语音合成模型合成的多个音频样本进行模型训练，得到第二语音合成模型。由于第二语音合成模型是以利用第一语音合成模型合成的多个音频样本为样本进行模型训练得到的，因此在本实施得到的第二语音合成合成第二文本片段的音频，与第一语音合成模型合成的第一文本片段的音频发音、音调、音量等音质的一致性较高，进而拼接得到的待合成文本的音频衔接自然，更像同一个人在说话。

在本实施例中，利用第一语音合成模型合成的音频样本来训练第二语音合成模型，这种模型训练方法得到的第二语音合成模型，在与第一语音合成模型配合来合成待合成文本的音频时，可使两种模型合成的音频片段衔接更加自然，有助于提高合成语音的自然度和流畅度，使得两种模型配合得到的音频更像同一个人说话。

另一方面，由于第二语音合成模型训练所使用的音频样本是利用第一语音合成模型合成的，无需人工录制，可降低音频样本的录制成本。即便在新的应用场景中，也可快速得到音频样本，有助于提高第二语音合成模型的训练效率，从而有助于降低后续扩充音频库的成本和难度。

在本申请实施例中，第一语音合成模型和第二语音合成模型均可包括：前端预测模块和后端语音合成模块。其中，前端预测模块对文本样本进行语言学预测，得到文本样本的文本特征。其中，文本特征包括：文本样本的分词、发音与韵律标注等，其中文本样本的发音又可称为文本样本对应的音素序列。对于中文来说，音素可为拼音，对于英文来说，音素为音标。可选地，前端预测模型可对文本进行分词和标注。其中，分词会将文本切成一个个词语，标注则会注明每个字的发音以及哪里是重音、哪里需要停顿等韵律信息；然后根据分词和标注的结果提取文本特征。后端语音合成模块可根据文本的文本特征通过不同的波形生成方法得到文本对应的音频。在本申请各实施例中，模型训练主要是指对后端语音合成模块进行训练。

在本申请实施例中，前端预测模块可使用前端预测模型，对文本样本进行语音学预测。优选地，第一语音合成模型和第二语音合成模型采用相同的前端预测模型进行语言学特征预测，这样不仅有助于进一步提高第二语音合成模型的训练效率，而且可进一步提高后续利用第一语音合成模型和第二语音合成模型配合获得待合成文本的音频的衔接度，使得合成的音频更自然。

在本申请实施例中，不限定前端预测模型的实现形式。可选地，前端预测模型可采用决策树模型、隐马尔切夫(hiddenmarkovmodel，hmm)模型、高斯混合(gaussianmixturemodel，gmm)模型或最大熵分类器等等，但不限于此。

在本申请实施例中，不限定第一语音合成模型和第二语音合成模型的具体实现形式。优选地，第一语音合成模型中的后端语音合成模块采用端到端模型。这样因为，端到端模型合成的语音比较接近于原音，且比较流畅，但是端到端方式合成语音速度较慢，不适合进行实时合成，因此可利用端到端模型合成设定样本的音频。其中，端到端模型是指从输入端到输出端会得到一个预测结果，与真实结果相比较会得到一个误差，这个误差会在该模型中的每一层传递(反向传播)，每一层的表示都会根据这个误差来做调整，直到模型收敛或达到预期的效果才结束。在本实施例中，不限定端到端模型的具体实施相似，例如，可采用tacotron模型和wavenet模型相结合的端到端模型。

在一些实施例中，考虑到人说话的语速有所差异，还可在第一语音合成模型合成的多个音频样本中加入随机因子，得到多个修正后的音频样本。进一步，在步骤103中，利用多个文本样本及多个修正后的音频样本进行模型训练，以得到第二语音合成模型。这样，在利用第二语音合成模型合成待合成文本中的不属于设定文本片段的第二文本片段时，可使第二文本片段的音频有语速快慢差异。对于第二语音合成模型的后端语音合成模块可采用波形拼接技术进行实现，这是因为波形拼接技术合成语音速度较快，且接近于原音；但是波形拼接技术韵律技术不够流畅。因此，可采用波形拼接技术构建第二语音合成模型，来合成不属于设定样本的文本片段。

在本申请实施例中，在合成多个音频样本时，可将多个文本样本输入第一语音合成模型。在第一语音合成模型中，可对多个文本样本进行语言学特征预测，以得到多个文本样本的文本特征；进一步根据多个文本样本的文本特征，合成多个音频样本。其中，多个文本样本的文本特征可由前端预测模型分析得到；合成多个音频样本的过程可由后端语音合成模块实现。

进一步，在语音合成模型中，可对多个文本样本的文本特征进行声学分析，得到多个文本样本的第二声学特征；并根据多个文本样本的第二声学特征，合成多个音频样本。

可选地，第一语音合成模型的后端语音合成模块可由声学特征提取层和波形生成层形成。其中，声学特征可为文本样本对应的频谱特征、时长特征、基频特征等。可选地，声学特征提取层采用的声学特征提取模型不同，提取的第二声学特征不同。若第一语音合成模型声学特征提取层采用tacotron模型，波形生成层采用wavenet模型，则第二声学特征可为多个文本样本的频谱特征，相应地，在合成多个音频样本时，可对多个文本样本的频谱特征进行时域波形还原，进而得到多个音频样本。

进一步，多个文本样本可包括：第一文本样本和第二文本样本。在本实施例中，可利用第二文本样本构建第二语音合成模型的音频库；并利用第一文本样本对第二语音合成模型的后端语音合成模块进行训练。为了便于描述和区分，在本申请实施例中，将第一文本样本对应的音频样本，定义为第一音频样本；并将第二文本样本对应的音频样本定义为第二音频样本。在本申请实施例中，不限定第一文本样本和第二文本样本的内容、数量以及包含的文字的数量。优先地，第二文本样本为多个，每个第二文本可包含至少一个文字。

可选地，第二语音合成模型的后端语音合成模块可采用波形拼接技术实现。由于波形拼接技术在合成文本的音频时，需要在音频库中索引出该文本对应的各文本片段的波形片段，因此，第二文本样本包含第一文本样本。其中，第二文本样本包含第一文本样本是指：第二文本样本可包含连续的第一文本样本，也可包含第一文本样本的文本片段。

在本实施例中，可对第二音频样本进行声学分析，得到第二音频样本的声学特征；并利用第二音频样本及其声学特征，构建第二语音合成模型中的音频库。在本实施例中，不限定对第二音频样本进行声学分析的具体实施方式。优选地，可采用语音识别技术中的声学模型对第二音频样本进行声学分析。这是因为第二音频样本为第一语音合成模型合成的音频，而非人工录制，这些音频样本的音质可不受录音人的状况的影响。可选地，可混合高斯模型-隐马尔科夫模型(gmm-hmm)或深度神经网络-隐马尔科夫模型(cd-dnn-hmm)作为声学模型对第二音频样本进行声学分析，得到第二音频样本的声学特征。可选地，第二音频的声学特征可为频谱特征、基频特征和时长特征等，其中，频谱特征可采用梅尔倒谱系数(mel-frequencycepstralcoefficient，mfcc)和线性感知预测(perceptuallinearprediction,plp)系数等等，但不限于此。

进一步，可利用第一文本样本的文本特征、第一音频样本以及音频库进行模型训练，得到所第二语音合成模型中的参数合成模型。可选地，参数合成模型可为hmm模型、gmm模型等，但不限于此。

可选地，为了提高训练效率，保证第一文本样本及其对应的第一音频样本的时间上的一致性，还可对第一音频样本进行音素切分，进而得到第一音频样本的音素切分信息。其中，音素切分是指标注各个音素的起始和结束时间。可选地，可采用语音识别技术中的声学模型对第一音频样本进行音素切分，这样不仅对同样的上下文的音素作出的切分预测具有更好一致性；而且和人工标注相比，利用语音识别技术中的声学模型可不受人工的时间和工作环境限制，有助于提高音素切分的准确性。

可选地，可采用维特比(viterbi)切分方法、baum-welch切分方法等对第一音频样本进行音素切分。

进一步，可将第一文本样本的文本特征与其音素切分信息进行时间对齐，得到第一文本样本的对齐后的文本特征；并利用对齐后的文本特征、第一音频样本以及音频库进行模型训练，以得到参数合成模型。

进一步，在本申请实施例中，可以第一损失函数最小化为训练目标，利用对齐后的文本特征和音频库进行模型训练，得到所述参数合成模型；其中第一损失函数是根据参数合成模型训练得到的音频与第一音频样本确定的。

可选地，参数合成模型包括：声学特征提取层和拼接层。在对参数合成模型进行训练时，可将对齐后的文本特征输入处于训练阶段的声学特征提取层，得到第一文本样本的第一声学特征，并将第一声学特征输入拼接层；在拼接层，可利用第一声学特征在音频库中进行索引，以得到参数合成模型训练得到的音频。

可选地，在拼接层利用第一声学特征在音频库中索引出第一文本样本对应的各文本片段，之后可对第一文本样本的文本片段各自对应的音频片段进行拼接，得到参数合成模型训练得到的音频。可选地，可采用基音同步叠加(pitchsynchronizedoverlap-add，psola)算法、时域基音同步叠加(time-domainpitchsynchronizedoverlap-add，td-psola)、频域基音同步叠加(frequency-domainpitchsynchronizedoverlap-add，fd-psola)、线性预测基音同步叠加(linearpredictionpitchsynchronizedoverlap-addlp-psola)或波形相似叠加法(waveformsimilarityoverlap-and-add,wsola)等方法，对第一文本样本的文本片段各自对应的音频进行拼接，得到参数合成模型训练得到的音频。

进一步，为了使合成的音频更加平滑，减少拼接边界处的噪声，可对拼接得到的音频进行平滑处理，得到参数合成模型训练得到的音频。这样，有助于消除拼接边界处的不连续，有助于进一步提高合成语音的自然度。可选地，可采用最佳联合法、波形插值法、线性预测参数插值法、连续效应法、基于傅里叶变换的频谱平滑方法或基于时域的平滑方法等等，对音频拼接边界处进行平滑处理，但不限于此。

进一步，可将参数合成模型训练得到的音频和第一音频样本带入第一损失函数，得到参数合成模型训练得到的音频与第一音频样本之间的误差。可选地，可采用参数合成模型训练得到的音频与第一音频样本的交叉熵表示第一损失函数。或者，可计算参数合成模型训练得到的音频与第一音频样本的相关性，相应地，第一损失函数也可表示为参数合成模型训练得到的音频与第一音频样本的相关性与1差值的绝对值。

为了更清楚地说明上述参数合成模型的训练过程，下面结合图1b对本实施例提供的参数合成模型训练过程进行示例性说明。参数合成模型训练过程的主要步骤如下：

s1：将对齐后的文本特征输入初始声学特征提取层，得到第一文本样本的第一声学特征。

s2：将第一声学特征输入初始拼接层，在初始拼接层，利用第一声学特征在音频库中进行索引，以得到参数合成模型训练得到的音频。

s3：将参数合成模型训练得到的音频和第一音频样本输入第一损失函数，计算第一损失函数值。

s4：计算本次计算出的第一损失函数值与最近w次计算出的第一损失函数值的变化幅度。其中，w为大于或等于2的整数，其具体取值可进行灵活设备。例如，w可等于5、8、10等，但不限于此。

s5：判断计算出的变化幅度是否小于或等于预设的变化幅度阈值。若判断结果为是，则执行步骤s7；若判断结果为否，则执行步骤s6。

s6：沿声学特征提取层和拼接层的至少一部分参数的负梯度方向调整至少一部分网络中的参数，并将调整后的声学特征提取层和拼接层分别作为初始声学特征提取层和初始拼接层，并返回执行步骤s1。

优选地，可沿声学特征提取层和拼接层的所有参数的负梯度方向调整所有网络中的参数。

s7：将当前声学特征提取层和拼接层分别作为声学特征提取层和拼接层，进而得到参数合成模型。

进一步，在利用第一文本样本及其第一音频样本训练得到参数合成模型之后，还可计算参数合成模型训练得到的音频与第一音频样本之间的相似性；若计算出的相似性不满足设定的相似条件，则替换新的文本样本作为第一文本样本，并重复执行上述参数合成模型训练过程，直至参数合成模型训练得到的音频与第一音频样本之间的相似性满足设定的相似条件。可选地，该过程可位于步骤s7之后，也可与步骤s3-s7并行执行。若上述过程位于步骤s7之后，可重复执行上述步骤s1-s7，直至参数合成模型训练得到的音频与第一音频样本之间的相似性满足设定的相似条件。可选地，新的文本样本的数据量大于第一文本样本的数据量；和/或，新的文本样本的数据分布与第一文本样本的数据分布不同。其中，文本样本的数据分布是指音节和韵律分布，例如“l-a”和“h-a”中，字母“a”的发音分布是不同的。

可选地，参数合成模型训练得到的音频与第一音频样本之间的相似性可由uv误差率(unvoiceerror)、ffe误差率以及平均倒谱失真(meancepstraldistortion，mcd)系数等评价指标进行表示，但不限于此。其中，uv误差率是指：uv维输出值为0的帧数与参数合成模型训练得到的音频的总帧数的比值，ffe误差率是指：uv误差率与基频预测误差大于或等于设定的误差阈值的帧数与参数合成模型训练得到的音频的总帧数的比值之和，即ffeerror＝uverror (基频预测误差大于或等于设定的误差阈值的帧数/参数合成模型训练得到的音频的总帧数)。在本实施例中，音频的帧应理解为：采用时间窗口对音频进行滑窗处理，每个滑窗内的音频片段为一帧。其中，滑窗的步长小于或等于窗口的大小。

值得说明的是，在本申请实施例中，第一语音合成模型可以为预设的训练好的模型，也可在训练第二语音合成模型之前对第一语音合成模型进行训练。为了便于描述和区分，在本申请实施例中，将第一语音合成模型训练所使用的文本样本定义为第三文本样本，第三文本样本对应的音频定义为第三音频样本。其中，第三音频样本可为人工录制的音频，也可为另外的语音合成模型合成的音频。

在本实施例中，可获取第三文本样本和所述第三文本样本对应的第三音频样本；对第三文本样本进行语言学特征预测，以得到第三文本样本的文本特征；之后，利用第三文本样本的文本特征和第三音频样本进行模型训练，得到第一语音合成模型中的端到端模型。

进一步，在对端到端模型进行训练时，可以第二损失函数最小化为训练目标，可以第一损失函数最小化为训练目标，利用第三文本样本的文本特征和第三音频样本进行模型训练，得到所述端到端模型；其中第二损失函数是根据端到端模型训练得到的音频与第三音频样本确定的。

在一些实施例中，考虑到人说话的语速有所差异，第三音频样本可采用不同语速的音频，也就是说对于相同的文本样本，也可采用不同语速的多个音频作为该文本样本对应的音频样本。之后，可利用第三文本样本以及具有相同或相近语速的第三音频样本分别对端到端模型进行训练，得到多个端到端模型，其中，对同一端到端模型进行训练的第三音频样本的语速相同或近似相同，一个第三文本样本对应一个第三音频样本。这样，便可得到多个合成音频的语速不同的第一语音合成模型。进一步，在步骤102中，合成多个文本样本对应的音频样本时，可随机选择一个端到端模型作为第一语音合成模型中的端到端模型；之后，在上述步骤103中，利用多个文本样本及多个音频样本进行模型训练，得到一个第二语音合成模型，该第二语音合成模型的语速与第三音频样本的语速相同或近似相同。这样，利用多个端到端模型，便可训练得到合成音频的语速不同的多个第二语音合成模型。进一步，在利用训练完成的第一语音合成模型和第二语音合成模型，对待合成文本进行语音合成时，便可随机选择合成音频的语速相同的一组第一语音合成模型和第二语音合成模型，得到待合成样本的音频，该音频与所采用的第一语音合成模型进行训练的第三音频样本的语速相同或近似。为了更清楚地说明上述端到端模型的训练过程，下面以端到端模型包含tacotron模型和wavenet模型，并结合图1c对本实施例提供的端到端模型训练过程进行示例性说明。端到端模型训练过程的主要步骤如下：

s11：将第三文本特征的文本特征输入初始tacotron模型，得到第三文本样本的频谱特征。

s12：将第三文本样本的频谱特征输入初始wavenet模型，在初始wavenet模型中，对第三文本样本的频谱特征进行时域波形还原，得到端到端模型训练得到的音频。

s13：将端到端模型训练得到的音频和第三音频样本输入第二损失函数，计算第二损失函数值。

s14：计算本次计算出的第二失函数值与最近q次计算出的第二损失函数值的变化幅度。其中，q为大于或等于2的整数，其具体取值可进行灵活设备。例如，q可等于5、8、10等，但不限于此。

s15：判断计算出的变化幅度是否小于或等于预设的变化幅度阈值。若判断结果为是，则执行步骤s17；若判断结果为否，则步骤s16。

s16：沿当前tacotron模型和当前wavenet模型的参数的负梯度方向调整模型参数，并将调整后的tacotron模型和wavenet模型分别作为初始tacotron模型和初始wavenet模型，并返回执行步骤s11。

s17：将当前tacotron模型和当前wavenet模型分别作为最终的tacotron模型和wavenet模型，进而得到端到端模型。

为了更清楚地理解上述语音合成模型训练过程，下面以第一语音合成模型的后端语音合成模块为端到端模型，第二语音合成模型的后端语音合成模块为参数合成模型(利用波形拼接技术实现)为例，进行示例性说明。

图2为本申请实施例提供的另一种语音合成模型的训练方法的流程示意图。如图2所示，该方法包括：

201、获取第三文本样本和第三文本样本对应的第三音频样本。

202、利用前端预测模型对第三文本样本进行语言学预测，得到第三文本样本的文本特征。

203、利用第三文本样本的文本特征和第三音频样本对初始端到端模型进行训练，得到端到端模型。

204、获取第一文本样本和第二文本样本。

205、利用上述前端预测模型对第一文本样本和第二文本样本进行语言学预测，得到第一文本样本和第二样本的文本特征。

206、将第一文本样本和第二文本样本的文本特征输入上述训练好的端到端模型，得到第一文本样本对应的第一音频样本以及第二文本样本对应的第二音频样本。

207、利用语音识别技术中的声学模型对第一音频样本进行音素切分，得到第一音频样本的音素切分信息。

208、将第一文本样本的文本特征与第一音频样本的音素切分信息进行时间对齐，得到对齐后的文本特征。

209、利用语音识别技术中的声学模型对第二文本样本的文本特征进行声学分析，得到第二文本样本的声学特征。

210、根据第二文本样本的声学特征和第二音频样本，构建参数合成模型的音频库。

211、利用第一文本样本对应的对齐后的文本特征、第一音频样本以及音频库对初始参数合成模型进行训练，得到参数合成模型。

212、计算参数合成模型合成的第一文本样本的音频与第一音频样本的相似性。

212、判断计算出的相似性是否满足设定的相似性条件；如判断结果为是，则执行步骤214；若判断结果为否，则执行步骤213。

213、替换新的文本样本作为第一文本样本，并返回执行步骤205，直至参数合成模型训练得到的音频与第一音频样本之间的相似性满足设定的相似条件。

其中，新的文本样本的数据量大于第一文本样本的数据量；和/或，新的文本样本的数据分布与第一文本样本的数据分布不同。

214、将当前参数合成模型作为训练完成的参数合成模型。

值得说明的是，上述步骤213中返回执行步骤205，是指返回执行对第一文本样本的操作，并不涉及对第二文本样本的操作，例如获取第二文本样本的文本特征、声学特征以及构建音频库等等。

相应地，本申请实施例还提供一种存储有计算机指令的计算机可读存储介质，当所述计算机指令被一个或多个处理器执行时，致使所述一个或多个处理器执行权上述语音合成模型训练方法中的步骤。

本申请实施例提供的训练好的第一语音合成模型和第二语音合成模型，可配合使用对待合成样本进行语音合成。下面结合相关实施例进行示例性说明。

图3为本申请实施例提供的一种语音合成方法的流程示意图。如图3所示，该方法包括：

301、获取待合成文本。

302、从待合成文本中，识别出第一文本片段和第二文本片段，其中，第一文本片段对应的音频已由第一语音合成模型预先合成。

303、利用第二语音合成模型，合成第二文本片段对应的音频；其中，第二语音合成模型是以第一语音合成模型合成的音频作为样本训练得到的。

304、对第一文本片段对应的音频和第二文本片段对应的音频进行拼接，以得到待合成文本的音频。

在本实施例中，第一文本片段是指待合成文本中属于设定文本的文本片段；第二文本片段是指待合成文本中不属于上述设定文本的文本片段。其中，关于设定文本的描述和参见上述实施例的相关内容，在此不再赘述。第一文本片段和第二文本片段的数量由待合成文本的具体内容决定。

在本实施例中，由于第二语音合成模型是以第一语音合成模型合成的音频作为样本训练得到的，那么第二语音合成模型合成的第二文本片段对应的音频，与第一语音合成模型预先合成的第一文本片段对应的音频在声学特征上具有高度的一致性。这样，对第一文本片段对应的音频和第二文本片段对应的音频进行拼接，得到的待合成文本的音频衔接更为自然，机械感较低，有助于提高语音的流畅性和自然度，进而有助于提高用户体验。

在本实施例中，可对待合成文本进行自然语音处理，将待合成文本转换为结构化元组(tuple)。相应地，步骤302的一种可选实施方式为：根据待合成文本转换为的结构化元组，识别出第一文本片段和第二文本片段。

进一步，在第一语音合成模型预先合成的音频库中索引出第一文本片段对应的音频。对于第二文本片段，可利用第二语音合成模型实时合成对应的音频。

进一步，在对第一文本片段对应的音频和第二文本片段对应的音频进行拼接时，可按照第一文本片段和第二文本片段分别在待合成样本中的位置，对第一文本片段对应的音频和第二文本片段对应的音频进行拼接。

进一步，对第一文本片段对应的音频和第二文本片段对应的音频进行拼接之后，为了使合成的音频更加平滑，减少拼接边界处的噪声，可对拼接得到的音频进行平滑处理，得到待合成文本的音频。这样，有助于消除拼接边界处的不连续，有助于进一步提高合成语音的自然度。可选地，可采用最佳联合法、波形插值法、线性预测参数插值法、连续效应法、基于傅里叶变换的频谱平滑方法或基于时域的平滑方法等等，对音频拼接边界处进行平滑处理，但不限于此。

本申请实施例提供的语音合成方法适用于多种应用场景中。下面结合几种常见的应用场景进行示例性说明。

应用场景1：本申请实施例提供的语音合成方法可适用于人机对话交互的应用场景中。其中，可进行人机交互的设备可以为终端设备，例如智能手机、电脑等；也可为智能家居设备，例如智能音箱、智能家电、扫地机器人等等；或者也可为功能性设备，例如导购机器人、仓储机器人等等，但不限于此。在该应用场景中，人机交互设备可接收用户发出的第一语音信号，并从确定第一语音信号对应的答案的文本。该文本即为待合成样本。进一步，人机交互设备可从待合成样本中识别出第一文本片段和第二文本片段。对于第一文本片段，从第一语音合成模型预先合成的音频库中索引出第一文本片段对应的音频；对于第二文本片段，利用第二语音合成模型，合成第二文本片段对应的音频；其中，第二语音合成模型是以第一语音合成模型合成的音频作为样本训练得到的。进一步，人机交互设备可对第一文本片段对应的音频和第二文本片段对应的音频进行拼接，得到待合成文本的音频。进一步，人机交互设备可播放待合成文本的音频，以供用户获取其发出的问题的答案。

应用场景2：本申请实施例提供的语音合成方法可适用于交通运输的应用场景中。其中，语音合成设备可为交通工具(地铁、公交车、火车、高铁或飞机等)上的计算机设备。该计算机设备可获取将要到站的站名xxx；待合成文本可为“下一站是xxx”以及一些固定注意事项等。进一步，计算机设备可从待合成样本中识别出第一文本片段和第二文本片段。对于该待合成文本，第一文本片段为“下一站是”和固定注意事项，第二文本片段为“xxx”。进一步，对于第一文本片段，从第一语音合成模型预先合成的音频库中索引出第一文本片段对应的音频；对于第二文本片段，利用第二语音合成模型，合成第二文本片段对应的音频；其中，第二语音合成模型是以第一语音合成模型合成的音频作为样本训练得到的。进一步，计算机设备可对第一文本片段对应的音频和第二文本片段对应的音频进行拼接，得到待合成文本的音频。进一步，计算机设备可播放待合成文本(下一站是xxx和固定注意事项)的音频，以供乘客得知前方到站信息和注意事项。

应用场景3：本申请实施例提供的语音合成方法可适用于在线机器客服的应用场景中。其中，语音合成设备可为商家客服侧的计算机设备。在该应用场景中，客服侧的计算机设备可获取用户发送的问题，并确定该问题对应答案的文本。该文本即为待合成样本。进一步，客服侧的计算机设备可从待合成样本中识别出第一文本片段和第二文本片段。对于第一文本片段，从第一语音合成模型预先合成的音频库中索引出第一文本片段对应的音频；对于第二文本片段，利用第二语音合成模型，合成第二文本片段对应的音频；其中，第二语音合成模型是以第一语音合成模型合成的音频作为样本训练得到的。进一步，计算机设备可对第一文本片段对应的音频和第二文本片段对应的音频进行拼接，得到待合成文本的音频。进一步，客服侧的计算机设备可将待合成文本的音频返回给用户侧的终端设备，以供用户利用其终端设备播放该用户提问的问题的答案。

应用场景4：本申请实施例提供的语音合成方法可适用于影视配音的应用场景中。其中，语音合成设备可为进行影视配音的计算机设备。在该应用场景中，计算机设备可获取待配音的文本样本，作为待合成样本。进一步，计算机设备可从待合成样本中识别出第一文本片段和第二文本片段。对于第一文本片段，从第一语音合成模型预先合成的音频库中索引出第一文本片段对于的音频；对于第二文本片段，利用第二语音合成模型，合成第二文本片段对应的音频；其中，第二语音合成模型是以第一语音合成模型合成的音频作为样本训练得到的。进一步，计算机设备可对第一文本片段对应的音频和第二文本片段对应的音频进行拼接，得到待配音的文本的音频。进一步，计算机设备可保存音频，并对下一句影视台词进行配音。

相应地，本申请实施例还提供一种存储有计算机指令的计算机可读存储介质，当计算机指令被一个或多个处理器执行时，致使一个或多个处理器执行权上述语音合成方法中的步骤。

需要说明的是，上述实施例所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，步骤201和202的执行主体可以为设备a；又比如，步骤201的执行主体可以为设备a，步骤202的执行主体可以为设备b；等等。

另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如301、302等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。

图4为本申请实施例提供的一种计算机设备的结构示意图。如图4所示，该计算机设备包括：存储器40a和处理器40b；其中，存储器40a，用于存储计算机程序。

处理器40b耦合至存储器40a，用于执行计算机程序以用于：获取多个文本样本；并利用第一语音合成模型，合成多个文本样本对应的多个音频样本；利用多个文本样本及多个音频样本进行模型训练，以得到第二语音合成模型；其中，第一语音合成模型可合成待合成文本中属于设定文本的文本片段的音频；第二语音合成模型可合成待合成文本中不属于设定文本的文本片段的音频。

在一些实施例中，处理器40b在合成多个文本样本对应的多个音频样本时，具体用于：将多个文本样本输入第一语音合成模型；在第一语音合成模型中，对多个文本样本进行语言学特征预测，以得到多个文本样本的文本特征；以及根据多个文本样本的文本特征，合成多个音频样本。

在另一些实施例中，多个文本样本包括：第一文本样本和第二文本样本；多个音频样本包括第一文本样本对应的第一音频样本和第二文本样本对应的第二音频样本。相应地，处理器40b在利用多个文本样本及多个音频样本进行模型训练时，具体用于：对第二音频样本进行声学分析，得到第二音频样本的声学特征；利用第二音频样本及其声学特征，构建第二语音合成模型中的音频库；以及利用第一文本样本的文本特征、第一音频样本以及音频库进行模型训练，得到第二语音合成模型中的参数合成模型。

进一步，处理器40b在利用第一样本的文本特征、第一音频样本以及音频库进行模型训练时，具体用于：对第一音频样本进行音素切分，以得到第一音频样本的音素切分信息；将第一文本样本的文本特征与音素切分信息进行时间对齐，得到第一文本样本的对齐后的文本特征；并利用对齐后的文本特征、第一音频样本以及音频库进行模型训练，以得到参数合成模型。

进一步，处理器40b在利用对齐后的文本特征、第一音频样本以及音频库进行模型训练时，具体用于：以第一损失函数最小化为训练目标，利用对齐后的文本特征和音频库进行模型训练，得到参数合成模型；第一损失函数是根据参数合成模型训练得到的音频与第一音频样本确定的。

可选地，参数合成模型包括：声学特征提取层和拼接层。相应地，处理器40b在对参数合成模型进行训练时，还用于：将对齐后的文本特征输入处于训练阶段的声学特征提取层，得到第一文本样本的第一声学特征；并将第一声学特征输入拼接层；在拼接层，利用第一声学特征在音频库中进行索引，以得到参数合成模型训练得到的音频。

在又一些实施例中，处理器40b在进行参数合成模型训练时，还用于：计算参数合成模型训练得到的音频与第一音频样本之间的相似性；若计算出的相似性不满足设定的相似条件，则替换新的文本样本作为第一文本样本，并重复执行参数合成模型训练过程，直至参数合成模型训练得到的音频与第一音频样本之间的相似性满足设定的相似条件；其中，新的文本样本的数据量大于第一文本样本的数据量，和/或，新的文本样本的数据分布与第一文本样本的数据分布不同。

在再一些实施例中，处理器40b在合成多个音频样本时，具体用于：对多个文本样本的文本特征进行声学分析，得到多个文本样本的第二声学特征；根据多个文本样本的第二声学特征，合成多个音频样本。

可选地，多个文本样本的第二声学特征为多个文本样本的频谱特征。相应地，处理器40b在合成多个音频样本时，具体用于：对多个文本样本的频谱特征进行时域波形还原，以得到多个音频样本。

在其它一些实施例中，处理器40b在合成多个音频样本之前，还用于：获取第三文本样本和第三文本样本对应的第三音频样本；对第三文本样本进行语言学特征预测，以得到第三文本样本的文本特征；以及利用第三文本样本的文本特征和第三音频样本进行模型训练，得到第一语音合成模型中的端到端模型。

可选地，可采用相同的前端预测模型对多个文本样本和对第三文本样本进行语言学特征预测。

在一些可选实施方式中，如图4所示，该计算机设备还可以包括：通信组件40c、电源组件40d、显示屏40e以及音频组件40f等可选组件。图4中仅示意性给出部分组件，并不意味着计算机设备必须包含图4所示全部组件，也不意味着计算机设备只能包括图4所示组件。

在本申请实施例中，不限定计算机设备的实现形态。可选地，计算机设备可为单一服务器设备，也可以云化的服务器阵列，或者为云化的服务器阵列中运行的虚拟机(virtualmachine，vm)。另外，计算机设备也可为智能手机、电脑、可穿戴设备等终端设备。或者，计算机设备也可为智能音箱、智能洗衣机、扫地机器人等智能家居设备；或者计算机设备也可为功能性机器人等，例如导购机器人、导航机器人等；或者，计算机设备也可为交通工具上的导航设备等等；但不限于此。

本实施例提供的计算机设备，可利用第一语音合成模型合成的音频样本来训练第二语音合成模型，这种模型训练方法得到的第二语音合成模型，在与第一语音合成模型配合来合成待合成文本的音频时，可使两种模型得到音频片段衔接更加自然，有助于提高合成语音的自然度和流畅度，使得两种模型配合得到的音频更像同一个人说话。

图5为本申请实施例提供的另一种计算机设备的结构示意图。如图5所示，该计算机设备包括：存储器50a和处理器50b；其中，存储器50a，用于存储计算机程序以及第一语音合成模型合成的音频。

处理器50b耦合至存储器50a，用于执行计算机程序以用于：获取待合成文本；从待合成文本中，识别出第一文本片段和第二文本片段，第一文本片段对应的音频已由第一语音合成模型预先合成；利用第二语音合成模型，合成第二文本片段对应的音频；其中，第二语音合成模型是以第一语音合成模型合成的音频作为样本训练得到的；以及对第一文本片段对应的音频和第二文本片段对应的音频进行拼接，以得到待合成文本的音频。

在一些可选实施方式中，如图5所示，该计算机设备还可以包括：通信组件50c、电源组件50d、显示屏50e以及音频组件50f等可选组件。图5中仅示意性给出部分组件，并不意味着计算机设备必须包含图5所示全部组件，也不意味着计算机设备只能包括图5所示组件。

本实施例提供的计算机设备，可利用以第一语音合成模型合成的音频作为样本训练得到的第二语音合成模型，合成第二文本片段对应的音频。由于第二语音合成模型是以第一语音合成模型合成的音频作为样本训练得到的，那么第二语音合成模型合成的第二文本片段对应的音频，与第一语音合成模型预先合成的第一文本片段对应的音频在声学特征上具有高度的一致性。这样，对第一文本片段对应的音频和第二文本片段对应的音频进行拼接，得到的待合成文本的音频衔接更为自然，机械感较低，有助于提高语音的流畅性和自然度，进而有助于提高用户体验。

在本申请实施例中，存储器，用于存储计算机程序，并可被配置为存储其它各种数据以支持在计算机设备上的操作。其中，处理器可执行存储器中存储的计算机程序，以实现相应控制逻辑。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。

在本申请实施例中，处理器可以为任意可执行上述方法逻辑的硬件处理设备。可选地，处理器可以为中央处理器(centralprocessingunit，cpu)、图形处理器(graphicsprocessingunit，gpu)或微控制单元(microcontrollerunit，mcu)；也可以为现场可编程门阵列(field-programmablegatearray，fpga)、可编程阵列逻辑器件(programmablearraylogic，pal)、通用阵列逻辑器件(generalarraylogic，gal)、复杂可编程逻辑器件(complexprogrammablelogicdevice，cpld)等可编程器件；或者为先进精简指令集(risc)处理器(advancedriscmachines，arm)或系统芯片(systemonchipsoc)等等，但不限于此。

在本申请实施例中，通信组件被配置为便于计算机设备和其他设备之间有线或无线方式的通信。计算机设备可以接入基于通信标准的无线网络，如wifi，2g或3g，4g，5g或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件还可基于近场通信(nfc)技术、射频识别(rfid)技术、红外数据协会(irda)技术、超宽带(uwb)技术、蓝牙(bt)技术或其他技术来实现。

在本申请实施例中，显示屏可以包括液晶显示器(lcd)和触摸面板(tp)。如果显示屏包括触摸面板，显示屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

在本申请实施例中，电源组件被配置为计算机设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

在本申请实施例中，音频组件可被配置为输出和/或输入音频信号。例如，音频组件包括一个麦克风(mic)，当音频组件所在设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中，音频组件还包括一个扬声器，用于输出音频信号。例如，对于具有语言交互功能的计算机设备，可通过音频组件实现与用户的语音交互等。

需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：音频处理方法、装置及电子设备与流程

语音合成模型训练和语音合成方法、设备及存储介质与流程

相关文章

最热文献