农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

语音合成系统的训练方法、装置、计算机设备及存储介质与流程

2021-08-24 16:08:00 来源：中国专利 TAG：语音合成装置训练计算机方法

本发明涉及语音合成技术领域，尤其涉及一种语音合成系统的训练方法、装置、计算机设备及存储介质。

背景技术：

近年来以tacotran为代表的端对端的语音合成系统逐步成熟，相比于传统拼接的语音合成系统，端对端语音合成系统推理生成的语音在韵律、发音等各方面优势明显。目前的端对端语音合成系统是由编码器和解码器组成的，其中编码器将输入文本数据压缩为固定大小的向量，解码器将编码器输出的向量解码为频谱特征。其中，由于编码器在压缩较长时间段的输入序列时会产生信息丢失，故通常会使用一种注意力机制“记忆”序列时间信息，该注意力机制可以实现输出频谱和输入文本的匹配，但是注意力机制的存在会导致语音合成系统难以合成时长大于训练集语音时长的语音；若强行使用目前语音合成系统合成长段语音时，非常容易出现吞字漏字、重复发音等问题。虽然基于注意力机制改进的方案如位置敏感注意力机制、gmm等方案可以合成相对较长的语音，但仍不能满足长段语音的合成需求。

技术实现要素：

本发明实施例提供一种语音合成系统的训练方法、装置、计算机设备及存储介质，能够使得训练得到的语音合成系统有效地合成长段语音，提高了用户使用体验度。

第一方面，本发明实施例提供了一种语音合成系统的训练方法，该方法包括：

若检测到模型训练指令，对初始训练集中的初始样本进行拼接以得到多个时长不同的中间样本，并将所得到的中间样本保存至初始训练集中以更新得到一中间训练集，其中，所述中间样本的时长均不超过预设时长；

将所述预设时长按大小顺序分为n个时长段，并确定相应的样本权重比值，其中，n为大于或等于2的正整数，所述初始样本均位于第一个时长段，时长最长的中间样本位于第n个时长段，其余的中间样本根据时长大小位于对应的时长段中，所述样本权重比值包括n个权重占比，n个权重占比与n个时长段依次一一对应，其中，第一个权重占比对应第一个时长段，第n个权重占比对应第n个时长段；

根据所述样本权重比值从所述中间训练集中对应地获取位于不同时长段的初始样本和中间样本，并对预设的语音合成模型进行训练，以得到一中间模型；

根据预设的权重动态分配规则对所述样本权重比值进行调整以得到更新后的样本权重比值；

根据更新后的样本权重比值从所述中间训练集中对应地获取位于不同时长段的样本对所述中间模型进行训练，以更新得到一新的中间模型；

判断当前训练次数是否小于预设训练轮次m，其中，m为大于或等于2的正整数；

若当前训练次数大于或等于预设训练轮次m，将最后更新得到的中间模型确定为目标语音合成系统。

第二方面，本发明实施例还提供了一种语音合成系统的训练装置，该装置包括：

样本拼接单元，用于若检测到模型训练指令，对初始训练集中的初始样本进行拼接以得到多个时长不同的中间样本，并将所得到的中间样本保存至初始训练集中以更新得到一中间训练集，其中，所述中间样本的时长均不超过预设时长；

比值确定单元，用于将所述预设时长按大小顺序分为n个时长段，并确定相应的样本权重比值，其中，n为大于或等于2的正整数，所述初始样本均位于第一个时长段，时长最长的中间样本位于第n个时长段，其余的中间样本根据时长大小位于对应的时长段中，所述样本权重比值包括n个权重占比，n个权重占比与n个时长段依次一一对应，其中，第一个权重占比对应第一个时长段，第n个权重占比对应第n个时长段；

第一训练单元，用于根据所述样本权重比值从所述中间训练集中对应地获取位于不同时长段的初始样本和中间样本，并对预设的语音合成模型进行训练，以得到一中间模型；

比值调整单元，用于根据预设的权重动态分配规则对所述样本权重比值进行调整以得到更新后的样本权重比值；

第二训练单元，用于根据更新后的样本权重比值从所述中间训练集中对应地获取位于不同时长段的样本对所述中间模型进行训练，以更新得到一新的中间模型；

数值判断单元，用于判断当前训练次数是否小于预设训练轮次m，其中，m为大于或等于2的正整数；

目标确定单元，用于若当前训练次数大于或等于预设训练轮次m，将最后更新得到的中间模型确定为目标语音合成系统。

第三方面，本发明实施例还提供了一种计算机设备，其包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序当被处理器执行时可实现上述方法。

本发明实施例提供了一种语音合成系统的训练方法、装置、计算机设备及存储介质。其中，所述方法包括：对初始训练集中的初始样本进行拼接以得到多个时长不同的中间样本，并保存得到一中间训练集；确定相应的样本权重比值；根据样本权重比值对预设的语音合成模型进行训练，以得到一中间模型；更新样本权重比值并根据更新后的样本权重比值从中间训练集中获取位于不同时长段的样本对中间模型进行训练，以更新得到一新的中间模型；若当前训练次数等于预设训练轮次m；将最后更新得到的中间模型确定为目标语音合成系统。本发明实施例由于基于教学式学习，对语音合成模型先从训练集中的单个样本开始训练，随着训练轮次的增大，随机拼接训练集中的样本，并获得时长增加的样本对语音合成模型进行训练，使得语音合成模型对于长段文字的输入具有稳定性，可实现训练得到的语音合成系统能够有效合成长段语音，提高用户使用体验度的效果，同时，本发明实施例还能应用于智慧政务等场景中，从而推动智慧城市的建设。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种语音合成系统的训练方法的流程示意图；

图2是本发明实施例提供的一种语音合成系统的训练方法的子流程示意图；

图3是本发明实施例提供的一种语音合成系统的训练方法的子流程示意图；

图4是本发明实施例提供的一种语音合成系统的训练方法的子流程示意图；

图5是本发明另一实施例提供的一种语音合成系统的训练方法的流程示意图；

图6是本发明实施例提供的一种语音合成系统的训练装置的示意性框图；

图7是本发明实施例提供的一种语音合成系统的训练装置的样本拼接单元的示意性框图；

图8是本发明实施例提供的一种语音合成系统的训练装置的第一处理单元的示意性框图；

图9是本发明实施例提供的一种语音合成系统的训练装置的比值调整单元的额示意性框图；

图10是本发明另一实施例提供的一种语音合成系统的训练装置的示意性框图；

图11是本发明实施例提供的一种计算机设备结构组成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

请参阅图1，图1是本申请实施例提供的一种语音合成系统的训练方法的示意流程图，该语音合成系统的训练方法可以运行在智能手机(如android手机、ios手机等)、平板电脑、笔记本电脑以及智能设备等终端或服务器中，并通过教学式学习，对语音合成模型先从训练集中的单个样本开始训练，随着训练轮次的增大，随机拼接训练集中的样本，并获得时长增加的样本对语音合成模型进行训练，使得语音合成模型对于长段文字的输入具有稳定性，可实现训练得到的语音合成系统能够有效合成长段语音，提高用户使用体验度的效果。如图1所示，该方法的步骤包括步骤s101～s107。

步骤s101，若检测到模型训练指令，对初始训练集中的初始样本进行拼接以得到多个时长不同的中间样本，并将所得到的中间样本保存至初始训练集中以更新得到一中间训练集，其中，所述中间样本的时长均不超过预设时长。

在本实施例中，当终端检测到模型训练指令时，可以对初始训练集中的初始样本进行拼接，其中，初始训练集中的初始样本可以是时长较短的语音文本信息，例如可以是1s或者5s等，具体在本实施例中不做限制。

通过对初始样本的拼接，可以得到多个不同时长的中间样本。例如，可以选择任意2个初始样本进行拼接，也可以选择任意3个初始样本进行拼接，还可以选择任意4个初始样本进行拼接，当然，具体的拼接的初始样本的数量以及拼接的位置顺序在本实施例中并不作限制，即可以根据用户的实际需要继续宁选择。例如，当初始样本的时长为5s时，选择任意两个初始样本进行拼接后可以得到时长为10s的中间样本，而任意选择三个初始样本进行拼接后可以得到时长为15s的中间样本；初始样本和中间样本作为用于训练模型的样本，其可以包括语音信息和相对应的文本信息，即样本包括语音文本信息。

确定中间样本后，可以将中间样本全部保存至初始训练集中从而更新得到一中间训练集。为了确保训练的效率，通常中间样本的时长不超过预设时长，该预设时长的具体数值可以根据实际情况进行设置，在本实施例中并不做限定。

在一实施例中，如图2所示，所述步骤s101可以包括步骤s201～s204。

步骤s201，若检测到模型训练指令，从初始训练集中任意读取至少两个初始样本。

在本实施例中，终端若检测到模型训练指令，可以从初始训练中任意读取至少两个初始样本，即所合成的中间样本的时长必须时要长于当前的初始样本的时长的，故此时合成的是两个或来两个以上的初始样本拼接而成的。

步骤s202，通过预设的平滑函数使得所读取的初始样本之间首尾相连以得到相应的中间样本。

在本实施例中，由于通过直接拼接初始训练集中的初始样本来加长训练所需的样本的时长，可能会导致语音拼接点出不连续，从而使得训练后的语音合成模型的效果变差。故，在语音拼接时采用序列渐变的方法，即采用平滑函数进行拼接样本语音文本信息，可以使得拼接出来的中间样本具备更大的可行性，即使得所读取的初始样本之间首尾相连，从而得到更好的中间样本。

在一实施例中，如图3所示，所述平滑函数包括衰减函数和递增函数，所述步骤s202包括步骤：

步骤s301，对所读取的初始样本进行排序，以使初始样本之间首尾对应。

在本实施例中，平滑函数具体可以是包括衰减函数和递增函数。从初始训练集中读取的初始样本拼接时的排序不同时所拼接出来的中间样本也时不一样的。故可以对所读取的初始样本进行排序，并使的初始样本之间能够首尾对应，从而得到一组中间样本。

步骤s302，将衰减函数作用于前一个初始样本的末尾，并将递增函数作用于后一个初始样本的开头，以将所读取的初始样本拼接成相应的中间样本。

在本实施例中，将衰减函数作用于前一个初始样本的末尾是指，可在前一个初始样本的末尾的音频采样点乘一个衰减函数，从而使其衰减为0。而后，将递增函数作用于后一个初始样本的开头是指，可在后一个初始样本的开头的音频采样点乘一个递增函数，使其从0逐渐增大，之后将这前一个初始样本和后一个初始样本进行拼接，从而使得拼接后的样本的语音文本信息在拼接处具有连续型，从而可以降低拼接点对语音合成模型的训练的影响，提高相应的训练语音的质量。

步骤s203，判断当前所得到的中间样本的总量是否超过预设数量。

在本实施例中，终端还可以判断当前所得的中间样本的总量是否超过预设数量，以此来确定是或否需要继续对初始样本进行拼接，从而确保中间训练集中有足够的样本来实现对语音合成模型的训练。

步骤s204，若当前所得到的中间样本的总数超过预设数量，将所有的中间样本保存至初始训练集中以更新得到一中间训练集。

在本实施例中，若终端检测到当前所得到的中间样本的总数超过预设数量，则表明此时已经有足够的中间样本用于训练语音合成模型了，故完成拼接操作后，可以将所有的中间样本保存至初始训练集中，即更新该初始训练集，从而得到一中间训练集。

其中，若当前所得到的中间样本的总数没有超过预设数量，返回所述步骤s1201。

步骤s102，将所述预设时长按大小顺序分为n个时长段，并确定相应的样本权重比值，其中，n为大于或等于2的正整数，所述初始样本均位于第一个时长段，时长最长的中间样本位于第n个时长段，其余的中间样本根据时长大小位于对应的时长段中，所述样本权重比值包括n个权重占比，n个权重占比与n个时长段依次一一对应，其中，第一个权重占比对应第一个时长段，第n个权重占比对应第n个时长段。

在本实施例中，终端能够将预设时长按大小顺序分为n个时长段，具体的划分可以根据实际情况进行设置，例如，0s～5s为第一个时长段，5s～10s为第二个时长段，10s～15s为第三个时长段，……，5(n-1)s～5ns为第n个时长段，其中，第一个时长段中可以是包括所有的初始样本，其余的每个时长段中均有一定数量的中间样本。所述样本权重比值包括n个权重占比，n个权重占比与n个时长段依次一一对应，其中第一个权重占比可以是与第一个时长段相对应的，第二个权重占比可以是与第二个时长段相对应的，……，第n个权重占比可以是与第n个时长段相对应的。在本实施例中的样本权重比值可以根据实际情况进行设置，例如，第一次训练可以只选择第一时长段中的初始样本，此时第一个权重占比可以是1，其余的全部的权重占比可以是0。

步骤s103，根据所述样本权重比值从所述中间训练集中对应地获取位于不同时长段的初始样本和中间样本，并对预设的语音合成模型进行训练，以得到一中间模型。

在本实施例中，确定样本权重比值后即可以从所述中间训练集中对应地获取位于不同时长段地初始样本和中间样本，并利用所获取地初始样本和中间样本对预设的语音合成模型进行训练，从而得到一中间模型。例如，当第一个权重占比是1，其余的所有的权重占比均是0时，只从第一时长段中获取相应数量的初始样本，即实现最短的语音文本信息对预设的语音合成模型的训练；为了提高训练的效果，此时可以获取全部的初始样本来对预设的语音合成模型来进行训练。当然，具体地也可以根据实际情况确定样本权重比值以及所选取的用于训练的样本的数量，具体在本实施例中不做限定。

步骤s104，根据预设的权重动态分配规则对所述样本权重比值进行调整以得到更新后的样本权重比值。

在本实施例中，通过权重动态分配规则可以让语音合成模型从简单容易的样本开始学习，并逐渐进阶到复杂的样本知识，使模型获得更好的泛化性。例如，语音合成模型可以从最短的训练样本开始训练，然后随着训练轮次的增大，从随机拼接的时长增加的中间样本中选择相应的样本对语音合成模型进行递进的轮次训练，从而使得训练后的语音合成模型能够对长段文字的输入具有识别的稳定性。即，第一次训练则将第一个权重占比设为最大，如1，然后根据预设的权重动态分配规则调整该样本权重比值，即随着训练轮次的增加，减少时长较短的样本在的时间段所对应的权重占比，并增大拼接所得长句的权重占比，使得语音合成模型能够从简单的短句开始逐渐过渡到学习复杂型长句。当然，对样本权重比值的具体的调整可以根据实际形况进行设置。

在一实施例中，如图4所示，所述步骤s104可以包括步骤s401～s404。

步骤s401，获取当前样本权重比值，以获取第一个权重占比。

其中，当终端获取到当前样本权重比值时，可以获取第一个权重占比，该第一个权重占比可以根据实际需要减少。

步骤s402，若第一个权重占比大于预设差值，将第一个权重占比减去预设差值的结果确定为更新后的第一个权重占比。

其中，当第一个权重占比大于预设差值时，则表明第一个权重占比可以继续减去预设差值，并将第一个权重占比减去预设差值的剩余的值确定为更新后的第一个权重占比。

步骤s403，将预设差值均分为n-1份，并分别加入当前样本权重比值的其余的权重占比中，以更新得到其余的权重占比。

其中，为了逐渐增大时长较大的中间样本的权重占比，可以将预设差值均分为n-1份，并分别加入当前样本权重比值的其余的权重占比中，并还可以更新得到其余的权重占比。

步骤s404，将更新后的第一个权重占比以及更新得到其余的权重占比调整为更新后的样本权重比值。

其中，更新后的第一个权重占比以及更新得到其余的权重占比可以跟新为更新后的样本权重比值。

步骤s105，根据更新后的样本权重比值从所述中间训练集中对应地获取位于不同时长段的样本对所述中间模型进行训练，以更新得到一新的中间模型。

在本实施例中，终端能够根据更新后的样本权重比值来从中间训练集中调取位于不同时长段中的样本，并根据样本来对所述中间模型进行训练，并以此得到一新的中间模型。

步骤s106，判断当前训练次数是否小于预设训练轮次m，其中，m为大于或等于2的正整数。

其中，若当前训练次数小于预设训练轮次m，则返回所述步骤s105。通过判断当前训练次数是否小于预设训练轮次m，也是可以提高对语音合成模型的识别效果的。

步骤s107，若当前训练次数大于或等于预设训练轮次m，将最后更新得到的中间模型确定为目标语音合成系统。

在本实施例中，若终端检测到当前训练次数大于获得与预设训练轮次m，此时即相当于完成了对语音合成模型的训练，即得到最新的更新后的中间模型。

在进一步的实施例中，所述方法还可以包括以下步骤：

若当前训练次数小于预设训练轮次m，检测当前的cpu可用占比是否高于预设阀值；若检测到当前的cpu可用占比高于预设阀值，返回所述步骤s103；其中，若检测到当前的cpu可用占比低于或等于预设阀值，执行所述步骤s105。

其中，通过预设阀值的设置，能够确保训练所需的cpu，达到快速训练，减少资源消耗的目的。

综上，本发明实施例能够使确定的语音合成系统有效地合成长段语音，提高用户使用体验度，还能应用于智慧政务等场景中，从而推动智慧城市的建设。

请参阅图5，图5是本发明另一实施例提供的一种语音合成系统的训练方法的示意流程图。该方法可以运行在智能手机(如android手机、ios手机等)、平板电脑、笔记本电脑以及智能设备等终端中。如图5所示，该方法的步骤包括步骤s501～s508。其中与上述实施例中的步骤s101-s107类似的步骤的相关解释和详细说明在此不再赘述，下面详细说明的为本实施例中所增加的步骤。

步骤s501，若检测到模型训练指令，对初始训练集中的初始样本进行拼接以得到多个时长不同的中间样本，并将所得到的中间样本保存至初始训练集中以更新得到一中间训练集，其中，所述中间样本的时长均不超过预设时长。

步骤s502，将所述预设时长按大小顺序分为n个时长段，并确定相应的样本权重比值，其中，n为大于或等于2的正整数，所述初始样本均位于第一个时长段，时长最长的中间样本位于第n个时长段，其余的中间样本根据时长大小位于对应的时长段中，所述样本权重比值包括n个权重占比，n个权重占比与n个时长段依次一一对应，其中，第一个权重占比对应第一个时长段，第n个权重占比对应第n个时长段。

步骤s503，根据所述样本权重比值从所述中间训练集中对应地获取位于不同时长段的初始样本和中间样本，并对预设的语音合成模型进行训练，以得到一中间模型。

步骤s504，根据预设的权重动态分配规则对所述样本权重比值进行调整以得到更新后的样本权重比值。

步骤s505，根据更新后的样本权重比值从所述中间训练集中对应地获取位于不同时长段的样本对所述中间模型进行训练，以更新得到一新的中间模型。

步骤s506，判断当前训练次数是否小于预设训练轮次m，其中，m为大于或等于2的正整数。

步骤s507，若当前训练次数大于或等于预设训练轮次m，将最后更新得到的中间模型确定为目标语音合成系统。

步骤s508，若目标语音合成系统接收到待合成信息，根据预设掩码规则合成所述待合成信息对应的语音信息。

在本实施例中，当目标语音合成系统接收到待合成信息时，由于目标语音合成系统在训练中使用了时长增加了的中间样本，故训练得到的目标语音合成系统具有鲁棒性，故在合成待合成信息对应的语音信息的过程中，需要通过掩码的方式掩盖距离当前帧语音较远部分的信息，因此在合成过程中所参考的对齐长度变短，无需参考长段频谱上的对齐。

具体地，目标语音合成系统会为整句文本进行相似度概率计算，但是当文本较长时，距离当前帧较远的文本信息作用不大，因此需要进行掩码。当掩盖了一部分文本信息后，这部分文本信息即不需要参与对齐计算。例如，如当合成“您好，再见”时，假设正输出“再”字所对应的音频频谱帧，此时与“您好”没有相关性，因此可以将“您好”部分的文本编码掩码，即只计算当前帧与“再”和“见”各自的相关性，而不再计算与“您好”的相关性。该例子即为一次掩码过程，由于掩盖了“您好”部分的文本信息，所以对齐的长度变短，当整句较长的时候，即不需考虑举例当前帧较远的对齐信息。

本领域普通技术员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory，rom)等。

请参阅图6，对应上述一种语音合成系统的训练方法，本发明实施例还提出一种语音合成系统的训练装置，该装置100包括：样本拼接单元101、比值确定单元102、第一训练单元103、比值调整单元104、第二训练单元105、数值判断单元106以及目标确定单元107。

样本拼接单元101，用于若检测到模型训练指令，对初始训练集中的初始样本进行拼接以得到多个时长不同的中间样本，并将所得到的中间样本保存至初始训练集中以更新得到一中间训练集，其中，所述中间样本的时长均不超过预设时长。

在本实施例中，当终端检测到模型训练指令时，可以对初始训练集中的初始样本进行拼接，其中，初始训练集中的初始样本可以是时长较短的语音文本信息，例如可以是1s或者5s等，具体在本实施例中不做限制。

在一实施例中，如图7所示，所述样本拼接单元101可以包括样本读取单元201、第一处理单元202、数量判断单元203以及样本更新单元204。

样本读取单元201，用于若检测到模型训练指令，从初始训练集中任意读取至少两个初始样本。

在本实施例中，终端若检测到模型训练指令，可以从初始训练中任意读取至少两个初始样本，即所合成的中间样本的时长必须时要长于当前的初始样本的时长的，故此时合成的是两个或来两个以上的初始样本拼接而成的。

第一处理单元202，用于通过预设的平滑函数使得所读取的初始样本之间首尾相连以得到相应的中间样本。

在本实施例中，由于通过直接拼接初始训练集中的初始样本来加长训练所需的样本的时长，可能会导致语音拼接点出不连续，从而使得训练后的语音合成模型的效果变差。故，在语音拼接时采用序列渐变的方法，即采用平滑函数进行拼接样本语音文本信息，可以使得拼接出来的中间样本具备更大的可行性，即使得所读取的初始样本之间首尾相连，从而得到更好的中间样本。

在一实施例中，如图8所示，所述平滑函数包括衰减函数和递增函数，所述第一处理单元202包括样本排序单元301以及函数作用单元302。

样本排序单元301，用于对所读取的初始样本进行排序，以使初始样本之间首尾对应。

在本实施例中，平滑函数具体可以是包括衰减函数和递增函数。从初始训练集中读取的初始样本拼接时的排序不同时所拼接出来的中间样本也时不一样的。故可以对所读取的初始样本进行排序，并使的初始样本之间能够首尾对应，从而得到一组中间样本。

函数作用单元302，用于将衰减函数作用于前一个初始样本的末尾，并将递增函数作用于后一个初始样本的开头，以将所读取的初始样本拼接成相应的中间样本。

在本实施例中，将衰减函数作用于前一个初始样本的末尾是指，可在前一个初始样本的末尾的音频采样点乘一个衰减函数，从而使其衰减为0。而后，将递增函数作用于后一个初始样本的开头是指，可在后一个初始样本的开头的音频采样点乘一个递增函数，使其从0逐渐增大，之后将这前一个初始样本和后一个初始样本进行拼接，从而使得拼接后的样本的语音文本信息在拼接处具有连续型，从而可以降低拼接点对语音合成模型的训练的影响，提高相应的训练语音的质量。

数量判断单元203，用于判断当前所得到的中间样本的总量是否超过预设数量。

在本实施例中，终端还可以判断当前所得的中间样本的总量是否超过预设数量，以此来确定是或否需要继续对初始样本进行拼接，从而确保中间训练集中有足够的样本来实现对语音合成模型的训练。

样本更新单元204，用于若当前所得到的中间样本的总数超过预设数量，将所有的中间样本保存至初始训练集中以更新得到一中间训练集。

在本实施例中，若终端检测到当前所得到的中间样本的总数超过预设数量，则表明此时已经有足够的中间样本用于训练语音合成模型了，故完成拼接操作后，可以将所有的中间样本保存至初始训练集中，即更新该初始训练集，从而得到一中间训练集。

其中，若当前所得到的中间样本的总数没有超过预设数量，返回所述样本读取单元201。

比值确定单元102，用于将所述预设时长按大小顺序分为n个时长段，并确定相应的样本权重比值，其中，n为大于或等于2的正整数，所述初始样本均位于第一个时长段，时长最长的中间样本位于第n个时长段，其余的中间样本根据时长大小位于对应的时长段中，所述样本权重比值包括n个权重占比，n个权重占比与n个时长段依次一一对应，其中，第一个权重占比对应第一个时长段，第n个权重占比对应第n个时长段。

在本实施例中，终端能够将预设时长按大小顺序分为n个时长段，具体的划分可以根据实际情况进行设置。

第一训练单元103，用于根据所述样本权重比值从所述中间训练集中对应地获取位于不同时长段的初始样本和中间样本，并对预设的语音合成模型进行训练，以得到一中间模型。

在本实施例中，确定样本权重比值后即可以从所述中间训练集中对应地获取位于不同时长段地初始样本和中间样本，并利用所获取地初始样本和中间样本对预设的语音合成模型进行训练，从而得到一中间模型。

比值调整单元104，用于根据预设的权重动态分配规则对所述样本权重比值进行调整以得到更新后的样本权重比值。

在本实施例中，通过权重动态分配规则可以让语音合成模型从简单容易的样本开始学习，并逐渐进阶到复杂的样本知识，使模型获得更好的泛化性。例如，语音合成模型可以从最短的训练样本开始训练，然后随着训练轮次的增大，从随机拼接的时长增加的中间样本中选择相应的样本对语音合成模型进行递进的轮次训练，从而使得训练后的语音合成模型能够对长段文字的输入具有识别的稳定性。

在一实施例中，如图4所示，所述比值调整单元104可以包括比值获取单元401、第一更新单元402、第二更新单元403以及第三更新单元404。

比值获取单元401，用于获取当前样本权重比值，以获取第一个权重占比。其中，当终端获取到当前样本权重比值时，可以获取第一个权重占比，该第一个权重占比可以根据实际需要减少。

第一更新单元402，用于若第一个权重占比大于预设差值，将第一个权重占比减去预设差值的结果确定为更新后的第一个权重占比。其中，当第一个权重占比大于预设差值时，则表明第一个权重占比可以继续减去预设差值，并将第一个权重占比减去预设差值的剩余的值确定为更新后的第一个权重占比。

第二更新单元403，用于将预设差值均分为n-1份，并分别加入当前样本权重比值的其余的权重占比中，以更新得到其余的权重占比。其中，为了逐渐增大时长较大的中间样本的权重占比，可以将预设差值均分为n-1份，并分别加入当前样本权重比值的其余的权重占比中，并还可以更新得到其余的权重占比。

第三更新单元404，用于将更新后的第一个权重占比以及更新得到其余的权重占比调整为更新后的样本权重比值。其中，更新后的第一个权重占比以及更新得到其余的权重占比可以跟新为更新后的样本权重比值。

第二训练单元105，用于根据更新后的样本权重比值从所述中间训练集中对应地获取位于不同时长段的样本对所述中间模型进行训练，以更新得到一新的中间模型。

在本实施例中，终端能够根据更新后的样本权重比值来从中间训练集中调取位于不同时长段中的样本，并根据样本来对所述中间模型进行训练，并以此得到一新的中间模型。

数值判断单元106，用于判断当前训练次数是否小于预设训练轮次m，其中，m为大于或等于2的正整数。

其中，若当前训练次数小于预设训练轮次m，则返回所述步骤s105。通过判断当前训练次数是否小于预设训练轮次m，也是可以提高对语音合成模型的识别效果的。

目标确定单元107，用于若当前训练次数大于或等于预设训练轮次m，将最后更新得到的中间模型确定为目标语音合成系统。

在本实施例中，若终端检测到当前训练次数大于获得与预设训练轮次m，此时即相当于完成了对语音合成模型的训练，即得到最新的更新后的中间模型。

在进一步的实施例中，所述装置还可以包括以下单元：

检测单元，用于若当前训练次数小于预设训练轮次m，检测当前的cpu可用占比是否高于预设阀值；若检测到当前的cpu可用占比高于预设阀值，返回所述第一训练单元103；其中，若检测到当前的cpu可用占比低于或等于预设阀值，执行所述第二训练单元105。

其中，通过预设阀值的设置，能够确保训练所需的cpu，达到快速训练，减少资源消耗的目的。

请参阅图10，对应上述一种语音合成系统的训练方法，本发明另一实施例还提出一种语音合成系统的训练装置，该装置500包括：样本拼接单元501、比值确定单元502、第一训练单元503、比值调整单元504、第二训练单元505、数值判断单元506、目标确定单元507以及语音合成单元508。

样本拼接单元501，用于若检测到模型训练指令，对初始训练集中的初始样本进行拼接以得到多个时长不同的中间样本，并将所得到的中间样本保存至初始训练集中以更新得到一中间训练集，其中，所述中间样本的时长均不超过预设时长。

比值确定单元502，用于将所述预设时长按大小顺序分为n个时长段，并确定相应的样本权重比值，其中，n为大于或等于2的正整数，所述初始样本均位于第一个时长段，时长最长的中间样本位于第n个时长段，其余的中间样本根据时长大小位于对应的时长段中，所述样本权重比值包括n个权重占比，n个权重占比与n个时长段依次一一对应，其中，第一个权重占比对应第一个时长段，第n个权重占比对应第n个时长段。

第一训练单元503，用于根据所述样本权重比值从所述中间训练集中对应地获取位于不同时长段的初始样本和中间样本，并对预设的语音合成模型进行训练，以得到一中间模型。

比值调整单元504，用于根据预设的权重动态分配规则对所述样本权重比值进行调整以得到更新后的样本权重比值。

第二训练单元505，用于根据更新后的样本权重比值从所述中间训练集中对应地获取位于不同时长段的样本对所述中间模型进行训练，以更新得到一新的中间模型。

数值判断单元506，用于判断当前训练次数是否小于预设训练轮次m，其中，m为大于或等于2的正整数。

目标确定单元507，用于若当前训练次数大于或等于预设训练轮次m，将最后更新得到的中间模型确定为目标语音合成系统。

语音合成单元508，用于若目标语音合成系统接收到待合成信息，根据预设掩码规则合成所述待合成信息对应的语音信息。

在本实施例中，当目标语音合成系统接收到待合成信息时，由于目标语音合成系统在训练中使用了时长增加了的中间样本，故训练得到的目标语音合成系统具有鲁棒性，故在合成待合成信息对应的语音信息的过程中，需要通过掩码的方式掩盖距离当前帧语音较远部分的信息，因此在合成过程中所参考的对齐长度变短，无需参考长段频谱上的对齐。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述语音合成系统的训练装置500和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

由以上可见，在硬件实现上，以上样本拼接单元101、比值确定单元102、第一训练单元103、比值调整单元104、第二训练单元105、数值判断单元106以及目标确定单元107等可以以硬件形式内嵌于或独立于语音合成系统的训练装置中，也可以以软件形式存储于语音合成系统的训练装置的存储器中，以便处理器调用执行以上各个单元对应的操作。该处理器可以为中央处理单元(cpu)、微处理器、单片机等。

上述语音合成系统的训练装置可以实现为一种计算机程序的形式，计算机程序可以在如图11所示的计算机设备上运行。

图11为本发明一种计算机设备的结构组成示意图。该设备可以是终端，也可以是服务器，其中，终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等具有通信功能的电子设备。服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参照图11，该计算机设备600包括通过系统总线601连接的处理器602、存储器、内存储器604和网络接口605，其中，存储器可以包括非易失性存储介质603和内存储器604。

该非易失性存储介质603可存储操作系统6031和计算机程序6032，该计算机程序6032被执行时，可使得处理器602执行一种语音合成系统的训练方法。

该处理器602用于提供计算和控制能力，支撑整个计算机设备600的运行。

该内存储器604为非易失性存储介质603中的计算机程序6032的运行提供环境，该计算机程序6032被处理器602执行时，可使得处理器602执行一种语音合成系统的训练方法。

该网络接口605用于与其它设备进行网络通信。本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备600的限定，具体的计算机设备600可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器602用于运行存储在存储器中的计算机程序6032，以实现上述语音合成系统的训练方法的步骤。

应当理解，在本申请实施例中，处理器602可以是中央处理单元(centralprocessingunit，cpu)，该处理器602还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)、现成可编程门阵列(field-programmablegatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序可存储于一存储介质中，该存储介质为计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序，该计算机程序被处理器执行时使处理器执行上述语音合成系统的训练方法的步骤。

所述存储介质为实体的、非瞬时性的存储介质，例如可以是u盘、移动硬盘、只读存储器(read-onlymemory，rom)、磁碟或者光盘等各种可以存储程序代码的实体存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：声音信号处理方法、装置、电子设备及可读存储介质与流程

语音合成系统的训练方法、装置、计算机设备及存储介质与流程

相关文章

最热文献