农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

语音平滑处理模型生成方法、语音平滑处理方法及装置与流程

2021-08-10 16:37:00 来源：中国专利 TAG：平滑语音方法装置生成

本申请涉及多媒体处理技术领域，具体涉及一种语音平滑处理模型生成方法、语音平滑处理方法及装置。

背景技术：

随着短视频平台快速崛起，剪辑类的视频受到了广大用户的喜欢。其中，一些短视频是通过剪辑热门人物或经典影视里人物在不同视频片段的句子进行合成，以达到搞笑的目的。由于剪辑合成的不同片段对应的音调差异很大，如果不进行修正，使得拼接后的音频或视频的声音不和谐，影响使用体验。然而，目前在剪辑合成后，会对每个片段的音调进行轻微修正，修正效果较差。

技术实现要素：

有鉴于此，本申请实施例提供一种语音平滑处理模型生成方法、语音平滑处理方法及装置，以实现对剪辑合成的音频进行平滑处理，使得处理后的音频的声音更加真实、和谐。

为解决上述问题，本申请实施例提供的技术方案如下：

在本申请实施例第一方面，提供了一种语音平滑处理模型生成方法，所述方法包括：

获取训练合成音频，所述训练合成音频包括多个语音片段，所述多个语音片段中存在音调和/或响度不同的语音片段；

将所述训练合成音频输入第一生成网络，获得第一音频；

将所述第一音频输入第一判别网络获得判别结果；

根据所述判别结果对所述第一生成网络的参数进行调整，重新执行将所述训练合成音频输入第一生成网络以对所述第一生成网络继续进行训练，直至所述判别结果满足预设条件，所述第一判别网络是根据所述第一生成网络训练生成的。

在一种具体的实现方式中，所述将所述训练合成音频输入第一生成网络，获得第一音频，包括：

将所述训练合成音频对应的语谱图输入第一生成网络，获得第一音频的语谱图；

所述将所述第一音频输入第一判别网络获得判别结果，包括：

将所述第一音频的语谱图输入第一判别网络获得判别结果。

在一种具体的实现方式中，所述将所述第一音频输入第一判别网络获得判别结果，包括：

将所述第一音频的语谱图和第二音频的语谱图输入第一判别网络获得判别结果，所述第二音频为符合发音规则的真实音频。

在一种具体的实现方式中，所述方法还包括：

根据所述第一音频输入第二生成网络，获得第三音频；

根据所述第三音频以及所述第一音频对所述第一生成网络的参数进行调整，重新执行将所述训练合成音频输入第一生成网络以对所述第一生成网络继续进行训练，直至所述第三音频与所述训练合成音频之间的相似度满足预设条件。

在一种具体的实现方式中，所述多个语音片段均属于第一用户的语音片段。

在一种具体的实现方式中，第二音频不包括所述第一用户的音频。

在本申请实施例第二方面，提供了一种语音平滑处理方法，所述方法包括：

获取待处理合成音频，所述待处理合成音频中包括多个语音片段，所述多个语音片段中存在音调和/或响度不同的语音片段；

将所述待处理合成音频输入所述第一生成网络，获得目标音频，所述目标音频中的音调和/或响度符合预设发音规则，所述第一生成网络是根据第一方面所述的语音平滑处理模型生成方法训练得到的。

在一种具体的实现方式中，所述多个语音片段均属于第二用户的语音片段。

在本申请实施例第三方面，提供了一种语音平滑处理模型生成装置，所述装置包括：

第一获取单元，用于获取训练合成音频，所述训练合成音频包括多个语音片段，所述多个语音片段中存在音调和/或响度不同的语音片段；

第二获取单元，用于将所述训练合成音频输入第一生成网络，获得第一音频；

第三获取单元，用于将所述第一音频输入第一判别网络获得判别结果；

调整单元，用于根据所述判别结果对所述第一生成网络的参数进行调整，重新执行所述第二获取单元和所述第三获取单元以对所述第一生成网络继续进行训练，直至所述判别结果满足预设条件，所述第一判别网络是根据所述第一生成网络训练的。

在本申请实施例第四方面，提供了一种语音平滑处理装置，所述装置包括：

第一获取单元，用于获取待处理合成音频，所述待处理合成音频中包括多个语音片段，所述多个语音片段中存在音调和/或响度不同的语音片段；

第二获取单元，用于将所述待处理合成音频输入所述第一生成网络，获得目标音频，所述目标音频中的音调和/或响度符合预设发音规则，所述第一生成网络是根据第一方面所述的语音平滑处理模型生成方法训练得到的。

在本申请实施例第五方面，提供了一种设备，包括：处理器，存储器；

所述存储器，用于存储计算机可读指令或者计算机程序；

所述处理器，用于读取所述计算机可读指令或所述计算机程序，以使得所述设备实现第一方面所述的语音平滑处理模型生成方法，或第二方面所述的语音平滑处理方法。

在本申请实施例第六方面，提供了一种计算机可读存储介质，包括指令或计算机程序，当其在计算机上运行时，使得计算机执行以上第一方面所述的语音平滑处理模型生成方法，或第二方面所述的语音平滑处理方法。

由此可见，本申请实施例具有如下有益效果：

本申请实施例首先获取训练数据，即训练合成音频，利用该训练合成音频训练第一生成网络。将第一生成网络基于训练合成音频生成的第一音频输入第一判别网络获得鉴别结果，如果鉴别结果不满足预设条件，则利用训练合成音频继续训练第一生成网络，直至第一生成网络所生成的第一音频输入到第一判别网络中所获得判别结果满足预设条件，则表明已对第一生成网络训练完成。在实际应用时，对于尚未平滑处理的剪辑合成的音频，将该音频输入第一生成网络，通过该第一生成网络处理后输出目标音频，该目标音频的音调和/或响度保持一致，使得目标音频中的多个语音片段播放起来更加和谐和协调，提升合成效果。

附图说明

图1a为一种生成对抗网络结构图；

图1b为一种循环生成对抗网络结构图；

图2为本申请实施例提供的一种语音平滑处理模型生成方法流程图；

图3为本申请实施例提供的一种语音平滑处理方法流程图；

图4为本申请实施例提供的一种语音平滑模型生成装置结构图；

图5为本申请实施例提供的另一种语音平滑处理装置结构图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。

发明人在对传统的剪辑合成的音频进行平滑处理时发现，将调整合成音频中每个语音片段的音调，从而使得拼接在一起的不同语音片段相对比较和谐。然而，该种调整方式只能实现轻微的修正，导致修正后的音频与真实音频比较起来，效果不理想，无法逼近真实音频。

基于此，本申请实施例提供了一种利用对抗网络实现合成音频的平滑处理方法，具体为，获取训练合成音频，该训练合成音频中包括音调不同的多个语音片段，利用该训练合成音频训练第一生成网络。同时，将第一生成网络生成的第一音频输入第一判别网络，获得判别结果。在判别结果不满足预设条件时，重新根据训练生成音频训练第一生成网络，直至该第一生成网络所生成的第一音频输入第一判别网络后获得判别结果满足预设条件，该情况下，表明第一生成网络训练完成。在应用时，对于剪辑合成的音频，将该音频输入第一生成网络，获得目标音频，该目标音频的音调和/响度保持一致，使得目标音频在播放时声音和谐、自然。

下面将先结合附图对本申请实施例中所涉及的生成对抗网络进行说明。

生成对抗网络是一种深度学习模型，其关键点在于构建两个不同功能的模型，分别为生成模型(generativemodel)和判别模型(discriminativemodel)。生成模型和判别模型之间通过博弈对抗来使得生成模型所生成的对象无法被判别模型鉴别出真假。

生成对抗网络的基本原理：生成模型g的模型参数为α，判别模型d的模型参数为β。向生成模型g输入一个随机噪声z，生成模型g根据参数α和噪声z生成样本x’＝g(z)。将真实样本x和生成样本x’输入判别模型d中，在参数β的作用下判断g(z)是否为真实样本，如图1a所示。判别模型d的输出为0到1之间的概率值，如果是真实样本，判别模型输出为1，如果不是真实样本，判别模型输出为0。其中，生成对抗网络的最终训练目的是使得判别模型d无法区分生成模型g所生成的数据与真实样本，即输出概率为0.5。

生成对抗网络的训练过程实际上是求取最优的参数α和参数β，参数α的目标是生成以假乱真的样本，参数β的目标是将真实样本x和生成样本x’准确的判断出来。在不断训练中，生成模型可以更好地对真实样本进行建模，从而使得生成数据逼近真实样本。同时判别模型也在训练过程中不断提高自身能够区分真实样本和生成数据的能力，最终结果是判别模型无法将生成数据和真实样本区分开。

循环生成对抗网络是传统生成对抗网络的变形，其可以通过转换输入样本创建新的数据。具体地，循环生成对抗网络可以学习两个域之间的两个数据转换函数。该循环生成对抗网络包括两个生成模型和两个判别模型，其中，一个生成模型gxy可以将给定域x中的样本x转换为域y的元素；另一个生成模型gyx可以将给定域y中的样本y转换为域x中的元素。其中，每个生成模型均有一个判别模型相关联，其中，生成模型gxy与判别模型dy关联，该判别模型dy用于区分gxy所生成的样本y’与真实样本y。生成模型gyx与判别模型dx关联，该判别模型dx用于区分gyx所生成的样本x’与真实样本x。

循环生成对抗网络本质上是两个镜像对称的生成对抗网络，构成了一个环形网络，下面将结合附图对一半的单向生成对抗网络进行说明，如图1b所示。训练的目标是把域x的图片(命名为样本x)转化为域y的图片(命名为生成样本y’)。为了实现这个过程，需要两个生成器gxy和gyx，分别把域x和域y的图片进行互相转换。样本x经过生成器gxy获得域y的伪造图像，即生成样本y’＝gxy(x)。而gxy(x)经过生成器gyx获得样本x的重建图片，即生成样本x’＝gyx(gxy(x))。最后为了训练这个单向生成对抗网络需要两个损失函数loss，分别是生成器的重建损失loss2和判别器的判别损失loss1。其中，判别器dy是用来判断输入的生成样本y’是否是真实的域y的图片，生成器gyx用来重建样本x，目的是希望生成的样本gyx(gxy(x))和样本x尽可能的相似。

基于上述说明，下面将结合附图对本申请实施例提供的语音平滑处理的具体实现进行说明。

参见图2，该图为本申请实施例提供的一种语音平滑处理模型生成方法流程图，如图2所示，该方法可以包括：

s201：获取训练合成音频。

本实施例中，为训练获得第一生成网络，可以获取大量的训练样本，即训练合成音频，该训练合成音频中可以包括多个语音片段且该多个语音片段中存在音调和/或响度不同的语音片段。其中，训练合成音频中的多个语音片段可以为同一个人在不同场景的语句片段，也就是，多个语音片段均属于第一用户的语音片段。例如，针对《西游记》中经典人物孙悟空，可以从不同剧集中获取较为经典的语音片段，将不同剧集中的语音片段进行剪辑合成获得训练合成音频。可以理解的是，为符合场景需求，同一人在不同场景下的语音片段的音调和/或响度可能是不相同的。或者训练合成音频中的多个语音片段也可以为不同人在不同场景的语句片段，例如将《西游记》中孙悟空的语音片段和《封神榜》中姜子牙的语音片段进行剪辑合成获得训练合成音频。

其中，音调是指声音频率的高低，响度是指人耳感觉到的声音的强弱。音调只由发声体的振动频率决定，频率越高，音调越高；频率越低，音调越低。响度与发声体的振幅和距离声源的远近有关，振幅越大，距离声源越近，响度越大；反之，就小。

s202：将训练合成音频输入第一生成网络，获得第一音频。

本实施例中，在获得训练合成音频后，将该训练合成音频输入第一生成网络，以使得第一生成网络根据自身的参数以及训练合成音频生成第一音频。其中，第一生成网络用于对训练合成音频的音调和/或响度进行平滑处理，以使得生成的第一音频能够逼近真实的音频的音调和/或响度。具体地，在训练第一生成网络时，可以将训练合成音频对应的语谱图输入第一生成网络，从而获得第一音频对应的语谱图。也就是，利用语谱图训练第一生成网络。其中，语谱图是一种语音频谱图，一般是通过处理接收的时域信号得到频谱图。语谱图的横坐标是时间，纵坐标是频率，坐标点值为语音数据能量，能量值的大小可以通过颜色来表示的，颜色深，表示该点的语音能量越强。

s203：将第一音频输入第一判别网络获得判别结果。

s204：判断判别结果是否满足预设条件，如果否，执行s205；如果是，执行s206。

在通过第一生成网络获得第一音频后，为鉴别第一音频是否逼近真实音频，将第一音频输入第一判别网络获得判别结果。由于第一判别网络用语判别第一音频是否逼近真实音频，在进行判别时，将第一音频和第二音频同时输入第一判别网络，从而获得判别结果。其中，第二音频为符合发音规则的真实音频，其不局限某一人物的真实音频，可以为任一人物的真实音频。也就是，第二音频中可以不包括第一用户的真实音频。其中，第一判别网络是根据第一生成网络训练生成的。

在一种具体的实现方式中，将第一音频的语谱图和第二音频的语谱图输入第一判别网络获得判别结果。由于第二音频为符合发音规则的真实音频，因此第二音频对应的语谱图可以反映真实音频对应的频率变化规律，利用第二音频对应的语谱图鉴别第一音频的语谱图是否符合预设的频率变化规律，从而获得判别结果。

在获得判别结果后，判断该判别结果是否满足预设条件，如果满足预设条件，表明第一生成网络所生成的第一音频无法被第一判别网络鉴别真伪则，无需再继续训练第一生成网络，执行s206。如果不满足预设条件，表明第一生成网络所生成的第一音频可以被第一判别网络鉴别真伪，则需要继续训练第一生成，执行s205。例如，预设条件为第一判别网络输出的概率为0.5，如果判别结果为0，表明第一生成网络所生成的第一音频与真实音频之间相差较大，使得第一判别网络可以识别出其为伪造音频；如果判别结果为0.5，表明第一生成网络所生成的第一音频逼近真实音频，使得第一判别网络无法区分其为伪造音频还是真实音频。

s205：根据判别结果对第一生成网络的参数进行调整，重新执行s202。

在判别结果不满足预设条件时，则根据判别结果对第一生成网络的参数进行调整，重新对第一生成网络进行训练，直至判别结果满足预设条件。

在一种具体的实现方式中，为提高第一生成网络的训练准确性，在获得第一音频后，还可以将第一音频输入第二生成网络，获得第三音频；根据第三音频以及第一音频对第一生成网络的参数进行调整，重新执行训练合成音频输入第一生成网络以对第一生成网络继续进行训练，直至第三音频和训练合成音频之间的相似度满足预设条件。也就是，利用第二生成网络对第一音频进行逆操作获得第三音频，将第三音频和训练合成音频进行比较，如果二者的相似度小于预设相似度阈值，则需要对第一生成网络的参数进行调整，以使得第一生成网络所生成的第一音频在经过第二生成网络处理后所获得第三音频能够逼近训练合成音频。如果二者的相似度大于或等于预设相似度阈值，则表明第一生成网络所生成的第一音频在经过第二生成网络处理后所获得的第三音频能够逼近训练合成音频。

s206：获得第一生成网络。

在经过上述训练后，获得第一生成网络，该第一生成网络可以对合成的音频进行平滑处理，使得平滑处理后的合成音频的发音协调。即，完成训练的第一生成网络为语音平滑处理模型。

上述实施例说明了第一生成网络的训练过程，下面将对如何应用第一生成网络进行说明。

参见图3，该图为本申请实施例提供的一种语音平滑处理方法流程图，如图3所示，该方法可以包括：

s301：获取待处理合成音频。

其中，待处理合成音频中包括多个语音片段，所述多个语音片段中存在音调和/或响度不同的语音片段。多个语音片段可以属于同一人物对应的语音片段，例如多个语音片段均属于第二用户的语音片段。或者，多个语音片段分别属于不同人物的语音片段。

s302：将待处理合成音频输入第一生成网络，获得目标音频。

在需要对待处理合成音频进行平滑处理时，将待处理合成音频输入第一生成网络，该第一生成网络对待处理合成音频进行平滑处理，获得目标音频。其中，目标音频中的音调和/或响度符合预设发音规则。其中第一生成网络是根据图2所示的语音平滑处理模型生成方法训练得到的。

具体地，将待处理合成音频对应的语谱图输入第一生成网络，获得目标音频对应的语谱图，利用该语谱图对待处理合成音频的语谱进行调整，从而获得目标音频。

基于上述方法实施例，本申请实施例还提供了语音平滑处理模型生成装置和语音平滑处理装置，下面将集合附图进行说明。

参见图4，该图为本申请实施例提供的一种语音平滑处理模型生成装置结构图，如图4所示，该装置可以包括：

第一获取单元401，用于获取训练合成音频，所述训练合成音频包括多个语音片段，所述多个语音片段中存在音调和/或响度不同的语音片段；

第二获取单元402，用于将所述训练合成音频输入第一生成网络，获得第一音频；

第三获取单元403，用于将所述第一音频输入第一判别网络获得判别结果；

调整单元404，用于根据所述判别结果对所述第一生成网络的参数进行调整，重新执行所述第二获取单元和所述第三获取单元以对所述第一生成网络继续进行训练，直至所述判别结果满足预设条件，所述第一判别网络是根据所述第一生成网络训练的。

在一种具体的实现方式中，所述第二获取单元402，具体用于将所述训练合成音频对应的语谱图输入第一生成网络，获得第一音频的语谱图；

所述第三获取单元403，具体用于将所述第一音频的语谱图输入第一判别网络获得判别结果。

在一种具体的实现方式中，所述第三获取单元403，具体用于将所述第一音频的语谱图和第二音频的语谱图输入第一判别网络获得判别结果，所述第二音频为符合发音规则的真实音频。

在一种具体的实现方式中，所述第二获取单元402，还用于根据所述第一音频输入第二生成网络，获得第三音频；

所述调整单元404，还用于根据所述第三音频以及所述第一音频对所述第一生成网络的参数进行调整，重新执行将所述训练合成音频输入第一生成网络以对所述第一生成网络继续进行训练，直至所述第三音频与所述训练合成音频之间的相似度满足预设条件。

在一种具体的实现方式中，所述多个语音片段均属于第一用户的语音片段。

在一种具体的实现方式中，第二音频不包括所述第一用户的音频。

需要说明的是，关于本实施例中各个单元的实现可以参见上述方法实施例中的相关描述，本实施例在此不再赘述。

参见图5，该图为本申请实施例提供的一种语音平滑处理装置结构图，该装置包括：第一获取单元502和第二获取单元503。

第一获取单元502，用于获取待处理合成音频，所述待处理合成音频中包括多个语音片段，所述多个语音片段中存在音调和/或响度不同的语音片段；

第二获取单元503，用于将所述待处理合成音频输入所述第一生成网络，获得目标音频，所述目标音频中的音调和/或响度符合预设发音规则，所述第一生成网络是根据所述的语音平滑处理模型生成方法训练得到的。

在一种具体的实现方式中，所述多个语音片段均属于第二用户的语音片段。

需要说明的是，本实施例中各个单元的实现可以参见上述方法实施例中的相关描述，本实施例在此不再赘述。

另外，本申请实施例还提供了一种设备，包括：处理器，存储器；所述存储器，用于存储计算机可读指令或者计算机程序；所述处理器，用于读取所述计算机可读指令或所述计算机程序，以使得所述设备实现所述的语音平滑处理模型生成方法，或所述的语音平滑处理方法。

本申请实施例提供了一种计算机可读存储介质，包括指令或计算机程序，当其在计算机上运行时，使得计算机执行以上任意一项所述的语音平滑处理模型生成方法，或所述的语音平滑处理方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“a和/或b”可以表示：只存在a，只存在b以及同时存在a和b三种情况，其中a，b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

语音平滑处理模型生成方法、语音平滑处理方法及装置与流程

相关文章

最热文献