本发明涉及智能语音技术,特别涉及一种对偶语音转换方法、装置、存储介质和设备。
背景技术:
随着机器学习和人工智能最近几年以来的迅速发展,语音技术作为人工智能主要领域之一,也得到了广泛的关注。
语音信号内蕴含了多种信息,包括说话人身份、情感和语义信息等。语音转换(voiceconversion,vc)作为智能语音技术方向之一,其是通过修改语音信号中与说话人相关的频谱和韵律特征,在保持与说话人无关的信息(语言内容)不变的同时,改变感知到的说话人身份信息。语音转换技术在多个领域都有着广泛的应用场景,如:ai配音、歌声转换、模仿或隐藏说话人的身份、个性化语音合成等。
相关技术中,语音转换通常面临平行语料难以获取的问题,当平行语料匮乏时,由于数据集中存在的音素分布比较单一,使用该数据集训练的语音转换模型建模的音素特征分布有限,对于未见过的音素特征进行转换时,很难生成对齐良好的转换音素,由于音素特征无法对齐,合成的转换语音通常上不可懂,在少语料时,语音转换系统的性能严重受限。
因此,有必要设计一种新的对偶语音转换方法、装置、存储介质和设备,以克服上述问题。
技术实现要素:
本发明实施例提供一种对偶语音转换方法、装置、存储介质和设备,以解决相关技术中当平行语料匮乏时,语音转换系统的性能严重受限的问题。
第一方面,提供了一种少语料下的对偶语音转换方法,其包括:将待转换源语音的梅尔语谱输入对偶语音转换模型,生成转换后的目标语音的梅尔语谱;其中,所述对偶语音转换模型是将语音数据集输入第一语音转换基础模型和第二语音转换基础模型形成的对偶环进行迭代训练得到的,所述第一语音转换基础模型和所述第二语音转换基础模型的映射能力相反。
一些实施例中,在所述将待转换源语音的梅尔语谱输入对偶语音转换模型,生成转换后的目标语音的梅尔语谱之前,还包括:根据第一语音转换基础模型和第二语音转换基础模型建立对偶环;将语音数据集输入所述对偶环进行迭代训练得到所述对偶语音转换模型。
一些实施例中,所述根据第一语音转换基础模型和第二语音转换基础模型建立对偶环,包括:将所述第一语音转换基础模型的输出端与所述第二语音转换基础模型的输入端连接,将所述第二语音转换基础模型的输出端与所述第一语音转换基础模型的输入端连接,形成所述对偶环。
一些实施例中,所述将语音数据集输入所述对偶环进行迭代训练得到所述对偶语音转换模型,包括:将所述语音数据集中源语音的梅尔语谱x依次经过所述第一语音转换基础模型的转换和所述第二语音转换基础模型的重构,生成重构后的源梅尔语谱
一些实施例中,所述将所述语音数据集中源语音的梅尔语谱x依次经过所述第一语音转换基础模型的转换和所述第二语音转换基础模型的重构,生成重构后的源梅尔语谱
一些实施例中,所述将所述语音数据集中真实目标语音的梅尔语谱y依次经过所述第二语音转换基础模型的转换和所述第一语音转换基础模型的重构,生成重构后的目标梅尔语谱
一些实施例中,在所述根据第一语音转换基础模型和第二语音转换基础模型建立对偶环之前,还包括:建立所述第一语音转换基础模型和所述第二语音转换基础模型,其中,所述第一语音转换基础模型和所述第二语音转换基础模型均包括编码器、注意力机制模块和解码器。
第二方面,提供了一种少语料下的对偶语音转换装置,其包括:转换模块,其用于将待转换源语音的梅尔语谱输入对偶语音转换模型,生成转换后的目标语音的梅尔语谱;其中,所述对偶语音转换模型是将语音数据集输入第一语音转换基础模型和第二语音转换基础模型形成的对偶环进行迭代训练得到的,所述第一语音转换基础模型和所述第二语音转换基础模型的映射能力相反。
第三方面,提供了一种存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行上述的少语料下的对偶语音转换方法。
第四方面,提供了一种语音转换设备,其包括:存储器,用于存储可执行指令;处理器,用于执行所述存储器中存储的可执行指令,以执行上述的少语料下的对偶语音转换方法。
本发明提供的技术方案带来的有益效果包括:
本发明实施例提供了一种对偶语音转换方法、装置、存储介质和设备,由于对偶语音转换模型是通过将语音数据集输入第一语音转换基础模型和第二语音转换基础模型形成的对偶环进行迭代训练得到的,且所述第一语音转换基础模型与所述第二语音转换基础模型的映射能力相反,利用语音转换的对称性,在对偶环中进行数据集的循环迭代训练,可以对所述对偶语音转换模型进行迭代优化,提升所述对偶语音转换模型的转换性能,因此,在少语料时也能合成高质量的转换语音。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种少语料下的对偶语音转换方法的训练过程的流程示意图;
图2为本发明实施例提供的一种少语料下的对偶语音转换方法的语音转换过程的流程示意图;
图3为本发明实施例提供的对偶语音转换模型的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种对偶语音转换方法、装置、存储介质和设备,其能解决相关技术中当平行语料匮乏时,语音转换系统的性能严重受限的问题。
本发明实施例提供了一种少语料下的对偶语音转换方法,其可以包括:将待转换源语音的梅尔语谱输入对偶语音转换模型,生成转换后的目标语音的梅尔语谱;其中,所述对偶语音转换模型是将语音数据集输入第一语音转换基础模型f和第二语音转换基础模型g形成的对偶环进行迭代训练得到的,所述第一语音转换基础模型和所述第二语音转换基础模型的映射能力相反,也就是说,在第一语音转换基础模型的输入端输入源语音的梅尔语谱x,在第一语音转换基础模型的输出端会得到预测的目标语音的梅尔语谱
在一些实施例中,在所述将待转换源语音的梅尔语谱输入对偶语音转换模型,生成转换后的目标语音的梅尔语谱之前,还可以包括将语音数据集输入第一语音转换基础模型和第二语音转换基础模型形成的对偶环进行迭代训练得到所述对偶语音转换模型,具体可以包括:根据第一语音转换基础模型和第二语音转换基础模型建立对偶环,本实施例中,将所述第一语音转换基础模型和所述第二语音转换基础模型连接在一起形成所述对偶环;将语音数据集输入所述对偶环进行迭代训练可以得到所述对偶语音转换模型,也就是说,可以将语音数据集从所述第一语音转换基础模型输入并经过所述第二语音转换基础模型后输出,或者可以从所述第二语音转换基础模型输入并经过所述第一语音转换基础模型后输出,将输出值与对应的输入值进行比较,进而可以对所述第一语音转换基础模型和所述第二语音转换基础模型的参数进行迭代优化。
进一步,在所述根据第一语音转换基础模型和第二语音转换基础模型建立对偶环之前,还可以包括:建立所述第一语音转换基础模型和所述第二语音转换基础模型,其中,所述第一语音转换基础模型和所述第二语音转换基础模型均包括编码器、注意力机制模块和解码器;所述编码器(encoder)包含2层卷积层(convolutionneuralnetwork,cnn)和一层双向长短期记忆网络层(bi-directionallongshort-termmemory,bi-lstm),编码器用于将输入值编码成隐向量;使用所述注意力机制模块(attention)得到的上下文向量是随解码器时间步动态更新的,具体地,在每个解码器时间步都会使用注意力机制计算出一个概率分布,然后将该时间步的隐藏特征进行概率加权求和,作为该时间步的上下文向量,这种机制可以使得每个解码器时间步动态关注自己所需要的隐藏特征;所述解码器(decoder)包含2层单向的lstm层,2层全连接层(也即前处理模块,用于更好地学习注意力机制下的概率分布),以及5层卷积层(也即后处理模块,用于预测残差,并将残差加到预测的转换梅尔语谱中,相当于是对转换语音的细节进行了精调,有利于提升转换语音的音质)。
在一些可选的实施例中,所述根据第一语音转换基础模型和第二语音转换基础模型建立对偶环,可以包括:将所述第一语音转换基础模型的输出端与所述第二语音转换基础模型的输入端连接,并将所述第二语音转换基础模型的输出端与所述第一语音转换基础模型的输入端连接,形成所述对偶环,使得所述第一语音转换基础模型的输出值可以作为所述第二语音转换基础模型的输入值,所述第二语音转换基础模型的输出值也可作为所述第一语音转换基础模型的输入值,初始数据经过第一语音转换基础模型和第二语音转换基础模型后输出值与初始数据的性质相同,比如,将语音数据集中a语音的梅尔语谱输入所述第一语音转换基础模型和第二语音转换基础模型后得到的输出值还是经过转换后a语音的梅尔语谱,将语音数据集中b语音的梅尔语谱输入所述第一语音转换基础模型和第二语音转换基础模型后得到的输出值还是转换后b语音的梅尔语谱。
在一些实施例中,所述将语音数据集输入所述对偶环进行迭代训练得到所述对偶语音转换模型,可以包括:将所述语音数据集中源语音的梅尔语谱x依次经过所述第一语音转换基础模型的转换和所述第二语音转换基础模型的重构,生成重构后的源梅尔语谱
在一些可选的实施例中,所述将所述语音数据集中源语音的梅尔语谱x依次经过所述第一语音转换基础模型的转换和所述第二语音转换基础模型的重构,生成重构后的源梅尔语谱
步骤1:将所述语音数据集中源语音的梅尔语谱x作为输入,真实目标语音的梅尔语谱y作为标签形成真实数据对(x,y),将真实数据对(x,y)输入所述第一语音转换基础模型可以转换得到预测的目标梅尔语谱
其中,转换损失
步骤2:将所述预测的目标梅尔语谱
其中,重构损失
步骤3:将转换损失
于步骤3之后,在每次迭代后采样新的真实源和目标梅尔语谱对(x,y),并从步骤1重新开始,其中,每一次迭代新的真实源和目标梅尔语谱对(x,y)经过第一语音转换基础模型和第二语音转换基础模型的过程简化表示为
于步骤3之后,随着第一语音转换基础模型的收敛,第一语音转换基础模型将学会源语音的梅尔语谱x到预测的目标梅尔语谱
在一些实施例中,所述将所述语音数据集中真实目标语音的梅尔语谱y依次经过所述第二语音转换基础模型的转换和所述第一语音转换基础模型的重构,生成重构后的目标梅尔语谱
步骤4:将所述语音数据集中真实目标语音的梅尔语谱y作为输入,源语音的梅尔语谱x作为标签形成真实数据对(y,x),将真实数据对(y,x)输入所述第二语音转换基础模型转换得到预测的源梅尔语谱
其中,转换损失
步骤5:将所述预测的源梅尔语谱
其中,重构损失
步骤6:将转换损失
于步骤6之后,在每次迭代后采样新的真实源和目标梅尔语谱对(x,y),并从步骤4重新开始,其中,每一次迭代新的真实源和目标梅尔语谱对(x,y)经过第二语音转换基础模型和第一语音转换基础模型的过程简化表示为
于步骤6之后,经过多次的迭代优化后,第二语音转换基础模型将学会真实目标语音的梅尔语谱y到预测的源梅尔语谱
进一步,于步骤6之后,可以根据每轮迭代后第一语音转换基础模型在验证集上的验证损失
进一步,在将待转换源语音的梅尔语谱输入对偶语音转换模型,生成转换后的目标语音的梅尔语谱之后,还包括:通过griffin-lim算法可以将转换后的梅尔语谱变为可以播放的语音波形,即wav格式的声音文件。
本发明还提供了一种少语料下的对偶语音转换装置,其可以包括:转换模块,其用于将待转换源语音的梅尔语谱输入对偶语音转换模型,生成转换后的目标语音的梅尔语谱;其中,所述对偶语音转换模型是将语音数据集输入第一语音转换基础模型和第二语音转换基础模型形成的对偶环进行迭代训练得到的,所述第一语音转换基础模型和所述第二语音转换基础模型的映射能力相反;通过该对偶语音转换装置,在第一语音转换基础模型的输入端输入源语音的梅尔语谱x,在第一语音转换基础模型的输出端会得到预测的目标语音的梅尔语谱
本发明还提供了一种存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行上述的少语料下的对偶语音转换方法,该存储介质可以包括:只读存储器(rom,readonlymemory)、随机存取记忆体(ram,randomaccessmemory)、磁盘或光盘等。由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种少语料下的对偶语音转换方法中的步骤,因此,可以实现本申请实施例所提供的任一种少语料下的对偶语音转换方法所能实现的有益效果,详见前面的实施例,在此不再赘述
本发明还提供了一种语音转换设备,其可以包括:存储器,用于存储可执行指令;处理器,用于执行所述存储器中存储的可执行指令,以执行上述的少语料下的对偶语音转换方法。
本发明实施例提供的一种对偶语音转换方法、装置、存储介质和设备的原理为:
由于对偶语音转换模型是通过将语音数据集输入第一语音转换基础模型和第二语音转换基础模型形成的对偶环进行训练得到的,且所述第一语音转换基础模型与所述第二语音转换基础模型的映射能力相反,利用语音转换的对称性,在对偶环中进行数据集的循环迭代训练,可以对所述对偶语音转换模型的参数进行迭代优化,提升所述对偶语音转换模型的转换性能,减少了语音转换系统对平行语料数据集规模的依赖程度,使得语音转换系统在平行语料较匮乏时也能拥有较高的转换性能,在少语料时也能合成高质量的转换语音;帮助语音转换模型在少语料时更好地进行音素特征对齐,并合成可懂的转换语音。
在本发明的描述中,需要说明的是,术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
需要说明的是,在本发明中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
本文用于企业家、创业者技术爱好者查询,结果仅供参考。