一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种语音转换方法、装置、设备及存储介质

2022-04-24 22:57:40 来源:中国专利 TAG:


1.本技术涉及智能语音技术领域,尤其涉及一种语音转换方法、装置、设备及存储介质。


背景技术:

2.随着机器学习和人工智能最近几年以来的迅速发展,语音技术作为人工智能主要领域之一,也得到了广泛的关注。语音信号内蕴了多种信息,包括说话人身份、情感和语义信息等。语音转换(voice conversion,vc)作为智能语音技术方向之一,就是通过修改语音信号中与说话人相关的频谱和韵律特征,在保持与说话人无关的信息(语言内容)不变的同时,改变感知到的说话人身份信息。语音转换技术在多个领域都有着广泛的应用场景,如:ai 配音、歌声转换、模仿或隐藏说话人的身份、个性化语音合成等。
3.传统的语音转换基本是依赖于复杂的语音信号处理先验知识,从语音波形中提取出多种低维的信号表征,然后通过统计模型来对待转换的源语音特征到转换后的目标语音特征建立映射,从而实现语音转换。但是传统的语音转换要经过复杂的特征提取步骤,并且性能无法保障。为了减少复杂的特征提取步骤,可以采用深度学习来代替传统的统计模型,通过神经网络来实现源语音特征到目标语音特征的映射,因此有必要设计一种语音转换方法、装置、设备存储介质以克服上述问题。


技术实现要素:

4.本技术的主要目的在于提供一种语音转化方法、装置、计算机设备及计算机可读存储介质,旨在解决现有技术中语音转换要经过复杂的特征提取步骤的技术问题。
5.第一方面,本技术提供一种语音转换方法,所述方法包括以下步骤:
6.将源语音的梅尔语谱输入到语音转换模型,获得所述语音转换模型输出的目标语音的梅尔语谱;
7.其中,所述语音转换模型在训练时以训练梅尔语谱为输入,获得所述语音转换模型的转换梅尔语谱损失和停止概率损失,以所述转换梅尔语谱损失和所述停止概率损失最小化为目标对所述语音转换模型进行迭代训练。
8.一些实施例中,所述将源语音的梅尔语谱输入到语音转换模型,获得所述语音转换模型输出的目标语音的梅尔语谱前,还包括:
9.预置语音转换模型;
10.输入所述训练梅尔语谱到所述语音转换模型,获得当前时间步转换梅尔语谱帧和所述当前时间步转换梅尔语谱帧对应的停止概率;
11.根据所述当前时间步转换梅尔语谱帧确定所述转换梅尔语谱损失,根据所述停止概率确定所述停止概率损失;
12.根据所述当前时间步转换梅尔语谱损失和所述停止概率损失确定所述转换模型的总损失;
13.以所述总损失最小化为目标,对所述语音转换模型进行迭代优化,获得训练后的语音转换模型。
14.一些实施例中,所述输入所述训练梅尔语谱到所述语音转换模型,获得当前时间步转换梅尔语谱帧和所述当前时间步转换梅尔语谱帧对应的停止概率,还包括:
15.输入上一时间步转换梅尔语谱帧到所述语音转换模型。
16.一些实施例中,所述根据所述当前时间步转换梅尔语谱帧确定所述转换梅尔语谱损失,包括:
17.对所述当前时间步转换梅尔语谱帧进行残差预测,获得残差值;
18.根据所述当前时间步转换梅尔语谱帧和所述残差确定所述转换梅尔语谱损失。
19.一些实施例中,所述以所述总损失最小化为目标,对所述语音转换模型进行迭代优化,获得训练后的语音转换模型,包括:
20.通过梯度下降法更新所述语音转换模型的网络权重参数,直至所述总体损失收敛至最小。
21.一些实施例中,所述语音转换模型,包括:
22.编码器,所述编码器用于将所述源语音的梅尔语谱转换为特征向量;
23.位置敏感的注意力模块,所述位置敏感的注意力模块用于确定所述特征向量的分布概率,根据所述特征向量的分布概率确定当前时间步的特征向量;
24.解码器,所述解码器用于将所述当前时间步的特征向量转换为目标语音的梅尔语谱,并获取所述目标语音的梅尔语谱的停止概率。
25.一些实施例中,所述将源语音的梅尔语谱输入到语音转换模型,获得所述语音转换模型输出的目标语音的梅尔语谱后,还包括:
26.将所述目标语音的梅尔语谱通过预置的频谱恢复语音信号算法转换为目标语音。
27.第二方面,本技术还提供一种语音转换装置,所述装置包括:
28.转换模块,其用于将源语音的梅尔语谱输入到语音转换模型,获得所述语音转换模型输出的目标语音的梅尔语谱;
29.其中,所述语音转换模型在训练时以训练梅尔语谱为输入,获得所述语音转换模型的转换梅尔语谱损失和停止概率损失,以所述转换梅尔语谱损失和所述停止概率损失最小化为目标对所述语音转换模型进行迭代训练。
30.第三方面,本技术还提供一种计算机设备,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如上述的语音转换方法的步骤。
31.第四方面,本技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如上述的语音转换方法的步骤。
32.本技术提供一种语音转换方法、装置、计算机设备及计算机可读存储介质,通过向语音转换模型中输入训练梅尔语谱,获得语音转换模型的转换梅尔语谱损失和停止概率损失;其中,所述语音转换模型在训练时以训练梅尔语谱为输入,获得所述语音转换模型的转换梅尔语谱损失和停止概率损失,以所述转换梅尔语谱损失和所述停止概率损失最小化为目标对所述语音转换模型进行迭代训练,以实现提升语音转换模型的转换性能,在使用该
语音转换模型进行语音转换时能够生成音质更好的转换语音。
附图说明
33.为了更清楚地说明本技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
34.图1为本技术实施例提供的语音转换模型搭建和训练过程的流程示意图;
35.图2为本技术实施例提供的一种语音转换方法的转换流程示意图;
36.图3为本技术实施例提供的语音转换模型的结构示意图。
37.本技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
38.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
39.附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
40.本技术实施例提供一种语音转换方法、装置、计算机设备及计算机可读存储介质。
41.下面结合附图,对本技术的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
42.请参照图1、图2和图3所示。
43.步骤1、将人说话人的源语音中的源梅尔语谱和期望的目标语音中的目标梅尔语谱提取出来,并且将一个说话人所说的一句话的源语音的源梅尔语谱进行标号,将与这一句话对应的目标语音的目标梅尔语谱标记为相同的序号,并将相同标号的源语音的源梅尔语谱和目标语音的梅尔语谱对应起来进行储存,其中将源语音的源梅尔语谱作为语音转换模型的训练梅尔语谱。
44.步骤2、构建语音转换模型。该语音转换模型中包括编码器(encoder)、位置敏感的注意力模块(attention)和解码器(decoder)。
45.构建的解码器中包含一个3层堆叠的一维卷积层和一个双向长短期记忆层(bi-directional long short-term memory,bi-lstm)。其中,3层堆叠的一维卷积层中的第一层为80个形状为8x1的卷积核,用于匹配输入梅尔语谱的特征维度,第二层卷积层为512个形状为8x1的卷积核,第三层设置了线性整流函数(rectified linear unit,relu)作为激活函数并跟随一个批标准化层(batch normalization)。双向长短期记忆层中每个方向都设置了256个神经元。
46.位置敏感的注意力模块中包含了32个卷积核大小为31x1的一维卷积和归一化指数函数(softmax)。
47.解码器中包含了2个单向的长短期记忆层(2lstm layers),两个线性预测层
(linear projection),一个前处理模块(pre-net)和一个后处理模块 (post-net)模块。其中,单向的长短期记忆层包括1024个隐藏单元;前处理模块中包括两层线性整流函数(relu)作为激活函数的全连接层,每层设置256个隐藏单元。后处理模块由5个卷积层组成,每层包含512个长度为5 的卷积核,并且前面四层卷积用双曲正切函数(tanh)进行激活,最后一层使用线性整流函数(relu)作为进行激活函数。
48.步骤3、对语音转换模型进行训练。在对语音转换模型进行训练时将步骤 1中准备好的训练梅尔语谱输入语音转换模型中,语音转换模型以梅尔语谱帧为转换单位进行语音转换,获得转换梅尔语谱帧和停止概率,为语音转换模型的优化提供参数。
49.具体的,输入训练梅尔语谱到语音转换模型中,编码器对训练梅尔语谱进行特征抽取和编码形成一共512个神经元作为训练梅尔语谱的编码后的特征向量。解码器是以一个梅尔语谱帧的特征向量为单位进行解码的,编码器生成的特征向量是以特征序列的形式以一个梅尔语谱帧的特征向量为单位输入解码器进行解码,使用位置敏感的注意力机制控制特征序列在输入解码器时保持前向移动。编码器输出的特征向量进入位置敏感的注意力模块的,位置敏感的注意力模块将特征向量在特征序列中的位置信息编码到32维的序列位置特征向量。随着解码器的解码时间步的进行,特征向量和位置特征向量被投影到128个维度隐藏特征向量,使用位置敏感的注意力模块中的归一化指数函数(softmax)计算出这128个维度隐藏特征向量的概率分布,在每个时间步都会得到新的概率分布,使用对应时间步的概率分布对128个隐藏特征向量进行加权求和作为当前解码时间步的编码向量。通过位置敏感的注意力模块可以使得每个解码器时间步动态关注自己所需要的隐藏特征,使得语音转换模型在输入特征序列上一直保持前向移动,减少了解码器可能会对某些子序列的潜在表示不断重复或者跳过的可能性。
50.进一步的,语音转换模型的解码器部分是一个自回归的循环神经网络每一次迭代都会对一个梅尔语谱帧的特征向量进行转换。解码器在进行解码时,将编码器生成的特征向量中的当前时间步的特征向量作为解码器的输入,同时将上一时间步解码器转换完成输出的转换梅尔语谱帧作为解码器的输入。其中上一时间步转换梅尔语谱帧在输入解码器前要使用前处理模块(pre-net) 进行处理得到上一时间步转换梅尔语谱帧的特征向量,前处理模块在这里起到信息瓶颈层的作用,这有助于注意力概率分布的学习,上一时间步转换梅尔语谱帧可以帮助语音转换模型收敛,如果上一时间步解码出的梅尔语谱帧存在较大误差,则会对后续帧的预测造成较大影响,使用强制教学机制在一定程度上可以规避这种错误。
51.进一步的,解码器接收到当前时间步的特征向量和上一时间步转换梅尔语谱帧特征向量后,将他们输入到2个单向的长短期记忆层(2lstm layers) 中,然后通过两个线性预测层(linear projection)分为两端进行输出。第一端的线性预测层用于生成当前时间步对应的转换梅尔语谱帧,第二端的线性预测层用于预测该当前时间步梅尔语谱帧对应的停止概率。第二端将输入特征向量映射成一个标量,然后用激活函数(sigmoid)进行激活,来计算当前梅尔语谱帧对应的停止概率。解码器会逐帧地预测梅尔语谱以及该梅尔语谱帧帧对应的停止概率,根据预测梅尔帧对应的停止概率动态地决定何时结束推理,而不是生成一个与源语音的梅尔语谱帧数相等的转换梅尔语谱,因为同一句话不同的人发音时长不尽相同,对应的梅尔语谱帧数通常不会完全相等,这样显得更合理。
52.优选的,在解码器第一端的线性预测层生成当前时间步对应的转换梅尔语谱帧后,通过后处理模块(post-net)对该转换梅尔语谱帧预测残差,获得残差值,将转换梅尔语谱帧和预测的差残值相加作为解码器第一端的最终输出。
53.步骤4、根据目标语音中的目标梅尔语谱计算解码器第一端的最终输出的转换梅尔语谱的损失和第二段的停止概率的损失,转换梅尔语谱损失和停止概率的损失为语音转换模型的总损失。
54.步骤5,通过梯度下降法更新所述语音转换模型的网络权重参数,直至所述总体损失收敛至最小。
55.根据总损失来更新语音转换模型,通过随机梯度下降算法,每进行一次解码即为一轮迭代,语音转换模型的网络权重参数都往梯度减小的方向进行微调,最终参数各个分量梯度近似为0的时候,即达到损失的最小值,这时候损失也收敛至最低位,此时对应的参数,能较好的实现源语音到目标语音的映射,可以使得语音转换模型拥有较好的语音转换性能。
56.步骤6、在语音转换模型训练好后,将需要进行转换的源语音的梅尔语谱输入到语音转换模型,经过语音转换模型的转换,获得语音转换模型进行转换后输出的目标语音的梅尔语谱,目标语音的梅尔语谱通过预置的频谱恢复语音信号算法(griffin-lim)转换为目标语音。
57.本发明还提供了一种语音转换装置,该装置包括转换模块。所述转换模块用于:将源语音的梅尔语谱输入到语音转换模型,获得所述语音转换模型输出的目标语音的梅尔语谱;其中,所述语音转换模型在训练时以训练梅尔语谱为输入,获得所述语音转换模型的转换梅尔语谱损失和停止概率损失,以所述转换梅尔语谱损失和所述停止概率损失最小化为目标对所述语音转换模型进行迭代训练。需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各模块及单元的具体工作过程,可以参考前述实施例中的对应过程,在此不再赘述。
58.本发明还提供了一种计算机设备,该计算机设备可以为终端。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器。非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种语音转换方法。处理器用于提供计算和控制能力,支撑整个计算机设备的运行。内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种语音转换方法。
59.本技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序中包括程序指令,所述程序指令被执行时所实现的方法可参照本技术的各个实施例。
60.其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital, sd)卡,闪存卡(flash card)等。
61.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排
他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
62.上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以权利要求的保护范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献