一种基于遗传算法的语音转换参数寻优方法

2022-11-30 14:53:34 来源：中国专利 TAG：

1.本发明涉及语音转换技术领域，具体是一种基于遗传算法的语音转换参数寻优方法。

背景技术：

2.随着人工智能技术的兴起，智能语音交互、个性化语音生成等技术逐步受到人们的关注。语音转换作为个性化语音生成的一种重要技术和手段，涉及语音信号处理、人工智能、模式识别、语音学等多方面学科领域，是当今语音处理研究领域的热点和难点，近年来越来越引起学者的重视。
3.语音转换(vc)是一种将源说话人的语音转换为特定目标说话人相同音色的语音技术。语音转换大致分为两个方向，即频谱转换和韵律转换。频谱转换主要是通过语音的波形转为频谱的形式，再使用机器学习技术，学习源语音频谱到目标语音频谱的转变过程，最终实现语音的转换。这种使用频谱的方法优点是能够很好的保留人声音中的个性特征，能保证较高的转换效果，但转换建模相当复杂，需要大量的训练语料，训练时间和转换时间较长是它的缺点。stylianou等人引入gmm对声道谱特征进行建模，使用基于概率的“软”聚类代替基于矢量量化的“硬”聚类，该方法提升了语音转换的质量。
4.韵律转换主要包括韵律和非周期分量的转换。chen等研究了基于深度神经网络的转换方法。对于非周期分量，为尽可能减少对转换效果贡献较小的运算，采用直接复制的方式，不对其进行转换。所以韵律转换的建模通常通过基频包络来实现转换。这种转换方式的优点是需要的训练语料相对较少，建模简单，训练和转换时间短，不易产生“怪调”，但缺点是声音的个性特征转换效果不如频谱转换。ming等人提出使用dblstm-rnn网络转换韵律中的f0，能够兼顾上下文信息，但原始f0的结构信息未保留，会导致其与频谱的合成过程中产生杂音，影响语音转换的质量。
5.上述的几种常见的语音转换方法都有各自的优缺点，并不适用于基于滤波器的语音转换问题。基于滤波器的语音转换是通过改变语音信号特征来进行转换，与上述常见的语音转换方法相比更加简单，同时不需要大量训练语料，声音的个性特征转换效果良好。语音转换领域的滤波器参数寻优问题，很多时候使用手动选择的方式，这种方式适用于参数小且容易选择的场景。遗传算法是基于随机搜索但更有目的的方法，比手动选择和网格搜索更适用于规模庞大的参数、效率也更高。
6.在遗传算法的相关研究中，选择过程是遗传算法中的重要步骤，选择决定了某些特定的基因是否会参与复制的过程，遗传算法中大部分采用轮盘赌的方式进行选择，但由于随机性引起的误差较大，因此，为了减少最优解过早收敛于局部极小值的概率，提出一种优化的轮盘赌算法。针对子代遗传过程中存在的信息丢失问题，通过精英策略减少优质遗传信息的丢失，并通过多点交叉将双亲的遗传信息传递到新的子代。基因突变是保持种群间遗传多样性的算子，但是大多数变异算子采取相同的数值，没有充分考虑到种群繁衍的程度和亲本环境适应度，亟需寻找一种自适应变异算子解决子代繁衍自适应环境的方法。

技术实现要素：

7.本发明的目的在于提供一种基于遗传算法的参数寻优方法并将这种方法应用到基于滤波器的语音转换参数寻优中，这种方法通过使用影响语音信号特征的滤波器参数，通过竞争进化自适应遗传算法，得到最终的种群，通过转换语音与目标语音的梅尔倒谱失真来计算损失，得到最优滤波器参数，进而通过改变滤波器参数来实现高质量、高效率的语音转换功能，以解决上述背景技术中提出的问题。
8.为实现上述目的，本发明提供如下技术方案：
9.一种基于遗传算法的语音转换参数寻优方法，包括以下步骤：
10.(4)源语音和目标语音的获取；源语音和目标语音需要并行语音语料，即说话人的语调可以不一样，但是说话人的内容信息是一致的；语音语料集采用相同的采样率，音频格式为wav格式；
11.(5)滤波器参数的选择；滤波器参数的选择包括但不限于音高、混响，通过各种滤波器进行提取；
12.(6)基于竞争自适应遗传算法进行滤波器参数寻优，得到最优参数；根据选择的滤波器参数与源语音构建转换函数f(θ1，θ2，
…
，θn，x)，为接下来使用竞争自适应遗传算法做准备；
13.(4)根据评价指标，对最优参数进行评价；其中，评价指标使用梅尔倒谱失真(mcd)，是一种客观误差测量方法，梅尔倒谱失真本质上是一个加权欧氏距离，定义为
[0014][0015]
其中，和分别表示目标和估计的梅尔倒谱系数。
[0016]
进一步的：本发明方法的语音转化过程，是使用在竞争进化自适应遗传算法中得到的最优参数，再将源语音x带入到转换函数f(x)中，得到转换后的语音y；具体过程如下：
[0017]
1)源语音的输入；通过麦克风进行语音录入，保存为wav文件，音频参数和参数寻优时使用的参数一致；
[0018]
2)根据目标语音选取最优滤波器参数，以及语音转换函数f(θ1，θ2，
…
，θn，x)；
[0019]
3)源语音音频作为x，最优滤波器参数θ1，θ2，
…
，θn代入语音转换函数f(θ1，θ2，
…
，θn，x)，完成语音转换，生成转换后的语音y。
[0020]
本发明方法的遗传算法流程，提出了一种竞争进化自适应的遗传算法；相较于传统遗传算法，针对背景技术中的选择和交叉的问题，本发明采取了竞争进化规则，选择种群中适应度高的个体基因无损遗传，亲本间遗传信息多点交叉，产生两个新个体，参与染色体基因变异过程；针对背景技术中变异的问题，本发明提出一种新的自适应变异算子，种群在繁衍迭代过程中根据环境适应度和种群繁衍程度计算出变异概率，提高种群的整体环境适应度，达到适应度收敛的目的。
[0021]
进一步的：本发明方法的遗传算法的流程，包括以下步骤：
[0022]
步骤1、参数初始化：包括遗传代数(n)、种群的规模(popsize)、种群精英保留数(k)、基因编码长度(l)、基因交叉的概率(pc)和基因变异的概率(pm)；并对韵律特征参数进
行二进制编码，得到染色体，然后随机初始化种群；
[0023]
步骤2、计算每个染色体的适应度：适应度函数f是判断种群里染色体优劣的指标，结合语音转换的损失函数；f值越大表明该染色体有越高的环境适应度，在环境中的生存优势越明显，是更优异的染色体；适应度越高的染色体遗传给下一代的概率就越大,反之则越小；
[0024]
步骤3、选择操作：先选择种群中适应度最高的k个染色体，k∈(0,m),m是一个种群中染色体的数量，保留这k个染色体的遗传信息直接作为新种群中的染色体，再从新的种群中采用轮盘赌的方式随机选取匹配两个染色体(传统遗传算法的选择操作是直接采取轮盘赌方法，选择两个染色体为亲本参与基因的遗传过程)；
[0025]
步骤4、交叉操作：采用多点交叉的方法，即通过亲本a和b，获得子代c1和c2，其中随机交叉点是常数变量，由随机数产生；相较于传统的交叉过程，此交叉方式使遗传基因产生更多的交叉点，有效扩大了遗传信息的搜索空间，保障了遗传信息的多样性；
[0026]
步骤5、变异操作：变异概率pm在传统的遗传算法中赋值为常数值，通过计算，变异概率pm根据不同的遗传代数和当前代产生子种群的相关适应度计算出相适应的值，此过程模拟了自然环境中遗传突变概率的变化，使染色体变异概率有效收敛(本发明方法的遗传算法流程改进了竞争进化自适应遗传算法中的计算方式，使其与新个体的父本适应度和与种群里的环境适应度最大值有关)；
[0027]
步骤6、重复步骤3到步骤5的操作，生成多个子代染色体，直到新种群中的染色体数量达到种群数量标准m；当满足结束种群遗传条件(达到最大遗传代数)时，输出最后的种群，其中适应度最高的染色体的基因为语音转换滤波器的最优参数。
[0028]
与现有技术相比，本发明对于语音转换参数寻优问题的解决提供了一种新的思路，可以用较小的语音语料集，在保证语音质量的基础上完成参数的寻优，寻优效果比传统遗传算法提升了效率，加快了语音转换速度。这种转换方法可以应用于变音软件方向；对于各种语音转换中的不同参数的寻优有一定的参考价值。
附图说明
[0029]
图1为一种基于遗传算法的语音转换参数寻优方法中参数寻优的流程图。
[0030]
图2为一种基于遗传算法的语音转换参数寻优方法中语音转换的流程图。
[0031]
图3为一种基于遗传算法的语音转换参数寻优方法中遗传算法的流程图。
具体实施方式
[0032]
下面结合具体实施方式对本专利的技术方案作进一步详细地说明。
[0033]
如图1所示，一种基于遗传算法的语音转换参数寻优方法，包括：(1)源语音和目标语音的获取；(2)滤波器参数的选择；(3)基于竞争自适应遗传算法进行滤波器参数寻优，得到最优参数；(4)根据评价指标，对最优参数进行评价。
[0034]
其中，所述源语音和目标语音需要并行语音语料，即说话人的语调可以不一样，但是说话人的内容信息是一致的；语音语料集采用相同的采样率，音频格式为wav格式；滤波器参数的选择包括音高、混响等，通过各种滤波器进行提取；根据选择的滤波器参数与源语音构建转换函数f(θ1，θ2，
…
，θn，x)，为接下来使用竞争自适应遗传算法做准备。评价指标使
用梅尔倒谱失真(mcd)，是一种客观误差测量方法，梅尔倒谱失真本质上是一个加权欧氏距离，定义为
[0035][0036]
其中和分别表示目标和估计的梅尔倒谱系数。
[0037]
如图2所示，本实施例中参数寻优方法的语音转换过程包括：(1)源语音的输入：通过麦克风进行语音录入，保存为wav文件，音频参数和参数寻优时使用的参数一致；
[0038]
(2)根据目标语音选取最优滤波器参数，以及语音转换函数f(θ1，θ2，
…
，θn，x)(3)源语音音频作为x，最优滤波器参数θ1，θ2，
…
，θn代入语音转换函数f(θ1，θ2，
…
，θn，x)，完成语音转换，生成转换后的语音y。
[0039]
进一步的，在本发明的参数寻优方法的语音转化过程，在使用时，要根据语音转换问题的具体情况来实现；当不能使用频谱进行转换时，可以考虑用改变参数的方式来进行语音转换。
[0040]
如图3所示，一种基于遗传算法的语音转换参数寻优方法的遗传算法，其具体寻优步骤如下：
[0041]
s1、参数初始化：包括：遗传代数(n)，种群的规模(popsize),种群精英保留数(k)，基因编码长度(l)，基因交叉的概率(pc)和基因变异的概率(pm)，并对选择的滤波器参数(韵律特征参数)进行二进制编码，得到染色体，然后随机初始化种群；
[0042]
s2、计算适应度：适应度函数f是判断种群里个体优劣的指标，结合语音转换的损失函数，适应度函数f的定义如下：
[0043][0044]
其中mcd表示语音的梅尔倒谱失真，f值越大表明该染色体有越高的环境适应度，在环境中的生存优势越明显，是更优异的染色体，适应度越高的染色体遗传给下一代的概率就越大,反之则越小；
[0045]
s3、选择操作：传统遗传算法的选择操作是直接采取轮盘赌方法，选择两个染色体为亲本参与基因的遗传过程；本发明的方法是先选择种群中适应度最高的k个染色体，k∈(0,m),m是一个种群中染色体的数量，保留这k个适应度最高的染色体的遗传信息直接作为新种群中的染色体。再从新的种群中采用轮盘赌的方式随机选取匹配两个染色体；
[0046]
s4、交叉操作：本发明中使用的是多点交叉的方式,通过亲本a和b，获得子代c1和c2，其中i是随机交叉点，由随机数产生；在改进的的遗传算法中则采用多点交叉遗传如下式：
[0047]c′1和c
′2是由亲本多点交叉得到的子代，式中的m1、m2、m3...mk由随机数产生，k也随机产生。相较于传统的交叉过程，此交叉方式使遗传基因产生更多的交叉点，有效扩大了遗传信
息的搜索空间，保障了遗传信息的多样性；
[0048]
s5、变异操作：变异概率pm在传统的遗传算法中赋值为0.1，本发明中改进的竞争进化自适应遗传算法中的计算方式如下式：
[0049][0050]
其中k是常数，赋值0.1，n是当前代遗传次数，n∈(0,n)，n是最大遗传代数，fsum为产生新染色体的父本适应度和，fmax是当前种群里的环境适应度最大值。通过计算，变异概率pm根据不同的遗传代数和当前代产生子种群的相关适应度计算出相适应的值。此过程模拟了自然环境中遗传突变概率的变化，使个体变异概率有效收敛；
[0051]
s6、重复s3至s5的操作，生成多个子代染色体，直到新种群中的染色体数量达到种群数量标准m。当满足结束种群遗传条件(达到最大遗传代数)时，输出最后的种群，其中适应度最高的染色体的基因为语音转换的最优参数。
[0052]
本实施例中，采用一个简单的公式来说明语音转换过程中的参数寻优过程：
[0053]
y＝f(θ1，θ2，
…
，θn，x)＝(θ1 θ2
…
θn)
·
x
[0054]
假定如上述所示的一个简单的公式，语音转换问题可以看成源语音x通过改变参数θ1，θ2，
…
，θn的值从而得到转换后的语音y。
[0055]
将参数θ1，θ2，
…
，θn看作种群中的一个个体，进行染色体的编码，随机生成多个染色体，初始化种群；然后计算种群中所有染色体的适应度；选择种群中适应度最高的k个精英染色体，k∈(0,m),m是一个种群中染色体的数量，保留这k个染色体的遗传信息直接作为新种群中的染色体；然后从种群中随机匹配两个染色体；两个染色体的遗传基因θ1，θ2，
…
，θn实行多点交叉和自适应变异，得到两个新的染色体作为新种群的染色体；重复随机匹配和交叉变异的操作，直到新种群中的染色体数量达到种群数量标准m；当满足结束条件时，输出最后的种群，种群中适应度最大的染色体中的基因就是寻找的最优参数。
[0056]
上面对本专利的较佳实施方式作了详细说明，但是本专利并不限于上述实施方式，在本领域的普通技术人员所具备的知识范围内，还可以在不脱离本专利宗旨的前提下作出各种变化。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：基于相似对对比学习用户自定义关键词识别方法及系统与流程

一种基于遗传算法的语音转换参数寻优方法

相关文献

最热文献