一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于自学习复数卷积神经网络的鲁棒性语音增强方法

2022-06-02 12:30:17 来源:中国专利 TAG:


1.本发明涉及语音增强、降噪领域,具体为一种基于自学习复数卷积神经网络的鲁棒性语音增强方法。


背景技术:

2.语音通信等任务广泛应用于日常生活中,但语音中的噪声会覆盖语音中的关键信息,降低语音感知质量和可理解性,使语音质量难以保证,影响人对语音内容的理解,进而降低用户通信体验,对日常生活造成严重影响。为有效消除噪声干扰,语音增强技术被提出,它是通过对带噪语音信号进行处理,尽可能移除噪声信号,恢复出干净语音的技术,大幅减少了语音通信中噪声的干扰、提高语音信噪比,使语音通信质量更好。因此,语音增强对语音的相关任务至关重要。
3.近年来,深度学习成为语音领域的研究热点,基于深度学习的语音增强方法得到快速发展。早期研究的语音增强方法主要是基于时频域的分析方法,更关注时频域中与振幅相关的训练目标,而忽略了相位即关注实部忽略虚部,单纯的利用语音信号实部特征进行语音增强,导致语音信号较正常值偏离严重,造成降噪效果差等问题。最近一些研究开始重视虚部信息,在实值网络中进行训练,分别预测实部和虚部后进行叠加。如微软提出的phase语音增强模型,使用双流模型架构分别处理实部和虚部信息,各项指标都取得了不错的效果。tan等人的卷积递归网络(crn)集成了卷积编解码器(ced)结构和长短期记忆网络(lstm),已被证明有利于处理复杂的目标。这些方法虽利用了实部与虚部的信息,但实虚部也需分离计算且不受复乘规则的限制,没有充分利用实部与虚部的内在关联性。为将实部和虚部共同计算以充分利用其关联性,choi等人根据u-net提出dcunet网络,在u-net基础上设计了复数批归一化和复数relu(prelu)块来实现该思想,复数模块通过复数乘法来模拟实部和虚部之间的相关性,输入的复数数据可以直接进行运算,无需将实部虚部分开估计。hu等人设计了一种深度复数卷积递归网络(dccrn),借鉴dcunet的复数思想并对crn进行大量修改得到复数conv2d层,提出复数lstm来代替传统的lstm,进一步更新了crn网络。此类基于复数的方法充分利用了实部和虚部,很大程度保留了有效的语音特征,提高了语音增强效果,但这些方法仍然只是基于语音信号的时频域进行分析,而忽视了其他空间域的信息表达且现阶段语音增强模型仍需专业经验及可靠先验知识的科研人员进行人工设计,既耗时费力又难以保证网络的鲁棒性和泛化性,制约了实际工程中语音增强方法的落地应用。基于上述思想,可以进一步的改进语音增加方法。


技术实现要素:

4.本发明为了解决进一步提高深度语音增强模型对语音信号的特征完备性、关联性表达及模型超参数自适应全局优化效率的问题,提供了一种基于自学习复数卷积神经网络的鲁棒性语音增强方法(简写为amdccrn)。
5.本发明是通过如下技术方案来实现的:一种基于自学习复数卷积神经网络的鲁棒
性语音增强方法,包括如下步骤:
6.一、将一维语音信号映射至多个空间域中生成基础域和辅助域;
7.候选多辅助域设置:将语音一维信号样本映射入多个空间域中以得到更多的语音信息,数据样本高维映射空间域包括基础域的时频域即短时傅里叶变换stft和辅助域的递归图域rpf、格拉姆角和场域gasf、格拉姆角差场域gadf、马尔科夫转移场域mtf;
8.二、搭建mdccrn语音增强模型,通过复数自注意力机制更深层次的提取基础域的信息,并通过所设计的复数多头注意力机制将基础域和表征能力强的辅助域的特征信息相融合实现更好的自寻优:
9.1)复数域自注意力机制构建:在深度卷积模型的两层复数lstm层clstm后添加根据自注意力机制设计的复数自注意力机制层cself-attention,给语音时序数据分配不同的权重以区分语音和噪声,更好的抑制了无效信息,实现对非平稳噪声的有效抑制,也更充分的提取了基础域的特征信息,为与之后和辅助域融合做准备:
10.所述复数自注意力机制层cself-attention内设置复数自注意力机制模块,包含q、k与v三个变量,q指query,k指key与v指value,所述复数自注意力机制模块涉及两个复数矩阵相乘运算,其中复数矩阵q被定义为q=qr jqi,实值矩阵qr和qi分别表示实部和虚部,(
·
)
t
表示矩阵转置操作,
×
表示矩阵乘法;复数自注意力机制计算公式如式(1)-(5),计算原理为:使用softmax函数将w相关分数转换为概率值,将计算获得的概率值与v相乘,概率值可以反映v值的重要程度;在计算output时,需对w的实部矩阵wr和虚部矩阵wi分别计算softmax后再与vr和vi对应相乘,最后将实部矩阵和虚部矩阵叠加得到output,然后通过维度重构将output的维度重构到与input相同:
11.q=reshape(1
×
1complexconv2d(input))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
12.k=reshape(1
×
1complexconv2d(input))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
13.v=reshape(1
×
1complexconv2d(input))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
14.w=q
×kt
=(qr×krt-qi×kit
) j(qr×kit
qi×krt
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
15.output=softmax(w)
×vꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
16.2)基础域与辅助域多域特征融合:
17.在候选多辅助域设置的基础上,设计复数多头注意力机制cmulti-head-attention,该方法将基础域(stft)与表现更好、表征能力较强的辅助域相结合,可以从语音信号中提取更有效的语音特征,充分利用不同域的特点实现深层浅层不同类型信息的融合,达到更好的语音增强效果。复数多头注意力机制多域辅助融合方法具体为:将辅助域作为特征q,基础域stft作为特征k、v,并在融合过程中应用一种相对位置编码机制来实现状态重用,不会造成语音帧之间时间混乱,以便融合处理后的反向还原操作;由于两个域使用复数多头注意力机制融合时需将特征图embedding为一维序列,且可能存在embedding后长度不同的问题,因此特征q与特征k、v融合时,通过linear层将特征q的长度转换,使其长度与特征k、v相同,在运算过程中必须保持embedding的长度可以整除复数多头注意力机制中头的个数,若遇到embedding为质数无法整除的情况,需将其填充0后再进行计算,并在运算结束后删除补0位置的信息;若辅助域存在没有虚部的情况,则将两个域的实部进行融合即可;
18.经过复数多头注意力机制多域辅助融合后,网络提取出两个域的不同语音特征信
息进行融合并将得到的特征信息进行反stft转换为一维语音信号输出系统;
19.三、pgssa并行全局寻优策略构建:
20.1)采用麻雀搜索算法(ssa),将麻雀抽象为发现者、追随者及警戒者三种个体,三种个体的迭代公式分别如式(6)-(8)所示:
[0021][0022][0023][0024]
其中,n为麻雀个体的数目,表示第i只麻雀在第d维的位置,t表示当前迭代次数,t为最大迭代次数;表示第t次迭代时麻雀在第d维的最劣位置;表示种群t 1次迭代时麻雀在d维上的最优位置,表示当前的全局最优位置;β为步长控制参数,是服从均值为0,方差为1的正态分布的随机数;a∈(0,1]的随机数,k∈[-1,1]的随机数,γ是服从标准正态分布的随机数,l是一维的全1矩阵;r2∈[0,1],st∈[0.5,1]分别表示预警值和安全值的取值范围,ε是防止分母为0的极小常数;fg和fw分别是当前麻雀种群的全局最优和全局最差适应度值,fi表示当前麻雀个体的适应度值;
[0025]
2)以麻雀搜索算法(ssa)为基础,构建博弈论麻雀并行机制:
[0026]
引入种群适应度值方差,方差可以计算种群的混乱程度,通过种群适应度值可以计算种群方差,其可以很好地表现出种群中所有个体的多样性程度,种群方差越大则说群多样性越好,搜索空间更大则更有可能搜索到好的结果;
[0027]
系统生成三个子种群,构造并行麻雀搜索算法;每个子种群独立运行且每隔一定的时间相互交换个体信息;每个子种群都是游戏问题中的决策主体,并假设其各自具备集体理性,达成合作协议,每个参与者的目的是最小化自己子种群的适应度值;此外,引入方差的作用来评估进化过程中种群的多样性,当三个种群多样性都较好时,则种群间处于竞争关系,以使自己种群更好发展;当三个种群发展都进入缓速期时开始合作关系,通过合作吸收其他种群的优质信息,为下一次的竞争做准备;
[0028]
当种群优化到k(k=1,2,...,evo-1)代时,计算3个子种群的适应度值方差得到qn(n=1,2,3);
[0029]

竞争关系:当min(qn)》s时,qn(n=1,2,3)均大于阈值s,说明三个子种群的多样性均较好,具有较强的搜索能力,种群间处于竞争关系;用3个子种群中最好个体替换其余两个子种群中最坏个体;通过竞争增强各个种群的联系且竞争模式在算法中产生了良好的种群效果,提高了收敛性;
[0030]

合作关系:当max(qn)《s时,qn(n=1,2,3)均小于阈值s,说明三个子种群的多样性均较差,全局搜索能力弱,开始合作关系;将3个子种群合并去除后20%的个体,并打乱所有个体均匀划分在3个种群,并在剩余的80%的个体附近生成随机的个体,补齐种群;这种合作模式是一种多种群自协调机制,通过与其他种群的协同作用,提高了所有种群的性能,平衡了多个种群的多样性和收敛性,最终达到共同进化的效果;
[0031]

其他关系:若子种群关系既不属于合作关系也不属于竞争关系,则定义子种群为第三状态,将每个种群后10%的个体之间相互交叉,即为遗传算法的交叉,增强各子种群间的交流,加快有效信息的获取和收敛速度;
[0032]
阈值s的设置:
[0033]
在求解最小值问题中,随着种群的迭代进化,一些具有较小适应度值的个体及其后代必然占种群的大多数,导致种群多样性及其适应度方差降低,且随着进化次数的上升,种群的多样性下降速度越来越快,所以阈值s需随着种群的进化而逐渐降低且减小的速率逐步增加。阈值s的变更方法如式(9):
[0034]
s=yα=ylog
evo
(evo-k),k=1,2,...,evo-1
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)
[0035]
其中,y为经过步骤2)进化的3个种群方差的均值,evo为总进化次数,k为当前的进化次数;
[0036]
举例说明:设evo=200,a=log
evo
(evo-k),如图5所示,文中阈值函数中选取底数为evo的log函数,则该log函数恒小于1且大于0,随着进化的进行evo-k逐渐变小,a=log
evo
(evo-k)逐步变小且变小的速度越来越快,符合算法中应使阈值s随种群进化而逐步降低且减小速率逐步增加的思想。
[0037]
3)在2)的基础上构建全局寻优策略,得到pgssa搜索策略:
[0038]

强化学习通过与环境的反复交互和试错,根据获得的反馈不断对决策进行优化:目前q-learning算法显现出一定的不足,如当动作过多时就无法用q表格进行存储,deep q-learning算法在其技术上将q表格替换为神经网络,解决了数据量过大q表格无法存储的问题,ssa式(6)中有随机变量警戒值r2,每轮麻雀搜索迭代开始时,均会随机初始化r2变量的值,选取哪一个公式来更新麻雀发现者位置与r2的随机值具有很大的关系,因此随机参数与ssa的寻优性能关系密切;为了使参数变化符合种群进化需求且减少随机变量造成的问题,利用强化学习与种群环境进行交互,针对ssa中的警戒值r2,设计了一种基于dqn算法的参数自动调整策略,dqn算法设置如下:
[0039]
状态空间定义为两位小数表示的警戒值r2∈(0.00,1.00);
[0040]
动作空间设置为警戒值的减小、不变、增大三种情况,动作幅值设置为0.01;
[0041]
奖励机制的主要依据适应度值指标,奖励r计算如式(10):
[0042][0043]
其中fb为种群最优适应度值,f为当前迭代的适应度值;
[0044]

采用迭代映射产生混沌序列来初始化种群,提高初始种群的多样性:
[0045]
原始ssa中初始麻雀个体均在搜索空间内随机生成,难以获取较好的初始种群多样性,可能会造成初始个体差异化小、算法收敛性能差、局部寻优能力弱等问题。而混沌映
射拥有遍历空间均匀、收敛速度快等优点,因此采用迭代映射产生混沌序列来初始化种群,迭代映射表达式如式(11)所示,生成由混沌初始化的种群后将混沌个体转换到对应的搜索空间中,转换式如式(12)所示;式中为第i个个体的第d个维度,为第i 1个个体的第d个维度,x
ub,d
、x
lb,d
分别为第d个维度个体的上下边界;一维迭代映射运行多次的结果如图6所示,其中横坐标为迭代次数,纵坐标为一维迭代映射结果。通过迭代映射,麻雀个体在初始化时被分散到整个搜索空间中,增大了种群的多样性和搜索范围:
[0046][0047][0048]

每轮迭代的最优麻雀容易陷入局部最优,导致算法无法得到全局最优,而随机游走算法具备操作简单且不易陷入局部最优值的优点。将随机游走算法与ssa进行融合,使用随机游走算法对每轮迭代的最优麻雀个体位置进行扰动,随机游走的表达式如式(13)所示:
[0049]
xi(t)=[0,cussum(2r(t)-1),

,cussum(2r(t)-1)]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(13)
[0050]
式中xi(t)为最优麻雀第i维随机游走t步的位置集,t为总迭代次数,cussum为计算累加和,r(t)为一个随机函数,rand∈[0,1]的随机数,如式(14):
[0051][0052]
在开始迭代之初,随机游走边界较大,有利于提高全局搜索性。随着迭代次数增加,麻雀个体越来越接近最优值,因此随机游走范围应逐渐变小;由于可行域存在边界,无法直接用式(13)更新麻雀位置;为确保在可行域范围内随机游走,根据式(15)对麻雀位置进行计算并归一化;
[0053][0054]
式中为第t次迭代最优麻雀第i维的位置,ai、bi为最优麻雀第i维随机游走位置集中的最小值、最大值,ci为最优麻雀第i维的下边界;
[0055]

在麻雀原追随者更新公式(7)中,麻雀追随者向最优位置移动时,易出现种群在短时间内迅速集聚的情况,使种群多样性骤降且种群个体之间缺乏信息交流;针对此问题,对麻雀追随者公式进行改进,改进后的公式如式(16)所示,fi表示第i只麻雀本次迭代的适应度值,fs表示任意麻雀本次迭代的适应度值,其余参数均与公式(7)相同:
[0056][0057]
首先,对原式增加了追随者随机靠近的概率e
α
,随机靠近策略是根据自然界中动物群体会以随机概率向其他群体跟随靠拢,通过该方法能更好地兼顾局部搜索和全局搜索。其次,原式中追随者只涉及到当前个体、最优个体和最差个体的信息,浪费了诸多个体
之间的隐含关系;因此本发明在每一次更新麻雀个体时都会与其他任意一个个体进行信息交流,改善了原算法中缺乏个体间信息交流的缺陷问题,充分利用了上一代个体的位置信息和概率性变化。
[0058]
四、mdccrn模型自优化:将pgssa运用在mdccrn语音增强模型上,实现6个模型关键参数自适应构建,得到构建后的amdccrn模型,实现更好的语音增强:
[0059]
提出一种模型自适应寻优方法,构建了适应度函数fg提高pgssa寻优效果,将改良后的pgssa用于mdccrn模型寻优以减小模型设计难度同时提高模型自适应寻优能力,得到优化后的语音增强模型amdccrn:
[0060]
将改良后的pgssa用于mdccrn模型寻优以减小模型设计难度同时提高模型自适应寻优能力,得到优化后的语音增强模型amdccrn;将每只麻雀的6个维度分别对应于mdccrn模型中多域融合基础域stft对应的辅助域d_s、lstm层隐藏单元个数hid_s、lstm层的个数lstm_s、复数多头注意力机制中头的个数head_s、学习率l_rate、批次大小batch size;根据pgssa中各麻雀位置信息建立amdccrn模型;训练amdccrn模型并利用式(17)的适应度函数计算其在测试集上的性能;式中i,i=1,2,3,4,5分别代表信噪比为0db,5db,10db,15db,20db下的五个测试集;其中short-time objective intelligibility(stoi)和perceptual evaluation of speech quality(pesq)为语音质量评估最常用的两个评价指标;求取出fg作为pgssa中的适应度函数进行种群更新,最优个体信息被用来建立最终的amdccrn模型:
[0061][0062]
本发明所提供的一种基于自学习复数卷积神经网络的鲁棒性语音增强方法(amdccrn)与现有技术相比本发明具有以下有益效果:
[0063]
1.为进一步提高泛化能力,将一维语音信号衍生至基础域的时频域即短时傅里叶变换(stft)和辅助域的递归图域(rpf)、格拉姆角和场域(gasf)、格拉姆角差场域(gadf)、马尔科夫转移场域(mtf)等空间域中,丰富了一维信号的特征表达。
[0064]
2.本发明构建了mdccrn模型,该模型设计复数自注意力机制以更好的提取基础域所携带的信息,之后基于多域辅助融合思想,利用不同域的特点通过设计的复数多头注意力机制将基础域和辅助域提取的不同特征信息相融合,得到更丰富的语音特征。该形式丰富了一维语音信号的特征表达并利用注意力机制的特性,更好地提取了不同域信息的内在关联性。
[0065]
3.为进一步提升麻雀搜索算法(ssa)搜索神经网络最优架构的速度,本发明构建了基于博弈论的种群并行化策略对ssa进行改良,提高了模型搜索速度。
[0066]
4.为进一步提升麻雀搜索算法(ssa)搜索神经网络最优架构的精度,本发明构建了全局寻优策略对ssa进行改良,提高了模型搜索精度。
[0067]
5.根据ssa的改进,本发明提出一种基于pgssa的卷积模型自优化策略,并将改良后的pgssa应用于mdccrn模型中得到amdccrn模型,实现模型6个关键参数的自适应优化。增强模型设计的可解释性和泛化性,避免人为调参带来的高时间成本和高计算成本,在降低网络设计难度的同时有效提升了网络降噪效果。
附图说明
[0068]
图1为本发明的整体框架图。
[0069]
图2为多域转换图像。
[0070]
图3为复数自注意力机制计算原理图。
[0071]
图4为复数多头注意力机制多域辅助融合方法计算示意图。
[0072]
图5为阈值函数曲线图。
[0073]
图6为迭代映射结果图。
[0074]
图7为pgssa的算法流程图。
[0075]
图8为语音时频图示例图。
具体实施方式
[0076]
以下结合具体实施例对本发明作进一步说明。
[0077]
一种基于自学习复数卷积神经网络的鲁棒性语音增强方法,整体框架如图1所示,包括如下步骤:
[0078]
一、将一维语音信号映射至多个空间域中生成基础域和辅助域;
[0079]
候选多辅助域设置:将语音一维信号样本映射入多个空间域中以得到更多的语音信息,数据样本高维映射空间域包括基础域的时频域即短时傅里叶变换stft和辅助域的递归图域rpf、格拉姆角和场域gasf、格拉姆角差场域gadf、马尔科夫转移场域mtf;多域转换图像如图2所示。
[0080]
二、搭建mdccrn语音增强模型,通过复数自注意力机制更深层次的提取基础域的信息,并通过所设计的复数多头注意力机制将基础域和表征能力强的辅助域的特征信息相融合实现更好的自寻优:
[0081]
1)复数域自注意力机制构建:在深度卷积模型的两层复数lstm层clstm后添加根据自注意力机制设计的复数自注意力机制层cself-attention,给语音时序数据分配不同的权重以区分语音和噪声:
[0082]
所述复数自注意力机制层cself-attention内设置复数自注意力机制模块,包含q、k与v三个变量,q指query,k指key与v指value,所述复数自注意力机制模块涉及两个复数矩阵相乘运算,其中复数矩阵q被定义为q=qr jqi,实值矩阵qr和qi分别表示实部和虚部,(
·
)
t
表示矩阵转置操作,
×
表示矩阵乘法;复数自注意力机制计算公式如式(1)-(5),计算原理如图3所示,计算原理为:使用softmax函数将w相关分数转换为概率值,将计算获得的概率值与v相乘,概率值可以反映v值的重要程度;在计算output时,需对w的实部矩阵wr和虚部矩阵wi分别计算softmax后再与vr和vi对应相乘,最后将实部矩阵和虚部矩阵叠加得到output,然后通过维度重构将output的维度重构到与input相同:
[0083]
q=reshape(1
×
1complexconv2d(input))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0084]
k=reshape(1
×
1complexconv2d(input))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0085]
v=reshape(1
×
1complexconv2d(input))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0086]
w=q
×kt
=(qr×krt-qi×kit
) j(qr×kit
qi×krt
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0087]
output=softmax(w)
×vꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0088]
2)基础域与辅助域多域特征融合:
[0089]
在候选多辅助域设置的基础上,设计复数多头注意力机制cmulti-head-attention,复数多头注意力机制多域辅助融合方法如图4所示,具体为:将辅助域作为特征q,基础域stft作为特征k、v,并在融合过程中应用一种相对位置编码机制来实现状态重用,不会造成语音帧之间时间混乱,以便融合处理后的反向还原操作;由于两个域使用复数多头注意力机制融合时需将特征图embedding为一维序列,且可能存在embedding后长度不同的问题,因此特征q与特征k、v融合时,通过linear层将特征q的长度转换,使其长度与特征k、v相同,在运算过程中必须保持embedding的长度可以整除复数多头注意力机制中头的个数,若遇到embedding为质数无法整除的情况,需将其填充0后再进行计算,并在运算结束后删除补0位置的信息;若辅助域存在没有虚部的情况,则将两个域的实部进行融合即可;
[0090]
经过复数多头注意力机制多域辅助融合后,网络提取出两个域的不同语音特征信息进行融合并将得到的特征信息进行反stft转换为一维语音信号输出系统;
[0091]
三、pgssa并行全局寻优策略构建:
[0092]
1)采用麻雀搜索算法(ssa),将麻雀抽象为发现者、追随者及警戒者三种个体,三种个体的迭代公式分别如式(6)-(8)所示:
[0093][0094][0095][0096]
其中,n为麻雀个体的数目,表示第i只麻雀在第d维的位置,t表示当前迭代次数,t为最大迭代次数;表示第t次迭代时麻雀在第d维的最劣位置;表示种群t 1次迭代时麻雀在d维上的最优位置,表示当前的全局最优位置;β为步长控制参数,是服从均值为0,方差为1的正态分布的随机数;a∈(0,1]的随机数,k∈[-1,1]的随机数,γ是服从标准正态分布的随机数,l是一维的全1矩阵;r2∈[0,1],st∈[0.5,1]分别表示预警值和安全值的取值范围,ε是防止分母为0的极小常数;fg和fw分别是当前麻雀种群的全局最优和全局最差适应度值,fi表示当前麻雀个体的适应度值;
[0097]
2)以麻雀搜索算法(ssa)为基础,构建博弈论麻雀并行机制:
[0098]
引入种群适应度值方差;系统生成三个子种群,构造并行麻雀搜索算法;每个子种群独立运行且每隔一定的时间相互交换个体信息;每个子种群都是游戏问题中的决策主体,并假设其各自具备集体理性,达成合作协议,每个参与者的目的是最小化自己子种群的适应度值;此外,引入方差的作用来评估进化过程中种群的多样性,当三个种群多样性都较好时,则种群间处于竞争关系,以使自己种群更好发展;当三个种群发展都进入缓速期时开
始合作关系,通过合作吸收其他种群的优质信息,为下一次的竞争做准备;
[0099]
当种群优化到k(k=1,2,...,evo-1)代时,计算3个子种群的适应度值方差得到qn(n=1,2,3);
[0100]

竞争关系:当min(qn)》s时,qn(n=1,2,3)均大于阈值s,说明三个子种群的多样性均较好,具有较强的搜索能力,种群间处于竞争关系;用3个子种群中最好个体替换其余两个子种群中最坏个体;
[0101]

合作关系:当max(qn)《s时,qn(n=1,2,3)均小于阈值s,说明三个子种群的多样性均较差,全局搜索能力弱,开始合作关系;将3个子种群合并去除后20%的个体,并打乱所有个体均匀划分在3个种群,并在剩余的80%的个体附近生成随机的个体,补齐种群;
[0102]

其他关系:若子种群关系既不属于合作关系也不属于竞争关系,则定义子种群为第三状态,将每个种群后10%的个体之间相互交叉,即为遗传算法的交叉,增强各子种群间的交流,加快有效信息的获取和收敛速度;
[0103]
阈值s的设置:
[0104]
阈值s的变更方法如式(9):
[0105]
s=yα=ylog
evo
(evo-k),k=1,2,...,evo-1
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)
[0106]
其中,y为经过步骤2)进化的3个种群方差的均值,evo为总进化次数,k为当前的进化次数;
[0107]
3)在2)的基础上构建全局寻优策略,得到pgssa搜索策略,pgssa算法流程如图7所示:
[0108]

强化学习通过与环境的反复交互和试错,根据获得的反馈不断对决策进行优化:ssa式(6)中有随机变量警戒值r2,每轮麻雀搜索迭代开始时,均会随机初始化r2变量的值,选取哪一个公式来更新麻雀发现者位置与r2的随机值具有很大的关系,因此随机参数与ssa的寻优性能关系密切;为了使参数变化符合种群进化需求且减少随机变量造成的问题,利用强化学习与种群环境进行交互,针对ssa中的警戒值r2,设计了一种基于dqn算法的参数自动调整策略,dqn算法设置如下:
[0109]
状态空间定义为两位小数表示的警戒值r2∈(0.00,1.00);
[0110]
动作空间设置为警戒值的减小、不变、增大三种情况,动作幅值设置为0.01;
[0111]
奖励机制的主要依据适应度值指标,奖励r计算如式(10):
[0112][0113]
其中fb为种群最优适应度值,f为当前迭代的适应度值;
[0114]

采用迭代映射产生混沌序列来初始化种群,提高初始种群的多样性,迭代映射表达式如式(11)所示,生成由混沌初始化的种群后将混沌个体转换到对应的搜索空间中,转换式如式(12)所示;式中为第i个个体的第d个维度,为第i 1个个体的第d个维度,x
ub,d
、x
lb,d
分别为第d个维度个体的上下边界;通过迭代映射,麻雀个体在初始化时被分散到整个搜索空间中:
[0115][0116][0117]

将随机游走算法与ssa进行融合,使用随机游走算法对每轮迭代的最优麻雀个体位置进行扰动,随机游走的表达式如式(13)所示:
[0118]
xi(t)=[0,cussum(2r(t)-1),

,cussum(2r(t)-1)]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(13)
[0119]
式中xi(t)为最优麻雀第i维随机游走t步的位置集,t为总迭代次数,cussum为计算累加和,r(t)为一个随机函数,rand∈[0,1]的随机数,如式(14):
[0120][0121]
随着迭代次数增加,麻雀个体越来越接近最优值,因此随机游走范围应逐渐变小;由于可行域存在边界,无法直接用式(13)更新麻雀位置;为确保在可行域范围内随机游走,根据式(15)对麻雀位置进行计算并归一化;
[0122][0123]
式中为第t次迭代最优麻雀第i维的位置,ai、bi为最优麻雀第i维随机游走位置集中的最小值、最大值,ci为最优麻雀第i维的下边界;
[0124]

在麻雀原追随者更新公式(7)中,麻雀追随者向最优位置移动时,易出现种群在短时间内迅速集聚的情况,使种群多样性骤降且种群个体之间缺乏信息交流;针对此问题,对麻雀追随者公式进行改进,改进后的公式如式(16)所示,fi表示第i只麻雀本次迭代的适应度值,fs表示任意麻雀本次迭代的适应度值,其余参数均与公式(7)相同:
[0125][0126]
四、mdccrn模型自优化:将pgssa运用在mdccrn语音增强模型上,实现6个模型关键参数自适应构建,得到构建后的amdccrn模型,实现更好的语音增强:
[0127]
提出一种模型自适应寻优方法,构建了适应度函数fg提高pgssa寻优效果,将改良后的pgssa用于mdccrn模型寻优以减小模型设计难度同时提高模型自适应寻优能力,得到优化后的语音增强模型amdccrn:
[0128]
将改良后的pgssa用于mdccrn模型寻优以减小模型设计难度同时提高模型自适应寻优能力,得到优化后的语音增强模型amdccrn;将每只麻雀的6个维度分别对应于mdccrn模型中多域融合基础域stft对应的辅助域d_s、lstm层隐藏单元个数hid_s、lstm层的个数lstm_s、复数多头注意力机制中头的个数head_s、学习率l_rate、批次大小batch size;根据pgssa中各麻雀位置信息建立amdccrn模型;训练amdccrn模型并利用式(17)的适应度函数计算其在测试集上的性能;式中i,i=1,2,3,4,5分别代表信噪比为0db,5db,10db,15db,20db下的五个测试集;其中stoi和pesq为语音质量评估最常用的两个评价指标;求取出fg作为pgssa中的适应度函数进行种群更新,最优个体信息被用来建立最终的amdccrn模型:
[0129][0130]
本实施例中,通过在12个测试函数上对pgssa寻优性能进行评估,并在两个基准语音语料数据集thchs-30和wsj0上进行测试来验证本发明研究方法的有效性和泛化性。12个测试函数包括:sphere(f1)、schwefel n2.22(f2)、schwefeln1.2(f3)、schwefel n2.21(f4)、rosenborck(f5)、step(f6)、quartic(f7)七个高维单峰测试函数,以及schwefel(f8)、rastrigin(f9)、ackley(f10)、griewank(f11)、penalized(f12)五个高维多峰测试函数。
[0131]
为验证pgssa算法的寻优性能,将其与sparrow search algorithm(ssa)、dragonfly algorithm(da)、grey wolf optimizer(gwo)、sunflower optimization(sfo)、equilibrium optimizer(eo)五种算法在12个基准函数上进行对比仿真实验。每类算法的种群规模设为100,最大迭代次数设为1000,问题维度为30。为避免寻优结果的偶然性并证明pgssa的稳定性,选取各基准函数独立运行30次的实验结果作为实验数据,将各个算法的平均值(mean)和标准差(std)作为最终评价指标,较优结果用粗黑体进行表示,单峰多峰基准函数对比结果分别如表1、表2所示。
[0132]
表1单峰基准函数实验结果
[0133][0134]
表2多峰基准函数实验结果
[0135][0136]
由表1分析可知,在相同测试约束条件下,pgssa对五组高维单峰测试函数的统计结果明均显优于其它5种对比算法。对于测试函数f1、f2、f3、f4,pgssa均能稳定得到其理论最优解。在求解f5、f6和f7时,虽然pgssa未能寻找出理论最优解,但在平均值和标准差两个评价指标上相比其它算法优越多个数量级。证明经改进后的pgssa相较于其他算法能够在单峰类函数上具备较强性能和稳定性。
[0137]
由表2分析可知,对高维多峰测试函数f9、f11,pgssa与ssa 均可稳定收敛于全局最优值。在f10测试函数上,相较其它算法,pgssa比其他算法有着显著的提高与优越性。在求解f12时,pgssa在两项评价指标上略差于ssa,但很大程度上优于其他对比算法。因此,不论在单峰测试函数或是多峰测试函数上,pgssa在多次寻优过程中,均能表现出较好的寻优性能。表明pgssa具备高效的全局寻优能力和局部探索能力,能够充分高效的探寻搜索空间,且稳定性和鲁棒性较强。
[0138]
本实施例首先在thchs-30数据集上将该语音语料数据集和“cafe”,“babble”噪声集相融合生成训练集和测试集,训练测试所提出的模型和几个基线。该数据集包含13000多条训练数据,将语音进行拼接,保证每个训练语音均为10s,选取部分语音按照8:2分配训练集和测试集。训练集是从语音集和噪声集中随机选择话语,并在信噪比为-5db-20db之间随机进行语音噪声混合。测试集在5个典型信噪比(0db、5db、10db、15db、20db)下生成。
[0139]
本发明利用经实验验证后的高性能pgssa对mdccrn进行模型自适应寻优得到优化后的模型amdccrn。pgssa的参数搜索范围如表3所示,数据集在噪声集取得的全局最优解时所附带的6个参数如表4所示。使用pgssa所搜寻到的最优模型(表4)与其他基线模型进行对比,在每种情况下,较优结果都用粗体号突出显示。数据集与两种不同噪声集融合后的语音
增强实验结果分别如表5、表6,语音增强时频域图示例如图8。
[0140]
表3寻优参数及范围
[0141][0142]
表4 thchs-30数据集使用pgssa优化后的最优模型组件
[0143][0144]
表5 thchs-30与cafe噪音集语音增强结果
[0145][0146]
表6 thchs-30与babble噪音集语音增强结果
[0147][0148]
不同噪音类型对语音增强效果影响很大,因此为了更好的验证本实施例所提出方
法的有效性,我们使用两种不同类型的噪音集来全方位的进行实验。本实施例提出的amdccrn在三种不同的噪音下,两个指标上总体优于dcunet、dccrn、lstm和crn基线。在cafe噪声下,amdccrn在pesq和stoi两种指标上都得到了不同程度的提升。原dccrn较dcunet在部分情况下可能存在性能较差或相同的情况,但amdccrn在任何db均较优于其余基线模型,相较于dccrn基线,amdccrn在stoi指标上最大取得了0.06的提升,在pesq指标上最大取得了0.47的提升。在babble噪声下,amdccrn效果较优,在stoi上较dccrn最大取得0.04的提升,pesq指标上最大取得0.49的提升。实验表明本发明采用的搜索算法pgssa具备较好的模型自适应寻优能力,能够在减少人力设计时间成本的基础上,自适应地构建模型,同时也证明了amdccrn模型在不同噪声类型干扰、不同db噪声干扰下均保持良好状态且有较高的可用性。
[0149]
从图8中干净语音的时频域图和dccrn语音增强时频域图以及amdccrn语音增强时频域图的右半部可分析出dccrn语音增强明显失去了一部分语音信号,可能是dccrn仅使用了单域的特性而不能充分发掘语音信息及其内在联系造成了噪声过度抑制。但与dccrn语音增强相比,amdccrn语音增强在降噪的同时对语音原始信息保留效果更好,减少语音失真,说明本发明设计的模型在语音增强中更有优势。
[0150]
本发明要求保护的范围不限于以上具体实施方式,而且对于本领域技术人员而言,本发明可以有多种变形和更改,凡在本发明的构思与原则之内所作的任何修改、改进和等同替换都应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献