一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种可调噪声抑制深度的神经网络语音增强方法

2022-04-25 04:23:39 来源:中国专利 TAG:


1.本发明涉及语音处理技术领域,具体涉及一种可调噪声抑制深度的神经网络语音增强方法。


背景技术:

2.语音增强的目的是从带噪语音中提取目标语音,从而提高语音质量和语言清晰度。可靠的语音增强是当前各类智能语音系统保证其在复杂的实际应用场景下性能鲁棒性的关键前端技术。当前智能语音系统大都采用基于深度神经网络(deep neural network,dnn)的语音增强方案。这其中,最典型的算法是基于时频掩膜(time frequency mask,tfm)的增强方法。在基于tfm的深度神经网络语音增强中,给定一个特定的dnn架构,通过构造合适的训练损失函数,引导网络学习从输入的带噪语音特征中映射出最优的tfm增益函数,并将该增益函数与带噪语音的时频分量相乘,得到增强后的语音时频分量。因此,损失函数的构造是影响增强网络性能的关键因素之一。
3.当前常用的损失函数计算结构是将理想条件下的tfm增益函数作为网络输出目标,利用均方误差(mean square error,mse)作为损失函数对网络进行优化,使网络模型具有从输入的带噪语音特征映射出最优tfm增益函数的能力。该类算法的特点是实现过程较为简单,具有可观的语音增强效果,在训练过程中,语音成分的保留与噪声成分的抑制得到很好的权衡。但在该方法中存在两个问题:
4.1、在降噪过程中,噪声泛化性问题会导致噪声抑制效果不理想,尤其在低信噪比条件下,导致增强语音质量提升受限。
5.2、针对人耳感知的应用场景中,残留噪声的问题会更突出。通常希望在不影响语义理解的条件下具有更小的残留噪声。当前方法的残留噪声往往会分散感知者的注意力,导致沟通体验下降。


技术实现要素:

6.为改善基于tfm的深度神经网络语音增强残留噪声问题,提高语音增强算法性能,本发明提供了一种可调噪声抑制深度的神经网络语音增强方法,提出一个新的损失函数计算架构,调整模型噪声抑制深度,以解决当前方法存在的残留噪声问题,以适应更多的应用场合,满足不同应用场景需求。
7.为实现上述目的,本发明实施例提供了如下的技术方案:
8.第一方面,在本发明提供的一个实施例中,提供了一种可调噪声抑制深度的神经网络语音增强方法,包括:
9.将理想数据的带噪语音进行特征提取的结果作为网络模型的输入进行训练,网络输出目标为目标增益函数,优化网络输出的增益函数;
10.在网络模型训练中重构损失函数,对网络模型进行优化,使网络模型从带噪语音特征中映射出最优增益函数。
11.在本发明提供的一些实施例中,所述理想数据的带噪语音由已知的干净语音和噪声按人为设定的不同信噪比进行混合。
12.在本发明提供的一些实施例中,所述网络模型为基于tfm的深度神经网络,基于tfm的深度神经网络语音增强的方法为:利用深度神经网络从带噪语音特征映射出具有降噪效果的tfm增益函数与带噪语音幅度谱|y(t,f)|相乘后得到增强语音幅度谱
13.在本发明提供的一些实施例中,优化网络输出的增益函数的方法为:
14.网络模型的输出目标为理想情况下的tfm增益函数,利用均方误差作为损失函数计算网络输出与输出目标的差异,通过误差反向传播算法对网络模型进行优化,使网络模型从带噪语音特征中映射出最优tfm增益函数。
15.在本发明提供的一些实施例中,优化网络输出的增益函数的方法为:
16.利用均方误差作为损失函数时,典型基于tfm的神经网络语音增强算法的第一损失函数loss1表示为:
[0017][0018]
式中,为网络输出的tfm增益函数,g(t,f)为目标增益函数;其中,目标增益函数包括有幅度谱掩膜和理想比率掩膜的目标增益函数;有幅度谱掩膜的目标增益函数表示为:
[0019][0020]
理想比率掩膜的目标增益函数表示为:
[0021][0022]
式中,y(t,f)=x(t,f) d(t,f),y(t,f)、x(t,f)和d(t,f)分别表示带噪语音、干净语音和噪声的短时傅里叶变换的结果;β为可调节的参数,β设置为0.5或1。
[0023]
在本发明提供的一些实施例中,优化网络输出的增益函数的方法为:
[0024]
将网络输出的tfm增益函数与带噪语音幅度谱相乘后的结果与干净语音幅度谱计算损失函数,使网络模型映射出最优干净语音幅度谱下的tfm增益函数。
[0025]
在本发明提供的一些实施例中,将网络输出的tfm增益函数与带噪语音幅度谱相乘后的结果与干净语音幅度谱计算的典型基于tfm的神经网络语音增强算法的第二损失函数loss2表示为:
[0026][0027]
在本发明提供的一些实施例中,在降噪阶段,将带噪语音数据进行特征提取的结果作为已训练的网络模型输入,映射出最优的tfm增益函数增强语音幅度谱
表示为:
[0028][0029]
利用带噪语音的相位信息进行时域语音波形重构,增强语音的时域信号表示为:
[0030][0031]
式中,istft[
·
]为逆短时傅里叶变换。
[0032]
在本发明提供的一些实施例中,所述可调噪声抑制深度的神经网络语音增强方法中还包括可控降噪深度的损失函数,可控降噪深度的损失函数为第四损失函数loss4,计算公式表示为:
[0033]
loss4=αloss1 (1-α)loss3
[0034]
其中,α为降噪深度控制因子,loss1为典型基于tfm的神经网络语音增强算法的第一损失函数,loss3为噪声抑制模块的第三损失函数:
[0035][0036]
式中,|d(t,f)|为噪声幅度谱。
[0037]
在本发明提供的一些实施例中,所述噪声抑制模块的损失函数利用噪声幅度谱|d(t,f)|与网络输出相乘,结果为残留噪声。
[0038]
在本发明提供的一些实施例中,所述降噪深度控制因子α的范围为0到1。
[0039]
在本发明提供的一些实施例中,所述可调噪声抑制深度的神经网络语音增强方法中还包括第五损失函数loss5,第五损失函数loss5表示为:
[0040]
loss5=αloss2 (1-α)loss3
[0041]
式中,loss2为典型基于tfm的神经网络语音增强算法的第二损失函数,loss3为噪声抑制模块的第三损失函数,并通过降噪深度控制因子α改变噪声抑制模块的噪声抑制深度。
[0042]
第二方面,在本发明提供的另一个实施例中,提供了一种可调噪声抑制深度的神经网络语音增强系统,所述可调噪声抑制深度的神经网络语音增强系统采用上述可调噪声抑制深度的神经网络语音增强方法调整模型噪声抑制深度,所述可调噪声抑制深度的神经网络语音增强系统包括:
[0043]
特征提取模块,用于对获取的理想数据的带噪语音进行特征提取,以将特征提取的结果作为网络模型的输入;
[0044]
模型语音增强模块,用于利用深度神经网络从带噪语音特征映射出具有降噪效果的tfm增益函数与带噪语音幅度谱|y(t,f)|相乘后得到增强语音幅度谱
[0045]
优化模块,用于在网络模型训练中重构损失函数,对网络模型进行优化,使网络模型从带噪语音特征中映射出最优增益函数。
[0046]
第三方面,在本发明提供的又一个实施例中,提供了一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器加载并执行所述计算机程序时实现可调噪声抑制深度的神经网络语音增强方法的步骤。
[0047]
第四方面,在本发明提供的再一个实施例中,提供了一种存储介质,存储有计算机程序,所述计算机程序被处理器加载并执行时实现所述可调噪声抑制深度的神经网络语音增强方法的步骤。
[0048]
本发明提供的技术方案,具有如下有益效果:
[0049]
本发明提供的一种可调噪声抑制深度的神经网络语音增强方法,改善基于tfm的深度神经网络语音增强残留噪声问题,提高语音增强算法性能,通过调整模型噪声抑制深度,以适应不同应用场景需求,通过设置额外的噪声抑制模块解决了目前基于tmf的深度神经网络语音增强算法的噪声残留问题;噪声抑制模块可以在原有的增强效果上进一步提高语音质量,通过降噪深度调节因子,可以根据日常应用需求,调整合适的降噪深度。
[0050]
本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
[0051]
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例。在附图中:
[0052]
图1为本发明实施例的一种可调噪声抑制深度的神经网络语音增强方法中基于tfm的深度神经网络语音增强算法基本框架图。
[0053]
图2为本发明一个实施例的一种可调噪声抑制深度的神经网络语音增强方法中网络模型优化流程图。
[0054]
图3为本发明又一实施例的一种可调噪声抑制深度的神经网络语音增强方法中网络模型优化流程图。
[0055]
图4为本发明一个实施例的一种可调噪声抑制深度的神经网络语音增强方法中可控降噪深度的网络模型优化流程图。
[0056]
图5为本发明又一实施例的一种可调噪声抑制深度的神经网络语音增强方法中可控降噪深度的网络优化流程图。
具体实施方式
[0057]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
[0058]
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不
同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
[0059]
下面将结合本发明示例性实施例中的附图,对本发明示例性实施例中的技术方案进行清楚、完整地描述,显然,所描述的示例性实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0060]
由于在基于tfm的深度神经网络语音增强中,当前常用的损失函数计算结构是将理想条件下的tfm增益函数作为网络输出目标,利用均方误差(mean square error,mse)作为损失函数对网络进行优化,使网络模型具有从输入的带噪语音特征映射出最优tfm增益函数的能力,但在该方法中在降噪过程中,噪声泛化性问题会导致噪声抑制效果不理想,尤其在低信噪比条件下,导致增强语音质量提升受限;针对人耳感知的应用场景中,残留噪声的问题会更突出。通常希望在不影响语义理解的条件下具有更小的残留噪声。当前方法的残留噪声往往会分散感知者的注意力,导致沟通体验下降。
[0061]
针对上述问题,本发明提供的一种可调噪声抑制深度的神经网络语音增强方法,提出一个新的损失函数计算架构,调整模型噪声抑制深度,以解决当前方法存在的残留噪声问题,以适应更多的应用场合,满足不同应用场景需求。
[0062]
具体地,下面结合附图,对本技术实施例作进一步阐述。
[0063]
本发明的一个实施例提供一种可调噪声抑制深度的神经网络语音增强方法,包括如下步骤:
[0064]
将理想数据的带噪语音进行特征提取的结果作为网络模型的输入进行训练,网络输出目标为目标增益函数,优化网络输出的增益函数;
[0065]
在网络模型训练中重构损失函数,对网络模型进行优化,使网络模型从带噪语音特征中映射出最优增益函数。
[0066]
其中,所述理想数据的带噪语音由已知的干净语音和噪声按人为设定的不同信噪比进行混合。
[0067]
在本实施例中,所述网络模型为基于tfm的深度神经网络。典型的基于tfm的深度神经网络语音增强实现基本过程如图1所示。基于tfm的深度神经网络语音增强的方法为:利用深度神经网络从带噪语音特征映射出具有降噪效果的tfm增益函数与带噪语音幅度谱|y(t,f)|相乘后得到增强语音幅度谱
[0068]
在本实施例中,深度神经网络在训练阶段对理想的数据进行训练,即带噪语音由已知的干净语音和噪声按人为设定的不同信噪比进行混合。将带噪语音进行特征提取后的结果作为网络模型的输入,网络输出目标为tfm增益函数g(t,f)。优化网络输出的tfm增益函数
[0069]
在本技术中,优化网络输出的tfm增益函数有两种方式。
[0070]
在本发明的一个实施例中,优化网络输出的增益函数的方法为:
[0071]
网络模型的输出目标为理想情况下的tfm增益函数,利用均方误差作为损失函数计算网络输出与输出目标的差异,通过误差反向传播算法对网络模型进行优化,使网络模型从带噪语音特征中映射出最优tfm增益函数。
[0072]
即:网络模型的输出目标为理想情况下的tfm增益函数,利用mse均方误差作为损失函数计算网络输出与输出目标的差异,通过误差反向传播算法(back propagat i on,bp)对网络模型进行优化。经过大量的训练数据,使网络模型具有从带噪语音特征中映射出最优tfm增益函数的能力。网络模型优化流程如图2所示。
[0073]
在本实施例中,利用均方误差作为损失函数时,典型基于tfm的神经网络语音增强算法的第一损失函数loss1表示为:
[0074][0075]
式中,为网络输出的tfm增益函数,为目标增益函数;其中,目标增益函数包括常见的有幅度谱掩膜(spectral magnitude mask,smm)和理想比率掩膜(ideal ration mask,irm)的目标增益函数;有幅度谱掩膜的目标增益函数表示为:
[0076][0077]
理想比率掩膜的目标增益函数表示为:
[0078][0079]
式中,y(t,f)=x(t,f) d(t,f),y(t,f)、x(t,f)和d(t,f)分别表示带噪语音、干净语音和噪声的短时傅里叶变换的结果;β为可调节的参数,β设置为0.5或1。
[0080]
在本发明的一个实施例中,优化网络输出的增益函数的方法为:
[0081]
将网络输出的tfm增益函数与带噪语音幅度谱相乘后的结果与干净语音幅度谱计算损失函数,使网络模型映射出最优干净语音幅度谱下的tfm增益函数。
[0082]
即:将网络输出的tfm增益函数与带噪语音幅度谱|y(t,f)|相乘后的结果与干净语音幅度谱|x(t,f)|计算损失函数,使网络模型映射出最优干净语音幅度谱下的tfm增益函数。网络模型优化流程如图3所示。
[0083]
在本实施例中,将网络输出的tfm增益函数与带噪语音幅度谱相乘后的结果与干净语音幅度谱计算的典型基于tfm的神经网络语音增强算法的第二损失函数loss2表示为:
[0084][0085]
在降噪阶段,将带噪语音数据进行特征提取的结果作为已训练的网络模型输入,映射出最优的tfm增益函数增强语音幅度谱表示为:
[0086][0087]
利用带噪语音的相位信息进行时域语音波形重构,增强语音的时域信号表示为:
[0088][0089]
式中,istft[
·
]为逆短时傅里叶变换。
[0090]
上述基于tfm的神经网络语音增强算法增强效果显著,在训练过程中,语音成分的保留与噪声成分的抑制得到很好的权衡,但存在的噪声残留问题导致增强语音质量提升受限。
[0091]
因此,本发明的一个实施例中,还涉及重构基于tfm的语音增强算法神经网络训练中采用的损失函数。针对现有的损失函数存在的问题,本技术提出一种可控降噪深度的损失函数计算方法,网络模型优化流程如图4所示。
[0092]
在本实施例中,可控降噪深度的损失函数为第四损失函数loss4,计算公式表示为:
[0093]
loss4=αloss1 (1-α)loss3
[0094]
其中,α为降噪深度控制因子,loss1为典型基于tfm的神经网络语音增强算法的第一损失函数,在loss1的基础上增加一个额外的噪声抑制模块,loss3为噪声抑制模块的第三损失函数:
[0095][0096]
式中,|d(t,f)|为噪声幅度谱。
[0097]
本实施例中,所述噪声抑制模块的损失函数利用噪声幅度谱|d(t,f)|与网络输出相乘,结果为残留噪声。对于这部分残留噪声,网络优化目标为0,即让网络输出的与噪声幅度谱相乘后结果为零。在这个过程中,由于loss1和loss3中的是相同的变量,残留噪声为零会导致语音成分也为零。
[0098]
在本实施例中,所述降噪深度控制因子α的范围为0到1。
[0099]
当α设置为1时,额外的噪声抑制模块不参与网络优化工作,此时损失函数与图2所示的方法一致;当α设置为0时,网络输出目标为残留噪声为零,此时只要网络输出为0即可实现,但会导致语音成分也被完全抑制,产生显著的语音失真。所以α值根据实际使用场景所需的噪声残留程度而定,α值越大,网络降噪深度越低,α值越小,网络降噪深度越高。
[0100]
在本发明的一个实施例中,本技术的可调噪声抑制深度的神经网络语音增强方法还包括一种使用场景,如图5所示,即在图3的基础上,加入本技术所提的额外的噪声抑制模块,所述可调噪声抑制深度的神经网络语音增强方法中还包括第五损失函数loss5,第五损失函数loss5表示为:
[0101]
loss5=αloss2 (1-α)loss3
[0102]
式中,loss2为典型基于tfm的神经网络语音增强算法的第二损失函数,
[0103]
loss3为噪声抑制模块的第三损失函数,并通过降噪深度控制因子α改变噪声抑制模块的噪声抑制深度。
[0104]
在本技术中,所提的额外的噪声抑制模块对于基于tfm的神经网络语音增强算法
都是适用的。
[0105]
在本发明的一个实施例中,本发明还公开了一种可调噪声抑制深度的神经网络语音增强系统,所述可调噪声抑制深度的神经网络语音增强系统采用上述可调噪声抑制深度的神经网络语音增强方法调整模型噪声抑制深度,所述可调噪声抑制深度的神经网络语音增强系统包括:
[0106]
特征提取模块,用于对获取的理想数据的带噪语音进行特征提取,以将特征提取的结果作为网络模型的输入;
[0107]
模型语音增强模块,用于利用深度神经网络从带噪语音特征映射出具有降噪效果的tfm增益函数与带噪语音幅度谱|y(t,f)|相乘后得到增强语音幅度谱
[0108]
优化模块,用于在网络模型训练中重构损失函数,对网络模型进行优化,使网络模型从带噪语音特征中映射出最优增益函数。
[0109]
需要特别说明的是,可调噪声抑制深度的神经网络语音增强系统在执行时采用如前述的一种可调噪声抑制深度的神经网络语音增强方法的步骤,因此,本实施例中对可调噪声抑制深度的神经网络语音增强系统的运行过程不再详细介绍。
[0110]
在一个实施例中,在本发明的实施例中还提供了一种电子设备,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行所述的可调噪声抑制深度的神经网络语音增强方法,该处理器执行指令时实现上述各方法实施例中的步骤。
[0111]
在本发明的一个实施例中还提供了一种电子设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
[0112]
在本发明的一个实施例中还提供了一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0113]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。
[0114]
综上所述,本发明提供的一种可调噪声抑制深度的神经网络语音增强方法,改善基于tfm的深度神经网络语音增强残留噪声问题,提高语音增强算法性能,通过调整模型噪声抑制深度,以适应不同应用场景需求,通过设置额外的噪声抑制模块解决了目前基于tmf的深度神经网络语音增强算法的噪声残留问题;噪声抑制模块可以在原有的增强效果上进一步提高语音质量,通过降噪深度调节因子,可以根据日常应用需求,调整合适的降噪深度。
[0115]
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献