一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语音降噪模型的训练方法、装置、存储介质及电子装置与流程

2022-09-01 07:02:10 来源:中国专利 TAG:


1.本发明涉及语音降噪模型的训练相关领域,具体而言,涉及一种语音降噪模型的训练方法、装置、存储介质及电子装置。


背景技术:

2.当前单通道深度学习降噪方法已经取得显著进展,其性能明显优于传统信号处理方法。当前以u-net为基础的模型是其主流技术方案之一。
3.当前单通道深度学习降噪方法已经取得显著进展,其性能明显优于传统信号处理方法。但该方法虽然降噪性能卓越,但时常伴有语音损伤问题,尤其是模型参数量较小时尤为明显,给语音听感带来负面影响。
4.损失函数是深度学习模型性能好坏的一个关键因素,当前语音降噪中所用损失函数较多的方法,最大的问题是是均从信号本身出发,未充分考虑语音自身特性。
5.语音本质上可分解成包络与谐波,而谐波可看作是载波信号,包络携带语义、声带形态等更加重要信息,比如人的声带即使不震动,使用耳语交流对方依然能听懂其内容,所以从根本上来讲,只要包络信息不损失,语义信息即可保留,而包络信息在听觉感知中可使用mel谱或者bark谱描述。
6.针对上述的问题,目前尚未提出有效的解决方案。


技术实现要素:

7.本发明实施例提供了一种语音降噪模型的训练方法、装置、存储介质及电子装置,以至少解决现有技术中,语音降噪模型降低噪声的同时,保留语音信息较少,导致语音损伤较大的技术问题。
8.根据本发明实施例的一个方面,提供了一种语音降噪模型的训练方法,包括:获取语音训练样本数据,其中,所述语音训练样本数据中携带有噪音数据;对所述语音训练样本数据进行特征提取,得到语音特征数据;将所述语音特征数据输入预设语音降噪模型中,输出预测语音数据,其中,所述预测语音数据未包括噪音数据;在所述预设语音降噪模型中的信号损失函数和频谱损失函数均满足预设条件的情况下,结束所述预设语音降噪模型训练,得到目标语音降噪模型,其中,所述预测语音数据与干净语音数据构成所述损失函数满足,所述预测语音数据的预测频谱数据和所述干净语音数据的频谱数据构成所述频谱损失函数,所述干净语音数据为未携带噪音数据的训练样本数据。
9.可选的,所述预测语音数据的预测频谱数据和所述干净语音数据的频谱数据构成所述频谱损失函数,包括:通过谱转换矩阵将所述语音特征数据从频域转换到频谱能量域,得到第一频谱能量特征;通过谱转换矩阵将所述干净语音的语音特征数据从频域转换到频谱能量域,得到第二频谱能量特征;基于所述第一频谱能量特征和所述第二频谱能量特征构成所述频谱损失函数。
10.可选的,所述基于所述第一频谱能量特征和所述第二频谱能量特征构成所述频谱
损失函数,包括:通过如下公式计算频谱损失函数:
[0011][0012]
ms(t,b)=|fs|*ms,ms2(t,b)=|fs2|*ms,
[0013]
其中,t表示一条语音的帧数,ms(t,b)表示所述第一频谱能量特征,ms2(t,b)表示所述第二频谱能量特征,||表示取绝对值,fs表示噪声谱,fs2表示干净语音谱,ms表示预设矩阵。
[0014]
可选的,所述对所述语音训练样本数据进行特征提取,得到语音特征数据,包括:对所述语音训练样本数据通过如下之一模型进行特征提取:卷积神经网络、递归神经网络或全连接神经网络,得到所述语音特征数据。
[0015]
可选的,所述获取语音训练样本数据之前,所述方法还包括:将未含噪音的目标语音数据和多种类型的噪声以不同的信噪比混合,获取所述语音训练样本数据。
[0016]
根据本发明实施例的一个方面,提供了一种语音降噪模型方法,包括:获取目标语音信息;将所述目标语音信息输入目标降噪语音模型中,输出降噪后的语音信息,其中,所述目标降噪语音模型包括上述任一项训练语音降噪模型得到的。
[0017]
根据本发明实施例的一个方面,提供了一种语音降噪模型的训练装置,包括:获取单元,用于获取语音训练样本数据,其中,所述语音训练样本数据中携带有噪音数据;特征提取单元,用于对所述语音训练样本数据进行特征提取,得到语音特征数据;预测单元,用于将所述语音特征数据输入预设语音降噪模型中,输出预测语音数据,其中,所述预测语音数据未包括噪音数据;训练单元,用于在所述预设语音降噪模型中的信号损失函数和频谱损失函数均满足预设条件的情况下,结束所述预设语音降噪模型训练,得到目标语音降噪模型,其中,所述预测语音数据与干净语音数据构成所述损失函数满足,所述预测语音数据的预测频谱数据和所述干净语音数据的频谱数据构成所述频谱损失函数,所述干净语音数据为未携带噪音数据的训练样本数据。
[0018]
可选的,所述训练单元,包括:第一转换模块,用于通过谱转换矩阵将所述语音特征数据从频域转换到频谱能量域,得到第一频谱能量特征;第二转换模块,用于通过谱转换矩阵将所述干净语音的语音特征数据从频域转换到频谱能量域,得到第二频谱能量特征;构建模块,用于基于所述第一频谱能量特征和所述第二频谱能量特征构成所述频谱损失函数。
[0019]
可选的,所述构建模块,还用于执行如下操作:通过如下公式计算频谱损失函数:
[0020][0021]
ms(t,b)=|fs|*ms,ms2(t,b)=|fs2|*ms,
[0022]
其中,t表示一条语音的帧数,ms(t,b)表示所述第一频谱能量特征,ms2(t,b)表示所述第二频谱能量特征,||表示取绝对值,fs表示噪声谱,fs2表示干净语音谱,ms表示预设矩阵。
[0023]
可选的,所述特征提取单元,包括:特征提取模块,用于对所述语音训练样本数据通过如下之一模型进行特征提取:卷积神经网络、递归神经网络或全连接神经网络,得到所
述语音特征数据。
[0024]
可选的,上述装置还包括:混合单元,用于所述获取语音训练样本数据之前,将未含噪音的目标语音数据和多种类型的噪声以不同的信噪比混合,获取所述语音训练样本数据。
[0025]
根据本技术实施例的第一个方面,提供了一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述语音降噪模型的训练方法。
[0026]
根据本技术实施例的第一个方面,提供了一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述语音降噪模型的训练方法。
[0027]
根据本技术实施例的第一个方面,提供了一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述语音降噪方法。
[0028]
根据本技术实施例的第一个方面,提供了一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述语音降噪方法。
[0029]
在本发明实施例中,获取语音训练样本数据,其中,语音训练样本数据中携带有噪音数据;对语音训练样本数据进行特征提取,得到语音特征数据;将语音特征数据输入预设语音降噪模型中,输出预测语音数据,其中,预测语音数据未包括噪音数据;在预设语音降噪模型中的信号损失函数和频谱损失函数均满足预设条件的情况下,结束预设语音降噪模型训练,得到目标语音降噪模型,其中,预测语音数据与干净语音数据构成损失函数满足,预测语音数据的预测频谱数据和干净语音数据的频谱数据构成频谱损失函数,干净语音数据为未携带噪音数据的训练样本数据。在本实施例中,通过在基于信号的损失函数中,加入频谱损失函数(信号包络的一种形式),使得该总损失函数在降低噪声的同时,能够更好保留语音信息,使得听感得到提升,以至少解决现有技术中,语音降噪模型降低噪声的同时,保留语音信息较少,导致语音损伤较大的技术问题。
附图说明
[0030]
此处所说明的附图用来提供对本发明的进一步理解,构成本技术的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0031]
图1是根据本发明实施例的一种可选的语音降噪模型的训练方法的移动终端的硬件结构框图;
[0032]
图2是根据本发明实施例的一种可选的语音降噪模型的训练方法的流程图;
[0033]
图3是根据本发明实施例的一种可选的非对称编解码方式的语音降噪模型的结构图;
[0034]
图4是根据本发明实施例的一种可选的语音降噪模型的训练装置图。
具体实施方式
[0035]
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的
附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
[0036]
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一序列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0037]
本技术实施例所提供的语音降噪模型的训练方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种语音降噪模型的训练方法的移动终端的硬件结构框图。如图1所示,移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)和用于存储数据的存储器104,可选地,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
[0038]
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的语音降噪模型的训练方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0039]
在本实施例中还提供了一种语音降噪模型的训练方法,图2是根据本发明实施例的语音降噪模型的训练方法的流程图,如图2所示,该语音降噪模型的训练方法流程包括如下步骤:
[0040]
步骤s202,获取语音训练样本数据,其中,语音训练样本数据中携带有噪音数据。
[0041]
步骤s204,对语音训练样本数据进行特征提取,得到语音特征数据。
[0042]
步骤s206,将语音特征数据输入预设语音降噪模型中,输出预测语音数据,其中,预测语音数据未包括噪音数据。
[0043]
步骤s208,在预设语音降噪模型中的信号损失函数和频谱损失函数均满足预设条件的情况下,结束预设语音降噪模型训练,得到目标语音降噪模型,其中,预测语音数据与干净语音数据构成损失函数满足,预测语音数据的预测频谱数据和干净语音数据的频谱数据构成频谱损失函数,干净语音数据为未携带噪音数据的训练样本数据。
[0044]
在本实施例中,上述训练得到的目标语音降噪模型可以实现不同场景下语音信息的降噪,例如在对话场景中,对用户语音数据进行降噪。在语音通过过程中,对用户语音数
据进行降噪。降噪后的语音数据可以用于语音识别,提高语音识别的准确度。还可以应用于语音通话中,用于提升通话质量。
[0045]
上述语音训练样本是通过不含噪音的干净语音数据与噪音语音数据基于进行混合得到。通过不同的信噪比进行混合得到语音训练样本数据。语音数据混合方式包括但不限于,干净语音数据与不同类型的噪音数据通过相同的信噪比进行混合,还包括干净语音数据与每个类型的噪音数据通过不同的信噪比进行混合。
[0046]
通过本技术提供的实施例,获取语音训练样本数据,其中,语音训练样本数据中携带有噪音数据;对语音训练样本数据进行特征提取,得到语音特征数据;将语音特征数据输入预设语音降噪模型中,输出预测语音数据,其中,预测语音数据未包括噪音数据;在预设语音降噪模型中的信号损失函数和频谱损失函数均满足预设条件的情况下,结束预设语音降噪模型训练,得到目标语音降噪模型,其中,预测语音数据与干净语音数据构成损失函数满足,预测语音数据的预测频谱数据和干净语音数据的频谱数据构成频谱损失函数,干净语音数据为未携带噪音数据的训练样本数据。在本实施例中,通过在基于信号的损失函数中,加入频谱损失函数(信号包络的一种形式),使得该总损失函数在降低噪声的同时,能够更好保留语音信息,使得听感得到提升,以至少解决现有技术中,语音降噪模型降低噪声的同时,保留语音信息较少,导致语音损伤较大的技术问题。
[0047]
可选的,预测语音数据的预测频谱数据和干净语音数据的频谱数据构成频谱损失函数,可以包括:通过谱转换矩阵将语音特征数据从频域转换到频谱能量域,得到第一频谱能量特征;通过谱转换矩阵将干净语音的语音特征数据从频域转换到频谱能量域,得到第二频谱能量特征;基于第一频谱能量特征和第二频谱能量特征构成频谱损失函数。
[0048]
可选的,基于第一频谱能量特征和第二频谱能量特征构成频谱损失函数,可以包括:通过如下公式计算频谱损失函数:
[0049][0050]
ms(t,b)=|fs|*ms,ms2(t,b)=|fs2|*ms,
[0051]
其中,t表示一条语音的帧数,ms(t,b)表示所述第一频谱能量特征,ms2(t,b)表示所述第二频谱能量特征,||表示取绝对值,fs表示噪声谱,fs2表示干净语音谱,ms表示预设矩阵。
[0052]
在本实施例中,ms预设矩阵,是通过人耳听觉感知获得的转换矩阵,比如梅尔滤波器组(bark滤波器组也可以)。输出ms是噪声的频谱通过转换矩阵得到的梅尔谱,ms2是干净语音的梅尔谱。
[0053]
需要说明的是,在本实施例中,fs指噪声谱,fs2指干净语音谱。谱可以是fft、dct等变换域谱,以dct谱为例。每一帧都可以计算谱,所以fs其实是fs(t,f)更加合理,f表示频率点。ms是一个矩阵,大小为f
×
b,其中f是总的频点数,可以选择为16khz数据,选择f为512,b是包络谱频点个数,英文叫filterbank,可以选择为80,也可以按照降噪更多和语音损伤之间平衡选取,实验数值范围在26~80之间,通过这个转换矩阵可以将能量谱|fs|转为包络谱,生成ms(t,b)。
[0054]
可选的,对语音训练样本数据进行特征提取,得到语音特征数据,可以包括:对语
音训练样本数据通过如下之一模型进行特征提取:卷积神经网络、递归神经网络或全连接神经网络,得到语音特征数据。
[0055]
可选的,获取语音训练样本数据之前,上述方法还可以包括:将未含噪音的目标语音数据和多种类型的噪声以不同的信噪比混合,获取语音训练样本数据。
[0056]
根据本发明实施例的一个方面,提供了一种语音降噪模型方法,包括:获取目标语音信息;将目标语音信息输入目标降噪语音模型中,输出降噪后的语音信息,其中,目标降噪语音模型包括上述任一项训练语音降噪模型得到的。
[0057]
作为一种可选的实施例,本技术还提供了一种基于损失函数的语音降噪模型训练方法。
[0058]
在本实施例中,如图3所示,基于损失函数的语音降噪模型的结构示意图,网络模型采用卷积神经网络、长短时记忆网络以及全连接网络联合的方式。
[0059]
基于上述模型设计,以下是模型训练方式,不同模型架构类似。
[0060]
所提整体流程包括训练阶段和应用阶段两部分,训练阶段分为三个步骤:
[0061]
第1步:数据生成,将原始的干净语音数据(相当于原始语音数据)和多种类型的噪声以不同的信噪比混合,将混合语音(相当于语音训练样本数据)作为训练输入数据x;原始干净语音s也作为参考输入数据,在计算模型损失时使用;
[0062]
第2步:提取特征,将训练数据的每一段语音进行分帧、加窗,每一帧均使用dct离散余弦变换(discrete cosine transform)变换,将时域特征转化为频域特征fx(t,f);干净语音也做此操作得到fs(t,f),以便在计算模型损失时使用;
[0063]
第3步:训练网络,将提取的特征输入网络模型进行训练,使用信号逼近(signal approximation)的方法,估计一个隐式的掩码mask(t,f),将其乘到带噪语音的特征fx(t,f)上,估计干净信号的特征fs2(t,f),对fs2(t,f)进行idct(dct反变换)变换,再经重叠相加得到时域上的增强语音(其中t表示帧,f表示频点)。
[0064]
将和目标语音s使用损失函数计算误差。损失函数用scale-invariant snr(si-snr),
[0065]
其定义公式如下:
[0066][0067]
其中,s和分别表示干净语音和估计语音,《,》表示向量的点乘,为欧几里得范数。
[0068]
损失函数也可以使用snr、mse、mae等其它损失函数。dct\idct变换也可替换为fft\ifft或可学习变换特征。
[0069]
通过mel谱转换矩阵mel(f,b)将fs(t,f)与fs2(t,f)从频域转换到mel域,得到ms(t,b),ms2(t,b),计算mel谱损失函数误差,公式如下:
[0070]
ms(t,b)=|fs|*ms,ms2(t,b)=|fs2|*ms,其中||表示取绝对值。
[0071]
mel损失函数mel-loss=|ms(t,b)
1/3-ms2(t,b)
1/3
|
[0072]
总损失all-loss=alpha*si-snr beta*mel-loss,其中alpha和beta是设定参数,调节降噪量与语音损伤之间的平衡,实际中alpha可取1,beta可取10。不断迭代训练,当损失不断变小直至收敛,保存模型。
[0073]
其中,模型部分说明:
[0074]
cnn:指代卷积神经网络,实际中使用了7层cnn;
[0075]
rnn:指代递归神经网络,实际中使用了2层lstm;
[0076]
dnn:指代全连接神经网络,实际中使用1层dnn;
[0077]
以上模型在应用中可根据需要裁剪、增删。
[0078]
应用阶段,实际使用中使用已经训练好的模型进行推理。未知的带噪语音数据经过分帧、加窗、特征提取,经过已训练好的模型得到掩码,再与特征提取得到的特征相乘,经过特征反变换、重叠相加,得到预测的干净语音。
[0079]
在本实施例中,通过在基于信号的损失函数中,加入mel谱(信号包络的一种形式),使得该损失函数在降低噪声的同时,能够更好保留语音信息,使得听感得到提升。
[0080]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
[0081]
在本实施例中还提供了一种语音降噪模型的训练装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
[0082]
图4是根据本发明实施例的语音降噪模型的训练装置的结构框图,如图4所示,该语音降噪模型的训练装置包括:
[0083]
获取单元41,用于获取语音训练样本数据,其中,语音训练样本数据中携带有噪音数据。
[0084]
特征提取单元43,用于对语音训练样本数据进行特征提取,得到语音特征数据。
[0085]
预测单元45,用于将语音特征数据输入预设语音降噪模型中,输出预测语音数据,其中,预测语音数据未包括噪音数据。
[0086]
训练单元47,用于在预设语音降噪模型中的信号损失函数和频谱损失函数均满足预设条件的情况下,结束预设语音降噪模型训练,得到目标语音降噪模型,其中,预测语音数据与干净语音数据构成损失函数满足,预测语音数据的预测频谱数据和干净语音数据的频谱数据构成频谱损失函数,干净语音数据为未携带噪音数据的训练样本数据。
[0087]
通过本技术提供的实施例,获取单元41获取语音训练样本数据,其中,语音训练样本数据中携带有噪音数据;特征提取单元43对语音训练样本数据进行特征提取,得到语音特征数据;预测单元45将语音特征数据输入预设语音降噪模型中,输出预测语音数据,其
中,预测语音数据未包括噪音数据;训练单元47在预设语音降噪模型中的信号损失函数和频谱损失函数均满足预设条件的情况下,结束预设语音降噪模型训练,得到目标语音降噪模型,其中,预测语音数据与干净语音数据构成损失函数满足,预测语音数据的预测频谱数据和干净语音数据的频谱数据构成频谱损失函数,干净语音数据为未携带噪音数据的训练样本数据。在本实施例中,通过在基于信号的损失函数中,加入频谱损失函数(信号包络的一种形式),使得该总损失函数在降低噪声的同时,能够更好保留语音信息,使得听感得到提升,以至少解决现有技术中,语音降噪模型降低噪声的同时,保留语音信息较少,导致语音损伤较大的技术问题。
[0088]
可选的,上述训练单元,可以包括:第一转换模块,用于通过谱转换矩阵将语音特征数据从频域转换到频谱能量域,得到第一频谱能量特征;第二转换模块,用于通过谱转换矩阵将干净语音的语音特征数据从频域转换到频谱能量域,得到第二频谱能量特征;构建模块,用于基于第一频谱能量特征和第二频谱能量特征构成频谱损失函数。
[0089]
可选的,上述构建模块,还用于执行如下操作:通过如下公式计算频谱损失函数:
[0090][0091]
ms(t,b)=|fs|*ms,ms2(t,b)=|fs2|*ms,
[0092]
其中,t表示一条语音的帧数,ms(t,b)表示所述第一频谱能量特征,ms2(t,b)表示所述第二频谱能量特征,||表示取绝对值,fs表示噪声谱,fs2表示干净语音谱,ms表示预设矩阵。
[0093]
可选的,上述特征提取单元,可以包括:特征提取模块,用于对语音训练样本数据通过如下之一模型进行特征提取:卷积神经网络、递归神经网络或全连接神经网络,得到语音特征数据。
[0094]
可选的,上述装置还可以包括:混合单元,用于获取语音训练样本数据之前,将未含噪音的目标语音数据和多种类型的噪声以不同的信噪比混合,获取语音训练样本数据。
[0095]
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
[0096]
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
[0097]
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
[0098]
s1,获取语音训练样本数据,其中,语音训练样本数据中携带有噪音数据;
[0099]
s2,对语音训练样本数据进行特征提取,得到语音特征数据;
[0100]
s3,将语音特征数据输入预设语音降噪模型中,输出预测语音数据,其中,预测语音数据未包括噪音数据;
[0101]
s4,在预设语音降噪模型中的信号损失函数和频谱损失函数均满足预设条件的情况下,结束预设语音降噪模型训练,得到目标语音降噪模型,其中,预测语音数据与干净语音数据构成损失函数满足,预测语音数据的预测频谱数据和干净语音数据的频谱数据构成
频谱损失函数,干净语音数据为未携带噪音数据的训练样本数据。
[0102]
可选地,在本实施例中,上述存储介质可以包括但不限于:u盘、只读存储器(read-only memory,简称为rom)、随机存取存储器(random access memory,简称为ram)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
[0103]
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
[0104]
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
[0105]
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
[0106]
s1,获取语音训练样本数据,其中,语音训练样本数据中携带有噪音数据;
[0107]
s2,对语音训练样本数据进行特征提取,得到语音特征数据;
[0108]
s3,将语音特征数据输入预设语音降噪模型中,输出预测语音数据,其中,预测语音数据未包括噪音数据;
[0109]
s4,在预设语音降噪模型中的信号损失函数和频谱损失函数均满足预设条件的情况下,结束预设语音降噪模型训练,得到目标语音降噪模型,其中,预测语音数据与干净语音数据构成损失函数满足,预测语音数据的预测频谱数据和干净语音数据的频谱数据构成频谱损失函数,干净语音数据为未携带噪音数据的训练样本数据。
[0110]
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
[0111]
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
[0112]
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献