一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

小样本不均衡语音数据库的生成式数据增强方法及系统

2022-06-01 00:52:34 来源:中国专利 TAG:


1.本发明涉及语音数据增强技术领域,特别涉及一种小样本不均衡语音数据库的生成式数据增强方法及系统。


背景技术:

2.数据增强主要用来防止模型的过拟合。随着深度学习的发展,现在用于语音识别、分类等领域的各种机器学习模型都向着高复杂度的方向发展。决定这些机器学习模型效果的因素除了机器学习算法本身外,训练模型所使用的数据库是否有充足的数据量、样本数量是否均衡也有很大影响。由于小样本数据集容易出现过拟合或者泛化能力不强的问题,不均衡数据集会导致模型出现预测偏差,因此需要对原始小样本不均衡语音数据库进行扩充与均衡。
3.传统的语音数据增强方法主要有:音量增强、速度增强、音调增强、移动增强、噪声增强、时域掩蔽、频域掩蔽等。用这些增强后的语音来训练机器学习模型,可以一定程度上提高机器学习算法的准确率和鲁棒性。然而,这些增强方法都是针对原始语音的某一类特性进行增强,在一些特殊的数据库中并不适用。如在元音数据库中,音量、速度等都是数据库内某一类样本的固有特征,不能直接对其进行改变。
4.基于深度学习的各类语音生成模型可以解决这类问题。但现阶段这类模型主要用于更精确、实时的语音生成,本身模型的训练就需要海量的数据。即使使用已经训练好的模型,在对如元音数据库等特殊数据库进行生成式数据增强时也存在生成样本单一、生成数据效果不理想等问题。
5.综上所述,在面对小样本不均衡语音数据库时,有必要设计一种适用的数据增强模型,该模型能够使用原始小样本不均衡数据库进行训练,且能针对不同数据库生成准确、多样的数据。


技术实现要素:

6.本发明要解决的技术问题是提供一种可以生成准确、多样的语音样本以扩充现有小样本不均衡语音数据库,使数据库能够应用更复杂的机器学习算法小样本不均衡语音数据库的生成式数据增强方法。
7.为了解决上述问题,本发明提供了一种小样本不均衡语音数据库的生成式数据增强方法,所述小样本不均衡语音数据库的生成式数据增强方法包括:
8.s1、对原始语音数据进行信号预处理,并对预处理后的语音数据划分训练集与测试集;
9.s2、对训练集数据和测试集数据进行压缩;
10.s3:对压缩后的训练集数据和测试集数据进行独热编码;
11.s4、使用独热编码后的训练集数据训练低残差wavenet神经网络;
12.s5、使用独热编码后的测试集数据和训练好的低残差wavenet神经网络生成原始
数据库中不存在的语音样本。
13.作为本发明的进一步改进,所述对原始语音数据进行信号预处理,包括:对原始语音数据进行预加重和归一化处理,如下:
[0014][0015]
其中,为预加重后的语音数据,x(n)、x(n-1)为原始语音数据第n个采样点和第n-1个采样点,α为预加重系数,n为数据总长度;
[0016][0017]
其中,s(n)为归一化后的语音数据,为预加重后的语音数据,n为语音数据总长度。
[0018]
作为本发明的进一步改进,所述对训练集数据和测试集数据进行压缩,包括:
[0019]
利用以下公式对训练集数据和测试集数据进行压缩:
[0020][0021]
其中,f(x
t
)为压缩后的语音数据,x
t
为时间点t时的语音数据,μ为压缩系数。
[0022]
作为本发明的进一步改进,步骤s3中,独热编码的方法如下:将值为-1到1之间的数值区间分为n段,每一个连续值由n位的二进制数字表示,n位二进制数字中只有一位为1,其余为0,为1的那一位即该数字在n段数值区间中的位置。
[0023]
作为本发明的进一步改进,步骤s4中,所述低残差wavenet神经网络包括多个具有相同结构的残差块,每个残差块包含多个扩张率指数增加的扩张因果卷积,训练步骤如下:
[0024]
s41、从训练集中随机选取k段长度为网络卷积操作的感受野个点的语音片段送入低残差wavenet神经网络;
[0025]
s42、取输入数据之后的16个点作为真实输出,计算真实输出与预测输出的误差损失函数,计算如下:
[0026][0027]
其中,l(x)为点x的损失值,p(xi)为点x的真实数据值,q(xi)为点x的预测数据值,n为独热编码的长度;
[0028]
s43、更新神经网络权值参数;
[0029]
s44、重复步骤s41-s43,直至损失函数达到设定值或完成设定的训练次数。
[0030]
作为本发明的进一步改进,步骤s5包括:使用独热编码后的测试集数据和训练好的低残差wavenet神经网络生成一个点的语音样本数据,再将生成的语音样本数据作为低残差wavenet神经网络的输入,并生成下一个点的语音样本数据,直至生成语音样本数据长度达到设定值。
[0031]
为了解决上述问题,本发明还提供了一种小样本不均衡语音数据库的生成式数据增强系统,其包括:
[0032]
预处理模块,用于对原始语音数据进行信号预处理,并对预处理后的语音数据划分训练集与测试集;
[0033]
压缩模块,用于对训练集数据和测试集数据进行压缩;
[0034]
编码模块,用于对压缩后的训练集数据和测试集数据进行独热编码;
[0035]
神经网络训练模块,用于使用独热编码后的训练集数据训练低残差wavenet神经网络;
[0036]
语音样本生成模块,用于使用独热编码后的测试集数据和训练好的低残差wavenet神经网络生成原始数据库中不存在的语音样本。
[0037]
作为本发明的进一步改进,所述对原始语音数据进行信号预处理,包括:
[0038]
对原始语音数据进行预加重和归一化处理,如下:
[0039][0040]
其中,为预加重后的语音数据,x(n)、x(n-1)为原始语音数据第n个采样点和第n-1个采样点,α为预加重系数,n为数据总长度;
[0041][0042]
其中,s(n)为归一化后的语音数据,为预加重后的语音数据,n为语音数据总长度。
[0043]
作为本发明的进一步改进,所述对训练集数据和测试集数据进行压缩,包括:
[0044]
利用以下公式对训练集数据和测试集数据进行压缩:
[0045][0046]
其中,f(x
t
)为压缩后的语音数据,x
t
为时间点t时的语音数据,μ为压缩系数。
[0047]
作为本发明的进一步改进,所述低残差wavenet神经网络包括多个具有相同结构的残差块,每个残差块包含多个扩张率指数增加的扩张因果卷积,训练步骤如下:
[0048]
s41、从训练集中随机选取k段长度为网络卷积操作的感受野个点的语音片段送入低残差wavenet神经网络;
[0049]
s42、取输入数据之后的16个点作为真实输出,计算真实输出与预测输出的误差损失函数,计算如下:
[0050][0051]
其中,l(x)为点x的损失值,p(xi)为点x的真实数据值,q(xi)为点x的预测数据值,n为独热编码的长度;
[0052]
s43、更新神经网络权值参数;
[0053]
s44、重复步骤s41-s43,直至损失函数达到设定值或完成设定的训练次数。
[0054]
本发明的有益效果:
[0055]
本发明小样本不均衡语音数据库的生成式数据增强方法及系统针对小样本的不
均衡语音数据库,采用自回归建模语音的前后关系,对有限语音数据进行生成,并使用低残差wavenet网络模型,比直接使用wavenet网络模型的数据生成方法更易训练,生成速度也更快。
[0056]
本发明小样本不均衡语音数据库的生成式数据增强方法及系统可以生成准确、多样的语音样本以扩充现有小样本不均衡语音数据库,使数据库能够应用更复杂的机器学习算法。
[0057]
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
[0058]
图1是本发明优选实施例中小样本不均衡语音数据库的生成式数据增强方法的流程图;
[0059]
图2是本发明优选实施例中低残差wavenet神经网络的结构图;
[0060]
图3是mfcc特征参数提取流程图。
具体实施方式
[0061]
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
[0062]
实施例一
[0063]
如图1所示,为本实施例中的小样本不均衡语音数据库的生成式数据增强方法,所述小样本不均衡语音数据库的生成式数据增强方法包括以下步骤:
[0064]
步骤s1、对原始语音数据进行信号预处理,并对预处理后的语音数据划分训练集与测试集;
[0065]
具体地,所述对原始语音数据进行信号预处理,包括:对原始语音数据进行预加重和归一化处理,如下:
[0066][0067]
其中,为预加重后的语音数据,x(n)、x(n-1)为原始语音数据第n个采样点和第n-1个采样点,α为预加重系数,n为数据总长度;
[0068][0069]
其中,s(n)为归一化后的语音数据,为预加重后的语音数据,n为语音数据总长度。
[0070]
在其中一实施例中,预加重系数α为0.97。
[0071]
步骤s2、对训练集数据和测试集数据进行压缩;
[0072]
具体地,利用以下公式对训练集数据和测试集数据进行压缩:
[0073][0074]
其中,f(x
t
)为压缩后的语音数据,x
t
为时间点t时的语音数据,μ为压缩系数。在其中一实施例中,压缩系数μ为256。
[0075]
步骤s3:对压缩后的训练集数据和测试集数据进行独热编码;
[0076]
具体地,独热编码的方法如下:将值为-1到1之间的数值区间分为n段,每一个连续值由n位的二进制数字表示,n位二进制数字中只有一位为1,其余为0,为1的那一位即该数字在n段数值区间中的位置。
[0077]
在其中一实施例中,对压缩后的训练集数据和测试集数据进行长度为256的独热编码。
[0078]
步骤s4、使用独热编码后的训练集数据训练低残差wavenet神经网络;
[0079]
具体地,所述低残差wavenet神经网络包括多个具有相同结构的残差块,每个残差块包含多个扩张率指数增加的扩张因果卷积,训练步骤如下:
[0080]
s41、从训练集中随机选取k段长度为网络卷积操作的感受野个点的语音片段送入低残差wavenet神经网络;
[0081]
s42、取输入数据之后的16个点作为真实输出,计算真实输出与预测输出的误差损失函数,计算如下:
[0082][0083]
其中,l(x)为点x的损失值,p(xi)为点x的真实数据值,q(xi)为点x的预测数据值,n为独热编码的长度;
[0084]
s43、更新神经网络权值参数;
[0085]
s44、重复步骤s41-s43,直至损失函数达到设定值或完成设定的训练次数。
[0086]
如图2所示,在其中一实施例中,低残差wavenet神经网络由两个相同结构残差块组成,每个残差块包含10个扩张因果卷积,10个扩张因果卷积的扩张系数为1、2、4、8、16、32、64、128、256、512。在两个残差块之前进行了一次因果卷积,两个残差块之后对输入与两个残差块后的输出进行了一次残差链接,再经过两次因果卷积。其训练步骤为:
[0087]
s41、从训练集中随机选取16段长度为2047个点的语音片段送入低残差wavenet神经网络;
[0088]
s42、取输入数据之后的16个点作为真实输出,计算真实输出与预测输出的误差损失函数,计算如下:
[0089][0090]
其中,l(x)为点x的损失值,p(xi)为点x的真实数据值,q(xi)为点x的预测数据值,256为独热编码的长度。
[0091]
s43、更新神经网络权重;
[0092]
s44、重复步骤s4-1-s4-3,直至损失函数达到设定值或完成设定的训练次数。
[0093]
步骤s5、使用独热编码后的测试集数据和训练好的低残差wavenet神经网络生成
原始数据库中不存在的语音样本。
[0094]
具体地,使用独热编码后的测试集数据和训练好的低残差wavenet神经网络生成一个点的语音样本数据,再将生成的语音样本数据作为低残差wavenet神经网络的输入,并生成下一个点的语音样本数据,直至生成语音样本数据长度达到设定值。在其中一实施例中,设定值为0.5s。
[0095]
为了验证本发明的小样本不均衡语音数据库的生成式数据增强方法的可行性,在原始小样本不均衡语音数据库中,提取传统语音特征参数mfcc,使用本发明的方法生成新的语音样本并提取其特征参数mfcc,比较分析生成样本与原始样本在特征空间的差异性。
[0096]
具体地,参照图3所示,所述传统语音特征参数mfcc的提取过程包括:
[0097]
预处理:对语音信号s(n)进行预加重、加窗和分帧处理,以汉明窗作为窗函数,得到每帧信号sn(m);
[0098]
快速傅里叶变换:通过短时傅里叶分析得到幅度谱xn(k);
[0099]
mel滤波器处理:将幅度谱xn(k)通过一组mel尺度的三角形滤波器组(m个滤波器);
[0100]
获取对数能量:计算每个滤波器组输出的对数能量;
[0101]
离散余弦变换(dct):将对数能量带入dct,求出m阶的mfcc系数;
[0102]
动态差分参数:提取mfcc的1阶和2阶导数加入特征矩阵。
[0103]
采用本发明的小样本不均衡语音数据库的生成式数据增强方法生成新数据并提取传统语音特征参数mfcc,使用t-test对生成语音的新样本特征集和原始语音的特征集进行统计学检验分析。最终得到差异值p》0.05,表明生成新样本与原始样本无显著差异性,具有真实样本的信息代表价值。
[0104]
实施例二
[0105]
本实施例公开了小样本不均衡语音数据库的生成式数据增强系统,其包括以下模块:
[0106]
预处理模块,用于对原始语音数据进行信号预处理,并对预处理后的语音数据划分训练集与测试集;
[0107]
具体地,所述对原始语音数据进行信号预处理,包括:对原始语音数据进行预加重和归一化处理,如下:
[0108][0109]
其中,为预加重后的语音数据,x(n)、x(n-1)为原始语音数据第n个采样点和第n-1个采样点,α为预加重系数,n为数据总长度;
[0110][0111]
其中,s(n)为归一化后的语音数据,为预加重后的语音数据,n为语音数据总长度。
[0112]
压缩模块,用于对训练集数据和测试集数据进行压缩;
[0113]
具体地,利用以下公式对训练集数据和测试集数据进行压缩:
[0114][0115]
其中,f(x
t
)为压缩后的语音数据,x
t
为时间点t时的语音数据,μ为压缩系数。
[0116]
编码模块,用于对压缩后的训练集数据和测试集数据进行独热编码;
[0117]
具体地,独热编码的方法如下:将值为-1到1之间的数值区间分为n段,每一个连续值由n位的二进制数字表示,n位二进制数字中只有一位为1,其余为0,为1的那一位即该数字在n段数值区间中的位置。
[0118]
神经网络训练模块,用于使用独热编码后的训练集数据训练低残差wavenet神经网络;
[0119]
具体地,所述低残差wavenet神经网络包括多个具有相同结构的残差块,每个残差块包含多个扩张率指数增加的扩张因果卷积,训练步骤如下:
[0120]
s41、从训练集中随机选取k段长度为网络卷积操作的感受野个点的语音片段送入低残差wavenet神经网络;
[0121]
s42、取输入数据之后的16个点作为真实输出,计算真实输出与预测输出的误差损失函数,计算如下:
[0122][0123]
其中,l(x)为点x的损失值,p(xi)为点x的真实数据值,q(xi)为点x的预测数据值,n为独热编码的长度;
[0124]
s43、更新神经网络权值参数;
[0125]
s44、重复步骤s41-s43,直至损失函数达到设定值或完成设定的训练次数。
[0126]
语音样本生成模块,用于使用独热编码后的测试集数据和训练好的低残差wavenet神经网络生成原始数据库中不存在的语音样本。
[0127]
具体地,使用独热编码后的测试集数据和训练好的低残差wavenet神经网络生成一个点的语音样本数据,再将生成的语音样本数据作为低残差wavenet神经网络的输入,并生成下一个点的语音样本数据,直至生成语音样本数据长度达到设定值。在其中一实施例中,设定值为0.5s。
[0128]
下面,将本发明的小样本不均衡语音数据库的生成式数据增强方法用于小样本不均衡语音信号的模式识别。
[0129]
在小样本不均衡语音数据库的条件下,将本发明的数据增强技术用于语音信号的模式识别。建模语音信号的模式识别系统包括数据生成、特征提取、分类器分类。
[0130]
一、数据生成与上述实施例一中的数据生成步骤相同;
[0131]
二、特征提取与上述实施例一中的特征空间的差异性比较步骤中的传统语音特征参数mfcc的提取过程相同;
[0132]
三、分类器分类:
[0133]
使用原始语音数据的特征和经过本发明的数据增强方法后的语音数据的特征分别训练随机森林分类器(rf)。
[0134]
对未经过数据增强的数据和经过本发明的方法进行数据增强的数据建模模式识
别系统,使用10折交叉验证法进行模式识别,实验结果如表1所示:
[0135][0136]
表1
[0137]
从上表实验结果可知,原始小样本不均衡数据库不利于建模语音信号的模式识别系统,特别是在accuracy和sensitivity两项指标上,经过本发明的数据增强方法处理后,这两项评估指标取得了明显的提升。
[0138]
本发明小样本不均衡语音数据库的生成式数据增强方法及系统针对小样本的不均衡语音数据库,采用自回归建模语音的前后关系,对样本有限的语音数据进行生成,并使用低残差wavenet网络模型,比直接使用wavenet网络模型的数据生成方法更易训练,生成速度也更快。
[0139]
本发明小样本不均衡语音数据库的生成式数据增强方法及系统可以生成准确、多样的语音样本以扩充现有小样本不均衡语音数据库,使数据库能够应用更复杂的机器学习算法。
[0140]
以上实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献