技术特征:
1.一种语音训练数据集的增强方法,其特征在于,包括:
获取语音训练数据集;
从所述语音训练数据集中提取各个语音训练数据,并将各个所述语音训练数据转化为对应的梅尔频谱图;
对每个所述梅尔频谱图进行像素点重排处理,得到像素点重排处理后的暂时梅尔频谱图;
根据所述暂时梅尔频谱的图片大小,为每个所述暂时梅尔频谱设定擦除区域面积;
引入随机擦除系数,并基于所述擦除区域面积和所述随机擦除系数设定擦除区域的形状参数;
更改所述擦除区域在所述暂时梅尔频谱中的位置或更改所述随机擦除系数,得到各个所述暂时梅尔频谱图对应的多个延伸梅尔频谱图;
将各所述延伸梅尔频谱图转化为对应的目标语音训练数据;
将所述目标语音训练数据补充至所述语音训练数据集中,得到增强后的语音训练数据集。
2.如权利要求1所述的语音训练数据集的增强方法,其特征在于,所述对每个所述梅尔频谱图进行像素点重排处理,得到像素点重排处理后的暂时梅尔频谱图的步骤,包括:
将所述梅尔频谱图划分为多个子集频谱图;
随机选取预设数目的所述子集频谱图进行像素点随机排列,得到像素点重排处理后的暂时梅尔频谱图。
3.如权利要求1所述的语音训练数据集的增强方法,其特征在于,所述擦除区域为矩形区域,所述引入随机擦除系数,并基于所述擦除区域面积和所述随机擦除系数设定擦除区域的形状参数的步骤,包括:
从预设的参数范围中任意选取随机参数re;
根据公式
4.如权利要求3所述的语音训练数据集的增强方法,其特征在于,所述引入随机擦除系数,并基于所述擦除区域面积和所述随机擦除系数设定擦除区域的形状参数的步骤之后,还包括:
基于所述形状参数判断所述暂时梅尔频谱图中是否存在有所述擦除区域的中心点,使所述擦除区域被所述暂时梅尔频谱图完全包含;
若不存在所述中心点,则将更换所述随机擦除系数,直至存在所述中心点。
5.如权利要求1所述的语音训练数据集的增强方法,其特征在于,所述将所述目标语音训练数据补充至所述语音训练数据集中,得到增强后的语音训练数据集的步骤之前,还包括:
将各所述目标语音训练数据输入至预设的向量机中,得到对应固定维度的目标向量x=(x1,x2,…,xi,…,xn);
根据公式
将所述差异值小于预设差异值的目标语音训练数据删除。
6.如权利要求1所述的语音训练数据集的增强方法,其特征在于,所述将所述目标语音训练数据补充至所述语音训练数据集中,得到增强后的语音训练数据集的步骤之后,还包括:
将所述增强后的语音训练数据集中的样本语音数据转换为样本梅尔频谱图;
将所述样本梅尔频谱图和预设的干扰频谱图输入至生成网络,得到中间梅尔频谱图;
将所述中间梅尔频谱图输入至判别网络,得到所述中间梅尔频谱图对应的类型概率和预测标签;
根据所述中间梅尔频谱图的类型概率和所述预测标签对所述生成网络和所述判别网络进行交替迭代训练,并将训练完成的生成网络作为语音模型。
7.如权利要求1所述的语音训练数据集的增强方法,其特征在于,所述将各个所述语音训练数据转化为对应的梅尔频谱图的步骤,包括:
将各个语音训练数据中每一帧语音进行傅里叶变化,得到每一帧语音对应的语音结果;
将各所述语音结果沿其中一个维度进行堆叠,得到对应的声谱图;
将所述声谱图输入至梅尔滤波器组中,得到所述梅尔频谱图。
8.一种语音训练数据集的增强装置,其特征在于,包括:
获取模块,用于获取语音训练数据集;
第一转化模块,用于从所述语音训练数据集中提取各个语音训练数据,并将各个所述语音训练数据转化为对应的梅尔频谱图;
重排模块,用于对每个所述梅尔频谱图进行像素点重排处理,得到像素点重排处理后的暂时梅尔频谱图;
设定模块,用于根据所述暂时梅尔频谱的图片大小,为每个所述暂时梅尔频谱设定擦除区域面积;
引入模块,用于引入随机擦除系数,并基于所述擦除区域面积和所述随机擦除系数设定擦除区域的形状参数;
更改模块,用于更改所述擦除区域在所述暂时梅尔频谱中的位置或更改所述随机擦除系数,得到各个所述暂时梅尔频谱图对应的多个延伸梅尔频谱图;
第二转化模块,用于将各所述延伸梅尔频谱图转化为对应的目标语音训练数据;
补充模块,用于将所述目标语音训练数据补充至所述语音训练数据集中,得到增强后的语音训练数据集。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
技术总结
本发明提供了一种语音训练数据集的增强方法、装置、设备及存储介质,其中,方法包括:通过提取各个语音训练数据对应的梅尔频谱图并进行像素点重排处理,得到像素点重排处理后的暂时梅尔频谱图,为每个所述暂时梅尔频谱设定擦除区域面积,设定擦除区域的形状参数,更改参数或者随机擦除系数,得到多个延伸梅尔频谱图,将各所述延伸梅尔频谱图转化为对应的目标语音训练数据,从而完成对对语音训练数据的补充。发明的有益效果:解决了语音训练数据较少,导致语音模型在训练过程中容易出现过拟合的问题,并且增加了语音模型的鲁棒性,避免语音模型陷入过拟合,大大提高了语音模型的应用范围。
技术研发人员:唐彦玺;王健宗;瞿晓阳
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2021.06.01
技术公布日:2021.08.10
本文用于企业家、创业者技术爱好者查询,结果仅供参考。