一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于深度学习的声音分类方法和装置、存储介质和计算机与流程

2022-02-21 04:10:52 来源:中国专利 TAG:


1.本发明涉及深度学习领域,尤其涉及一种基于深度学习的声音分类方法和装置、存储介质和计算机。


背景技术:

2.在过去的十年中,随着硬件的运算力的提升,神经网络逐渐在众多机器学习算法中脱颖而出,特别是卷积神经网络(cnn)的提出,使得神经网络在图像分类领域的准确度远远超过其他算法。相比于图像领域的繁荣,人们对声音分类的研究显得不是很充足,声音分类在实际生活中有许多运用的场景,例如判断汽车发动机的运行是否故障,区分运动中的轴承是否正常,键盘键帽安装是否正常等。传统的声音分析技术提取了能量强度,过零率,短时能量等特征或者通过时频分析提取频谱图,通过聚类或者决策树等算法对其进行判断,尽管通过这种方法能起到一定的效果,但是准确度仍然有较大的上升空间。
3.因此,有必要提出一种新的方案来克服相关问题。


技术实现要素:

4.本发明的目的在于提供一种声音分类方法和装置、存储介质和计算机,其可以结合时域与频域的特征,使得兼顾频率能量变化的同时,对声音整体的信息也具有较高的识别度,同时也可以提高分类的准确度。
5.为实现发明目的,根据本发明的一个方面,本发明提供一种声音分类方法,其包括:提供训练集、验证集以及卷积神经网络模型,其中所述训练集包括多个训练样本,所述验证集包括一个或多个验证样本,每个样本为一段被标记过的声音数据;对一个样本加第一窗口,对第一窗口内的声音数据进行计算提取时域特征,对第一窗口内的声音数据加第二窗口,将第二窗口内的声音数据由时域转换至频域后进行频域特征提取,将提取的时域特征和频域特征叠加得到该样本的时频组合特征;将基于所述训练集中的训练样本得到的时频组合特征输入至卷积神经网络模型进行训练,将基于所述验证集中的验证样本得到的时频组合特征输入至卷积神经网络模型进行验证,通过多次的训练和验证,得到训练验证后的卷积神经网络模型。
6.根据本发明的另一个方面,本发明提供一种声音分类装置,其包括:特征提取模块,其对每个样本加第一窗口,对第一窗口内的声音数据进行计算提取时域特征,对第一窗口内的声音数据加第二窗口,将第二窗口内的声音数据由时域转换至频域后进行频域特征提取,将提取的时域特征和频域特征叠加得到该样本的时频组合特征,其中输入所述特征提取模块的数据包括训练集、验证集、测试集,所述训练集包括多个训练样本,所述验证集包括一个或多个验证样本,所述测试集包括一个或多个测试样本,每个样本为一段被标记过的声音数据;卷积神经网络模型,其被配置的接收基于所述训练集中的训练样本得到的时频组合特征以进行训练,接收基于所述验证集中的验证样本得到的时频组合特征以进行验证,通过多次的训练和验证,得到训练验证后的卷积神经网络模型。
7.根据本发明的另外一个方面,本发明提供一种存储介质,其存储有程序指令,在所述程序执行被运行以执行一种声音分类方法。所述声音分类方法包括:提供训练集、验证集以及卷积神经网络模型,其中所述训练集包括多个训练样本,所述验证集包括一个或多个验证样本,每个样本为一段被标记过的声音数据;对一个样本加第一窗口,对第一窗口内的声音数据进行计算提取时域特征,对第一窗口内的声音数据加第二窗口,将第二窗口内的声音数据由时域转换至频域后进行频域特征提取,将提取的时域特征和频域特征叠加得到该样本的时频组合特征;将基于所述训练集中的训练样本得到的时频组合特征输入至卷积神经网络模型进行训练,将基于所述验证集中的验证样本得到的时频组合特征输入至卷积神经网络模型进行验证,通过多次的训练和验证,得到训练验证后的卷积神经网络模型。
8.根据本发明的另外一个方面,本发明提一种计算机,其包括处理器和存储器,所述存储器中存储有程序指令,所述处理器运行所述程序指令以执行一种声音分类方法。所述声音分类方法包括:提供训练集、验证集以及卷积神经网络模型,其中所述训练集包括多个训练样本,所述验证集包括一个或多个验证样本,每个样本为一段被标记过的声音数据;对一个样本加第一窗口,对第一窗口内的声音数据进行计算提取时域特征,对第一窗口内的声音数据加第二窗口,将第二窗口内的声音数据由时域转换至频域后进行频域特征提取,将提取的时域特征和频域特征叠加得到该样本的时频组合特征;将基于所述训练集中的训练样本得到的时频组合特征输入至卷积神经网络模型进行训练,将基于所述验证集中的验证样本得到的时频组合特征输入至卷积神经网络模型进行验证,通过多次的训练和验证,得到训练验证后的卷积神经网络模型。
9.与现有技术相比,本发明中使用了两层窗口,对时域特征选择大窗口进行计算,对频域特征使用更小的窗口进行短时傅里叶变换,结合时域与频域的特征,使得兼顾频率能量变化的同时,对声音整体的信息也具有较高的识别度;另外,采用结构优化的卷积神经网络模型,通过卷积提取时间-频率的深层特征进行分类,可以提升抗噪能力、对系统误差的容忍度以及分类的准确率。
附图说明
10.图1为本发明的频域特征和时域特征叠加后的时频组合特征在一个实施例中的示意图;
11.图2为本发明中的声音分类方法在一个实施例中的流程示意图;
12.图3为本发明中的声音分类装置在一个实施例中的结构示意图。
具体实施方式
13.为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明的具体实施方式、结构、特征及其功效,详细说明如下。
14.图2为本发明中的声音分类方法100在一个实施例中的流程示意图。如图2所示的,所述声音分类方法100整体上被划分为训练阶段和使用阶段。
15.如图2所示的,所述声音分类方法100包括如下步骤或操作。
16.步骤110,提供训练集、验证集以及卷积神经网络(cnn)模型。
17.所述训练集包括多个训练样本,所述验证集包括一个或多个验证样本,每个样本
为一段被标记过的声音数据。所述标记可以包括是(ok)标记和否(ng)标记,其中所述标记可以由人工进行标定,被标记为是标记的样本被认为是可以的,被标记为否标记的样本被认为是不可以的。当然,所述标记也可以有多类标记,比如第一类标记、第二类标记、第三类标记等,这样训练得到的卷积神经网络模型就可以将输入的样本分类成第一类、第二类或第三类。
18.另外,还可以提供测试集,所述测试集包括一个或多个测试样本。所述测试样本用于对卷积神经网络模型进行测试,确定该卷积神经网络模型是否可以被正式使用。当然,在有些实施例中,根据应用需要,也可以不设置测试集。
19.所述样本的获得过程包括:提供初始样本;将初始样本进行预处理形成所述样本。优选的,可以通过加噪、数据扰动、速度扰动、调音等方法对样本集(样本构成集合)进行扩充。
20.具体的,通过录音设备对声音进行采集,如果在噪音较大的场景需要单独录制背景声音作为背景数据,这样就可以获得多个初始样本。所述预处理包括:将数据通道进行合并,比如将左右声道这两个数据通道合并成一个数据通道;和或,通过重采样将所有初始样本转化为同样采样率;和/或,对长的初始样本进行裁剪,对短的初始样本进行填充;和/或,对初始样本进行降噪或者声音增强;和,对所述初始样本进行标记。所述对所述初始样本进行标记可以由人工完成。
21.在一个实施例中,可以将所述样本的集合按照一定比例随机划分形成训练集、验证集和测试集。需要注意的是,每个样本被划分到训练集就被称为训练样本,被划分到验证集就是验证样本,被划分到测试集就是测试样本,实际上训练样本、验证样本和测试样本在技术上并没有本质差别。
22.步骤121,对一个样本加第一窗口,对第一窗口内的声音数据进行计算提取时域特征。
23.具体的,第一窗口为矩形窗口,窗口大小为第一预定时长,比如1s左右。所述时域特征包括均值、标准差、振幅、均方根、最大值点、歪度因子、峭度因子、裕度因子和波峰因子中的一个或几个。
24.步骤122,对第一窗口内的声音数据加第二窗口,将第二窗口内的声音数据由时域转换至频域后进行频域特征提取。
25.通过短时傅里叶变换将第二窗口内的声音数据由时域转换至频域。第二窗口选择hanning(汉宁)窗,窗口大小为第二预定时长,比如20ms,第一预定时长为第二预定时长的n倍,n为大于等于2个整数,比如n=50。具体的,将第二窗口内的频域下的声音数据转化到梅尔(mel)尺度,并对其求对数得到频域特征。将数据转化到mel尺度下使得卷积神经网络(cnn)模型可以具有跟人类一样的频率识别度。
26.步骤123,将提取的时域特征和频域特征叠加得到该样本的时频组合特征。如图1所示的,横向是时间,下部分为时域特征,上部分为频域特征,由于第一窗口是第二窗口的n倍,因此图1中上部是n个频域特征按照时间依次排布,与时域特征按照时间相对应,这样可以形成时频组合特征,也被称为特征矩阵。
27.这样卷积神经网络模型就能同时使用时频两个空间的信息特征,并且由于特征来自不同的时间尺度,能够保留较长距离的时间依赖,使卷积神经网络模型更好的挖掘深层
特征。
28.为了便于理解,步骤121、122和123可以被统称为时频组合特征提取步骤,该步骤用于从所述样本中提取时频组合特征。通过时频组合特征提取步骤,可以从训练样本、验证样本等样本中提取时频组合特征,该步骤可以适用于训练集、验证集以及测试集。
29.步骤130,将基于所述训练集中的训练样本得到的时频组合特征输入至卷积神经网络模型进行训练,将基于所述验证集中的验证样本得到的时频组合特征输入至卷积神经网络模型进行验证,通过不断的训练和验证,得到训练验证后的卷积神经网络模型。
30.优选的,所述卷积神经网络模型包括依次相连的卷积层、池化层、密集(dense)块、全连接层和sigmoid函数层,卷积层和池化层之间依次设置有激活函数层和归一化(batch-norm)层,密集块和全连接层之间依次设置有激活函数层和归一化层,所述sigmoid函数层用于将使结果收缩在0-1之间。具体的,所述密集块有两个,分别称为第一密集块和第二密集块,所述全连接层有两个,分别称为第一全连接层和第二全连接层,第一密集块与池化层相连,第一密集块和第二密集块之间依次设置有激活函数层和归一化层,第二密集块和第一全连接层之间依次设置有激活函数层和归一化层,第二全连接层连接于第二全连接层后,归一化层用来加快训练,并且突出数据之间的分布差异。损失函数中加入了正则项,可以在长时间训练同时,仍然保留较好的泛化能力,使得神经网络对特征进行较好的学习,得到较高的准确率。在卷积神经网络模型中,采用了密集层来提取深层特征,密集层层具有超强的深层特征提取能力,有助于得到更好的特征。在结尾使用全连接层作为分类器,最后通过sigmoid函数层将结果收缩到0-1之间。
31.在训练过程中通过bp(back propagation,反向传播)算法对参数进行优化,当损失函数稳定不变时终止训练,保存卷积神经网络模型。
32.步骤140,利用步骤120相同的方式从测试样本中提取时频组合特征。
33.步骤150,利用训练验证后的卷积神经网络模型对测试样本的时频组合特征进行检测分类。
34.如图2所示的,步骤110-130可以被统称为卷积神经网络模型的训练验证阶段,步骤140和150可以被称为测试阶段。
35.应用实例:
36.某知名厂商包装设备轴承故障检测。设备中的轴承起到了支撑转动,减少摩擦的作用是机械设备的重要组成部分。轴承一旦故障,会对设备造成非常大的伤害,如果能对轴承进行实时检测就能减小因轴承轴承故障造成的损失。目前厂商通过听诊器设备每天对着不同的轴承位置通过人耳进行分辨。由于轴承所在的位置空间很小,通过听诊器有时候容易干扰到设备的运行,因此选择使用人工智能代替人工,可以在防止设备跟人收到损伤的情况下做到实时检测。
37.所检测缺陷类别:轴承良好或者轴承故障,即“是标记”代表轴承良好,“否标记”代表轴承故障。
38.检测难点:轴承位于机械的内部,背景的噪音特别大,而轴承是一个非常小的物件,其摩擦力小决定了轴承产生的声音小。在通过降噪算法后,信噪比仍然不是很高。如何在噪音中捕捉到我们需要的信号,并且对其进行分类是决定最终准确率的关键点。传统的方法是提取频域中的mfcc特征或者log-mel特征,通过神经网络进行分类,这种方法对噪音
能量大的声音段进行分类,准确率较低。
39.考虑到轴承声音属于机械性转动产生的声音,在时间上存在周期性,因此加窗后的时域特征能较好的反应轴承的转动情况,而频域特征能较好的反应不同频率的能量随着时间的变化。通过降噪算法,并且通过时频分析获得时频组合特征,通过时频叠加的特征能同时反应频率能量变化以及短时的时域能量。基于卷积神经网络进行训练,损失函数使用交叉熵,在训练过程中对验证集表现良好,准确率非常高,当损失函数稳定不变时终止训练,生产最终的卷积神经网络模型。
40.最后通过测试集进行检测,在保证过检率0的情况下,漏检率保持在0.5%以下,总准确率超过99%。
41.可见,本发明中使用了两层窗口,对时域特征选择大窗口进行计算,对频域特征使用更小的窗口进行短时傅里叶变换,结合时域与频域的特征,使得兼顾频率能量变化的同时,对声音整体的信息也具有较高的识别度;另外,采用结构优化的卷积神经网络模型,通过卷积提取时间-频率的深层特征进行分类,可以提升抗噪能力、对系统误差的容忍度以及分类的准确率。
42.根据本发明的另一个方面,本发明还可以实现为一种声音分类装置。图3为本发明中的声音分类装置300在一个实施例中的结构示意图。所述声音分类装置300包括特征提取模块310和卷积神经网络模型320。
43.所述特征提取模块310对每个样本加第一窗口,对第一窗口内的声音数据进行计算提取时域特征,对第一窗口内的声音数据加第二窗口,将第二窗口内的声音数据由时域转换至频域后进行频域特征提取,将提取的时域特征和频域特征叠加得到该样本的时频组合特征,其中输入所述特征提取模块的数据包括训练集、验证集、测试集,所述训练集包括多个训练样本,所述验证集包括一个或多个验证样本,所述测试集包括一个或多个测试样本,每个样本为一段被标记过的声音数据。
44.所述卷积神经网络模型320被配置的接收基于所述训练集中的训练样本得到的时频组合特征以进行训练,接收基于所述验证集中的验证样本得到的时频组合特征以进行验证,通过不断的训练和验证,得到训练验证后的卷积神经网络模型。利用训练验证后的卷积神经网络模型320对基于所述测试集中的测试样本得到的时频组合特征进行检测。
45.由于所述声音分类装置300在技术上与声音分类方法100本质上是一致的,因此有关重复的部分,这里就不再重复了。
46.根据本发明的另外一个方面,本发明提供一种存储介质,其存储有程序指令,在所述程序执行被运行以执行上述声音分类方法。所述声音分类方法包括:提供训练集、验证集以及卷积神经网络模型,其中所述训练集包括多个训练样本,所述验证集包括一个或多个验证样本,每个样本为一段被标记过的声音数据;对一个样本加第一窗口,对第一窗口内的声音数据进行计算提取时域特征,对第一窗口内的声音数据加第二窗口,将第二窗口内的声音数据由时域转换至频域后进行频域特征提取,将提取的时域特征和频域特征叠加得到该样本的时频组合特征;将基于所述训练集中的训练样本得到的时频组合特征输入至卷积神经网络模型进行训练,将基于所述验证集中的验证样本得到的时频组合特征输入至卷积神经网络模型进行验证,通过不断的训练和验证,得到训练验证后的卷积神经网络模型。所述声音分类方法100的其余步骤在这里就不再重复了。
47.根据本发明的另外一个方面,本发明提一种计算机,其包括处理器和存储器,所述存储器中存储有程序指令,所述处理器运行所述程序指令以执行上述声音分类方法。所述声音分类方法包括:提供训练集、验证集以及卷积神经网络模型,其中所述训练集包括多个训练样本,所述验证集包括一个或多个验证样本,每个样本为一段被标记过的声音数据;对一个样本加第一窗口,对第一窗口内的声音数据进行计算提取时域特征,对第一窗口内的声音数据加第二窗口,将第二窗口内的声音数据由时域转换至频域后进行频域特征提取,将提取的时域特征和频域特征叠加得到该样本的时频组合特征;将基于所述训练集中的训练样本得到的时频组合特征输入至卷积神经网络模型进行训练,将基于所述验证集中的验证样本得到的时频组合特征输入至卷积神经网络模型进行验证,通过不断的训练和验证,得到训练验证后的卷积神经网络模型。所述声音分类方法100的其余步骤在这里就不再重复了。
48.在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,除了包含所列的那些要素,而且还可包含没有明确列出的其他要素。
49.在本文中,所涉及的前、后、上、下等方位词是以附图中零部件位于图中以及零部件相互之间的位置来定义的,只是为了表达技术方案的清楚及方便。应当理解,所述方位词的使用不应限制本技术请求保护的范围。
50.在不冲突的情况下,本文中上述实施例及实施例中的特征可以相互结合。
51.以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献