一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于残差网络的环境声音识别系统及方法与流程

2021-09-04 01:48:00 来源:中国专利 TAG:声音 信号处理 识别系统 特别 环境


1.本发明涉及声音信号处理领域,特别涉及一种基于残差网络的环境声音识别系统及方法。


背景技术:

2.环境声音随处可见,其利用价值也是非常高,承载了许多信息。在很多领域具有重要的意义,例如机器故障诊断、地震预测、自动驾驶声音环境感知、家庭保健检测系统等。特别是进入21世纪,随着人工智能的不断发展,深度学习被广泛应用于许多智能领域,各种深度学习方法使得环境声音识别的精度被大大提高。
3.在众多环境声音识别方法中,还存在很多不足:
4.(1)早期的环境声音识别方法主要包括:支持向量机、随机森林、k最近邻、hmm

gmm等。这些方法是比较传统的声音识别方法,只能提取较为浅层的声音特征,而无法提取更深层次的声音特征,所以在识别率方面表现较差。
5.(2)目前使用比较多的声音特征提取方法为线性预测分析、感知线性预测系数、线性预测倒谱系数、梅尔频率倒谱系数(mel frequency cepstral coefficient, mfcc),其中最常用的是mfcc。mfcc舍弃了高维度数据的相关性,将信号映射到低维空间,虽然在使用对角协方差矩阵的高斯混合模型中表现较好,但是对于神经网络模型这种可以提取深层次特征的模型来说,不能充分发挥神经网络模型的性能。
6.(3)人工智能不断发展,使得很多深度学习方法被用于环境声音识别,如深度神经网络、卷积神经网络、循环神经网络,但是这些网络模型普遍存在一个问题:随着网络深度的增加,网络模型容易出现网络退化、梯度消失和梯度爆炸的情况,从而影响环境声音识别率的提升。
7.由此可见,目前环境声音识别方法还不够成熟,一种基于残差网络的环境声音识别系统及方法是本领域技术人员亟需解决的问题。


技术实现要素:

8.有鉴于此,本发明提供了一种基于残差网络的环境声音识别系统及方法,首先将采集到的声音数据作一些预处理,然后使用滤波器组(filter bank,fbank) 作为声音信号的特征提取方法,并将提取的特征输入到残差网络模型之中进行训练,从而形成一个残差网络模型库,用于识别未经训练的环境声音数据集。
9.为了实现上述目的,本发明采用如下技术方案:一种基于残差网络的环境声音识别系统,包括:数据输入模块、声音信号增强模块、预处理模块、特征提取模块、训练残差网络模型模块和模型库模块;声音信号增强模块包括时移增强子模块和高变换增强子模块,预处理模块包括预加重模块和分帧加窗模块。
10.所述数据输入模块,用于输入训练和识别的声音数据样本。
11.所述声音信号增强模块,用于增强输入的声音数据样本,使数据样本更具可读性,
包括时移增强子模块和音高变换增强子模块。
12.所述时移增强子模块用于沿着时间轴对声音信号移位,达到数据增强的功能。
13.所述音高变换增强子模块,用于围绕频率轴对声音信号进行环绕式转换,达到数据增强的功能。
14.所述预处理模块,用于处理数据样本,将数据样本划分为若干帧,便于后面对数据的进一步处理。
15.所述预加重子模块:用于提升声音信号的高频部分,得到更加平坦的频谱;
16.所述分帧加窗子模块:用于将声音信号分为若干20ms的帧,并对每一帧进行加窗处理。
17.所述特征提取模块,用于环境声音信号特征的提取。
18.所述训练残差网络模型模块,用于残差网络的训练,将提取的环境声音特征输入即可进行训练。
19.所述模型库模块,用于识别新输入的、未经训练的数据样本,可输出识别结果。
20.本发明还提供了一种基于残差网络的环境声音识别方法,包括如下步骤:
21.步骤s1:划分于训练和用于测试的数据样本,使每一种类型的声音都参与训练。
22.步骤s2:将所述步骤s1输入的数据样本进行信号增强处理,突出每种声音信号的特点。
23.步骤s3:将所述步骤s2增强后的数据样本进行预处理,将声音分为若干大小相同的帧,后续的处理是以帧为单位进行的。
24.步骤s4:将所述步骤s3预处理后的数据样本进行特征提取。
25.步骤s5:将所述步骤s4提取的声音特征输入到残差网络模型当中,并对残差网络模型进行训练。
26.步骤s6:所述步骤s5之后,就可以得到一个残差网络模型库,可用于识别未经训练的声音数据样本,并输出别结果。
27.优选的,所述步骤s2声音信号增强还包括步骤s21和步骤s22:
28.步骤s21:使用时移增强,声音信号会在时间维度上压缩或扩展。
29.步骤s22:使用音高变换增强,声音信号会在频率维度上压缩或扩展。
30.优选的,所述步骤s3还包括步骤s31和步骤s32:
31.步骤s31:对声音进行预加重处理,采取的措施是用数字滤波器实现预加重,预加重网络的输出和输入的语音信号s(n)的关系如公式(1)所示:
[0032][0033]
式中,a为预加重系数,本方法中取a=0.9375。
[0034]
步骤s32:由于环境声音是非平稳信号,而非平稳信号不便于处理,因此将所述步骤s31得到的每一段声音分为若干个小帧,在每一帧中,声音可以看做平稳信号,即具有短时平稳性,每一帧的帧长为20ms。分帧之后,需要对每一帧进行加窗处理,即每一帧乘一个窗函数,本方法使用的是汉明窗,如公式(2) 所示:
[0035]
[0036]
优选的,所述步骤s4还包括步骤s41、s42、s43和s44:
[0037]
步骤s41:对声音信号进行快速傅里叶变换,即取声音信号的频谱,如式(3) 所示。
[0038][0039]
式中,x(n)表示输入的声音信号,n表示傅里叶变换的点数。
[0040]
步骤s42:对声音信号的频谱取模的平方,得到功率谱,如公式(4)所示。
[0041][0042]
式中,n为傅里叶变换的点数,x
i
表示信号x的第i帧。
[0043]
步骤s43:将功率谱通过梅尔滤波器进行滤波,梅尔滤波器由40个三角滤波器组成,每个相邻三角窗是相互重叠的。将频率转换为梅尔刻度的公式如式 (5)所示:
[0044][0045]
式中,mel(f)表示最终频率,f表示实际频率。
[0046]
步骤s44:对s43输出取对数,即进行倒谱计算,从而凸显低能量部分的能量差异,同时对纵轴实行放缩处理。其中,计算每个滤波器输出的对数能量的方法如公式(6)所示。
[0047][0048]
式中,hm(k)表示三角滤波器的输出。
[0049]
经由上述的技术方案可知,与现有技术相比,本发明公开提供的一种基于残差网络的环境声音识别系统及方法,有益效果为:
[0050]
(1)对环境声音数据进行增强处理,使数据样本的特征更具有可读性;
[0051]
(2)使用fbank声音特征提取方法,可以提取声音信号中高维特征,更能表征声音数据特征;
[0052]
(3)使用残差网络模型作为声音识别的分类器,不仅可以提升声音识别的准确率,还有效缓解了神经网络层数增加时出现的网络退化问题,避免了梯度消失和梯度爆炸的情况。
附图说明
[0053]
为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
[0054]
图1为本发明一种基于残差网络的环境声音识别系统结构示意图;
[0055]
图2为本发明提供的fbank特征提取方法步骤图;
[0056]
图3为本发明梅尔滤波采用的滤波器组结构示意图;
[0057]
图4为本发明仿真实验的结果图。
[0058]
图中标记:1.数据输入模块;2.声音信号增强模块;3.预处理模块;4.特征提取模块;5.训练残差网络模型模块;6.模型库模块;21.时移增强子模块;22. 高变换增强子模块;31.预加重模块;32.分帧加窗模块。
具体实施方式
[0059]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0060]
实施例1
[0061]
参见附图1所示,一种基于残差网络的环境声音识别系统,包括:数据输入模块1、声音信号增强模块2、预处理模块3、特征提取模块4、训练残差网络模型模块5、模型库模块6,声音信号增强模块2包括时移增强子模块21和高变换增强子模块22,预处理模块3包括预加重模块31和分帧加窗模块32。
[0062]
所述数据输入模块1,用于输入训练和识别的声音数据样本。
[0063]
所述声音信号增强模块2,用于增强输入的声音数据样本,使数据样本更具可读性,包括时移增强子模块21和音高变换增强子模块22。
[0064]
所述时移增强子模21,用于沿着时间轴对声音信号移位,达到数据增强的功能。
[0065]
所述音高变换增强子模块22,用于围绕频率轴对声音信号进行环绕式转换,达到数据增强的功能。
[0066]
所述预处理模块3,用于处理数据样本,将数据样本划分为若干帧,便于后续对数据的进一步处理。
[0067]
所述预加重子模块31:用于提升声音信号的高频部分,得到更加平坦的频谱;
[0068]
所述分帧加窗子模块32:用于将声音信号分为若干20ms的帧,并对每一帧进行加窗处理。
[0069]
所述特征提取模块4,用于环境声音信号特征的提取。
[0070]
所述训练残差网络模型模块5,用于残差网络的训练,将提取的环境声音特征输入即可进行训练。
[0071]
所述模型库模块6,用于识别新输入的、未经训练的数据样本,可输出识别结果。
[0072]
实施例2
[0073]
一种基于残差网络的环境声音识别方法,具体步骤如下:
[0074]
步骤s1:划分于训练和用于测试的数据样本,使每一种类型的声音都参与训练。
[0075]
步骤s2:将步骤s1输入的数据样本进行信号增强处理,突出每种声音信号的特点。
[0076]
步骤s3:将步骤s2增强后的数据样本进行预处理,将声音分为若干大小相同的帧,后续的处理是以帧为单位进行的。
[0077]
步骤s4:将步骤s3预处理后的数据样本进行特征提取。
[0078]
步骤s5:将所述步骤s4提取的声音特征输入到残差网络模型当中,并对残差网络模型进行训练。
[0079]
步骤s6:所述步骤s5之后,就可以得到一个残差网络模型库,可用于识别未经训练的声音数据样本,并输出别结果。
[0080]
在一个具体实例中,步骤s2声音信号增强步骤包括步骤s21和步骤s22:
[0081]
步骤s21:时移增强,声音信号会在时间维度上压缩或扩展。
[0082]
步骤s22:音高变换增强,声音信号会在频率维度上压缩或扩展。
[0083]
在一个具体实例中,步骤s3预处理步骤包括步骤s31和步骤s32:
[0084]
步骤s31:对声音进行预加重处理,采取的措施是用数字滤波器实现预加重,预加重网络的输出和输入的语音信号s(n)的关系如式(1)所示:
[0085][0086]
式中,a为预加重系数,本方法中取a=0.9375。
[0087]
具体的,数字滤波器采用的是高通滤波器,目的是只保留高频率的信号,剔除低频率的信号,同时,还会产生一个相位滞后的效应,这个对高频信号尤为明显。
[0088]
步骤s32:由于环境声音是非平稳信号,而非平稳信号不便于处理,因此将所述步骤s31得到的每一段声音分为若干个小帧,在每一帧中,声音可以看做平稳信号,即具有短时平稳性,每一帧的帧长为20ms。分帧之后,需要对每一帧进行加窗处理,即每一帧乘一个窗函数,本方法使用的是汉明窗,如式(2) 所示:
[0089][0090]
具体的,在分帧时,每一帧相接之处需要有重叠部分,设为5ms的重叠,目的是防止发生丢包的现象。在分帧之后,后面的步骤是以帧为单位进行的,就是利用了每一帧的短时平稳性。
[0091]
参见附图2所示,在一个具体实例中,步骤s4声音信号特征提取还包括步骤s41、s42、s43和s44:
[0092]
步骤s41:首先需要用短时傅里叶变换将时域信号转换为频域信号,如式(3) 所示。
[0093][0094]
式中,x(n)表示输入的声音信号,n表示傅里叶变换的点数。
[0095]
步骤s42:对声音信号的频谱取模的平方,得到功率谱,如公式(4)所示。
[0096][0097]
式中,n为傅里叶变换的点数,xi表示信号x的第i帧。
[0098]
步骤s43:将功率谱通过梅尔滤波器进行滤波,梅尔滤波器由40个三角滤波器组成,如图3所示,每个相邻三角窗是相互重叠的。将频率转换为梅尔刻度的公式如式(5)所示:
[0099][0100]
式中,mel(f)表示最终频率,f表示实际频率。
[0101]
步骤s44:对s43输出取对数,即进行倒谱计算,从而凸显低能量部分的能量差异,并对纵轴实行放缩处理。计算每个滤波器输出的对数能量的方法如公式(6)所示。
[0102][0103]
式中,hm(k)表示三角滤波器的输出。
[0104]
可以得出结论,本发明涉及一种基于残差网络的环境声音识别系统和方法,对需
要进行训练和测试的数据样本进行数据增强处理,增加了声音信号特征的可读性,并对声音信号作了预处理,得到了平稳光滑的短时平稳信号;并对分帧的声音信号进行特征提取,得到了高维度相关的特征,将声音特征输入到残差网络模型中训练,得到残差网络模型库,可用于对未参与训练的声音数据进行识别,并输出识别结果。本发明使用公用声音数据集esc10作为实验数据,最终测试精确率可达90.5%,如附图4所示。
[0105]
以上所述内容,仅为本发明较好的实施方式,对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,以上实施例只作为本发明的一个具体说明,但并不局限于此。任何本领域的技术人员可轻易想到的变化或替换都应包涵在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜