一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于改进MFCC的非语音类音频特征提取方法

2022-06-11 12:31:08 来源:中国专利 TAG:

一种基于改进mfcc的非语音类音频特征提取方法
技术领域
1.本发明涉及音频特征提取技术领域。


背景技术:

2.目前,对于声音信号特征提取技术中常见的特征参数主要有三种:线性预测系数(linear predictive coefficient,lpc)、线性预测倒谱系数(linear predictive cepstral coefficient,lpcc)、梅尔倒谱系数(mel-scale frequency cepstral coefficients,mfcc)。与前两种基于模型的特征相比,mfcc没有对声音做出任何假设和限制,是基于人脑处理外界声音的原理与人耳听觉特性建立的特征参数集合,该特征是目前较多用于声音识别中的特征参数。但mfcc特征是根据人耳听觉特性所设计,而人耳对低频声音更为敏感,对高频有掩蔽作用,因此在面对具有较多高频分量的非语音类音频信号时,该方法所提取的特征参数不能全面表征音频的声学特性,具有一定的局限性。
3.传统的mfcc声音信号特征提取方法的关键就是构建一系列具有不同权重的带通滤波器组(mel滤波器)来模拟人耳对声音信号的调节作用。在对人耳听觉机理的研究中发现,低频声音的行波相比高频声音行波在内耳蜗基底膜上传递的距离更大,mfcc中的mel滤波器在高频区域数目较少且分布稀疏,因此传统的mfcc方法对声音信号在高频部分特征表征较差。为了改善传统mfcc的缺点,提高对于非语音类音频特征提取的适用性,研究设计一种多尺度融合的mfcc特征提取方法,克服现有mfcc方法中所存在的问题是十分必要的。


技术实现要素:

4.为了解决现有的音频特征提取方法中存在的上述问题,本发明提供了一种基于改进mfcc的非语音类音频特征提取方法。
5.本发明为实现上述目的所采用的技术方案是:一种基于改进mfcc的非语音类音频特征提取方法,包括如下步骤:
6.s1.采集声音信号并对采集到的声音信号进行预处理;
7.s2.将预处理后的声音信号进行mfcc特征提取;
8.s3.将预处理后的声音信号进行emd分解获得imf分量,提取imf分量的时域特征向量和频域特征向量;
9.s4.将mfcc系数做一阶差分与二阶差分,得到组成mfcc的动态特征向量;
10.s5.将计算出的mfcc特征向量、时域特征向量、频域特征向量和mfcc动态特征向量进行特征融合,获得改进后的多尺度mfcc特征向量。
11.优选的,所述步骤s1包括如下步骤:
12.步骤s101:将声音信号的音频序列的幅值进行标椎化处理,其函数表达式为:
[0013][0014]
其中:x(m)为归一化后的声音序列;x(n)为声音序列;x(n)
max
为声音序列绝对值的
最大值;
[0015]
步骤s102:将标椎化处理后的音频序列进行分帧处理;
[0016]
步骤s103:将分帧后的音频序列进行加窗处理。
[0017]
优选的,所述步骤s102中,分帧处理中帧长为20~30ms,帧移为帧长的0.3~0.5倍。
[0018]
优选的,所述步骤s103中,所述加窗处理中使用汉明窗。
[0019]
优选的,所述步骤s2包括如下步骤:
[0020]
s201:通过快速傅里叶变换得到声音信号预处理后获得的逐帧的时域的频谱x(k),其函数表达式为:
[0021][0022]
其中:n为傅里叶变换的点数,k为频率,x(n)为声音信号预处理后获得的逐帧的时域;
[0023]
s202:将声音信号的频谱取模的平方,计算其能量谱|x(k)|2,再将其通过一组模仿人耳调节作用的三角形滤波器,使|x(k)|2进行mel非线性变换,其函数表达式为:
[0024][0025]hm
(k)为第m个滤波器的频率响应,其函数表达式为:
[0026][0027]
且满足
[0028]
其中,f(m)是三角滤波器中心频率;
[0029]
s203:将一组滤波器得到的所有melspec(m)取对数,得到其对数能量e(m),其函数表达式为:
[0030]
e(m)=lg[melspec(m)],0《m《m
[0031]
其中:m为滤波器的个数;
[0032]
s204:将对数能量e(m)进行离散余弦变换,得到一组梅尔倒谱系数f(n),其函数表达式为:
[0033][0034]
其中,n是梅尔倒谱系数的阶数。
[0035]
优选的,所述步骤s3中,将imf分量的次序按照由高频到低频的方式排列,取前五个imf分量,分别提取其时域特征向量和频域特征向量。
[0036]
优选的,所述步骤s3中,时域特征向量为11个,包括平均幅值、标准差、方根幅值、均方根、峰峰值、偏度、峭度、峰值因子、裕度因子、波形因子和脉冲指数,
[0037]
平均幅值的函数表达式为:
[0038][0039]
标准差的函数表达式为:
[0040][0041]
方根幅值的函数表达式为:
[0042][0043]
均方根的函数表达式为:
[0044][0045]
峰峰值的函数表达式为:
[0046][0047]
偏度的函数表达式为:
[0048][0049]
峭度的函数表达式为:
[0050][0051]
峰值因子的函数表达式为:
[0052][0053]
裕度因子的函数表达式为:
[0054][0055]
波形因子的函数表达式为:
[0056][0057]
脉冲指数的函数表达式为:
[0058][0059]
其中:x(i)为频率分量,x
p
为峰值,n为相应的声音信号长度。
[0060]
优选的,所述步骤s3中,频域特征向量为2个,包括频率中心和频率均方根,
[0061]
频率中心的函数表达式为:
[0062][0063]
频率均方根的函数表达式为:
[0064][0065]
其中:k是频谱线的数目,f(i)是第i个频谱线的频率值,s(i)是频谱的第i个值。
[0066]
优选的,所述步骤s4中,mfcc系数一阶差分的函数表达式为:
[0067][0068]
其中:d
t
和c
t
分别为第t个一阶差分和倒谱系数;q为倒谱系数的阶数;k为一阶导数的时间差。
[0069]
优选的,所述步骤s4中,mfcc系数二阶差分的函数表达式为:
[0070][0071]
其中:d
t
和c
t
分别为第t个二阶差分和倒谱系数;q为倒谱系数的阶数;k为二阶导数的时间差。
[0072]
本发明的一种基于改进mfcc的非语音类音频特征提取方法,弥补了传统mfcc因基于人耳听觉特性设计而缺乏对高频声音信号部分表征的问题,在保留mfcc可处理的音频信号范围外,还可以有效提取音频信号的高频部分,既具有传统mfcc对信号短时特性的提取,又包含声音信号整体变化的特性,且对mfcc的一阶差分与二阶差分使特征信息更加丰富,更全面,此外,本发明的方法不仅仅可以处理语音类音频,也可以处理非语音类型的音频如机械声等的音频信号。
附图说明
[0073]
图1是本发明实施例的一种基于改进mfcc的非语音类音频特征提取方法流程图;
[0074]
图2是声音信号的预处理流程图;
[0075]
图3是mfcc参数的提取过程流程图。
具体实施方式
[0076]
下面结合附图和实施例对本发明的实施方式作进一步详细描述。以下实施例用于说明本发明,但不能用来限制本发明的范围。
[0077]
本实施例的一种基于改进mfcc的非语音类音频特征提取方法,如图1所示,包括如下步骤:
[0078]
s1.采集声音信号并对采集到的声音信号进行预处理;
[0079]
s2.将预处理后的声音信号进行mfcc特征提取;
[0080]
s3.将预处理后的声音信号进行emd分解获得imf分量,提取imf分量的时域特征向量和频域特征向量;
[0081]
s4.将mfcc系数做一阶差分与二阶差分,得到组成mfcc的动态特征向量;
[0082]
s5.将计算出的mfcc特征向量、时域特征向量、频域特征向量和mfcc动态特征向量进行特征融合,获得改进后的多尺度mfcc特征向量。
[0083]
其中,如图2所示,步骤s1中可以包括如下步骤:
[0084]
步骤s101:将声音信号的音频序列的幅值进行标椎化处理,其函数表达式为:
[0085][0086]
其中:x(m)为归一化后的声音序列;x(n)为声音序列;|x(n)|
max
为声音序列绝对值的最大值;
[0087]
步骤s102:将标椎化处理后的音频序列进行分帧处理;
[0088]
虽然声音信号是非平稳信号,但其在小段时间内仍具有短时平稳特性,因此可将声音序列分割成若干个很小的时间段,也称为一帧,从而得到信号的短时特征,分帧处理中帧长可以为20~30ms,帧移可以为帧长的0.3~0.5倍,让邻帧之间存在部分重叠,从而避免两帧差异过大,导致特征丢失;
[0089]
步骤s103:将分帧后的音频序列进行加窗处理;
[0090]
加窗处理操作可使帧的始末两端过渡更为平滑,可以选用汉明窗。
[0091]
如图3所示,步骤s2可以包括如下步骤:
[0092]
s201:通过快速傅里叶变换得到声音信号预处理后获得的逐帧的时域的频谱x(k),其函数表达式为:
[0093][0094]
其中:n为傅里叶变换的点数,k为频率,x(n)为声音信号预处理后获得的逐帧的时域;
[0095]
s202:将声音信号的频谱取模的平方,计算其能量谱|x(k)|2,再将其通过一组模仿人耳调节作用的三角形滤波器,使|x(k)|2进行mel非线性变换,其函数表达式为:
[0096][0097]hm
(k)为第m个滤波器的频率响应,其函数表达式为:
[0098][0099]
且满足
[0100]
其中,f(m)是三角滤波器中心频率;
[0101]
s203:将一组滤波器得到的所有melspec(m)取对数,得到其对数能量e(m),其函数表达式为:
[0102]
e(m)=lg[melspec(m)],0《m《m
[0103]
其中:m为滤波器的个数;
[0104]
s204:将对数能量e(m)进行离散余弦变换,得到一组梅尔倒谱系数f(n),其函数表达式为:
[0105][0106]
其中,n是梅尔倒谱系数的阶数;
[0107]
对于声音信号高频分量的获取除emd方法外,还可采用基于emd的改进方法,如eemd、ceemd、ceemdan、iceemdan。
[0108]
步骤s3中,可以将imf分量的次序按照由高频到低频的方式排列,取前五个imf分量,分别提取其时域特征向量和频域特征向量,时域特征向量可以为11个,包括平均幅值、标准差、方根幅值、均方根、峰峰值、偏度、峭度、峰值因子、裕度因子、波形因子和脉冲指数,
[0109]
平均幅值的函数表达式为:
[0110][0111]
标准差的函数表达式为:
[0112][0113]
方根幅值的函数表达式为:
[0114][0115]
均方根的函数表达式为:
[0116][0117]
峰峰值的函数表达式为:
[0118][0119]
偏度的函数表达式为:
[0120][0121]
峭度的函数表达式为:
[0122][0123]
峰值因子的函数表达式为:
[0124][0125]
裕度因子的函数表达式为:
[0126][0127]
波形因子的函数表达式为:
[0128][0129]
脉冲指数的函数表达式为:
[0130][0131]
其中:x(i)为频率分量,x
p
为峰值,n为相应的声音信号长度。
[0132]
步骤s3中,频域特征向量可以为2个,包括频率中心和频率均方根,
[0133]
频率中心的函数表达式为:
[0134][0135]
频率均方根的函数表达式为:
[0136][0137]
其中:k是频谱线的数目,f(i)是第i个频谱线的频率值,s(i)是频谱的第i个值;
[0138]
对于不同的声音信号,在经emd分解后可不限于仅保留前五个imf分量,最多可保留所有与原信号相关度大于0.3的imf分量,后续计算相应的时域和频域特征,此外信号的时域和频域特征不限于上述公式,还可根据所分析的声音信号在不同方面具有的特点替换其他公式进行特征构建,如表征能量的均方根能量;时域方面的起音时间、过零率、自相关
度;频域方面的频谱质心、频谱平坦度、频谱通量等。
[0139]
为了得到更加丰富的信息,将mfcc系数做一阶差分与二阶差分得到组成mfcc的动态特征向量,
[0140]
步骤s4中,mfcc系数一阶差分的函数表达式为:
[0141][0142]
其中:d
t
和c
t
分别为第t个一阶差分和倒谱系数;q为倒谱系数的阶数;k为一阶导数的时间差。
[0143]
步骤s4中,mfcc系数二阶差分的函数表达式为:
[0144][0145]
其中:d
t
和c
t
分别为第t个二阶差分和倒谱系数;q为倒谱系数的阶数;k为二阶导数的时间差。一阶差分与二阶差分使特征信息更加丰富,更全面。
[0146]
本发明既具有传统mfcc对信号短时特性的提取,又包含声音信号整体变化的特性,不仅可以处理语音类音频,也可以处理非语音类型的音频如机械声等的音频信号。
[0147]
本发明的实施例是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献