一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于特征分层和改进ECAPA-TDNN的声学场景分类的方法

2022-08-14 01:46:58 来源:中国专利 TAG:

一种基于特征分层和改进ecapa-tdnn的声学场景分类的方法
技术领域
1.本发明属于声学场景分类的技术领域,尤其涉及一种基于特征分层和改进ecapa-tdnn的声学场景分类的方法。


背景技术:

2.声音是人们了解客观世界、获取有用信息的重要载体,也是人类听觉感知系统的重要组成部分。人类在复杂环境中感知声音事件时,具有选择性屏蔽周围背景音和捕获多个声源信息的能力。这种能力是必不可缺的也是目前机器难以企及的。尽管近几年来,人们对声学场景分类研究的热度越来越高,但是相较于人工智能中传统的热门研究方向而言,声学场景分类在实际的应用中还有很多的局限。
3.首先,环境声音的变化是多种多样的,频率范围比较广泛,同时,对声学场景数据的标注是一个开放性任务,实施标注者往往带有主观意识,并且无法涵盖所有可能的声学场景类别。其次,特定的声学环境是一组声音时间组成,但是由于声音事件之间相互重叠且类型、长短不一,导致了声学场景的集合有无限种可能。
4.除此之外,在一组有声音事件组成的声学场景下,能在分类中起到决定性因素的只占很少的一部分,而这一部分往往是少数标志性的声学事件组成的,并且常常被环境因素所干扰。
5.在现有技术中,基于以log-mel特征为输入的标准cnn模型,建议根据声音持续时间对log-mel特征图像分成多个层级图像,每个层级图像应该包含特定类型的时频模式。然后,强调了时频模式的独立建模,以更好地发挥分层特征的作用。
6.将音频信号经过传统的分帧、加窗、傅里叶变换、计算功率谱等操作后,得到对数梅尔谱图。之后利用非线性数字滤波技术,采用奇数各采样点组成滤波窗口,将窗口中的数值一次排序取出中值输出,移动滤波窗口不断重复以上过程,代替原来的值,获得新的采样。
7.在应用于声音对数梅尔谱图中,各个像素值表示在其时间和频率上的信号强度,可以直观地表示语音信号频率中心随时间的变化趋势。移动窗口过程中,对每一个音频单元沿时间轴进行中值滤波,小于滤波器长度一半的数据将会被提取出来,从原始数据中减去滤波后的数据,得到差值数据,即可组成一个新的层级对数梅尔谱图。
8.特征提取后,调整cnn输入维度,将三层梅尔谱图分别通过卷积层进行卷积,随后进行堆叠,在尽可能保留时频特征的前提下,进行后续操作。
9.使用中值滤波对梅尔谱图进行分层时,仅通过经验确定中值滤波器过滤核的参数,不具推广性和普遍性。将三层特征图像输入cnn进行卷积时,通过一层卷积后会在空间上进行堆叠,后续继续卷积时会造成部分特征的丢失以及时频特征受损,影响分类。
10.另外,针对声学场景分类的特征处理方法已经有较为深入的研究,但不难发现,1)已有研究成果中,并未对背景噪音进行针对性处理,这会导致模型将正确的音频类别错误地识别成背景噪音的音频类别或与背景噪音相近的其他音频类别,从而降低模型的分类准
确率;2)现有声学模型相对单一,未能对特征图中的频域信息进行关注,导致了模型的分类准确率不高,泛化性能不强等问题。
11.一种基于梅尔频谱特征分离和长距离自校正卷积神经网络(long-distance self-calibration convolutional reural network,lscnet)的声学场景分类方法,包括以下步骤:
12.首先,基于谐波打击源分离原理提出了一种梅尔频谱分离算法,将梅尔频谱分离出谐波分量、打击源分量和残差分量,其中梅尔频谱的残差分量针对性地降低了背景噪音对模型的影响;然后,设计了一种长距离自校正神经网络,该模型采用频域自校正算法以及长距离增强机制,可在特征提取的同时保留特征图原始信息,并结合多尺度特征融合模块,以进一步保留模型训练中输出层的有效信息;最后,基于lscnet模型利用urbansound8k和esc50数据库开展了声学场景分类实验,结果验证了所提方法及模型的有效性。
13.长距离增强结构将模型采集到的浅层信息和深层信息通过叠加融合的方式进行互补偿,并利用多尺度特征融合方法将不同分辨率的特征进行通道合并,以实现不同分辨率信息之间的互补偿。
14.其中频域自校正算法是通过池化算法将输入特征图x的频率维度压缩,再通过卷积层提取特征信息,从而间接扩大卷积核在频域上的感受野;其次,将输出结果通过上采样恢复成原始特征图的维度并与原始特征图求和得到x1,以保留输入层特征图中的有效信息;然后,将结果通过全局池化压缩成一维向量x2并通过全连接层和sigmoid函数将每个通道权值重新标定得到x3;最后,将卷积后的原始特征图与权值向量x3在通道维做乘积运算得到输出特征图x4,以实现通道间的注意力增强。
15.长距离增强结构的工作原理为:设置n组卷积组用于采集特征图中的浅层特征信息(n为大于1的整数);其次,基于频域自校正结构设置n组频域自校正模块(frequency-domain self-calibration block,fsc block)用于采集特征图中的深层特征信息;最后,利用残差操作将第n-1个卷积组的输出特征与第1个fsc block的输出特征进行叠加融合,第n-2个卷积组的输出特征与第2个fsc block的输出特征进行叠加融合,以此类推,直到第1个卷积组的输出特征与第n-1个fsc block的输出特征进行叠加融合,以实现网络模型的长距离增强,期间分别采用卷积运算和上采样运算使二者的通道数及分辨率保持一致。
16.声学场景分类领域的频谱通常用来表示时间和频率两个维度上的信息,而频率自校正算法作用主要体现在频率维度,从而忽视了时间维度。
17.声学场景分类是计算机听觉领域的热点方向之一,随着计算机算力的提升和深度学习的发展,声学场景分类研究的步伐也加快了,但是由于声学场景分类的研究起步较晚,其研究远不如图像领域。再加之在现实的场景中,通常情况下存在很多的声音事件,而这些事件只有小部分提供了关于录制场景的信息。此外,由于复杂环境因素的干扰,明确地将特征映射到场景非常困难。总之,对声学场景的研究有着广阔的前景,但同时也伴随着巨大的挑战。相比计算机视觉,特定场景下音频数据的收集和标注成本相对较高,如何利用有限的声学场景音频数据获得较高的分类准确率是目前研究的重点内容。单纯的使用数据增广或数据增强等手段提高数据特征的表达能力很难对分类有正向的结果,若针对网络结构做出适量调整虽然会有提升,但是效果并不显著。


技术实现要素:

18.基于以上现有技术的不足,本发明所解决的技术问题在于提供一种基于特征分层和改进ecapa-tdnn的声学场景分类的方法,能够忽略背景噪音的同时,减少分类误差,并提升模型分类速度。
19.为了解决上述技术问题,本发明通过以下技术方案来实现:本发明提供一种基于特征分层和改进ecapa-tdnn的声学场景分类的方法,包括:
20.步骤s1、在特征提取阶段,通过预加重、分帧、加窗、滤波操作得到梅尔频谱图;
21.步骤s2、利用梅尔频谱结合谐波增强部分、打击源增强部分和残差部分的相对分量得到梅尔频谱谐波分量、打击源分量和残差分量;
22.步骤s3、得到三层分量后,再将分量作为特征输入进结合群卷积的ecapa-tdnn当中。
23.进一步的,所述步骤s1具体包括:
24.步骤s11、对输入音频信号的高频分离进行补偿,增强其高频部分提高信噪比,弥补其在传输过程中高频分量的衰减;
25.步骤s12、对分帧加窗后的各帧信号做一个n点傅里叶变换来计算频谱;
26.步骤s13、将声音频带从低到高按临界带宽由密到疏设置三角滤波器。
27.进一步的,在步骤s2中,将梅尔频谱的时域分量sm(t)和频域分量sm(f)的绝对值作为输入信号输入中值滤波器,其输出信号为梅尔频谱的谐波增强部分hm和打击源增强部分pm;将梅尔频谱的残差部分rm定义为:
28.rm=|sm|-(pm hm)
29.然后,基于梅尔频谱的谐波增强部分hm、打击源增强部分pm和残差部分rm,计算出其各自的相对分量m
hm
、m
pm
和m
rm
如下:
[0030][0031][0032][0033]
最后,利用梅尔频谱结合谐波增强部分、打击源增强部分和残差部分的相对分量得到梅尔频谱谐波分量c
msh
、梅尔频谱打击源分量c
msp
和梅尔频谱残差分量c
msr
分别为:
[0034][0035][0036][0037]
进一步的,在步骤s3中,将时间注意机制进一步扩展到信道维度,能够关注到多个向量间的内部联系,充分激活临近或相似输入向量的隐含特征;设群卷积有三个卷积核,每个卷积核对应一个通道与之独立连接,卷积操作在每个组内完成,组间不共享特征映射,各个组完成卷积后将输出叠在一起作为这一层的最终输出通道。
[0038]
由上,本发明的基于特征分层和改进ecapa-tdnn的声学场景分类的方法具有如下
有益效果:
[0039]
1、本发明在特征提取阶段将对数梅尔谱图分为了三种分量,相较于对数梅尔谱图,1)分量中的亮斑更加清晰,其中包含了更多的声学信息;2)c
msh
与c
msp
虽然增强了谐波与打击源部分,但背景噪音也得到了增强;3)c
msr
不仅最大限度保留了有效特征信息,且针对性地减弱了背景噪音造成的亮斑;4)三种分量相互结合能够针对性地抑制背景噪音的影响。
[0040]
2、本发明采用了群卷积的思想,模型能够最大限度的利用三种分量的特征信息,并减少训练参数,模型参数随着filters组数的增加而减小。并且由于进行了分组输入,相邻层filters的关系更为稀疏,降低过拟合风险,使优化器学习到更准确、更有效的深度网络。
[0041]
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更简明易懂,以下结合优选实施例,并配合附图,详细说明如下。
附图说明
[0042]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见的,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0043]
图1为基于特征分层和改进ecapa-tdnn的声学场景分类的方法的流程图;
[0044]
图2为分帧操作图;
[0045]
图3为残差块与res2net块对比图;
[0046]
图4为ecapa-tdnn网络结构图;
[0047]
图5为改进ecapa-tdnn网络结构图。
具体实施方式
[0048]
下面结合附图详细说明本发明的基于特征分层和改进ecapa-tdnn的声学场景分类的方法的具体实施方式。
[0049]
如图1至图5所示,本发明提供一种基于特征分层和改进ecapa-tdnn的声学场景分类的方法,包括以下步骤:
[0050]
在特征提取阶段,通过预加重、分帧、加窗、滤波操作得到梅尔频谱图,利用梅尔频谱结合谐波增强部分、打击源增强部分和残差部分的相对分量得到梅尔频谱谐波分量、打击源分量和残差分量。得到三层分量后,再将分量作为特征输入进结合群卷积的ecapa-tdnn当中。
[0051]
首先,对输入音频信号的高频分离进行补偿,增强其高频部分提高信噪比,弥补其在传输过程中高频分量的衰减。因为长时音频信号是不平稳的,对其直接进行傅里叶变换没有意义,且其具有短时平稳性,所以利用分帧操作以25ms为一帧将其切割,为了避免相邻帧变化过大,两个相邻帧之间有一段重叠区域,如下图2所示。
[0052]
分帧操作后,设不连续的短时帧信号为s(n),n=0,1,...,n,其中n为窗口长度,为
增加帧左端和右端的连续性,对每一帧乘以hamming窗口得到:s

(n)=s(n)
×
w(n),其中w(n)形式如下(假设a=0.46):
[0053][0054]
信号在时域上的变换很难看出信号的特性,通常对它做fft变换转换为频域上的能量分布来观察,不同的能量分布,就能代表不同语音的特性。对分帧加窗后的各帧信号做一个n点傅里叶变换来计算频谱,也称为短时傅立叶变换(stft),其中n取2048。
[0055][0056]
由于人耳的听觉范围与赫兹尺度的频率呈非线性关系,这导致了人耳对不同频率声音的感知灵敏度不同。基于这种特性,将声音频带从低到高按临界带宽由密到疏设置三角滤波器,即梅尔滤波器组,其中心频率即为梅尔频率,梅尔频率f
mel
与频率f间的转换关系如下。
[0057][0058]
计算mel滤波器组,则是将功率谱通过一组mel刻度的三角滤波器来提取频带。定义一个有m个三角滤波器的滤波器组(滤波器的个数和临界带的个数相近),本发明m取128,三角滤波器的响应频率定义为:
[0059][0060]
得到梅尔频谱sm后,将梅尔频谱的时域分量sm(t)和频域分量sm(f)的绝对值作为输入信号输入中值滤波器,其输出信号为梅尔频谱的谐波增强部分hm和打击源增强部分pm。
[0061]
其次,将梅尔频谱的残差部分rm定义为
[0062]rm
=|sm|-(pm hm)
[0063]
然后,基于梅尔频谱的谐波增强部分hm、打击源增强部分pm和残差部分rm,计算出其各自的相对分量m
hm
、m
pm
和m
rm
如下:
[0064][0065][0066][0067]
最后,利用梅尔频谱结合谐波增强部分、打击源增强部分和残差部分的相对分量得到梅尔频谱谐波分量c
msh
(mel-spectrogram harmonic component)、梅尔频谱打击源分
量c
msp
(mel-spectrogram percussive-source component)和梅尔频谱残差分量c
msr
(mel-spectrogram residual component)分别为:
[0068][0069][0070][0071]
tdnn是cnn的前身,相当于一维的cnn。它的共享权重被限制在单一的维度上,并且没有池化层,适用于语音和时间序列的信号处理。而ecapa-tdnn基于传统tdnn模型有三点改进,分别是:1.通道和上下文相关的统计池化;2.增加了一维se残差模块;3.多层特征融合。
[0072]
(1)通道和上下文相关的统计池化
[0073]
在最近的x-vector体系结构中,注意力机制被用于计算时间分布层中的加权统计量。多头注意力机制可以在不同的帧集中提取特定的说话人属性。因此可以将时间注意机制进一步扩展到信道维度,能够关注到多个向量间的内部联系,充分激活临近或相似输入向量的隐含特征。
[0074][0075]
其中,h
t
表示的是t帧时刻的音频向量,w代表着c通道大小的变换矩阵,其在这c个通道中是共享的,b是防止过拟合的参数,f是如tanh或relu这样的非线性激活函数。从f输出的信息将通过一个权重为v偏执为k的线性层转化为自注意力分数,然后应用softmax函数对所有帧进行归一化。
[0076][0077]
经过softmax得到的归一化得分α作为池化层的权重,用来计算加权平均及加权标准差。从加权标准差中提取的特征就集中在重要的帧上,更具区别性。池化层的最终输出是通过连接加权平均以及加权标准差所得到。
[0078]
(2)一维se残差模块
[0079]
se-res2blocks就是在原有的res2blocks基础上添加一个seblock,res2net与se block结合,将se block接到res2net模块末端,得到新的se-res2block。
[0080]
其中res2net用一个较小的3
×
3过滤器取代了单个残差块中间层的过滤器组,同时可以将不同的过滤器组以层级残差式的方式连接,用更细的粒度表示多尺度特征,并增加每个网络层的感受野范围。这样会使res2net计算负载量没有大幅增加的同时,具备更强的多规模特征提取能力。
[0081]
在res2net模块末端连接一个se块,senet的全称是squeeze-and-excitation networks,即压缩和激励网络,其可以在很大程度上减小原模型的错误率,并且复杂度低,新增参数和计算量小。主要由两部分组成:1.squeeze部分:即为压缩部分,原始特征图的维度为[h,w,c],其中h是高度,w是宽度,c是通道数。squeeze把h
×w×
c压缩成一维即:1
×1×
c,hw压缩成一维后,相当于这一维参数获得了之前hw全局的视野,感受区域更广。2.excitation部分:得到squeeze的1
×1×
c的表示后,去掉头尾数据,将长度为c-2的输入数据通过全连接层,对每个通道的重要性进行预测,得到不同通道的权重后,再与原数据相
乘,完成对原始特征的重标定。
[0082]
(3)多层特征融合
[0083]
将原本的只汇总最后一个帧层的统计池化信息改进成汇总每一个se-res2blocks的输出信息,然后通过一个多层特征聚合的密集层后,生成统计池化层数据。此外将前面所有se-res2blocks和初始卷积层的输出作为下一个帧层块的输入。
[0084]
由于原始对数梅尔谱图分成了三个分量图像,直接输入ecapa-tdnn将使导致数据丢失和残缺,影响特征质量,降低分类准确度。若仅仅将ecapa-tdnn的输入通道改成3不足以建立每种不同时频特征分量图像的模型。为了能够对这三个分量图像的时频特征进行独立的深度非线性建模,本发明采用了群卷积思想。
[0085]
群卷积最早于2012年被应用到alexnet上,为解决显存不够的问题,其认为群卷积的方式可以增加滤波器之间的对角相关性,减少训练参数,且减少过拟合现象的发生。本发明中的三个分量图像即可视为三个输入通道,设群卷积有三个卷积核,每个卷积核对应一个通道与之独立连接,卷积操作在每个组内完成,组间不共享特征映射,各个组完成卷积后将输出叠在一起作为这一层的最终输出通道。
[0086]
以上所述是本发明的优选实施方式而已,当然不能以此来限定本发明之权利范围,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和变动,这些改进和变动也视为本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献