一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于稀疏自注意力机制的声学事件检测方法、系统、存储介质及设备与流程

2021-09-07 22:07:00 来源:中国专利 TAG:声学 听觉 检测方法 机器 事件

技术特征:
1.一种基于稀疏自注意力机制的声学事件检测方法,包括以下步骤:首先对输入音频信号提取梅尔声谱图,然后分别输入到卷积神经网络提取局部特征,并利用基于稀疏自注意力机制的transformer encoder提取时域特征;最后输入到全连接层进行分类,并对结果进行后处理,结果输出每个被检测到的声学事件的类别及起止时间;其特征在于,所述提取时域特征的过程包括以下步骤:将提取的局部特征h
i
输入到一个单层的transformer encoder模型中,采用稀疏归一化方法对注意力权重归一化;对得到的注意力权重矩阵的归一化操作包括以下步骤:2.1、a的第t列为a
t
,对a
t
中的元素进行降序排列;a为自注意力层中的注意力权重矩阵;2.2、寻找满足以下条件的中间参数k
t
;k
t
∈max{k∈[t]|1 ka
t,k
>∑
j≤k
a
t,j
}其中t表示时间维度的大小,[t]={1,2...t},a
t,k
、a
t,j
分别为向量a
t
中的第k个和第j个元素;2.3、求阈值τ
t
2.4、对于a
t
中的每个元素j,求:a

t,j
=[a
t,j

τ
t
]

其中,[
·
]

表示[
·
]

=max{0,
·
};2.5、返回步骤2.1,直到t=t,得到归一化的注意力权重矩阵a

。2.根据权利要求1所述的一种基于稀疏自注意力机制的声学事件检测方法,其特征在于,所述的自注意力层中的注意力权重矩阵:其中分别为self

attention中的query和key矩阵,d
k
为特征维度大小。3.根据权利要求2所述的一种基于稀疏自注意力机制的声学事件检测方法,其特征在于,分别输入到卷积神经网络提取局部特征所述的卷积神经网络是有至少一个卷积模块组成的,所述的卷积模块包括一个卷积层、一个归一化层、一个非线性层和一个最大池化层。4.根据权利要求3所述的一种基于稀疏自注意力机制的声学事件检测方法,其特征在于,所述的用于提取局部特征的卷积神经网络由七个卷积模块组成,所述卷积神经网络的堆叠的卷积滤波器个数依次为16、32、64、128、128、128、128;最大池化层的池化大小为(2,2)、(2,2)、(1,2)、(1,2)、(1,2)、(1,2)、(1,2)。每个卷积模块中的卷积层为二维卷积层,卷积核大小为(3,3),步长为(1,1)。5.根据权利要求4所述的一种基于稀疏自注意力机制的声学事件检测方法,其特征在于,最后输入到全连接层进行分类的过程包括以下步骤:利用全连接层对特征进行分类,其中隐藏层参数为128,激活函数采用sigmoid激活函数。6.根据权利要求1至5之一所述的一种基于稀疏自注意力机制的声学事件检测方法,其
特征在于,对结果进行后处理,结果输出每个被检测到的声学事件的类别及起止时间的过程包括以下步骤:利用中值滤波对输出概率进行平滑,得到声学事件的预测概率当大于0.5表示第t时刻发生了第c类声学事件,反之表示第c类事件未发生;进而得到每一时刻声音事件是否发生的信息,继而可得声音事件的发生与结束时间。7.根据权利要求6所述的一种基于稀疏自注意力机制的声学事件检测方法,其特征在于,对输入音频信号提取梅尔声谱图的过程包括以下步骤:输入的声音信号为10秒的声音段,采样率为16khz;梅尔声谱提取过程采用窗长为2048,帧移为255,128个梅尔域滤波器,并将数值映射到自然对数域;最终,一个10秒的声音片段,提取的梅尔声谱图x
i
的大小为(648,128);其中648为帧数,128是梅尔滤波器系数的阶数。8.一种基于稀疏自注意力机制的声学事件检测系统,其特征在于,所述系统用于执行权利要求1至7之一所述的一种基于稀疏自注意力机制的声学事件检测方法。9.一种存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至7之一所述的一种基于稀疏自注意力机制的声学事件检测方法。10.一种设备,其特征在于,所述设备包括处理器和存储器,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至7之一所述的一种基于稀疏自注意力机制的声学事件检测方法。

技术总结
基于稀疏自注意力机制的声学事件检测方法、系统、存储介质及设备,属于机器的听觉智能领域。为了解决现有的时序特征提取网络存在无法实现有效的时序建模的问题,从而限制了现有声学事件检测系统的性能。本发明首先对输入音频信号提取梅尔声谱图,然后分别输入到卷积神经网络提取局部特征,并利用基于稀疏自注意力机制的TransformerEncoder提取时域特征;最后输入到全连接层进行分类,并对结果进行后处理,结果输出每个被检测到的声学事件的类别及起止时间。主要用于声学事件的检测。起止时间。主要用于声学事件的检测。起止时间。主要用于声学事件的检测。


技术研发人员:韩纪庆 关亚东 薛嘉宾 郑贵滨 郑铁然
受保护的技术使用者:哈尔滨工业大学
技术研发日:2021.06.03
技术公布日:2021/9/6
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜