一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于表征全局依赖关系的并行注意力机制鸟鸣声识别方法

2022-12-10 00:16:23 来源:中国专利 TAG:


1.本发明涉及一种基于表征全局依赖关系的并行注意力机制鸟鸣声识别方法。


背景技术:

2.鸟类物种多样性是评估生态环境质量的重要生物指标,同时也反映了其栖息地的物种丰富程度,识别鸟类种群是评估鸟类物种多样性的关键步骤。采集鸟类鸣叫声,通过鸟鸣声识别鸟类种群具有,设备部署简单,不受树木等环境因素遮挡等优点。因此,鸟鸣声识别具有不可替代的作用。
3.目前鸟鸣声识别大多基于深度学习方法。先通过短时傅里叶变化等操作将鸟鸣声可视化为频谱图等特征,其次,采用卷积神经网络捕获频谱图中局部区域上时频变化信息来对鸟鸣声进行分类。也有研究人员,采用循环神经网络构造鸟鸣声连续时序信息变换建模时间维度特性识别鸟鸣声。目前最新研究中,采用注意力机制对鸟鸣声时序位置信息进行权重再分配,重新建模时序特征关联度。然而,上述方法中,仅从局部位置信息感知鸟鸣声,并未考虑到鸟鸣声时序信息和发声频率间的关系以及各个通道中鸟鸣声特征的关联度,因而识别的准确率较低。
4.因此,有必要设计一种新的鸟鸣声识别方法。


技术实现要素:

5.本发明所要解决的技术问题是提供一种基于表征全局依赖关系的并行注意力机制鸟鸣声识别方法,该基于表征全局依赖关系的并行注意力机制鸟鸣声识别方法具有识别准确率高的特点。
6.发明的技术解决方案如下:
7.一种基于表征全局依赖关系的并行注意力机制鸟鸣声识别方法,包括以下步骤:
8.步骤1:采用通道并行注意力模块对鸟鸣声特征图x进行操作,表示为f
pca
(x);步骤2:采用挤压激励注意力模块对鸟鸣声特征图x进行操作,表示为f
sea
(x);步骤3:将通道并行注意力模块和挤压激励注意力模块并行地融合到一个整体中,表示为f
dpa
(x)=f
pca
(x) f
sea
(x) x;
9.得到融合处理后的鸟鸣声特征图;基于融合处理后的的鸟鸣声特征图对鸟鸣声进行识别。
10.f
pca
(x)=w((σ((φ(x))
t
ψ(x))(θ(x))
t
)
t
) x;
11.其中鸟鸣声特征图x有m个通道,x=(x1,x2,...,x
m-1
,xm),其中xi∈rc,i∈{1,2,...,m};c表示通道维度,r本身是一个三维特征(三个维度分别是通道,时序信息,声音频率。)rc表示通道维度中的一个二维特征。
12.φ,ψ,θ表示感受野为1
×
1的二维卷积;
13.表示感受野为3
×
3的二维卷积,σ表示sigmoid函数。
14.f
sea
=(f
scale
(σ(w2(δ(w1(f
sq
(x)))))

x;
15.其中,f
sq
表示挤压函数,和表示两个全连接层(fc表示全连接层,m和表示全连接层中输入和输出节点的数量。)
16.δ表示relu激活函数,relu激活函数的表达式为δ(x)=max(0,x),f
scale
表示缩放函数,

表示逐元素相乘。
17.挤压函数的表达式为:xj表示特征图中一个通道上的特征(二维),f表示时序信息,t表示声音频率。
18.有益效果:
19.本发明的基于表征全局依赖关系的并行注意力机制鸟鸣声识别方法,本发明提供了一种基于表征全局依赖关系的并行注意力机制鸟鸣声识别方法,旨在建模鸟鸣声发声位置和声音频率间关系,并且自适应地校准不同通道的重要程度,来构造鸟鸣声全局依赖关系。
20.第一方面,本发明提出了通道并行注意力模块(parallel channel attention,pca),通过表征任意时刻发声的时间帧和所有振动声音频率之间的相关性,构造鸟鸣声中的全局时频依赖性。具体来说,通道并行注意力为特征图中每一个通道都单独构造权重矩阵并行地对相应通道上的时域特征加权求和,重新聚合频谱图特征。
21.第二方面,本发明采用了挤压激励注意力模块(squeeze excitation attention,sea),对通道之间的相互依存关系进行建模,自适应地校准通道间的特征响应,从而调整特征图中不同通道所携带的鸟鸣声信息的重要程度。
22.第三方面,本发明设计了双并行注意力(dual parallel attention,dpa),其由通道并行注意力模块和挤压激励注意力模块并行融合构成。双并行注意力既能够关注鸟鸣声中的全局时频依赖关系又可以自适应地校准不同通道中鸟鸣声特征的相关度。
23.本发明实例提出了双并行注意力用于构造全局特征依赖关系,其主要分为通道并行注意力模块和挤压激励注意力模块。其中通道并行注意力模块为特征图中每一个通道上的鸟鸣声信息都单独构造时域权重矩阵从时序位置上跨距离构造全局时频依赖关系,而挤压激励注意力模块则是将特征图中所有通道信息压缩到一列通道特征因子中并调整通道特征因子间的关联度,将调整后的通道特征因子与原特征图逐通道相乘,从而校准不同通道的重要性。而双并行注意力则是将两个模块并行地构造成一个统一的整体,并且加上跳原始特征信息避免丢失原始鸟鸣声信息。双并行注意力嵌入骨干网络后,使得网络能够关注到鸟鸣声的全局特征信息,扩张了网络感受野。
附图说明
24.图1为本发明的双并行注意力机制的流程示意图;
25.图2为本发明的通道并行注意力模块的框架结构图;
26.图3为本发明的挤压激烈注意力模块的框架结构图。
27.图4为鸟鸣声对应的梅尔频谱图(其中图(a)~(d)分别对应的是灰雀,大天鹅,绿头鸭和红脚鹬对应的梅尔频谱图)。
具体实施方式
28.以下将结合附图和具体实施例对本发明做进一步详细说明:
29.如图1-4,
30.图1为本发明实施例提供的双并行注意力机制,其主要由通道并行注意力模块和挤压激励注意力模块构成。
31.首先,介绍通道并行注意力模块,其为鸟鸣声特征图中的每一个通道都构造权重矩阵获得全局特征关联度,并行地对通道中时频信息加权求和,生成新特征以构造全局时频依赖关系。给定输入的鸟鸣声特征图x∈rc×f×
t
,c表示通道,f表示时域,t表示频域(实际上,f和t分别是特征图的高和宽)。假设,特征图x有m个通道,x=(x1,x2,...,x
m-1
,xm),其中xi∈rc,i∈{1,2,...,m}。关于特征图的说明:将一维鸟鸣声音频信号,转换成表示鸟鸣声的梅尔频谱图。在卷积神经网络中,通过卷积核提取表示鸟鸣声频谱图的特征信息,进而识别鸟鸣声所属鸟类种群类别。每一个卷积核对应生成一个新的鸟鸣声特征图,每一次卷积过程都有多个卷积核。卷积后的所有鸟鸣声特征信息称为特征图(feature map);实际上特征图就是表示鸟鸣声信息的所有特征的集合。
32.通道并行注意力详细架构如图2,具体公式如下:
33.f
pca
(x)=w((σ((φ(x))
t
ψ(x))(θ(x))
t
)
t
) x
34.其中,φ,ψ,θ表示感受野为1
×
1的二维卷积。
35.另外,这3个卷积φ,ψ,θ的运算是公式相同的。本质上没有区别,同样是二维卷积,但在注意力机制中具有不同的作用。
36.为了区分它们的作用,因此用不同的符号表示。
37.对特征图x进行通道并行注意力操作,表示为f
pca
(x)
38.w表示感受野为3
×
3的二维卷积,σ表示sigmoid函数。φ和ψ用来降低特征图通道数量以减少运算时的参数量。将φ(x)转置表示为(φ(x))
t
,并与ψ(x)相乘,获得表征特征信息的权重矩阵。本实例仅选择(φ(x))
t
和ψ(x)中的一个通道xi表示此过程,如下所示:
[0039][0040][0041]
表示一个时间帧中所有的声音频率,其中k∈{1,2,...,n},n表示通道中时域的长度。ψ(xi)和(φ(xi))
t
相乘得到权重矩阵,其表征通道xi上任意两个时间帧之间的关系,如下所示:
[0042][0043]
(φ(xi))
t
ψ(xi)∈r1×
t
×
t
,经由sigmoid函数激活后,sigmoid函数(σ)及激活过程如下所示:
[0044]
[0045][0046]
特征图x通过θ降低通道数,同样仅选择一个对应的通道θ(xi),如下所示:
[0047][0048]
将θ(xi)进行转置,与激活后的权重矩阵σ((φ(xi))
t
ψ(xi))相乘,这使得θ(xi)中所有的时间帧与权重矩阵的每一行对应相乘并相加,聚合成新特征,完成跨距离捕获时域特征操作构造全局时频依赖关系。如下所示:
[0049]
σ((φ(xi))
t
ψ(xi))(θ(xi))
t
=(x1,...,x2,...,xn)
[0050]
然后,通过w还原特征图通道数,使得输入输出形状保持一致。最后,将原始特征信息x加入注意力模块。
[0051]
接着介绍挤压激励注意力模块,结构如图3所示。其通过显式建模通道间的相互依赖性,自适应地重新校准通道间关系。主要分为挤压和激励两步操作完成此过程。如下所示:
[0052]fsea
=(f
scale
(σ(w2(δ(w1(f
sq
(x)))))

x
[0053]
其中,f
sq
表示挤压函数,和表示两个全连接层,δ表示relu激活函数,f
scale
表示缩放函数(python语言中expand_as函数),

表示逐元素相乘。
[0054]
首先介绍挤压操作,采用全局平均池化函数将特征中每一个通道上的鸟鸣声信息压缩成一个通道特征因子。本实例仅选择特征图中的一个通道xj来描述挤压操作,如下所示:
[0055][0056]
接着介绍激励操作,将聚合后的一列鸟鸣声通道特征因子,经由w1和w2这两层全连接层,使其相互学习各个通道间的关系,并且分别在每个全连接层之后采用sigmoid和relu激活函数进行非线性激活,保存通道特征因子中重要的信息,去除无关特征。其中relu激活函数(δ),如下所示:
[0057]
δ(x)=max(0,x)
[0058]
最后,通过缩放函数f
scale
将调整后的通道特征因子的形状恢复到与原特征图x形状一致。其与x所有的鸟鸣声信息逐元素相乘调整每一个通道在整个特征图中的占比程度。
[0059]
最后,我们介绍双并行注意力,其将通道并行注意力模块和挤压激励注意力模块并行地融合到一个整体中,使得双并行注意力即能够构造鸟鸣声中的全局时频依赖关系,并且能够区分不同通道在鸟鸣声特征图中的贡献程度。具体如下所示:
[0060]fdpa
(x)=f
pca
(x) f
sea
(x) x
[0061]
特征图x经过通道并行注意力模块和挤压激励注意力模块加权调整后,逐元素求和完成特征级融合,并且加上原始特征信息。值得注意的是,双并行注意力中仅融合了一次原始特征信息,省略了通道并行注意力模块中融合原始特征信息的操作。
[0062]
为了证明本发明专利有效性,进行了如下实验。
[0063]
数据集为birdsdata,由百鸟数据科技(北京)有限责任公司收集,它包含14311条
自然音频,所有片段均为2s。共计20类中国常见的鸟类物种,如灰雀、大天鹅、绿头鸭和红脚鹬等鸟类。我们将所有的鸟鸣声片段统一调整为22050hz,并将鸟鸣声转换成梅尔频谱图,转换后的形状为128
×
173,具体图例如图4。
[0064]
本发明专利在cpu i9-10900k,gpu rtx 3090-24g的硬件环境下进行了实验。基于pytorch深度学习框架,版本为1.7.0 cu110,学习率为0.0001,batch-size为22,损失函数为交叉熵(cross-entropy),训练50epochs,每隔20epochs将学习率衰减为十分之一,训练集与测试集的划分比列为8∶2,训练集11449个鸟鸣声片段,测试集2862个鸟鸣声片段。本发明专利提出的双并行注意力机制可灵活的嵌入各种骨干网络结构中,本实验以五层卷积神经网络(cnn-5)为例,证明双并行注意力的有效性。
[0065]
实验结果如表1所示:采用五层卷积神经网络识别鸟鸣声,准确率为90.8%。在骨干网络的基础上嵌入挤压激励注意力模块,自适应地区分特征图中携带更多鸟鸣声信息的通道,准确率达到了92.5%,比基线提高了1.7%。在骨干网络的基础上嵌入通道并行注意力模块,构造梅尔频谱图中鸟鸣声的全局时频依赖关系,准确率达到了95.4%,比基线提高了4.6%。最后,将融合了两个模块的双并行注意力嵌入骨干网络,聚焦于鸟鸣声特征的全局依赖关系,准确率达到了98.1%,比基线提高了7.3%。
[0066]
表1
[0067]
骨干网络输入特征注意力机制准确率cnn-5梅尔频谱图 90.8%cnn-5梅尔频谱图通道并行注意力模块92.5%cnn-5梅尔频谱图挤压激励注意力模块95.4%cnn-5梅尔频谱图双并行注意力98.1%
[0068]
网络对数据集的识别率,与划分训练集和测试集的数据有一定关系。因此,将birdsdata数据集划分三次,分别为split1,split2和split3。实验结果如表2所示:
[0069]
表2
[0070][0071][0072]
在三次划分数据集中,将双并行注意力嵌入五层卷积神经网络,分类准确率提升最高达到了8%,其次为7.6%,最低也在骨干网络的基础上提升了7.3%。总的来看,注意力机制稳定地提升骨干网络性能。表1中的实验均在split1划分下进行。
[0073]
本发明公开了一种基于表征全局依赖关系的并行注意力机制鸟鸣声识别方法,该方法:首先,通过通道并行注意力模块表征任意时刻发声的时间帧和所有振动声音频率之间的相关性,构造鸟鸣声全局时频依赖关系,其次,通过挤压激励注意力模块自适应地校准特征图中不同通道所携带鸟鸣声信息的重要程度,最后将两个模块并行融合构成双并行注意力机制用于构造全局特征依赖关系。本发明提出的双并行注意力机制灵活地嵌入浅层卷
积神经网络中,并且以较低的计算量在鸟鸣声数据集birdsdata上取得了98.1%的识别精度。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献