一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于卷积神经网络关系建模的环境声音分类方法与流程

2021-09-07 21:54:00 来源:中国专利 TAG:卷积 声音 环境 方法 神经网络


1.本发明涉及环境声音分类方法,尤其是基于卷积神经网络关系建模的环境声音分类方法。


背景技术:

2.环境声音分类是指通过对声音信号的分析处理,以识别出周围环境声音中包含的声学事件(如鸟叫声、风声等)或识别出记录声音时所在的物理环境(如办公室、公园等)。环境声音分类在音频内容分析、智能音箱设计、智能机器人环境感知等方面有着广泛的应用前景。
3.目前较先进的环境分类技术通常基于卷积神经网络。若将卷积神经网的中间特征看作是二维时频坐标下的节点的集合,节点之间的关系蕴含丰富的有价值信息:如声学事件中频繁出现的重复模式,或者声学场景中不同声学事件之间的复杂互动等。这些基于关系的丰富信息,对于获得针对环境声音的丰富且有效的表征具有十分重要的价值。然而,目前的卷积神经网普遍采用局部卷积算子,其仅对局部感受野之内的节点特征进行处理,缺乏对节点之间关系的分析和挖掘,对环境声音的表示能力不足,导致对环境声音分类的准确性低。


技术实现要素:

4.本发明的目的是为了解决现有方法对环境声音分类准确性低的问题,而提出一种基于卷积神经网络关系建模的环境声音分类方法。
5.一种基于卷积神经网络关系建模的环境声音分类方法具体过程为:
6.步骤一、采集环境声音,对采集的环境声音的音频提取对数声谱图,随机分为训练集和测试集;
7.步骤二、构建环境声音分类模型;
8.步骤三、将步骤一训练集提取的对数声谱图输入环境声音分类模型进行训练,直至收敛,得到预训练好的环境声音分类模型;
9.步骤四、将步骤一中测试集的对数声谱图输入预训练好的环境声音分类模型,若准确率达到要求,得到训练好的环境声音分类模型,执行步骤五;若准确率不能达到要求,重复执行步骤三和步骤四,直至得到训练好的环境声音分类模型;
10.步骤五、将待识别的声音信号输入训练好的环境声音分类模型,得到待识别的声音信号的类别。
11.优选的,所述步骤二中构建环境声音分类模型;具体过程为:
12.所述环境声音分类模型包括卷积神经网络、关系建模模块、全局最大池化层和全连接分类层;
13.卷积神经网络的输出连接关系建模模块的输入,关系建模模块的输出连接全局最大池化层的输入,全局最大池化层的输出连接全连接分类层的输入,全连接分类层输出环
境声音的类别标签。
14.优选的,所述步骤二中卷积神经网络为resnext卷积神经网络。
15.优选的,所述步骤三中将步骤一训练集提取的对数声谱图输入环境声音分类模型进行训练,直至收敛,得到预训练好的环境声音分类模型;具体过程为:
16.步骤一中训练集的对数声谱图记为输入环境声音分类模型的卷积神经网络,输出卷积特征x∈r
c
×
f
×
t
,将输出的卷积特征x∈r
c
×
f
×
t
输入关系建模模块,输出关系感知的卷积特征o∈r
c
×
f
×
t
,将输出的关系感知的卷积特征o∈r
c
×
f
×
t
依次输入全局最大池化层和全连接分类层,输出环境声音的类别标签y∈r
k

17.其中,f0为声谱图在频率方向上的维度,t0为声谱图在时间上的维度,k为环境声音类别数,c为通道数,f为频率维度,t为时间维度,r为实数;
18.采用adam随机梯度下降算法优化环境声音分类模型的参数,直至收敛,得到预训练好的环境声音分类模型。
19.优选的,所述将输出的卷积特征x∈r
c
×
f
×
t
输入关系建模模块,输出关系感知的卷积特征o∈r
c
×
f
×
t
;具体过程为:
20.步骤三一、基于时频位置信息和节点特征的关系学习,得到节点间关系的度量;
21.步骤三二、基于步骤三一得到的节点间关系的度量进行节点特征聚合,得到关系感知节点特征;
22.步骤三三、基于步骤三一得到的节点间关系的度量获得关系结构特征;
23.步骤三四、将步骤三二得到的关系感知节点特征与步骤三三得到的关系结构特征进行融合,得到关系感知的卷积特征。
24.优选的,所述步骤三一中基于时频位置信息和节点特征的关系学习,得到节点间关系的度量;具体过程为:
25.将卷积特征x表示为节点x
i
的集合形式,将节点x
i
的时、频坐标分别记为t
i
和f
i
;则节点x
i
的时频位置特征记为:
[0026][0027]
其中,x
i
∈r
c
代表第i个节点;0≤t
i
≤t

1且0≤f
i
≤f

1;p
i
为节点x
i
的时频位置特征;i=1,2,

,j;
[0028]
定义相对时频位置特征为:
[0029]
δp
i,j
=p
i

p
j
ꢀꢀ
(2)
[0030]
其中,p
j
为节点x
j
的时频位置特征,δp
i,j
为相对时频位置特征;
[0031]
得到x
i
和x
j
之间关系的度量e
i,j
;表达式为:
[0032][0033]
其中,θ(x
i
)、φ(x
j
)皆为线性层,[
·
,
·
]代表特征级联操作,relu(
·
)是线性整流函数;w∈r
c 2
是可学习的权重向量;上角标t为转置符号;
[0034]
节点x
i
和x
j
之间关系的度量e
i,j
为关系矩阵e的第i行第j列元素。
[0035]
优选的,所述步骤三二中基于步骤三一得到的节点间关系的度量进行节点特征聚合,得到关系感知节点特征;具体过程为:
[0036]
利用步骤1得到的x
i
和x
j
之间关系的度量e
i,j
,获得融合了关系信息的关系感知节点特征表达式为:
[0037][0038]
其中,ψ(x
j
)为线性层;j=1,2,

,j;j代表节点总数。
[0039]
优选的,所述步骤三三中基于步骤三一得到的节点间关系的度量获得关系结构特征;具体过程为:
[0040]
将关系矩阵e的第i行记为e
i
∈r
j

[0041]
e
i
代表节点x
i
的关系结构,对e
i
使用sparsemax变换,得到关系概率分布表达式为:
[0042][0043]
其中,δ
j
‑1:={q∈r
j
|1
t
q=1,q≥0}代表一个维度为j

1的概率单纯形;q为δ
j
‑1中的一个可行解;
[0044]
计算关系概率分布的熵表达式为:
[0045][0046]
其中,为关系概率分布中的一个元素;
[0047]
对关系概率分布的熵进行处理得到关系结构特征;表达式为:
[0048][0049]
式中,h
i
为关系结构特征,h
i
取值为[0,1]。
[0050]
优选的,所述步骤三四中将步骤三二得到的关系感知节点特征与步骤三三得到的关系结构特征进行融合,得到关系感知的卷积特征;具体过程为:
[0051]
将步骤三二得到的关系感知节点特征与步骤三三得到的关系结构特征h
i
进行级联,级联后经过一层线性变换后,与原始节点特征x
i
进行残差连接,得到关系建模模块输出的关系感知的卷积特征o
i
;表达式为:
[0052][0053]
其中,w

∈r
c
×
(c/2 1)
为线性映射参数,sg(
·
)代表梯度停止符号;
[0054]
将所有节点的关系感知的卷积特征o
i
重新表示为张量形式,则有关系感知的卷积特征o∈r
c
×
f
×
t

[0055]
优选的,所述关系感知的卷积特征o∈r
c
×
f
×
t
与输入卷积特征x∈r
c
×
f
×
t
维度一致。
[0056]
本发明的有益效果为:
[0057]
本发明为了解决面向环境声音分类的卷积神经网络对节点之间关系建模不足,导致对环境声音分类准确性低的问题,提出一种对卷积神经网的节点间关系进行建模和分析的插入式神经网模块。该关系建模模块首先利用神经网络对任意两节点之间的关系进行参数化学习;并利用所学到的关系对节点特征进行特征聚合,以提取更加丰富的节点特征。进而,提出一种基于信息熵的特征提取方法,以对节点之间的关系结构进行刻画。最后,将关系感知的节点特征与关系结构特征进行融合。
[0058]
本发明采用的技术方案包含一个基于卷积神经网络的主干模型和一个插入式节点间关系建模模块。其中,主干模型采用通用的卷积神经网络模型。本发明的新颖之处在于,其具有一个针对节点间关系进行建模的神经网络模块。该模块采用插件式设计,不改变输入和输出的特征维度,可直接插入主干卷积神经网络模型之中,有效增强其关系建模能力。
[0059]
本发明提供了一种对卷积神经网的节点间关系进行明确建模和分析的方式,能有效解决传统卷积神经网络在环境声音分类时对节点间关系建模不足,导致对环境声音分类准确性低的问题;同时,其对节点间关系的利用,也显著提升了卷积神经网络的表达能力。本发明采用模块化设计,所提出的关系建模模块可简单方便地插入到常用的卷积神经网络架构中,具有一定的通用性。
附图说明
[0060]
图1为本发明所提出的基于卷积神经网络和关系建模的环境声音分类模型图;
[0061]
图2为现有常用的基于卷积神经网络的场景分类模型图。
[0062]
比较图2可知,本发明的新颖之处在于,其具有一个针对节点间关系进行建模的关系建模模块。该关系建模模块的输入是卷积神经主干网络输出的卷积特征,输出是关系感知的卷积特征。
具体实施方式
[0063]
具体实施方式一:本实施方式一种基于卷积神经网络关系建模的环境声音分类方法具体过程为:
[0064]
步骤一、采集环境声音,对采集的环境声音的音频提取对数声谱图(logmel),随机分为训练集和测试集;
[0065]
步骤二、构建环境声音分类模型;
[0066]
步骤三、将步骤一训练集提取的对数声谱图(logmel)输入环境声音分类模型进行训练,直至收敛,得到预训练好的环境声音分类模型;
[0067]
步骤四、将步骤一中测试集的对数声谱图(logmel)输入预训练好的环境声音分类模型,若准确率达到要求,得到训练好的环境声音分类模型,执行步骤五;若准确率不能达到要求,重复执行步骤三和步骤四,直至得到训练好的环境声音分类模型;
[0068]
步骤五、将待识别的声音信号输入训练好的环境声音分类模型,得到待识别的声音信号的类别(如办公室、公园)。
[0069]
具体实施方式二:本实施方式与具体实施方式一不同的是,所述步骤二中构建环境声音分类模型;具体过程为:
[0070]
所述环境声音分类模型包括卷积神经网络、关系建模模块、全局最大池化层和全连接分类层;
[0071]
卷积神经网络的输出连接关系建模模块的输入,关系建模模块的输出连接全局最大池化层的输入,全局最大池化层的输出连接全连接分类层的输入,全连接分类层输出环境声音的类别标签。
[0072]
其它步骤及参数与具体实施方式一相同。
[0073]
具体实施方式三:本实施方式与具体实施方式一或二不同的是:所述步骤二中卷积神经网络为resnext卷积神经网络。
[0074]
其它步骤及参数与具体实施方式一或二相同。
[0075]
具体实施方式四:本实施方式与具体实施方式一至三之一不同的是,所述步骤三中将步骤一训练集提取的对数声谱图(logmel)输入环境声音分类模型进行训练,直至收敛,得到预训练好的环境声音分类模型;具体过程为:
[0076]
步骤一中训练集的对数声谱图(logmel)记为输入环境声音分类模型的卷积神经网络,输出卷积特征x∈r
c
×
f
×
t
,将输出的卷积特征x∈r
c
×
f
×
t
输入关系建模模块,输出关系感知的卷积特征o∈r
c
×
f
×
t
,将输出的关系感知的卷积特征o∈r
c
×
f
×
t
依次输入全局最大池化层和全连接分类层,输出环境声音的类别标签(如办公室、公园)y∈r
k

[0077]
其中,f0为声谱图在频率方向上的维度,t0为声谱图在时间上的维度,k为环境声音类别数,c为通道数,f为频率维度,t为时间维度,r为实数;
[0078]
采用adam随机梯度下降算法优化环境声音分类模型的参数,直至收敛,得到预训练好的环境声音分类模型。
[0079]
其它步骤及参数与具体实施方式一至三之一相同。
[0080]
具体实施方式五:本实施方式与具体实施方式一至四之一不同的是:所述将输出的卷积特征x∈r
c
×
f
×
t
输入关系建模模块,输出关系感知的卷积特征o∈r
c
×
f
×
t
;具体过程为:
[0081]
步骤三一、基于时频位置信息和节点特征的关系学习,得到节点间关系的度量;
[0082]
步骤三二、基于步骤三一得到的节点间关系的度量进行节点特征聚合,得到关系感知节点特征;
[0083]
步骤三三、基于步骤三一得到的节点间关系的度量获得关系结构特征;
[0084]
步骤三四、将步骤三二得到的关系感知节点特征与步骤三三得到的关系结构特征进行融合,得到关系感知的卷积特征。
[0085]
其它步骤及参数与具体实施方式一至四之一相同。
[0086]
具体实施方式六:本实施方式与具体实施方式一至五之一不同的是:所述步骤三一中基于时频位置信息和节点特征的关系学习,得到节点间关系的度量;具体过程为:
[0087]
将卷积特征x表示为节点x
i
的集合形式,将节点x
i
的时、频坐标分别记为t
i
和f
i
;则节点x
i
的时频位置特征记为:
[0088][0089]
其中,x
i
∈r
c
代表第i个节点;0≤t
i
≤t

1且0≤f
i
≤f

1;p
i
为节点x
i
的时频位置特征;i=1,2,

,j;
[0090]
为增加时频坐标的平移不变性,进一步定义相对时频位置特征为:
[0091]
δp
i,j
=p
i

p
j
ꢀꢀ
(2)
[0092]
其中,p
j
为节点x
j
的时频位置特征,δp
i,j
为相对时频位置特征;
[0093]
将任意两节点x
i
和x
j
之间的关系利用神经网络进行参数化,得到x
i
和x
j
之间关系的度量e
i,j
;表达式为:
[0094][0095]
其中,θ(x
i
)、φ(x
j
)皆为线性层,θ(x
i
)=w
θ
x
i
,φ(x
j
)=w
φ
x
j
,且w
θ
、w
φ
为是可学习的权重向量;[
·
,
·
]代表特征级联操作,relu(
·
)是线性整流函数;w∈r
c 2
是可学习的权重向量,将级联后的特征映射为一个标量;上角标t为转置符号;
[0096]
e
i,j
≥0可看作节点x
i
和x
j
之间关系的度量;
[0097]
节点x
i
和x
j
之间关系的度量e
i,j
为关系矩阵e的第i行第j列元素。
[0098]
其它步骤及参数与具体实施方式一至五相同。
[0099]
具体实施方式七:本实施方式与具体实施方式一至六之一不同的是,所述步骤三二中基于步骤三一得到的节点间关系的度量进行节点特征聚合,得到关系感知节点特征;具体过程为:
[0100]
利用步骤1得到的x
i
和x
j
之间关系的度量e
i,j
,提出一种基于关系的节点特征聚合算子,来获得融合了关系信息的更加丰富的关系感知节点特征表达式为:
[0101][0102]
其中,ψ(x
j
)为线性层,ψ(x
j
)=w
ψ
x
j
,是一个线性层;j=1,2,

,j;j代表节点总数,用作归一化因子;
[0103]
式(4)的含义是:对于节点x
i
,特征聚合算子根据其与x
j
的归一化的关系e
i,j
/j,从节点x
j
中提取信息ψ(x
j
)。
[0104]
其它步骤及参数与具体实施方式一至六相同。
[0105]
具体实施方式八:本实施方式与具体实施方式一至七之一不同的是,所述步骤三三中基于步骤三一得到的节点间关系的度量获得关系结构特征;具体过程为:
[0106]
将关系矩阵e的第i行记为e
i
∈r
j

[0107]
e
i
代表节点x
i
的关系结构,e
i
描述了x
i
与其它节点x
j
,j=1,2,

,j之间的整体关系;通常情况下,e
i
的维度很高,为对其进行有效压缩并提取有效信息,首先将其映射到一个概率单纯形上。为去除较弱的关系的干扰,这里对e
i
使用sparsemax变换,得到关系概率
分布表达式为:
[0108][0109]
其中,δ
j
‑1:={q∈r
j
|1
t
q=1,q≥0}代表一个维度为j

1的概率单纯形;q为δ
j
‑1中的一个可行解;
[0110]
将关系概率分布的熵作为对的压缩描述,计算关系概率分布的熵表达式为:
[0111][0112]
其中,为关系概率分布中的一个元素;
[0113]
为进一步获得适合神经网络处理的特征,对关系概率分布的熵进行处理得到关系结构特征;表达式为:
[0114][0115]
式中,h
i
为从x
i
的关系结构中提取的特征,称为关系结构特征,h
i
取值为[0,1]。
[0116]
其它步骤及参数与具体实施方式一至七相同。
[0117]
具体实施方式九:本实施方式与具体实施方式一至八之一不同的是,所述步骤三四中将步骤三二得到的关系感知节点特征与步骤三三得到的关系结构特征进行融合,得到关系感知的卷积特征;具体过程为:
[0118]
将步骤三二得到的关系感知节点特征与步骤三三得到的关系结构特征h
i
进行级联,级联后经过一层线性变换后,与原始节点特征x
i
进行残差连接,得到关系建模模块输出的关系感知的卷积特征o
i
;表达式为:
[0119][0120]
其中,w

∈r
c
×
(c/2 1)
为线性映射参数,sg(
·
)代表梯度停止符号,优化过程中梯度不会通过h
i
回传。换言之,h
i
仅用作额外特征使用;
[0121]
将所有节点的关系感知的卷积特征o
i
重新表示为张量形式,则有关系感知的卷积特征o∈r
c
×
f
×
t
;该输出特征张量o由于融合了前述关系建模过程,将其称为关系感知的卷积特征。
[0122]
其它步骤及参数与具体实施方式一至八之一相同。
[0123]
具体实施方式十:本实施方式与具体实施方式一至九之一不同的是,所述关系感知的卷积特征o∈r
c
×
f
×
t
与输入卷积特征x∈r
c
×
f
×
t
维度一致。
[0124]
因而所提出的关系建模模块可作为一个基本模块,插入到主干卷积神经网resnext之后。再经过全局最大池化层和全连接分类层之后,最终输出类别标签y。
[0125]
其它步骤及参数与具体实施方式一至九之一相同。
[0126]
采用以下实施例验证本发明的有益效果:
[0127]
实施例一:
[0128]
为证明本发明的有效性,将本发明所提出的模型(resnext relation)应用于两个环境声音分类的评测数据集esc

50和dcase2018 task1a上,并与不包含关系建模模块的基线模型(resnext)进行对比。
[0129]
其中,esc

50数据集为常用的声学事件分类数据集,其包含2000条时长为5秒的声音片段,共50个类别;按照esc

50所提供的默认配置说明,将其中1600条作为训练集,400条作为测试集。
[0130]
dcase2018 task1a数据集为声学场景分类数据集,其中包含8640条时长为10秒的音频片段,共10个类别;按照dcase2018 task1数据集所提供默认配置说明,将其中6122条作为训练集,2518条作为测试集。
[0131]
两个数据集均以准确率作为评测指标;可见,本发明所提出的方法在两个数据集上均有较显著的性能提升。
[0132]
表格1本发明所提出方法与基线模型分类性能比较
[0133][0134]
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜