一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于复合神经网络的水声目标识别方法与流程

2021-10-24 08:53:00 来源:中国专利 TAG:水声 识别 神经网络 复合 信号


1.本发明属于水声信号识别技术领域,具体涉及一种基于复合神经网络的水声目标识别方法。


背景技术:

2.近年来,随着机器学习、深度学习等技术的良好发展,水声目标识别技术也取得了一些新的进展与研究结果。水声目标的探测与识别对于水下作战以及水声目标感知具有关键作用,随着海军装备的信息化与智能化,水声目标识别是未来水上水下作战的先决条件,因此能否及时准确地对水声目标进行识别分析,是在海洋战争中掌握战争主动权的重要因素。由于对海洋音频的实采数据信息纯度不高,会使得在运用一些常规算法进行训练时,模型对数据进行预测的准确率不够高,不能够很好的对样本数据进行准确的识别。cnn算法虽然能够相对较好的对数据信息进行识别,但是它本身的结构还是会使算法对一些与时间相关的数据信息有遗漏;lstm在对数据信息时序特征上的识别有较好的效果,但是却没有cnn对于具有空间特征的数据处理的效果好。
3.综上所述,现有方法并不能同时对时间相关数据信息和空间特征数据取得良好的处理效果,因此,采用现有方法对水声目标识别的准确率仍然较低。


技术实现要素:

4.本发明的目的是为解决采用现有方法对水声目标识别的准确率低的问题,而提出一种基于复合神经网络的水声目标识别方法。
5.本发明为解决上述技术问题所采取的技术方案是:
6.一种基于复合神经网络的水声目标识别方法,所述方法具体包括以下步骤:
7.步骤1、对输入的声音信号经过窗函数进行分割后,得到若干段长度相同的信号,再分别对每段信号进行短时傅里叶变换,得到短时傅里叶变换结果;
8.将短时傅里叶变换结果转变为能量谱后,再对能量谱进行mel滤波,得到mel滤波结果;
9.再对mel滤波结果进行离散余弦变换,得到输入声音信号的mfcc特征;
10.步骤2、将步骤1得到的mfcc特征输入lstm网络,得到lstm网络的输出结果;
11.步骤3、将lstm网络的输出结果输入到cnn网络中,通过cnn网络输出目标识别结果。
12.本发明的有益效果是:本发明设计了基于复合神经网络的基层网络结构,先通过lstm算法对输入音频样本数据的时序特征进行学习,得到一个通过算法更新后的状态信息作为中间向量,进而将这一层次中的状态信息继续通过cnn网络进行传递,经过cnn网络中的卷积池化运算得到输入音频样本数据的空间特征,最后通过cnn网络最后一层的softmax函数得到水声目标识别结果。
13.通过实验对比得出,本发明复合神经网络算法的目标识别准确率比单独使用lstm
算法或cnn算法都要高,能够达到73%,而且复合神经网络的初始识别准确率以及收敛速度相比于lstm算法和cnn算法都要好。
附图说明
14.图1是声音波形图;
15.图2是特征提取流程图;
16.图3是复合网络识别流程图;
17.图4是基于深度学习方法的三种网络模型的识别准确率对比图。
具体实施方式
18.具体实施方式一、结合图3说明本实施方式。本实施方式所述的一种基于复合神经网络的水声目标识别方法,所述方法具体包括以下步骤:
19.步骤1、对输入的声音信号经过窗函数进行分割后,得到若干段长度相同的信号,再分别对每段信号进行短时傅里叶变换,得到短时傅里叶变换结果;
20.将短时傅里叶变换结果转变为能量谱后,再对能量谱进行mel滤波,得到mel滤波结果;
21.再对mel滤波结果进行离散余弦变换,得到输入声音信号的mfcc(梅尔频率倒谱)特征;
22.步骤2、将步骤1得到的mfcc特征输入lstm网络,得到lstm网络的输出结果;
23.lstm网络对音频样本数据的时序特征进行学习,得到一个有着时序特征的中间向量;其具体过程为:
24.步骤2.1:通过将输入的数据与sigmoid相作用,得出这个数据进行保留度的判断,使得能够进入网络的数据都是能够符合需求的;
25.步骤2.2:把隐层的输入与其上一层的输出经过sigmoid获得的保留系数与他们经过tanh得到的数据进行乘积运算得到的就是当前数据的状态信息;
26.步骤2.3:结合上一层次的数据信息状态与当前的输入信号经过sigmoid得到一个权值,再将当前的数据信息状态放入tanh得到一个数值与上一权值进行乘积计算,最终得到一个关于原始音频样本数据的256维中间向量。
27.步骤3、将lstm网络的输出结果输入到cnn网络中,通过cnn网络输出目标识别结果。
28.本发明通过对水下目标噪声特性进行分析,将目标梅尔频率倒谱系数(mfcc)听觉感知特征应用于水声目标识别中,并结合机器学习进行研究,再通过数据的时域信号得到lofar谱图,进而对数据进行特征预处理。本发明通过对卷积神经网络(convolutional neural networks,cnn)以及长短时记忆网络(long short term memory,lstm)两种深度学习算法的研究,提出基于复合神经网络的算法,先用lstm学习声音的时序特征,得到中间向量,然后在中间向量的基础上利用cnn学习样本的空间特征,最后利用cnn网络的最后一层中的softmax函数输出目标识别结果,识别结果为舰船目标或海洋声。
29.具体实施方式二:本实施方式与具体实施方式一不同的是,所述步骤1中,分别对每段信号进行短时傅里叶变换,得到短时傅里叶变换结果;其具体过程为:
[0030][0031]
式中:stft(t,f)为短时傅里叶变换结果,t为时刻,s(τ)为输入的声音信号,h(
·
)代表的是窗函数,*表示的是共轭复数,f为频率,单位是hz,e是自然对数的底数,j为虚数单位,τ为积分变量。
[0032]
对于选取的不同长度的窗函数,时频的分辨率能够随着时间窗的覆盖大小呈反函数的相对趋势。
[0033]
其它步骤及参数与具体实施方式一相同。
[0034]
具体实施方式三:本实施方式与具体实施方式一或二之一不同的是,所述步骤1中,将短时傅里叶变换结果转变为能量谱,其具体过程为:
[0035]
spec(t,f)=|stft(t,f)|2[0036]
其中,spec(t,f)为能量谱。
[0037]
其它步骤及参数与具体实施方式一或二相同。
[0038]
具体实施方式四:本实施方式与具体实施方式一至三之一不同的是,所述cnn网络的结构具体为:
[0039]
从输入层开始,cnn网络依次包括输入层、第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第四卷积层、全连接层和softmax分类层。
[0040]
本发明设计了一个十层的网络结构,卷积神经网络的层数越多,非线性拟合能力越强,能识别的特征的复杂度越高。层内卷积的神经元越多,提取目标细节越丰富。在网络结构中,relu作为激活函数,通过对于数据不同特征的叠加,得到最后的模型。最后一层中的softmax函数可以将分类所产生的结果直观的表示出来,使结果更具有说服性。
[0041]
其它步骤及参数与具体实施方式一至三之一相同。
[0042]
具体实施方式五:本实施方式与具体实施方式一至四之一不同的是,所述cnn网络采用的激活函数为relu。
[0043]
其它步骤及参数与具体实施方式一至四之一相同。
[0044]
实施例
[0045]
下面结合附图对本发明做进一步描述。
[0046]
本发明提出了一种基于复合神经网络的水声目标识别方法,设计基于复合神经网络的基层网络结构,先通过lstm算法对音频样本数据的时序特征进行学习,得到一个通过算法更新后的状态信息,作为一个中间向量,进而将这一层次中的状态信息继续通过cnn网络进行传递,经过cnn算法中的卷积池化等运算再得到音频样本数据的空间特征。
[0047]
本发明具体包括以下步骤:
[0048]
步骤1:对原始的样本数据进行mfcc特征提取,将得到的结果输入到设计好的lstm网络中;
[0049]
步骤1.1:在对声音进行识别的方法中,梅尔频率倒谱系数是一种被普遍使用的特征,梅尔倒谱系数是在mel标度频率域中提取出来的倒谱参数,mel标度与频率的关系公式表达为:
[0050]
[0051]
式中:f为频率,单位是hz;
[0052]
步骤1.2:将输入的数据信号经过一个窗函数进行分割,得到若干相同长度的短信号,再通过傅里叶变换进行数据信号的解析,以得到符合需求的频谱图;
[0053]
对每一小部分的数据信息来说,所展现出来的信号都是稳定的,从而傅里叶计算的表达式为:
[0054][0055]
短时傅里叶的表达式为:
[0056][0057]
式中:h(t)代表的是窗函数,*表示的是共轭复数;
[0058]
将时频函数转变为能量谱:
[0059]
spec(t,f)=|stft(t,f)|2ꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0060]
对于选取的不同长度的窗函数,时频的分辨率能够随着时间窗的覆盖大小呈反函数的相对趋势;
[0061]
步骤1.3:将数据通过mel滤波继续进行传递;
[0062]
步骤1.4:经过离散余弦等相应运算变化得到原始样本数据的mfcc特征。
[0063]
步骤2:将输入的样本数据信息经过lstm网络,在基础特征之上对音频样本数据的时序特征进行学习,得到一个有着时序特征的中间向量;
[0064]
步骤2.1:通过将输入的数据与sigmoid相作用,得出这个数据进行保留度的判断,使得能够进入网络的数据都是能够符合需求的;
[0065]
步骤2.2:把隐层的输入与其上一层的输出经过sigmoid获得的保留系数与他们经过tanh得到的数据进行乘积运算得到的就是当前数据的状态信息;
[0066]
步骤2.3:结合上一层次的数据信息状态与当前的输入信号经过sigmoid得到一个权值,再将当前的数据信息状态放入tanh得到一个数值与上一权值进行乘积计算,最终得到一个关于原始音频样本数据的256维中间向量。
[0067]
步骤3:在中间向量的基础上,将这一中间向量通过cnn网络,经过卷积池化等运算将音频数据与卷积神经网络结合起来,得到音频数据学习样本的空间特征,以此来得到最终的训练模型;
[0068]
步骤3.1:cnn能够依据其自身的结构展现出很好的空间特点,通过对输入数据进行卷积运算能够得到相应的数据特征,再经过池化运算来保留数据的主要特征;
[0069]
步骤3.2:本发明设计了一个十层的网络结构,从输入层开始,包含四层卷积层,三层池化层以及一层全连接层,softmax函数作为最后一层;复合网络结构中cnn的设计如表1所示:
[0070]
表1复合网络结构中cnn的设计
[0071][0072][0073]
步骤3.3:在网络结构中,relu作为激活函数,通过对于数据不同特征的叠加,得到最后的模型。
[0074]
分别对传统机器学习方法(使用mfcc特征和svm分类器)、基于卷积神经网络方法(使用mfcc特征和传统cnn网络)、基于长短时记忆网络方法(使用mfcc特征和rnn网络)以及本发明的基于复合神经网络方法进行实验验证,并将其实验结果进行对比;
[0075]
基于传统机器学习方法的实验:使用mfcc特征和svm分类器作为传统机器学习方法,其中,svm使用一对一的分类方式;
[0076]
梅尔频率倒谱系数是普遍应用的音频信号识别的特征提取技术,通过对原始音频数据进行滤波处理等操作得到相应的特征输出,将音频的波形数据转化成包含时序的张量数据,再结合对时频域的分析处理,在mel标度频率域中提取出来的倒谱参数;
[0077]
svm能够从当前可计数样本信息数据中得到其在模型中的识别准确度以及能够被准确识别的任意信息数据,并得到其中最好的方法,显现出泛化性;svm一对一的分类方法,可以通过统计所有预测正确数据的数量,得出这个模型的准确率;
[0078]
基于卷积神经网络方法的实验:在传统cnn的实验中,其网络结构总共有九层,起始是输入层,接下来有三层卷积层,三层池化层以及一层全连接层,最后是以softmax函数为结尾的一层;在网络结构中,relu作为激活函数,softmax函数是一个能够将由分类所产生的结果直观的表示出来;
[0079]
基于长短时记忆网络方法(lstm)的实验:对输入的原始音频数据进行mfcc特征提取后,在rnn网络的基础上,对网络隐藏层每一层级间神经元加上门结构以得到新的神经元之间的联系,通过将现阶段隐藏层的输入数据与前一阶段的隐藏层的输出数据经过sigmoid函数的运算得到一个可以作为判别去留的参数,该参数与这两项数据经过tanh函数得到的数值进行乘积运算得到当前数据的状态信息,再结合当前的输入信号与上一层次的数据信息状态经过sigmoid函数通过加权得到对应的结果,再将当前的数据信息状态结合tanh函数得到另一个数值,该数值与上一步的加权后结果进行乘积计算,得到输出的数据;
[0080]
基于复合神经网络方法的实验:先对原始音频数据信息进行mfcc特征提取,经过lstm的网络结构,最终会得到一个关于原始音频样本数据的256维中间向量,再将中间向量经过设计好的cnn网络进行空间训练;
[0081]
其中cnn算法的网络结构总共有十层,从输入层开始,接下来有四层卷积层,三层池化层以及一层全连接层,最后是以softmax函数为结尾的一层;在网络结构中,relu作为激活函数,softmax函数是一个能够将分类所产生的结果直观的表示出来;
[0082]
对以上不同算法进行的实验,能够得到每一种方法对于水声目标识别的准确率,通过将模型的准确率以图像的形式表示出来,能够让我们更加清晰直观的对结果进行分析。
[0083]
参照图1,是声音波形图;传统机器学习水声目标识别方法中mfcc特征提取的流程图如参照图2所示。
[0084]
参照图3,是本发明的复合网络识别流程图:先对原始音频数据信息进行mfcc特征提取,然后经过lstm的网络结构,通过lstm算法对音频样本数据的时序特征进行学习,得到一个关于原始音频样本数据的256维中间向量,再将中间向量经过设计好的cnn网络进行空间训练,经过cnn算法中的卷积池化等运算得到音频样本数据的空间特征,最终通过cnn算法中的softmax函数输出分类结果;其中cnn算法的网络结构总共有十层,从输入层开始,接下来有四层卷积层,三层池化层以及一层全连接层,最后是以softmax函数为结尾的一层;在网络结构中,relu作为激活函数,softmax函数是一个能够将由分类所产生的结果直观的表示出来。
[0085]
采用识别准确率(模型训练后的准确率)、初始识别准确率(未经训练的模型的识别准确率)和收敛速度对cnn、lstm算法与复合神经网络算法的实验性能作比较,参照图4是基于深度学习方法的三种网络模型的识别准确率图像,通过将模型的准确率以图像的形式表示出来,能够让我们更加清晰直观的对结果进行分析,图像如图4所示:
[0086]
通过图像我们可以看出,cnn网络模型的识别准确率大约为63%,lstm网络模型的识别准确率大概为67%,复合神经网络模型的识别准确率大概为73%;在准确率上,lstm算法要优于cnn算法,复合神经网络算法比lstm算法的准确率还要高,而且复合神经网络算法的收敛速度比lstm算法的要好,cnn算法的收敛速度比复合神经网络算法稍微好一点;复合神经网络算法模型一开始就能体现出很好的识别效果,是比lstm模型和cnn模型都要好的。
[0087]
本发明的上述算例仅为详细地说明本发明的计算模型和计算流程,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜