一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于声音信号的输送带纵向撕裂检测方法及相关设备与流程

2022-02-22 19:28:01 来源:中国专利 TAG:


1.本技术涉及输送带检测技术领域,尤其涉及一种基于声音信号的输送带纵向撕裂检测方法及相关设备。


背景技术:

2.带式输送机是一种现代化生产中连续运输设备,其中,输送带是带式输送机牵引和运载的关键部件,在使用过程中,由于被废钢铁或煤矸石等异物或障碍物刺伤以及输送带跑偏等原因,经常产生纵向撕裂故障,造成安全事故而停产,严重影响安全生产。
3.随着机器视觉技术的发展,相关技术也采用机器视觉技术进行输送带纵向撕裂检测。受输送机的工作环境和输送机内可操作空间小的影响,能够检测的范围小,检测的准确性、实时性和可靠性也无法得到保障。此外,基于机器视觉的检测系统的系统复杂性高,大大增加了检测成本。


技术实现要素:

4.有鉴于此,本技术的目的在于提出一种解决上述问题的基于声音信号的输送带纵向撕裂检测方法及相关设备。
5.基于上述目的,本技术第一方面提供了一种基于声音的输送带纵向撕裂检测方法,包括:
6.获取带式输送机的声音信号,并对所述声音信号进行预处理;
7.利用lfcc算法和gfcc算法对预处理后的所述声音信号进行特征提取,以得到lfcc特征和gfcc特征;
8.对所述lfcc特征和所述gfcc特征进行差分处理,以得到lfcc差分特征和gfcc差分特征;
9.将所述所述lfcc特征、所述gfcc特征、所述lfcc差分特征和所述gfcc差分特征进行融合,得到声音特征数据;
10.根据预先训练的声音识别模型和所述声音特征数据,得到输送带纵向撕裂检测结果。
11.进一步地,所述对所述声音信号进行预处理,包括:
12.利用下式对所述声音信号进行预加重处理:
13.h(z)=1-uz-1
14.其中,z表示声音信号,u表示高通滤波系数;
15.对预加重后的声音信号进行分帧处理;
16.对分帧处理后声音信号进行加汉宁窗函数处理,所述汉宁窗函数的表达式如下:
[0017][0018]
其中,a表示汉宁窗调节系数,d表示窗口长度;
[0019]
根据下式对加汉宁窗函数处理后的声音信号进行快速傅里叶变换:
[0020][0021]
其中,x(n)表示输入的声音信号,n表示采样点个数,n表示快速傅里叶变换的点数,j为整数,i表示分帧后声音信号的序号。
[0022]
进一步地,所述将所述所述lfcc特征、所述gfcc特征、所述lfcc差分特征和所述gfcc差分特征进行融合,得到声音特征数据,之后还包括:
[0023]
利用pca算法对所述声音特征数据进行降维处理。
[0024]
进一步地,所述声音特征数据由下式表示:
[0025]
lfccgfcc=[(l1,l2...ln),(g1,g2...gm),(δl1,δl2...δli),(δg1,δg2...δgj)]
[0026]
其中,ln表示第n维lfcc特征,gm表示第m维gfcc特征,δli表示第i维lfcc差分特征,δgj表示第j维gfcc差分特征。
[0027]
进一步地,利用下式表示所述lfcc特征中的第m维特征:
[0028][0029]
其中,xn表示第n个滤波器输出的对数能量,n表示三角滤波器个数,m表示特征维度。
[0030]
进一步地,所述gfcc算法中是利用gammatone滤波器组进行滤波的,所述gammatone滤波器的时域脉冲响应为:
[0031][0032]
其中,c表示比例系数,n表示滤波器阶数,b表示时间衰减系数,f0表示滤波器中心频率,φ表示滤波器相位。
[0033]
进一步地,所述声音识别模型是通过下列方式而得到的:
[0034]
获取所述声音特征数据,并将所述声音特征数据按预设比例划分为训练集和测试集,所述声音特征数据包含声音文本标签;
[0035]
将所述训练集输入到卷积神经网络模型中,得到训练结果;
[0036]
根据所述训练结果和所述声音文本标签,构建损失函数,并通过所述损失函数更新所述卷积神经网络模型的权值和偏置,得到声音识别训练模型;
[0037]
利用所述测试集对所述声音识别训练模型进行测试;
[0038]
响应于确定所述测试集对应的输出结果与所述声音文本标签的误差在预设误差范围内,将所述声音识别训练模型作为所述声音识别模型。
[0039]
基于同一发明构思,本技术第二方面提供一种基于声音信号的输送带纵向撕裂检测装置,包括:
[0040]
获取模块:被配置为获取带式输送机的声音信号,并对所述声音信号进行预处理;
[0041]
提取模块:被配置为利用lfcc算法和gfcc算法对预处理后的所述声音信号进行特征提取,以得到lfcc特征和gfcc特征;
[0042]
差分模块:被配置为对所述lfcc特征和所述gfcc特征进行差分处理,以得到lfcc差分特征和gfcc差分特征;
[0043]
融合模块:被配置为将所述所述lfcc特征、所述gfcc特征、所述lfcc差分特征和所述gfcc差分特征进行融合,得到声音特征数据;
[0044]
检测模块:被配置为根据预先训练的声音识别模型和所述声音特征数据,得到输送带纵向撕裂检测结果。
[0045]
基于同一发明构思,本技术第三方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法。
[0046]
基于同一发明构思,本技术第四方面提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行第一方面所述的方法。
[0047]
从上面所述可以看出,本技术提供的基于声音信号的输送带纵向撕裂检测方法及相关设备,将lfcc算法和gfcc算法均与差分处理相结合,以得到预处理后的声音信号的融合特征数据,通过训练好的声音识别模型对融合特征数据进行识别,以判断带式输送机的输送带是否发生纵向撕裂,不用设置过多的检测装置便能够检测较大范围的输送带使用情况,降低了检测成本,同时减小了带式输送机使用环境对检测结果的影响,提高了输送带纵向撕裂检测的准确性,具有较高的可靠性。
附图说明
[0048]
为了更清楚地说明本技术或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0049]
图1为本技术实施例的基于声音信号的输送带纵向撕裂检测方法流程图;
[0050]
图2为本技术实施例的声音识别模型训练过程的流程图;
[0051]
图3为本技术实施例的基于声音信号的输送带纵向撕裂检测方法的检测准确率曲线图;
[0052]
图4为本技术实施例的基于声音信号的输送带纵向撕裂检测装置结构示意图;
[0053]
图5为本技术实施例的电子设备结构示意图。
具体实施方式
[0054]
为使本技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本技术进一步详细说明。
[0055]
需要说明的是,除非另外定义,本技术实施例使用的技术术语或者科学术语应当为本技术所属领域内具有一般技能的人士所理解的通常意义。本技术实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。
[0056]
如背景技术部分所述,相关技术中带式输送机的输送带纵向撕裂检测方案还难以满足需要。相关技术中利用机器视觉技术进行输送带纵向撕裂检测,申请人在实现本技术的过程中发现利用机器视觉技术进行输送带纵向撕裂检测存在以下问题:采用机器视觉技术检测输送带纵向撕裂时,由于输送带纵向撕裂经常发生在上输送带,且上输送带的上边面有输送的物料,因此只能采集输送带下表面图像;由于输送带的上下输送带之间的间距较小,因此相机在采集图像时的物距也相应的变小,但输送带的带宽较大,要求相机采集的视野也相应的增大,为了采集全带宽的输送带图像,需要设置多个相机,导致检测系统复杂度高,也大大增加了检测成本;此外带式输送机的工作环境具有不确定性,可能存在大量粉尘,相机和辅助相机采集图像的光源附着大量粉尘后,会使图像质量变差,输送带表面沾有液体时,也会导致采集的图像质量模糊,最终导致检测的准确性较低;利用机器视觉技术在线检测输送带表面图像时,图像的数据量大,且处理速度和图像分辨率难以统一标准,易造成网路传输拥塞,检测的实时性差;由于相机位置固定,因而只能检测监测位置的纵向撕裂情况,其他位置不能进行检测,检测的范围小,如要对其他位置进行检测,还要设置相机采集对应位置的图像信息,再进行输送带纵向撕裂检测。
[0057]
有鉴于此,本技术实施例提供了一种基于声音信号的输送带纵向撕裂检测方法,输送带在发生纵向撕裂时会产生撕裂的声音,对带式输送机使用时的声音进行采集,并利用相应的声音识别模型对纵向撕裂的声音进行识别,以得到输送带纵向撕裂的检测结果。
[0058]
以下,通过具体的实施例来详细说明本技术的技术方案。
[0059]
参考图1,本技术一个实施例提供的一种基于声音信号的输送带纵向撕裂检测方法,具体包括以下步骤:
[0060]
步骤s101,获取带式输送机的声音信号,并对所述声音信号进行预处理。
[0061]
本步骤中,在带式输送机的工作现场中进行声音采集,采集的声音包括下列至少一种:带式输送机空载运行声音、负载运行声音、电机运行声音、输送带撕裂声音和现场工作人员的说话声音。需要说明的是,由于带式输送机在不同运行速度情况下工作的声音存在差异,因此可根据实际情况在多个输送带转速下采集声音信号。
[0062]
步骤s102,利用lfcc(线性频率倒谱系数)算法和gfcc(gammatone滤波器倒谱系数)算法对预处理后的所述声音信号进行特征提取,以得到lfcc特征和gfcc特征。
[0063]
本步骤中,由于带式输送机工作环境的不确定性,可能存在较大的噪音,对声音信号的识别产生严重影响,因此利用gfcc算法对声音信号进行有效提取,gfcc算法具有较高的鲁棒性,能够在噪声环境中对输送带纵向撕裂的声音进行有效识别。lfcc算法是通过线性的三角滤波器组进行特征识别的,对各个频率都有较好的识别率,因此结合lfcc算法和gfcc算法能够对声音信号的特征信息进行有效提取。
[0064]
步骤s103,对所述lfcc特征和所述gfcc特征进行差分处理,以得到lfcc差分特征和gfcc差分特征。
[0065]
本步骤中,由于lfcc算法和gfcc算法提取的特征均为声音信号的静态特征,不符合语音的动态特性,因此可对提取后的lfcc特征和gfcc特征进行一阶差分处理,以获取声音信号的动态特征。
[0066]
步骤s104,将所述所述lfcc特征、所述gfcc特征、所述lfcc差分特征和所述gfcc差分特征进行融合,得到声音特征数据。
[0067]
本步骤中,通过将差分前/后的声音特征进行融合,能够得到抗干扰性更高的特征参数,以便于后续进行特征识别。需要说明的是,可采用矩阵融合方法将lfcc特征、gfcc特征、lfcc差分特征和gfcc差分特征的特征矩阵进行连接,得到声音特征矩阵。
[0068]
步骤s105,根据预先训练的声音识别模型和所述声音特征数据,得到输送带纵向撕裂检测结果。
[0069]
本步骤中,将待测声音信号的声音特征数据输入到训练好的声音识别模型中,若识别结果为存在输送带纵向撕裂声音的概率超过预设阈值(例如:95%),则得到检测结果为输送带产生纵向撕裂,需要停止运行,以免造成生命财产损失。
[0070]
可见,本实施例提供的一种基于声音信号的输送带纵向撕裂检测方法,将lfcc算法和gfcc算法均与差分处理相结合,以得到预处理后的声音信号的融合特征数据,通过训练好的声音识别模型对融合特征数据进行识别,以判断带式输送机的输送带是否发生纵向撕裂,不用设置过多的检测装置便能够检测较大范围的输送带使用情况,降低了检测成本,同时减小了带式输送机使用环境对检测结果的影响,提高了输送带纵向撕裂检测的准确性,具有较高的可靠性。
[0071]
在一些实施例中,所述对所述声音信号进行预处理,包括:
[0072]
利用下式对所述声音信号进行预加重处理:
[0073]
h(z)=1-uz-1
[0074]
其中,z表示声音信号,u表示高通滤波系数。
[0075]
将采集的到的声音信号通过一个高通滤波器,能够提高声音信号在高频部分的信号强度,突出高频信号的共振峰。
[0076]
对预加重后的声音信号进行分帧处理,可将每1200个采样信号作为一帧,采样频率为48k,则每帧数据的时长为1/48000*1200=25ms,为使前后两帧声音信号幅值的差距在较小的范围,每一帧信号的时长可以为20ms~30ms。
[0077]
对分帧处理后声音信号进行加汉宁窗函数处理,所述汉宁窗函数的表达式如下:
[0078][0079]
其中,a表示汉宁窗调节系数,d表示窗口长度。
[0080]
对分帧处理后的声音信号进行加窗处理后,能够增加每一帧数据之间的连续性,增加汉宁窗后每一帧信号由下式表示:
[0081]
s'(n)=s(n)
×
w(n)
[0082]
其中,s'(n)表示增加汉宁窗后的声音信号,表示未增加汉宁窗的声音信号,且n=0,1,....n-1,n表示帧的大小。
[0083]
根据下式对加汉宁窗函数处理后的声音信号进行快速傅里叶变换:
[0084][0085]
其中,x(n)表示输入的声音信号,n表示采样点个数,n表示快速傅里叶变换的点数,j为整数,i表示分帧后声音信号的序号。
[0086]
将每一帧声音信号经过快速傅里叶变换后得到的频域信号在时间上进行叠加能够得到声音信号的声谱图。
[0087]
在一些实施例中,对于前述实施例中的步骤s104,其之后还可以包括:
[0088]
利用pca(主成分分析法)算法对所述声音特征数据进行降维处理。
[0089]
具体的,对所述声音特征数据进行降维处理,包括:
[0090]
对声音特征数据进行中心化操作;计算中心化后的声音特征数据的协方差矩阵;对所述协方差矩阵进行特征值分解;选取特征值占比为98%的前p个特征值所对应的特征向量组成投影矩阵;基于投影矩阵和声音特征数据,得到降维后的声音特征数据,其中,将声音特征数据矩阵与投影矩阵相乘,得到声音特征数据的降维矩阵。
[0091]
本实施例中,由于进行特征融合后的声音特征数据的维度较高,可通过pca算法对声音特征数据进行降维处理,使得到的数据集更容易使用,并能够去除噪声,以降低声音识别模型的计算复杂度。
[0092]
在一些实施例中,所述声音特征数据由下式表示:
[0093]
lfccgfcc=[(l1,l2...ln),(g1,g2...gm),(δl1,δl2...δli),(δg1,δg2...δgj)]
[0094]
其中,ln表示第n维lfcc特征,gm表示第m维gfcc特征,δli表示第i维lfcc差分特征,δgj表示第j维gfcc差分特征。
[0095]
在一些实施例中,lfcc特征的提取过程如下:
[0096]
基于所述快速傅里叶变换得到所述声音信号的线性频谱,得到所述声音信号的能量谱。
[0097]
利用三角滤波器组对所述能量谱进行滤波,得到所述声音信号的对数能量谱。
[0098]
对所述声音信号的对数能量谱进行离散余弦变换,以得到所述lfcc特征。
[0099]
具体的,利用下式表示所述lfcc特征中的第m维特征:
[0100][0101]
其中,xn表示第n个滤波器输出的对数能量,n表示三角滤波器个数,m表示特征维度。
[0102]
在一些实施例中,gfcc特征的提取过程如下:
[0103]
基于所述快速傅里叶变换得到所述声音信号的线性频谱,得到所述声音信号的能量谱。
[0104]
利用gammatone滤波器组对所述能量谱进行滤波,得到所述声音信号的对数能量谱。
[0105]
其中,所述gammatone滤波器的时域脉冲响应为:
[0106][0107]
其中,c表示比例系数,n表示滤波器阶数,b表示时间衰减系数,f0表示滤波器中心频率,φ表示滤波器相位。
[0108]
对所述声音信号的对数能量谱进行离散余弦变换,以得到所述gfcc特征。
[0109]
在一些实施例中,结合图2,所述声音识别模型是通过以下步骤而得到的:
[0110]
步骤s201,获取所述声音特征数据,并将所述声音特征数据按预设比例划分为训
练集和测试集,所述声音特征数据包含声音文本标签。
[0111]
本步骤中,训练集和测试集的比例分别为80%和20%,声音文本标签用于标注声音所属的类型,需要说明的是,训练集和测试集的比例以及声音文本标签可根据实际情况对训练集和测试集的比例进行设置,在此不做具体限定。
[0112]
步骤s202,将所述训练集输入到卷积神经网络(convolutional neural networks,cnn)模型中,得到训练结果。
[0113]
本步骤中,卷积神经网络模型包括:卷积层、池化层、dropout层、激励层和全连接层,网络层数可根据实际情况进行设置,在此不做具体限定。训练结果为输入的声音信号存在输送带撕裂声音信号的概率,若存在,则概率应接近于100%,不存在,则概率应该接近于0。
[0114]
步骤s203,根据所述训练结果和所述声音文本标签,构建损失函数,并通过所述损失函数更新所述卷积神经网络模型的权值和偏置,得到声音识别训练模型。
[0115]
本步骤中,通过不断优化卷积神经网络模型的参数,使采集的声音信号中含有输送带撕裂声音信号时输出的识别概率更接近于100%,不存在时更接近于0,以提高声音信号的识别准确率。
[0116]
步骤s204,利用所述测试集对所述声音识别训练模型进行测试。
[0117]
本步骤中,为了防止出现过拟合问题,利用测试集能够验证声音识别训练模型的泛化性以及模型的准确率。
[0118]
步骤s205,响应于确定所述测试集对应的输出结果与所述声音文本标签的误差在预设误差范围内,将所述声音识别训练模型作为所述声音识别模型。
[0119]
本步骤中,误差范围可根据实际情况进行设置,例如:8%,7%,6%,5%,4%,则对应输出结果的概率应在92%,93%,94%,95%,96%以上时能够满足模型的误差标准,并作为声音识别模型对实际工作时带式输送机的声音信号进行检测。
[0120]
下面,结合以上实施例,给出本方案的一个应用场景。将一拾音器安装在带式输送机的工作现场,可将拾音器设置在落料点附近,拾音器用于采集带式输送机工作现场的声音,拾音器将采集的声音信号发送至声音处理器中,声音处理器将采集声音信号进行预处理,并获取预处理后的声音信号的声音特征数据,利用训练好的声音识别模型对声音特征数据进行识别,当识别结果为拾音器采集的声音信号中含有输送带纵向撕裂的声音信号,输出急停控制信号控制带式输送机停止运行,并通过报警器报警。此外,也可将带式输送机工作现场的声音信号通过以太网传输到后台进一步分析。
[0121]
以下,通过具体的对比实验来说明本方案的有效性。选取在1.62m/s、1.94m/s、2.23m/s、2.57m/s、2.81m/s、3.12m/s、3.44m/s、3.68m/s、3.91m/s、4.32m/s、4.66m/s、4.93m/s带速下分别进行带式输送机工作现场的声音采集。采集包括带式输送机空载运行声音、负载运行声音、电机运行声音、输送带撕裂声音和现场人员说话声音共5种声音作为声音数据集。每种类型声音采集300段,共1500段声音数据集,考虑到工作现场环境的不确定性,且输送带一直处于负载运行状态,因此将采集到的负载声音信号与其他有效声音相结合,生成更符合带式输送机工作现场的声音信号,再将合成的声音数据集划分为训练集与测试集,其中训练集为1200段,测试集300段。合成的声音信号样本经过lfcc算法、gfcc算法和差分处理后进行融合得到声音特征数据。
[0122]
首先,基于jupyter平台使用sklearn库分别建立支持向量机(svm)分类器,对本方案的特征提取方法与现有的特征提取方法及其组合进行对比验证,对比结果如表1所示,从表1中可以看出,在使用基于svm的分类器下,基于本技术的特征提取方法的检测准确率要高于其他方法。
[0123]
表1
[0124]
特征提取方法检测准确率mfcc88.85%lfcc90.54%imfcc85.14%gfcc82.09%mfcc lfcc90.88%mfcc imfcc91.22%mfcc gfcc91.55%lfcc imfcc90.88%lfcc gfcc92.26%imfcc gfcc92.58%mfcc δmfcc90.88%lfcc δlfcc90.85%imgcc δimfcc83.11%gfcc δgfcc90.88%本技术的方法93.92%
[0125]
从表1中选取识别率较高的mfcc imfcc、mfcc gfcc、lfcc gfcc、imfcc gfcc以及本技术的特征提取方法,分别在随机森林分类器、svm分类器以及cnn模型下进行对比验证,对比验证的结果如表2所示。从表2中可以看出使用基于cnn模型和本技术的特征提取算法的检测准确率为94.59%,高于其他方法,本技术方法的检测准确率图3所示,训练准确率为99.07%,测试准确率为94.59%,一共迭代200次,每次迭代所使用的样本量为256。
[0126]
表2
[0127] mfcc imfccmfcc gfcclfcc gfccimfcc gfcc本技术的方法rf81.73%79.95%80.54%80.96%80.88%svm91.22%92.55%92.26%92.58%93.92%cnn92.32%91.88%93.58%92.02%94.59%
[0128]
根据本技术的方法,验证pca的特征值占比对准确率以及运行时间的影响,结果如表3所示。从表3中可以看出本技术的方法在特征值占比为98%时的检测准确率只降低了0.02%,但平均处理时间却减少34.7ms,当特征值占比为96%时,检测准确率降低接近于1%,因此本技术的方法在利用pca算法对声音特征数据进行降维时所选取98%的特征值占比,能够在不降低准确率的情况下,将平均检测时间缩短61.6%。
[0129]
表3
[0130][0131]
综上所述,采用本技术的方法能够实现带式输送机输送带的纵向撕裂的声音进行检测,检测的平均准确率在94.59%以上,平均处理时间21.6ms,具有较高的准确率和实时性。
[0132]
需要说明的是,本技术实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本技术实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
[0133]
需要说明的是,上述对本技术的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0134]
基于同一发明构思,与上述任意实施例方法相对应的,本技术还提供了一种基于声音信号的输送带纵向撕裂检测装置。
[0135]
参考图4,所述基于声音信号的输送带纵向撕裂检测装置,包括:
[0136]
获取模块401:被配置为获取带式输送机的声音信号,并对所述声音信号进行预处理。
[0137]
提取模块402:被配置为利用lfcc算法和gfcc算法对预处理后的所述声音信号进行特征提取,以得到lfcc特征和gfcc特征。
[0138]
差分模块404:被配置为对所述lfcc特征和所述gfcc特征进行差分处理,以得到lfcc差分特征和gfcc差分特征。
[0139]
融合模块405:被配置为将所述所述lfcc特征、所述gfcc特征、所述lfcc差分特征和所述gfcc差分特征进行融合,得到声音特征数据。
[0140]
检测模块406:被配置为根据预先训练的声音识别模型和所述声音特征数据,得到输送带纵向撕裂检测结果。
[0141]
作为一个可选的实施例,所述获取模块401,具体被配置为利用下式对所述声音信号进行预加重处理:
[0142]
h(z)=1-uz-1
[0143]
其中,z表示声音信号,u表示高通滤波系数;
[0144]
对预加重后的声音信号进行分帧处理;
[0145]
对分帧处理后声音信号进行加汉宁窗函数处理,所述汉宁窗函数的表达式如下:
[0146][0147]
其中,a表示汉宁窗调节系数,d表示窗口长度;
[0148]
根据下式对加汉宁窗函数处理后的声音信号进行快速傅里叶变换:
[0149][0150]
其中,x(n)表示输入的声音信号,n表示采样点个数,n表示快速傅里叶变换的点数,j为整数,i表示分帧后声音信号的序号。
[0151]
作为一个可选的实施例,所述装置还包括降维模块(图中未示出),所述降维模块被配置为利用pca算法对所述声音特征数据进行降维处理。
[0152]
作为一个可选的实施例,所述声音特征数据由下式表示:
[0153]
lfccgfcc=[(l1,l2...ln),(g1,g2...gm),(δl1,δl2...δli),(δg1,δg2...δgj)]
[0154]
其中,ln表示第n维lfcc特征,gm表示第m维gfcc特征,δli表示第i维lfcc差分特征,δgj表示第j维gfcc差分特征。
[0155]
作为一个可选的实施例,利用下式表示所述lfcc特征中的第m维特征:
[0156][0157]
其中,xn表示第n个滤波器输出的对数能量,n表示三角滤波器个数,m表示特征维度。
[0158]
作为一个可选的实施例,所述gfcc算法中是利用gammatone滤波器组进行滤波的,所述gammatone滤波器的时域脉冲响应为:
[0159][0160]
其中,c表示比例系数,n表示滤波器阶数,b表示时间衰减系数,f0表示滤波器中心频率,φ表示滤波器相位。
[0161]
作为一个可选的实施例,所述声音识别模型是通过下列方式而得到的:
[0162]
获取所述声音特征数据,并将所述声音特征数据按预设比例划分为训练集和测试集,所述声音特征数据包含声音文本标签;
[0163]
将所述训练集输入到卷积神经网络模型中,得到训练结果;
[0164]
根据所述训练结果和所述声音文本标签,构建损失函数,并通过所述损失函数更新所述卷积神经网络模型的权值和偏置,得到声音识别训练模型;
[0165]
利用所述测试集对所述声音识别训练模型进行测试;
[0166]
响应于确定所述测试集对应的输出结果与所述声音文本标签的误差在预设误差范围内,将所述声音识别训练模型作为所述声音识别模型。
[0167]
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本技术时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
[0168]
上述实施例的装置用于实现前述任一实施例中相应的基于声音信号的输送带纵向撕裂检测方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
[0169]
基于同一发明构思,与上述任意实施例方法相对应的,本技术还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的基于声音信号的输送带纵向撕裂检测方法。
[0170]
图5示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
[0171]
处理器1010可以采用通用的cpu(central processing unit,中央处理器)、微处理器、应用专用集成电路(application specific integrated circuit,asic)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
[0172]
存储器1020可以采用rom(read only memory,只读存储器)、ram(random access memory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
[0173]
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
[0174]
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如usb、网线等)实现通信,也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信。
[0175]
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
[0176]
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
[0177]
上述实施例的电子设备用于实现前述任一实施例中相应的基于声音信号的输送带纵向撕裂检测方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
[0178]
基于同一发明构思,与上述任意实施例方法相对应的,本技术还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的基于声音信号的输送带纵向撕裂检测方法。
[0179]
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器
(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
[0180]
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的基于声音信号的输送带纵向撕裂检测方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
[0181]
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本技术的范围(包括权利要求)被限于这些例子;在本技术的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本技术实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
[0182]
另外,为简化说明和讨论,并且为了不会使本技术实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(ic)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本技术实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本技术实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本技术的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本技术实施例。因此,这些描述应被认为是说明性的而不是限制性的。
[0183]
尽管已经结合了本技术的具体实施例对本技术进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态ram(dram))可以使用所讨论的实施例。
[0184]
本技术实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本技术实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本技术的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献