一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

音频的检测方法、装置、电子设备及存储介质与流程

2022-03-23 02:48:19 来源:中国专利 TAG:


1.本技术涉及数据检测技术领域,尤其涉及一种音频的检测方法、装置、电子设备及存储介质。


背景技术:

2.音频监控技术是监控应用中最重要的组成部分之一,实现智能化音频监控的关键是从环境背景声音中自动地检测出异常声音。对异常声音识别需要从多个叠加在设备运行环境背景声音中区分出异常声音,有效对目标场景进行实时检测。目前音频检测已应用到安全监控、工业生产、医疗等领域,通过音频监控能够达到实时报警的目的,使人类现代化生活更加便捷。
3.在现有的音频检测的方法中,由于在数据预处理、提取音频信号特征上存在缺陷,没有消除采集过程中声音样本之间的数值量级的差异,样本数据转化后的音频特征不突出,致使在多个环境背景声音下无法区分出正常声音和异常声音,音频检测结果的准确率较低。


技术实现要素:

4.有鉴于此,本技术提供一种音频的检测方法、装置、电子设备及存储介质,以解决现有技术中在多个环境背景声音下无法区分出正常声音和异常声音,音频检测结果的准确率较低的问题。
5.为实现上述目的,本技术提供如下技术方案:
6.本技术第一方面公开了一种音频的检测方法,包括:
7.获取待检测设备的音频信号;
8.对所述音频信号进行特征提取,得到所述音频信号的特征向量矩阵;
9.对所述特征向量矩阵进行降噪优化,得到优化后的特征向量矩阵;
10.调用预先训练的音频检测模型对所述优化后的特征向量矩阵进行处理,得到所述音频信号的音频类别;其中,所述音频类别包括正常音频和异常音频;所述音频检测模型为利用样本数据进行训练后得到的模型。
11.可选的,上述的方法,所述获取待检测设备的音频信号之后,还包括:
12.对所述音频信号进行数据预处理。
13.可选的,上述的方法,所述对所述音频信号进行特征提取,得到所述音频信号的特征向量矩阵,包括:
14.对所述音频信号进行分帧处理,得到所述音频信号的信号帧;
15.针对每一个信号帧,将所述信号帧进行离散傅里叶变换,得到所述信号帧的频谱;
16.针对每一个信号帧,基于所述信号帧的频谱,计算得到所述信号帧的特征向量;
17.基于每一个信号帧的特征向量,生成所述音频信号的特征向量矩阵。
18.可选的,上述的方法,所述对所述特征向量矩阵进行降噪优化,得到优化后的特征
向量矩阵,包括:
19.对所述特征向量矩阵进行拉直处理,得到拉直后的特征向量矩阵;
20.将所述拉直后的特征向量矩阵进行降维处理,得到优化后特征向量矩阵。
21.本技术第二方面公开了一种音频的检测装置,包括:
22.获取单元,用于获取待检测设备的音频信号;
23.特征提取单元,用于对所述音频信号进行特征提取,得到所述音频信号的特征向量矩阵;
24.优化单元,用于对所述特征向量矩阵进行降噪优化,得到优化后的特征向量矩阵;
25.调用单元,用于调用预先训练的音频检测模型对所述优化后的特征向量矩阵进行处理,得到所述音频信号的音频类别;其中,所述音频类别包括正常音频和异常音频;所述音频检测模型为利用样本数据进行训练后得到的模型。
26.可选的,上述的装置,还包括:
27.处理单元,用于对所述音频信号进行数据预处理。
28.可选的,上述的装置,所述特征提取单元,包括:
29.第一处理子单元,用于对所述音频信号进行分帧处理,得到所述音频信号的信号帧;
30.变换子单元,用于针对每一个信号帧,将所述信号帧进行离散傅里叶变换,得到所述信号帧的频谱;
31.计算子单元,用于针对每一个信号帧,基于所述信号帧的频谱,计算得到所述信号帧的特征向量;
32.生成子单元,用于基于每一个信号帧的特征向量,生成所述音频信号的特征向量矩阵。
33.可选的,上述的装置,所述优化单元,包括:
34.第二处理子单元,用于对所述特征向量矩阵进行拉直处理,得到拉直后的特征向量矩阵;
35.第三处理子单元,用于将所述拉直后的特征向量矩阵进行降维处理,得到优化后特征向量矩阵。
36.本技术第三方面公开了一种电子设备,包括:
37.一个或多个处理器;
38.存储装置,其上存储有一个或多个程序;
39.当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如本技术第一方面中任意一项所述的方法。
40.本技术第四方面公开了一种计算机存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如本技术第一方面中任意一项所述的方法。
41.从上述技术方案可以看出,本技术提供的一种音频的检测方法中,首先获取待检测设备的音频信号。对音频信号进行特征提取,得到音频信号的特征向量矩阵。然后对特征向量矩阵进行降噪优化,得到优化后的特征向量矩阵。最后调用预先训练的音频检测模型对优化后的特征向量矩阵进行处理,得到音频信号的音频类别;其中,音频类别包括正常音频和异常音频;音频检测模型为利用样本数据进行训练后得到的模型。由此可知,利用本申
请的方法,对获取到的音频信号进行特征提取,得到音频信号的特征向量矩阵,并对特征向量矩阵进行优化处理,能够更准确的表示音频信号的特征,再调用预先训练的音频检测模型对优化后的特征向量矩阵进行处理,得到音频信号的类别。解决了现有技术中在多个环境背景声音下无法区分出正常声音和异常声音,音频检测结果的准确率较低的问题。
附图说明
42.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
43.图1为本技术实施例公开的一种音频的检测方法的流程图;
44.图2为本技术另一实施例公开的步骤s102的一种实施方式的流程图;
45.图3为本技术另一实施例公开的一种音频的检测装置的示意图;
46.图4为本技术另一实施例公开的一种电子设备的示意图。
具体实施方式
47.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
48.在本技术中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
49.并且,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
50.由背景技术可知,在现有的音频检测的方法中,由于在数据预处理、提取音频信号特征上存在缺陷,没有消除采集过程中声音样本之间的数值量级的差异,样本数据转化后的音频特征不突出,致使在多个环境背景声音下无法区分出正常声音和异常声音,音频检测结果的准确率较低。
51.鉴于此,本技术提供了一种音频的检测方法、装置、电子设备及存储介质,以解决现有技术中在多个环境背景声音下无法区分出正常声音和异常声音,音频检测结果的准确率较低的问题。
52.本技术实施例提供了一种音频的检测方法,具体如图1所示,具体包括:
53.s101、获取待检测设备的音频信号。
54.需要说明的是,在进行音频检测时,首先通过音频检测设备获取待检测设备的音频信号。
55.可选的,在本技术的另一实施例中,在执行步骤s101之后,还可以包括:
56.对音频信号进行数据预处理。
57.需要说明的是,为了对获取到的数据进行优化,可以对获取到的音频信号进行数据预处理。例如,读取获取到的音频信号,根据读取信号的帧数和频率,对音频信号按每5s进行切片,滑动时间设置为1s。
58.s102、对音频信号进行特征提取,得到音频信号的特征向量矩阵。
59.需要说明的是,在获取到待检测设备的音频信号之后,则结合mfcc(mel frequency cepstral coefficient,梅尔倒谱系数特征)算法,对音频信号进行特征提取,得到音频信号的特征向量矩阵。
60.可选的,在本技术的另一实施例中,步骤s102的一种实施方式,如图2所示,具体包括:
61.s201、对音频信号进行分帧处理,得到音频信号的信号帧。
62.需要说明的是,在获取到音频信号之后,首先对音频信号进行预加重,提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,消除发生过程中声带和嘴唇对声音的影响,补偿语音信号中收到发音系统所抑制的高频部分,突出高频的共振峰。提取音频信号的高频部分的公式如下:
63.s1(n)=s(n)-αs(n-1)
64.其中:一般α取值为:0.95,s(n)为读取信号的signal数组。
65.然后将n个采样点集合成一个观测单位,称为帧。通常情况下n的值为256或512,涵盖的时间约为20-30ms左右。为避免相邻两帧的变化过大,因此会让两相邻帧之间有一段重叠区域,重叠区域包含m个采样点,通常m的值约为n的1/2或1/3,得到音频信号的信号帧。最后利用汉明函数缓解频率混叠,假设一帧内信号是s(n),n=0,1,

,n-1,则乘上汉明窗后为:
66.s’(n)=s(n)*w(n)
67.其中,汉明窗为:
[0068][0069]
不同的a产生不同的汉明窗,通常a选取0.46。
[0070]
s202、针对每一个信号帧,将信号帧进行离散傅里叶变换,得到信号帧的频谱。
[0071]
需要说明的是,针对每一个信号帧,将信号帧进行离散傅里叶变换,得到信号帧的频谱,对信号帧的频谱取模平方得到信号帧的功率谱,则信号帧的dft为:
[0072][0073]
其中:x(n)为输入的语音信号,n表示傅里叶变换的点数。
[0074]
s203、针对每一个信号帧,基于信号帧的频谱,计算得到信号帧的特征向量。
[0075]
需要说明的是,针对每一个信号帧,基于信号帧的频谱,将频谱通过一组mel尺度的三角形滤波器组,定义一个有m个滤波器的滤波器组(滤波器的个数和临界带的个数相近),采用的滤波器为三角滤波器,中心频率为f(m),m=1,2,...,m。m通常取22-26。各f(m)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽。三角滤波器的频率相应定义为:
[0076][0077]
其中,
[0078]
计算每个滤波器组输出的对数能量为:
[0079][0080]
经离散余弦变换(dct)得到mfcc系数:
[0081][0082]
经过上述计算,得到每一个信号帧的特征向量。
[0083]
s204、基于每一个信号帧的特征向量,生成音频信号的特征向量矩阵。
[0084]
需要说明的是,基于每一个信号帧的特征向量,生成音频信号的特征向量矩阵,在本实施例中,基于mfcc算法提取音频特征向量矩阵后,可以得到一个mn*13的特征向量矩阵,其中m为片数,n为一片数据对应特征向量的长度。
[0085]
s103、对特征向量矩阵进行降噪优化,得到优化后的特征向量矩阵。
[0086]
需要说明的是,在获取到音频信号的特征向量矩阵之后,则对特征向量矩阵进行降噪优化,将音频特征向量矩阵中的谐波信号(噪声、干扰信号等)去掉,得到优化后的特征向量矩阵。
[0087]
可选的,在本技术的另一实施例中,步骤s103的一种实施方式,可以包括:
[0088]
对特征向量矩阵进行拉直处理,得到拉直后的特征向量矩阵。
[0089]
将拉直后的特征向量矩阵进行降维处理,得到优化后特征向量矩阵。
[0090]
需要说明的是,将上述mn*13的特征向量矩阵进行拉直处理,获得m*13n的特征向量矩阵,然后对拉直后的特征向量矩阵进行降维处理,将音频特征向量矩阵中的谐波信号去掉,得到优化后特征向量矩阵。
[0091]
s104、调用预先训练的音频检测模型对优化后的特征向量矩阵进行处理,得到音频信号的音频类别;其中,音频类别包括正常音频和异常音频;音频检测模型为利用样本数据进行训练后得到的模型。
[0092]
需要说明的是,调用预先训练的音频检测模型对优化后的特征向量矩阵进行处理,得到音频信号的音频类别;其中,音频类别包括正常音频和异常音频,由此识别音频信号是否为异常音频。音频检测模型为利用样本数据进行训练后得到的模型。本实施例中,音频检测模型采用基于粒子群优化的自组织特征映射神经网络(pso-som),该网络将每个数据特征都被看成空间中的一个粒子,所有的粒子都有一个由被优化函数。每个粒子都会不断更新速度和位置,计算出粒子的适应度,追踪记录每个粒子的个体极值和整个粒子群的
全局极值,最终得到的粒子适应度大于全局极值,则设置成为网络的最佳权值。
[0093]
其中,该音频检测模型的训练过程如下:
[0094]
(1)初始化设置som网络的结构、目标函数等。
[0095]
(2)初始化设置粒子群的规模、惯性权值、学习因子、最大允许迭代次数或适应度误差范围、各粒子的初始位置和初始速度等。
[0096]
(3)对每个粒子,寻找获胜神经元,并计算相应权值的适应度。
[0097]
(4)对粒子群中的所有粒子,执行如下操作:
[0098]
a.根据上述,更新粒子的位置和速度。
[0099]
b.若粒子适应度优于个体极值p
best
,则p
best
设置为新位置。
[0100]
c.如果粒子适应度优于全局极值g
best
,则p
best
设置为新位置。
[0101]
(5)对每一步的最优粒子和最差粒子进行处理。
[0102]
(6)若满足最大允许迭代次数或适应度误差范围,则搜索停止,输出全局最优位置,即为所求som网络的最佳权值。g
best
否则返回步骤(3)继续搜索。
[0103]
本技术实施例提供的一种音频的检测方法中,首先获取待检测设备的音频信号。对音频信号进行特征提取,得到音频信号的特征向量矩阵。然后对特征向量矩阵进行降噪优化,得到优化后的特征向量矩阵。最后调用预先训练的音频检测模型对优化后的特征向量矩阵进行处理,得到音频信号的音频类别;其中,音频类别包括正常音频和异常音频;音频检测模型为利用样本数据进行训练后得到的模型。由此可知,利用本技术的方法,对获取到的音频信号进行特征提取,得到音频信号的特征向量矩阵,并对特征向量矩阵进行优化处理,能够更准确的表示音频信号的特征,再调用预先训练的音频检测模型对优化后的特征向量矩阵进行处理,得到音频信号的类别。解决了现有技术中在多个环境背景声音下无法区分出正常声音和异常声音,音频检测结果的准确率较低的问题。
[0104]
本技术另一实施例还提供了一种音频的检测装置,如图3所示,具体包括:
[0105]
获取单元301,用于获取待检测设备的音频信号。
[0106]
特征提取单元302,用于对音频信号进行特征提取,得到音频信号的特征向量矩阵。
[0107]
优化单元303,用于对特征向量矩阵进行降噪优化,得到优化后的特征向量矩阵。
[0108]
调用单元304,用于调用预先训练的音频检测模型对优化后的特征向量矩阵进行处理,得到音频信号的音频类别;其中,音频类别包括正常音频和异常音频;音频检测模型为利用样本数据进行训练后得到的模型。
[0109]
本实施例中,获取单元401、特征提取单元302、优化单元303、调用单元304的具体执行过程,可参见对应图1的方法实施例内容,此处不再赘述。
[0110]
本技术实施例提供的一种音频的检测装置中,首先获取单元401获取待检测设备的音频信号。特征提取单元302对音频信号进行特征提取,得到音频信号的特征向量矩阵。然后优化单元303对特征向量矩阵进行降噪优化,得到优化后的特征向量矩阵。最后调用单元304调用预先训练的音频检测模型对优化后的特征向量矩阵进行处理,得到音频信号的音频类别;其中,音频类别包括正常音频和异常音频;音频检测模型为利用样本数据进行训练后得到的模型。由此可知,利用本技术的方法,对获取到的音频信号进行特征提取,得到音频信号的特征向量矩阵,并对特征向量矩阵进行优化处理,能够更准确的表示音频信号
的特征,再调用预先训练的音频检测模型对优化后的特征向量矩阵进行处理,得到音频信号的类别。解决了现有技术中在多个环境背景声音下无法区分出正常声音和异常声音,音频检测结果的准确率较低的问题。
[0111]
可选的,在在本技术的另一实施例中,上述音频的检测装置,还可以包括:
[0112]
处理单元,用于对音频信号进行数据预处理。
[0113]
本实施例中,处理单元的具体执行过程,可参见上述对应的方法实施例内容,此处不再赘述。
[0114]
可选的,在在本技术的另一实施例中,上述特征提取单元302的一种实施方式,包括:
[0115]
第一处理子单元,用于对音频信号进行分帧处理,得到音频信号的信号帧。
[0116]
变换子单元,用于针对每一个信号帧,将信号帧进行离散傅里叶变换,得到信号帧的频谱。
[0117]
计算子单元,用于针对每一个信号帧,基于信号帧的频谱,计算得到信号帧的特征向量。
[0118]
生成子单元,用于基于每一个信号帧的特征向量,生成音频信号的特征向量矩阵。
[0119]
本实施例中,第一处理子单元、变换子单元、计算子单元、生成子单元的具体执行过程,可参见上述图2对应的方法实施例内容,此处不再赘述。
[0120]
可选的,在在本技术的另一实施例中,上述优化单元303的一种实施方式,包括:
[0121]
第二处理子单元,用于对特征向量矩阵进行拉直处理,得到拉直后的特征向量矩阵。
[0122]
第三处理子单元,用于将拉直后的特征向量矩阵进行降维处理,得到优化后特征向量矩阵。
[0123]
本实施例中,第二处理子单元、第三处理子单元的具体执行过程,可参见上述对应的方法实施例内容,此处不再赘述。
[0124]
本技术另一实施例还提供了一种电子设备,如图4所示,具体包括:
[0125]
一个或多个处理器401。
[0126]
存储装置402,其上存储有一个或多个程序。
[0127]
当一个或多个程序被一个或多个处理器401执行时,使得一个或多个处理器401实现如上述实施例中任意一项方法。
[0128]
本技术另一实施例还提供了计算机存储介质,其上存储有计算机程序,其中,计算机程序被处理器执行时实现如上述实施例中任意一项方法。
[0129]
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0130]
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0131]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献