一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于数据不确定性学习的咳嗽检测方法与流程

2022-03-23 04:09:42 来源:中国专利 TAG:

技术特征:
1.一种基于数据不确定学习的咳嗽检测方法,其特征在于,包括:(1)构建咳嗽检测数据集,从不同的公开数据集中分别选取15000个咳嗽语音数据和15000个非咳嗽语音数据,并对其进行预处理,再按照9:1的比例划分为训练集和测试集,数据集中均含有是否包含咳嗽的标注;(2)构建由噪声生成模块、梅尔图谱生成模块、特征预测模块、均值和方差预测模块、全连接模块依次级联组成的检测器网络;该特征预测模块、均值和方差预测模块和全连接模块构成分类器,其中,均值和方差预测模块,由输入层、第ⅰ归一化层、dropout层、flatten层、第ⅰ全连接层、第ⅰ激活函数层、第ⅱ全连接层、第ⅱ激活函数层、第ⅱ归一化层、预测输出层、不确定向量生成器级联组成,该不确定向量生成器以预测输出层输出的预测均值和预测方差为参数,为特征向量添加不确定性成分,生成不确定性特征向量,使得输入网络的特征向量具有的随机性和不确定性,从而增强网络对含噪数据分类的稳定性,进而提升网络对真实含噪数据的检测准确率;(3)设置检测器网络的目标函数l
g
:l
g
=l
cross
λl
kl
,其中:λ<1,l
cross
为交叉熵损失函数,μ
i
、σ
i
为均值和方差预测模块输出的预测均值和方差;(4)对检测器网络进行训练:4a)设定学习率l和最大迭代训练次数t;4b)将训练数据集输入到检测器网络中,通过噪声生成模块,得到含噪的数据集;含噪的数据通过梅尔谱图生成模块,得到含有时频信息的二维梅尔谱图;二维梅尔谱图通过分类器,得到的咳嗽和非咳嗽的概率向量;4c)将咳嗽和非咳嗽的概率向量与训练集的标注代入交叉熵损失函数l
cross
得到交叉熵结果,将检测器网络中均值和方差预测模块输出的预测均值μ
i
和方差σ
i
代入l
kl
散度函数,求得一次训练后的损失值,根据每次训练得到的损失值的变化采用随机梯度下降的方法迭代网络,更新网络参数,直到达到设定的网络训练次数t后,完成对检测器网络的训练;(5)将测试集输入到训练后的检测器网络中,测试集先通过噪声生成模块生成含噪的测试集,含噪的测试集再通过梅尔谱图生成模块得到二维梅尔谱图,二维梅尔谱图输入到分类器中,输出长度为2的概率向量[a,b],a代表是咳嗽的概率,b代表不是咳嗽的概率。2.根据权利要求1所述的方法,其中(1)中对咳嗽检测数据集进行预处理,实现如下:2a)将下载的所有的咳嗽语音数据和非咳嗽语音数据的频率设置为16000hz,并对这些语音数据进行归一化处理,将其映射到-1到1的范围内;2b)对行归一化后的咳嗽语音数据和非咳嗽语音数据进行不同方式处理:对咳嗽语音数据的处理:先将该咳嗽语音数据截取为0.5s-1s长的音频;再对截取后的语音数据进行扩充,即用空白语音填充截取后的语音数据,将音频扩充为1s长的音频;对非咳嗽语音数据处理:将该非咳嗽数据截取为1s长的音频。3.根据权利要求1所述的方法,其中(2)中的噪声生成模块,其为一个语音信号相加器,输入为语音信号、噪声类型和信噪比,输出为加噪后的语音信号;当噪声类型选取为白噪声时,用于为语音信号添加高斯白噪声;当噪声类型选取为背景噪声时,用于为语音信号添加
生活中常见的背景噪声,信噪比的大小与添加噪声的强度有关。4.根据权利要求1所述的方法,其中(2)中的梅尔图谱生成模块,其结构为:输入

分帧处理器

加窗器

fft发生器

时域堆叠器

梅尔滤波器组

输出;该分帧处理器,用于对输入加噪后的语音信号在时域上以固定时间间隔进行分割,生成以帧为单位的语音段;该加窗器,用于对分帧后的每帧语音段加矩形窗,以便后续fft的进行;该fft发生器,用于对加窗后的每帧语音信号做快速傅里叶变换,得到一维的频域信号;该时域堆叠器,用于将所有帧的频域信号在时域上进行堆叠,得到声谱图;该梅尔滤波器组,用于将声谱图变为梅尔谱图,并输出。5.根据权利要求1所述的方法,其中(2)中特征预测模块结构及参数如下:结构:输入层

第1最大池化层

第1卷积层

第1激活函数层

第2卷积层

第2激活函数层

第2最大池化层

第1残差块层

第2残差块层

第3残差块层

第3卷积层

第3激活函数

第4卷积层

第4激活函数

第3最大池化层

输出层;各层参数:输入层输入梅尔图谱生成模块生成的梅尔谱图;第1卷积层的输入的通道数为1,输出通道数为16;第2卷积层的输入的通道数为16,输出通道数为64;第3卷积层的输入的通道数为64,输出通道数为16;第4卷积层的输入的通道数为16,输出通道数为16;所有卷积层的卷积核尺寸均设置为5
×
5,卷积步长均设置为1,填充设置为2;所有激活函数层的激活函数均使用relu;所有最大池化层的卷积核均为2
×
2,步长均为2。每个残差块的输出通道数为64的特征图。6.根据权利要求5所述的方法,其中特征预测模块中的每个残差块由第一卷积层、第一激活函数层、第二卷积层、第二激活函数层、加法器、依次级联组成,各层参数如下:第一卷积层和第二卷积层的输入通道数为64,输出通道数为64;所有卷积层的卷积核尺寸均设置为3
×
3,卷积步长均设置为1;第一激活函数层和第二激活函数层的激活函数使用relu;加法器的输入为第二个激活函数层输出和残差块的输入。7.根据权利要求1所述的方法,其中(2)中的均值和方差预测模块,结构和参数如下:结构:输入层

第ⅰ归一化层

dropout层

flatten层

第ⅰ全连接层

第ⅰ激活函数层

第ⅱ全连接层

第ⅱ激活函数层

第ⅱ归一化层

预测输出层

不确定向量生成器;各层参数如下:输入层输入特征预测部分输出的通道数为16的特征图;第ⅰ归一化层使用bn归一化函数,通道数为16;第ⅱ归一化层使用bn归一化函数,通道数为128;第ⅰ全连接层的输入的通道数为3840,输出通道数为512;第ⅱ全连接层的输入的通道数为512,输出通道数为128;
dropout层用于随机舍弃15%的神经元;flatten层用于将二维特征图打平到一维向量;第ⅰ、ⅱ激活函数层的激活函数均采用relu;预测输出层输出两个长度是128的特征向量,分别为预测均值和预测方差;不确定向量生成器的输入为预测均值和预测方差,用于在训练过程和测试过程中生成不同的不确定性特征向量。8.根据权利要求7所述的方法,其中不确定向量生成器在训练过程和测试过程中生成不同的不确定性特征向量,实现如下:在训练过程中,将预测输出层输出的预测均值和预测方差作为正态分布的参数,随机生成长度为128的不确定性特征向量,假设预测均值结果为μ
i
,方差预测方差结果为σ
i
,输入为x
i
,则生成的不确定性特征向量z
i
有如下关系:p(z
i
|x
i
)=n(z
i
;μ
i
,σ2i)其中,均值预测部分输出的结果μ
i
可视为对语音数据特征的预测,而方差预测部分输出的结果σ
i
可视作预测μ
i
的不确定性,i为长度为128的单位矩阵,此时每个输出的样本不再是确定的值,而是一个从正态分布n(z
i
;μ
i
,σ2i)的随机采样;由于随机采样的不可微会阻止训练时梯度的反向传播,使得训练过程中网络迭代受阻,需要采用重新参数化让网络仍然可以运用梯度迭代,即首先利用正态分布对σ
i
进行采样,再生成s
i
作为z
i
的等效表示:s
i
=μ
i
εσ
i
ε~n(0,1)该s
i
作为z
i
的等效表示是训练过程中这个模块的输出;在测试过程中,长度为128的特征向量进入不确定向量生成器,不确定向量生成器直接输出预测均值。9.根据权利要求1所述的方法,其中全连接模块,结构和参数如下:结构:输入层

全连接层

输出层,其输出为长度是2的向量;各层参数如下:输入层输入为不确定向量生成器生成的长度为128的特征向量;全连接层的输入的通道数为128,输出通道数为2。全连接模块的输入为不确定向量生成器生成的长度为128的特征向量,输出长度为2的概率向量[a,b],a代表是咳嗽的概率,b代表不是咳嗽的概率。10.据权利要求1所述的方法,其中目标函数l
g
中的交叉熵损失函数l
cross
表示如下:l
cross
=-1/2[y log a (1-y)log b]其中,y为语音数据的标注,y为1时表示语音数据包含咳嗽,y为0时表示语音数据不包含咳嗽;a为全连接模块输出的咳嗽概率,b为全连接模块输出的非咳嗽的概率。

技术总结
本发明公开了一种基于数据不确定学习的咳嗽检测方法。主要解决现有技术在真实环境下咳嗽检测准确率低的问题。其实现方案是:从不同的公开数据集选取语音数据并进行预处理,将其划分训练集和测试集;构建由噪声生成模块、梅尔图谱生成模块、特征预测模块、均值和方差预测模块、全连接模块依次级联组成的检测器网络;设置检测器网络的目标函数;设置学习率和最大迭代次数,通过训练集采用随机梯度下降法对目标函数进行更新,得到训练好的检测器网络;将测试数据集输入到训练后的检测器网络中,得到咳嗽检测结果。本发明不仅在无噪环境下能得到高的准确率,而且在模拟真实噪声状况下也有较好的表现,可用于咳嗽声音的智能检测和咳嗽样本的收集。和咳嗽样本的收集。和咳嗽样本的收集。


技术研发人员:赵永源 谷成明
受保护的技术使用者:谷成明 广州捷智信科技有限公司
技术研发日:2021.12.08
技术公布日:2022/3/22
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献