一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于数据不确定性学习的咳嗽检测方法与流程

2022-03-23 04:09:42 来源:中国专利 TAG:


1.本发明属于语音信号处理技术领域,更进一步涉及一种咳嗽检测方法,可用于咳嗽声音的智能检测和咳嗽样本的收集。


背景技术:

2.咳嗽是人体对呼吸系统异常的反应机制,用以清除病原体、粘液或异物,当呼吸道黏膜内的感受器被进入呼吸道的异物、刺激性气体以及呼吸道分泌物等刺激,且通过传入纤维传输到延髓呼吸中枢时,就会引起咳嗽反射,它是一种保护性反射,可以帮助清除呼吸道中隐藏的分泌物和有害物,正常情况下对人体是有益的。但是当频繁、剧烈和持久的咳嗽出现时,它就成为了一种病理状态,其发生的频率、强度、时间这些特征可以为医生诊断临床患者提供重要的信息。咳嗽检测作为咳嗽数据收集的首要部分,通过咳嗽检测技术得到咳嗽频率或强度的定量评估以及干咳或湿咳类型的定性评估,帮助医生对呼吸道以及肺部相关病灶做出更准确的判断。此外,通过咳嗽检测分析可对疾病早期迹象作出预先诊断,并在基本治疗有效时开出治疗处方,从而降低卫生服务的人力和财力成本。咳嗽检测识别还可为卫生当局提供有关高负担呼吸道疾病出现的及时监测信息,支持特定地理区域的早期爆发识别,更好地进行公共卫生决策。
3.综上,咳嗽检测对于预防、评估和控制肺结核、新冠肺炎等流行病均具有重要意义。近年来,随着计算机硬件平台的提升以及数据量的增加,机器学习蓬勃发展,机器学习从大量的数据集中学习目标转换函数和特征,并对新的数据进行预测。而作为机器学习一部分的深度学习理论更是因为其优越性的学习能力,广泛的用于各种任务处理。由于互联网和大数据的快速发展,为深度学习提供了大量的数据集基础,深度学习通过特征提取网络和非线性层学习到该数据集更丰富的映射,利用该数据集映射,对未知的数据有更好的预测。基于深度学习的咳嗽检测方法也成为了咳嗽检测的热门研究方向,现有的很多咳嗽检测算法的核心都是基于深度学习的分类器设计。
4.prad kadambi等人在论文towards awearable cough detector based on neural networks中提出一种基于神经网络的咳嗽检测方案,其采用深度神经网络结构,训练和测试数据集采用从9位患者的录音中手动选取而来,采用端到端的训练,在测试集上达到了0.923的准确率。
5.ali imran等人在论文ai4covid-19:ai enabled preliminary diagnosis for covid-19fromcough samples via an app中提出一种基于卷积神经网络的咳嗽分类器,此分类器采用了卷积层和全连接级联的结构,采用端到端的训练,在使用作者自建的数据集下,对音频是否含有咳嗽进行分类,达到了0.9791的准确率。
6.上述这些咳嗽检测方法虽然具有较高的准确率,但由于都是在同一数据集下训练和测试,且不包含较强的噪声背景下进行的,因而这些方法存在以下不足:
7.一是在测试集与训练集不在同一数据集下时,检测的准确率低;
8.二是当测试集中存在类型较复杂、强度较高的噪声背景时,准确率表现剧烈的折
损;
9.三是在真实环境下进行检测时,因受训练数据的限制,很难达到好的检测效果。


技术实现要素:

10.本发明的目的在于针对上述咳嗽检测方法的不足,提出一种基于数据不确定性学习的咳嗽检测方法,以在含有噪声背景的不同数据集下,提升其模拟真实含噪环境下的咳嗽检测准确率。
11.为实现上述目的,本发明的技术方案包括:
12.(1)构建咳嗽检测数据集,从不同的公开数据集中分别选取15000个咳嗽语音数据和15000个非咳嗽语音数据,并对其进行预处理,再按照9:1的比例划分为训练集和测试集,数据集中均含有是否包含咳嗽的标注;
13.(2)构建由噪声生成模块、梅尔图谱生成模块、特征预测模块、均值和方差预测模块、全连接模块依次级联组成的检测器网络;该特征预测模块、均值和方差预测模块和全连接模块构成分类器,其中,均值和方差预测模块,由输入层、第ⅰ归一化层、dropout层、flatten层、第ⅰ全连接层、第ⅰ激活函数层、第ⅱ全连接层、第ⅱ激活函数层、第ⅱ归一化层、预测输出层、不确定向量生成器级联组成,该不确定向量生成器以预测输出层输出的预测均值和预测方差为参数,为特征向量添加不确定性成分,生成不确定性特征向量,使得输入网络的特征向量具有的随机性和不确定性,从而增强网络对含噪数据分类的稳定性,进而提升网络对真实含噪数据的检测准确率;
14.(3)设置检测器网络的目标函数lg:
15.lg=l
cross
λl
kl

16.其中:λ《1,l
cross
为交叉熵损失函数,μi、σi为均值和方差预测模块输出的预测均值和方差;
17.(4)对检测器网络进行训练:
18.4a)设定学习率l和最大迭代训练次数t;
19.4b)将训练数据集输入到检测器网络中,通过噪声生成模块,得到含噪的数据集;含噪的数据通过梅尔谱图生成模块,得到含有时频信息的二维梅尔谱图;二维梅尔谱图通过分类器,得到的咳嗽和非咳嗽的概率向量;
20.4c)将咳嗽和非咳嗽的概率向量与训练集的标注代入交叉熵损失函数l
cross
得到交叉熵结果,将检测器网络中均值和方差预测模块输出的预测均值μi和方差σi代入l
kl
函数,求得一次训练后的损失值,根据每次训练得到的损失值的变化采用随机梯度下降的方法迭代网络,更新网络参数,直到达到设定的网络训练次数t后,完成对检测器网络的训练;
21.(5)将测试集输入到训练后的检测器网络中,测试集先通过噪声生成模块生成含噪的测试集,含噪的测试集再通过梅尔谱图生成模块得到二维梅尔谱图,二维梅尔谱图输入到分类器中,输出长度为2的概率向量[a,b],a代表是咳嗽的概率,b代表不是咳嗽的概率。
[0022]
本发明与现有技术相比具有以下优点:
[0023]
第一,本发明构建了检测器网络,利用其梅尔图谱生成模块生成语音数据的梅尔
图谱为分类器的输入,由于梅尔图谱包含有语音数据在频域和时域的特征,且输出的谱图将hz频率转换为梅尔频率,可使得输出频率从线性变为更易于网络感知的非线性,相比于现有技术仅提取时域或频域特征得到特征向量,本发明兼顾了语音数据在时域和频域的特征信息,使得参与分类的特征更加全面。
[0024]
第二,本发明检测器网络中的分类器器设有均值和方差预测模块,以基于数据不确定学习的分类方法,通过网络自适应学习分类器中的参数,对分类器的分类能力进行全局和局部增强,克服了传统技术方法需要手工调节模型参数的问题。并且引入了不确定学习方法,生成了具有不确定性的特征向量,以此来作为全连接模块的输入达到不确定性学习的效果,使得输入网络的特征向量具有的随机性和不确定性,从而增强网络的鲁棒性和泛化能力。
附图说明
[0025]
图1为本发明的实现流程图;
[0026]
图2为本发明中梅尔图谱生成模块;
[0027]
图3为本发明中构建检测器网络中的分类器结构框图的子流程图。
具体实施方式
[0028]
下面结合附图对本发明的实施例和效果做进一步的详细描述。
[0029]
参照图1,本实例的具体实现步骤包括如下:
[0030]
步骤1,获取数据集。
[0031]
1.1)从esc-50、coughvid、audio以及公开中文语音数据集中选取语音数据采样频率大于16000hz,语音时长不短于3s的15000个咳嗽数据和15000个非咳嗽数据;
[0032]
1.2)对选取的数据作预处理:
[0033]
首先,对语音数据进行重采样,设置其采样率为16000hz,
[0034]
然后,对咳嗽数据进行归一化处理,将其映射到-1到1的范围内;
[0035]
接着,将咳嗽数据截取为0.5s-1s长的语音段,以空白语音作填充将咳嗽数据扩充为1s长的语音;将非咳嗽数据直接截取为1s长的语音,
[0036]
1.3)按照9:1的比例将预处理后的30000个语音数据划分为训练集和测试集,即从15000个咳嗽数据和15000个非咳嗽数据中各随机选取13500个作为训练集,其余的3000个语音数据作为测试集。
[0037]
步骤2,构建检测器网络。
[0038]
2.1)建立噪声生成模块:
[0039]
噪声生成模块为一个语音信号相加器,用于对语音数据添加噪声,以模拟真实情况下的语音数据,该模块的输入为语音信号、噪声类型和信噪比,其中噪声种类为白噪声或常见背景噪声,当选取白噪声时,则为语音信号添加高斯白噪声,当选取常见背景噪声时,则为语音信号添加背景噪声;噪声信噪比参数用于确定添加噪声的强度。
[0040]
2.2)建立梅尔谱图生成模块:
[0041]
该模块由分帧处理器、加窗器、fft发生器、时域堆叠器、梅尔滤波器组依次级联构成,其中:
[0042]
分帧处理器,用于对输入加噪后的语音信号在时域上以固定时间间隔进行分割,生成以帧为单位的语音段;
[0043]
加窗器,用于对分帧后的每帧语音段加矩形窗,以便后续fft的进行;
[0044]
fft发生器,用于对加窗后的每帧语音信号做快速傅里叶变换,得到一维的频域信号;
[0045]
时域堆叠器,用于将所有帧的频域信号在时域上进行堆叠,得到声谱图;
[0046]
梅尔滤波器组,用于将声谱图变为梅尔谱图,并输出。
[0047]
参照图2,该梅尔图谱生成模块的运作流程如下:
[0048]
语音数据通过分帧处理器进行分帧处理,得到固定帧长的多帧语音段;
[0049]
该多帧语音段通过加窗器,得到矩形窗截断的多帧语音段;
[0050]
对每一帧语音段通过fft发生器做傅里叶变换,得到每一帧语音段的一维频域信号;
[0051]
将每一帧的一维频率信号通过时域堆叠器沿时域进行堆叠,得到声谱图;
[0052]
该声谱图通过梅尔标度滤波器组,得到梅尔谱图。
[0053]
2.3)建立分类器:
[0054]
参照图3,本步骤的具体实现如下:
[0055]
2.3.1)建立特征预测模块
[0056]
特征预测模块结构如下:
[0057]
输入层

第1最大池化层

第1卷积层

第1激活函数层

第2卷积层

第2激活函数层

第2最大池化层

第1残差块层

第2残差块层

第3残差块层

第3卷积层

第3激活函数

第4卷积层

第4激活函数

第3最大池化层

输出层;
[0058]
各层参数如下:
[0059]
输入层输入梅尔图谱生成模块生成的梅尔谱图;
[0060]
第1卷积层的输入的通道数为1,输出通道数为16;
[0061]
第2卷积层的输入的通道数为16,输出通道数为64;
[0062]
第3卷积层的输入的通道数为64,输出通道数为16;
[0063]
第4卷积层的输入的通道数为16,输出通道数为16;
[0064]
所有卷积层的卷积核尺寸均设置为5
×
5,卷积步长均设置为1,填充设置为2;
[0065]
所有激活函数层的激活函数均使用relu;
[0066]
所有最大池化层的卷积核均为2
×
2,步长均为2。
[0067]
每个残差块的输出通道数为64的特征图。
[0068]
每个残差块由第一卷积层、第一激活函数层、第二卷积层、第二激活函数层、加法器、依次级联组成,其中:
[0069]
第一卷积层和第二卷积层的输入通道数为64,输出通道数为64;
[0070]
所有卷积层的卷积核尺寸均设置为3
×
3,卷积步长均设置为1;
[0071]
第一激活函数层和第二激活函数层的激活函数使用relu;
[0072]
加法器的输入为第二个激活函数层输出和残差块的输入。
[0073]
2.3.2)建立特征预测模块建立均值和方差预测模块:
[0074]
该模块由输入层、第ⅰ归一化层、dropout层、flatten层、第ⅰ全连接层、第ⅰ激活函
数层、第ⅱ全连接层、第ⅱ激活函数层、第ⅱ归一化层、预测输出层、不确定向量生成器级联组成,各层参数如下:
[0075]
输入层输入特征预测部分输出的通道数为16的特征图;
[0076]
第ⅰ归一化层使用bn归一化函数,通道数为16;
[0077]
第ⅱ归一化层使用bn归一化函数,通道数为128;
[0078]
第ⅰ全连接层的输入的通道数为3840,输出通道数为512;
[0079]
第ⅱ全连接层的输入的通道数为512,输出通道数为128;
[0080]
dropout层用于随机舍弃15%的神经元;
[0081]
flatten层用于将二维特征图打平到一维向量;
[0082]
第ⅰ、ⅱ激活函数层的激活函数均采用relu;
[0083]
预测输出层输出两个长度是128的特征向量,分别为预测均值和预测方差;
[0084]
不确定向量生成器的输入为预测均值和预测方差,以在训练过程和测试过程中生成不同的不确定性特征向量,其实现如下:
[0085]
不确定向量生成器在训练过程中,是将预测输出层输出的预测均值和预测方差作为正态分布的参数,随机生成长度为128的不确定性特征向量,假设预测均值结果为μi,方差预测方差结果为σi,输入为xi,则生成的不确定性特征向量zi有如下关系:
[0086]
p(zi|xi)=n(zi;μi,σ2i)
[0087]
式中,均值预测部分输出的结果μi可视为对语音数据特征的预测,而方差预测部分输出的结果σi可视作预测μi的不确定性,i为长度为128的单位矩阵,此时每个输出的样本不再是确定的值,而是一个从正态分布n(zi;μi,σ2i)的随机采样;由于随机采样的不可微即不能进行求梯度,会阻止训练时梯度的反向传播,造成训练过程中网络迭代受阻,因而需要采用重新参数化让网络仍然可以运用梯度迭代,即首先利用正态分布对σi进行采样,再生成si作为zi的等效表示:si=μi εσiε~n(0,1),该si作为zi的等效表示是训练过程中这个模块输出的不确定性特征向量;
[0088]
不确定向量生成器在测试过程中,是将长度为128的特征向量送入不确定向量生成器,不确定向量生成器直接输出预测均值。
[0089]
2.3.3)建立全连接模块
[0090]
该全连接模块的结构为:输入层

全连接层

输出层,其输出为长度是2的向量;
[0091]
各层参数如下:
[0092]
输入层输入为不确定向量生成器生成的长度为128的特征向量;
[0093]
全连接层的输入的通道数为128,输出通道数为2。
[0094]
全连接模块的输入为不确定向量生成器生成的长度为128的特征向量,输出长度为2的概率向量[a,b],a代表是咳嗽的概率,b代表不是咳嗽的概率。
[0095]
2.3.4)将特征预测模块、均值和方差预测模块、全连接模块依次级联,得到分类器;
[0096]
2.4)将上述建立的噪声生成模块、梅尔图谱生成模块、分类器依次级联构成检测器网络。
[0097]
步骤3,设置检测器网络的目标函数lg[0098]
3.1)设置检测器网络的输出结果与数据集标注间的交叉熵损失函数l
cross

diagnosis for covid-19 from cough samples via an app中提出的咳嗽检测方法,其分类器由卷积层和全连接层组成,同样采用端到端的训练方式。仿真实验中,将本发明方法中的分类器更换为ai4提出的分类器,采用相同的训练集和测试集进行对比实验。
[0122]
实验过程如下:
[0123]
首先,同时调整两种方法中噪声生成模块的参数做多次对比实验,噪声类型分别选取高斯噪声、背景噪声;snr值分别选取10、8、5;
[0124]
然后,按照具体实施方式中步骤进行实验仿真,得到测试集的检测结果,将检测结果与测试集标注相比较得到检测是否准确,统计检测准确的个数和检测有误的个数,得到检测准确率p,结果如表1:
[0125]
表1咳嗽检测准确率结果
[0126][0127]
从表1可见,本发明在不同噪声条件和不同噪声强度下均能得到较好的检测结果,表明本发明在真实环境噪声情况下检测结果好。
[0128]
本发明的检测准确率均高于ai4方法在不同噪声类型和不同噪声强度下的测试结果,表明本发明通过引入的不确定学习方法,可取得更好的检测效果。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献