一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于声音生物标志物的早期筛查与诊断方法及装置

2023-02-04 17:39:10 来源:中国专利 TAG:


1.本发明涉及一种基于声音生物标志物的早期筛查与诊断方法及装置,属于技术领域。


背景技术:

2.在面对面的临床访问中,临床医生通常利用人体声音(如呼吸、心跳、消化)来诊断疾病或评估疾病进展,如呼吸系统疾病、帕金森病。
3.随着移动医疗技术的发展,研究人员从麦克风收集的这些人类声音中研究数字生物标记,以促进远程医疗。随着新冠肺炎的发病机制越来越多地表明呼吸系统的缺陷,最近的研究开始从呼吸声音(如咳嗽、呼吸和声音)中探索数字生物标记物,以帮助检测呼吸道中的新冠肺炎以一种不费力且远程的方式。如使用远程电子听诊器捕捉肺部听诊特征作为covid-19的指标。或使用智能手机应用程序来收集咳嗽声,用于研究由新冠肺炎感染和其他呼吸道感染导致的呼吸系统病理形态学变化的差异。然而,这些工作仅仅触及了这种呼吸音数据潜力的表面,而没有提供关于这些数据如何有助于新冠肺炎诊断的有见地的解释。


技术实现要素:

4.本发明的目的在于克服现有技术中的不足,提供一种基于声音生物标志物的早期筛查与诊断方法及装置,人体产生的声音信号经常被用作诊断和监测疾病的生物标记。由于新冠肺炎的病理发生会引起呼吸系统的损伤,造成呼吸声音(如咳嗽、呼吸和声音)的改变,所以我们探索了一个准确的和可解释的新冠肺炎的数字声学生物标记方法,利用医疗大数据算法,机器学习的能力,设计基于人类语音、咳嗽和呼吸数据的新冠肺炎诊断方法。
5.为达到上述目的,本发明是采用下述技术方案实现的:
6.第一方面,本发明提供了一种基于声音生物标志物的早期筛查与诊断方法,包括:
7.获取新冠阳性患者以及新冠阴性人群传达出的音频数据,包括语音数据、咳嗽数据以及呼吸数据;
8.采用梅尔谱图表示法对所述音频数据进行处理,将所述音频数据转化为二维的梅尔谱图;
9.对于每种类型的梅尔谱图,根据类型将其分别送入预先通过残差深度学习网络训练和学习构建的咳嗽网、语音网和呼吸网中,进行病理特征选择和covid 风险预测;
10.将所述语音网、咳嗽网以及呼吸网的预测结果进行融合,获取最终决策结果。
11.进一步的,按照设定比率采集新冠肺炎受试者和健康受试者的音频样本,作为音频数据。
12.进一步的,采用数据增强方法对所述音频数据进行数据增强,具体包括:
13.对每个音频数据对应的音频样本进行处理,按照设定的时移滚动基准,模拟音频流中不同的信号窗口位置;
14.保持持续时间不变,降低或提高音频信号的音高,完成数据增强操作。
15.进一步的,对所述音频数据进行噪声或异常值处理,获取减少泛化误差的音频数据,包括:
16.在保持标签不变的情况下,对所述音频数据对应的音频信号中注入高斯噪声或异常值,获取减少泛化误差的音频数据。
17.进一步的,采用梅尔谱图表示法对所述音频数据进行处理,将所述音频数据转化为二维梅尔谱图,包括:
18.将所述音频数据划分为多个片段,对每个片段执行快速傅立叶变换,获取可在时域和频域上呈现的音频数据;
19.在每个分段上采用窗口函数将所述可在时域和频域上呈现的音频数据分割成一系列小窗口;
20.将所述小窗口中的音频数据通过梅尔谱图表示法转换为二维梅尔谱图。
21.进一步的,所述咳嗽网、语音网和呼吸网均包含一个输入块和残差块,每个残差块有2个卷积层,每次卷积后进行批处理归一化,残差块之间采用快捷连接和下采样。
22.进一步的,将所述残差深度学习网络训练学习到的权值应用到每个最终卷积通道的每个元素,然后沿着通道平均,生成一个激活图;
23.将激活图与原始梅尔谱图叠加起来进行可视化和分析,以确定梅尔谱图的哪个时频区域对最终covid预测贡献最大。
24.第二方面,本发明提供一种基于声音生物标志物的早期筛查与诊断装置,包括:
25.数据获取模块,用于获取新冠阳性患者以及新冠阴性人群传达出的音频数据,包括语音数据、咳嗽数据以及呼吸数据;
26.处理模块,用于采用梅尔谱图表示法对所述音频数据进行处理,将所述音频数据转化为二维的梅尔谱图;
27.预测模块,用于对于每种类型的梅尔谱图,根据类型将其分别送入预先通过残差深度学习网络训练和学习构建的咳嗽网、语音网和呼吸网中,进行病理特征选择和covid风险预测;
28.融合模块,用于将所述语音网、咳嗽网以及呼吸网的预测结果进行融合,获取最终决策结果。
29.第三方面,本发明提供一种基于声音生物标志物的早期筛查与诊断装置,包括处理器及存储介质;
30.所述存储介质用于存储指令;
31.所述处理器用于根据所述指令进行操作以执行根据前述任一项所述方法的步骤。
32.第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述任一项所述方法的步骤。
33.与现有技术相比,本发明所达到的有益效果:
34.本发明提供一种基于声音生物标志物的早期筛查与诊断方法及装置,可以有效地从梅尔谱图中学习病理信息,用于预测covid;首先利用任务依赖的数据增强技术来增加训练数据的方差,然后进行频域和时域调制,将1d音频数据转换为二维梅尔谱图,以高分辨率保存病理信息。然后,提取的维梅尔谱图被送入残差深度学习网络进行病理特征选择和
covid风险估计;最后,将语音网、咳嗽网以及呼吸网的预测结果进行融合来细化最终的预测结果。此外,我们基于激活图的可视化进行解释分析,以确定梅尔谱图的哪个时频区域对最终covid 预测贡献最大。
附图说明
35.图1是本发明实施例提供的一种基于声音生物标志物的早期筛查与诊断方法的流程图。
具体实施方式
36.下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
37.实施例1
38.本实施例介绍一种基于声音生物标志物的早期筛查与诊断方法,包括:
39.获取新冠阳性患者以及新冠阴性人群传达出的音频数据,包括语音数据、咳嗽数据以及呼吸数据;
40.采用梅尔谱图表示法对所述音频数据进行处理,将所述音频数据转化为二维的梅尔谱图;
41.对于每种类型的梅尔谱图,根据类型将其分别送入预先通过残差深度学习网络训练和学习构建的咳嗽网、语音网和呼吸网中,进行病理特征选择和covid 风险预测;
42.将所述语音网、咳嗽网以及呼吸网的预测结果进行融合,获取最终决策结果。
43.如图1所示,本实施例提供的基于声音生物标志物的早期筛查与诊断方法,其应用过程具体涉及如下步骤:
44.1、声音数据处理
45.本步骤根据我们的数据集调查covid受试者和健康受试者之间的数据差异。这些阴性对象完全健康,有呼吸道疾病(如肺结核、肺炎和慢性肺病)或covid-19 样症状,如咳嗽、发烧等。每个受试者有三个音频数据,分别是语音数据、呼吸数据和咳嗽数据。从每个咳嗽、呼吸和语音样本中提取一组手工制作的特征,包括基音起始、均方根(rms)能量、频谱质心、滚降频率、梅尔频率倒谱系数 (mfcc)、δmfcc。具体地说,基音起始表征了来自伪音节强度包络线的峰值,这可以通过在每个梅尔波段上添加正一阶差分来实现。均方根能量是短时间傅里叶变换频谱大小的均方根。谱质心定位于共振峰位置和音高频率对应的大峰,与声音亮度有关。滚降频率是声谱图库的中心频率。mfcc可以表征声道的形状,主要表现在短时间功率谱的包络。除了开始和δmfcc,大多数特征显示covid 受试者和健康受试者在语音样本上略有不同。然而,对于呼吸样本和咳嗽样本,大多数特征分布在健康受试者和c0vid受试者之间几乎相同,只有mfcc显示呼吸样本略有不同,咳嗽样本只有光谱质心略有不同。综上所述,我们可以得出,我们可以获得的病理信息没有很好地保存在这些手工制作的特征中,尤其是我们数据集中的呼吸和咳嗽信号。
46.2、数据增强
47.首先在训练过程中对每个输入批次的时间序列音频数据应用一组增强技术。这些可以在训练期间增加数据的方差,以建立更一般化和更稳健的模型。尽管数据集拥有大量
来自新冠肺炎患者的咳嗽、呼吸和语音数据,但它仍然存在不平衡的问题。因此,我们在训练过程中有意按照7:1的比率对新冠肺炎受试者和健康受试者的音频样本进行过采样。我们结合了每个样本的增强操作,时移设置为从-0.5s到 0.5s的滚动基准,以模拟音频流中不同的信号窗口位置。与此同时,我们降低或提高音频样本的音高,同时保持持续时间不变。每个样本的音高随机地从-4个半音移动到4个半音。
48.3、强化强健性:噪声注入
49.噪声注入是一种在时间序列信号中注入少量噪声/异常值而不改变相应的标签的方法。为了减少泛化误差并改善映射问题的结构,我们选择向时序音频数据中添加随机噪声。在训练过程中,噪声可能会降低模型性能,这是很直观的。相比之下,最近的研究表明,通过在损失函数中添加额外的项来训练带有噪声的模型相当于一种正则化形式,这可以减少泛化误差。此外,对原始数据进行噪声注入可以扩大训练数据集的大小,是一种有效的音频数据增强方法。当训练样本被输入到模型中时,随机噪声被注入到输入变量中,这使得它们每次都不同,但是标签不变。具体来说,我们在保持标签不变的情况下,对幅度为0.001~0.015,信噪比为0~35db的音频信号加入高斯噪声。
50.4、梅尔谱图表示法(mel-spectrogram)
51.直观上,快速傅立叶变换(fft)是研究音频信号频率特性的有用工具。然而,呼吸声和咳嗽声通常是非平稳的,因此fft运算不能反映它们的时域特性。为了解决上述挑战,我们将人类声音划分为多个片段,同时假设每个片段中的信号是稳定的,然后对每个片段执行fft。然后,我们可以在时域和频域上呈现数据。为了避免截断效应,我们在每个分段上采用窗口函数来减少频谱泄漏并提高频谱分辨率。合适的窗函数可以有效地抑制高频信号中隐含的病理信息干扰。具体来说,增强的人类声音被分割成一系列小hanning窗口,每个窗口的长度为25毫秒并与60%重叠。
52.hanning窗口被公式化为:
53.分割后,这些小窗口中的1-d音频信号可以通过以下方式转换成2-d频谱图:
[0054][0055]
因为梅尔谱图频率可以精确地表示与声道形状相关的短时功率谱的包络,我们使用梅尔谱图生滤波器组技术将短时傅立叶变换的频谱幅度映射到梅尔谱图标度上。y轴的映射(频率)至梅尔谱图频率:
[0056][0057]
梅尔谱图反映了丰富的相关性和模式信息,例如共振峰、声音强度,这些信息容易被深度学习模型提取。
[0058]
5、基于梅尔谱图的机器学习算法设计
[0059]
卷积神经网络对于图像分类问题是一个有用的网络。然而,它需要一个大的数据集,包含几十个千层样本进行训练,以克服过拟合问题。因此,开发具有小数据集的深度神经网络具有挑战性。利用剩余架构。(1)防止过度拟合:首先,与普通网络相比,剩余架构没
有多余的全连通层,导致参数较少;其次,利用残差网络中的批处理归一化层缓解过拟合;这是因为归一化操作使每个小批量的均值和方差值略有不同,可以认为是对每个隐含层的激活注入了噪声,从而产生了轻微的正则化效果。(2)加快收敛:快捷连接通过将其输出添加到堆叠层的输出来执行身份映射。通过这种方式,网络能够将对上一层的更高层次的理解传递给前一层,这可以重新调整如何理解训练阶段的输入。
[0060]
对于每种类型的梅尔谱图,将其送入相应的咳嗽网、语音网和呼吸网,这些都是基于34层剩余架构的。每种类型的网络包含一个输入块和剩余块。每个残差块有2个卷积层,每次卷积后进行批处理归一化,残差块之间采用快捷连接和下采样。最后,利用前馈网络将咳嗽网、语音网和呼吸网的输出信息进行融合,得到决策结果。每个超过3秒的音频数据作为样本。如果小于3秒,则重复,直到达到3秒。我们将所有受试者分成五组,进行5次交叉验证。在每次训练过程中,我们以7:1的速度增加covid样本和健康样本,然后在每一轮中分别获得1100个左右的covid样本和1200个健康样本,包括语音、呼吸、咳嗽。在每个测试过程中,我们不增加样本,每轮测试分别获得约40个covid 样本和300个健康的语言、呼吸、咳嗽样本。
[0061]
为了了解梅尔谱图的哪个时频区域对最终covid预测贡献最大,我们可以将权值应用到每个最终卷积通道的每个元素,然后沿着通道平均,生成一个激活图。价值最高的地区贡献最大。然后,我们将激活图与原始梅尔谱图叠加起来进行可视化。根据所收集的数据类型分为:1)语音网(speech net):语音网络捕捉被试的共振峰和音高信息进行预测,而忽略少数无声信息。共振峰频率是声道对声源信号的频率塑造,涉及多个发音器的协同作用。因此,它很可能包含病理信息,成为语音网关注的焦点。2)咳嗽网(cough net):周期性吸入和无声音区域对预测受试者持续咳嗽行为的贡献最大。可见,与健康受试者相比,covid受试者咳嗽后的吸入不清楚,这是由咳嗽网了解的结果。3)呼吸网(breath net):在呼吸网中,我们的模型对共振峰和无音区域都感兴趣。这是因为吸入和呼出的强度、速率和音调频率在不同受试者之间存在很大差异,这可能隐藏了病理信息。
[0062]
综上所述,我们提出的深度残余结构是可解释的,可以有效地从梅尔谱图中学习病理信息,用于预测covid。首先从数据和模型两个方面总结了基于音频的分类模型的设计空间考虑。在此基础上,我们首先利用任务依赖的数据增强技术来增加训练数据的方差,然后进行频域和时域调制,将1d音频数据转换为二维梅尔谱图,以高分辨率保存病理信息。然后,提取的维梅尔谱图被送入机器学习算法进行病理特征选择和covid风险估计。最后,采用前馈网络结合cough net、speech net和breath net的预测结果来细化最终的预测结果。此外,我们基于激活图的可视化进行解释分析,以确定梅尔谱图的哪个时频区域对最终covid预测贡献最大。我们的探索可以为研究人员和临床医生提供更多的见解和解释,以研究疾病检测的声学模式,而不限于呼吸系统疾病。
[0063]
实施例2
[0064]
本实施例提供一种基于声音生物标志物的早期筛查与诊断装置,包括:
[0065]
数据获取模块,用于获取新冠阳性患者以及新冠阴性人群传达出的音频数据,包括语音数据、咳嗽数据以及呼吸数据;
[0066]
处理模块,用于采用梅尔谱图表示法对所述音频数据进行处理,将所述音频数据转化为二维的梅尔谱图;
[0067]
预测模块,用于对于每种类型的梅尔谱图,根据类型将其分别送入预先通过残差深度学习网络训练和学习构建的咳嗽网、语音网和呼吸网中,进行病理特征选择和covid风险预测;
[0068]
融合模块,用于将所述语音网、咳嗽网以及呼吸网的预测结果进行融合,获取最终决策结果。
[0069]
实施例3
[0070]
本实施例提供一种基于声音生物标志物的早期筛查与诊断装置,包括处理器及存储介质;
[0071]
所述存储介质用于存储指令;
[0072]
所述处理器用于根据所述指令进行操作以执行根据实施例1中任一项所述方法的步骤。
[0073]
实施例4
[0074]
本实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现实施例1中任一项所述方法的步骤。
[0075]
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献