一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于数据挖掘的脑卒中疾病预测方法

2022-07-31 02:52:23 来源:中国专利 TAG:


1.本发明涉及一种脑卒中疾病预测方法,具体是一种基于数据挖掘的疾病预测方法,属于数据挖掘技术领域。


背景技术:

2.世界卒中组织将每年的10月29日定为“世界卒中日”,脑卒中,即口语中的“中风”,是一种脑血管意外,一种急性脑血管疾病。卒中已成为世界人口的第二大死因,仅次于缺血性心脏病,是一种突然起病的脑血液循环障碍性疾病。临床表现以猝然昏扑、不省人事或突然发生口眼歪斜、半身不遂、智力障碍为主要特征。《2019年中国卫生健康统计提要》数据显示,2018年我国居民因脑血管病致死比例超过20%,这意味着每5名死亡者中至少有1人死于脑卒中。一旦发病,不仅给个人、家庭、社会带来沉重的负担,而且患者得病后的治疗往往是花费了大量的人力、物力、财力,效果仍难以令人满意。
3.2021年对江苏省苏州市某医院过去三年的疾病状况进行普查,针对苏州市姑苏区中的疾病防治的重点人群—老年人的疾病数据来看,主要的疾病有以下五类:高血压、高血脂、糖尿病、心脏病、脑血管疾病,其中脑卒中是慢性病中影响老年人健康最主要的疾病,而且患病人数也呈现逐年增长的趋势。针对上述情况,选取该医院的患者真实数据,通过数据挖掘其数据规律,建立相对应的模型,达到好的预测结果,从而预测是否具有脑卒中疾病风险。


技术实现要素:

4.发明目的:随着脑卒中疾病人数的上升,针对现有技术中存在的问题与不足,为疾病的预测能力,提供一种基于数据挖掘的脑卒中疾病预测方法。
5.技术方案:一种基于数据挖掘的脑卒中疾病预测方法包括:
6.步骤一:数据采集:样本数据的采集和选取。采取江苏省苏州市某医院患者的真实数据,根据《区域健康信息数据平台数据采集接口标准》采集数据,采用的是sql server数据库。同时由于医疗数据的特殊性,某些数据携带有患者的隐私,因此对数据进行一定的脱密处理,继续进行数据分析和预处理的相关工作。
7.步骤二:数据预处理:数据分析和处理。由于数据的特殊性,对于体检数据存在个体信息缺失、病历无记录、数据量纲和单位差异较大等问题,将很大程度的影响模型的训练结果,因此对相关指标进行了数据清洗,缺失值处理和异常值分析,从而规范数据,转化成了符合模型的输入数据,为输入模型作准备。
8.又由于患者的体检数据繁杂,涉及几十项指标,但是不同的指标对于结果的权重不一样,所以要通过数据特征选择和降维进一步确定导致脑卒中发病风险的影响因素,筛选模型的输入数据,降低无效、错误数据对建模的影响,提高建模的准确性。
9.步骤三:建模:预测模型的建立。针对脑卒中的风险预测问题,将疾病辅助预测视为特征分类问题,选取数据挖掘技术中的神经网络分类算法,并在之基础上进行不同神经
网络的混合来提取数据特征。并调节参数,提高模型的准确率。
10.步骤四:模型评估:模型的评估。建立模型后,结果的评价直接关系着模型的价值,混淆矩阵可以通过矩阵的形式来呈现算法性能的可视化效果,通过混淆矩阵,可以得到分类预测模型的分类准确率,分类精确率,召回率,以及f1分数。因此,通过准确率、精确率、召回率、f1分数四个指标来评估模型,并通过对照模型实验来验证模型的有效性。
11.有益效果:与现有技术相比,本发明所提供的一种基于数据挖掘的脑卒中疾病预测方法有很高的预测性,利用1dmscnn senet gru算法,可该算法的评价指标准确率、精确度、召回率较高,可实现较强的预测能力。
附图说明
12.图1为本发明的总体结构图;
13.图2为本发明的系统流程图;
14.图3为本发明的数据处理流程图;
15.图4为本发明的算法流程图;
具体实施方式
16.下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本技术所附权利要求所限定的范围。
17.包括以下步骤:
18.步骤101,请参阅图2,根据《区域健康信息数据平台数据采集接口标准》采集数据。
19.步骤102,请参阅图2,通过sql server数据库建立实体之间的关系数据表,其中包括以下数据表:脑卒中专项档案(jb_ncz_zxda)、脑卒中随访记录(jb_ncz_sfjl)、个人疾病史(da_gr_jbs)、个人家族史(da_gr_jzs)。
20.步骤103,请参阅图2,采用连接查询对数据集成,过程中主要解决数据冗余问题、数据值冲突的检测和处理。
21.步骤104,请参阅图2,预处理模块:对相关指标进行数据清洗,缺失值处理和异常值分析,从而规范数据,转化成符合模型的输入数据,为输入模型作准备。对于缺失率超过95%以上的数据进行特征删除,因为原始数据缺失值太多会失去数据的参考价值。剔除以上缺失数据之后,对于剩下缺失值数据使用中位数填补空缺。
22.步骤105,请参阅图3,对异常值的处理采用3sigma方法。3sigma又称为拉依达准则,数据需要服从正态分布。在3sigma原则下,异常值如超过3倍标准差,那么可以将其视为异常值。3σ原则为数值分布在(μ-σ,μ σ)中的概率为0.6827,数值分布在(μ-2σ,μ 2σ)中的概率为0.9545,数值分布在(μ-3σ,μ 3σ)中的概率为0.9973,取值几乎全部集中在(μ-3σ,μ 3σ)区间内,超出这个范围的可能性仅占不到0.3%。
23.步骤106,请参阅图3,使用logistic逻辑回归分析法进行属性子集选择来对数据集进行降维处理。该分析方法可以从上一步得到的数据中发现各种体检数据指标与是否患病这一疾病结果之间的因果关系,其中的因果关系是通过回归系数表示,从而得到与脑卒中疾病发生最密切的影响指标,从而确定为自变量并作为属性特征。
24.步骤107,请参阅图4,建模模块:提出了多尺度卷积循环神经网络算法,采用了gru模型作为序列处理的基本模型。由于数据时间序列信噪比高的特点,直接作为gru的输入并不能得到最优的分类性能。因而在gru模块之前引入了多尺度的一维卷积核进行初级特征提取和滤波。多尺度卷积核的另一个功能是在不同时间尺度上自动学习不同数据之间的交互关系。多尺度卷积核与gru的配合可以充分发掘数据中蕴含的时间和空间信息,突破了传统框架。
25.步骤108,请参阅图4,多尺度一维卷积神经网络:在一维卷积神经网络中,一个卷积层的kernel是单一尺度的,导致卷积层只能从数据中提取一定尺度的特征,无法获得鲁棒性强的多尺度特征来拟合不同的结果。多尺度一维卷积网络是在同一层级增加更多的网络通道,每个通道使用不同尺寸的卷积核,使得网络通道变得更宽而不是简单的变得更深,将体检数据和回访数据输入模型,实现对特征的多尺度提取,以下公式是工作原理:
[0026][0027]
步骤109,请参阅图4,senet:在每个分支的最max-pooling后面构造通道注意力模块。senet通过学习的方式自动获取每个特征通道的重要程度,即根据不同特征图的信息量自适应地确定其选择权重。选择性权值直接作用在特征映射上实现动态特征选择,这些权值会在模型的训练过程中自动更新。然后通过concatenate feature进行特征融合。
[0028]
步骤110,请参阅图4,gru门控循环单元:gru作为lstm的一种变体,将忘记门和输入门合成了一个单一的更新门。同样还混合了细胞状态和隐藏状态,加诸其他一些改动。最终的模型比标准的lstm模型要简单,也是非常流行的变体。gru中的两个主门:更新门和重置门。通过更新门和重置门保存数据在时间维度上的信息,输入特征进入两个不同方向的模型结构中,通过隐藏单元特征计算,最后由该时刻的两个隐藏单元的输出向量连接构成该时刻输出,
[0029]
重置门:r
t
=σ(wrx
t
w
rht-1
br)
[0030]
更新门:z
t
=σ(wzx
t
w
zht-1
bz)
[0031]
步骤111,请参阅图4,dropout层和softmax。通过dropout和softmax输出分类结果。
[0032]
步骤112,对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
[0033]
步骤113,此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献