一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种老年肺癌发病危险因素定量分析方法与流程

2022-02-20 14:09:32 来源:中国专利 TAG:


1.本发明涉及一种老年肺癌发病危险因素定量分析方法,属于医学生物信息处理技术领域。


背景技术:

2.肺癌已成为全球发病率和死亡率增长最快的恶性肿瘤,尤其在老年人中更加突出,对其生活质量产生很大影响,也给国家和家庭带来巨大经济压力,同时,老年人肺癌发病隐匿、临床表现无特异性,容易出现误诊和漏诊,又加上年龄偏大,易伴随发生或共存多系统疾病,导致后续治疗难度增加。近年来,随着我国人口老龄化日益凸显,开展积极有效的针对老年人的肺癌预防和控制研究越来越急迫。但是,肺癌发生是个复杂的过程,涉及多种危险因素的综合作用,及时发现这些危险因素与肺癌发病之间的定量关联关系,有助于了解老年肺癌发病机理,有利于有效开展针对老年肺癌的精准预防,能够为积极应对老龄化战略目标提供技术支撑。
3.本发明采用深度学习方法识别老年肺癌发病的危险因素,并定量分析这些危险因素对肺癌发生的影响程度。


技术实现要素:

4.本发明的目的在于针对老年肺癌发生与多种危险因素之间的定量关联关系尚不明确的问题,提出了一种老年肺癌发病危险因素定量分析方法,该方法基于深度神经网络定量分析老年肺癌发病危险因素。
5.本发明的核心思想为在于:整合调查对象的相关数据,如人口统计学数据,吸烟习惯、疾病史、辐射暴露和行为风险有关数据;针对肺癌实际发病人数远低于未患病人数的问题,开展数据不平衡处理,进而对数据进行预处理和分层划分;使用深度神经网络方法对老年分层数据分别训练模型,识别出各自的危险因素,开展老年肺癌发病危险因素的定量分析。
6.为了实现上述目的,本发明采用的技术方案如下:
7.所述老年肺癌发病危险因素定量分析方法,包括如下步骤:
8.步骤1、获取老年人调查数据,并结合气象数据和环境数据,整合形成跨领域数据源m;
9.步骤2、在步骤1得到跨领域数据源m的基础上开展数据预处理,得到预处理后数据,具体包括如下子步骤:
10.步骤2.1、采用合成少数过采样smote对数据进行平衡处理,得到平衡处理后数据;
11.其中,smote,即合成少数过采样;所述平衡处理即解决数据不平衡问题,该不平衡问题由于肺癌患病率低,实际发病人数远低于未患病人数而引起的;
12.步骤2.2、对平衡处理后数据采取空缺值弥补和噪声平滑,得到平滑后数据;
13.其中,平滑后数据与平衡处理后数据相比,解决了数据源即平衡处理后数据存在
空缺值以及数据不完整的问题;
14.步骤2.3、对步骤2.2输出的平滑后数据进行分层划分,得到预处理后数据;
15.其中,分层划分,具体为:首先对数据按照性别划分,然后按照年龄大于等于r岁和小于r岁进行划分,从而生成n组分层人群,分层划分后的数据,称为预处理后数据;
16.步骤3、用步骤2得到的预处理后数据分别训练深度神经网络模型,得到各分层人群的危险因素,具体包括:
17.步骤3.1、对n组分层人群的数据分别进行数据格式转换,分别建立训练集和测试集;
18.其中,n组分层人群的数据中的x%为训练集,1-x%为测试集;
19.其中,x%中x的范围为50到80;
20.步骤3.2、利用训练集训练产生n个训练好的深度神经网络模型,具体为:把训练集中的数据作为深度神经网络模型的输入,通过隐含层计算不同危险因素的权重,在输出层得到危险因素各自的权重值,得到n个训练好的深度神经网络模型;
21.其中,隐含层权重构成了训练好后的深度神经网络模型;
22.步骤3.3、将测试集输入n个训练好的深度神经网络模型,识别出各分层人群的危险因素,具体为:把测试集中的数据作为n个训练好的深度神经网络模型的输入,神经网络模型隐含层计算不同危险因素的权重,输出层得到危险因素各自的权重值;
23.步骤4、对各分层人群的危险因素对应的不同分层人群肺癌发病危险因素的权重分别进行归一化处理,得到定量的n组分层人群的危险因素;
24.至此,从步骤1到步骤4完成了一种老年肺癌发病危险因素定量分析方法。
25.有益效果
26.本发明提出的一种老年肺癌发病危险因素定量分析方法,与现有大多数采用的线性回归、逻辑回归等统计学危险因素分析方法相比,具有如下有益效果:
27.1.所述老年肺癌发病危险因素定量分析方法采用深度神经网络方法具有计算精度高和计算速度快的优势,可作为大规模数据的高速计算使用;
28.2.所述老年肺癌发病危险因素定量分析方法具有定量化分析、准确率高的优点,并且操作简单。
附图说明
29.图1为本发明一种老年肺癌发病危险因素定量分析方法的原理图;
30.图2为本发明一种老年肺癌发病危险因素定量分析方法中危险因素识别模型构建原理图。
具体实施方式
31.下面结合附图和实施例对本发明一种老年肺癌发病危险因素定量分析方法做进一步的详细说明。
32.实施例1
33.本实施例叙述了本发明一种老年肺癌发病危险因素定量分析方法基于深度神经网络定量分析老年肺癌发病危险因素的具体实施时,结合图1包括如下步骤:
34.步骤1、获取老年人调查数据,整合形成涉及多领域的老年调查数据源m,具体实施时调查1996-2017年的数据、气象和环境数据,整合得到跨领域数据源m;
35.以1996-2017年235000名成年人调查数据作为模型的部分输入,其中老年人占35%,同时按照调查数据对应日期把气象数据、环境数据和调查数据整合到一起,形成跨领域数据源m,共同作为老年肺癌发病危险因素识别模型的输入;
36.步骤2、在步骤1得到数据源m的基础上开展数据预处理,具体过程如下:
37.步骤2.1、采用合成少数过采样技术(smote)对数据进行平衡处理来解决由于肺癌患病率低,实际发病人数远低于未患病人数,从而引起数据不平衡问题;
38.步骤2.2、采取空缺值弥补和噪声平滑数据预处理技术解决数据源存在空缺值、数据不完整的问题;
39.步骤2.3、对步骤2.2基础上得到的数据进行分层划分;
40.具体方法为:首先对数据按照性别划分,在此基础上按照年龄大于等于r岁和小于r岁进行划分,从而生成n组分层人群;
41.步骤3、用步骤2得到的分层人群分别训练深度神经网络模型;具体包括:
42.步骤3.1、对n组分层人群的数据分别进行数据格式转换;
43.步骤3.2、利用n组分层人群训练生产n个深度神经网络模型;具体方法为:把整合后的数据作为深度神经网络模型的输入,通过隐含层计算不同危险因素的权重,在模型的输出层得到危险因素各自的权重值,整个过程如图2危险因素识别模型构建原理所示;
44.步骤3.3、通过深度神经网络模型识别出各分层人群的危险因素;
45.步骤4、对不同分层人群肺癌发病危险因素的权重分别进行归一化处理,从而在n组分层人群中对各自的危险因素进行定量分析。
46.用步骤2得到的预处理后数据分别训练多元逻辑回归模型,分析老年肺癌发病危险因素,与步骤4输出的n组分层人群的危险因素进行对比,完成老年肺癌发病危险因素定量分析。具体为:利用分层人群分别训练生成基于深度神经网络的老年肺癌发病危险因素识别模型,采用十折交叉法对模型进行验证,模型性能如表1所示。表1中采用深度神经网络模型性能与多元逻辑回归模型有明显提升,在60岁以上、男性60岁以上、女性60岁以上和全体人群的模型准确率分别提升9.32%、7.98%、8.53%和8.86%,而且深度神经网络模型训练速度快,节省了时间成本。
47.表1老年肺癌发病危险因素识别模型性能
[0048][0049]
通过四个老年肺癌发病危险因素识别模型,得到四组分层人群中危险因素对肺癌发病的影响程度如表2所示。
[0050]
表2分层人群中危险因素对肺癌发生的影响程度
[0051][0052]
对不同分层人群中肺癌发病危险因素定量分析,得到以下结果:
[0053]
1.戒烟时长和吸烟频次是60岁以上老年人发生肺癌的主要危险因素。这种情况在60岁以上老年男性中更为明显。同时,戒烟时间短、每天多次吸烟的老年男性更容易发生肺癌。
[0054]
2.吸烟频次是60岁以上男性发生肺癌的最主要危险因素。如表2所示,在60岁以上老年男性组别中,吸烟频次和戒烟时长的权重分别是0.20和0.15,吸烟频次的权重比戒烟时长高33.3%。同时,老年男性中排在前四位的危险因素分别为吸烟频次、戒烟时长、是否使用电子烟和至少吸烟5包,且都与吸烟有关。这些与吸烟有关的危险因素对老年男性发生肺癌的影响更大。因此,老年男性积极戒烟更有利于减少肺癌的发生。
[0055]
3.戒烟时长和至少吸烟5包是60岁以上女性发生肺癌最主要的危险因素。如表2所示,在60岁以上女性中戒烟时长的权重是0.21,比至少吸烟5包的权重高16.7%。在老年女性中排在前三位的危险因素(戒烟时长、至少吸烟5包和吸烟频次)都与吸烟有关。因此,吸烟有关危险因素对老年女性发生肺癌的影响比其他危险因素要大。
[0056]
4.在四组分层人群,癌症病史是排序比较靠前的肺癌发病危险因素。这可能提示癌症病史在肺癌发病过程中起到一定作用。
[0057]
5.辐射暴露对60岁以上女性发生肺癌的影响比其他组别人群要大。另外,体育活动情况对全体人群发生肺癌也有一定程度的影响。
[0058]
以上结合了一具体实施例对本发明的实施方式进行详细描述,但是对于本领域技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进,这些也视为属于本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献