一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

影响病毒传播的多因素定量分析方法与流程

2022-03-23 03:03:34 来源:中国专利 TAG:


1.本发明属于定量分析领域,涉及病毒传播预测模型和多因素定量分析模型,具体运用深度神经网络模型对病毒传播进行预测,并对影响传播速度的多因素进行定量分析。


背景技术:

2.定量分析多种因素对于病毒传播的影响将有利于人类更好地了解病毒的传播特性,从而为各国政府在制定病毒传播防控策略时提供理论基础。本发明使用的数据集包括约翰
·
霍普金斯大学系统科学与工程中心(csse)公布的病毒确诊人数公开数据集、开源空气质量网站waqi统计的全球空气质量数据集、中国气象数据网的全球气候数据集、worldpop网站的世界人口数据集,提出dual-link bigru神经网络进行病毒传播预测,使用高斯
‑ꢀ
牛顿迭代法对病毒扩散与各特征因素之间的关系进行定量分析。
3.目前针对病毒传播的广泛研究吸引了全球各地的数据科学家们的注意。putra等人使用粒子群优化算法(pso)来估计易感、感染、恢复(sir)模型中的参数,得出了相较于高斯牛顿法和精准法,pso算法的参数结果更为精确并且误差较低的结论。
4.除此以外,人们提出了许多能够影响病毒传播特性的猜测,例如温度、湿度、人口密度、年龄等特征。在这一方面,学者们也进行了不少的研究,这对于我们揭示病毒的传播特性具有不可忽略的启发。 lin等人在全球范围内研究气候与病毒传播速度之间的关系,得到了病毒的传播速度与气温、相对湿度具有较高相关性的结论。kass等人通过多元线性回归模型分析病毒确诊人数中身体质量指数(bmi) 与年龄之间的关系,得出肥胖症可能增加病毒感染率的结论。hamit等人研究发现人口密度是影响病毒传播速度的主要因素。
5.上述研究普遍存在以下问题:1)数据集所涉及区域的仅限于局部区域,无法从全球范围内分析病毒的传播特性;2)结论仅进行定性分析,无法量化各因素对于病毒传播的影响。针对以上问题,本发明主要探究了在全球范围内病毒传播速度与多重影响因素之间的定量关系。


技术实现要素:

6.基于上述分析,本发明构建了分析病毒传播与各特征因素之间定量关系的模型。该模型首先在全球范围内搜集所需数据,然后通过构建dual-linkbigru预测神经网络进行各国每日新增病例数预测,最后定量分析不同因素对感染病毒的每日新增病例数的影响。本发明提出的方法有助于分析全球范围内的病毒传播趋势,有助于把握病毒定量特性,为后续各国政府对于防疫政策的制定提供更加明确的理论支撑。
7.为了实现上述目的,本发明采用以下技术方案:为了更好地实现整个方法,选择python作为方法编写语言。数据处理阶段使用pandas 实现数据集清洗、数据集划分,其中对于数据缺失数据采用三次样条插值法进行数据补充,对于数据尺度不同的数据进行数据归一化处理,对于所有数据采取特征级融合。模型的搭建与训练主要使用pytorch 进行实现。dual-link bigru由双链路特征网络和全连接网络组成。特征网络中链路1由一维卷积
网络、bigru网络和一维逆卷积网络组成,链路2由一维卷积网络、全连接网络和一维逆卷积网络组成,其中链路1主要负责学习多种因素数据中的时序信息,链路2中的一维卷积网络以更大的卷积核尺寸为网络提供更大的感受野,以学习与链路1不同的特征信息。通过数据对dual-link bigru网络进行训练得到可靠的预测网络,通过预测网络得到在不同特征变化的情况下的模拟数据。使用高斯-牛顿迭代法通过模拟数据不断训练构建的非线性模型,从而估计非线性回归模型的回归参数,确定在各国家中每日新增病例数与各特征之间的定量关系,然后将所有国家同一特征的定量关系系数取均值,最终得到泛化性能较强的,在所选国家中均适用的各特征与每日新增病例数之间的定量关系。
8.一种影像病毒传播的多因素定量分析模型,主要包括:
9.步骤1、收集81个国家的31维度病毒传播影响因素特征共同组成数据集,并对多因素数据集中的数据进行清洗和归一化预处理,统一数据尺度。
10.步骤2、将多因素数据集通过9:1比例划分为训练集和测试集,并通过提取各数据集的特征,对多元数据进行聚集和综合。
11.步骤3、构建双链路病毒传播预测网络dual-link bigru,训练参数,输出估计值。
12.步骤4、对步骤3构建的模型做误差分析,对比bilstm、bigru、 cnn神经网络模型,选取预测误差率低于0.2的模型视为有效模型。
13.步骤5、根据选取的有效模型提取关键特征,生成各国在不同特征条件下的患病人数模拟数据。
14.步骤6、构建多特征数据关系定量分析模型,根据步骤5生成的患病人数模拟数据,使用高斯-牛顿迭代法进行参数估计,通过泰勒级数展开式近似地代替非线性回归模型,通过多次迭代,多次修正估计系数。
15.步骤7、根据步骤6得到的非线性回归模型,得到各国的多特征与患病人数之间的定量关系。
16.步骤8、通过步骤7得到的不同国家的定量关系,总结归纳得到在全球范围内多特征与患病人数之间的定量关系。
17.本发明的创造性主要体现在:
18.目前针对病毒传播的研究仅停留在单一个别因素,尚未有人从多因素定量分析角度入手分析病毒传播的特性。本发明构建了分析病毒传播与多因素之间定量关系的dual-link bigru模型。该模型在预测精确度和泛化能力上相比于bilstm、bigru、cnn均有较大的提升。且本发明中提出的模型是基于31个维度的定量因素而训练而得到的定量分析的病毒传播速度预测模型,其结果表明在所选取的特征因素中,人口密度对于病毒扩散影响最大,人口密度每增加1%,每日新增确诊人数将增加0.699%;其次是落地航班数量,落地航班数量每增加1%,每日新增确诊人数将增加0.566%。
附图说明:
19.图1是本发明的整体技术路线图
20.图2是本发明的预测网络dual-link bigru的网络结构图
21.图3是本发明的预测部分结果图
22.图4是本发明的多因素定量分析结果图
具体实施方式
23.以下结合具体实施例,并参照附图,对本发明进一步详细说明。
24.本发明提供一种影响病毒传播的多因素定量分析模型,具体包括以下步骤:
25.本发明所用到的硬件设备有pc机1台、nvidia gtx1650显卡 1个;
26.步骤1、数据收集:
27.将约翰
·
霍普金斯大学系统科学与工程中心公布有关病毒的确诊人数公开数据集下载并保存。从中国气象数据网搜集并下载全球各地气象站每日记录数据。从人口公开数据集网站worldpop中搜集并下载各个国家和地区的人口和航班数据。从开源空气质量网站waqi 搜集并下载各个国家和地区的空气质量的数据。
28.步骤2、数据预处理:
29.通过对比不同数据集之间的相同的特征数据,选取较为合理的数据作为该特征数据;采取三次样条插值方法对缺失数据进行补充;采取特征级融合,提取各数据集的特征,并按照特征信息对多元数据进行聚集和综合,并通过归一化方法对尺度不一致的数据进行归一化,统一数据尺度。
30.步骤3、数据集划分:
31.本文共搜集了81个国家的31维度特征共同组成数据集。将数据集以9:1的比例划分为训练集与测试集。即每个国家的2020年1月 22日至2020年11月20日期间的各个特征数据集为训练集,2020年 11月21日至2020年12月20日期间的数据为测试集。
32.步骤4、模型训练:
33.使用python语言构建双链路病毒传播预测网络dual-link bigru, dual-link bigru的任务是通过输入数据对每日新增病例数进行回归预测。dual-link bigru通过训练集中每日不同因素与新增病例数之间的关系进行参数训练,在测试集中输入每日各因素的数值,输出对该日的新增病例数的回归估计值。通过测试集合检验当前模型对于数据的表达能力。
34.步骤5、模型预测与结果分析:
35.选取误差率ρ作为评价指标,利用误差率计算公式:
[0036][0037]
其中表示模型预测值,yi表示真实值,m表示样本总数。通过计算获得该指标的数值,用来评测整个测试集样本的模型输出结果与标签之间的差距。本文选取误差率ρ低于0.2的共61个国家病毒预测模型作为有效模型进行后续的定量分析。
[0038]
步骤6、生成模拟数据:
[0039]
通过有效的预测模型生成在不同国家不同特征条件下的患病人数模拟数据。
[0040]
步骤7、构建非线性模型:
[0041]
通过所选择的特征数据能够构建各国患病人数的多元非线性回归模型y=f(x,β) ∈,其中y代表患病人数,x代表特征变量,β代表未知系数,∈代表误差项,是均值为零,方差σ2》0不可观测的随机变量,f代表特征变量与患病人数之间的非线性关系。
[0042]
步骤8、定量分析:
[0043]
通过高斯-牛顿迭代法不断迭代,估计非线性回归模型的未知参数β。根据以上方法,分别得到各国家每日新增病例数与表1各特征之间的系数方程,确定在各国家中每日新增病例数与各特征之间的定量关系,然后将所有国家同一特征的定量关系系数取均值,最终得到泛化性能较强的,在所选国家中均适用的各特征与每日新增病例数之间的定量关系。
[0044]
以上实施例仅为本发明的示例性实施例,不用于限制本发明,本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为落在本发明的保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献