一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于大数据的人群密度预测方法及系统

2022-04-16 12:16:26 来源:中国专利 TAG:


1.本发明属于机器学习、大数据处理技术领域,尤其基于多模型融合人群密度预测算法。


背景技术:

2.2019新型冠状病毒(covid-19)感染的肺炎疫情发生对人们生活生产的方方面面产生了重要影响。人口的流动聚集,客观上加大了疫情传播的风险和防控的难度。出于对公共卫生、重大公共利益相关影响的为研究目的,为进一步掌握人员流动聚集动向,针对疫情相关的做重点区域人群聚集密度预测。


技术实现要素:

3.本发明旨在解决以上现有技术的问题。提出了一种基于大数据的人群密度预测方法及系统。本发明的技术方案如下:
4.一种基于大数据的人群密度预测方法,其包括以下步骤:
5.101.对区域的历史人流量指数数据进行异常值清洗、中位数填充等预处理操作;
6.102.根据时间把预处理后的数据划分为训练集和测试集;
7.103.根据区域间的人流量流动指数构建区域关联图;
8.104.对区域关联图数据进行编码处理;
9.105.对训练集和测试集进行特征工程构建操作;
10.106.对经过特征工程构建的数据建立多个机器学习模型,并进行模型融合操作;
11.107.通过已建立的模型,根据区域的经纬度、所在网格面积在内的数据预测区域人群密度,提前分配部署人员。
12.进一步的,所述步骤101对数据进行预处理操作,具体包括:数据预处理包括区域的历史人流量数据和网格历史人流量指数数据的处理,根据数据表的描述以及物理理解进行如下处理:
13.①
对异常值进行清洗;
14.删除原始数据集中疫情爆发之前的样本,删除疫情期间区域人流量缺少的样本;
15.②
区域网格数据的经纬度以本区域在周边区域的所有经纬度的中位数代替。
16.进一步的,所述步骤102根据时间把预处理后的数据划分为训练集和测试集,具体包括:
17.根据记录时间对数据进行划分操作:根据区域人流量指数数据的分析以及预测时间段,找到合适的时间划分区间,采用2种时间窗划分方法把区域人流量指数数据划分为训练集和测试集。
18.①
训练集的历史区间为day1~day7,标签区间为day8~day14,测试集的历史区间为day8~day14,标签区间为day15~day21;
19.②
训练集的历史区间为day1~day11,标签区间为day4~day14,测试集的历史区
间为day8~day18,标签区间为day15~day21;
20.其中第二种时间划窗中,测试集的历史数据day15~day18的数据来源于嫁接学习,就是由模型预测。
21.进一步的,所述步骤103根据区域间的人流量流动指数构建区域关联图,具体包括;
22.根据网格构建区域之间的关联图,区域中心所在的网格代表来这个区域最核心的人群密度信息,所以直接按照数据给定的区域中心所在网格这一关系来构建区域关联图,有些区域所在的中心网格并没有在网格联系强度数据中出现,等价于网格缺失,所以对这些区域需要重新寻找距离区域中心最近的网格来代表这个区域;最终构建24个加权有向图,分别对应24个小时下区域之间的关系网络,边上的权重表示区域间的联系强度。
23.进一步的,所述步骤104对区域关联图数据进行编码处理,具体包括:构建区域关联图之后对区域的特征空间进行提取,时刻t的有向图中存在区域a指向区域b的连边表示t时刻a到b有一定的人群流动性,所以选择基于随机游走的图嵌入算法来学习24个小时对应的空间特征,选择node2vec算法。
24.进一步的,所述选择基于随机游走的图嵌入算法来学习24个小时对应的空间特征,具体包括;
25.node2vec对网格区域之间的关联图的一个随机游走,如果已经采样了节点(t,v),也就是说现在停留在节点v上,那么下一个要采样的节点根据下一个节点与节点t的关系来决定;如果t与x相等,那么采样x的概率为如果t与x相连,那么采样x的概率1;如果t与x不相连,那么采样x概率为p、q为参数。
26.进一步的,所述步骤105对数据进行特征工程构建操作,具体包括:根据区域人流量指数数据和区域网格数据的分析,对训练集和测试集进行特征工程构建;
27.所述对特征工程进行构建是指对区域历史人流量指数数据构建基础特征、区域关联图特征空间特征及交叉特征。
28.进一步的,所述基础特征是指:当前区域人流量的每天统计、周末节假日的统计,区域、人、区域-网格人流量的数的差分、环比、同比、总和及其均值、方差;区域覆盖半径,区域覆盖面积,区域单位面积人流量,区域面积人流量,以及天气相关特征;
29.所述区域关联图特征空间特征是指:基于网格构建区域之间的关联图,按照数据给定的区域中心所在网格这一关系来构建区域关联图,有些区域所在的中心网格并没有在网格联系强度数据中出现,等价于网格缺失,对这些区域需要重新寻找距离区域中心最近的网格来代表这个区域,构建24个加权有向图,分别对应24个小时下区域之间的关系网络,边上的权重表示区域间的联系强度;
30.所述交叉特征是指:挖掘基础特征之间的关系,区域某一天24h的人流量与网格面积的占比。
31.进一步的,所述步骤106建立多个梯度上升树模型,并进行模型融合操作:用构建完特征的训练集去训练7个catboost模型;
32.catboost模型分别对基础特征、区域关联图特征空间特征、交叉特征进行特征选
择,按照特征重要性排序,在基础特征中选取特征重要性大于方差的特征,在区域关联图特征空间特征中选取特征重要性大于13的特征,在交叉特征中选取特征重要性大于67的特征;catboost模型参数在默认参数乘以随机系数,系数范围为0.5~1.3,从而生成7个不同的catboost模型。这些catboost模型以stacking进行模型融合,用线性回归以五折交叉拟合每一折得到5个系数,以这5个系数的均值作为该catboost的融合系数作为stacking的第一层,再以这多个catboost模型进行训练,得到7个catboost的预测结果,将预测结果乘上各自的融合系数,求和得到最终预测。
33.一种基于任一项所述方法的人群密度预测系统,其包括:
34.预处理模块:用于对区域的历史人流量指数数据进行异常值清洗、中位数填充等预处理操作;并根据时间把预处理后的数据划分为训练集和测试集;
35.区域关联图构建模块:用于根据区域间的人流量流动指数构建区域关联图;
36.编码模块:用于对区域关联图数据进行编码处理;
37.特征工程构建模块:用于对训练集和测试集进行特征工程构建操作;
38.融合模块:用于对经过特征工程构建的数据建立多个机器学习模型,并进行模型融合操作;
39.预测学习模块:用于通过已建立的模型,根据区域的经纬度、所在网格面积在内的数据预测区域人群密度,提前分配部署人员。
40.本发明的优点及有益效果如下:
41.本发明的创新主要是103到104的权利要求的步骤;步骤103根据区域间的人流量流动指数构建区域关联图,步骤104对区域关联图数据进行编码处理;现有技术很难对区域间的流量流动变化进行量化表征,只能片面的表征;而本发明采用的方案可以高效表征各个区域间的流动及变化,可以全面的涵盖数据的变化;将多维度的数据映射到一个二维的数据中,对于机器学习模型的适应更加充分,预测精度提升明显。
附图说明
42.图1是本发明提供优选实施例一种基于大数据的人群密度预测方法的流程图;
43.图2是基于随机游走的图嵌入算法node2vec示意图。
具体实施方式
44.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
45.本发明解决上述技术问题的技术方案是:
46.如图1所示,一种基于大数据的人群密度预测方法,其包括以下步骤:
47.101.对区域的历史人流量指数数据进行预处理操作;
48.102.根据时间把预处理后的数据划分为训练集和测试集;
49.103.根据一定规则构建区域关联图;
50.104.对区域关联图数据进行编码处理;
51.105.对训练集和测试集进行特征工程构建操作;
52.106.对经过特征工程构建的数据建立多个机器学习模型,并进行模型融合操作;
53.107.通过已建立的模型,根据区域的经纬度、所在网格面积等数据预测该区域人群密度。使得在疫情期间,国家、政府能够对该区域人群密度有所了解,提前分配抗疫资源,部署医护人员等;
54.一种基于大数据的人群密度预测方法,所述对数据进行预处理操作:数据预处理包括区域的历史人流量数据和网格历史人流量指数数据的处理,根据数据表的描述以及物理理解进行如下处理:
55.①
对异常值进行清洗;
56.删除原始数据集中疫情爆发之前的样本,删除疫情期间区域人流量缺少的样本;
57.②
由于区域网格数据中的经纬度存在测量不准确的问题,区域网格数据的经纬度以该区域在周边区域的所有经纬度的中位数代替。
58.一种基于大数据的人群密度预测方法,其特征在于,所述根据记录时间对数据进行划分操作:根据区域人流量指数数据的分析以及预测时间段,找到合适的时间划分区间,采用2种时间窗划分方法把区域人流量指数数据划分为训练集和测试集。
59.①
训练集的历史区间为day1~day7,标签区间为day8~day14,测试集的历史区间为day8~day14,标签区间为day15~day21。
60.②
训练集的历史区间为day1~day11,标签区间为day4~day14,测试集的历史区间为day8~day18,标签区间为day15~day21。
61.其中第二种时间划窗中,测试集的历史数据day15~day18的数据来源于嫁接学习,就是由模型预测。
62.一种基于大数据的人群密度预测方法,所述根据一定规则构建区域关联图:根据网格构建区域之间的关联图,区域中心所在的网格代表来这个区域最核心的人群密度信息,所以直接按照数据给定的区域中心所在网格这一关系来构建区域关联图。有些区域所在的中心网格并没有在网格联系强度数据中出现,等价于网格缺失,所以对这些区域需要重新寻找距离区域中心最近的网格来代表这个区域。最终可以构建24个加权有向图,分别对应24个小时下区域之间的关系网络,边上的权重表示区域间的联系强度。
63.一种基于大数据的人群密度预测方法,所述对区域关联图数据进行编码处理:构建区域关联图之后对区域的特征空间进行提取,时刻t的有向图中存在区域a指向区域b的连边表示t时刻a到b有一定的人群流动性,所以选择基于随机游走的图嵌入算法来学习24个小时对应的空间特征。选择node2vec算法;
64.一种基于大数据的人群密度预测方法,所述对数据进行特征工程构建操作:根据区域人流量指数数据和区域网格数据的分析,对训练集和测试集进行特征工程构建;
65.所述对特征工程进行构建是指对区域历史人流量指数数据构建基础特征、区域关联图特征空间特征、交叉特征等;
66.所述基础特征是指:当前区域人流量的每天统计、周末节假日的统计,区域、人、区域-网格人流量的数的差分、环比、同比、总和及其均值、方差;区域覆盖半径,区域覆盖面积,区域单位面积人流量,区域面积人流量,以及天气相关特征;
67.所述区域关联图特征空间特征是指:给出的数据是200m*200m的网格联系强度,网格和区域之间没有严格的对应关系(区域可能包含多个网格,网格内也可能有多个区域),所以基于网格构建区域之间的关联图。按照数据给定的区域中心所在网格这一关系来构建
区域关联图。有些区域所在的中心网格并没有在网格联系强度数据中出现,等价于网格缺失,对这些区域需要重新寻找距离区域中心最近的网格来代表这个区域。构建24个加权有向图,分别对应24个小时下区域之间的关系网络,边上的权重表示区域间的联系强度。构建区域关联图之后对区域的特征空间进行提取,时刻t的有向图中存在区域a指向区域b的连边表示t时刻a到b有一定的人群流动性,选择基于随机游走的图嵌入算法node2vec来学习24个小时对应的空间特征;
68.所述交叉特征是指:挖掘基础特征之间的关系,区域某一天24h的人流量与网格面积的占比等;
69.一种基于大数据的人群密度预测方法,其特征在于,所述建立多个机器学习模型,并进行模型融合操作:用构建完特征的训练集去训练7个catboost模型。
70.catboost模型分别对基础特征、区域关联图特征空间特征、交叉特征进行特征选择,按照特征重要性排序,在基础特征中选取特征重要性大于方差的特征,在区域关联图特征空间特征中选取特征重要性大于13的特征,在交叉特征中选取特征重要性大于67的特征;catboost模型参数在默认参数乘以随机系数,系数范围为0.5~1.3,从而生成7个不同的catboost模型。这些catboost模型以stacking进行模型融合,用线性回归以五折交叉拟合每一折得到5个系数,以这5个系数的均值作为该catboost的融合系数作为stacking的第一层,再以这多个catboost模型进行训练,得到7个catboost的预测结果,将预测结果乘上各自的融合系数,求和得到最终预测。过程如下:
71.①
分别对7个模型调用线性回归得到每一折的预测结果。其中y
m_n predict
表示第m个模型第n折的预测结果,w
m_n_z
表示第m个模型的第n折的第z个线性回归系数:
[0072][0073][0074]
……
[0075][0076]

将7个模型的预测结果作为x,该训练集每一折的真实标签作为y,再次调用线性回归模型:
[0077][0078]

则7个模型最终的融合系数为:
[0079][0080][0081]
……
[0082][0083]
参考图1,图1为本发明实施例一提供基于大数据的人群密度预测方法的流程图,具体包括:
[0084]
101.收集区域人流量数据并对数据进行预处理操作:收集区域人流量数据、迁徙指数数据,网格联系强度数据,具体如下:
[0085]
收集区域人流量数据包括区域id,区域名称,区域类型,区域中心点经度,区域中心点纬度,区域中心点所在网格的中心点经度,区域中心点所在网格的中心点纬度,区域面积等;
[0086]
[0087][0088]
表1区域人流量指数数据
[0089]
收集迁徙指数信息数据包括迁徙日期,迁徙出发省份,迁徙出发城市,迁徙到达省份,迁徙到达城市,迁徙指数。
[0090][0091]
表2迁徙指数信息数据
[0092]
收集网格联系强度包括出发网格中心点经度,出发网格中心点纬度,到达网格中
心点经度,到达网格中心点纬度,联系强度。
[0093][0094]
表3网格联系强度数据
[0095]
102.给定的区域中心所在网格构建区域关联图,构建区域关联图之后对区域的特征空间进行提取,基于随机游走的图嵌入算法node2vec来学习24个小时对应的空间特征。如图2所示。
[0096]
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
[0097]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0098]
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献