一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于强化学习的宏观规律事件预测模型构建方法与流程

2022-07-13 14:55:24 来源:中国专利 TAG:


1.本发明涉及大数据分析技术领域,具体为一种基于强化学习的宏观规律事件预测模型构建方法。


背景技术:

2.现阶段在我国,随着时代的发展,科技水平的进步,同时也伴随着各类新兴事物的崛起,人类的社会行为也在日益翻新。如何通过宏观的历史事件,基于真实的时间、空间和社会环境信息,社会中的种种行为进行预测,从而提前预知可能发生的事件,可以大大提升社会效率。
3.目前在社会上关于社会行为的事件预测方法较少,在该方面存在空白。因此我们对此提出一种基于强化学习的宏观规律事件预测模型构建方法。


技术实现要素:

4.为了解决上述技术问题,本发明提供了如下的技术方案:
5.本发明一种基于强化学习的宏观规律事件预测模型构建方法,包括如下步骤:
6.s1、统计所有事件数据,对数据进行清洗,清除无效值和缺失值,确保数据准确无误;
7.s2、基于事件发生所属区域划分进行数据统计,对于区域划分所属的事件和人、车流量进行统计,并对不同事件进行分类,统计事件对应的人员个体特征;
8.s3、基于朴素贝叶斯算法,对不同类型的事件进行分类,得到分类器a,预测人群中不同个体对不同事件的倾向及预测事件类型;
9.s4、基于事件时空数据和类型进行朴素贝叶斯算法分类,得到分类器b,计算人员在真实具体时段内的事件发生概率;
10.s5、根据背景环境下的人员属性分布情况,随机生成大量人员,基于分类器a对人群进行行为倾向分类,找出不同事件发生人群;
11.s6、使用强化学习蒙特卡洛树搜索模型mcts对s5中的人群进行事件模拟,并基于s4中的关于时段对行为影响的分类器b生成基于时间段的事件概率预测,协同人员行为倾向所属类别的特征值奖励函数,对该次强化学习蒙特卡洛树搜索模型mcts搜索进行计算,实现对该场景内的行为情况进行预测。
12.作为本发明的一种优选技术方案,所述s2和s3中的朴素贝叶斯算法的计算公式为:
13.作为本发明的一种优选技术方案,所述s4中的事件时空数据包括事件所在的季节、是否为法定休息日、是否为法定节假日或前后、事件时间点、区域人流量和区域内监控数量。
14.作为本发明的一种优选技术方案,所述s6中的强化学习蒙特卡洛树搜索模型 mcts的运行流程包括:
15.a、选择:先选择未被探索的子节点,若都搜索过,则选择ucb值最大的子节点;
16.b、扩展:在上述选中的子节点中走一步创建一个新的子节点;
17.c、模拟:对上述创建出来的节点开始模拟,直到整个搜索树达到叶节点结束,便可计算这个拓展出来的节点总分为多少;
18.d、反向传播:将拓展出来的得分反馈到前面所有的父节点中,并更新这些节点的质量值q(v

)和访问次数n(v

),以方便后续计算ucb值。
19.作为本发明的一种优选技术方案,在选择过程中的ucb计算公式如下:
[0020][0021]
其中v

表示当前树节点,v表示父节点,q表示这个树节点的累计奖励函数加权值,n表示这个树节点被选择次数,c是常量。
[0022]
本发明的有益效果是:
[0023]
该种基于强化学习的宏观规律事件预测模型构建方法,首先通过对于历史事件的数据分析,利用分类算法对基于不同人群的特征属性进行分类,基于真实时间、真实环境下使用强化学习模型模拟个体活动,结合特定时段、特定环境下的事件特征数据,以高预测准确率为目标,对某一时段内人员活动进行评分从而对其行为选择进行训练,形成固化模型,进而基于事件规律可实现对未来场景可能发生的事件行为进行预测。
附图说明
[0024]
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
[0025]
图1是本发明一种基于强化学习的宏观规律事件预测模型构建方法的流程图。
具体实施方式
[0026]
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
[0027]
实施例1
[0028]
如图1所示,本发明一种基于强化学习的宏观规律事件预测模型构建方法,首先通过对于历史事件的数据分析,利用分类算法对基于不同人群的特征属性进行分类,基于真实时间、真实环境下使用强化学习模型模拟个体活动,结合特定时段、特定环境下的事件特征数据,以高预测准确率为目标,对某一时段内人员活动进行评分从而对其行为选择进行训练,形成固化模型,对未来场景可能发生的事件行为进行预测。具体步骤如下:
[0029]
s1、统计所有事件数据,对数据进行清洗,清除无效值和缺失值,确保数据准确无误;
[0030]
s2、基于事件发生所属区域划分进行数据统计,对于区域划分所属的事件和人、车流量进行统计,对不同事件进行分类,统计事件对应的人员个体特征;
[0031]
s3、基于朴素贝叶斯算法,对不同类型的事件进行分类,得到分类器,其主要计算公式为:
[0032][0033]
通过使用该分类器可以预测人群中不同的个体对不同事件的发生倾向,同时预测其事件类型;
[0034]
s4、为了模拟客观真实的环境和探究不同时间对事件发生概率的影响,基于事件时空数据,包括事件所在的季节、是否为法定休息日、是否为法定节假日或前后、事件时间点(早、中、下、晚)、区域人流量、区域内监控数量等基于事件类型进行朴素贝叶斯分类,得到分类器,其计算公式同s3;
[0035]
s5、根据背景环境下的人员属性分布情况,随机生成大量人员,基于s3中的分类器对人群进行行为倾向分类,找出不同事件发生人群;
[0036]
s6、为了模拟步骤5中不同人群在真实环境下的事件行为,使用强化学习蒙特卡洛树搜索模型(下简称mcts)对s5中的人群进行事件模拟,以可以长时间事件的条件。基于s4中的关于时段对行为影响的分类器生成基于时间段的事件概率预测,协同人员行为倾向所属类别的特征值奖励函数对该次mcts搜索进行计算。
[0037]
其中mcts主要运行流程包括:
[0038]
a、选择:在整个树中找到一个最好的值得搜索的节点,一般策略是先选择未被探索的子节点,如果都搜索过那就选择ucb值最大的子节点;
[0039]
b、扩展:在前面选中的子节点中走一步创建一个新的子节点,一般策略是随机自行一个操作并且这个操作不能与前面的子节点重复;
[0040]
c、模拟:再前面新扩展出来的节点开始模拟,直到整个搜索树达到叶节点结束,这样就可以计算这个拓展出来的节点总分为多少;
[0041]
d、反向传播:前面拓展出来的得分反馈到前面所有的父节点中,更新这些节点的质量值q(v

)和访问次数n(v

),以方便后续计算ucb值。
[0042]
其中,在选择过程中的ucb计算公式如下:
[0043][0044]
其中v

表示当前树节点,v表示父节点,q表示这个树节点的累计奖励函数加权值,n表示这个树节点被选择次数,c是常量。
[0045]
通过对mcts最终在特定时段内、特定环境下的人员可能性最大的行为选择,据此对该场景内的行为情况进行预测。
[0046]
实施例2
[0047]
以“某市某责任区事件对抗预测”这个待分析事件为例进行叙述:
[0048]
1、首先基于某市某责任区内已有历史事件数据进行数据清洗,清洗后数据如下:
[0049]
表1某责任区历史事件表
[0050][0051]
2、基于该责任区内车流量、人流量进行统计,数据如下:
[0052]
表2某责任区分时段流量统计表
[0053]
监控编号总流量上午中午下午晚上夜里*********1663438292846861*********71424210236271*********15773822627531782*********1089321170497992
[0054]
3基于朴素贝叶斯分类器,对以下不同人员属性数据进行分类处理,生成分类器:
[0055]
表3人员记录表
[0056][0057]
4、基于的事件信息和区域数据,生成基于不同事件对于事件发生时间、空间的分类器;
[0058]
5、基于流程对某市人员属性数据实际分布,随机生成人员共计10000名;
[0059]
表4随机人员生成模拟表
[0060][0061]
6、将以上人员通过s3中生成的分类器对人员进行分类,得到具有特定行为倾向人群,对2022年一月份该人群进行蒙特卡洛树搜索。基于步骤4中生成的分类器,对该时段内
的行为概率进行预测。使用的ucb公式对每次节点进行1000次计算,从而获得该月内特定行为倾向人群的行为。通过在该月内进行了某一行为的人群具体时间段,从而实现对该责任区2022年一月份该事件进行预测。模拟结果如表5所示:
[0062]
表5基于mcts的某一事件的模拟结果
[0063][0064]
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献