公共策略决策方法、装置、电子设备和存储介质与流程

2021-11-03 21:27:00 来源：中国专利 TAG：

1.本发明涉及人工智能技术领域，具体涉及一种公共策略决策方法、装置、电子设备和存储介质。

背景技术：

2.针对重大突发公共事件，例如突发医疗事件时，由于缺少类似事件经验或事发较为突然等原因，决策制定者往往较难在短时间内针对高风险策略作出决策。
3.目前，应对上述情况常使用模拟仿真系统进行数据仿真，继而采用仿真的数据进行分析，以辅助决策。但是，常用的模拟仿真系统，偏重于数据的传递模拟，例如：根据传染病传染系数及人口流动状态来模拟未来一段时间的病患数量。这种模拟尽管可以作为缺少的信息的补充，但是，较难给出较为量化的辅助决策建议。即，目前常用的模拟系统缺少目标函数，无法进行反向优化过程。在面对重大突发公共事件之类的黑天鹅事件时，专家的关注点、经验预判等条件有所不同，且宏观的条件可能瞬息万变，因此，建立一个可及时提供决策建议，且可解释性强的决策模型，成为亟待解决的问题。

技术实现要素：

4.为了解决现有技术中存在的上述问题，本技术实施方式提供了一种公共策略决策方法、装置、电子设备和存储介质，可以在针对重大突发公共事件，给出可解释性强且合理的决策建议。
5.第一方面，本技术的实施方式提供了一种公共策略决策方法，包括：
6.根据传染病的传染参数建立传染病的传染模型，其中，传染模型用于标识传染病在人群内的传播、发展规律；
7.构建模拟城市群，并根据模拟城市群的参数，建立模拟城市群中的城市节点之间的人口流动模型，其中，模拟城市群包括至少两个城市节点；
8.根据传染模型和人口流动模型，建立第一城市节点的感染人数增量模型，其中，第一城市节点为模拟城市群中任意一个城市节点，感染人数增量模型用于标识第一城市节点每天增长的感染人数的规律；
9.根据预设的封城策略和感染人数增量模型，进行数据仿真，生成仿真数据；
10.将模拟数据输入预设的强化学习模型进行训练，得到决策模型；
11.获取待决策城市以及第一范围内的城市的传染数据，其中，第一范围由待决策城市的位置确定；
12.将传染数据输入决策模型，得到决策结果。
13.第二方面，本技术的实施方式提供了一种公共策略决策装置，包括：
14.模型建立模块，用于根据传染病的传染参数建立传染病的传染模型，其中，传染模型用于标识传染病在人群内的传播、发展规律；
15.环境建立模块，用于构建模拟城市群，并根据模拟城市群的参数，建立模拟城市群
中的城市节点之间的人口流动模型，其中，模拟城市群包括至少两个城市节点；
16.模型建立模块，还用于根据传染模型和人口流动模型，建立第一城市节点的感染人数增量模型，其中，第一城市节点为模拟城市群中任意一个城市节点，感染人数增量模型用于标识第一城市节点每天增长的感染人数的规律；
17.仿真模块，用于根据预设的封城策略和感染人数增量模型，进行数据仿真，生成仿真数据；
18.训练模块，用于将模拟数据输入预设的强化学习模型进行训练，得到决策模型；
19.采集模块，用于获取待决策城市以及第一范围内的城市的传染数据，其中，第一范围由待决策城市的位置确定；
20.决策模块，用于将传染数据输入决策模型，得到决策结果。
21.第三方面，本技术实施方式提供一种电子设备，包括：处理器，处理器与存储器相连，存储器用于存储计算机程序，处理器用于执行存储器中存储的计算机程序，以使得电子设备执行如第一方面的方法。
22.第四方面，本技术实施方式提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序使得计算机执行如第一方面的方法。
23.第五方面，本技术实施方式提供一种计算机程序产品，计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，计算机可操作来使计算机执行如第一方面的方法。
24.实施本技术实施方式，具有如下有益效果：
25.在本技术实施方式中，通过在突发传染病情况下，对传染病的传播特性及城市间的人口流动特性进行分析，构建传染病的传染模型和城市节点之间的人口流动模型，继而根据传染模型和人口流动模型，构建反映一个城市节点每天增长的感染人数的规律的感染人数增量模型。然后，根据预设的封城策略和感染人数增量模型，进行数据仿真，以获取大量的仿真数据对强化学习模型进行训练，得到决策模型。最终，将实际数据输入决策模型，获取对应的决策建议。由此，通过数据仿真，在没有历史资料可以借鉴的情况下，获取大量的仿真数据，为决策提供有力的数据支持，可以有效应对黑天鹅事件。同时，执行数据仿真的模型是通过对传染病的传播特性及城市间的人口流动特性进行分析后所产生的模型，其仿真出的真实性高，由此，可以进一步的提升决策的合理性。最后，强化学习模型的输出结果可分析追溯，深度强化学习不同于单纯深度神经网络黑箱的状态，其给出的决策是通过用户设置的奖励函数进行优化的，故结果是合理的，可解释的。
附图说明
26.为了更清楚地说明本技术实施方式中的技术方案，下面将对实施方式描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本技术的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
27.图1为本技术实施方式提供的一种公共策略决策装置的硬件结构示意图；
28.图2为本技术实施方式提供的一种公共策略决策方法的流程示意图；
29.图3为本技术实施方式提供的一种根据传染病的传染参数建立传染病的传染模型
的方法的流程示意图；
30.图4为本技术实施方式提供的一种传染模型的示意图；
31.图5为本技术实施方式提供的一种模拟城市群中的城市节点之间的人口流动模型的示意图；
32.图6为本技术实施方式提供的一种根据传染模型和人口流动模型，建立第一城市节点的感染人数增量模型的方法的流程示意图；
33.图7为本技术实施方式提供的一种根据预设的封城策略和感染人数增量模型，进行数据仿真，生成仿真数据的方法的流程示意图；
34.图8为本技术实施方式提供的一种公共策略决策装置的功能模块组成框图；
35.图9为本技术实施方式提供的一种电子设备的结构示意图。
具体实施方式
36.下面将结合本技术实施方式中的附图，对本技术实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本技术一部分实施方式，而不是全部的实施方式。基于本技术中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本技术保护的范围。
37.本技术的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
38.在本文中提及“实施方式”意味着，结合实施方式描述的特定特征、结果或特性可以包含在本技术的至少一个实施方式中。在说明书中的各个位置出现该短语并不一定均是指相同的实施方式，也不是与其它实施方式互斥的独立的或备选的实施方式。本领域技术人员显式地和隐式地理解的是，本文所描述的实施方式可以与其它实施方式相结合。
39.首先，参阅图1，图1为本技术实施方式提供的一种公共策略决策装置的硬件结构示意图。该公共策略决策装置100包括至少一个处理器101，通信线路102，存储器103以及至少一个通信接口104。
40.在本实施方式中，处理器101，可以是一个通用中央处理器(centralprocessing unit，cpu)，微处理器，特定应用集成电路(application
‑
specificintegrated circuit，asic)，或一个或多个用于控制本技术方案程序执行的集成电路。
41.通信线路102，可以包括一通路，在上述组件之间传送信息。
42.通信接口104，可以是任何收发器一类的装置(如天线等)，用于与其他设备或通信网络通信，例如以太网，ran，无线局域网(wireless local areanetworks，wlan)等。
43.存储器103，可以是只读存储器(read
‑
only memory，rom)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random accessmemory，ram)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read
‑
onlymemory，eeprom)、只读光盘(compact disc read
‑
only memory，cd
‑
rom) 或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光
碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。
44.在本实施方式中，存储器103可以独立存在，通过通信线路102与处理器 101相连接。存储器103也可以和处理器101集成在一起。本技术实施方式提供的存储器103通常可以具有非易失性。其中，存储器103用于存储执行本技术方案的计算机执行指令，并由处理器101来控制执行。处理器101用于执行存储器103中存储的计算机执行指令，从而实现本技术下述实施方式中提供的方法。
45.在可选的实施方式中，计算机执行指令也可以称之为应用程序代码，本技术对此不作具体限定。
46.在可选的实施方式中，处理器101可以包括一个或多个cpu，例如图1中的cpu0和cpu1。
47.在可选的实施方式中，公共策略决策装置100可以包括多个处理器，例如图1中的处理器101和处理器107。这些处理器中的每一个可以是一个单核 (single
‑
cpu)处理器，也可以是一个多核(multi
‑
cpu)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
48.在可选的实施方式中，若公共策略决策装置100为服务器，则公共策略决策装置100还可以包括输出设备105和输入设备106。输出设备105和处理器101 通信，可以以多种方式来显示信息。例如，输出设备105可以是液晶显示器 (liquid crystal display，lcd)，发光二级管(light emitting diode，led)显示设备，阴极射线管(cathode ray tube，crt)显示设备，或投影仪(projector)等。输入设备106和处理器101通信，可以以多种方式接收用户的输入。例如，输入设备106可以是鼠标、键盘、触摸屏设备或传感设备等。
49.上述的公共策略决策装置100可以是一个通用设备或者是一个专用设备。本技术实施方式不限定公共策略决策装置100的类型。
50.其次，需要说明的是，本技术所提供的公共策略决策方法可应用于各类重大突发事件，例如：传染病下是否封城、洪水下是否泄洪、暴风下是否撤离等重大突发事件中的策略决策。本技术主要以传染病下是否封城的场景为例，说明该公共策略决策方法的过程。其他场景下的公共策略决策方法与传染病下是否封城场景下的公共策略决策方法类似，在此不再赘述。
51.以下，将对本技术所公开的公共策略决策方法进行说明：
52.参阅图2，图2为本技术实施方式提供的一种公共策略决策方法的流程示意图。该公共策略决策方法包括以下步骤：
53.201：根据传染病的传染参数建立传染病的传染模型。
54.在本实施方式中，该传染模型用于标识传染病在人群内的传播、发展规律。示例性的，本技术给出了一种根据传染病的传染参数建立传染病的传染模型的方法，如图3所示，该方法包括：
55.301：对传染病进行分析，确定在传染病环境下人的至少一个状态类型。
56.通常而言，在疾病环境下，由于疾病的特性，人群在患病前后往往会出现多个不同的状态类型，例如：易感染状态、感染状态、死亡状态、康复状态等。在本实施方式中，可以通
过对传染病的历史传染数据进行分析，确定在该环境下的人群所存在的至少一个状态类型。
57.具体而言，在本实施方式中，对传染病的历史传染数据进行分析后，发现感染后的人群中存在即时产生症状的人群，以及无症状的人群。因此，可以将传染病环境下的人群分为6个状态类型，即，易感人群s、感染人群e、感染后有症状人群i、感染后无症状人群a、死亡人群d和康复人群r。
58.302：确定至少一个状态类型中每个状态类型之间的转化关系。
59.在本实施方式中，对传染病的历史传染数据进行分析后，发现人群处于传染病环境下后，即归属于易感人群s。被感染后，由易感人群s转化为感染人群e，再根据感染后有无症状的情况，转化为对应的感染后有症状人群i或感染后无症状人群a。最后，根据是否治愈康复或死亡的情况，转化为对应的死亡人群d或康复人群r。基于此，即可确定该6个状态类型之间的转化关系。
60.303：根据传染参数，确定每个状态类型之间的转化率。
61.在本实施方式中，传染病的传染参数也可以通过对该传染病的历史传染数据进行分析获得。具体而言，传染参数可以包括：易感人群与病例接触病毒传染概率、带症状病例概率、病毒传播起始期、带症状病例死亡概率、潜伏期、康复期等，具体如表1所示。
62.表1：
63.符号值解释d
cub5‑
10(天)潜伏期d
inf7‑
14(天)康复期d
trf
1(天)感染病毒1天后，病毒开始传播p
ei
0.8带症状病例概率p
id
0.02带症状病例死亡概率p
trf
1易感人群与病例接触病毒传染概率
64.由此，可以看到，易感人群s暴露在传染病环境下转化为感染人群e的概率为1；感染后即时出现症状的概率为0.8，即感染人群e转化为感染后有症状人群i的概率为0.8，相应的感染人群e转化为感染后无症状人群a的概率为0.2；带症状病例死亡概率为0.02，即感染后有症状人群i转化为死亡人群d的概率为 0.02，相应的感染后有症状人群i转化为康复人群r的概率为0.98。
65.304：根据至少一个状态类型中每个状态类型之间的转化关系，以及每个状态类型之间的转化率，建立传染病的传染模型。
66.在本实施方式中，沿用上述示例，可以根据6个状态类型中每个状态类型之间的转化关系将该6个状态类型用箭头进行连接，并在相应的两个状态类型之间的箭头上标注该两个状态类型之间的转化率。由此，可以得到如图4所示的传染模型。
67.具体而言，在图4所示的传染模型中，数字表示前一状态类型转化为对应的状态类型的百分比，并非绝对的转移概率。如从状态类型e进行状态转化时， e中有80％的人转化为i，20％的人转化为a。感染人群e从受感染到出现症状有5
‑
10天潜伏期d
cub
(即从e到i或a)，其出现症状后康复期为7
‑
14天d
inf
(即从i到d或r)，且在潜伏期内状态转移的概率相同，服从1/d
cub
多项式分布，即e中的人在潜伏期内，每天都有1/10的概率转化为i或a。同样地，
从i到d、 r为1/14的转移概率。在6个状态中，处于e，i，a三个状态的人具有传染性，其余状态都不具有传染性。
68.202：构建模拟城市群，并根据模拟城市群的参数，建立模拟城市群中的城市节点之间的人口流动模型。
69.在本实施方式中，为了尽可能还原真实环境，在构建模拟城市群时，首先生成包含100个城市节点的城市节点网络。每个城市节点的坐标从[100,2000] 均匀分布中随机生成，然后每个城市节点的人数从[25000,100000]均匀分布中随机生成。
[0070]
其次，在本实施方式中，为了模拟流行病在不同城市节点间的传播情况，定义了不同城市节点间的联系强度。该联系强度用于标识当日两座城市的人口流动，示例性的，该联系强度与该两个城市的人口数乘积成正比，与该两个城市之间的距离平方根成反比。具体而言，任意两个城市节点间的联系强度可以由公式
①
表示：
[0071][0072]
其中，p
x
表示第x个城市节点中的人数；p
y
表示第y个城市节点中的人数； d
xy
表示第x个城市节点和第y个城市节点之间的距离，x不等于y，且x和y为非0 的正整数。
[0073]
由此，如图5所示，可以得到的模拟城市群中的城市节点之间的人口流动模型，其中，圆圈代表城市节点，圆圈越大代表该城市节点人口越多，城市节点两两之间的连线代表该两个城市节点之间的联系强度，图5中仅仅展示了联系强度最大的连线。
[0074]
203：根据传染模型和人口流动模型，建立第一城市节点的感染人数增量模型。
[0075]
在本实施方式中，第一城市节点为模拟城市群中任意一个城市节点，感染人数增量模型用于标识第一城市节点每天增长的感染人数的规律。示例性的，本技术提供了一种根据传染模型和人口流动模型，建立第一城市节点的感染人数增量模型的方法，如图6所示，该方法包括：
[0076]
601：根据传染模型，建立传染病的状态转化模型。
[0077]
在本实施方式中，状态转化模型用于标识传染病中不同状态之间的转化规律。示例性的，可以基于传染病的传染模型和传染病的传染特性，建立状态转化模型。具体而言，传染病在传播时将分为两步分别进行计算，其中，一步是状态归类，即通过转化率将e或i中的人群分为两类；第二步是状态转移，即确定了会转移到哪个状态类型后，相应的人群通过1/d
cub
或1/d
inf
的转移概率进行相应转化。两步计算完成后，再基于传染病的传染模型，计算各个状态类型的人数，同时，各状态类型的人数将以天为单位进行更新。
[0078]
在本实施方式中，在进行状态归类时，可以将转化率作为归类阈值。示例性的，可以每次生成小于1的随机数，当随机数小于归类阈值时，则将该随机数归为对应的状态类型。具体而言：对e中的人群进行状态归类时，由于e 转移到i的转化率为0.8，因此，将生成的随机数中小于0.8的，归为i，大于0.8 的，归为a。
[0079]
此外，在可选的实施方式中，若由e到a不需要潜伏期，e到i则需要5
‑
10 天的潜伏期，即确定e中将转化为a的人群直接转化为a。则在计算状态转移人数时，可以采用状态暂存操作，即维护一个长度为d
cub
‑
1的暂存器，里面存储了接下来d
cub
–
1天内每天会发生状态转移的人数。每天的状态转移可以通过多项式分布确定，通过多项式试验得到在d
cub
天内每天会发生状态转移的人数 list，然后将此list与暂存器按位相加，首元素即为当日进行状
态转移的人数，并将剩余元素作为新的暂存器进行保存，重复迭代，直到达到终止条件。
[0080]
602：根据状态转化模型，建立内部增量模型。
[0081]
在本实施方式中，内部增量模型用于标识由于传染病在第一城市节点内部传播，导致的第一城市节点每天增长的感染人数的规律。示例性的，可以根据第一城市节点的状态，确定第一城市节点的传染病的传染率。再根据传染模型和状态转化模型，确定第一城市节点中的已感染且处于潜伏期的人数、已感染且无症状的人数、以及已感染且有症状的人数。最终，根据第一城市节点的传染病的传染率、已感染且处于潜伏期的人数、已感染且无症状的人数、以及已感染且有症状的人数，建立内部增量模型。
[0082]
具体而言，内部增量模型可以通过公式
②
表示：
[0083][0084]
其中，e1表示第一城市节点中已感染且处于潜伏期的人数；a1表示第一城市节点中已感染且无症状的人数；i1表示第一城市节点中已感染且有症状的人数，表示第一城市节点的传染病的传染率。
[0085]
603：根据人口流动模型，建立外部增量模型。
[0086]
在本实施方式中，外部增量模型用于标识由于人群在第一城市节点和第二城市节点之间迁移，导致的第一城市节点每天增长的感染人数的规律。示例性的，可以根据人口流动模型，确定第一城市节点与第二城市节点之间的联系强度，其中，第二城市节点为模拟城市群中不同于第一城市节点的任意一个城市节点。再根据第一城市节点的状态，确定第一城市节点的传染病的传染率。然后，根据预设的状态规则和第二城市节点的状态，确定第二城市节点的状态值，并根据人口流动模型，确定第二城市节点的人口数。最后，根据第一城市节点与第二城市节点之间的联系强度、第一城市节点的传染病的传染率、第二城市节点的状态值、以及第二城市节点的人口数，建立外部增量模型。
[0087]
具体而言，内部增量模型可以通过公式
③
表示：
[0088][0089]
其中，k
1,2
表示第一城市节点和第二城市节点之间的联系强度；u
2,d
表示第二城市节点的状态值，具体而言，若城市节点2为开放状态，则u
2,d
为1，若城市节点2为封闭状态，则u
2,d
为0；ρ2表示第二城市节点的人口数。
[0090]
604：确定第一城市节点的状态类型，并根据状态类型、内部增量模型和外部增量模型，确定感染人数增量模型。
[0091]
在本实施方式中，首先定义城市节点的两种状态类型：
[0092]
(1)开放类型的(open)城市节点，无症状及其他人可以随意进出城市节点，但是有症状个体无法进入/离开城市节点，假设病例出现症状后立即被强制隔离，然而有症状人群中依然会存在10％的人在城市节点内部流动；
[0093]
(2)封闭类型的(lockdown)城市节点：城市节点的进出均关闭，且只有部分人群在城市节点内部活动。
[0094]
基于此，在本实施方式中，当城市节点开放时，传染病随着人群流动在各个城市节点之间传播，在此情况下，城市节点中的新增感染人数可以分为由于外部城市节点人群流动造成的新增感染人数，以及城市节点内部传染病传播导致的新增感染人数。即，当城市节
点开放时，感染人数增量模型包括内部增量模型和外部增量模型。
[0095]
当城市节点封闭时，外部的城市节点不再对封闭的城市节点的传染病传播情况造成影响，新增感染人数仅有内部节点的少量人口流动产生。即，当城市节点封闭时，外部增量模型所产生的增量人数恒定为0，新增感染人数只考虑内部增量模型所产生的增量人数，即，感染人数增量模型为内部增量模型。
[0096]
此外，城市节点的传染率也和城市节点当前所处的状态相关。具体而言，沿用上述第一城市节点的示例，当第一城市节点开放时，城市节点对应的传染率为开放状态下的传染率当城市节点封闭时，城市节点对应的传染率为封闭状态下的传染率
[0097]
在可选的实施方式中，还可以获取该传染病在城市节点之间进行传播的其他参数，建立相应的传播模型，示例性的，表2给出了一些可使用的相关参数：
[0098]
表2：
[0099][0100]
204：根据预设的封城策略和感染人数增量模型，进行数据仿真，生成仿真数据。
[0101]
在本实施方式中，由于生成的仿真数据将用于训练预设的强化学习模型，而训练强化学习模型的数据需要有状态(state)、动作(action)、以及回报 (reward)。其中，动作即为是否采取封城的二元值，例如：action＝1为采取封城决策，action＝0为不封城。
[0102]
基于此，为了保证生成的仿真数据可以直接提供给强化学习模型使用，在本实施方式中，提出了一种根据预设的封城策略和感染人数增量模型，进行数据仿真，生成仿真数据的方法，如图7所示，该方法包括：
[0103]
701：确定强化学习模型的输入特征，并根据输入特征，确定数据仿真的输出数据类型。
[0104]
在本实施方式中，强化学习模型的状态为8维输入特征，分别为：单城市节点人数、单城市节点感染人数占比、所有城市节点总体感染人数占比、单城市节点恢复人数占比、单城市节点死亡人数占比、单城市节点易感人数、单城市节点带症状感染者增长人数、所有城市节点总体带症状感染者人数增长率。这样的特征定义使得模型决策机制可解释，且同时
考虑人口伤亡和经济损失。具体而言，在数据仿真时，每周开始前计算8维输入特征结果，并将其保存在一个元组中。
[0105]
702：确定强化学习模型的奖励函数。
[0106]
在本实施方式中，可以定义封城的成本是10/天，感染并出现症状的成本为10/感染个体，人员死亡的成本是25/死亡个体，奖励函数则定义为成本的相反数。同时，传染病的传染模拟以周为单位，即，每周开始前根据封城策略选择是否要采取封城，后续的各城市节点疾病传播情况也基于这个决策结果来进行计算。也就是说，强化学习模型每采取一次动作将影响本周的传染病的传播情况。
[0107]
同时，由于强化学习模型的算法需要考虑长期回报，所以在本实施方式中，奖励函数由两部分组成：一个是中间状态奖励，一个是最终状态奖励。由于在决策过程中，不仅需要考虑对患病人员的数量控制，也需要考虑由于封城带来的经济损失。在本实施方式中，通过设置分别针对感染人数、死亡人数、封城天数的惩罚系数。具体计算公式如下：
[0108]
中间状态奖励可以通过公式
④
表示：
[0109][0110]
其中，δ表示该城市节点中一周的变化量；c
lock
(1
‑
u
n,d
)表示封城的惩罚项；ρ
n
表示该城市节点的人口数；c
dead
、c
inf
和c
lock
为超参；x
n，dead
表示该城市节点中由于感染而死亡的人口数量；x
n,inf
表示该城市节点中感染的人口数量。
[0111]
最终状态奖励可以通过公式
⑤
表示：
[0112]
r
n,term
＝a
‑
b(c
dead
x
n，dead
c
inf
x
n,inf
c
lock
d
n,lock
).........
⑤
[0113]
其中，a、b、c
dead
、c
inf
和c
lock
为超参，在该场景下，a＝2，b＝0.01，c
dead
＝25、 c
inf
＝10、c
lock
＝10；d
n,lock
表示该城市节点的封城天数。
[0114]
基于此，最终各状态建立函数可以通过公式
⑥
表示：
[0115]
r
n,step_final
＝r
n,step
γ
n
‑
v
r
n,term
.........
⑥
[0116]
其中，γ表示折扣系数，在该场景下，γ＝0.9；n表示总的迭代周数；v表示当前迭代周数。
[0117]
703：根据强化学习模型的奖励函数、模拟城市群的参数、封城策略和感染人数增量模型，进行数据仿真，得到初始数据。
[0118]
在本实施方式中，每次仿真可以持续到52周，或者直到传染病传染模型中e，i，a均为0时模拟结束。在每周仿真结束时，按照公式
④
计算各个节点的stepreward(r
n,step
)，同时判断该节点传播是否达到了仿真停止条件，若仿真结束，需要根据公式
⑤
计算该节点的terminalreward(r
n,term
)。得到r
n,term
后，将其以γ＝0.9的折扣系数向前传播，每一步的目标reward为r
n,step
和折扣 r
n,term
之和。最终生成大量格式为5元组(state，action，reward，next_state， done)型的仿真数据。
[0119]
704：根据输出数据类型，对初始数据进行筛选，得到仿真数据。
[0120]
205：将模拟数据输入预设的强化学习模型进行训练，得到决策模型。
[0121]
在本实施方式中，采用dqn模型，将每个节点及其关联节点的状态以及模拟数据作为模型的输入，模型输出为是/否采取封城策略的概率分布，同时，根据选择的决策计算整体序列的奖励值，目标是将人口的感染、死亡数量降低，同时对经济的影响最小。
[0122]
具体而言，rl算法选择dqn来计算最优封城策略，通过全连接神经网络计算每种动作策略的价值。全连接神经网络模型结构为：输入为8维特征，2 个隐藏层，分别有50和30个神经元，每层网络由relu函数激活，输出层为2个神经元，计算每种动作的回报值。在流行病传播仿真过程中，模型在每周开始前根据节点状态信息计算出reward更高的策略，从而决定是否封城。一旦 dqn计算好了所有节点接下来的动作，流行病传播仿真向前推进7天。
[0123]
训练dqn网络参数：训练样本220000条仿真数据(均衡的5种人为干预封城策略数据)，batch_size取20000，学习率lr取0.00001，loss函数取mse，优化函数为adam，epoch为100，最终reward使用环境reward而非贝尔曼公式计算。
[0124]
206：获取待决策城市以及第一范围内的城市的传染数据。
[0125]
在本实施方式中，第一范围由待决策城市的位置确定，具体而言，第一范围可以是以待决策城市的坐标为中心，预设半径下所确定的圆形区域。
[0126]
207：将传染数据输入决策模型，得到决策结果。
[0127]
综上所述，本发明所提供的公共策略决策方法中，通过在突发传染病情况下，对传染病的传播特性及城市间的人口流动特性进行分析，构建传染病的传染模型和城市节点之间的人口流动模型，继而根据传染模型和人口流动模型，构建反映一个城市节点每天增长的感染人数的规律的感染人数增量模型。然后，根据预设的封城策略和感染人数增量模型，进行数据仿真，以获取大量的仿真数据对强化学习模型进行训练，得到决策模型。最终，将实际数据输入决策模型，获取对应的决策建议。由此，通过数据仿真，在没有历史资料可以借鉴的情况下，获取大量的仿真数据，为决策提供有力的数据支持，可以有效应对黑天鹅事件。同时，执行数据仿真的模型是通过对传染病的传播特性及城市间的人口流动特性进行分析后所产生的模型，其仿真出的真实性高，由此，可以进一步的提升决策的合理性。最后，强化学习模型的输出结果可分析追溯，深度强化学习不同于单纯深度神经网络黑箱的状态，其给出的决策是通过用户设置的奖励函数进行优化的，故结果是合理的，可解释的。
[0128]
参阅图8，图8为本技术实施方式提供的一种公共策略决策装置的功能模块组成框图。如图8所示，该公共策略决策装置800包括：
[0129]
模型建立模块801，用于根据传染病的传染参数建立传染病的传染模型，其中，传染模型用于标识传染病在人群内的传播、发展规律；
[0130]
环境建立模块802，用于构建模拟城市群，并根据模拟城市群的参数，建立模拟城市群中的城市节点之间的人口流动模型，其中，模拟城市群包括至少两个城市节点；
[0131]
模型建立模块801，还用于根据传染模型和人口流动模型，建立第一城市节点的感染人数增量模型，其中，第一城市节点为模拟城市群中任意一个城市节点，感染人数增量模型用于标识第一城市节点每天增长的感染人数的规律；
[0132]
仿真模块803，用于根据预设的封城策略和感染人数增量模型，进行数据仿真，生成仿真数据；
[0133]
训练模块804，用于将模拟数据输入预设的强化学习模型进行训练，得到决策模型；
[0134]
采集模块805，用于获取待决策城市以及第一范围内的城市的传染数据，其中，第一范围由待决策城市的位置确定；
[0135]
决策模块806，用于将传染数据输入决策模型，得到决策结果。
[0136]
在本发明的实施方式中，在根据传染模型和人口流动模型，建立第一城市节点的感染人数增量模型方面，模型建立模块801，具体用于：
[0137]
根据传染模型，建立传染病的状态转化模型，其中，状态转化模型用于标识传染病中不同状态之间的转化规律；
[0138]
根据状态转化模型，建立内部增量模型，其中，内部增量模型用于标识由于传染病在第一城市节点内部传播，导致的第一城市节点每天增长的感染人数的规律；
[0139]
根据人口流动模型，建立外部增量模型，其中，外部增量模型用于标识由于人群在第一城市节点之间迁移，导致的第一城市节点每天增长的感染人数的规律；
[0140]
确定第一城市节点的状态类型，并根据状态类型、内部增量模型和外部增量模型，确定感染人数增量模型，其中，状态类型包括：开放状态和封闭状态，当第一城市节点的状态类型为开放状态时，感染人数增量模型包括内部增量模型和外部增量模型；当第一城市节点的状态类型为封闭状态时，感染人数增量模型为内部增量模型。
[0141]
在本发明的实施方式中，在根据状态转化模型，建立内部增量模型方面，模型建立模块801，具体用于：
[0142]
根据第一城市节点的状态，确定第一城市节点的传染病的传染率；
[0143]
根据传染模型和状态转化模型，确定第一城市节点中的已感染且处于潜伏期的人数、已感染且无症状的人数、以及已感染且有症状的人数；
[0144]
根据第一城市节点的传染病的传染率、已感染且处于潜伏期的人数、已感染且无症状的人数、以及已感染且有症状的人数，建立内部增量模型。
[0145]
在本发明的实施方式中，在根据人口流动模型，建立外部增量模型方面，模型建立模块801，具体用于：
[0146]
根据人口流动模型，确定第一城市节点与第二城市节点之间的联系强度，其中，第二城市节点为模拟城市群中不同于第一城市节点的任意一个城市节点；
[0147]
根据第一城市节点的状态，确定第一城市节点的传染病的传染率；
[0148]
根据预设的状态规则和第二城市节点的状态，确定第二城市节点的状态值；
[0149]
根据人口流动模型，确定第二城市节点的人口数；
[0150]
根据第一城市节点与第二城市节点之间的联系强度、第一城市节点的传染病的传染率、第二城市节点的状态值、以及第二城市节点的人口数，建立外部增量模型。
[0151]
在本发明的实施方式中，在根据人口流动模型，确定第一城市节点与第二城市节点之间的联系强度方面，模型建立模块801，具体用于：
[0152]
根据人口流动模型，确定第一城市节点的人口数；
[0153]
根据人口流动模型，确定第一城市节点与第二城市节点之间的距离；
[0154]
将第一城市节点的人口数与第二城市节点的人口数的积，与第一城市节点与第二城市节点之间的距离的平方根的商，作为第一城市节点与第二城市节点之间的联系强度。
[0155]
在本发明的实施方式中，在根据传染病的传染参数建立传染病的传染模型方面，模型建立模块801，具体用于：
[0156]
对传染病进行分析，确定在传染病环境下人的至少一个状态类型；
[0157]
确定至少一个状态类型中每个状态类型之间的转化关系；
[0158]
根据传染参数，确定每个状态类型之间的转化率；
[0159]
根据至少一个状态类型中每个状态类型之间的转化关系，以及每个状态类型之间的转化率，建立传染病的传染模型。
[0160]
在本发明的实施方式中，在根据预设的封城策略和感染人数增量模型，进行数据仿真，生成仿真数据方面，仿真模块803，具体用于：
[0161]
确定强化学习模型的输入特征，并根据输入特征，确定数据仿真的输出数据类型；
[0162]
确定强化学习模型的奖励函数；
[0163]
根据强化学习模型的奖励函数、模拟城市群的参数、封城策略和感染人数增量模型，进行数据仿真，得到初始数据；
[0164]
根据输出数据类型，对初始数据进行筛选，得到仿真数据。
[0165]
参阅图9，图9为本技术实施方式提供的一种电子设备的结构示意图。如图9所示，电子设备900包括收发器901、处理器902和存储器903。它们之间通过总线904连接。存储器903用于存储计算机程序和数据，并可以将存储器903 存储的数据传输给处理器902。
[0166]
处理器902用于读取存储器903中的计算机程序执行以下操作：
[0167]
根据传染病的传染参数建立传染病的传染模型，其中，传染模型用于标识传染病在人群内的传播、发展规律；
[0168]
构建模拟城市群，并根据模拟城市群的参数，建立模拟城市群中的城市节点之间的人口流动模型，其中，模拟城市群包括至少两个城市节点；
[0169]
根据传染模型和人口流动模型，建立第一城市节点的感染人数增量模型，其中，第一城市节点为模拟城市群中任意一个城市节点，感染人数增量模型用于标识第一城市节点每天增长的感染人数的规律；
[0170]
根据预设的封城策略和感染人数增量模型，进行数据仿真，生成仿真数据；
[0171]
将模拟数据输入预设的强化学习模型进行训练，得到决策模型；
[0172]
获取待决策城市以及第一范围内的城市的传染数据，其中，第一范围由待决策城市的位置确定；
[0173]
将传染数据输入决策模型，得到决策结果。
[0174]
在本发明的实施方式中，在根据传染模型和人口流动模型，建立第一城市节点的感染人数增量模型方面，处理器902，具体用于执行以下操作：
[0175]
根据传染模型，建立传染病的状态转化模型，其中，状态转化模型用于标识传染病中不同状态之间的转化规律；
[0176]
根据状态转化模型，建立内部增量模型，其中，内部增量模型用于标识由于传染病在第一城市节点内部传播，导致的第一城市节点每天增长的感染人数的规律；
[0177]
根据人口流动模型，建立外部增量模型，其中，外部增量模型用于标识由于人群在第一城市节点之间迁移，导致的第一城市节点每天增长的感染人数的规律；
[0178]
确定第一城市节点的状态类型，并根据状态类型、内部增量模型和外部增量模型，确定感染人数增量模型，其中，状态类型包括：开放状态和封闭状态，当第一城市节点的状态类型为开放状态时，感染人数增量模型包括内部增量模型和外部增量模型；当第一城市节点的状态类型为封闭状态时，感染人数增量模型为内部增量模型。
[0179]
在本发明的实施方式中，在根据状态转化模型，建立内部增量模型方面，处理器902，具体用于执行以下操作：
[0180]
根据第一城市节点的状态，确定第一城市节点的传染病的传染率；
[0181]
根据传染模型和状态转化模型，确定第一城市节点中的已感染且处于潜伏期的人数、已感染且无症状的人数、以及已感染且有症状的人数；
[0182]
根据第一城市节点的传染病的传染率、已感染且处于潜伏期的人数、已感染且无症状的人数、以及已感染且有症状的人数，建立内部增量模型。
[0183]
在本发明的实施方式中，在根据人口流动模型，建立外部增量模型方面，处理器902，具体用于执行以下操作：
[0184]
根据人口流动模型，确定第一城市节点与第二城市节点之间的联系强度，其中，第二城市节点为模拟城市群中不同于第一城市节点的任意一个城市节点；
[0185]
根据第一城市节点的状态，确定第一城市节点的传染病的传染率；
[0186]
根据预设的状态规则和第二城市节点的状态，确定第二城市节点的状态值；
[0187]
根据人口流动模型，确定第二城市节点的人口数；
[0188]
根据第一城市节点与第二城市节点之间的联系强度、第一城市节点的传染病的传染率、第二城市节点的状态值、以及第二城市节点的人口数，建立外部增量模型。
[0189]
在本发明的实施方式中，在根据人口流动模型，确定第一城市节点与第二城市节点之间的联系强度方面，处理器902，具体用于执行以下操作：
[0190]
根据人口流动模型，确定第一城市节点的人口数；
[0191]
根据人口流动模型，确定第一城市节点与第二城市节点之间的距离；
[0192]
将第一城市节点的人口数与第二城市节点的人口数的积，与第一城市节点与第二城市节点之间的距离的平方根的商，作为第一城市节点与第二城市节点之间的联系强度。
[0193]
在本发明的实施方式中，在根据传染病的传染参数建立传染病的传染模型方面，处理器902，具体用于执行以下操作：
[0194]
对传染病进行分析，确定在传染病环境下人的至少一个状态类型；
[0195]
确定至少一个状态类型中每个状态类型之间的转化关系；
[0196]
根据传染参数，确定每个状态类型之间的转化率；
[0197]
根据至少一个状态类型中每个状态类型之间的转化关系，以及每个状态类型之间的转化率，建立传染病的传染模型。
[0198]
在本发明的实施方式中，在根据预设的封城策略和感染人数增量模型，进行数据仿真，生成仿真数据方面，处理器902，具体用于执行以下操作：
[0199]
确定强化学习模型的输入特征，并根据输入特征，确定数据仿真的输出数据类型；
[0200]
确定强化学习模型的奖励函数；
[0201]
根据强化学习模型的奖励函数、模拟城市群的参数、封城策略和感染人数增量模型，进行数据仿真，得到初始数据；
[0202]
根据输出数据类型，对初始数据进行筛选，得到仿真数据。
[0203]
应理解，本技术中的公共策略决策装置可以包括智能手机(如android手机、ios手机、windows phone手机等)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备mid(mobile internet devices，简称：mid)、机器人或穿戴式设备等。上述公共策略决策装置仅是举例，而非穷举，包含但不限于上述公共策略决策装置。在实际应用中，上述公共策略决策装置还可以包括：智能车载终端、计算机设备等等。
[0204]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件结合硬件平台的方式来实现。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施方式或者实施方式的某些部分所述的方法。
[0205]
因此，本技术实施方式还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现如上述方法实施方式中记载的任何一种公共策略决策方法的部分或全部步骤。例如，所述存储介质可以包括硬盘、软盘、光盘、磁带、磁盘、优盘、闪存等。
[0206]
本技术实施方式还提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序可操作来使计算机执行如上述方法实施方式中记载的任何一种公共策略决策方法的部分或全部步骤。
[0207]
需要说明的是，对于前述的各方法实施方式，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本技术并不受所描述的动作顺序的限制，因为依据本技术，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施方式均属于可选的实施方式，所涉及的动作和模块并不一定是本技术所必须的。
[0208]
在上述实施方式中，对各个实施方式的描述都各有侧重，某个实施方式中没有详述的部分，可以参见其他实施方式的相关描述。
[0209]
在本技术所提供的几个实施方式中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。
[0210]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
[0211]
另外，在本技术各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件程序模块的形式实现。
[0212]
所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本技术各个实施方式所述方法的全部或部分步骤。而前述的存储器包括：u盘、只读存储器(rom，read
‑
only memory)、随机存取存储器
(ram，random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0213]
本领域普通技术人员可以理解上述实施方式的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：read
‑
onlymemory，简称：rom)、随机存取器(英文：random access memory，简称：ram)、磁盘或光盘等。
[0214]
以上对本技术实施方式进行了详细介绍，本文中应用了具体个例对本技术的原理及实施方式进行了阐述，以上实施方式的说明只是用于帮助理解本技术的方法及其核心思想；同时，对于本领域的一般技术人员，依据本技术的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本技术的限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种数据预测方法、装置、设备及存储介质与流程

公共策略决策方法、装置、电子设备和存储介质与流程

相关文献

最热文献