一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于知识图谱的事件发现与展现方法及系统

2022-04-09 02:58:18 来源:中国专利 TAG:


1.本发明涉及知识图谱应用与可视化展示领域,具体涉及一种基于知识图谱的事件发现与展现方法及系统。


背景技术:

2.市民通常以举报或投诉的形式反映各种城市问题,因此政府服务热线数据是城市各类问题的集中体现,包含了各方面多粒度的城市问题,同时也反映了市民对于城市问题的主观感受。政府服务热线数据一般由投诉时间、投诉内容、受理部门等内容组成,每一个政府工作日都会受理大量的市民热线。以往对于政务服务热线数据,更多的是由政务人员手动处理,效率较低且无法挖掘出该数据集真正的价值。


技术实现要素:

3.针对现有技术中存在的缺陷,本发明的目的在于提供一种基于知识图谱的事件发现与展现方法及系统,结合面向政务的领域知识模型来研究政府服务热线数据有助于更好地解析和丰富每一条12345热线数据的语义信息,从而及时且清晰地了解城市发生的各种事件,并能对城市的突发事件做出检测、预警。
4.为实现上述目的,本发明采用的技术方案如下:
5.一种基于知识图谱的事件发现与展现方法,包括:
6.s100、对每条政府服务热线数据进行预处理,包括提取每条政府服务热线数据的时间信息和空间信息,向量化表示每条政府服务热线数据,将时间信息和政府服务热线数据的关键词信息添加进对应的政府服务热线数据;
7.s200、按照用户指定的时间间隔将用户选择的时间段内的政府服务热线数据划分为数据帧,通过社区发现算法对各帧内的政府服务热线数据进行事件检测,获取各城市事件,各城市事件包括城市非突发事件和城市突发事件;
8.s300、基于二部图最大权值匹配算法,对前后两帧的事件进行匹配,建立各城市事件演化的事件链,分析事件链中各城市事件的z-score值,确定各城市事件的突发和紧急程度,并对其中的城市突发事件进行预警和多维可视化。
9.进一步,如上所述的方法,s100中,通过正则表达式或者来电时间,获取每条政府服务热线数据的时间信息。
10.进一步,如上所述的方法,s100中,提取每条政府服务热线数据的空间信息,包括:基于lattice lstm模型,提取每条政府服务热线数据的地点信息,
11.若提取出一个或多个连续的地点信息,将这些地点信息拼接成完整的地点信息后转化为经纬度信息作为当前政府服务热线数据的空间信息;
12.若提取出多个距离较近的地点信息,则选取其中一个易于检索经纬度的地点信息转化为经纬度信息作为当前政府服务热线数据的空间信息;
13.若提取出两个距离较远的地点信息,则选取其中一个地点信息转化为经纬度信息
作为当前政府服务热线数据的空间信息。
14.进一步,如上所述的方法,s100中,向量化表示每条政府服务热线数据,包括:
15.基于word2vec模型,使用向量表示某条政府服务热线数据中的每个词,基于每个词的tf-idf值,对词向量加权求和得到该条政府服务热线数据的文本语义表示。
16.进一步,如上所述的方法,s200中,通过社区发现算法对各帧内的政府服务热线数据进行事件检测,获取各城市事件,包括:
17.基于社区发现算法,对各帧内的政府服务热线数据进行文本语义聚类,将描述同一事件的政府服务热线数据使用同一标签标注,得到不同类型的各城市事件。
18.进一步,如上所述的方法,s300中,基于二部图最大权值匹配算法,对前后两帧的事件进行匹配,建立各城市事件演化的事件链,包括:
19.将前一帧发现的事件位于二部图左边,后一帧发现的事件位于二部图右边,二部图结点间的权值由左右两边事件的语义相似度确定;
20.如果有一结点未匹配到,则定义为新事件的开始或旧事件的结束。
21.进一步,如上所述的方法,s300包括:
22.通过参数配置,实现对城市突发事件的多维可视化,包括在地图上定位不同类型事件的空间分布,在折线图上展示不同事件随着时间的数量变化、在事件链河流图上表征事件的突发程度,通过词云图显示某类事件的相关元素的重要程度以及可从全局或自选局部多视角观测城市事件,以多种可视化形式帮助城市决策者确定城市突发事件的基本信息和预警信息,所述基本信息包括事件时空信息和事件内容信息。
23.一种基于知识图谱的事件发现与展现系统,包括:
24.预处理模块,用于对每条政府服务热线数据进行预处理,包括提取每条政府服务热线数据的时间信息和空间信息,向量化表示每条政府服务热线数据,将时间信息和政府服务热线数据的关键词信息添加进对应的政府服务热线数据;
25.获取模块,用于按照用户指定的时间间隔将用户选择的时间段内的政府服务热线数据划分为数据帧,通过社区发现算法对各帧内的政府服务热线数据进行事件检测,获取各城市事件,各城市事件包括城市非突发事件和城市突发事件;
26.可视化模块,用于基于二部图最大权值匹配算法,对前后两帧的事件进行匹配,建立各城市事件演化的事件链,分析事件链中各城市事件的z-score 值,确定各城市事件的突发和紧急程度,并对其中的城市突发事件进行预警和多维可视化。
27.一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述的方法。
28.一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述的方法。
29.本发明的有益效果在于:本发明能够更好地解析和丰富每一条12345热线数据的语义信息,从而及时且清晰地了解城市发生的各种事件,并能对城市的突发事件做出检测、预警,最后在面向政务的领域知识模型中溯源和分析城市问题的发生的原因和解决方案,有助于政府有关部门可以在这些事件变得更严重之前采取措施以减少这些事件对市民造成的损失。
附图说明
30.图1为本发明实施例中提供的一种基于知识图谱的事件发现与展现方法的流程示意图;
31.图2为本发明实施例中提供的一种基于知识图谱的事件发现与展现系统的结构示意图;
32.图3为本发明实施例中提供的一种基于知识图谱的事件发现与展现方法的框架流程图;
33.图4为本发明实施例中提供的a城市事件全局展示图;
34.图5为本发明实施例中提供的b城市事件全局展示图;
35.图6为本发明实施例中提供的a城市事件单一展示图。
具体实施方式
36.为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚,下面将结合附图对本发明实施例的技术方案作进一步的详细描述。
37.本发明实施例提供了一种基于知识图谱的事件发现与展现方法,如图1 所示,该方法包括:
38.s100、对每条政府服务热线数据进行预处理,包括提取每条政府服务热线数据的时间信息和空间信息,向量化表示每条政府服务热线数据,将时间信息和政府服务热线数据的关键词信息添加进对应的政府服务热线数据。
39.本发明实施例中,为了发现城市突发事件,需要获取时空信息。政府服务热线数据经由人工记录,数据所包含的时间信息记录较为规范,通过正则表达式或以来电时间近似就可以获取每条政府服务热线数据的时间信息。主要的难点是对于不同地点模式的政府服务热线记录数据,都需要提取出正确且合适的地点信息。为了解决地点提取的问题,综合比较基于规则的方法与基于深度学习的bi-lstm、lattice lstm这三种地点提取方法的效果指标后,分析发现lattice lstm模型区别与其他ner方法,它充分去利用文档的上下文信息来寻找更合适的词,充分利用显性的词信息而不是只利用字符标注序列的信息,故可以有效降低中文文档中分词误差对其造成的影响,所以取得了最佳效果,最后选取了这种方式来提取每条政务服务热线数据的空间信息。同时,由于投诉内容可能包含多个地址,所以提取出的地址也为多个,为了得到唯一的合适地址,我们分三种情况按规则进行处理:如果提取出的地点为一个或多个连续的地点,只需将这些地点拼接成完整的地点即可;如果提取出的多个地点距离较近,则选取其中一个易于检索经纬度的地点作为该信息的地点信息;如果出现了两个距离较远的地点信息,例如出租车的上车和下车地点,为了与其他城市问题保持一致处理,则统一规定选取其中的一个作为地点信息。最后通过百度提供的api将地点信息转化为经纬度信息,方便在地图上标识事件的发生地点。
40.本发明实施例中,通过正则表达式或者来电时间,获取每条政府服务热线数据的时间信息。s100中,提取每条政府服务热线数据的空间信息,包括:基于lattice lstm模型,提取每条政府服务热线数据的地点信息,若提取出一个或多个连续的地点信息,将这些地点信息拼接成完整的地点信息后转化为经纬度信息作为当前政府服务热线数据的空间信息;若提取出多个距离较近的地点信息,则选取其中一个易于检索经纬度的地点信息转化
为经纬度信息作为当前政府服务热线数据的空间信息;若提取出两个距离较远的地点信息,则选取其中一个地点信息转化为经纬度信息作为当前政府服务热线数据的空间信息。s100中,向量化表示每条政府服务热线数据,包括:基于 word2vec模型,使用向量表示某条政府服务热线数据中的每个词,基于每个词的tf-idf值,对词向量加权求和得到该条政府服务热线数据的文本语义表示。
41.s200、按照用户指定的时间间隔将用户选择的时间段内的政府服务热线数据划分为数据帧,通过社区发现算法对各帧内的政府服务热线数据进行事件检测,获取各城市事件,各城市事件包括城市非突发事件和城市突发事件。
42.本发明实施例中,市民通过政府服务热线反映的往往不是生活中的小事,而是城市里发生的较为重要的事情,描述内容接近的政府服务热线往往揭示着一个城市事件的产生。如何将城市中市民反馈的问题按照其语义分为多种类型,且每一种类型对应一种城市事件类型并表示出来是一个很大的难点。本发明以描述内容接近的政府服务热线集合表示一个城市事件。首先对于每一条热线数据,通过word2vec模型来向量表示热线数据中的每个词,之后基于每个词的tf-idf值,来对词向量加权求和得到热线数据的文档语义表示。接着基于louvain社区发现算法来进行文本语义聚类,louvain社区发现算法依赖于一下贪心过程,一开始每个节点都为一个社区,之后按照一定的顺序遍历网络中的结点,对于网络中的结点i的每个邻居结点j,尝试将结点 i转移至j所在社区中,并计算该过程产生的模块度增益(该算法定义的衡量聚类的指标),结点i最终移动至模块度增益最高的邻居节点,且模块度增益必须为正,然后上一步对网络重构后,处于同一社区的结点重构成一个超结点,反复执行以上两步,直到算法稳定。基于以上算法,描述同一事件的政府服务热线数据最终会以同一标签标注。本发明采用基于社区发现算法对政府服务热线数据进行聚类分析,完成对于选择时间段内发生事件的检测。
43.本发明实施例中,s200中,通过社区发现算法对各帧内的政府服务热线数据进行事件检测,获取各城市事件,包括:基于社区发现算法,对各帧内的政府服务热线数据进行文本语义聚类,将描述同一事件的政府服务热线数据使用同一标签标注,得到不同类型的各城市事件。
44.s300、基于二部图最大权值匹配算法,对前后两帧的事件进行匹配,建立各城市事件演化的事件链,基于事件链中各城市事件的z-score值,确定各城市事件的突发和紧急程度,并对其中的城市突发事件进行预警和多维可视化。
45.本发明实施例中,城市事件有非突发事件也有突发事件,某类事件在一定时空范围内发生的频率明显高于历史上的统计平均水平时,我们称其为城市突发事件。如果短时间内大量市民通过政府服务热线反映同一事件,那么该事件可能是城市突发事件。为了高效的对城市突发事件预警,本发明按一定的时间间隔将数据划分为数据帧,并于各帧内进行事件检测,之后我们需要将前后各帧描述同一事件的政府服务热线数据用同一标签标注,这就是演变成一个匹配问题。匹配问题通常采用二部图算法来解决,将前一帧发现的事件位于二部图左边,后一帧发现的事件位于二部图右边,二部图结点间的权值由左右两边事件的语义相似度确定。最后利用二部图最大权值匹配算法对前后两帧事件匹配,如果有一结点未匹配到则定义为新事件的开始或旧事件的结束。通过分析上个步骤匹配到的事件链各帧政府服务热线数目的变化,将全城或城市局部区域城市事件按z-score值进行排序,
来表征城市事件的突发和紧急程度,描述同一事件的政府服务热线数据以同一id标识,并对城市突发事件预警,提醒城市管理者关注该类问题,并尽快解决。
46.本发明实施例中,通过分析政府服务热线数据实现城市事件发现、事件预警功能,可以检测城市存在的突发性事件并及时预警。通过参数配置,实现对事件的多维可视化,包括在百度地图上定位不同类型事件的空间分布,在折线图上表示不同事件随着时间的数量变化、在事件链河流图上表征事件的突发程度、通过词云图来显示某类事件的相关元素的重要程度以及可从全局或自选局部多视角观测城市事件,以多种可视化形式来帮助城市决策者确定城市突发事件的主要内容、主要发生地点等信息。城市突发事件的预警的多维可视化展现技术对城市问题治理、城市的建设和发展有着重大的意义。
47.采用本发明实施例的方法,有助于更好地解析和丰富每一条12345热线数据的语义信息,从而及时且清晰地了解城市发生的各种事件,并能对城市的突发事件做出检测、预警,最后在面向政务的领域知识模型中溯源和分析城市问题的发生的原因和解决方案,有助于政府有关部门可以在这些事件变得更严重之前采取措施以减少这些事件对市民造成的损失。基于政府服务热线数据的城市事件预警系统的设计与实现对于政府和市民都具有重要的意义。
48.需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
49.根据本发明实施例的另一个方面,还提供了一种基于知识图谱的事件发现与展现系统,如图2所示,包括:
50.预处理模块100,用于对每条政府服务热线数据进行预处理,包括提取每条政府服务热线数据的时间信息和空间信息,向量化表示每条政府服务热线数据,将时间信息和政府服务热线数据的关键词信息添加进对应的政府服务热线数据;
51.获取模块200,用于按照用户指定的时间间隔将用户选择的时间段内的政府服务热线数据划分为数据帧,通过社区发现算法对各帧内的政府服务热线数据进行事件检测,获取各城市事件,各城市事件包括城市非突发事件和城市突发事件;
52.可视化模块300,用于基于二部图最大权值匹配算法,对前后两帧的事件进行匹配,建立各城市事件演化的事件链,分析事件链中各城市事件的 z-score值,确定各城市事件的突发和紧急程度,并对其中的城市突发事件进行预警和多维可视化。
53.需要说明的是,本发明的系统与前述的方法属于同一技术构思,具体实现方式不再赘述。
54.本发明可以用于分布式知识图谱系统进行大规模高效数据导入,并且支持对超级节点数据的导入,以下以从多个应用客户端发出批量导入请求的应用实例,进一步说明本发明的实施方式。
55.只要城市的政务服务热线数据包含具体的投诉内容和投诉时间信息,就可以适用于本发明的系统,总体流程如图3所示,包括:s1、对于每一条政务服务热线数据先做预处理:通过lattice lstm模型提取投诉内容中的事件发生地点,将投诉内容通过word2vec技
术向量化表示方便后续机器处理,再添加投诉时间信息和表征投诉内容的关键词信息便完成了每条12345热线数据的预处理工作;s2、之后系统会接受来自用户的参数输入,按用户指定的时间间隔将用户选定的时间段中的数据划分为数据帧,并通过基于louvain 的社区发现聚类算法对各数据帧中的数据进行事件监测,将数据分为不同的事件类别;s3、接着利用二部图匹配算法建立前后帧事件的联系以得到各个城市事件演化的事件链,最后系统通过事件的z-score值,即衡量事件的突发程度的值,来区分城市事件是否为突发事件,并通过丰富的可视化技术来呈现。
56.在系统的参数列表中,可以选择系统的展示区域,分为全局和局部;可以选择想要查看的时间段和时间间隔;也可以选择具体查看某一类事件详情。主体展示界面由三个模块组成,分别是地图模块、折线图模块和事件链河流图模块。地图模块中将选定时间段内的投诉内容按照其发生地点在地图上一一以点标记,点的颜色代表其所属的事件类别,选择具体点可以看到其详细投诉内容;折线图模块展示的是选择的时间段内12345热线数目随时间间隔的变化曲线;事件链河流图模块以河流图的形式展示选定时间段内各个类别事件的突发程度,级别越高,代表在这一时间范围内,这一类事件发生的频率越高,需要重点关注和及时解决相应问题。
57.以基于a城市政府服务热线数据的城市突发事件预警系统和基于b城市政府服务热线数据的城市突发事件预警系统为例:a城市的事件系统所使用的数据是a城市2016年9月到2020年4月的政府服务热线数据,图4所展示的是2020.01.01到2020.03.01这两个月城市突发事件预警系统的全局展示界面。图中可以看出在这两个月内有关疫情的相关事件急剧增加、突发级别最高,需要政府关注并提供相应解决措施,这符合当时的现实情况。b城市的事件系统所使用的数据是b城市2019年1月到2021年3月的政府服务热线数据,图5所展示的是2020.11.01到2021.01.01这2个月城市突发事件预警系统的全局展示界面。可以发现这两个月市民对于供暖的需求急剧增加,需要相关政府部门重点关注,这也与年末这个时间段的现实情况符合。局部展示与全局展示类似,只不过关注的范围由城市全局缩小到用户自己选择的区域,这里不再赘述。本系统还提供对于城市某一类事件的单一展示,在全局展示或局部展示的基础上,选择想要深入了解的某一类事件,在参数列表输入事件序列,便可进入城市事件的单一展示界面。与全局/局部展示相比,保留了地图模块和折线图模块;不同的是,首先只展示选定类别的事件,其次去掉了事件链河流图,用不同时间区间内的词云展示图和具体举报内容表格替代,从而更好地展示单一事件类。图6展示的是在图2a城市全局事件展示基础上,对疫情类事件单独展示的界面,主要展示单一展示界面的布局和全局不同,而不是文字内容。
58.采用本发明实施例的系统,有助于更好地解析和丰富每一条12345热线数据的语义信息,从而及时且清晰地了解城市发生的各种事件,并能对城市的突发事件做出检测、预警,最后在面向政务的领域知识模型中溯源和分析城市问题的发生的原因和解决方案,有助于政府有关部门可以在这些事件变得更严重之前采取措施以减少这些事件对市民造成的损失。基于政府服务热线数据的城市事件预警系统的设计与实现对于政府和市民都具有重要的意义。
59.本发明还提供一种存储介质,存储介质中存储有计算机程序,其中,计算机程序运行时可以执行本发明的方法。该存储介质包括以下至少之一:软盘、光盘、dvd、硬盘、闪存、u
盘、cf卡、sd卡、mmc卡、sm卡、记忆棒(memory stick)、xd卡等,将本发明的方法转化成数据(计算机程序) 刻录到上述存储介质中,比如将刻有本发明方法的计算机程序的硬盘放入电脑运行,则可以实现本发明的方法。
60.本发明还提供一种电子装置,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行本发明的方法。该存储器属于前面的存储介质,能够存储本发明方法的计算机程序,该处理器可以对存储器中的数据进行处理,该电子装置可以是计算机、手机或者其他包括存储器和处理器的任何装置。在计算机启动后,启动处理器运行存储器中的本发明方法的计算机程序,则可以实现本发明的方法。
61.显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内,则本发明也意图包含这些改动和变型在内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献