一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种交通违法对象的挖掘方法、装置、设备及介质与流程

2021-10-24 04:51:00 来源:中国专利 TAG:介质 挖掘 装置 交通违法 数据挖掘


1.本发明涉及数据挖掘技术领域,尤其是一种交通违法对象的挖掘方法、装置、设备及介质。


背景技术:

2.随着机动车、驾驶人数量的急剧增长,通过电子警察查获机动车交通违法的需求越来越大,但是,电子警察无法确定实际机动车驾驶人,导致针对实际交通违法对象的识别准确率较低,使得电子警察对交通违法对象的打击力度不高,进而会影响交通安全。
3.相关技术一般通过人工识别的方式来对交通违法对象进行确认,但这种方式的工作量较大,效率较低。


技术实现要素:

4.有鉴于此,本发明实施例提供一种高效且准确的交通违法对象的挖掘方法、装置、设备及介质。
5.本发明的一方面提供了一种交通违法对象的挖掘方法,包括:
6.获取交通违法数据;
7.根据所述交通违法数据构建交通违法知识图谱;所述交通违法知识图谱中包括实体型节点和属性型节点;
8.对所述交通违法知识图谱进行子图分割,得到图谱子图;
9.确定所述图谱子图的低维量化表达,得到各个子图的低维编码向量;
10.对所述各个子图的低维编码向量进行聚类处理,确定交通违法对象的挖掘结果。
11.优选地,所述根据所述交通违法数据构建交通违法知识图谱,包括:
12.根据所述交通违法数据,确定实体型节点和属性型节点;
13.根据所述实体型节点和所述属性型节点,建立节点之间的关联关系,进而构建得到所述交通违法知识图谱
14.其中,所述实体型节点包括客观实体节点和交通泛化实体节点,所述客观实体节点包括人物对象、车辆对象和道路对象;所述交通泛化实体节点包括交通违法事件、交通事故事件和交通出行事件;
15.所述属性型节点包括机动车颜色、机动车品牌、机动车型号、驾驶员性别和驾驶员准驾车型。
16.优选地,所述对所述交通违法知识图谱进行子图分割,得到图谱子图,包括:
17.将所述交通违法知识图谱中的实体划分为核心对象实体和属性对象实体;其中,所述核心对象实体包括驾驶员、驾驶证、机动车和违法信息;所述属性对象实体包括但不限于驾驶员性别、机动车颜色和机动车品牌;
18.确定所述不同的核心对象实体之间的第一连接关系;
19.确定所述核心对象实体与所述属性对象实体之间的第二连接关系;
20.根据所述第一连接关系和所述第二连接关系,从所述交通违法知识图谱中提取得到图谱子图。
21.优选地,所述确定所述图谱子图的低维量化表达,得到各个子图的低维编码向量,包括:
22.将所述图谱子图中的一个核心对象实体作为元胞;
23.确定所述元胞与其他核心对象实体之间的相关关系;
24.根据所述相关关系,确定子图的低维向量表达的向量结构,所述向量结构包括:相互买卖分的违法实体数量、买卖分违法实体与驾驶证实体的平均距离、买卖分违法实体与机动车实体的平均距离;
25.根据所述向量结构,构造分量的计算公式;
26.根据所述计算公式计算得到所述元胞与另外两个核心对象实体之间的平均距离,将所述平均距离作为所述元胞的编码向量的两个分量,完成对子图的量化编码。
27.优选地,所述构造分量的计算公式为:
[0028][0029]
其中,d
p
代表第p类核心对象对应的分量;s代表事件对象;k代表元胞周围的核心对象;i代表事件对象总数;j
p
代表第p类核心对象总数。
[0030]
优选地,所述对所述各个子图的低维编码向量进行聚类处理,确定交通违法对象的挖掘结果,包括:
[0031]
通过k

means方法对所述各个子图的低维编码向量的向量特征进行聚类,得到聚类结果。
[0032]
本发明实施例还提供了一种交通违法对象的挖掘装置,包括:
[0033]
获取模块,用于获取交通违法数据;
[0034]
构建模块,用于根据所述交通违法数据构建交通违法知识图谱;所述交通违法知识图谱中包括实体型节点和属性型节点;
[0035]
分割模块,用于对所述交通违法知识图谱进行子图分割,得到图谱子图;
[0036]
低维化表达模块,用于确定所述图谱子图的低维量化表达,得到各个子图的低维编码向量;
[0037]
聚类模块,用于对所述各个子图的低维编码向量进行聚类处理,确定交通违法对象的挖掘结果。
[0038]
本发明实施例还提供了一种电子设备,包括处理器以及存储器;
[0039]
所述存储器用于存储程序;
[0040]
所述处理器执行所述程序实现如前面所述的方法。
[0041]
本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的方法。
[0042]
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
[0043]
本发明的实施例首先获取交通违法数据;根据所述交通违法数据构建交通违法知识图谱;所述交通违法知识图谱中包括实体型节点和属性型节点;对所述交通违法知识图谱进行子图分割,得到图谱子图;确定所述图谱子图的低维量化表达,得到各个子图的低维编码向量;对所述各个子图的低维编码向量进行聚类处理,确定交通违法对象的挖掘结果。本发明提高了对交通违法对象的识别准确率和识别效率。
附图说明
[0044]
为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0045]
图1为本发明实施例提供的整体步骤流程图;
[0046]
图2为本发明实施例提供的属性图模型结构的示意图;
[0047]
图3为本发明实施例提供的交通违法知识图谱数据模型示意图;
[0048]
图4为本发明实施例提供的交通违法知识图谱的子图示意图。
具体实施方式
[0049]
为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
[0050]
知识图谱是知识统合组织的重要模型工具,它是由大量概念与实体、实体关联与属性等要素构成的复杂关联网络。交通公安领域知识隐含于多源、海量的交通大数据中,研究面向知识高效利用的大规模层次交通知识图谱构建、图谱对象关系可计算与深度知识推理是交通大数据价值实现的重要途径。
[0051]
在交通违法“买卖分”团伙挖掘中应用知识图谱技术,能高效挖掘出人与人之间,在交通违法办理中的潜在关系。
[0052]
针对现有技术中存在的问题,本发明实施例提供了一种交通违法对象的挖掘方法,如图1所示,该方法具体包括以下步骤:
[0053]
获取交通违法数据;
[0054]
根据所述交通违法数据构建交通违法知识图谱;所述交通违法知识图谱中包括实体型节点和属性型节点;
[0055]
对所述交通违法知识图谱进行子图分割,得到图谱子图;
[0056]
确定所述图谱子图的低维量化表达,得到各个子图的低维编码向量;
[0057]
对所述各个子图的低维编码向量进行聚类处理,确定交通违法对象的挖掘结果。
[0058]
优选地,所述根据所述交通违法数据构建交通违法知识图谱,包括:
[0059]
根据所述交通违法数据,确定实体型节点和属性型节点;
[0060]
根据所述实体型节点和所述属性型节点,建立节点之间的关联关系,进而构建得到所述交通违法知识图谱
[0061]
其中,所述实体型节点包括客观实体节点和交通泛化实体节点,所述客观实体节
点包括人物对象、车辆对象和道路对象;所述交通泛化实体节点包括交通违法事件、交通事故事件和交通出行事件;
[0062]
所述属性型节点包括机动车颜色、机动车品牌、机动车型号、驾驶员性别和驾驶员准驾车型。
[0063]
优选地,所述对所述交通违法知识图谱进行子图分割,得到图谱子图,包括:
[0064]
将所述交通违法知识图谱中的实体划分为核心对象实体和属性对象实体;其中,所述核心对象实体包括驾驶员、驾驶证、机动车和违法信息;所述属性对象实体包括但不限于驾驶员性别、机动车颜色和机动车品牌;
[0065]
确定所述不同的核心对象实体之间的第一连接关系;
[0066]
确定所述核心对象实体与所述属性对象实体之间的第二连接关系;
[0067]
根据所述第一连接关系和所述第二连接关系,从所述交通违法知识图谱中提取得到图谱子图。
[0068]
优选地,所述确定所述图谱子图的低维量化表达,得到各个子图的低维编码向量,包括:
[0069]
将所述图谱子图中的一个核心对象实体作为元胞;
[0070]
确定所述元胞与其他核心对象实体之间的相关关系;
[0071]
根据所述相关关系,确定子图的低维向量表达的向量结构,所述向量结构包括:相互买卖分的违法实体数量、买卖分违法实体与驾驶证实体的平均距离、买卖分违法实体与机动车实体的平均距离;
[0072]
根据所述向量结构,构造分量的计算公式;
[0073]
根据所述计算公式计算得到所述元胞与另外两个核心对象实体之间的平均距离,将所述平均距离作为所述元胞的编码向量的两个分量,完成对子图的量化编码。
[0074]
优选地,所述构造分量的计算公式为:
[0075][0076]
其中,d
p
代表第p类核心对象对应的分量;s代表事件对象;k代表元胞周围的核心对象;i代表事件对象总数;j
p
代表第p类核心对象总数。
[0077]
优选地,所述对所述各个子图的低维编码向量进行聚类处理,确定交通违法对象的挖掘结果,包括:
[0078]
通过k

means方法对所述各个子图的低维编码向量的向量特征进行聚类,得到聚类结果。
[0079]
下面结合说明书附图,对本发明提供的交通违法对象的挖掘方法的具体实现过程进行详细描述:
[0080]
(1)、交通违法行为的知识图谱构建
[0081]
如图2所示,针对交通数据多源异构、重复等问题,采用属性图模型(property graph)作为交通知识图谱数据结构的建模工具,对数据进行语义化关联并转化为知识,实现交通知识的整合和交通对象的统一表达
[0082]
在交通违法知识图谱中,节点分为实体型与属性型两类,具体分类情况如下:
[0083]

实体型节点:包括客观实体节点和交通泛化实体节点。
[0084]

客观实体节点:指客观世界存在的,具有物理稳定性的实体,如:人、车、路等交通对象。
[0085]
交通泛化实体节点:指把交通动态事件实体化,使其具有与一般实体节点一样属性的节点,主要有:交通违法、交通事故和交通出行等交通事件。
[0086]

属性型节点:指实体属性内容的语义概念,如机动车颜色、机动车品牌、机动车型号、驾驶员性别、驾驶员准驾车型等。
[0087]
其中,属性型节点是大量实体的共同属性内容,作为单独的节点与对应实体节点相关联有利于关联知识的表达,也有利于充分利用图模型中读取图形结构快于属性内容的设计特点,以提高数据抓取的效率。
[0088]
基于图谱实体节点的定义,建立实体关联关系。如图3所示,使用上述方法,设计交通违法知识图谱数据结构模型。
[0089]
(2)、交通违法知识图谱的子图分割
[0090]
面对规模巨大的知识图谱,以构建的交通违法知识图谱为例,当数据实体规模较大,例如达亿级的时候,传统的图挖掘分析方法和计算机算力不能支撑数据量如此庞大的图结构数据,需要从降维的角度解决该问题,因此提出了知识图谱子图分割方法,目的是把巨型知识网络,按照需求进行合理的划分,瓦解成一个个图谱子图,以方便后续的计算工作。
[0091]
首先需要依据实体的固有特性以及研究的重点,将实体划分为核心对象实体和属性对象实体。核心对象实体包括:驾驶员、驾驶证、机动车和违法信息四类实体。次要对象实体表征核心对象实体的属性特征,所以驾驶员性别、机动车颜色、机动车品牌等由单一属性提取得到的实体被定义为次要对象实体。由此,可以同时定义强关系为核心对象实体之间的连接关系,而弱关系为核心对象实体与属性对象实体之间的连接关系。从而可以把核心对象实体及其相关的强关系提取出来,形成交通违法知识图谱中的“孤岛”,即交通违法知识图谱的子图,如图4所示。
[0092]
子图分割其实是一个遍历的过程:以任意一个核心对象实体为起点,进行广度优先遍历bfs。具体地,子图分割的步骤如下1

8:
[0093]
input:输入是整个警民通知识图谱的每个实体;
[0094]
output:输出是针对某个图谱实体生成的子图。
[0095]
1:新建两个分别用于存放子图实体和边的空集合;
[0096]
2:选择一个实体e_0存放到一个临时集合中,该临时集合的作用是用来存放未遍历的实体;
[0097]
3:一直进行如下处理直到临时集合没有实体;
[0098]
4:从临时集合中不放回随意取出一个实体;
[0099]
5:对第4步取出的实体进行一次广度优先遍历(即搜索与该实体关联的实体和边),得到的实体集合与子图实体集合相交得到新的子图实体集合,得到的边集合与子图边集相交得到新的子图边集合;
[0100]
6:把第5步广度优先遍历得到的实体集合加入到临时集合中;
[0101]
7:如果符合步骤3条件,结束循环;
[0102]
8:利用新生成的子图实体集合和子图边集合,组合成子图并输出。
[0103]
经过子图分割技术得到的子图在规模上远小于原知识图谱,并且能够高效地处理。与此同时,该算法面向业务需求,得到的子图在最大程度上保留了分析所用的结构特征,并可以把无关的、远距离的实体及关系排除在外,保证了结构相关性的同时过滤了冗余信息,以提高计算的准确性和效率。
[0104]
(3)、子图的低维量化表达
[0105]
无论是知识图谱本身还是经过分割得到的图谱子图,其本质上是非结构化的图形数据,计算机无法读取和理解其中的内涵,无法进行分析和计算。同时,面对不同的子图结构,实体与关系数量参次不齐,关系类型和连接度多变,需要寻求一种统一的表示方式,既可以让计算机“读懂”,又可以表征不同规模、不同结构特征的子图,因此在子图分割的基础上,实现子图低维量化表示(graph embedding)是对大规模复杂图数据分析的前提。
[0106]
采用编码向量的方法对子图进行低维量化表达,编码向量是对子图的局部量化表达方法,之所以称之为局部量化表达,是因为编码向量关注的是核心对象实体之间的相互关联关系,是对核心对象实体的结构特征进行量化表达,不考虑次要对象实体的特征。
[0107]
编码向量首先需要将某一类核心对象实体当做一个元胞,然后探究其与周边其他类核心对象实体之间的相互关系,所以编码向量是针对子图内某一类核心对象实体的。针对当前构建的交通违法知识图谱子图,可以发现子图内不同驾驶员之间的相互关系是通过违法信息实体来体现的,违法信息实体是不同驾驶员之间相互连接的桥梁,通过违法信息实体,一个驾驶员的机动车可以和另一个驾驶员的驾驶证进行关联,所以一个子图内才会出现多个驾驶员。所以,编码向量是针对违法信息类实体而设计。
[0108]
基于此,子图的低维量化表达的向量结构,包含三个分量,分别是:相互买卖分的违法实体数量、买卖分违法实体与驾驶证实体的平均距离、买卖分违法实体与机动车实体的平均距离。
[0109]
已知编码向量的分量结构,接下来就是构造分量的计算公式。相互买卖分的违法实体数量较容易计算,也就是计算违法信息实体中关联的驾驶证和机动车属于不同驾驶员的那部分实体的数量。难点在于计算违法信息实体与另外两类实体之间的平均距离,本发明将违法信息实体当成一个元胞,元胞内的每一个实体称为事件对象,计算元胞到另外两类实体的平均距离,具体公式如下所示。
[0110][0111]
式中:d
p
代表第p类核心对象对应的分量
[0112]
s代表事件对象
[0113]
k代表元胞周围的核心对象
[0114]
i代表事件对象总数
[0115]
j
p
代表第p类核心对象总数
[0116]
由上式,可以计算得到两个平均距离作为编码向量的后两个分量,这样就完成了对子图的量化编码。每一个子图均由包含三个分项的向量来表达。
[0117]
(4)、交通违法“买卖分”团伙聚类
[0118]
经过知识图谱低维表示后,得到各个子图的低维编码向量。然后利用k

means方法,根据不同的向量特征,把多个子图分为三类,对应着三种不同的交通违法扣分情况:寻
找“买卖分”团伙办理、亲朋替分、正常个人自己办理扣分。每一个子图,均为三种类型的其中一种。从而得出了若干个交通违法“买卖分”团伙
[0119]
本发明实施例还提供了一种交通违法对象的挖掘装置,包括:
[0120]
获取模块,用于获取交通违法数据;
[0121]
构建模块,用于根据所述交通违法数据构建交通违法知识图谱;所述交通违法知识图谱中包括实体型节点和属性型节点;
[0122]
分割模块,用于对所述交通违法知识图谱进行子图分割,得到图谱子图;
[0123]
低维化表达模块,用于确定所述图谱子图的低维量化表达,得到各个子图的低维编码向量;
[0124]
聚类模块,用于对所述各个子图的低维编码向量进行聚类处理,确定交通违法对象的挖掘结果。
[0125]
本发明实施例还提供了一种电子设备,包括处理器以及存储器;
[0126]
所述存储器用于存储程序;
[0127]
所述处理器执行所述程序实现如前面所述的方法。
[0128]
本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的方法。
[0129]
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
[0130]
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
[0131]
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
[0132]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个
人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read

only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0133]
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
[0134]
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
[0135]
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
[0136]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0137]
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
[0138]
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本技术权利要求所限定的范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜