一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于出行事件知识图谱的区域交通拥堵溯因方法与流程

2021-12-07 21:44:00 来源:中国专利 TAG:


1.本发明涉及轨迹数据挖掘技术领域,特别是一种基于出行事件知识图谱的区域交通拥堵溯因方法。


背景技术:

2.出行轨迹数据作为城市时空大数据的一种重要类型,具有时空动态性,空间分布广泛的特点,隐含了个体和群体的出行模式和特征。如何从这些出行轨迹数据中发现有价值的知识,对于辅助城市区域的交通拥堵溯因具有重要的意义,也存在不小的挑战。
3.知识图谱是一种能够将数据中的知识以节点和边来进行形式化描述的框架,以结构化三元组的形式存储实体和实体之间的关系。因其能够将实体之间的多粒度、多层次的语义关联以一种统一的方式进行表示,知识图谱在搜索、问答、推荐等领域展现出了广阔的应用前景。
4.事件知识图谱以事件为节点,事件关系为边进行表示,相较于先前的知识图谱具有更加强大的知识表达能力,因为事件关系的引入使得事件知识图谱能够表达仅仅利用实体和实体关系无法表达的时间和空间的动态知识。事件知识图谱对于刻画事件的动态演化、进行事件预测以及事件因果推理具有独特的优势。
5.目前将出行轨迹数据与知识图谱结合的应用还比较少,大多是将出行轨迹数据转换成知识图谱三元组,构建轨迹知识图谱,进而用于轨迹的语义查询或者位置推荐,缺乏对轨迹数据本身的时空动态性以及事件对出行轨迹的影响的考虑,难以充分挖掘出行轨迹数据本身隐含的动态和因果知识。
6.(1)基于出行轨迹数据的轨迹知识图谱构建
7.参考文献1“understanding people lifestyles:construction of urban movement knowledge graph from gps trajectory”(zhuang c,yuan n j,song r,et al,ijcai.pp.3616

3623,august.2017)从时间、空间、时空三个视角,用gps轨迹数据构建了一个城市移动知识图谱,其中位置和位置之间的关系分别代表节点和边,将节点和边在一个隐含的语义空间进行表示,进而利用这个知识图谱来预测用户对城市不同位置的关注程度高低。该方法将gps轨迹数据中的时空信息进行了较为有效的表示,并利用知识图谱在下游的预测任务上进行实验,但是忽略了时空数据本身存在的动态性,构建的是一个静态的知识图谱。
8.参考文献2“轨迹图谱:一种基于知识图谱结构的轨迹信息抽取方法”(吴瑕,赵小明,余建坤,计算机应用研究,vol.37,no.11,pp.1

5,feb.2020)提出了一种将gps轨迹数据转换成轨迹知识图谱的方法,抽取了用户、轨迹、地物三类实体,关系包括空间关系、时间关系和地理关系,基于构建好的轨迹知识图谱,可以进行轨迹的常见查询。然而这种方法,缺乏考虑事件对出行轨迹的影响,实现的下游功能也较为单一。
9.(2)城市交通拥堵区域发现及预测
10.参考文献3“刘畅.交通拥堵区域的发现与预测技术研究[d].2015.”首先利用gps
轨迹数据找出城市交通拥堵区域,然后预测每个区域在之后的时间段出现交通拥堵的几率,其中交通拥堵的状况是基于当前时刻的状态只依赖于上一个时刻的状态这一假设进行预测的,文中基于马尔科夫链预测模型建立了交通拥堵情况预测模型,然而导致交通拥堵的影响因素是复杂多变的,而且具有一定随机性,如果缺乏对交通拥堵的溯因分析,那么仅仅依靠单一数据源和上一时刻的状态,难以做出有效的交通拥堵预测。
[0011]
参考文献4“张振龙,邱煜卿,蒋灵德,等.基于实时路况的交通拥堵时空特征及其影响因素分析——以苏州古城区为例[j].现代城市研究,2020,000(001):104

112.”通过实时路况数据,对苏州古城区的常发性拥堵路段的时空特征进行分析,并且分析了交通拥堵发生的主要原因,但是缺乏对交通拥堵区域的发现,没有考虑突发事件对交通拥堵的影响,由于研究的是苏州古城区,给出的交通拥堵治理对策也有一定的空间局限性。


技术实现要素:

[0012]
本发明的目的是提供一种基于出行事件知识图谱的区域交通拥堵溯因方法。
[0013]
实现本发明的技术方案是:
[0014]
基于出行事件知识图谱的区域交通拥堵溯因方法,包括:
[0015]
步骤1:构建出行事件知识图谱,包括:
[0016]
1.1从车辆出行轨迹数据集中抽取车辆实体和轨迹实体;使用基于时间和空间距离阈值的poi抽取算法从车辆出行轨迹数据集中抽取poi实体;采用预定义事件类型的方法构建事件实体;
[0017]
1.2从车辆出行轨迹数据集中抽取关系,包括:车辆实体之间的相似关系、车辆实体与轨迹实体的产生关系、轨迹实体之间的相似关系、轨迹实体与poi实体的途经关系;构建事件实体之间的因果关系、事件实体与轨迹实体的影响关系;
[0018]
步骤2:利用出行事件知识图谱,进行区域交通拥堵溯因,包括:
[0019]
2.1利用基于路网的区域划分方法,对地图进行分割和聚类,得到区域;
[0020]
2.2从出行事件知识图谱的轨迹实体中,获取在指定时间范围内从指定区域到目标区域的所有车辆轨迹数量,得到区域之间的车辆流量,形成区域链路流量矩阵;采用pca算法从区域链路流量矩阵挖掘出异常的区域链路流量;
[0021]
将异常的区域链路流量所对应的出行路径作为区域交通拥堵路径;
[0022]
2.3构建区域交通拥堵原因候选集合,包括:
[0023]
2.3.1从出行事件知识图谱的轨迹实体中,抽取出行路径的轨迹对应的出发时间和到达时间,并将其与节假日类型表和早晚高峰类型表的时间段进行匹配;如果其在对应的时间段内,则将节假日类型或早晚高峰类型标记纳入区域交通拥堵原因候选集合;
[0024]
2.3.2从出行事件知识图谱得到轨迹途经的poi序列,获取出发地和到达地poi,得到其poi类型和位置;如果poi的中心坐标位置位于轨迹驻留区域地理范围内,则将区域本身的poi类型纳入区域交通拥堵原因候选集合;
[0025]
2.3.3根据事件类型表的突发事件,结合出行事件知识图谱中的事件实体与轨迹实体的影响关系以及事件之间的因果关系,根据出行轨迹途经的poi序列,得到出行轨迹途经poi的时间和位置信息,将同时段发生的突发事件属性纳入区域交通拥堵候选集合;
[0026]
2.4根据区域交通拥堵候选集合的值,给区域交通拥堵路径添加拥堵原因标记。
[0027]
本发明的有益效果在于,能够简洁有效地表示出行轨迹数据的时空动态性,刻画出车辆实体、轨迹实体、poi实体、事件实体的相互关系,适用于处理动态变化的出行轨迹。充分考虑了突发事件对出行轨迹的影响,出行事件知识图谱记录了事件的名称、类型、发生时间、发生地点、持续时间等,对于交通拥堵的溯因提供了一种可解释性的分析手段。综合出行轨迹的时空动态性和事件关系,可充分挖掘出行轨迹本身隐含的时空动态和因果知识。
附图说明
[0028]
图1为区域链路及出行路径示意图。
具体实施方式
[0029]
一种基于出行事件知识图谱的区域交通拥堵溯因方法,包括:
[0030]
步骤一:从出行轨迹数据集td中直接抽取车辆实体和轨迹实体;使用基于时间和空间距离阈值的poi抽取算法从出行轨迹数据集td中抽取出poi实体集,根据出行轨迹的起止点,抽取出起始地和到达地poi实体;采用预定义事件类型的方法构建事件实体,事件实体包含事件编号、名称、类型、发生时间、持续时间、发生地点等事件属性;
[0031]
步骤二:构建出行事件知识图谱,包括:
[0032]
2.1计算车辆的出发地之间的距离,然后通过归一化处理,得到相似度,构建车辆实体和车辆实体之间的双向相似关系psp;
[0033]
2.2从预处理后的轨迹数据集tr中直接提取并构建车辆实体和轨迹实体的单向产生关系pgt;
[0034]
2.3采用dtw(dynamic time warping)算法,来得到轨迹之间的相似度得分,进而构建轨迹实体和轨迹实体之间的双向相似关系tst;
[0035]
2.4通过使用基于时间和空间距离阈值的poi抽取算法(spd,stay point detection)获取轨迹途经的poi序列,,构建轨迹实体和poi实体的途经关系tvo;
[0036]
2.5采用基于主动学习的多轮人工因果关系标注,构建事件实体和事件实体之间的因果关系ece;
[0037]
2.6计算事件发生地与轨迹上的gps点的距离最小值,构建事件实体和轨迹实体的影响关系eit;
[0038]
步骤三:根据出行事件知识图谱进行城市区域交通拥堵溯因分析,分为城市区域交通拥堵检测和城市区域交通拥堵原因标记,前者的步骤为首先采用基于路网的城市区域划分方法和聚类,得到不规则的城市区域,然后使用pca(principal component analysis)算法从区域链路流量矩阵中挖掘区域链路流量异常,最后求解l1约束优化问题,得到候选的区域交通拥堵路径;后者的步骤为首先从时间、空间、事件三个角度对城市交通拥堵产生的原因进行分析,包括节假日、早晚高峰、区域本身的poi类型、突发事件的影响等,然后根据同时间段、同地理范围内的约束条件,获取出行事件知识图谱中的实体、关系、属性信息进行原因匹配,最后得到城市区域交通拥堵产生的原因标记cl。
[0039]
本发明的实施例,其步骤如下:
[0040]
a、预处理出行轨迹数据集t

drive,该数据集包含2008年北京10357辆出租车2月2
日至2月8日的gps轨迹,共有1500万个gps点,轨迹总距离长度达到900多万公里。数据集中的每个文本文件以出租车id命名,其中包含该出租车的所有轨迹。文件中的每一行记录了出租车id、时间戳、经度、纬度。
[0041]
出行轨迹数据集预处理的步骤如下所示:
[0042]
a1、轨迹噪声过滤。采用基于速度的启发式方法完成轨迹噪声过滤,计算每个轨迹点的速度,轨迹点的速度由该轨迹点到它的下一个轨迹点的距离和时间通过速度公式计算得到,如果大于速度阈值,则可以判断该轨迹点是噪声点,去除该噪声点。其中,速度阈值通常为轨迹的平均速度;
[0043]
a2、驻留点检测。采用基于距离阈值和时间阈值结合的驻留点检测方法。首先检测当前轨迹点p
i
与它的后继轨迹点之间的距离是否大于一个自定义的距离阈值d
max
,然后计算当前轨迹点到d
max
以内的最后一个后继轨迹点p
j
之间的时间间隔,如果时间间隔大于自定义的时间阈值t
min
,那么就检测到一个驻留点(p
i
p
j
),接着,锚点移动到轨迹点p
j
的下一个点。否则,锚点移动到轨迹点p
i
的下一个点。重复此过程,直至锚点移动到轨迹末尾,即可检测出轨迹中的所有驻留点。其中,距离阈值设置为200m,时间阈值设置为15min;
[0044]
a3、轨迹压缩。采用基于dp(douglas

peucker)算法的轨迹压缩方法。在轨迹的首尾两点连接一条直线,遍历轨迹上的所有点到直线的距离,找到与直线距离最大的点p
max
,令最大距离为d
max
,比较d
max
与自定义的误差距离阈值d,如果d
max
<d,则将该直线看作近似的线段,代替原来的轨迹,如果d
max
≥d,则用点p
max
把轨迹分成前后两段,分别对这两段重复执行上述步骤,最后依次连接这些折线,得到压缩后的轨迹。其中,误差距离阈值设置为10m;
[0045]
a4、轨迹分段。采用基于驻留点的轨迹分段方法,根据步骤a2通过驻留点检测算法找出的驻留点,将步骤a3得到的压缩后的轨迹,以驻留点为切断点进行切分,得到分段后的轨迹,每个轨迹段都构成一条新的轨迹;
[0046]
a5、路网匹配。将分段后的轨迹转换成一系列的路段序列。采用全局和局部相结合的路网匹配方法,首先针对轨迹中的每个点,找到离它距离最近的局部候选路段,然后根据每两个连续轨迹点的候选轨迹点转移概率,结合路网的全局拓扑信息,最大化全局匹配概率,将轨迹集tr匹配到路段上,最后用匹配到路段上的轨迹点代替原始的轨迹点。
[0047]
通过步骤a,最终可以获得可用性好、精确度高、冗余度小的轨迹数据集tr,其数据集的组织结构与原始的t

drive出行轨迹数据集相同,接下来将构建出行事件知识图谱,包括实体和关系抽取、属性值计算,知识图谱的组成结构如表1

1所示。
[0048]
表1

1知识图谱组成结构
[0049]
类型(type)具有相同特点或属性实体集合的抽象实体(entity)对具体事物的客观抽象关系(relation)刻画实体与实体之间的关联属性(property)对实体性质的抽象值(value)即属性值,用于描述实体
[0050]
b、实体和关系抽取:
[0051]
b1、实体包括出租车实体p、轨迹实体t、poi(point of interest)实体o和事件实体e。出租车实体p和轨迹实体t可直接从通过a步骤预处理后的轨迹数据集tr中抽取,该数
据集中的每个文本文件对应一个出租车实体p,出租车的每条出行轨迹对应一个轨迹实体t。使用基于时间和空间距离阈值的poi抽取算法(spd,stay point detection)获取poi实体o,其中时间阈值(tt)和空间距离阈值(st)根据经验自定义设置,一般tt=15分钟,dt=200米,poi实体按时间顺序排列,得到轨迹途经的poi序列。采用人工预定义事件类型的方式构建事件实体e,事件分为常规事件和突发事件两类,事件类型表如表1

2所示。
[0052]
表1

2事件类型表
[0053][0054]
出租车实体的属性为taxi id、trajectory number,轨迹实体的属性为trajectory id、origin、destination、departure time、arrival time,poi实体的属性为poi id、name、type、location,事件实体的属性为event id、event name、type、occur time、duration time、occur place,实体

属性映射表如表1

3所示。
[0055]
表1

3实体

属性映射表
[0056]
[0057][0058]
b2、关系包括出租车和出租车之间的相似关系psp,出租车和轨迹之间的产生关系pgt,轨迹和轨迹之间的相似关系tst,轨迹和poi之间的途经关系tvo,事件和事件之间的因果关系ece,事件和轨迹之间的影响关系eit,实体

关系映射表如表1

4所示。psp的属性是similarity,pgt的属性是generate time,tst的属性是similarity,tvo的属性是via、arrival time、leave time,ece的属性是causality,eit的属性是influence。
[0059]
表1

4实体

关系映射表
[0060]
实体关系实体出租车相似(psp)出租车出租车产生(pgt)轨迹轨迹相似(tst)轨迹轨迹途经(tv0)poi事件因果(ece)事件事件影响(eit)轨迹
[0061]
通过步骤b,可以得到从轨迹数据集tr中抽取出的出租车实体、轨迹实体、poi实体和事件实体,明确了实体之间的关系和实体和关系具有的属性。
[0062]
c、根据从轨迹数据集中抽取出的实体、关系,构建关系,计算属性值,完成出行事件知识图谱的构建:
[0063]
c1、构建出租车和出租车之间的相似关系psp。采用psp的属性similarity记录出租车之间的相似度。采用层次图匹配算法来计算出租车之间的相似度,首先采用不同的层次图来表示每辆出租车的历史gps轨迹途经的poi序列,然后采用序列匹配(sequence matching)算法计算两个层次图的对应层次上图的相似性的加权和,最后可以得到出租车之间的相似度;
[0064]
c2、构建出租车和轨迹之间的产生关系pgt。每辆出租车会产生多条轨迹,采用pgt的属性generate time记录出租车实体产生轨迹实体的时间戳,从预处理后的轨迹数据集tr中直接提取出租车出行轨迹的出发时间;
[0065]
c3、构建轨迹和轨迹之间的相似关系tst。采用tst的属性similarity记录轨迹之间的相似度,相似度采用dtw(dynamic time warping)算法计算得到,计算公式如下式所示:
[0066][0067]
其中,head(tr)=<p1>表示gps轨迹的第一个轨迹点,rest(tr)=<p2,...,p
n
>表示除第一个轨迹点外的其他所有点组成的子轨迹序列。计算得到的两条轨迹之间距离越小,轨迹间的相似度越高;
[0068]
c4、构建轨迹和poi之间的途经关系tvo。根据步骤b1得到的轨迹途经的poi序列,采用tvo的属性via记录轨迹是否途经对应的poi,如果途经,其值为1,否则,其值为0。采用tvo的属性arrival time和leave time分别记录轨迹到达和离开途经的poi的时间;
[0069]
c5、构建事件和事件之间的因果关系ece。采用ece的属性causality记录事件和事件之间是否存在因果关系,从出行事件候选集中,选择待标注的事件,按照事件发生的时间先后顺序,进行基于主动学习的多轮人工因果关系标注,得到事件间存在因果关系或者不存在因果关系,存在因果关系,其属性值为1,不存在因果关系,其属性值为0;
[0070]
c6、构建事件和轨迹之间的影响关系eit。采用eit的属性influence记录事件对轨迹的影响关系,通过遍历轨迹上的所有点到事件发生地的中心点gps坐标的距离,找到与其距离最大的点p
max
,令最大距离为l
max
,比较l
max
与自定义的距离阈值d的大小,如果l
max
<d,则事件对轨迹有影响,其属性值为1,否则没有影响,其属性值0;
[0071]
通过c步骤,利用b步骤抽取出的实体和关系,完成实体之间关系的构建以及属性值的计算,构建出行事件知识图谱。
[0072]
d、利用出行事件知识图谱,进行城市区域交通拥堵溯因分析:
[0073]
d1、城市区域交通拥堵检测。首先,利用基于路网的城市区域划分方法,对地图进行分割和聚类,得到不规则的城市区域。然后,从步骤c构建的出行事件知识图谱的轨迹实体中获取在指定时间范围内,从指定区域到目标区域的所有出租车轨迹数量,进而得到区域之间的出租车流量,形成区域链路流量矩阵l(行是区域链路l,列为时间步t,值为区域链路流量x)。最后,采用pca(principal component analysis)算法从区域链路流量矩阵l,挖掘区域链路流量异常。其计算公式如下,
[0074][0075][0076]
cv
i
=λ
i
v
i
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0077]
ax=b
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0078]
其中,l是区域连接流量矩阵,μ是列样本平均矩阵,c是一个t
×
t的矩阵,t是时间步的数量,λ
i
是特征值,v
i
是特征向量,a为区域链路

路径邻接矩阵,x为路径流量向量,b为区域链路流量向量。首先,计算l和μ的差值,对l进行归一化,得到如公式(1)所示。然后,通过矩阵乘法,得到协方差矩阵c,可以捕获时序关系,t是时间步的大小,可以根据分析的时间粒度要求,限定在几个小时或1天,如公式(2)所示。接着,计算c的特征分解,如公式(3)所示,将(λ
i
,v
i
)特征值

特征向量对按照特征值的大小降序排列,选择前r个特征向量作为
正常子空间p
n
,剩余的特征向量作为异常子空间p
a
,投影所有的数据点到异常子空间p
a
。最后,计算这些区域链路流量x偏离均值的平方,超过设定阈值θ的区域链路,就存在异常的区域链路流量。路径和区域链路流量满足如公式(4)所示的线性关系,通过求解l1约束优化问题的解,得到哪些路径有很大可能引起区域链路的拥堵。
[0079]
为了更加清晰地阐述哪些出行路径有很大可能引起区域链路的拥堵,给出了一个应用示例,如图1所示,为区域链路及出行路径图。在本例中有6条出行路径轨迹{p1,p2,p3,p4,p5,p6}经过这4个区域{r1,r2,r3,r4},p1:r1

r3

r4,p2:r2

r3

r4,p3:r1

r2

r3

r4,p4:r2

r4,p5:r1

r2

r4,p6:r3

r4。首先构建链路

路径矩阵a,a是值为{0,1}的链路

路径邻接矩阵,其中,行是区域之间的链路{l1,l2,l3,l4,l5},列是路径轨迹{p1,p2,p3,p4,p5,p6}。
[0080][0081][0082]
然后,通过出行事件知识图谱的轨迹实体获取在指定的时间段从区域1到区域4各条边上的区域之间出租车流量,可知区域链路l2和l4超过给定的乘客流量阈值,有较大的乘客流量,造成了区域链路拥堵。可以得到相应的区域链路异常向量b=[0,1,0,1,0]
t
,表示区域链路l2和l4存在较大乘客流量。最后,求解l1约束优化问题的解,得到x=(0,1,0,0,0,0),因此出行路径p2有很大可能引起区域链路l2和l4的拥堵。
[0083]
d2、城市区域交通拥堵原因标记,对城市区域交通拥堵产生的原因进一步从时间、空间、事件三个维度进行分析,常见的原因包括节假日(hl)、早晚高峰(dp)、区域本身的poi类型(pl)、突发事件(se)等,原因类型及示例如表1

5、1

6、1

7、1

8所示,给区域交通拥堵路径添加上拥堵原因标记。首先,从出行事件知识图谱的轨迹实体中,抽取出行路径轨迹对应的出发时间和到达时间,并将其与表1

5和表1

6中的节假日、早晚高峰的时间段进行同时段匹配,如果其在对应的时间段内,则将节假日或早晚高峰标记hl(dp),以“键

值”对的形式,“键”为原因名,如节假日,“值”为原因类型,如除夕,纳入区域交通拥堵原因候选集合cs。然后,根据步骤b1从出行事件知识图谱得到轨迹途经的poi序列,获取出发地和到达地poi,得到其poi类型和位置,如果poi的中心坐标位置位于轨迹驻留区域地理范围内,其中,轨迹驻留区域地理范围根据步骤a2计算得到,区域本身的poi类型根据其区域中心坐标位置的周边1公里的poi类型数量最多的poi作为其poi类型,poi类型如表1

7所示,则将区域本身的poi类型pl,以“原因名

原因类型”这样的键值对形式,纳入区域交通拥堵原因候选集合cs。接着,根据出行事件知识图谱中的事件实体对轨迹实体的影响以及事件间关系,在表1

2将事件分成常规事件re和突发事件se,并且进行两级事件分类,分为一级事件和二级
事件。其中突发事件对交通拥堵的影响将结合出行事件知识图谱进行分析,根据出行轨迹途经的poi序列,可以得到出行轨迹途经poi的时间和位置信息,将同时段发生的事件名称(event name)、类型(type)、发生时间(occur time)、持续时间(duration time)、发生地点(occur place)以键

值对的形式,“键”为事件名称,如下雨,“值”为事件属性的值,如类型、发生时间、持续时间、发生地点等纳入到区域交通拥堵候选集合cs。不同的事件的持续时间不一样,进而会影响到乘客出行花费的时间和出行路径的选择;最后,根据区域交通拥堵候选集合cs的值,给步骤d1找出的区域交通拥堵路径添加上拥堵原因标记cl。
[0084]
表1

5节假日类型表
[0085]
节假日类型时间段举例除夕6:00

23:002008年2月6日春节6:00

23:002008年2月7日
[0086]
表1

6早晚高峰类型表
[0087]
早晚高峰类型时间段举例早高峰6:30

9:302008年2月1日晚高峰17:00

20:002008年2月1日
[0088]
表1

7区域本身的poi类型表
[0089]
区域本身的poi类型举例餐饮服务中餐厅、冷饮店购物服务商场、文化用品店生活服务美容美发店、电讯营业厅医疗保健服务综合医院、专科医院住宿服务宾馆酒店、旅馆招待所风景名胜公园广场、风景名胜科教文化服务博物馆、图书馆交通设施服务火车站、公交车站金融保险服务银行、保险公司其他其他不属于上述类别的poi
[0090]
表1

8突发事件类型表
[0091]
突发事件类型举例一级事件交通拥堵二级事件下雨、交通事故、道路施工
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献