一种基于多任务学习的交通大数据分析与预测系统及方法与流程

2021-10-09 13:45:00 来源：中国专利 TAG：交通大数据分析数据学习

1.本发明主要涉及交通大数据领域，具体涉及一种基于多任务学习的交通大数据分析与预测系统。

背景技术：

2.随着城市的机动车数量日益增长，城市的交通受到了巨大的挑战。拥堵成为城市交通的代名词，交通事故的数量也不可小觑。但是，随着大数据等技术的极速发展，大量的交通大数据被采集和研究。交通大数据作为促进交通发展的重要组成部分，其具有数据量庞大、数据类型多、实时性高等特征，应用大数据相关深度学习理论分析与挖掘交通大数据的特征和趋势将会有利于改善城市交通的拥堵现状，这不仅能解决用户层面上的“出行难”问题，也能为交通管理部门提供决策帮助。
3.近些年来，如何分析和挖掘交通大数据的深度特征并对其进行建模和预测，已逐渐成为城市计算领域的一大热点，并受到许多国内外专家及公司的关注。现有的工作主要通过挖掘单个预测任务如交通流、速度、行程时间等的内部时空关联，通过引入深度学习方法对交通数据进行建模，并预测交通数据。这些工作都忽略了不同预测任务之间的时空关联和任务依赖性，而仅仅对单个任务进行预测，丢失了任务间的任务依赖性，如，出发时间和行程时间之间的关联，不同的出发时间对应着不同的行程时间，如果能够捕捉这种多任务之间的依赖性从而更好地建模交通数据，将大大提高预测的精度。因此，考虑将多任务学习引入到交通大数据分析与预测系统中是十分有必要的。

技术实现要素：

4.本发明的目的在于针对现有技术不足，提出了一种基于多任务学习的交通大数据分析与预测系统。
5.为了实现以上目的，本发明提出了一种基于多任务学习的交通大数据分析与预测系统，包括数据采集终端、大数据分析和预测平台、用户终端；
6.所述数据采集终端包括车载数据采集模块和数据传输模块。所述车载数据采集模块即利用移动采集设备如车载obd设备采集机动车的gps数据和轨迹数据；将采集到的机动车gps 和轨迹数据都传输到数据传输模块。所述数据传输模块即将车载数据采集模块采集到的车载数据传输到数据预处理模块。
7.所述大数据和预测平台包括数据预处理模块、交通大数据时空建模模块和多任务学习预测交通大数据模块；所述大数据和预测平台主要是基于多任务学习捕捉多个任务间的相关性并对任务进行预测；
8.所述数据预处理模块先接收数据传输模块所传输的车载gps数据和轨迹数据，然后基于接收的车载gps数据提取出各段行程的速度和行程时间，生成完整的行程记录，得到数据预处理后的交通大数据；所述数据预处理模块基于完整的行程记录，利用时空聚类算法提取城市热区，并根据热区间的连接关系构建城市热区空间网络；
间、到达时间，与轨迹行程进行匹配，还原一段完整的行程记录。
23.t＝stoptime
‑
starttime
[0024][0025]
其中t为行程的总时间,stoptime为行程的结束时间，starttime为行程的开始时间，distance (p,q)为行程起点p(startlon,startlat)和行程终点q(stoplon,stoplat)之间的距离，计算公式为：
[0026]
distance(p,q)＝euclidean(startlon,stoplon,startlat,stoplat)
[0027]
其中，startlon为行程的起点经度,startlat为行程的起点纬度，stoplon为行程的终点经度,stoplat为行程的终点纬度。
[0028]
其次对采集的轨迹行程数据进行数据清洗，筛选出了行程时间大于五分钟的行程。匹配 gps数据和轨迹数据后，生成完整的行程记录。
[0029]
(2.3)基于步骤(2.2)生成的完整的行程记录，采用时空聚类算法对行程记录聚类，提取出城市中不同时间段的热区分布，并构建相应的热区矩阵。在时空聚类算法中，聚类参数 eps1和eps2如下：
[0030]
eps1＝euclidean(lon1,lat1,lon2,lat2),
[0031][0032]
其中，lon1、lat1、t1分别为行程中某点p的经度、纬度、出发时间、时间戳，lon2、lat2、t2为行程中某点q的经度、纬度、出发时间、时间戳。当eps1和eps2均小于时间和空间距离阈值时，则这两点被归为一类。同时，每一类中的点数不得小于某一点数阈值。以此类推，得到了若干个时空城市热区z＝(z1，z2，
…
,n)。
[0033]
(2.4)基于步骤(2.3)获得的不同时间段内城市热区分布，建立城市热区网络，构建城市热区矩阵x
z
＝(z,e)。
[0034]
(2.5)基于步骤(2.4)构建的城市热区矩阵x
z
和步骤(2.2)匹配后的完整的行程记录，匹配每一条车辆行程所途经的城市热区，记录车辆穿过的城市热区。
[0035]
计算公式如下：
[0036][0037]
其中,e
ij
表示热区i与热区j在邻接矩阵z上的值，ε为设定的阈值，并与σ2共同控制邻接矩阵z的稀疏程度，d
ij
代表热区i与热区j之间的距离。
[0038]
进一步地，所述步骤(3)包括以下子步骤：
[0039]
(3.1)基于匹配后的车辆行程数据，计算不同时间段经过每个热区所对应的平均出发时间和平均速度，平均出发时间和城市热区的二维矩阵x
d
和基于平均速度和城市热区的二维矩阵x
c
如下：
[0040]
xc＝[x
c1t
‑
t’ 1
,x
c1t
‑
t’ 2
,
…
,x
c1t
；x
c2t
‑
t’ 1
,x
c2t
‑
t’ 2
,
…
,x
c2t
；
…
；x
cnt
‑
t’ 1
,x
cnt
‑
t’ 2
,
…
,x
cnt
]
t
,
[0041]
xd＝[x
d1t
‑
t’ 1
,x
d1t
‑
t’ 2
,
…
,x
d1t
；x
d2t
‑
t’ 1
,x
d2t
‑
t’ 2
,
…
,x
d2t
；
…
；x
dnt
‑
t’ 1
,x
dnt
‑
t’ 2
,
…
,x
dnt
]
t
,
[0042]
其中,t’代表取过去的历史t’个时间段，n表示假设提取了n个热区，x
c
、x
d
分别表示某个时间段内经过某个热区的平均速度和平均出发时间。x
c
是基于行程速度的度矩阵，x
d
是基于出发时间的度矩阵。
[0043]
(3.2)基于构建的平均出发时间和城市热区的特征矩阵x
d
和基于平均速度和城市热区的特征矩阵x
c
，结合步骤(2.4)构建的邻接矩阵x
z
，构建基于平均出发时间的图g
d
＝(x
d
，x
z
) 和基于平均速度的图g
c
＝(x
c
,x
z
)。
[0044]
(3.3)基于构建的平均出发时间的图g
d
和基于平均速度的图g
c
,提取两个预测任务的时空相关特征并建模。先进行图神经网络卷积gcn，提取空间特征。然后利用门控循环网络gru 进行时间特征提取。
[0045]
将构建的平均出发时间的图g
d
＝(x
d
，x
z
)和基于平均速度的图g
c
＝(x
c
,x
z
)先输入到图神经网络卷积gcn中进行训练和计算，对其空间特征进行建模，这里将得到的邻接矩阵x
z
用a来表示，并对a进行拉普拉斯变换得到l，如下：
[0046]
l＝d
‑
a,
[0047]
其中，a代表计算后得到的邻接矩阵，d代表交通图中每个热区对应的度矩阵；将得到的拉普拉斯矩阵l进行变换，得到归一化的拉普拉斯矩阵公式如下：
[0048][0049]
其中，i代表单位矩阵，为变换后的拉普拉斯矩阵。
[0050]
最后该部分输出为：
[0051][0052]
其中，x即为特征矩阵，在本发明中即特征矩阵x
c
、x
d
。w为权重矩阵，δ为激活函数，为计算所得的输出特征值矩阵。
[0053]
然后将计算所得输入到门控循环单元中进行计算，对其时间特征进行建模，计算过程如下：
[0054][0055]
其中，h
t
‑1为上一时刻的状态向量，h
t
为当前时刻的状态向量。
[0056]
本发明的有益效果是：本发明在考虑真实交通路网结构的基础上还考虑了不同交通预测任务间的任务相关性，通过引入多任务学习对这种任务相关性进行建模并预测，更好的对交通大数据的时空依赖关系进行建模，提高了交通大数据预测的准确度。
附图说明
[0057]
图1为本发明方法的流程示意图；
[0058]
图2为本发明的大数据分析和预测平台模型设计流程图。
具体实施方式
[0059]
下面结合附图对本发明具体实施方式做进一步详细说明。
[0060]
一种基于多任务学习的交通大数据分析与预测系统，包括数据采集终端、大数据
分析和预测平台、用户终端：
[0061]
所述数据采集终端包括车载数据采集模块和数据传输模块。所述车载数据采集模块利用移动采集设备如车载obd设备采集机动车的车载gps数据和轨迹数据，并将采集到的车载gps 数据和轨迹数据都传输到数据传输模块。所述数据传输模块即将车载数据采集模块采集到的车载gps数据和轨迹数据传输到数据预处理模块。所述车辆gps数据包括车辆脱敏后的id、车辆某段行程开始时间和结束字段、相应出发位置和到达位置的经纬度字段；所述车载数据采集模块采集到的轨迹数据包括车辆脱敏后的id、车辆每隔一段固定时间的地理位置的经纬度字段、当前的时间戳和车辆的详细行程轨迹。
[0062]
所述大数据和预测平台包括数据预处理模块、交通大数据时空建模模块和多任务学习预测交通大数据模块；所述大数据和预测平台主要是基于多任务学习捕捉多个任务间的相关性并对任务进行预测；
[0063]
所述数据预处理模块即先接收数据传输模块所传输的车载gps数据和轨迹数据，然后基于接收的车载gps数据提取出各段行程的速度和行程时间，并匹配gps数据和轨迹数据，进行车辆轨迹匹配，得到具有完整起点和终点以及行程轨迹，生成完整的行程记录，得到数据预处理后的交通大数据；所述数据预处理模块基于完整的行程记录，利用时空聚类算法提取城市热区，并根据热区间的连接关系构建城市热区空间网络；所述数据预处理模块处理得到的行程记录包括车辆脱敏后的id、行程的开始时间、行程开始位置、行程中每隔30s的采样轨迹点对应的点时间和点位置(由经纬度字段组成)、行程结束时间、行程结束位置到达位置经纬度、平均速度和行程时间。
[0064]
所述交通大数据时空建模模块即利用深度时空数据建模方法对预处理后的交通大数据进行时空特征提取，为大数据预测平台打下基础；
[0065]
所述多任务学习预测模块即利用多任务学习等深度学习方法对已经时空建模了的交通大数据进行多个任务同时预测，基于历史交通大数据预测未来时间段内的交通数据；
[0066]
所述用户终端包括预测结果接收模块和用户匹配模块。所述预测结果接收模块即接收大数据和预测平台输出的预测交通数据，并传输给用户匹配模块。所述用户匹配模块即将得到的预测交通数据与个人用户进行匹配，将匹配结果输出到个人用户端。
[0067]
所述车载数据采集模块采集到的车辆gps数据包括车辆脱敏后的id、车辆某段行程开始时间和结束字段、相应出发位置和到达位置的经纬度字段；所述车载数据采集模块采集到的轨迹数据包括车辆脱敏后的id、车辆每隔一段固定时间的地理位置的经纬度字段、当前的时间戳和车辆的详细行程轨迹。
[0068]
如图1所示为本发明方法的流程示意图，按如下步骤依次进行：
[0069]
(1)利用数据采集终端，采用车载obd设备等移动采集设备采集车辆的车载gps数据和轨迹数据，包括车辆脱敏后的id、车辆某段行程开始时间和结束字段、相应出发位置、到达位置的经纬度字段、车辆每隔一段固定时间的地理位置的经纬度字段、当前的时间戳和车辆的详细行程轨迹。然后将采集的车载gps数据和轨迹数据传输到大数据分析和预测平台。
[0070]
如图2所示为本发明的大数据分析和预测平台模型设计流程图；
[0071]
(2)大数据分析和预测平台模块，先进行预处理操作。对采集的轨迹行程数据进行
每一条轨迹的行程时间和行程速度的计算，包括以下子步骤：
[0072]
(2.1)计算每一段gps行程的平均速度和行程时间，并作为特征添加进对应gps行程表。
[0073]
(2.2)利用步骤(2.1)采集的gps行程表，并根据每一段gps行程的车辆id、出发时间、到达时间，与轨迹行程进行匹配，还原一段完整的行程记录。
[0074]
t＝stoptime
‑
starttime
[0075][0076]
其中t为行程的总时间,stoptime为行程的结束时间，starttime为行程的开始时间，distance (p,q)为行程起点p(startlon,startlat)和行程终点q(stoplon,stoplat)之间的距离，计算公式为：
[0077]
distance(p,q)＝euclidean(stαrtlon,stoplon,startlat,stoplat)
[0078]
其中，startlon为行程的起点经度,startlat为行程的起点纬度，stoplon为行程的终点经度,stoplat为行程的终点纬度。
[0079]
其次对采集的轨迹行程数据进行数据清洗，筛选出了行程时间大于五分钟的行程。匹配 gps数据和轨迹数据后，生成完整的行程记录，其中包括车辆脱敏后的id、行程的开始时间、行程开始位置、行程中每隔30s的采样轨迹点对应的点时间和点位置(由经纬度字段组成)、行程结束时间、行程结束位置到达位置经纬度、平均速度和行程时间。
[0080]
(2.3)基于步骤(2.2)生成的完整的行程记录，采用时空聚类算法(本实施例中采用 st
‑
dbscan聚类算法)对行程记录聚类，提取出城市中不同时间段的热区分布，并构建相应的热区矩阵。st
‑
dbscan聚类算法是一种改进的dbscan算法，在原有算法的基础上，还引入了时间上的距离来对时空数据进行聚类，适用于如本发明中提到的车辆行程数据。在 st
‑
dbscan聚类算法中，聚类参数eps1和eps2如下：
[0081]
eps1＝euclidean(lon1,lat1,lon2,lat2),
[0082][0083]
其中，lon1、lat1、t1分别为行程中某点p的经度、纬度、出发时间、时间戳，lon2、lat2、 t2为行程中某点q的经度、纬度、出发时间、时间戳。
[0084]
(2.4)基于步骤(2.3)获得的不同时间段内城市热区分布，建立城市热区网络，构建城市热区矩阵x
z
＝(z,e)。其中z表示所获得的城市热区为：z＝(z1,z2,
…
,z
n
)，n表示共提取了n个城市热区。e表示城市热区间的连接关系。如果城市热区之间有连接，则e取值为1；若无连接，则e取值为0。当eps1和eps2均小于时间和空间距离阈值时，则这两点被归为一类。同时，每一类中的点数不得小于某一点数阈值。以此类推，可以得到若干个时空城市热区 z＝(z1，z2，
…
,n)。
[0085]
(2.5)基于步骤(2.4)构建的城市热区矩阵x
z
和步骤(2.2)匹配后的完整的行程记录，匹配每一条车辆行程所途经的城市热区，记录车辆穿过的城市热区。
[0086]
将每个热区中心点的位置视为一个节点，并将其位置信息按照经纬度的形式汇总表示，计算得到不同热区之间的距离，再根据计算得到的距离计算确定邻接矩阵上是否有边，如果两个中心点之间的距离大于等于阈值则认定这两个热区之间是相互连接的，即在
邻接矩阵上存在边；如果两个中心点之间的距离小于阈值则认定这两个热区之间是不连接的，即在邻接矩阵上不存在边。计算公式如下：
[0087][0088]
其中,e
ij
表示热区i与热区j在邻接矩阵z上的值，ε为设定的阈值，并与σ2共同控制邻接矩阵z的稀疏程度，d
ij
代表热区i与热区j之间的距离(即两个热区中心点之间的距离)。
[0089]
(3)在大数据分析和预测平台模块，进行交通大数据时空建模操作。包括以下子步骤：
[0090]
(3.1)基于匹配后的车辆行程数据，计算不同时间段经过每个热区所对应的平均出发时间和平均速度，即在不同的时间段内，具体何时经过该热区和驶过该热区的平均速度，结合城市热区矩阵即邻接矩阵x
z
构建基于平均出发时间和城市热区的二维矩阵x
d
和基于平均速度和城市热区的二维矩阵x
c
，即基于平均出发时间的图的特征矩阵x
d
和基于平均速度的图的特征矩阵x
c
。
[0091]
平均出发时间和城市热区的二维矩阵x
d
和基于平均速度和城市热区的二维矩阵x
c
如下：
[0092]
xc＝[x
c1t
‑
t’ 1
,x
c1t
‑
t’ 2
,
…
,x
c1t
；x
c2t
‑
t’ 1
,x
c2t
‑
t’ 2
,
…
,x
c2t
；
…
；x
cnt
‑
t’ 1
,x
cnt
‑
t’ 2
,
…
,x
cnt
]
t
,
[0093]
xd＝[x
d1t
‑
t’ 1
,x
d1t
‑
t’ 2
,
…
,x
d1t
；x
d2t
‑
t’ 1
,x
d2t
‑
t’ 2
,
…
,x
d2t
；
…
；x
dnt
‑
t’ 1
,x
dnt
‑
t’ 2
,
…
,x
dnt
]
t
,
[0094]
其中t’代表取过去的历史t’个时间段，n表示假设提取了n个热区，x
c
、x
d
分别表示某个时间段内经过某个热区的平均速度和平均出发时间。x
c
是基于行程速度的度矩阵，x
d
是基于出发时间的度矩阵。
[0095]
(3.2)基于构建的平均出发时间和城市热区的特征矩阵x
d
和基于平均速度和城市热区的特征矩阵x
c
，结合步骤(2.4)构建的邻接矩阵x
z
，构建基于平均出发时间的图g
d
＝(x
d
，x
z
) 和基于平均速度的图g
c
＝(x
c
,x
z
)。
[0096]
(3.3)基于构建的平均出发时间的图g
d
和基于平均速度的图g
c
,提取两个预测任务的时空相关特征并建模。先进行图神经网络卷积gcn(graph convolution network)，提取空间特征。然后利用门控循环网络gru(gated recurrent unit)进行时间特征提取。
[0097]
将构建的平均出发时间的图g
d
＝(x
d
，x
z
)和基于平均速度的图g
c
＝(x
c
,x
z
)先输入到图神经网络卷积gcn中进行训练和计算，对其空间维度上的特征进行建模，这里将得到的邻接矩阵 x
z
用a来表示，并对a进行拉普拉斯变换得到l，如下：
[0098]
l＝d
‑
a,
[0099]
其中，a代表计算后得到的邻接矩阵，d代表交通图中每个热区对应的度矩阵；将得到的拉普拉斯矩阵l进行变换，得到归一化的拉普拉斯矩阵公式如下：
[0100][0101]
其中，i代表单位矩阵，为变换后的拉普拉斯矩阵。
[0102]
最后该部分输出为：
[0103][0104]
其中，x即为特征矩阵，在本发明中即特征矩阵x
c
、x
d
。w为权重矩阵，δ为激活函数，为计算所得的输出特征值矩阵。
[0105]
然后将计算所得输入到门控循环单元(gru)中进行计算，对其时间维度上的特征进行建模，计算过程如下：
[0106][0107]
其中，h
t
‑1为上一时刻的状态向量，h
t
为当前时刻的状态向量。
[0108]
(4)在大数据分析和预测平台中，利用多任务学习预测模块预测步骤(2)得到交通大数据，将步骤(3)提取的空间特征和时间特征输入到多任务学习神经网络中，通过多任务学习神经网络挖掘任务间的潜在的相关性，采用多任务学习提取任务依赖性，从而在任务中发挥作用，使每个单独的任务受益。学习并建模两个预测任务之间的任务相关性有利于提高预测精确度，最终多任务学习模型输出未来每个热区不同时间段内的行程速度和平均出发时间。
[0109]
(5)通过用户终端，基于预测所得未来时间段的各个热区所对应的平均出发时间和平均速度，匹配个人用户轨迹，对经过热区的用户进行出发时间的推荐和建议，如几点出发将会获得最少的行程时间，建议用户在推荐时间内出行，减少用户在行程上所花费的等待时间。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：一种燃气报警器快速固定装置的制作方法
下一篇：一种盲人导航系统及方法与流程

一种基于多任务学习的交通大数据分析与预测系统及方法与流程

相关文献

最热文献