一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种长短期公共交通流量预测方法

2022-12-07 00:59:49 来源:中国专利 TAG:

技术特征:
1.一种长短期公共交通流量预测方法,包括如下步骤:(1)对由公共交通公司提供的原始数据进行预处理;(2)基于步骤(1)所得结果中的站点特征和距离网络,采取深度聚类模型,进行站点移动模式的提取,得到各自的模式标签;(3)基于步骤(2)所得结果,采取多模式的方式进行预测工作,即对各个移动模式分别训练时空预测模型;(4)结合步骤(2)和步骤(3)所得结果,进行整合得到最终的站点的交通预测结果。2.如权利要求1所述的一种长短期公共交通流量预测方法,其特征在于:步骤(1)具体包含:11.对公共交通的原始数据进行预处理,去除敏感的乘客隐私信息;12.乘车站点匹配;通过算法实现乘车站点匹配,即乘客刷卡数据与公共交通工具进出站数据进行匹配以确认乘客的具体乘车站点和下车站点;13.途径站点轨迹补全;根据公交车线路和站点网络,扩展成出行的途经站点轨迹,得到时空预测所需的乘客站点流量数据;14.数据清洗和过滤;筛选过滤只有少量刷卡记录的乘客流量,在探索乘客移动模式的时候,避免异常孤立的乘客节点;对由于公共交通进出站数据存在少量的缺失,导致流量的统计也存在异常缺失情况采用线性插值的方法进行填补减少实际误差。3.如权利要求1所述的一种长短期公共交通流量预测方法,其特征在于:步骤(2)具体包括:21.公交车站点网络设置为站点距离关系网络,能表示为一个无向图21.公交车站点网络设置为站点距离关系网络,能表示为一个无向图站点关系的定义和邻接矩阵的计算是由实际交通网络中站点之间的空间距离决定;的各个元素值的计算公式如下:其中dist(v
i
,v
j
)表示站点v
i
和v
j
的空间距离计算(由经纬度计算得到),σ2和∈为两个阈值,分别控制邻接矩阵的分布和稀疏性;中的元素取决于各元素的数值,即当成立;22.利用训练集中的时序数据作为站点的时间特征向量,使得站点特征能反映站点时间上的特性,其特征数值大小也能反应站点流量的具体交通状态;站点的特征维度d
s
=156,站点的特征矩阵被表示为23.基于步骤21以及步骤22的结果,使用深度聚类模型与中基于gcn的深度聚类方法,设计了一种双自监督的深度聚类方法,去挖掘潜在的乘客移动模式;其中模型主要由若干层堆叠自编码器和gcn模块组成,利用双自监督的方法学习得到各模式的标签种类;在数据上,将输入替换为站点距离关系网络和站点的特征矩阵x
s
,并在模型参数上进行修改;以若干天的平均一天的流量分布为站点的时间特征,这样在堆叠自编器模块学习站点的表
示向量的时候,能够在一定程度上分析时间流量分布特征上的差异,而gcn模块能够进一步学习距离空间关系上的特征;其中双自监督的深度聚类方法内容如下;首先使用基于无监督的表示学习算法——堆叠自编码器,作为学习乘客节点表示的网络骨架,被描述为一个映射关系φ:其中编码器和解码器是对称的,这里假设编码器和解码器各有l层;第l层的编码层和其对应的解码层的表示计算公式表示成如下:其中θ
e
和θ
d
分别表示编码器和解码器中的全连接层的学习参数矩阵,σ(
·
)为激活函数(这里使用的是relu激活);此外,原始特征矩阵x是由网络邻接矩阵线性编码得到,编码器的输入为y
(0)
=x,编码器的输出对应着解码器的输入且设最终重构的原始输入数据为即解码器的输入由此,其目标函数为:接下来,设计gcn模块来融入图卷积,进一步提取关系特征;同样地,gcn模块与堆叠自编码器对应着有l层图卷积,第l层的图卷积层学习过程如下:其中(为单位对角矩阵),是一个对角矩阵,且θ
g
为图卷积层的学习参数矩阵;σ(
·
)为激活函数(这里使用的是relu激活);然而,h
(l)
是通过网络关系聚合邻居节点信息的表示向量,而y
(l)
是能够重构数据本身的表示向量,包含的信息价值是有所不同的;因此,为了得到一个更有效的表示向量,这里将二者相结合:其中,α为超参,作为两个表示向量融合的平衡系数;通过这样的方式,将堆叠自编码器和gcn模块进行连接,并且,使用作为gcn模块中第l层的输入,即表示成如下:这样,最终得到的h
(l)
经过多层网络的不断学习和累加,能够学习得到不同阶(多跳邻居)的结构信息;在gcn模块的最后,再使用softmax函数作为多分类层:其中,h表示一个聚类的概率矩阵,其中元素h
ij
表示乘客节点v
i
属于蔟c
j
的概率,且聚类中的蔟与移动模式一一对应,即移动模式p
j
;在整个深度聚类模型的最后,设计了一种双自监督模块,能够整合学习得到的表示向量h
(l)
,有效地进行端到端的聚类训练;根据堆叠自编码器的表示向量结果,为了衡量表示
y
i
∈y
(l)
(矩阵y
(l)
中取第i行)与蔟c
j
的中心向量μ
j
的相似度,利用student’s t分布来计算:其中μ
j
由预训练堆叠自编码器后的表示向量经过k-means初始化得到,n是t分布中的自由度参数;类似地,将q
ij
视为乘客节点v
i
分配给蔟c
j
的概率,并得到概率分布矩阵q={q
ij
}作为聚类结果;另一方面,对于目标分布p={p
ij
},为了使q的聚类结果具有更高的置信度,并且让各个节点的表示向量能够更加接近蔟中心,提高蔟的内聚性,其归一化的计算的公式如下:由此,在得到聚类结果分布和目标分布后,采用kl散度来衡量分布之间的差异,即自监督的聚类学习的目标函数为:通过最小化该目标函数,能被认为是一种自监督机制,目标分布p能帮助更好的学习堆叠自编码器表示向量,并且目标分布p是由聚类结果分布q计算得到的,等价于同时监督q的更新;此外,在训练gcn模块过程中,选择分布p作为真实标签,用分布p来监督之前获得的聚类分布矩阵h,其目标函数如下:整个模型的损失函数为其中θ为超参;选择聚类概率分布h用于判断最终的聚类结果,即对于节点v
i
,其聚类的标签结果能设置为以深度聚类的结果作为移动模式,获取得到与聚类标签一一对应的乘客潜在的移动模式。4.如权利要求1所述的一种长短期公共交通流量预测方法,其特征在于:步骤21邻接矩阵的分布和稀疏性分别被设置为10002和0.1;步骤22和步骤23中的激活函数σ(
·
)使用relu激活;步骤23中的超参α设置为0.5;步骤24中的自由度参数n设置为1。5.如权利要求1所述的一种长短期公共交通流量预测方法,其特征在于:,所述步骤(3)具体包括如下步骤:31.基于(1)中所得结果,采用移动平均的方式来逐步聚合和提取季节性波动和长期趋势;对于输入(时空数据),t,n
v
,d分别表示时序长度、图的节点数量和嵌入向量特征维度,时序分解块的计算过程为:
其中分布表示分解得到的季节性部分和趋势部分,avgpool(@)通过平均池化操作来实现移动平均,在平均池化前需要进行复制填补(replicate padding),保证得到的数据在该计算过程中的输入和输出的长度的一致性;此外,时序分解块是一个内部计算,不需要额外参数,用部计算,不需要额外参数,用表示该模块操作;32.选择历史时序数据的后半段作为起始标记,并用特定值进行填充拼接,拼接长度为所需预测长度,作为待预测的目标时序的占位符(placeholder);设定原始输入时空数据为(c为真实时序数据特征维度),通过时空嵌入(stembed)后得到编码器的输入数据为在引入时序分解后的解码器包含趋势和季节性两部分作为输入在引入时序分解后的解码器包含趋势和季节性两部分作为输入公式化后如下:其中表示对历史时序数据的后半段进行时序分解后的结果,表示预测时序数据的占位符,分别代表0值和的均值;33.使用(编码层中tsdecomp2的季节性部分)作为每一层的输出且在该过程中并没有使用趋势部分,编码器的最终输出将作为交叉信息用于解码器;34.解码器在预测需要用时序数据的趋势部分,包括关于季节性部分的自相关层和自适应gnn层堆叠结构,以及关于趋势部分累积的分支结构;假设解码器有n
de
个解码层组成,第l层的解码层能总结为第l层的解码层能总结为第l层的解码层能总结为作为每一层的输出且conv1d(
·
)表示标准的一维卷积计算,将模型嵌入向量特征维度转换为真实输出时序数据特征维度;最终编码层的输出为而模型的输出结果为季节性部分和趋势部分的二整合:θ
s
表示对季节性部分通过一层全连接将嵌入向量向量特征维度转换为真实输出时序数据特征维度;因此,stgnnformer模型预测结果能写作35.数据自适应图构建用于图卷积操作;自适应图的邻接矩阵构建需要使用一个可学习的节点嵌入作为基础,其中d
v
为超参表示节点嵌入的特征维度;如果存在预先定义的邻接矩阵,利用矩阵的奇异值分解(singular value decomposition)用于节点嵌入的初始化,否则随机初始化即可;由此,图卷积操作中使用到的归一化后的邻接矩阵表示为:
其中softmax(
·
)和relu(
·
)均为激活函数,前者作用是对生成得到的邻接矩阵进行归一化;这样,在训练过程中,会自适应的学习和更新节点嵌入,学习潜在的空间依赖关系,具有更好的可解释性,同时也在不断更新邻接矩阵,得到的自适应邻接矩阵用于图卷积操作(adagnn);36.自注意力机制主要用于短期预测任务中,是transformer中一个重要的模块,简单描述为将查询(query)和一组键值对(key-value pairs)映射到输出中;在这里,注意力函数的计算公式如下:其中q,k,v分别为查询、键、值的向量矩阵,d
k
是特征维度,用于归一化处理;对于周期时间段的时间依赖关系的挖掘,通过序列的自相关计算来表示;基于随机过程理论(stochastic process theory),时间序列视为离散时间过程由此其自相关系数计算写成如下形式:其中表示序列{x
t
}与其自身在延迟τ步的序列{x
t-τ
}的相似性,也理解为未归一化的时间段长为τ下的置信度;并且,基于维纳-辛钦(wiener-khinchin)定理,利用快速傅立叶变换(fast fourier transforms)来优化自相关计算过程:其中和分别表示快速傅立叶变换和其逆变化,表示共轭相称,为时序在频域的表示形式;通过该优化,有效地将复杂度降为o(tlogt);37.对相似度最高的若干个子序列进行时延信息聚合操作;计算得到自相关后,即序列在各种步长延迟情况下的相似度,首先取前个相似度最高的时间段,其长度为并使用roll(
·
)操作信息对齐相似的子序列和待估计序列的位置,具体过程为序列的向左平滚,即位首的值将移动到末尾;在信息聚合时,先使用softmax(
·
)对原自相关值进行归一化得到作为各子序列权重完成时延信息聚合;最终,写成如下:其中,∈为超参,用于选择相似子序列数量,q,k,v对应着自注意力机制中的查询、键、
值,因此,直接替换自注意力机制模块;38.时空嵌入;设计一种具有针对性的时空嵌入方式,包括数据上下文嵌入(context embedding,cembed)、时序位置编码嵌入(temporal positional embedding,tpembed)、时间戳特征嵌入(timestamp feature embedding,tfembed)和空间位置嵌入(sptial positional embedding,spembed);数据上下文嵌入指的是对原始时序数据进行编码,简单地采用一维卷积来实现;时序位置编码嵌入与transformer的位置编码计算一致;虽然时序位置编码在一定程度上反映时间关系,但是只能表示局部的上下文关系;因此,这里使用时间戳特征嵌入,融入全局的时间戳特征,即利用时序数据某一位置的时间戳信息(如分钟、小时、周、月等),由离散的信息转换成连续的表示向量;最后,为了捕捉不同节点的静态的空间拓扑结构特征,先将每个节点的索引号投影成模型嵌入向量特征维度,再通过多层平滑的图卷积得到节点的空间位置嵌入;因此,时空嵌入的过程表示成如下:6.如权利要求1所述的一种长短期公共交通流量预测方法,其特征在于:步骤(4)具体包括:这里假设共有k个站点移动模式,于是得到模式p
i
的节点数量为n
v,i
,且与单独训练相比,有效的减少内存空间的需求,在有限的硬件资源下,使得内存空间开销从优化为o(∑|n
v,i
|2);最后的预测结果由每个模式的预测结果拼接而成,即

技术总结
一种长短期公共交通流量预测方法,包含:1)收集数据,使用公共交通公司提供的数据集作为数据来源,对原始数据进行预处理,保留预处理后的交通流参数,以保证敏感信息的安全性以及分析过程的可靠性;2)获取移动模式标签,基于步骤1)所得结果,采取深度聚类模型,进行站点移动模式的提取,得到各自的模式标签;3)训练时空预测模型,基于步骤2)所得结果,采取多模式的方式进行预测工作,即对各个移动模式分别训练时空预测模型;4)整合所得结果:结合步骤2)和步骤3)所得结果,进行整合得到最终的站点的交通预测结果。基于实际的公共交通数据进行的长短期交通预测实验表明,本发明对处理该问题具有出色表现。问题具有出色表现。问题具有出色表现。


技术研发人员:孔祥杰 王开来 胡泽昊
受保护的技术使用者:浙江工业大学
技术研发日:2022.08.09
技术公布日:2022/12/5
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献