一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于低秩张量动态模式分解的数据缺失情况下交通预测方法

2022-06-11 08:46:27 来源:中国专利 TAG:


1.本发明涉及智能交通系统领域,具体涉及一种基于低秩张量动态模式分解的数据缺失情况下交通预测方法。


背景技术:

2.交通数据短时预测是实现智能交通管理的重要环节,它可以帮助交通管理者和出行者及时掌握交通状态的变化趋势,做出有效决策。由于硬件故障、天气干扰、传输故障等原因,交通数据普遍存在缺失,严重影响交通预测的准确性。为了减少数据缺失带来的影响,很多方法在预测前对数据的缺失部分进行填充,但数据填充带来的误差可能会在预测时造成进一步的偏差。此外,该策略很难保证预测的时效性。因此,受到缺失数据以及交通网络的不断复杂化的影响,如何完成交通数据缺失情况下的准确预测是一个重要问题。
3.基于矩阵和张量的预测方法是数据缺失情况下交通预测问题的一类解决方法,主要利用了降维的思想。其中的因子分解方法将时间序列组织成矩阵/张量,并将其投影到低维空间中提取主要模式,重构矩阵/张量作为观测值的近似,从而对原始数据中的异常和缺失进行更新。另一种迹范数最小化方法通常在矩阵/张量上假设一个低秩结构,并将非凸的秩最小化问题转化为凸迹范数最小化问题。然而上述的预测方法大多只考虑了观测数据本身的特性,忽略了时间序列的动态变化,难以捕捉发生突变的情况。
4.另一方面,深度学习方法近年来逐渐应用于交通预测领域,他们通过训练大量的历史数据建立预测网络。然而,大多数深度学习方法没有考虑缺失情况下的数据,数据的严重缺失可能会对预测性能造成很大的影响。


技术实现要素:

5.本发明的目的在于解决数据缺失情况下的交通预测问题,提出了一种基于低秩张量动态模式分解的交通预测方法。该方法基于不完备的交通数据进行交通预测,将预测问题转化为张量补全问题,将需要预测的时间序列看作缺失值,同时完成数据修复和预测,包括以下步骤:
6.步骤1,将完整的交通时间序列分别按照观测点,时间点和天三个维度构建完整的交通数据观测张量根据基于koopman算符的动态模式分解方法,将观测张量中每天连续时间序列的动态变化表示成不同的状态转移矩阵每天连续时间序列的动态变化表示成不同的状态转移矩阵将这些状态转移矩阵组织成动态张量引入动态模式分解的张量形式;
7.步骤2,针对交通数据中的缺失问题引入掩码算子根据真实采集到的原始数据构建原始观测张量构建原始观测张量用于标记中缺失数据的位置,掩码算子大小与原始观测张量以及补全后完整的观测张量相同,完整的观测张量与原始带有缺失的观测张量有如下关系:
8.步骤3,根据交通数据的时间周期性和空间相似性,动态张量具有低秩结构,因此在动态张量上施加低秩约束根据张量cp分解将分解成带有空间特征的因子矩阵u,v和带有时间特征的因子矩阵w,低秩约束进一步转化为考虑到动态张量的时间变化特性,对动态张量做局部的时间约束其中d为一阶差分矩阵。防止相邻天的模式变化过多。得到数据缺失情况下基于低秩张量动态模式分解的预测方法:
[0009][0010]
步骤4,求解u,v,w,得到更新迭代表达式,则求解得到的中最后一个正向矩阵中的最后一个时间序列为预测结果。
[0011]
本发明所述的一种基于低秩张量动态模式分解的数据缺失情况下交通预测方法,与现有的交通预测方法相比,具有如下有益效果:
[0012]
1.所述方法适用于不完整数据的交通预测,也适用于异常情况的数据(持续一段时间的流量突然增减),因为koopman算子可以随动态变化进行更新。
[0013]
2.将dmd算法从矩阵扩展到张量,用不同的koopman算子表示相邻时间序列在不同天的变化过程。这些koopman算子构成了记录时间序列数据状态转移信息的动态张量,可以更好地捕捉交通数据的动态变化。
[0014]
3.在动态张量上施加了低秩约束,以表示全局的时空相关性,并引入时间约束,约束相邻天时间序列的变化趋势,很好地提取了时空特征。
附图说明
[0015]
图1为本发明中引入动态模式分解的张量形式的过程。
具体实施方式
[0016]
下面结合附图和实施例对本发明一种基于低秩张量动态模式分解的数据缺失情况下交通预测方法做进一步说明和详细描述。
[0017]
图1为本发明引入动态模式分解的张量形式的过程示意图。本发明提出的交通预测方法想要实现的预测的任务是:通过捕捉历史观测数据中的动态变化,对未来的交通情况进行短时预测,即通过拟合动态张量预测观测张量中最后一个时间点的情况(图1张量中框选的序列)。
[0018]
步骤1:将基于低秩张量动态模式分解的数据缺失情况下交通预测方法应用于公开的真实数据集。
[0019]
本方法已在两个真实世界的数据集中进行验证,两个数据集具体描述如下:
[0020]
pems数据集:pems数据集采集加州公路系统的速度时间序列数据。它包含了2012年5月至6月的工作日数据,包含44天,228个站点,每天288个时间点(即5分钟频率)。
[0021]
guangzhou数据集:广州数据集展示了2016年8-9月广州市214个路段的速度数据,
包含61天,每天144个时间点(即10分钟频率)。原始数据集中有1.29%的缺失,包含24187个观测值。
[0022]
针对以上两个数据集,分别对模型的参数λ1、λ2、λ3、r进行设置。采用交替最小化算法对参数进行调优。对于λ1,在固定其他参数的同时,在以10的指数项集合的范围{0.0001,0.001,0.01,0.1,1,10,100,1000}中遍历,选取最佳的两个实验结果对应的参数值作为下一轮搜索最佳参数的边界值,由此得到新的搜索范围。继续划分合适的搜索边界,并在新范围内如此循环搜索直到得到最佳的实验结果。λ2,λ3与λ1的设置方式相同。对于张量cp分解的秩r,它反映了动态张量的全局低秩结构和特征成分的维度,不同的数据集有不同的最优秩,通过在固定其他参数的同时从1开始逐步增大r,直到得到最优的预测结果来确定r的值。
[0023]
根据上述参数设置方法,对于pems数据集,r=94,λ1=0.01,λ2=0.33,λ3=140,对于guangzhou数据集,r=87,λ1=0.004,λ2=0.33,λ3=85。
[0024]
由于原始数据集缺失率较低,为了验证在数据缺失情况下的预测性能,在原始数据集自带的缺失之外制造缺失数据,考虑了缺失率为20%和40%的两种缺失情况:(1)随机缺失。即缺失点是随机的,与其他变量或属性无关。在本例中,分别随机地在观测张量的行和列中取出20%和40%的元素。(2)时间连续缺失,即缺失连续的时间点。这种缺失通常是由设备故障引起的。在实验中,将两个小时的数据视为一个连续的缺失数据段,在观测数据集中选择随机的天数去除足够数量的缺失数据段,达到20%和40%的两种缺失率,并确保所有缺失的部分不重叠。对于pems数据集和guangzhou数据集来说,每个缺失数据段分别包含24个连续时间点和10个连续时间点。
[0025]
对于这两个数据集,每次预测一个时间点的数据,总共预测一天的时间序列。带有缺失数据的观测数据集由原始数据集和掩码算子对应元素相乘得到,掩码算子来自上方描述的两种缺失率下的两种缺失情况。在实验中,输入数据为带有缺失数据的观测数据集构建成的张量将最后一个正面矩阵(代表数据集中最后一天采集的数据)作为将要预测的n个观测点的m个时间序列。在预测了所有的时间序列之后,将预测结果与实际测量值进行比较。为了保证实验的可靠性,对比方法输入相同的缺失情况。使用yi表示交通数据的真实值,表示预测结果,n表示所有观测值的数量。评价指标包括以下两个,用于衡量预测误差,值越小越好:
[0026]
(1)平均百分比误差(mape):
[0027][0028]
(2)均方根误差(rmse):
[0029][0030]
对比结果如下表:
[0031][0032][0033]
从表格可以看出,本发明(dmd-lrt)在大部分情况下相较其他方法取得了最好的预测成果,预测准确率有明显提升。
[0034]
实验结果表明,在随机缺失的情况下,dmd-lrt方法在两个数据集上的两个评价指标误差都最小。另一方面,halrtc也是一种基于张量低秩约束的方法,在数据集存在随机缺失的情况下,它的预测结果并不理想。与dmd-lrt相比,halrtc利用了原始观测张量的低秩特征,但缺乏对其动态特性的考虑。而本发明基于动态模式分解算法构成的动态张量,捕捉的低秩特征来自于动态张量,因此可以有效地捕捉时间序列之间的动态变化特征,从而预测未来的变化趋势。对于连续缺失情况,本发明在20%的缺失率下显示出良好的结果。当缺失率上升到40%时,本发明的mape指标仍然是所有预测模型中最小的,但rmse指标较大。根据mape指标的定义,它描述了预测值的精确度。对于rmse指标的定义来说,它衡量的是预测结果的离散程度,对极端值(大或小)非常敏感。这说明在连续缺失率较高的情况下,本发明的预测结果普遍是准确的,但同时个别结果与实际值有偏差。然而,缺失率40%及以上在现实生活中并不常见,因此本发明可以很好地适应现实世界中常见的缺失情况。当缺失率较高时,模型取得较好的效果。
[0035]
以上所述为本发明的较佳实施例而已,本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改,都落入本发明保护的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献