一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于CEEMDAN-LSTM的地铁客流预测方法及系统与流程

2022-11-19 16:58:12 来源:中国专利 TAG:

一种基于ceemdan-lstm的地铁客流预测方法及系统
技术领域
1.本发明涉及一种地铁客流预测方法,尤其涉及一种基于ceemdan-lstm的地铁客流预测方法及系统。


背景技术:

2.随着城市规模的发展以及人口增多,城市拥堵越来越突出,而城市轨道交通地铁具有载运量大、准时、方便快捷等特点,得到快速发展,目前众多城市轨道交通系统已经实现网络化运营,短时客流对居民出行、地铁运营、列车运行组织起到至关重要的影响。通过对未来一段时间的地铁客流精准预测,城市轨道交通可以为居民提供实时可靠的数据,居民根据系统提供的数据和自身情况,对出行计划和路线做出及时调整;还能为地铁运营人员组织优化运营以及提供客流疏导、合理安排人员、优化线网运力配置、制定车站客流组织与疏散方案、优化列车行车间隔等提供数据支撑,不断提高城市轨道交通运营水平。
3.地铁客流具有明显周期性、工作日的早晚高峰与平峰时差异大、客流受室外温度和室外天气影响较大、节假日特征明显等鲜明特点,它的非平稳性、随机性给单一预测手段带来极大挑战,单一算法很难覆盖地铁客流的所有特征,预测精度低则失去了客流指导其它工作的意义。
4.当前地铁短时客流预测主要集中于算法的选择与优化以及时域分析上,忽略了客流时间依赖性、空间关联性与外部随机噪声的影响,没能从客流信号和相关维度提取足够多的特征使得预测模型精度较低。然而客流预测模型输入属性的质量直接影响模型精度,输入属性过少或者不当,特征涵盖不完整,则预测精度偏低,输入属性太多,使得模型太复杂,出现梯度爆炸,训练时间太长,造成计算资源浪费或者出现无法求解等问题。


技术实现要素:

5.发明目的:针对以上问题,本发明提出一种基于ceemdan-lstm的地铁客流预测方法及系统,能够明显提高预测精度,并通过部署应用形成了一套完整客流预测系统。
6.技术方案:本发明所采用的技术方案是一种基于ceemdan-lstm的地铁客流预测方法,ceemdan为完全自适应噪声辅助聚合经验模态分解(complete ensemble empirical mode decomposition with adaptive noise);lstm为长短记忆神经网络(long short term memory);该方法包括:(1)根据采集到的进站客流、出站客流、站厅温度、站厅湿度、站台温度、站台湿度、室外温度、室外湿度、站厅co2浓度以及站台co2浓度的历史数据,构建原始时间序列;对原始时间序列进行相关性分析,得到进站客流时间序列的相关特征序列;其中,所述的构建原始时间序列为:其中df为构建的原始时间序列,i
p
为进站客流,o
p
为出站客流,th为站厅温度,hh为站厅湿度,t
p
为站台温度,h
p
为站台湿度,ch为站厅co2浓度,c
p
为站台co2浓度,to为室外温
度,ho为室外湿度。
7.在对原始时间序列进行相关性分析之前,还包括数据预处理,所述数据预处理是对所述原始时间序列进行序列有效性检验、平稳性检测、异常值检测及填充。
8.进一步的,所述的序列有效性检验,包括数据类型检验、时间顺序检验、重复性检验和时间频率检验;通过检测了解数据特征,修正或删去无效数据;所述的平稳性检验,是通过adf检验算法,检测时间序列是否存在单位根;如果不存在单位根,则序列稳定;否则,序列不稳定,对于不稳定的序列需要通过取对数或差分运算以减少序列的不稳定性对模型的影响;通过检验删去不稳定的序列。进一步的,adf检验算法包括:a)无漂移项自回归过程:b)带漂移项自回归过程:c)带漂移项和趋势项自回归过程:其中,为时刻的进站客流,为常量系数,为时刻的进站客流,为选择时间点之前的个时间点,为前后两个时刻进站客流偏差系数,为与的差分,为常数项,为时间趋势项,为随机扰动项。这三个过程是并列的,分别检测序列属于哪个过程。
9.所述的异常值检测及填充,包括:空值检测、箱线图异常点检测、孤立森林异常点检测、arima自回归差分移动平均异常检测;所有检测出的异常点采用抽取的相同时间段正常数据随机填充;所述相关性分析,是通过计算各数据与闸机进站客流的相关性,去除相关性小及负相关的分量。
10.(2)将所述进站客流时间序列作为可分解数据集,同时间的相关特征序列作为关联数据集,通过ceemdan算法将所述可分解数据集分解成k个imf分量数据集,每个imf分量数据集与所述关联数据集融合成k个可训练数据集;其中,所述的每个imf分量数据集与所述关联数据集融合成k个可训练数据集,是指将进站客流时间序列经过ceemdan分解得到imf序列中的每个imf分量数据集分别与所述关联数据集合并。
11.所述的通过ceemdan算法将所述可分解数据集分解成k个imf分量数据集,包括:(21)将高斯白噪声加入到待分解信号,并进行emd分解,得到一阶本征模态分量:
式中,代表emd分解,为随时间变化的进站客流,为自然数,为满足标准正态分布的高斯白噪声信号,为加入白噪声的次数,为白噪声的标准差;为第一阶本征模态分量,为原始序列加入白噪声后上下包络的平均值;(22)对产生的个模态分量进行总体平均得到ceemdan分解的第一个本征模态分量:式中,为ceemdan分解得到的第一个本征模态分量;(23)计算去除第一个本征模态分量后的残差:式中,为第一个残差;(24)在中加入正负成对高斯白噪声,并进行emd分解,得到一阶模态分量,由此得到ceemdan分解的第二个本征模态分量:式中,为经过两次emd分解的模态分量;(25)计算去除第二个本征模态分量后的残差:(26)重复上述步骤(24)~(55),直到获得的残差信号为单调函数,不能继续分解,算法结束;得到的本征模态分量数量为,则原始信号被分解为:原始信号经过ceemdan分解得到imf序列记为:式中,为imf序列,表示k个分量。
12.(3)通过所述可训练数据集训练lstm神经网络模型,得到k个imf分量对应的k个lstm训练模型,包括以下步骤: (31)将可训练数据集中每个序列进行归一化,采用的归一化算法如下:
式中为需要归一化的序列;、为的最小值与最大值;为的标准差;为的归一化后的序列;、为归一化范围;(32)将归一化后的可训练数据集中序列按滑动窗口切分成训练集、验证集、测试集;(33)构建lstm网络,lstm网络由输入层、隐层、输出层组成;其中输入层的数据形状为,为样本个数,为输入数据维数,为输出数据维数;滑动窗口、神经元个数、激活函数、优化函数、隐层单元个数、lstm层个数作为超参,自动优化模型,获取最优参数组合的模型;(34)采用平均绝对误差进行模型评估以训练lstm模型,所述平均绝对误差计算式为:式中,mae为平均绝对误差,为实际值即进站客流,为进站客流的预测值,为预测进站客流的个数;由可训练数据集训练后产生的模型记为:式中,表示进站客流经过ceemdan分解后k个imf分量序列分别与相关序列形成的k个训练序列通过lstm序列训练的k个模型。
13.(4)对采集得到的待预测数据进行处理,得到k个待预测的序列,分别输入至k个imf分量对应的lstm模型,然后将k个模型的预测结果合并得到最终预测结果;对采集得到的待预测数据进行处理包括:待预测进站客流数据通过ceemdan算法分解获得k个imf分量,k个imf分量分别与同一时间相关特征序列融合得到k个待预测的序列。
14.本发明还提出一种基于ceemdan-lstm的地铁客流预测系统,该系统包括:数据存储模块,用于存储进站客流、出站客流、站厅温度、站厅湿度、站台温度、站台湿度、室外温度、室外湿度、站厅co2浓度以及站台co2浓度的历史数据;客流预测模块,用于根据历史数据的原始时间序列进行相关性分析,得到进站客流时间序列的相关特征序列;将所述进站客流时间序列作为可分解数据集,所述相关特征序列作为关联数据集,通过ceemdan算法将所述可分解数据集分解成k个imf分量数据集,每个imf分量数据集与所述关联数据集融合成可训练数据集;通过所述可训练数据集训练lstm神经网络模型,得到k个imf分量对应的k个lstm训练模型;对采集得到的待预测数据进行处理,得到k个待预测的序列,分别输入至k个imf分量对应的lstm模型,然后将k个模型的预测结果合并得到最终预测结果;所述对采集得到的待预测数据进行处理包括:待预测进站客流数据通过ceemdan算法分解获得k个imf
分量,k个imf分量分别与同一时间相关特征序列融合得到k个待预测的序列。
15.所述客流预测模块通过tensorflow serving框架部署到服务器上,包括以下步骤:(1)通过docker安装tensorflow serving服务;(2)配置部署模型及启动服务;(3)通过http协议发送待预测数据,待预测数据经预测模型得到最终预测结果;(4)根据实时数据和预测结果,通过评估函数定期自动更新预测模型。
16.有益效果:相比现有技术,本发明具有以下优点:采用ceemdan和lstm结合的融合算法,ceemdan对进站客流进行模态分解有效提取数据信号特征,去除不同频率分量对原始信号的影响;同时采用多维度结合imf分量分别建立lstm训练模型,将每个imf分量预测结果合成最终客流预测数据,使模型预测精度得到有效提升。同时,本发明还采用多种检测手段对原始数据进行预处理,提升了数据质量。本发明采用模型训练与模型部署分离方式,展现了系统的灵活性、扩展性与实时性。
附图说明
17.图1是本发明所述的基于ceemdan-lstm的地铁客流预测方法的流程图;图2是数据emd流程图;图3是本发明所述的基于ceemdan-lstm的地铁客流预测方法中数据ceemdan流程图;图4是本发明所述的基于ceemdan-lstm的地铁客流预测方法中lstm结构框图。
具体实施方式
18.下面结合附图对本发明作进一步描述。
19.实施例1本发明所述的基于ceemdan-lstm的地铁客流预测方法,主要针对轨道交通地铁短时客流进行建模、部署、预测,其流程如图1所示,包括以下步骤:步骤1,根据采集到的闸机进出站客流、站厅温湿度、站台温湿度、室外温湿度、站厅co2浓度、站台co2浓度历史数据,分别分类成30分钟、60分钟、1小时的时间序列组;对时间序列进行数据预处理,下面以1小时时间序列为例叙述数据处理过程(即数据清洗)。
20.数据预处理是对所述原始时间序列进行序列有效性检验、平稳性检测、异常值检测及填充。
21.序列有效性检验,包括数据类型检验、时间顺序检验、重复性检验和时间频率检验;通过检测了解数据特征,修正或删去无效数据;平稳性检验,是通过adf检验算法,检测时间序列是否存在单位根;如果不存在单位根,则序列稳定;否则,序列不稳定,对于不稳定的序列需要通过取对数或差分运算以减少序列的不稳定性对模型的影响;通过检验删去不稳定的序列。adf(augmented dickey-fuller)检验算法包括以下几个内容:a)无漂移项自回归过程:
b)带漂移项自回归过程:c)带漂移项和趋势项自回归过程:其中,为时刻的进站客流,为常量系数,为时刻的进站客流,为选择时间点之前的个时间点,为前后两个时刻进站客流偏差系数,为与的差分,为常数项,为时间趋势项,为随机扰动项。
22.异常值检测及填充,包括:空值检测、箱线图异常点检测、孤立森林异常点检测、arima自回归差分移动平均异常检测;所有检测出的异常点采用抽取的相同时间段正常数据随机填充;通过对时间序列组进行序列有效性检验、平稳性检测、异常值检测及填充、相关性分析等数据清洗,得到高质量的数据集。
23.对原始时间序列的每个类型进行清洗后得到的时间序列记为:,对进行相关性分析,去除相关性小或负相关的分量:经分析得到进站客流对站厅与站台温湿度,站厅co2影响很小,即去除,,,,后赋值给。
24.在预测过程中,除以外的序列为同一时间相关特征序列,即。
25.步骤2,将所述进站客流时间序列作为可分解数据集,所述相关特征序列作为关联数据集,通过ceemdan算法将所述可分解数据集分解成k个imf分量数据集,每个imf分量数据集与所述关联数据集融合成k个可训练数据集。
26.将分成可分解和不可分解序列,可分解序列作为可分解数据集,不可分解序列作为关联数据集,对进行ceemdan分解。进行ceemdan分解。
27.式中,为进站客流,待分解的目标序列,预测的目标即为闸机进站客流。
28.下面详细说明本发明所述的ceemdan算法。
29.设为经过emd分解后得到的第个本征模态分量,ceemdan分解得到的第个
本征模态分量为为满足标准正态分布的高斯白噪声信号,为加入白噪声的次数,为白噪声的标准差表,为待分解信号。则ceemdan分解过程如图3所示,包括:(1)将高斯白噪声加入到待分解信号得到新信号,其中,对新信号进行emd分解,得到第一阶本征模态分量。
30.(2)对产生的n个模态分量进行总体平均得到ceemdan分解的第一个本征模态分量:(3)计算去除第一个模态分量后的残差:(4)在中加入正负成对高斯白噪声得到新信号,以新信号为载体进行emd分解,得到第一阶模态分量,由此可以得到ceemdan分解的第二个本征模态分量:(5)计算去除第二个模态分量后的残差:(6)重复上述步骤,直到获得的残差信号为单调函数,不能继续分解,算法结束。此时得到的本征模态分量数量为,则原始信号被分解为:其中,emd算法分解的目的是将一个信号分解为个固有模态函数(intrinsic mode function, imf)和一个残差。其中,每个imf需要满足以下两个条件:(a)在整个数据范围内,局部极值点和过零点的数目必须相等或相差数目最多为1;(b)在任意时刻,局部最大值的包络和局部最小值的包络的平均值必须为零。
31.emd的计算原理包括三个部分:(1)找到原始信号的所有极大值点,通过三次样条函数拟合出极大值包络线;同理,找到原始信号的所有极小值点,通过三次样条函数拟合出信号的极小值包络线;
(2)计算上、下包络的平均值:(3)将原始信号序列减去就得到一个去掉低频的新信号:一般不是一个平稳信号,不满足imf定义的两个条件,重复上述过程,假定经过次之后满足imf的定义,则原始信号的一阶imf分量为:用原始信号减去,得到一个去掉高频成分的新信号:对重复得到的过程,得到第二个imf分量,如此重复这一过程直到第阶imf分量或其余量小于预设值;或当残余分量是单调函数或常量时,emd分解过程停止。
32.emd分解流程如图2所示,包括以下步骤:(1)初始化:;(2)得到第个imf:(a)初始化:;(b)找出的局部极值点;(c)对的极大和极小值点分别进行三次样条函数插值,形成上下包络线;(d)计算上下包络线的平均值;(e);(f)若是imf函数,则;否则,,转到(b);(3);(4)如果极值点数仍多于2个,则,转到(2);否则,分解结束,是残余分量。算法最后可得:;根据ceemdan算法处理过程对原始闸机进站客流进行分解处理,原始信号经
过ceemdan分解得到imf序列记为:将每个分量序列分别与进行合并形成可训练的序列记为:步骤3,根据闸机进站客流经过分解后的每个分量信号序列分别与同时间的相关特征序列合并形成lstm模型训练的输入序列,单独的每个分量序列分别作为lstm模型训练的输出,从而进行lstm模型构建及训练,具体过程包括:(1)将中每个序列进行归一化,以减少数据波动对训练模型的影响。采用的归一化算法如下:用的归一化算法如下:式中,为需要归一化的序列;、为的最小值与最大值;为的标准差;为的归一化后的序列;、为归一化范围,这里取0和1。
33.归一化后记为:。
34.(2)将按滑动窗口切分成训练集、验证集、测试集分别记为:、、。滑动窗口为以长度依次在时间序列上移动获取训练样本的方法即每个时间序列预测一个输出。
35.(3)构建lstm网络,lstm由输入层、隐层、输出层组成,它在隐含层中增加了记忆模块,从而可以使得lstm可以记忆更多的历史信息。在记忆模块中包含由三个门:输入门、遗忘门、输出门。通过这些门,它可以决定哪些信息会被保存,哪些信息会被遗弃,保证了lstm能更好记住历史信息中有用的部分,其结构如图4所示,包括:遗忘门。遗忘门可以通过读取上一层隐含层的输出h
t-1
以及当前时刻输入x
t
来决定哪些信息会被保留,哪些信息会被遗忘。
36.)输入门。输入门确定将哪些信息保存到细胞状态cell中,它通过函数确定输入量并通过函数确定输入到新cell状态c
t
中的向量。中的向量。中的向量。
37.输出门。输出门通过函数确定输出部分,并由函数对细胞状态c
t

理后与其相乘确定输出。理后与其相乘确定输出。
38.其中f、i、g、c、o分别代表遗忘门、输入门、备选的用来更新的细胞状态、更新后的细胞状态和输出门的特征变量,w代表对用权重,b为偏执,σ和分别代表和激活函数。
39.输入层的数据形状为,为样本个数,为输入数据维数,输出数据维数;滑动窗口、神经元个数、激活函数、优化函数、隐层单元个数、lstm层个数作为超参,自动优化模型,最终获取最优参数组合的模型进行保存部署。最终获取最优参数组合的模型进行保存部署。最终获取最优参数组合的模型进行保存部署。最终获取最优参数组合的模型进行保存部署。最终获取最优参数组合的模型进行保存部署。最终获取最优参数组合的模型进行保存部署。
40.模型学习率最小为,根据模型训练过程自动调整学习率以便达到收敛速度和学习效果的平衡。
41.批次大小,这个根据训练机器性能适当调整。
42.训练次数,模型根据样本数据量自动计算实际大小,最大不超过上限值。
43.(4)训练评估lstm模型。
44.采用平均绝对误差进行模型评估:式中,mae为平均绝对误差,为实际值即进站客流,为进站客流的预测值,为预测进站客流的个数;(5)保存训练模型。
45.根据数据特征训练后产生的模型记为:步骤4,对采集得到的待预测数据进行处理,得到k个待预测的序列,分别输入至k个imf分量对应的lstm模型,然后将k个模型的预测结果合并得到最终预测结果;对采集得
到的待预测数据进行处理包括:待预测进站客流数据通过ceemdan算法分解获得k个imf分量,k个imf分量分别与同一时间相关特征序列融合得到k个待预测的序列。
46.本方法采用多种检测手段对原始数据进行预处理,提升了数据质量;采用ceemdan对进站客流进行模态分解有效提取数据信号特征,去除不同频率分量对原始信号的影响;同时采用多维度结合imf分量分别建立lstm训练模型,将每个imf分量预测结果合成最终客流预测数据,模型预测精度得到有效提升。本发明采用模型训练与模型部署分离方式,展现了系统的灵活性、扩展性与实时性。模型可以根据历史数据的积累,定时自动训练模型,如果有更优模型则使用新模型进行预测,这就能做到自动学习,主动寻优,随着数据的积累预测会更精准高效。本预测系统能够根据历史数据的时间颗粒度提供15分钟、30分钟、60分钟预测模型,以满足不同运营场景需求;将模型训练与预测分开方便了系统部署,提高了系统的实时性、灵活性、实用性。
47.实施例2本发明基于上述方法提出基于ceemdan-lstm的地铁客流预测系统,包括数据存储模块和客流预测模块。具体的,数据存储模块包括城市轨道交通综合监控历史存储服务器,客流预测模块包括模型训练服务器和模型部署服务器,模型训练服务器通过数据库接口从存储服务器上获取数据进行清洗、建模训练,然后将训练好的模型部署到模型部署服务器上,通过模型部署服务器获取待预测的数据给出预测结果,同时将预测结果写入存储服务器。
48.将训练好的模型通过tensorflow serving框架进行部署包含:(1)通过docker安装tensorflow serving服务。
49.(2)配置部署模型及启动服务。
50.(3)通过http协议发送需在线预测的数据,待预测数据经过数据清洗、数据归一化、进站数据ceemdan分解、分解数据与相关特征序列融合成待预测序列、分别输入imf分量预测模型、合并各个imf分量模型的预测结果得到、通过反归一化运算到实时获取预测结果。
51.其中,为imf模型个数,为每个imf模型预测输出,为imf模型预测输出融合结果;其中,为模型训练时最大进站客流,为模型训练是最小进站客流,为imf模型预测输出融合结果,为最终预测输出结果。
52.(4)根据实时数据和预测结果的积累,可根据评估函数或定期自动更新模型,不断优化以提高预测精度,为地铁组织运营提供强有力的支撑。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献