一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于乘客出行信息的轨道交通客流预测方法和系统

2022-04-14 04:28:59 来源:中国专利 TAG:


1.本发明涉及轨道交通客流预测技术领域,尤其涉及一种基于乘客出行信息的轨道交通客流预测方法和系统。


背景技术:

2.准确预测车站的客流需求对城市地铁系统的运营至关重要。以往的研究主要是将过去几个时刻的客流值看作时间序列预测未来某时刻的客流。然而,这种方法基本上忽略了乘客个体的出行行为规律。例如,如果乘客早上在地铁站下车上班,那么他/她很可能会在晚上在同一个车站上车回家。现有研究表明在客流预测时间序列中加入出行行为成分是非常有必要的。依据用户出行信息的概念,通过建模抽象出易于理解、具有代表性和意义的用户标签,通过这些标签来构建一个用户的信息集合来描述用户的行为特征。因此,基于乘客个体的出行信息,构建乘客出行信息描述乘客个体的出行行为规律,来实现精准化客流预测成为可能。目前轨道交通乘客出行信息仍存在以下不足:未对乘客的多源出行信息进行深度挖掘,造成较大的数据浪费;通过数据分析建立的乘客出行信息的指标体系不够健全,仍需要进一步挖掘。


技术实现要素:

3.本发明的目的在于解决背景技术中的至少一个技术问题,提供一种基于乘客出行信息的轨道交通客流预测方法和系统。
4.为实现上述目的,本发明提供一种基于乘客出行信息的轨道交通客流预测方法,包括:获取乘客出行数据,基于所述乘客出行数据,建立乘客出行信息指标体系,统计计算所述乘客出行信息指标体系中的各指标;基于所述乘客出行信息指标体系中计算得到的部分指标数据,估算车站内不同时段的返程客流量;将车站内乘客的返程客流量作为协变量添加至客流预测模型中,预测车站的进站客流。
5.优选地,所述出行数据包括:用于获取乘客的进、出站时间和进、出站站点信息的afc刷卡记录和app扫码记录;用于获取乘客的身份信息和关联信息的app注册数据;用于获取乘客的增值服务信息的app增值消费数据;与车站相关联,用于描述车站的地理属性的车站附近的poi数据。
6.优选地,所述乘客出行信息指标体系中的指标信息包括:基础信息、业务信息和衍生信息;所述基础信息包括身份信息和关联信息,所述身份信息包括乘客的appid、性别、年龄和是否残疾,所述关联信息包括乘客的第三方支付方式和城市一卡通;
所述业务信息包括出行基础信息、出行衍生信息和增值服务信息,所述出行基础信息包括乘客的进、出站时间和进、出站站点信息,所述出行衍生信息包括平均出行时长、总出行次数、日均出行次数、出行时间分布、出行od分布、出行路径分布、首次出行时间、最后出行时间、节假日出行时间分布和节假日出行od分布,所述增值服务信息包括增值服务参与次数、参与频率、平均交易金额、支付方式分布、商家类型分布和最后参与时间;所述衍生信息包括活跃属性和功能属性,所述活跃属性包括出行活跃度,所述功能属性包括乘客的出行需求类型、居住区域站点、工作区域站点和增值参与度。
7.优选地,计算所述平均出行时长的公式为:计算所述日均出行次数的公式为:计算所述出行时间分布的公式为:统计所述出行od分布为乘客出行频次前三的出行od统计;计算所述首次出行时间的公式为:计算所述最后出行时间的公式为:计算所述节假日出行时间分布的公式为:统计所述节假日出行od分布为乘客在节假日出行频次前三的出行od统计;各式中,代表第次出行,d代表出站站点,o代表进站站点,i代表乘客,t代表时间,代表乘客i在时间t的第次出站时间,代表乘客i在时间t的第次进站时间,代表乘客i的平均出行时长,代表乘客i历史出行的总次数,表示乘客i平均出行次数,d代表乘客在统计日期之内的总天数,为二进制的标识函数,当条件满足时值
为1,其他情况为0,代表乘客i的首次出行时间,代表乘客i的最后出行时间,为乘客在统计日期内节假日的出行总次数。
8.优选地,计算所述参与频率的公式为:其中,代表乘客i参与增值服务的频率,为乘客i参与增值服务的次数;统计所述商家类型分布为乘客参与频率前三的商家类型统计;计算所述平均交易金额的公式为:其中,为乘客i参与增值服务的平均消费金额,为乘客i参与增值服务的总消费金额;统计所述支付方式分布为乘客支付时使用方式前三的统计。
9.优选地,所述出行需求类型通过乘客进站刷卡数据统计的总出行次数、首次出行时间和平均出行时长的聚类结果确定,聚类方法为:采用k-means算法将乘客按照其出行特征分为不同的类别,选取乘客出行信息指标体系中的乘客i历史出行总次数、首次出行时间和平均出行时长作为车站内乘客聚类的指标,聚类数目k值的确定采用手肘法,手肘法的关键指标为簇间误差平方和sse,其计算公式为:其中,代表第k个簇,是的中心点;计算所述居住区域站点的公式为:,;计算所述工作区域站点的公式为:,;其中,代表车站e作为乘客i居住区域车站站点的概率;代表车站e作为乘客i工作区域车站站点的概率;代表乘客i在车站e进出站总次数;代表乘客i工作日12点前在车站e的进站次数;代表乘客i休息日16点前在车站e进站
次数;代表乘客i工作日12点后在车站e的进站次数;代表乘客i休息日16点后在车站e进站次数;代表乘客i工作日在车站e进出站总次数;代表乘客i工作日12点前在车站e的出站次数;代表乘客i工作日12点后在车站e出站次数;代表乘客i休息日16点后在车站e出站次数;代表乘客i休息日16点前在车站e出站次数;所述增值参与度设置强、中和低三个等级,当所述参与频率大于0.7时,乘客的增值参与度为强,当所述参与频率小于0.4时,乘客的增值参与度为低,当所述参与频率在0.4和0.7之间时,乘客的增值参与度为中。
10.优选地,基于所述乘客出行信息指标体系和计算得到的部分指标数据,估算车站内不同时段的返程客流量,包括:根据所述乘客出行信息指标体系中的所述进、出站时间、所述居住区域站点、所述工作区域站点和所述出行需求类型统计的数量,其中s为某一站点,v为某星期,取值为1-7,t为某一时间段,为在v星期的时间段t内从s站返程的人数;选取站点s内的历史出站和返程客流数据,用计算均值的方式得到星期v乘客在时间段到达s站并在时间段从s站出发返程的条件概率分布,计算公式为:式中代表总周数,表示a时段,表示b时段,表示第j周第v天的时间段在s站下车的乘客数量,代表进站时间,代表出站时间;通过所述概率分布估算的值,计算公式为:其中,表示某星期的第v天的时刻在s站下车的乘客数量,h表示乘客在s站上下车时间的最大间隔,最大间隔为24小时,h表示时隙分辨率,t 1表示t时段的下一个时段。
11.优选地,所述将车站内乘客的返程客流量作为协变量添加至客流预测模型中,预测车站的进站客流为:将估算出的所述加入到普通的季节性自回归移动平均模型中,来预测车站的进站客流量;所述季节性自回归移动平均模型为:arima(p,d,q)(p,d,q)[ω],其中p、d、q分别表示自回归、差分和移动平均的顺序;p、d、q为季节部分的自回归、差分和移动平均顺序;ω是每个季节的周期数;
对于一个时间序列,arima(p,d,q)(p,d,q)[ω]模型为:其中b定义为,,,,,其中,、、和为待求的系数,为遵循白噪声的误差项,且服从均值为0方差为的正态分布,代表时段;当把返程客流量作为协变量时,进站客流量与返程客流量有以下关系:关系:其中,为回归系数,是由中星期v,站点s已知时,时间取1
···
t得到的;服从arima(p,d,q)(p,d,q)[s]模型,代表总的进站客流中除去返程客流之外的客流量;根据车站历史的和,计算出和,得到后通过公式预测得到,再根据得到,其中,是由中星期v,站点s已知时,时间取t 1得到的;将及带入公式中,预测得到时刻的进站客流量。
[0012]
为实现上述目的,本发明提供一种基于乘客出行信息的轨道交通客流预测系统,包括:指标获取模块,获取乘客出行数据,基于所述乘客出行数据,建立乘客出行信息指标体系,统计计算所述乘客出行信息指标体系中的各指标;返程客流计算模块,基于所述乘客出行信息指标体系中计算得到的部分指标数据,估算车站内不同时段的返程客流量;客流预测模块,将车站内乘客的返程客流量作为协变量添加至客流预测模型中,预测车站的进站客流。
[0013]
为实现上述目的,本发明提供一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述中任一项所述的基于乘客出行信息的轨道交通客流预测方法。
[0014]
为实现上述目的,本发明提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上述中任一项所述的基于乘客出行信息的轨道交通客流预测方法。
[0015]
本发明的有益效果是:
1. 本发明的基于乘客出行信息的轨道交通客流预测方法,立足智慧地铁建设,有效关联、融合、引入地铁相关的多源数据,建立乘客出行信息,探讨了乘客出行信息在客流预测方面的应用;2. 本发明的基于乘客出行信息的轨道交通客流预测方法,依据乘客的多源出行数据,挖掘乘客的出行规律,在此基础上建立了乘客出行信息三级指标体系,实现对各指标的统计计算;3. 本发明的基于乘客出行信息的轨道交通客流预测方法,提出一种面向乘客出行信息识别返程客流,并依据返程客流有效提高车站进站客流量精准度的预测方法。
附图说明
[0016]
图1示意性表示根据本发明的基于乘客出行信息的轨道交通客流预测方法的流程图;图2示意性表示根据本发明的基于乘客出行信息的轨道交通客流预测系统的结构框图。
具体实施方式
[0017]
现在将参照示例性实施例来论述本发明的内容。应当理解,论述的实施例仅是为了使得本领域普通技术人员能够更好地理解且因此实现本发明的内容,而不是暗示对本发明的范围的任何限制。
[0018]
如本文中所使用的,术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地基于”。术语“一个实施例”和“一种实施例”要被解读为“至少一个实施例”。
[0019]
图1示意性表示根据本发明的基于乘客出行信息的轨道交通客流预测方法的流程图。如图1所示,根据本发明的基于乘客出行信息的轨道交通客流预测方法,包括以下步骤:a. 获取乘客出行数据,基于所述乘客出行数据,建立乘客出行信息指标体系,统计计算所述乘客出行信息指标体系中的各指标;b. 基于所述乘客出行信息指标体系中计算得到的部分指标数据,估算车站内不同时段的返程客流量;c. 将车站内乘客的返程客流量作为协变量添加至客流预测模型中,预测车站的进站客流。
[0020]
根据本发明的一种实施方式,在上述a步骤中,当乘客进站乘车时,通过乘客的刷卡记录和/或扫码记录即可获取相关乘客的出行数据,基于pycharm软件,使用python语言,连接乘客出行信息的数据库,获取数据并进行相应的统计分析。在本实施方式中,出行数据包括:用于获取乘客的进、出站时间和进、出站站点信息的afc刷卡记录和app扫码记录;用于获取乘客的身份信息和关联信息的app注册数据;用于获取乘客的增值服务信息的app增值消费数据;以及与车站相关联,用于描述车站的地理属性的车站附近的poi数据。在本实施方式中,出行数据的统计范围是自乘客在app注册之日起开始统计,车站附近poi数据的统计范围为以车站为中心,半径为500米所覆盖范围内的土地使用类型,通过第三方地图软件高德地图来获取数据。
[0021]
在本实施方式中,乘客出行信息指标体系为表征乘客信息的概念,其包括三个一级指标:基础信息、业务信息和衍生信息。其中,基础信息包括二级指标:身份信息和关联信息,身份信息包括三级指标:乘客的appid、性别、年龄和是否残疾,关联信息包括三级指标:乘客的第三方支付方式和城市一卡通。
[0022]
业务信息包括二级指标:出行基础信息、出行衍生信息和增值服务信息。其中,出行基础信息包括三级指标:乘客的进、出站时间和乘客的进、出站站点信息;出行衍生信息包括三级指标:平均出行时长、总出行次数、日均出行次数、出行时间分布、出行od分布、出行路径分布、首次出行时间、最后出行时间、节假日出行时间分布和节假日出行od分布;增值服务信息包括三级指标:增值服务参与次数、参与频率、平均交易金额、支付方式分布、商家类型分布和最后参与时间。
[0023]
衍生信息包括二级指标:活跃属性和功能属性。其中,活跃属性包括三级指标:出行活跃度;功能属性包括三级指标:乘客的出行需求类型、居住区域站点、工作区域站点和增值参与度。
[0024]
进一步地,在本实施方式中,统计计算乘客出行信息指标体系中的各指标包括:统计乘客的身份信息、关联信息、出行基础信息中的各指标,以及统计出行衍生信息中的总出行次数、出行od分布、节假日出行od分布和出行路径分布指标,统计增值服务信息中的参与次数、商家类型分布、支付方式分布和最后参与时间指标。在本发明中,关于统计没有特殊方法,只要能够获取相关指标信息并将获取到的相关指标信息汇总保存即可。而且由上可知,上述指标均是通过乘客的注册和出行等行为即可产生的数据信息,是不必通过计算即可得到的信息,因此只需要汇总统计即可,不需要计算。
[0025]
进一步地,在本实施方式中,统计计算乘客出行信息指标体系中的各指标还包括计算除了上述指标以外的三级指标,具体计算包括:计算平均出行时长,平均出行时长指乘客i每次出行所花费的时间,计算公式为:计算日均出行次数,日均出行次数为乘客i每天的出行次数,计算公式为:计算出行时间分布,出行时间分布指乘客i分别在早高峰(7:00-9:00)、晚高峰(17:00-19:00)和平峰的出行次数占总出行次数的比值,以早高峰为例,计算公式为:统计出行od分布为乘客出行频次前三的出行od统计;计算所述首次出行时间的公式为:
计算最后出行时间,最后出行时间指乘客i在统计日期内最后一次出行的时间,用于判断乘客的活跃度(即上述衍生信息中的出行活跃度),计算公式为:计算节假日出行时间分布,节假日出行时间分布指乘客i节假日内分别在早高峰(7:00-9:00)、晚高峰(17:00-19:00)和平峰的出行次数占节假日总出行次数的比值,以早高峰为例,计算公式为:统计节假日出行od分布为乘客在节假日出行频次前三的出行od统计;上述各式中,代表第次出行,d代表出站站点,o代表进站站点,i代表乘客,t代表时间,代表乘客i在时间t的第次出站时间,代表乘客i在时间t的第次进站时间,代表乘客i的平均出行时长,代表乘客i历史出行的总次数,表示乘客i平均出行次数,d代表乘客在统计日期之内的总天数,为二进制的标识函数,当条件满足时值为1,其他情况为0,代表乘客i的首次出行时间,代表乘客i的最后出行时间,为乘客在统计日期内节假日的出行总次数。
[0026]
计算参与频率,参与频率为乘客i参与增值服务的频繁程度,计算公式为:其中,代表乘客i参与增值服务的频率,为乘客i参与增值服务的次数;统计商家类型分布为乘客参与频率前三的商家类型统计;计算平均交易金额的公式为:其中,为乘客i参与增值服务的平均消费金额,为乘客i参与增值服务的总消费金额;统计支付方式分布为乘客支付时使用方式前三的统计。
[0027]
出行需求类型通过乘客进站刷卡数据统计的总出行次数、首次出行时间和平均出行时长的聚类结果确定,聚类方法为:采用k-means算法将乘客按照其出行特征分为不同的类别,选取乘客出行信息指
标体系中的乘客i历史出行总次数、首次出行时间和平均出行时长作为车站内乘客聚类的指标,聚类数目k值的确定采用手肘法,手肘法的关键指标为簇间误差平方和sse,即误差平方和,其计算公式为:其中,代表第k个簇,是的中心点;在本实施方式中,出行需求类型是根据某一个车站的乘客进站刷卡数据统计的三个指标的聚类结果,聚类数目根据sse公式得到,对于每一类乘客,通过分析其历史出行次数、首次出行时间,例如历史出行次数占统计天数的比例较多,且首次出行时间在早高峰时间段,就可以认为该类乘客为通勤乘客。需要根据具体的聚类结果而定。
[0028]
实例:以某地铁站内的乘客为研究对象,选取2018年6月6、7、8日三个工作日的afc数据作为基础数据,分析车站内工作日乘客的出行行为特征。经过数据筛选之后,该站三个工作日的进站人次为197328次。
[0029]
通过k-means聚类方法将乘客共分为5类。下表1是五类的聚类中心点。
[0030]
表1聚类结果分析:第一类乘客所占比例为21.2%,出行特征表现为三天内出行次数为1.75,是五类中出行强度最高的一类,首次出行时间为08:22:13,平均出行时间为27.7min,出行距离不是很远,符合早高峰的时间段,可以认为该类乘客为标准的早高峰时期的通勤乘客。
[0031]
第二类乘客所占比例为10.2%,出行特征表现为三天内的出行次数为1.34,出行强度一般,首次出行时间为11:29:33,平均出行时间为48.1min,出行距离较远,且占比较少,可视为外出旅游或者长途出行的乘客,结合poi数据,车站附近公交站及火车站较多,尤其有北京北火车站,方便乘客出行旅游。
[0032]
第三类乘客所占比例为34.5%,出行特征表现为三天内的出行次数为1.69,出行强度较高,首次出行时间为17:39:14,平均出行时间为37.9min,出行距离相比其他类适中,符合晚高峰的时间段,可以认为该类乘客为标准的晚高峰时期的通勤乘客,同时该类乘客是五类乘客中占比最高的一类,说明西直门站晚高峰进站人数多,结合poi数据,车站附近有较多的办公区,说明该解释是合理的。
[0033]
第四类乘客所占比例为17.2%,出行特征表现为三天内的出行次数为1.22,出行强度最低,说明该类乘客的出行忠诚度不高,首次出行时间为20:39:40,平均出行时间为37.1min,出行距离相比其他类适中,出行时间较晚,可视为生活类乘客,结合poi数据,该站附近有很多购物、餐饮的商家,可以认为该类出行是乘客消费之后回家的出行。
[0034]
第五类乘客所占比例为17.1%,出行特征表现为三天内的出行次数为1.25,出行强度较低,首次出行时间为14:05:07,平均出行时间为29.2min,出行距离较短,出行时间和第四类乘客一样,不具有明显的特征,所占比例与第四类非常接近,也可认为该类乘客为生活类乘客。判断居住区域站点,在工作日以中午12:00作为分界点,休息日以下午16:00作为分界点,统计乘客i在相应时间区间的进出站点次数如以下表2所示:表2乘客居住区域所处的车站站点一般是一天内乘客首次出行的车站站点和最后一次出行的目的站点,因此车站e作为乘客i居住区域站点的概率计算公式为:,;其中,代表车站e作为乘客i居住区域车站站点的概率;判断工作区域站点,乘客工作区域所处的车站站点一般是工作日内乘客12:00前作为目的车站和12:00后作为初始车站,因此车站e作为乘客i工作区域站点的计算公式为:,;其中,代表车站e作为乘客i工作区域车站站点的概率;增值参与度设置强、中和低三个等级,当参与频率大于0.7时,乘客的增值参与度为强,当参与频率小于0.4时,乘客的增值参与度为低,当参与频率在0.4和0.7之间时,乘客的增值参与度为中。
[0035]
此外,在本实施方式中,乘客出行信息指标体系中的部分指标标签的具体格式如下表3所示:
表3在本实施方式中,乘客出行信息指标体系内的指标数据应根据乘客的出行不断更新。乘客出行信息的更新规则为:对于基础信息,只有当乘客修改其个人信息时才进行更新;对于业务信息,其中出行基础信息、出行衍生信息和增值服务信息随着乘客每次出行和使用增值服务进行实时更新,同时,每个月将redis中的业务信息同步更新至数据库中;对于衍生信息,分析基础信息和业务信息,每个月更新一次;每半年对乘客的最后出行时间进行判断,若该乘客的最后出行时间与更新时间相差超过半年,则判定该乘客为不活跃用户,
将其乘客出行信息信息从数据库中删除。
[0036]
根据本发明的一种实施方式,在上述a步骤中,获取乘客出行数据后,还包括对出行数据的预处理,具体包括:多余数据处理:当乘客多次刷卡或者设备故障时可能会出现数据重复,需要将重复的数据删除;错误数据处理:由于乘客行为以及设备故障,可能会出现异常数据。异常数据的判断有三条标准:一、乘客的进站时间必须早于出站时间;二、规定乘客在轨道交通内的逗留时间应小于4小时;三、判断乘客一天之内进入同一站点的次数,因为车站的工作人员一天内在车站的出入次数较多,排除统计数据时对工作人员的统计。
[0037]
乘客出行信息指标体系中的上述第三级指标出行需求类型包含的乘客类别有:通勤乘客:通勤乘客由于工作需要,出行时间和出行频率都相对固定;旅游乘客:该类乘客的出行时间和出行频率波动性较大,短时间内的出行频率较高,出行od的分布也较为广泛;休闲娱乐乘客:该类乘客出行时间较多分布在周末以及各天的非高峰时间段;特殊乘客 :例如老人、残疾人、孕妇等,由于自身原因,在出行过程中,往往需要外界的帮助,这些信息需要乘客在注册app账号时提供;其他乘客:其他乘客区别于以上四类乘客类型,出行时间和出行频率均不确定,其出行目的也较为多样。
[0038]
根据本发明的一种实施方式,在上述b步骤中,基于所述乘客出行信息指标体系和计算得到的部分指标数据,估算车站内不同时段的返程客流量,包括:根据乘客出行信息指标体系中的进、出站时间、居住区域站点、工作区域站点和出行需求类型统计的数量,其中s为某一站点,v为某星期,取值范围为1-7,表示周一至周日,t为某一时间段,为在v星期的时间段t内从s站返程的人数;选取站点s内的历史出站和返程客流数据,用计算均值的方式得到星期v乘客在时间段到达s站并在时间段从s站出发返程的条件概率分布,计算公式为:式中代表总周数,表示a时段,表示b时段,表示第j周第v天的时间段在s站下车的乘客数量,代表进站时间,代表出站时间;通过概率分布估算的值,计算公式为:其中,表示第v天的时刻在s站下车的乘客数量,h表示乘客在s站上下车时间的最大间隔,最大间隔为24小时,h表示时隙分辨率,t 1表示t时段的下
一个时段。
[0039]
根据本发明的一种实施方式,在上述c步骤中,将车站内乘客的返程客流量作为协变量添加至客流预测模型中,预测车站的进站客流为:将估算出的加入到普通的季节性自回归移动平均模型(s-arima模型)中,来预测车站的进站客流量;s-arima模型为:arima(p,d,q)(p,d,q)[ω],其中p、d、q分别表示自回归、差分和移动平均的顺序;p、d、q为季节部分的自回归、差分和移动平均顺序;ω是每个季节的周期数;对于一个时间序列,arima(p,d,q)(p,d,q)[ω]模型为:其中b定义为,,,,,其中、、和为待求的系数,为遵循白噪声的误差项,且服从均值为0方差为的正态分布,代表时段;当把返程客流量作为协变量时,进站客流量与返程客流量有以下关系:关系:其中,为回归系数,是由中星期v,站点s已知时,时间取1
···
t得到的;服从arima(p,d,q)(p,d,q)[ω]模型,代表总的进站客流中除去返程客流之外的客流量;根据车站历史的和,计算出和,得到后通过公式预测得到,再根据得到,其中,是由中星期v,站点s已知时,时间取t 1得到的;由于服从arima(p,d,q)(p,d,q) [ω]模型,即可通过该模型预测出时段的,而为上述中的;将及带入公式中,预测得到时刻的进站客流量。
[0040]
在本实施方式中,例如模型参数选择为(2,0,1)(1,1,0)[72],实验结果如下表4所示,其中m0模型中未添加,m1模型添加作为协变量,可以发现,添加新变量后训练集的rmse减少9.87,测试集rmse减少9.02,训练集的smape减少0.64%,测试集的smape减少0.16%,预测的效果更加准确。
[0041]
表4根据本发明的上述方案,本发明提出的上述方法立足智慧地铁建设,有效关联、融合、引入地铁相关的多源数据,建立乘客出行信息,探讨了乘客出行信息在客流预测方面的应用。本发明依据乘客的多源出行数据,挖掘乘客的出行规律,在此基础上建立了乘客出行信息三级指标体系,实现对各指标的统计计算。同时提出一种面向乘客出行信息识别返程客流,并依据返程客流有效提高车站进站客流量精准度的预测方法。
[0042]
进一步地,为了实现上述发明目的,本发明还提供一种基于乘客出行信息的轨道交通客流预测系统,系统结构框图如图2所示,具体包括:指标获取模块,获取乘客出行数据,基于所述乘客出行数据,建立乘客出行信息指标体系,统计计算所述乘客出行信息指标体系中的各指标;返程客流计算模块,基于所述乘客出行信息指标体系中计算得到的部分指标数据,估算车站内不同时段的返程客流量;客流预测模块,将车站内乘客的返程客流量作为协变量添加至客流预测模型中,预测车站的进站客流。
[0043]
根据本发明的一种实施方式,在指标获取模块中,当乘客进站乘车时,通过乘客的刷卡记录和/或扫码记录即可获取相关乘客的出行数据,基于pycharm软件,使用python语言,连接乘客出行信息的数据库,获取数据并进行相应的统计分析。在本实施方式中,出行数据包括:用于获取乘客的进、出站时间和进、出站站点信息的afc刷卡记录和app扫码记录;用于获取乘客的身份信息和关联信息的app注册数据;用于获取乘客的增值服务信息的app增值消费数据;以及与车站相关联,用于描述车站的地理属性的车站附近的poi数据。在本实施方式中,出行数据的统计范围是自乘客在app注册之日起开始统计,车站附近poi数据的统计范围为以车站为中心,半径为500米所覆盖范围内的土地使用类型,通过第三方地图软件高德地图来获取数据。
[0044]
在本实施方式中,乘客出行信息指标体系为表征乘客信息的概念,其包括三个一级指标:基础信息、业务信息和衍生信息。其中,基础信息包括二级指标:身份信息和关联信息,身份信息包括三级指标:乘客的appid、性别、年龄和是否残疾,关联信息包括三级指标:乘客的第三方支付方式和城市一卡通。
[0045]
业务信息包括二级指标:出行基础信息、出行衍生信息和增值服务信息。其中,出行基础信息包括三级指标:乘客的进、出站时间和乘客的进、出站站点信息;出行衍生信息包括三级指标:平均出行时长、总出行次数、日均出行次数、出行时间分布、出行od分布、出行路径分布、首次出行时间、最后出行时间、节假日出行时间分布和节假日出行od分布;增值服务信息包括三级指标:增值服务参与次数、参与频率、平均交易金额、支付方式分布、商家类型分布和最后参与时间。
[0046]
衍生信息包括二级指标:活跃属性和功能属性。其中,活跃属性包括三级指标:出行活跃度;功能属性包括三级指标:乘客的出行需求类型、居住区域站点、工作区域站点和增值参与度。
[0047]
进一步地,在本实施方式中,统计计算乘客出行信息指标体系中的各指标包括:统计乘客的身份信息、关联信息、出行基础信息中的各指标,以及统计出行衍生信息中的总出行次数、出行od分布、节假日出行od分布和出行路径分布指标,统计增值服务信息中的参与次数、商家类型分布、支付方式分布和最后参与时间指标。在本发明中,关于统计没有特殊方法,只要能够获取相关指标信息并将获取到的相关指标信息汇总保存即可。而且由上可知,上述指标均是通过乘客的注册和出行等行为即可产生的数据信息,是不必通过计算即可得到的信息,因此只需要汇总统计即可,不需要计算。
[0048]
进一步地,在本实施方式中,统计计算乘客出行信息指标体系中的各指标还包括计算除了上述指标以外的三级指标,具体计算包括:计算平均出行时长,平均出行时长指乘客i每次出行所花费的时间,计算公式为:计算日均出行次数,日均出行次数为乘客i每天的出行次数,计算公式为:其中,表示乘客i平均出行次数,d代表乘客在统计日期之内的总天数;计算出行时间分布,出行时间分布指乘客i分别在早高峰(7:00-9:00)、晚高峰(17:00-19:00)和平峰的出行次数占总出行次数的比值,以早高峰为例,计算公式为:统计出行od分布为乘客出行频次前三的出行od统计;计算所述首次出行时间的公式为:计算最后出行时间,最后出行时间指乘客i在统计日期内最后一次出行的时间,用于判断乘客的活跃度(即上述衍生信息中的出行活跃度),计算公式为:计算节假日出行时间分布,节假日出行时间分布指乘客i节假日内分别在早高峰(7:00-9:00)、晚高峰(17:00-19:00)和平峰的出行次数占节假日总出行次数的比值,以早
高峰为例,计算公式为:统计节假日出行od分布为乘客在节假日出行频次前三的出行od统计;上述各式中,代表第次出行,d代表出站站点,o代表进站站点,i代表乘客,t代表时间,代表乘客i在时间t的第次出站时间,代表乘客i在时间t的第次进站时间,代表乘客i的平均出行时长,代表乘客i历史出行的总次数,表示乘客i平均出行次数,d代表乘客在统计日期之内的总天数,为二进制的标识函数,当条件满足时值为1,其他情况为0,代表乘客i的首次出行时间,代表乘客i的最后出行时间,为乘客在统计日期内节假日的出行总次数。
[0049]
计算参与频率,参与频率为乘客i参与增值服务的频繁程度,计算公式为:其中,代表乘客i参与增值服务的频率,为乘客i参与增值服务的次数;统计商家类型分布为乘客参与频率前三的商家类型统计;计算平均交易金额的公式为:其中,为乘客i参与增值服务的平均消费金额,为乘客i参与增值服务的总消费金额;统计支付方式分布为乘客支付时使用方式前三的统计。
[0050]
出行需求类型通过乘客进站刷卡数据统计的总出行次数、首次出行时间和平均出行时长的聚类结果确定,聚类方法为:采用k-means算法将乘客按照其出行特征分为不同的类别,选取乘客出行信息指标体系中的乘客i历史出行总次数、首次出行时间和平均出行时长作为车站内乘客聚类的指标,聚类数目k值的确定采用手肘法,手肘法的关键指标为簇间误差平方和sse,即误差平方和,其计算公式为:其中,代表第k个簇,是的中心点;
在本实施方式中,出行需求类型是根据某一个车站的乘客进站刷卡数据统计的三个指标的聚类结果,聚类数目根据sse公式得到,对于每一类乘客,通过分析其历史出行次数、首次出行时间,例如历史出行次数占统计天数的比例较多,且首次出行时间在早高峰时间段,就可以认为该类乘客为通勤乘客。需要根据具体的聚类结果而定。
[0051]
实例:以某地铁站内的乘客为研究对象,选取2018年6月6、7、8日三个工作日的afc数据作为基础数据,分析车站内工作日乘客的出行行为特征。经过数据筛选之后,该站三个工作日的进站人次为197328次。
[0052]
通过k-means聚类方法将乘客共分为5类。
[0053]
通过以上表1可知,聚类结果分析:第一类乘客所占比例为21.2%,出行特征表现为三天内出行次数为1.75,是五类中出行强度最高的一类,首次出行时间为08:22:13,平均出行时间为27.7min,出行距离不是很远,符合早高峰的时间段,可以认为该类乘客为标准的早高峰时期的通勤乘客。
[0054]
第二类乘客所占比例为10.2%,出行特征表现为三天内的出行次数为1.34,出行强度一般,首次出行时间为11:29:33,平均出行时间为48.1min,出行距离较远,且占比较少,可视为外出旅游或者长途出行的乘客,结合poi数据,车站附近公交站及火车站较多,尤其有北京北火车站,方便乘客出行旅游。
[0055]
第三类乘客所占比例为34.5%,出行特征表现为三天内的出行次数为1.69,出行强度较高,首次出行时间为17:39:14,平均出行时间为37.9min,出行距离相比其他类适中,符合晚高峰的时间段,可以认为该类乘客为标准的晚高峰时期的通勤乘客,同时该类乘客是五类乘客中占比最高的一类,说明西直门站晚高峰进站人数多,结合poi数据,车站附近有较多的办公区,说明该解释是合理的。
[0056]
第四类乘客所占比例为17.2%,出行特征表现为三天内的出行次数为1.22,出行强度最低,说明该类乘客的出行忠诚度不高,首次出行时间为20:39:40,平均出行时间为37.1min,出行距离相比其他类适中,出行时间较晚,可视为生活类乘客,结合poi数据,该站附近有很多购物、餐饮的商家,可以认为该类出行是乘客消费之后回家的出行。
[0057]
第五类乘客所占比例为17.1%,出行特征表现为三天内的出行次数为1.25,出行强度较低,首次出行时间为14:05:07,平均出行时间为29.2min,出行距离较短,出行时间和第四类乘客一样,不具有明显的特征,所占比例与第四类非常接近,也可认为该类乘客为生活类乘客。
[0058]
判断居住区域站点,在工作日以中午12:00作为分界点,休息日以下午16:00作为分界点,统计乘客i在相应时间区间的进出站点次数如上表2。
[0059]
乘客居住区域所处的车站站点一般是一天内乘客首次出行的车站站点和最后一次出行的目的站点,因此车站e作为乘客i居住区域站点的概率计算公式为:,;其中,代表车站e作为乘客i居住区域车站站点的概率;判断工作区域站点,乘客工作区域所处的车站站点一般是工作日内乘客12:00前作为目的车站和12:00后作为初始车站,因此车站e作为乘客i工作区域站点的计算公式为:
,;其中,代表车站e作为乘客i工作区域车站站点的概率;增值参与度设置强、中和低三个等级,当参与频率大于0.7时,乘客的增值参与度为强,当参与频率小于0.4时,乘客的增值参与度为低,当参与频率在0.4和0.7之间时,乘客的增值参与度为中。
[0060]
此外,在本实施方式中,乘客出行信息指标体系中的部分指标标签的具体格式如上表3。
[0061]
在本实施方式中,乘客出行信息指标体系内的指标数据应根据乘客的出行不断更新。乘客出行信息的更新规则为:对于基础信息,只有当乘客修改其个人信息时才进行更新;对于业务信息,其中出行基础信息、出行衍生信息和增值服务信息随着乘客每次出行和使用增值服务进行实时更新,同时,每个月将redis中的业务信息同步更新至数据库中;对于衍生信息,分析基础信息和业务信息,每个月更新一次;每半年对乘客的最后出行时间进行判断,若该乘客的最后出行时间与更新时间相差超过半年,则判定该乘客为不活跃用户,将其乘客出行信息信息从数据库中删除。
[0062]
根据本发明的一种实施方式,在指标获取模块中,获取乘客出行数据后,还包括对出行数据的预处理,具体包括:多余数据处理:当乘客多次刷卡或者设备故障时可能会出现数据重复,需要将重复的数据删除;错误数据处理:由于乘客行为以及设备故障,可能会出现异常数据。异常数据的判断有三条标准:一、乘客的进站时间必须早于出站时间;二、规定乘客在轨道交通内的逗留时间应小于4小时;三、判断乘客一天之内进入同一站点的次数,因为车站的工作人员一天内在车站的出入次数较多,排除统计数据时对工作人员的统计。
[0063]
乘客出行信息指标体系中的上述第三级指标出行需求类型包含的乘客类别有:通勤乘客:通勤乘客由于工作需要,出行时间和出行频率都相对固定;旅游乘客:该类乘客的出行时间和出行频率波动性较大,短时间内的出行频率较高,出行od的分布也较为广泛;休闲娱乐乘客:该类乘客出行时间较多分布在周末以及各天的非高峰时间段;特殊乘客 :例如老人、残疾人、孕妇等,由于自身原因,在出行过程中,往往需要外界的帮助,这些信息需要乘客在注册app账号时提供;其他乘客:其他乘客区别于以上四类乘客类型,出行时间和出行频率均不确定,其出行目的也较为多样。
[0064]
根据本发明的一种实施方式,在上述返程客流计算模块中,基于所述乘客出行信息指标体系和计算得到的部分指标数据,估算车站内不同时段的返程客流量,包括:根据乘客出行信息指标体系中的进、出站时间、居住区域站点、工作区域站点和出行需求类型统计的数量,其中s为某一站点,v为某星期,取值范围为1-7,表示周一至周日,t为某一时间段,为在v星期的时间段t内从s站返程的人数;
选取站点s内的历史出站和返程客流数据,用计算均值的方式得到星期v乘客在时间段到达s站并在时间段从s站出发返程的条件概率分布,计算公式为:式中代表总周数,表示a时段,表示b时段,表示第j周第v天的时间段在s站下车的乘客数量,代表进站时间,代表出站时间;通过概率分布估算的值,计算公式为:其中,表示第v天的时刻在s站下车的乘客数量,h表示乘客在s站上下车时间的最大间隔,最大间隔为24小时,h表示时隙分辨率,t 1表示t时段的下一个时段。
[0065]
根据本发明的一种实施方式,在上述客流预测模块中,将车站内乘客的返程客流量作为协变量添加至客流预测模型中,预测车站的进站客流为:将估算出的加入到普通的季节性自回归移动平均模型(s-arima模型)中,来预测车站的进站客流量;s-arima模型为:arima(p,d,q)(p,d,q)[ω],其中p、d、q分别表示自回归、差分和移动平均的顺序;p、d、q为季节部分的自回归、差分和移动平均顺序;ω是每个季节的周期数;对于一个时间序列,arima(p,d,q)(p,d,q)[ω]模型为:其中b定义为,,,,,其中,、、和为待求的系数,为遵循白噪声的误差项,且服从均值为0方差为的正态分布,代表时段;当把返程客流量作为协变量时,进站客流量与返程客流量有以下关系:关系:
其中,为回归系数,是由中星期v,站点s已知时,时间取1
···
t得到的,服从arima(p,d,q)(p,d,q)[ω]模型,代表总的进站客流中除去返程客流之外的客流量;根据车站历史的和,计算出和,得到后通过公式预测得到,再根据得到,其中,是由中星期v,站点s已知时,时间取t 1得到的;由于服从arima(p,d,q)(p,d,q)[ω]模型,即可通过该模型预测出时段的,而为上述中的;将及带入公式中,预测得到时刻的进站客流量。
[0066]
在本实施方式中,例如模型参数选择为(2,0,1)(1,1,0)[72],实验结果如上表4,其中m0模型中未添加,m1模型添加作为协变量,可以发现,添加新变量后训练集的rmse减少9.87,测试集rmse减少9.02,训练集的smape减少0.64%,测试集的smape减少0.16%,预测的效果更加准确。
[0067]
进一步地,为实现上述发明目的,本发明还提供一种电子设备,该电子设备包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,计算机程序被处理器执行时实现上述基于乘客出行信息的轨道交通客流预测方法。
[0068]
为实现上述发明目的,本发明还提供一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现上述基于乘客出行信息的轨道交通客流预测方法。
[0069]
根据本发明的上述方案,本发明提出的上述方法立足智慧地铁建设,有效关联、融合、引入地铁相关的多源数据,建立乘客出行信息,探讨了乘客出行信息在客流预测方面的应用。本发明依据乘客的多源出行数据,挖掘乘客的出行规律,在此基础上建立了乘客出行信息三级指标体系,实现对各指标的统计计算。同时提出一种面向乘客出行信息识别返程客流,并依据返程客流有效提高车站进站客流量精准度的预测方法。
[0070]
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的模块及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0071]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和设备的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0072]
在本技术所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连
接,可以是电性,机械或其它的形式。
[0073]
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。
[0074]
另外,在本发明实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。
[0075]
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例节能信号发送/接收的方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
[0076]
以上描述仅为本技术的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本技术中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本技术中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
[0077]
应理解,本发明的发明内容及实施例中各步骤的序号的大小并不绝对意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献