一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于高速ETC收费数据的用户细分方法

2022-05-21 14:13:47 来源:中国专利 TAG:

一种基于高速etc收费数据的用户细分方法
技术领域
1.本发明涉及一种对高速公路用户识别和分类的方法。特别是涉及一种基于高速etc收费数据的用户细分方法。


背景技术:

2.高速公路是城市交通的组成部分,掌握高速公路用户的出行需求对于高速公路规划和管理具有重要意义。《交通强国建设纲要》对高速公路运营管理和出行服务提出更高的要求,而传统的mtc(manual toll collection system)人工收费系统对于用户的数据字段涉及较少,无法对高速公路用户进行持续分析。此外,如果利用交通调查、问卷等人工调查方式,有周期长、采样率低、成本高等劣势,并且由于数据质量较低,难以达到预期效果。
3.随着信息技术和基础设施的发展,etc系统得到广泛应用,并且随着高速公路的运营产生了海量的etc收费数据。etc收费数据具有唯一标识用户的特征,实现了一人一车一签,为识别高速公路用户的通勤、营运、商务和零星等出行提供了可能。在2020年10月,etc不停车收费系统的使用率接近70%,覆盖了大部分的高速公路用户,通过挖掘用户的出行特征,为更深入的高速公路用户识别和分类提供了契机。
4.som是比较有代表性的半监督机器学习算法。与传统的k-means聚类和模糊聚类方法不同,som算法无需设置聚类数目的初始值,更加便于操作,它不仅可以自动寻找样本属性之间的内在联系,还可以降低数据的维度和复杂度,典型的som模型是层次结构,一般只有输入层和竞争层,对于大规模复杂数据的处理具有很大优势。
5.目前尚未有相关文献报导。


技术实现要素:

6.本发明所要解决的技术问题是,为了克服现有技术的不足,提供一种能够快速、准确的对高速公路用户识别和分类的基于高速etc收费数据的用户细分方法。
7.本发明所采用的技术方案是:一种基于高速etc收费数据的用户细分方法,是针对高速公路用户的通勤出行、营运出行、商务出行、零星出行的出行目的进行识别,包括以下步骤:
8.1)对设定周期内高速公路收费数据进行预处理,提取高速公路用户分类所需的字段信息,并以高速公路用户车牌号为关键字段存储基础信息,形成高速公路用户的出行基础数据;
9.2)对设定周期内每一高速公路用户的高速收费记录按照时间排序,依据时间和空间的异常状态进行数据清洗,得到数据清洗之后的高速收费数据;
10.3)依据步骤2)清洗后的数据,分别提取设定周期内高速公路用户时间指标、空间指标和个人属性指标三个维度的信息,形成用户分类评价指标体系,并利用som聚类算法完成高速公路用户的分类;
11.4)以月为周期依据高速公路用户出行的时间指标和空间指标进行分类,识别通勤
出行、营运出行、零星出行、商务出行各类出行。
12.步骤1)包括:按照用户的车牌号,对设定周期内高速收费记录进行排序,剔除字段缺失,车牌号错误的异常数据记录,形成以下出行基础数据存储格式,
13.[车牌号,进站时间,进站地点,出站时间,出站地点,计费距离,最终收费]。
[0014]
步骤2)所述的依据时间的异常状态进行数据清洗是:读取设定周期内高速公路用户一次出行记录的出站时间和进站时间,并计算该记录下的行驶时间,如果行驶时间为负,即出站时间小于进站时间,或者行驶时间超过24小时,则判定本次消费记录为高速公路用户的时间异常数据,并剔除。
[0015]
步骤2)所述的依据和空间的异常状态进行数据清洗是:读取设定周期内高速公路用户一次出行记录的出站时间、进站时间和计费距离,计算本次出行的行驶速度,若速度大于120km/h,或者计费距离大于1000km,则判定本次消费记录为高速公路用户的空间异常数据,并剔除。
[0016]
步骤3)所述提取高速公路用户时间指标的方法为:统计设定周期内每个高速公路用户在设定周期内工作日出行和非工作日出行的天数,统计高峰时期和非高峰时期出行天数,其中所述的高峰时期为一天中的7:00-9:00的早高峰和17:00-19:00的晚高峰,其余时间为非高峰时期。
[0017]
步骤3)所述的提取高速公路用户空间指标的方法为:提取高速公路每个用户在设定周期内出行中的所有收费站起终点并赋予编号a,然后依据编号统计设定周期内每个用户在每个起终点的出行频率,最后计算每个用户设定周期内在每个起终点的出行占比,计算公式如下:
[0018][0019][0020]
其中,a为收费站设定周期内起终点编号,c为设定周期内高速公路每个用户的总出行频率,a为设定周期内每个用户经过的所有起终点集合,ca为设定周期内每个用户在起终点a的出行频率,qa为设定周期内每个用户在起终点a的出行占比。
[0021]
步骤3)所述的提取高速公路用户个人属性指标的方法为:利用聚合函数计算每个高速公路用户在设定周期内的总出行计费距离,计算公式如下:
[0022][0023]
其中,a为收费站设定周期内起终点编号,a为设定周期内每个用户经过的所有起终点a的集合,s为高速公路每个用户的总出行计费距离,sa为起终点a的单次计费距离。
[0024]
步骤3)所述的利用som聚类算法完成高速公路用户的分类,是利用som聚类算法,输入提取的高速公路用户时间和空间的出行指标,设置自适应神经网络竞争层的尺寸为n*n,其中,n为神经元的数目,由如下公式得到:
[0025]
其中sample是高速公路用户的数目
[0026]
通过som聚类算法中的python-minisom工具完成聚类分析,并依据聚类分析结果计算每个聚类中高速公路用户在时间和空间指标上的平均值,形成以下存储格式,
[0027][0028]
步骤4)所述的识别通勤出行和营运出行的方法为:选择高速公路用户一周工作日平均出行超过3天的聚类id,然后对所述的聚类id中高速公路用户在7:00-9:00和17:00-19:00的高峰时段和非高峰时段出行的总天数,具体是选第k个进行计算,
[0029][0030][0031]
其中,wk为第k个月在高峰时段高速公路用户出行总天数;为mk第k个月在非高峰时段高速公路用户出行总天数;
[0032]
如果,wk》mk,那么该聚类id高速公路用户包含的高速公路用户定义为通勤用户,否则,该聚类id高速公路用户定义为日常营运用户。
[0033]
步骤4)所述的识别零星出行和商务出行的方法为:选择高速公路用户一周工作日平均出行小于3天的聚类id,然后对每个高速公路用户第k个月的所有起终点的出行频率进行计算:
[0034][0035][0036]
其中,p
kj
为第k个月在第j个起终点高速公路用户出行频率;pk为第k个月高速公路用户总出行频率;q为起终点的总数;
[0037]
计算该聚类id的高速公路用户每一起终点在全部起终点的占比,如果最大的起终点占比超过40%,那么该聚类id的高速公路用户定义为商务出行用户,否则,该聚类id的高速公路定义为零星出行用户。
[0038]
本发明的一种基于高速etc收费数据的用户细分方法,优点在于:
[0039]
(1)本发明充分利用高速公路etc收费数据,可以快速、较准确的划分出通勤、日常营运、上午、零星出行用户,为高速公路规划和建设提供依据。
[0040]
(2)本发明的基础数据来源于具有唯一标识的etc用户高速出行记录,相对于传统的交通抽样调查等方法具有信息全、精度高的特点。
[0041]
(3)本发明采用的som分类方法灵活易用,对于处理大规模的etc收费数据具有显著优势,可以快速得到分类结果。
[0042]
(4)本发明的高速公路用户分类结果可以较准确的反映出高速公路用户在出行时空分布上的差异,可以为高速公路运营和拥堵管理决策提供支持。
附图说明
[0043]
图1是本发明一种基于高速etc收费数据的用户细分方法的流程图;
[0044]
图2是发明中som聚类示意图;
[0045]
图3是发明中高速公路用户划分示意图。
具体实施方式
[0046]
下面结合实施例和附图对本发明的一种基于高速etc收费数据的用户细分方法做出详细说明。
[0047]
本发明的一种基于高速etc收费数据的用户细分方法,是针对高速公路用户的通勤出行、营运出行、商务出行、零星出行的出行目的进行识别,如图1所示,包括以下步骤:
[0048]
1)对设定周期内高速公路收费数据进行预处理,提取高速公路用户分类所需的字段信息,并以高速公路用户车牌号为关键字段存储基础信息,形成高速公路用户的出行基础数据;包括:
[0049]
按照用户的车牌号,对设定周期内高速收费记录进行排序,剔除字段缺失,车牌号错误的异常数据记录,形成以下出行基础数据存储格式,
[0050]
[车牌号,进站时间,进站地点,出站时间,出站地点,计费距离,最终收费];
[0051]
2)对设定周期内每一高速公路用户的高速收费记录按照时间排序,依据时间和空间的异常状态进行数据清洗,得到数据清洗之后的高速收费数据;其中,
[0052]
所述的依据时间的异常状态进行数据清洗是:读取设定周期内高速公路用户一次出行记录的出站时间和进站时间,并计算该记录下的行驶时间,如果行驶时间为负,即出站时间小于进站时间,或者行驶时间超过24小时,则判定本次消费记录为高速公路用户的时间异常数据,并剔除;
[0053]
所述的依据和空间的异常状态进行数据清洗是:读取设定周期内高速公路用户一次出行记录的出站时间、进站时间和计费距离,计算本次出行的行驶速度,若速度大于120km/h,或者计费距离大于1000km,则判定本次消费记录为高速公路用户的空间异常数据,并剔除
[0054]
3)依据步骤2)清洗后的数据,分别提取设定周期内高速公路用户时间指标、空间指标和个人属性指标三个维度的信息,形成用户分类评价指标体系,并利用som聚类算法完成高速公路用户的分类;其中,
[0055]
所述提取高速公路用户时间指标的方法为:统计设定周期内每个高速公路用户在设定周期内工作日出行和非工作日出行的天数,统计高峰时期和非高峰时期出行天数,其中所述的高峰时期为一天中的7:00-9:00的早高峰和17:00-19:00的晚高峰,其余时间为非高峰时期。
[0056]
所述的提取高速公路用户空间指标的方法为:提取高速公路每个用户在设定周期内出行中的所有收费站起终点并赋予编号a,然后依据编号统计设定周期内每个用户在每个起终点的出行频率,最后计算每个用户设定周期内在每个起终点的出行占比,计算公式
如下:
[0057][0058][0059]
其中,a为收费站设定周期内起终点编号,c为设定周期内高速公路每个用户的总出行频率,a为设定周期内每个用户经过的所有起终点集合,ca为设定周期内每个用户在起终点a的出行频率,qa为设定周期内每个用户在起终点a的出行占比。
[0060]
所述的提取高速公路用户个人属性指标的方法为:利用聚合函数计算每个高速公路用户在设定周期内的总出行计费距离,计算公式如下:
[0061][0062]
其中,a为收费站设定周期内起终点编号,a为设定周期内每个用户经过的所有起终点a的集合,s为高速公路每个用户的总出行计费距离,sa为起终点a的单次计费距离。
[0063]
所述的利用som聚类算法完成高速公路用户的分类,是利用如图2所示的som聚类算法,输入提取的高速公路用户时间和空间的出行指标,设置自适应神经网络竞争层的尺寸为n*n,其中,n为神经元的数目,由如下公式得到:
[0064]
其中sample是高速公路用户的数目
[0065]
通过som聚类算法中的python-minisom工具完成聚类分析,并依据聚类分析结果计算每个聚类中高速公路用户在时间和空间指标上的平均值,形成以下存储格式,
[0066][0067]
4)如图3所示,以月为周期依据高速公路用户出行的时间指标和空间指标进行分类,识别通勤出行、营运出行、零星出行、商务出行各类出行;其中,
[0068]
所述的识别通勤出行和营运出行的方法为:选择高速公路用户一周工作日平均出行超过3天的聚类id,然后对所述的聚类id中高速公路用户在高峰时段(7:00-9:00,17:00-19:00)和非高峰时段出行的总天数,具体是选第k个进行计算,
[0069][0070][0071]
其中,wk为第k个月在高峰时段高速公路用户出行总天数;为mk第k个月在非高峰时段高速公路用户出行总天数;
[0072]
如果,wk》mk,那么该聚类id高速公路用户包含的高速公路用户定义为通勤用户,否
则,该聚类id高速公路用户定义为日常营运用户。
[0073]
所述的识别零星出行和商务出行的方法为:选择高速公路用户一周工作日平均出行小于3天的聚类id,然后对每个高速公路用户第k个月的所有起终点的出行频率进行计算:
[0074][0075][0076]
其中,p
kj
为第k个月在第j个起终点高速公路用户出行频率;pk为第k个月高速公路用户总出行频率;q为起终点的总数;
[0077]
计算该聚类id的高速公路用户每一起终点在全部起终点的占比,如果最大的起终点占比超过40%,那么该聚类id的高速公路用户定义为商务出行用户,否则,该聚类id的高速公路定义为零星出行用户。
[0078]
下面给出具体实例:
[0079]
按照本发明方法对某高速公路特定通道的2019年7月的etc收费数据,如流程图所示,开展了基于高速etc收费数据的通勤、营运、商务和零星出行用户划分。
[0080]
步骤101、对高速etc数据的进行预处理。
[0081]
高速公路etc收费数据量巨大,超过100g,为提高存储效率,将原始数据按照时间和空间特征提取关键字段,并对高速收费记录进行排序,剔除字段缺失,车牌号错误等异常数据记录,并形成以下基础数据存储格式,包含2000万条记录和140余万用户。
[0082]
[车牌号,进站时间,进站地点,出站时间,出站地点,计费距离,最终收费]
[0083]
步骤102、根据时间和空间异常判断对用户的出行记录进行清洗。
[0084]
由于高速etc数据存在系统录入、识别等错误,所以在数据处理之前要进行数据清洗,首先对每个用户的出行记录按照时间排序,然后进行如下步骤:
[0085]
步骤1021、清洗时间异常数据记录。
[0086]
读取高速公路用户一次出行记录的出站时间和进站时间,并计算该记录下的行驶时间,如果行驶时间为负(出站时间小于进站时间),或者行驶时间超过24小时,则判定本次消费记录为高速公路用户的时间异常数据。
[0087]
步骤1022、清洗空间异常数据记录。
[0088]
读取高速公路用户一次出行记录的出站时间、进站时间和计费距离,并计算本次出行的行驶速度,若速度大于120km/h,或者计费距离大于1000km,则判定本次消费记录为高速公路用户的空间异常数据。经过数据清洗,高速公路用户剩余约135万。
[0089]
步骤1023、提取用户时间、空间和个人属性出行指标。
[0090]
统计周期内工作日出行和非工作日出行的天数,以7:00-9:00作为早高峰、17:00-19:00作为晚高峰统计高峰时期和非高峰时期出行天数;统计高速公路用户出行中每个起终点的出行频率,并计算起终点在所有出行中的占比;利用聚合函数计算每个高速出行用户在研究时间段内的总出行频率和总出行计费距离,从而得到所有高速公路用户的出行指
标,某个高速公路用户的出行指标如表1所示,
[0091]
表1
[0092][0093]
步骤103、利用som聚类,完成高速公路用户聚类
[0094]
利用som聚类方法中的python-minisom工具对上述的高速公路用户时间、空间和个人属性指标进行聚类分析,som聚类算法的输入参数包括高速公路用户工作日和非工作日的出行天数,月用户高峰和非高峰时期的出行天数,最常用起终点在所有出行的占比,并设置自适应神网络竞争层的尺寸为n
×
n=76
×
76。
[0095]
经过som聚类最终得到6个分类,然后根据聚类编号id计算本聚类中所有用户出行指标的平均值,对每个聚类形成表2所示的数据格式。
[0096]
表2
[0097][0098]
步骤104、依据高速公路用户识别原则,划分通勤、营运、商务、零星出行用户
[0099]
聚类1和聚类4的高速公路用户周均工作日出行均超过三次,但是聚类1的用户出行更加集中于高峰时期,而聚类4出行时间更加分散,从而聚类1定义为通勤用户,而聚类4定义为营运用户。其余聚类2、聚类3、聚类5和聚类6的高速公路用户出行次数均较少,在工作日周均出行小于3次,但是聚类3的出行中,最常用起终点出行占比超过40%,出行路线较为集中,从而聚类3定义为商务出行用户,而剩余聚2、5和6类均定义为零星出行用户。
[0100]
提供以上实施例仅仅是为了描述本发明的目的,而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改,均应涵盖在本发明的范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献