一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种短时大型活动期间路段平均车速预测方法及系统与流程

2022-03-16 01:22:23 来源:中国专利 TAG:


1.本发明涉及公共交通数据挖掘应用和服务评价领域,特别是涉及一种短时大型活动期间路段平均车速预测方法及系统。


背景技术:

2.随着国民经济水平的提高,越来越多的大型活动在各大城市举办,而活动的开展导致区域内人群集中,不仅对周边基础设施造成巨大的压力,也极易发生群体事件。对大型活动引起的场馆周边道路平均车速下降进行准确的预测并采取有效的管控措施进行疏导也成为了相关部门重点需要解决的问题,因此,有必要研究短时大型活动对周边道路产生的影响,寻找其内在特征规律,从而为有针对性地制定和实施对策、手段和措施提供依据,这对于大型活动期间保障良好的交通环境,保证活动顺利开展有重要的意义。
3.由于我国对日维度或交通量需求预测研究相对较多且完备,主要研究对象为奥运会、世博会等持续性大型活动,而关于大型活动场馆周边道路交通运行特征的研究较少且角度较为单一。有的现有技术用时间卷积神经网络来代替递归神经网络,加快了计算速度,使得预测结果更精确。虽然多任务学习模型能够用一个模型同时预测多个道路的车速,但不能体现不同因素下举办大型活动的场馆周边的不同路段的车速的特征。有的现有技术采集交通道口的视频信息;根据采集的视频信息,分析出交通综合信息,将交通综合信息载入历史交通综合信息;根据历史交通综合信息构建交通模型,预测出交通道口在未来预定时间节点的预测交通综合信息;根据预测交通综合信息,生成该交通道口的交通灯控制信号;根据交通灯控制信号,控制交通道口交通灯的执行。但该方法仅通过现有监控系统获取交通数据,若不能及时修正,则不能保证良好的交通灯控制效果,实时匹配度不高。有的现有技术计算一近期预测车速;计算一远期预测车速;利用该近期预测车速及该远期预测车速来计算一混合预测车速;以及通过路径中各路段的预测车速来计算整条路径所需的行驶时间。但是这种车速预测方法,仅考量了近期相关性与远期相关性,还有许多影响因素没有考虑进去。
4.因此,需要一种车速预测方法,可以在考虑短时大型活动对交通影响的情况下提高车速预测的效率和精度。


技术实现要素:

5.本发明的目的是提供一种短时大型活动期间路段平均车速预测方法及系统,通过考虑短时大型活动对交通影响的情况下提高车速预测的效率和精度。
6.为实现上述目的,本发明提供了如下方案:
7.一种短时大型活动期间路段平均车速预测方法,包括:
8.获取浮动车原始数据、检测器原始数据和大型活动数据;
9.对所述大型活动数据进行周边路段运行速度和断面交通量分析,确定影响特征信息;所述影响特征信息包括影响时段、影响程度和速度变化;
10.根据所述大型活动数据和所述影响特征信息确定影响因素;
11.根据所述浮动车原始数据、所述检测器原始数据和所述影响因素利用短时大型活动期间路段平均车速预测模型得到平均车速预测结果;所述短时大型活动期间路段平均车速预测模型利用随机森林算法构建的。
12.可选的,在所述获取浮动车原始数据、检测器原始数据和大型活动数据之后,还包括:
13.对所述浮动车原始数据和所述检测器原始数据进行剔除和筛选。
14.可选的,所述对所述大型活动数据进行周边路段运行速度和断面交通量分析,确定影响特征信息,具体包括:
15.对所述大型活动数据进行周边路段运行速度分析,确定所述影响时段中的周边路段影响时段、所述影响程度中的周边路段影响程度和所述速度变化;
16.对所述大型活动数据进行断面交通量分析,确定所述影响时段中的断面影响时段和所述影响程度中的断面影响程度。
17.可选的,所述短时大型活动期间路段平均车速预测模型的构建过程具体包括:
18.利用浮动车训练数据、检测器训练数据和影响因素训练集进行调参,确定随机森林模型的最佳迭代次数和最佳特征数;
19.根据所述浮动车训练数据、所述检测器训练数据、所述影响因素训练集、所述最佳迭代次数和所述最佳特征数构建随机森林模型;
20.根据平均绝对误差、均方差和判断系数对所述随机森林模型的参数进行优化,得到短时大型活动期间路段平均车速预测模型。
21.一种短时大型活动期间路段平均车速预测系统,包括:
22.获取模块,用于获取浮动车原始数据、检测器原始数据和大型活动数据;
23.影响特征信息确定模块,用于对所述大型活动数据进行周边路段运行速度和断面交通量分析,确定影响特征信息;所述影响特征信息包括影响时段、影响程度和速度变化;
24.影响因素确定模块,用于根据所述大型活动数据和所述影响特征信息确定影响因素;
25.平均车速预测结果确定模块,用于根据所述浮动车原始数据、所述检测器原始数据和所述影响因素利用短时大型活动期间路段平均车速预测模型得到平均车速预测结果;所述短时大型活动期间路段平均车速预测模型利用随机森林算法构建的。
26.可选的,还包括:
27.剔除和筛选模块,用于对所述浮动车原始数据和所述检测器原始数据进行剔除和筛选。
28.可选的,所述影响特征信息确定模块,具体包括:
29.周边路段运行速度分析单元,用于对所述大型活动数据进行周边路段运行速度分析,确定所述影响时段中的周边路段影响时段、所述影响程度中的周边路段影响程度和所述速度变化;
30.断面交通量分析单元,用于对所述大型活动数据进行断面交通量分析,确定所述影响时段中的断面影响时段和所述影响程度中的断面影响程度。
31.可选的,所述短时大型活动期间路段平均车速预测模型的构建过程具体包括:
32.利用浮动车训练数据、检测器训练数据和影响因素训练集进行调参,确定随机森林模型的最佳迭代次数和最佳特征数;
33.根据所述浮动车训练数据、所述检测器训练数据、所述影响因素训练集、所述最佳迭代次数和所述最佳特征数构建随机森林模型;
34.根据平均绝对误差、均方差和判断系数对所述随机森林模型的参数进行优化,得到短时大型活动期间路段平均车速预测模型。
35.根据本发明提供的具体实施例,本发明公开了以下技术效果:
36.本发明提供的一种短时大型活动期间路段平均车速预测方法及系统,对大型活动数据进行周边路段运行速度和断面交通量分析,确定影响特征信息;影响特征信息包括影响时段、影响程度和速度变化;根据大型活动数据和影响特征信息确定影响因素;根据浮动车原始数据、检测器原始数据和影响因素利用短时大型活动期间路段平均车速预测模型得到平均车速预测结果;短时大型活动期间路段平均车速预测模型利用随机森林算法构建的。构建基于随机森林的短时大型活动期间路段平均车速预测模型,随机森林能够处理高维数据,具有泛化能力强、训练速度快等特点。因此本发明提供的方法具有预测速度快,精度高的优点。
附图说明
37.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
38.图1为本发明提供的短时大型活动期间路段平均车速预测方法流程图。
具体实施方式
39.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
40.本发明的目的是提供一种短时大型活动期间路段平均车速预测方法及系统,通过考虑短时大型活动对交通影响的情况下提高车速预测的效率和精度。
41.为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
42.如图1所示,本发明提供的一种短时大型活动期间路段平均车速预测方法,包括:
43.步骤101:获取浮动车原始数据、检测器原始数据和大型活动数据。
44.步骤102:对所述大型活动数据进行周边路段运行速度和断面交通量分析,确定影响特征信息;所述影响特征信息包括影响时段、影响程度和速度变化。其中,所述对所述大型活动数据进行周边路段运行速度和断面交通量分析,确定影响特征信息,具体包括:对所述大型活动数据进行周边路段运行速度分析,确定所述影响时段中的周边路段影响时段、所述影响程度中的周边路段影响程度和所述速度变化;对所述大型活动数据进行断面交通
量分析,确定所述影响时段中的断面影响时段和所述影响程度中的断面影响程度。
45.步骤103:根据所述大型活动数据和所述影响特征信息确定影响因素。
46.步骤104:根据所述浮动车原始数据、所述检测器原始数据和所述影响因素利用短时大型活动期间路段平均车速预测模型得到平均车速预测结果;所述短时大型活动期间路段平均车速预测模型利用随机森林算法构建的。
47.其中,所述短时大型活动期间路段平均车速预测模型的构建过程具体包括:利用浮动车训练数据、检测器训练数据和影响因素训练集进行调参,确定随机森林模型的最佳迭代次数和最佳特征数;根据所述浮动车训练数据、所述检测器训练数据、所述影响因素训练集、所述最佳迭代次数和所述最佳特征数构建随机森林模型;根据平均绝对误差、均方差和判断系数对所述随机森林模型的参数进行优化,得到短时大型活动期间路段平均车速预测模型。
48.其中,在所述步骤101:获取浮动车原始数据、检测器原始数据和大型活动数据之后,还包括:对所述浮动车原始数据和所述检测器原始数据进行剔除和筛选。
49.本发明还提供一种短时大型活动期间路段平均车速预测方法在实际应用中一种预测方法,包括以下步骤:
50.步骤1,分析数据处理:
51.步骤1.1,提取速度和交通量的原始数据主要字段内容:
52.浮动车信息采集技术的基本原理是:gps接收装置以一定的时间间隔记录车辆的位置坐标、车速和时间数据等,车载智能设备获取gps的数据后,利用通信设备将数据传输到控制中心。控制中心应用地图匹配、路径推测等相关算法将浮动车数据和路网数据关联起来,得到各路段的区间车速、行程时间等交通参数。根据道路交通的运行状态,数据需要具有较强的稳定性,且能够反映不同路段及时段的道路交通运行状况,5min时间间隔粒度的数据能够很好的反应道路上的车辆运行状态,且具有较好的稳定性。
53.该时间粒度的浮动车数据包含的主要字段有:路段名称、路段方向、路段起终点、路段长度、行程时间、平均行驶速度、时间和日期,如表1所示。表1为浮动车数据主要字段表。
54.表1浮动车数据主要字段
[0055][0056]
检测器数据中主要包含的字段有:检测器编号、日期、时刻、交通流量、速度、路段类型和检测发生时间,如表2所示。以上这些字段中主要用到的有检测器编号、日期、时刻和交通流量数据,如表2所示。检测器编号用于匹配需要分析的路段以及方向,时刻用于确定时间间隔,交通流量数据用于分析道路路段的状态。
[0057]
表2检测器数据主要字段
[0058][0059]
输入浮动车原始数据、检测器原始数据,通过python中的pandas模块进行数据分析处理,提取浮动车原始数据得到路段名称、路段方向、平均行驶速度字段,检测器原始数据得到检测器编号、日期、时刻和交通流量数据,并将该字段数据应用到步骤2,进行数据清洗。
[0060]
步骤1.2,提取的浮动车、检测器数据进行清洗:
[0061]
剔除错误数据和筛选有效数据的规则如下:
[0062]
(1)剔除数据记录中检测器编号和时刻相同的记录,使用python中的pandas.drop_duplicates()函数对数据进行去重处理。
[0063]
(2)删除“v”即速度字段为“0或-1”,代表此记录处于检测器速度异常数据;并将该清洗后字段数据应用到步骤5,训练集的生成中。
[0064]
步骤2,大型活动对周边道路运行影响时空特征分析:
[0065]
步骤2.1,影响范围及路段集的确定;
[0066]
大型活动数据主要包含大型活动星期、举办日期、天气情况(是否降雨、雾霾、气温等)、活动名称、活动类型、举办场馆、活动参与人数及开始和结束时间。
[0067]
考虑到大型活动的举办地与活动性质的差异,活动类型、内容、规模的不同大型活动所影响的时空范围不同。对于短时活动对周边道路产生影响的研究,首先明确大型活动的举办地举办活动所影响的具体范围及道路。
[0068]
步骤2.2,短时大型活动对周边道路运行影响特征分析;
[0069]
针对不同等级、到活动场馆不同距离的路段进行影响特征分析,通过对举办大型活动的周边路段运行速度和断面交通量分析,定量化的展示了大型活动对路段的影响程度,明确影响时段。从路段平均车速的对比具体方面包括:(1)影响时段方面;(2)影响程度方面;(3)速度变化方面;从道路断面交通量的分析具体方面包括:(1)影响时段方面;(2)影响程度方面。不同路段受影响有差异,距离场馆较近的路段会提前受到活动的影响导致路段速度下降,车流量增多;快速路受活动影响程度较大。
[0070]
步骤3,探究路段平均车速影响因素:
[0071]
随机森林模型的建立需要考虑影响数据量变化规律的因素,以达到对数据进行准确学习及预测的目的,构建训练样本集,对影响因素进行分析以确定模型的最大特征数。
[0072]
(1)不同道路
[0073]
由于道路等级、到活动场馆距离等因素的不同,车速会受到不同程度的影响。距离活动场馆较近的路段会提早受到大型活动影响使得路段速度降低;由于不同等级道路的设计车速不同,快速路路段平均车速下降的幅度会大于其它等级的路段。
[0074]
(2)日期属性
[0075]
对于大型活动而言,法定节假日和双休日路段通常会受到很大程度的影响,不同日期属性(工作日、双休日、节假日)条件下,大型活动周边路段平均车速的变化特征及规律会呈现不同的特点,会有较大的差别。
[0076]
(3)时间段
[0077]
各个时段路段平均车速会存在差异,时间分布不均衡。早、晚高峰路段平均车速与其他时段相比较低,因此在考虑具体参数的时候需要将时间段纳入预测模型参数中。
[0078]
(4)星期
[0079]
一周内每天路段平均车速会存在差异,因此在后续预测模型中需要将星期考虑在影响因素中,作为一个参数。
[0080]
(5)月份
[0081]
一年中各月份路段平均车速会存在差异,因此在后续预测模型中需要将月份考虑在影响因素中,作为一个参数。
[0082]
(6)活动性质
[0083]
短时性大型活动种类繁多,包括演唱会等文艺活动,足球赛等体育活动,产品发布、展览会等商业类活动等。由于不同性质的大型活动面向的受众不同,进而会导致交通方
式的选择不同。
[0084]
(7)活动规模
[0085]
活动规模指的是短时大型活动吸引的观看人数,活动规模的大小影响参加人数的总量,车流增多直接影响路段的运行状况。因此,规模不同的大型活动对路段平均车速的影响时直接的,是预测中的重要参数。
[0086]
(8)天气状况
[0087]
天气对地面交通运行状况会产生很大影响,同时也会影响人们出行方式的选择。降水量的不同对车辆平均速度的影响会有差异,因此天气状况是模型建立需要考虑的因素之一。
[0088]
(9)距离活动开始、结束时间
[0089]
通过对平均速度数据的分析可知,路段在活动开始前1-2小时受到影响,于活动结束后1小时内散场完毕,在这两个时间段内,将产生极高的交通需求,对周边路网造成很大压力。
[0090]
(10)限行
[0091]
工作日北京的限行范围为五环路(含)以内道路,车牌尾号轮换方式按照北京市机动车车牌尾号轮换方式执行,每三个月更换一次。通常,限制不同车牌尾号情况下,路段拥堵程度不同,一般情况下,4,9限行时路段速度最低,相较其他尾号限行道路最拥堵。
[0092]
输入训练样本影响因素集,进行属性选取如表3所示,并应用到步骤4中,进行标准化处理。
[0093]
表3数据属性选取
[0094][0095]
步骤4,模型参数定量化及优化:
[0096]
(1)在具体短时大型活动期间路段平均车速预测方法中,由于各参数所代表的物理涵义不同,因此存在着量纲上的差异。这种异量纲性是影响对事物整体评价的主要因素,所以在评价之前要将参数统一进行标准化,输入洗后字段数据与训练样本影响因素集,经过python中pandas数据处理参数标准化处理。
[0097]
(2)弱学习器最佳迭代次数:n_estimators代表弱学习器的最大迭代次数,即最大弱学习器的个数。n_estimators过小会使得预测精度不高,过大会导致数据过拟合,使用python中scikit-learn随机森林类库gridsearchcv方法探索n_estimators的最佳值。
[0098]
调参算法如下:
[0099]
gsearch1=gridsearchcv(estimator=randomforestclassifier(min_samples_split=100,min_samples_leaf=20,max_depth=8,max_features='sqrt',random_state=10),param_grid=param_test1,scoring='roc_auc')
[0100]
gsearch1.fit(x,y)
[0101]
其中:min_samples_split为内部节点再划分所需最小样本数,min_samples_leaf为叶子节点最少样本数,max_depth为决策树最大深度,max_features为最大特征数,random_state为随机状态,scoring为得分属性,fit为训练集中对应每行样本的结果。
[0102]
对n_estimators进行网格搜索,因此输出评分指标进行最优评分,最终确定使用{n_estimators=10}作为本模型最佳迭代次数。其中,表4为最佳迭代次数评分结果表,如表4所示。
[0103]
表4最佳迭代次数评分结果表
[0104][0105]
(3)最大特征数:最大特征数用max_features来表示,默认是none,代表划分时考虑所有的特征数,除此之外,log2表示最多考虑log2n个特征,sqrt/auto表示最多考虑个特征,int(n)代表可以自由选择任意大于1,小于特征数的整数。在本文的路段平均车速的影响因素中,天气、星期、限行等因素均对当时的路段车辆平均速度有着不可忽视的影响,选择使用{max_features=13}作为本模型最佳特征数。
[0106]
(4)决策树最大深度和所需最小样本数:决策树最大深度用max_depth来表示,为了减少模型训练时间并且防止决策树一直分叉下去产生过拟合现象,提高模型整体的泛化能力,会对其进行深度限制;min_samples_split代表内部节点再划分所需最小样本数,可以限制子树继续划分。再划分所需最小样本数评分结果如表5所示。
[0107]
表5再划分所需最小样本数评分结果表
[0108][0109]
调参算法如下:
[0110]
gsearch2=gridsearchcv(estimator=randomforestclassifier(n_estimators=10,min_samples_leaf=20,max_features='sqrt',oob_score=true,random_state=10),param_grid=param_test2,scoring='roc_auc',iid=false)
[0111]
gsearch2.fit(x,y)
[0112]
其中:n_estimators最佳迭代次数为10,oob_score为是否采用袋外样本。
[0113]
对决策树最大深度max_depth和内部节点再划分所需最小样本数min_samples_split进行网格搜索。通过模型调参,最终确定使用{max_depth=20}作为本模型最佳迭代
次数,使用{min_samples_split=2}作为本模型最佳特征数。
[0114]
步骤5,基于随机森林构建短时大型活动期间路段平均车速预测模型:
[0115]
步骤5.1,随机森林模型的构建
[0116]
随机森林模型的构建包含有三个主要步骤:首先是在已有数据集合当中抽样,生成训练集;继而运用训练集来构建决策树;最后生成随机森林,执行分类和回归算法。
[0117]
(1)随机抽样生成训练集
[0118]
每一棵决策树都要有一个相应的训练集来进行训练,所以,必须从原始全部数量集合中生成同样数量的数据集。生成数据集的过程中需要利用随机采样(bootstrap)的方法有放回的随机抽样,即进行单个样本的抽取后,依旧将抽取到的样本放回到原来的数据集合中。
[0119]
(2)构建决策树
[0120]
决策树是构成随机森林的单位分类器,类似于数据结构中的树模型。决策树首先通过利用已知类别的训练集来进行分类器的训练产生相关规则,随后运用这一部分规则对未知类别的数据集合进行分类和数据挖掘。
[0121]
本发明选取的随机森林算法利用分类回归树(cart)作为元分类器。cart算法采用二分递归的方式构建树,每次划分均为二元划分,将当前样本集分成两个子集,从而产生左右两个分枝的子树。cart算法属性指标是基尼系数。基尼系数本身反应了样本的不确定性。当基尼系数越小的时候,说明样本之间的差异性小,不确定程度低。分类的过程本身是一个不确定度降低的过程,即纯度的提升过程。所以cart算法在进行结点分裂时,运用的分裂原则是使得基尼系数最小。
[0122]
样本集d的基尼系数定义如下:
[0123][0124]
其中pi为d中样本第i类的概率,m为总类型数量。
[0125]
计算每个划分后结果分区的不纯度的加权和。如果d基于a(a为某一类型属性)的二元划分结果为两个子集d1与d2,那么此划分d的基尼系数为:
[0126][0127]
则d按a属性划分导致的不纯度降低为:
[0128]
δgini(a)=gini(d)-ginia(d)
ꢀꢀꢀꢀꢀꢀꢀ
(3)
[0129]
参与分裂的特征属性即为特征变量,在每棵树的分裂节点,通过有放回随机抽样的方法获得一组属性,在此组属性中选择最优的一个属性将数据进行分割,生成独立的决策树,最后根据所有决策树的投票结果来确定输入样本的类别属性。
[0130]
(3)生成随机森林
[0131]
因为决策树归属于单分类器具,运用的是相对单一的决策方式,所以具有许多不能避免的问题。譬如其分类规定比较繁琐,会出现以部分最优解代替整体的最优解、拟合过度等问题。而随机森林算法是由多个决策树合并而形成的,这些组成部分的决策树并不需要非常高的分类准确度,随机森林运算的最终结果是由很多的决策树投票产生,具有更高
的精度。
[0132]
假设y是输出变量,则由(x,y)组成的样本数据集称为原始样本数据集。分类结果需要对所有决策树分类结果进行综合决策,输入变量x的类别是投票最多的类别。最终分类结果如下:
[0133][0134]
其中,h(x)是组合分类器模型,表示随机森林的分类结果,hi(x)是决策树分类的模型,表示单棵决策树分类结果,i()作为指示器函数(表示函数使集合的值为1,而不是0),y是分类目标。
[0135]
步骤5.2,模型算法流程
[0136]
将需要进行回归的数据导入每一个训练完成的弱学习器中,进行回归分析并输出结果,针对每一个弱分类器的判定结果进行加权及归一化处理,所得出的结果即为整个随机森林模型的最终判定结果。其具体算法流程如下:
[0137]
假设原始数据集o中有m个特征,则随机森林的算法流程如下:
[0138]
(1)从原始数据集o中利用bagging的思想有放回的重采样产生n个与原始数据集同样样本容量大小的训练子集o={o1,o2,

,on}。
[0139]
(2)在构建每棵决策树时,选择训练子集中的某一个作为这棵决策树的训练集,且从全部特征中随机选择m(m《m)个特征,并基于这m个特征利用cart分裂算法用于决策树节点的分裂,不断继续这个过程直到达到某个预先设置的条件为止,每棵决策树都不剪枝。
[0140]
(3)将生成的n棵完全生长的决策树组合起来形成随机森林。
[0141]
(4)当测试样本输入到随机森林模型时,随机森林输出的结果为简单多数投票决定或取平均值。当随机森林模型解决分类问题时,最后的结果采用每个决策树结果的众数决定;当随机森林模型解决回归问题时,最后的结果为每个决策树结果的平均值。
[0142]
步骤5.3,模型评价指标
[0143]
准确合理的评价指标在优化模型参数、评估模型选取合理性、检验预测结果精确度方面起到很大作用。对于回归模型预测,选取相应指标如下:
[0144]
(1)平均绝对误差(mean_absolute_error,mae)
[0145][0146]
其中,n
samples
为预测值数量,yi为实际值,为预测值。
[0147]
(2)均方差(mean_squared_error,mse)
[0148][0149]
(3)判定系数(r2_score)
[0150][0151]
其中,为实际值的均值。
[0152]
本发明选取以北京工人体育馆为计算对象,对其在是否举办短时性大型活动情况下的道路平均速度和断面交通量进行对比分析研究,包括以下步骤:
[0153]
步骤1,分析数据处理:
[0154]
通过根据道路交通的运行状态,获取以5min时间间隔粒度的浮动车数据包括:路段名称、路段方向、路段起终点、路段长度、行程时间、平均行驶速度、时间和日期;检测器数据包括检测器编号、日期、时刻、交通流量、速度、路段类型和检测发生时间大型活动数据主要包含大型活动星期、举办日期、天气情况(是否降雨、雾霾、气温等)、活动名称、活动类型、举办场馆、活动参与人数及开始和结束时间。
[0155]
步骤2,大型活动对周边道路运行影响时空特征分析:
[0156]
步骤2.1,影响范围及路段集的确定:
[0157]
对于短时活动对周边道路产生影响的研究,首先明确工人体育场活动举办所影响的具体范围及道路。具体道路路段及名称如表6所示。
[0158]
表6工人体育场短时大型活动周边影响路段
[0159][0160]
步骤2.2,短时大型活动对周边道路运行影响特征分析:
[0161]
通过对北京工人体育场举办大型活动的周边路段运行速度和断面交通量分析,定量化的展示了大型活动对路段的影响程度,明确影响时段,总结如下:
[0162]
从路段平均车速的对比分析可得:
[0163]
(1)影响时段方面
[0164]
北京工体场馆晚间举办的活动对周边路网影响时段主要集中在开场前1-2小时。各条路段距离北京工人体育场由远及近依次为东二环、新东路、工人体育场北路和工人体育场东路(工人体育场北路和东路到活动地点距离相同)。工人体育场东路和工人体育场北路两条路段受活动影响时间为活动开始前的2小时左右,新东路1.5小时左右,东二环路段在活动开始前1小时受影响速度下降。四条路段在活动开始时间范围内受到影响的时间均持续了2.5小时左右。大型活动结束时,对周边路段的影响持续时间约为1小时。
[0165]
(2)影响程度方面
[0166]
东二环北段作为连接至北京工体的快速路路段所受压力更大,活动开始阶段,最拥堵时段与常态相比降幅为54.73%左右,新东路降幅40.34%,工人体育场北路降幅
37.99%,工人体育场东路降幅26.66%。东二环路段受影响程度最大。活动结束时,影响程度有相同的特征规律。
[0167]
(3)速度变化方面
[0168]
四条路段在非工作日无大型活动期间,行驶速度均在晚高峰结束后逐步增大。在活动开始的时间范围内,东二环在无大型活动期间速度保持在50km/h-70km/h之间,有大型活动时速度在20km/h-30km/h;新东路无大型活动时速度在30km/h左右波动,举办大型活动时速度降低到10km/h-20km/h之间;工人体育场北路无大型活动是速度在25km/h波动,有大型活动时速度约为15km/h;工人体育场东路在无大型活动时速度在20km/h-30km/h之间,在大型活动影响下,速度降低到20km/h以下。
[0169]
从道路断面交通量的分析可得:
[0170]
(1)影响时段方面
[0171]
东二环由北向南路段、东二环由南向北路段和东三环路段在活动开始前1小时断面交通量逐渐上涨,影响持续时间约2.5小时。活动结束后影响持续时间约为1小时,与东二环路段平均车速的分析结果相匹配。
[0172]
(2)影响程度方面
[0173]
东二环不同方向路段车流量增幅相近。活动开始阶段,大型活动对东二环的影响程度大于东三环,活动结束阶段呈现相反的规律,即东三环受活动影响车流量增幅大于东二环。整体考虑,大型活动开始阶段比大型活动结束阶段对路段的影响程度大。
[0174]
步骤3,路段平均车速影响因素分析:
[0175]
随机森林模型的建立选择因素集包括:不同道路、日期属性、时间段、星期、月份、活动性质、活动规模、天气状况、距离活动开始、结束时间和限行。
[0176]
步骤4,模型参数定量化及优化:
[0177]
(1)参数定量化
[0178]
在北京工人体育馆周边路段速度预测中需要将参数进行标准化处理,见表3,依据参数标准化处理规则及最终处理后结果,见表7。
[0179]
表7参数标准化处理对照表
[0180]
[0181][0182]
(2)模型参数优化
[0183]
在本发明中,使用r2_score评价指标进行最优评分,最终确定使用{n_estimators=10}作为本模型最佳迭代次数,{max_features=13}作为最佳特征数,{min_samples_split=2}作为最佳特征数和{max_depth=20}作为最佳迭代次数。
[0184]
步骤5,预测结果分析:
[0185]
北京工人体育场2017年至2018年期间周边路段车辆平均速度数据和短时大型活动数据(体育比赛)构建数据集,见表8,利用所建模型对东二环、新东路、工人体育场东路和工人体育场北路大型活动期间路段平均车速数据进行预测,用实际数据进行精读检验评估。
[0186]
表8测试集活动
[0187][0188]
(1)东二环平均车速预测值精度分析
[0189]
如表9所示,东二环路段平均车速预测值与真实值走势基本一致,平均精度为94.09%,预测精度较高。
[0190]
表9东二环平均速度精度
[0191]
[0192][0193]
(2)新东路平均车速预测值精度分析
[0194]
如表10所示,新东路路段平均车速预测值与真实值走势较为一致,平均精度为88.90%,活动开始阶段预测精度较低,最低为70.15%,整体预测精度在80%以上,精度较高。
[0195]
表10新东路平均速度精度
[0196]
[0197][0198]
(3)北京工人体育场北路平均车速预测值精度分析
[0199]
如表11所示,北京工人体育场北路平均车速预测值与真实值走势基本一致,平均精度为78.11%,部分时段因速度较低,真实值过小导致预测精度相对较低。
[0200]
表11工人体育场北路平均速度精度
[0201]
[0202][0203]
(4)北京工人体育场东路平均车速预测值精度分析
[0204]
如表12所示,北京工人体育场东路平均车速预测值与真实值走势基本一致,平均精度为84.67%,预测精度较高。
[0205]
表12工人体育场东路平均速度精度
[0206][0207]
通过对比分析工人体育场周边受影响的路段东二环、新东路、工人体育场北路和工人体育场东路路段平均车速预测值与真实值预测,平均精度分别为94.09%、88.90%、78.11%和86.44%,总体预测精度较高,见表13。对东二环、新东路的预测精度高于工人体育场北路和工人体育场东路。
[0208]
表13预测精度总结
[0209][0210]
本发明提供的一种短时大型活动期间路段平均车速预测系统,包括:
[0211]
获取模块,用于获取浮动车原始数据、检测器原始数据和大型活动数据。
[0212]
影响特征信息确定模块,用于对所述大型活动数据进行周边路段运行速度和断面交通量分析,确定影响特征信息;所述影响特征信息包括影响时段、影响程度和速度变化。其中,所述影响特征信息确定模块,具体包括:周边路段运行速度分析单元,用于对所述大型活动数据进行周边路段运行速度分析,确定所述影响时段中的周边路段影响时段、所述影响程度中的周边路段影响程度和所述速度变化;断面交通量分析单元,用于对所述大型活动数据进行断面交通量分析,确定所述影响时段中的断面影响时段和所述影响程度中的断面影响程度。
[0213]
影响因素确定模块,用于根据所述大型活动数据和所述影响特征信息确定影响因素。
[0214]
平均车速预测结果确定模块,用于根据所述浮动车原始数据、所述检测器原始数据和所述影响因素利用短时大型活动期间路段平均车速预测模型得到平均车速预测结果;所述短时大型活动期间路段平均车速预测模型利用随机森林算法构建的。其中,所述短时大型活动期间路段平均车速预测模型的构建过程具体包括:利用浮动车训练数据、检测器训练数据和影响因素训练集进行调参,确定随机森林模型的最佳迭代次数和最佳特征数;根据所述浮动车训练数据、所述检测器训练数据、所述影响因素训练集、所述最佳迭代次数和所述最佳特征数构建随机森林模型;根据平均绝对误差、均方差和判断系数对所述随机森林模型的参数进行优化,得到短时大型活动期间路段平均车速预测模型。
[0215]
在实际应用中,短时大型活动期间路段平均车速预测系统还包括:剔除和筛选模块,用于对所述浮动车原始数据和所述检测器原始数据进行剔除和筛选。
[0216]
本发明从时间和空间两个角度分析研究短时大型活动影响下的交通运行状态,寻找其潜在规律,通过建立随机森林模型,实现对北京工人体育场在举办活动时周边路段平均车速预测,针对在短时大型活动影响下,周边道路管制存在的不足,提出周边路网运行组织的策略与建议。本发明的优势如下:以python数据分析和数据挖掘技术为依托,对数据分析指标进行提取、剔除和筛选等预处理,提高了数据质量,降低了数据获取成本。构建基于随机森林的短时大型活动期间路段平均车速预测模型,随机森林能够处理高维数据,具有泛化能力强、训练速度快等特点。因此该方法具有预测速度快,精度高的优点。采用5min时间间隔粒度的浮动车数据能够很好的反应道路上的车辆运行状态,且具有较好的稳定性;而检测器数据的检测器编号用于匹配需要分析的路段以及方向,时刻用于确定时间间隔,交通流量数据用于分析道路路段的状态;加上包含大型活动星期、举办日期、天气、活动名称、活动类型、举办场馆、活动参与人数及开始和结束时间的相对全面、完整的大型活动数据,以数据库分析和数据挖掘技术为依托,为后续分析奠定坚实的基础。因此,通过本发明提供的方法可以对大型活动影响的周边道路进行车速预测。
[0217]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他
实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0218]
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献