一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于机器学习的城市居民出行方式选择方法

2022-06-01 02:06:45 来源:中国专利 TAG:


1.本发明涉及城市居民出行交通方式选择行为分析领域的技术领域,尤其涉及一种基于机器学习的城市居民出行方式选择方法。


背景技术:

2.随着城市化进程的迅速发展,城市交通规划的概念与方法也在不断发展延伸,其中,城市交通需求预测是城市交通规划中不可缺少的重要环节。如今的交通需求预测理论中,应用最为广泛的是四阶段交通需求预测方法,而交通方式划分作为四阶段交通需求预测方法之一,实质上是预测各种交通方式对于交通客流量的分担情况,从而预测在特定的社会经济水平下出行旅客对各种交通方式的选择与利用的情况,这是城市进行交通规划必不可少的先行步骤,也是对未来交通规划科学性、可靠性的重要保障。
3.在过往的研究中,对于交通方式选择建模往往采用以统计学为基础的统计回归模型。而相对于传统的统计回归模型,近年来,机器学习算法以其对数据的精确识别与划分能力引起了不同领域学者们的高度重视。机器学习算法是一类通过模拟人类认知学习的智能算法,计算机通过归纳等方式不断地优化内部结构,学习新知识最终建立特征与模式之间的映射关系。通过利用机器学习算法,对居民出行交通方式选择建模,能得到更为科学、准确的交通方式选择模型,可以对城市交通运输负荷进行更为真实有效的把控,同时也可以对城市未来交通运输结构的规划和建立提供更可靠的决策依据。


技术实现要素:

4.本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本技术的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
5.鉴于上述现有存在的问题,提出了本发明。
6.因此,本发明解决的技术问题是:规划年城市居民出行方式选择难以更为准确的预测,无法为未来城市交通运输结构的规划和建立提供更可靠的决策依据的问题。
7.为解决上述技术问题,本发明提供如下技术方案:
8.基于居民出行调查数据、过往研究及经验,设定机动车与非机动车的出行特征和划分阈值;
9.根据过往研究对机动车出行的影响因素,结合居民调查数据、城市poi数据及地图导航数据,提取机动车出行方式选择的所需特征;
10.采用多种数学模型对所述机动车出行方式选择进行建模,并提取最优模型;
11.根据所述最优模型对机动车出行进行选择预测,并计算得到出行中所使用的交通方式。
12.作为本发明所述的基于机器学习的城市居民出行方式选择方法的一种优选方案,其中:所述出行特征包括行程速度和行程距离。
13.作为本发明所述的基于机器学习的城市居民出行方式选择方法的一种优选方案,其中:所述划分阈值包括,
14.根据所述居民出行调查数据绘制机动车与非机动车在行程速度与出行距离上的分布曲线,并设定机动车与非机动车的行程速度阈值和出行距离阈值;
15.利用所述行程速度阈值和所述出行距离阈值依次提取非机动车的出行方式,得到较准确非机动车出行方式。
16.作为本发明所述的基于机器学习的城市居民出行方式选择方法的一种优选方案,其中:根据所述过往研究对机动车出行的影响因素,选取建模所需特征,所述建模所需特征包括出行属性特征、个人属性特征、建成环境特征以及地图导航特征。
17.作为本发明所述的基于机器学习的城市居民出行方式选择方法的一种优选方案,其中:所述多种数学模型包括多元logistics回归模型、随机森林模型和xgboost模型。
18.作为本发明所述的基于机器学习的城市居民出行方式选择方法的一种优选方案,其中:所述最优模型的提取包括,
19.对建模所需特征进行归一化处理,将进行归一化处理的特征作为模型训练的特征集x,并将居民出行调查数据中出行所使用的交通方式“小汽车”、“常规公交”、“地铁”分别用数字1、2、3来表示,作为样本标签集y,将x和y按8:2的比例构建训练集和测试集;
20.将所述训练集和所述测试集输入到多元logistics回归模型、随机森林模型和xgboost模型进行训练,并通过交叉验证来测试多元logistics回归模型、随机森林模型和xgboost模型的性能。
21.作为本发明所述的基于机器学习的城市居民出行方式选择方法的一种优选方案,其中:所述最优模型的提取还包括,
22.利用指标总体精度accuracy和f1score来描述多元logistics回归模型、随机森林模型和xgboost模型的性能,得到所述最优模型。
23.作为本发明所述的基于机器学习的城市居民出行方式选择方法的一种优选方案,其中:所述归一化包括,
24.计算出机动车出行方式选择的所需特征的最大值和最小值;
25.将所需特征的原始数据转换到[0,1]的范围,得到归一化后的原始特征数据
[0026][0027]
其中,表示归一化后的原始特征数据,xi表示原始特征数据,x
max
表示原始数据集的最大值、x
min
表示为原始数据集的最小值。
[0028]
作为本发明所述的基于机器学习的城市居民出行方式选择方法的一种优选方案,其中:所述总体精度accuracy和f1score包括,
[0029]
[0030][0031][0032][0033][0034]
其中,label
predic
表示标签的预测值,label
true
表示标签的真实值,score表示真实值是否被正确预测,d
test
表示测试集,表示测试集样本数,accuracy表示准确率,tp表示预测结果为某类标签中预测正确的样本数,fp表示预测结果为某类标签中预测错误的样本数,fn表示预测结果为非某类标签预测错误的样本数,tn表示预测结果为非某类标签预测正确的样本数,precision表示查准率,recall表示查全率,f1score表示f1分数。
[0035]
作为本发明所述的基于机器学习的城市居民出行方式选择方法的一种优选方案,其中:机动车出行预测包括,
[0036]
根据所述历史居民调查数据,训练得到所述最优模型;
[0037]
将提取机动车出行方式选择的所需特征值输入到所述最优模型,计算得到规划年城市居民出行中所使用的机动车出行方式。
[0038]
本发明的有益效果:本发明通过利用机器学习算法,对居民出行交通方式选择建模,能得到更为科学、准确的交通方式选择模型,可以对城市交通运输负荷进行更为真实有效的把控,同时也可以对城市未来交通运输结构的规划和建立提供更可靠的决策依据。
附图说明
[0039]
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
[0040]
图1为本发明一个实施例提供的一种基于机器学习的城市居民出行方式选择方法的基本流程示意图;
[0041]
图2为本发明一个实施例提供的一种基于机器学习的城市居民出行方式选择方法的机动车出行方式选择方法构建所需特征集;
[0042]
图3为本发明一个实施例提供的一种基于机器学习的城市居民出行方式选择方法的机动车与非机动车行程速度分布曲线图;
[0043]
图4为本发明一个实施例提供的一种基于机器学习的城市居民出行方式选择方法的机动车与非机动车出行距离分布曲线图。
具体实施方式
[0044]
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
[0045]
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
[0046]
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
[0047]
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
[0048]
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
[0049]
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
[0050]
实施例1
[0051]
参照图1,为本发明的一个实施例,提供了一种基于机器学习的城市居民出行方式选择方法,包括:
[0052]
s1:基于居民出行调查数据、过往研究及经验,设定机动车与非机动车的出行特征和划分阈值。需要说明的是:
[0053]
出行特征包括行程速度和行程距离;
[0054]
划分阈值包括,
[0055]
根据居民出行调查数据绘制机动车与非机动车在行程速度与出行距离上的分布曲线,并设定机动车与非机动车的行程速度阈值和出行距离阈值;
[0056]
利用行程速度阈值进行第一次非机动车出行方式提取,再根据出行距离阈值进行第二次非机动车的出行方式提取,得到较准确非机动车出行方式。
[0057]
s2:根据过往研究对机动车出行的影响因素,结合居民调查数据、城市poi数据及地图导航数据,提取机动车出行方式选择的所需特征。需要说明的是:
[0058]
根据过往研究对机动车出行的影响因素,选取建模所需特征,建模所需特征包括出行属性特征、个人属性特征、建成环境特征以及地图导航特征,如图2所示;
[0059]
利用居民调查数据,获取出行属性特征和个人属性特征;
[0060]
利用城市poi数据,获取建成环境特征;
[0061]
利用地图软件驾车及公交路径规划api调用,输入出发点坐标、目的地坐标、出发时间以及返回结果控制等参数,调用地图软件以http形式提供的行驶方案、行驶距离以及行程时间等数据的计算接口,返回查询数据,获取地图导航特征。
[0062]
s3:采用多种数学模型对机动车出行方式选择进行建模,并提取最优模型。需要说明的是:
[0063]
多种数学模型包括多元logistics回归模型、随机森林模型和xgboost模型,
[0064]
最优模型的提取包括,
[0065]
对建模所需特征进行归一化处理,将进行归一化处理的特征作为模型训练的特征集x,并将居民出行调查数据中出行所使用的交通方式“小汽车”、“常规公交”、“地铁”分别用数字1、2、3来表示,作为样本标签集y,将x和y按8:2的比例构建训练集和测试集;
[0066]
将训练集和测试集输入到多元logistics回归模型、随机森林模型和xgboost模型进行训练,并通过交叉验证来测试多元logistics回归模型、随机森林模型和xgboost模型的性能;
[0067]
其中,对于随机森林模型和xgboost模型还需对参数进行调整,调整方法具体如下:
[0068]
1)随机森林模型参数调整方法
[0069]
对于随机森林模型,重要的调整参数为n_estimators,max_depth,min_samples_leaf及min_samples_split,调整步骤如下:
[0070]

对n_estimators参数进行调整,默认取值为100,采用单变量调整的方式进行即可,该参数表示树的颗数,取值范围为[0,∞];
[0071]

对max_depth参数进行调整,默认取值为6,采用单变量调整的方式进行即可,该参数表示树的最大深度,取值范围为[0,∞];
[0072]

对min_samples_leaf参数进行调整,默认取值为1,采用单变量调整的方式进行即可,该参数表示分隔后叶子结点上最少的样本数,取值范围为[1,∞];
[0073]

对min_samples_split参数进行调整,默认取值为2,采用单变量调整的方式进行即可,该参数分隔的最小样本数,节点的样本数小于此数将不在进行分隔,取值范围为[2,∞];
[0074]
2)xgboost模型参数调整方法
[0075]
对于xgboost模型,重要的调整参数为n_estimators,max_depth,minchildweight,gamma及learning_rate,调整步骤如下:
[0076]

对n_estimators参数进行调整,默认取值为500,采用单变量调整的方式进行即可,该参数表示树的颗数,取值范围为[0,∞];
[0077]

对max_depth,minchildweight参数进行组合调整,采用网格化的搜索办法进行参数调整。其中max_depth表示树的最大深度,值越大,越容易过拟合,默认取值为6,取值范围为[0,∞],minchildweight决定最小叶子节点样本权重和,加权和低于这个值时,就不再分裂产生新的叶子节点,当它的值较大时,可以避免模型学习到局部的特殊样本。但如果这个值过高,会导致欠拟合,默认取值为1,取值范围为[0,∞];
[0078]

对gamma参数进行调整,默认取值为0,取值范围为[0,∞],采用单变量调整的方
式进行即可,该参数表示在节点分裂时,只有在分裂后损失函数的值下降了,达到gamma指定的阈值,才会分裂这个节点,gamma值越大,算法越保守;
[0079]

对learning_rate参数进行调整,默认取值为0.3,取值范围为[0,1],采用单变量调整的方式进行即可。该参数表示更新过程中用到的收缩步长,在每次提升计算之后,算法会直接获得新特征的权重,且可通过缩减特征的权重使提升计算过程更加保守;
[0080]
最优模型的提取还包括,
[0081]
利用指标总体精度accuracy和f1score来描述多元logistics回归模型、随机森林模型和xgboost模型的性能,得到最优模型。
[0082]
归一化包括,
[0083]
计算出机动车出行方式选择的所需特征的最大值和最小值;
[0084]
将所需特征的原始数据转换到[0,1]的范围,得到归一化后的原始特征数据
[0085][0086]
其中,表示归一化后的原始特征数据,xi表示原始特征数据,x
max
表示原始数据集的最大值、x
min
表示为原始数据集的最小值。
[0087]
总体精度accuracy和f1score包括,
[0088][0089][0090][0091][0092][0093]
其中,label
predic
表示标签的预测值,label
true
表示标签的真实值,score表示真实值是否被正确预测,被用于计算accuracy,d
test
表示测试集,表示测试集样本数,accuracy表示准确率,tp表示预测结果为某类标签中预测正确的样本数,fp表示预测结果为某类标签中预测错误的样本数,fn表示预测结果为非某类标签预测错误的样本数,tn表示预测结果为非某类标签预测正确的样本数,precision表示查准率,是在所有被预测为正的样本中实际为正的概率,recall表示查全率,是实际为正的样本中被预测为正样本的概率,f1score表示f1分数,为查准率和查全率的调和平均数,既考虑了查准率也考虑了查全率,用来综合评价分类结果的好坏。
[0094]
s4:根据最优模型对机动车出行进行选择预测,并计算得到出行中所使用的交通
方式。需要说明的是:
[0095]
机动车出行预测包括,
[0096]
根据历史居民调查数据,训练得到最优模型;
[0097]
将提取机动车出行方式选择的所需特征值输入到最优模型,计算得到规划年城市居民出行中所使用的机动车出行方式。
[0098]
本发明通过利用机器学习算法,对居民出行交通方式选择建模,能得到更为科学、准确的交通方式选择模型,可以对城市交通运输负荷进行更为真实有效的把控,同时也可以对城市未来交通运输结构的规划和建立提供更可靠的决策依据。
[0099]
实施例2
[0100]
参照图2至图4,为本发明的第二个实施例,该实施例不同于第一个实施例的是,提供了一种基于机器学习的城市居民出行方式选择方法的验证测试,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
[0101]
在本实施例中,选取的研究数据为上海市2019年居民出行调查数据,2019年城市poi数据及地图路径规划导航数据。
[0102]
首先基于居民出行调查数据,综合考虑过往研究及经验,绘制机动车与非机动车在行程速度与出行距离上的分布曲线,如附图3、附图4所示。设定机动车与非机动车的在行程速度与出行距离上的划分阈值。
[0103]
根据机动车与非机动车行程速度及出行距离分布曲线,结合实际经验,选取15km/h为机动车与非机动车在行程速度上的划分阈值,选取3km为机动车与非机动车在出行距离上的划分阈值,以此过滤出绝大部分的非机动车出行。
[0104]
对于机动车方式划分,首先融合居民出行调查数据,城市poi数据及地图导航数据提取出建模所需要的机动车出行方式选择相关影响特征,包括出行属性特征、个人属性特征、建成环境特征及地图导航特征4大类特征,总体样本量为43426次出行,详细特征详见附图2。
[0105]
将获取到的特征值归一化处理后,进行8:2的比例划分为训练集与测试集。同时将训练集作为模型训练输入,采用多元logistics回归模型、随机森林模型及xgboost模型对机动车出行方式选择进行建模。
[0106]
对于随机森林模型及xgboost模型需要进行模型参数调整,在经过训练调整后,模型参数取值如表1所示。
[0107]
表1机器学习模型参数取值。
[0108][0109]
模型建立后,用指标总体精度accuracy和f1score来描述模型的性能,以得到性能
最优的模型,多元logistics回归模型、随机森林模型及xgboost模型的性能评价指标如表2所示,可以发现随机森林模型及xgboost模型在两个评价指标上的值均高于多元logistics回归模型,表明机器学习算法在交通方式选择上的识别性能要好于传统的回归算法。
[0110]
表2多元logistics回归模型、随机森林模型及xgboost模型训练结构
[0111][0112]
根据表2可以得到最优模型为xgboost模型,总体识别准确率在82%,值得注意的是小汽车的f1分值高达0.9,而常规公交和地铁均在0.7左右,这也表明xgboost模型能较为准确的识别出小汽车、常规公交及地铁三类出行方式。
[0113]
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献