一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于动态定价机制的乘客出行意图挖掘方法

2022-12-31 14:55:05 来源:中国专利 TAG:


1.本发明属于智能出行服务技术领域,具体涉及一种基于动态定价机制的乘客出行意图挖掘方法。


背景技术:

2.近年来,智能移动出行服务变得越来越普及。在许多方面,智能移动出行服务与传统出租车服务是相似的,但数据驱动和动态定价机制这两个新的特点将其与传统出租车服务加以区别。
3.智能移动出行服务中,动态定价机制(及其具体体现,即动态价格系数)是该服务的主要特点,且动态定价机制准确、实时地反映了路面供需状况的变化,对于推测乘客出行意图有一定的帮助。
4.乘客出行意图挖掘,即根据乘客的出行记录(如上车/下车的时间和地点)推测乘客的出行目的(如通勤上班、通勤回家、购物、娱乐等)。在传统出租车服务中,已有多种乘客出行意图挖掘算法,如根据gps轨迹数据或其他多源城市数据,采用概率模型或机器学习模型推测乘客出行意图,根据调查、问卷或人口信息,提取特定用户群体的出行偏好并推测该用户群体内部分用户的出行意图等等;但是已有的乘客出行意图挖掘方法,部分是针对特定用户群体对乘客出行意图进行推测,其他则仅关注了传统出租车服务中的乘客出行意图挖掘问题,而且这些方法均没有引入动态定价机制作为考虑因素。


技术实现要素:

5.本发明的主要目的在于克服现有技术的缺点与不足,提出一种基于动态定价机制的乘客出行意图挖掘方法,方法针对任意乘客,适用于智能移动出行服务,考虑了动态定价机制,且具有更高的预测准确率。
6.为了达到上述目的,本发明采用以下技术方案:
7.一种基于动态定价机制的乘客出行意图挖掘方法,包括以下步骤:
8.城市网格划分,将城市划分为相同大小的若干网格;
9.获取多源城市数据,获取乘客出行订单记录数据、动态价格系数、poi数据以及公共交通分布数据;
10.特征提取和上下文扩展,基于多源城市数据,进行特征提取,构成特征量,对特征量进行扩展,以使其能表述关于乘客出行意图的上下文信息;
11.乘客出行意图挖掘,使用线性模型进行乘客出行意图挖掘。
12.进一步的,乘客出行订单记录数据包括乘客上下车的时间地点;
13.动态价格系数具体为,每个网格内每小时所有订单的平均动态价格系数;动态价格系数可通过群智感知的方法,鼓励司机上传接载订单的动态价格系数;
14.动态价格系数还可通过在城市的不同地区部署多个模拟终端的方法,收集得到;
15.poi数据具体为,乘客上下车地点方圆n内的poi向量;poi数据从在线地图上通过
网络爬虫获得;在线地图服务将poi分为若干类别,给定一个地点,该地点方圆n内的不同类别的poi数量,是对该地点的地理特征的一个综合描述,该地点方圆n内的不同类别的poi数量构成poi向量;其中,n根据实际实施情况和数据决定;
16.公共交通分布数据具体为,乘客上下车地点方圆n内的公共交通分布向量;公共交通分布数据从在线地图上通过网络爬虫获得;
17.采用a={a1,a2,...,a9}表示乘客出行意图,其中a1至a9分别表示娱乐、户外、购物、用餐、教育、交通、通勤回家、生活健康以及通勤上班这9类出行意图;
18.采用po=(lngo,lato,to)表示乘客上车时的经度、纬度以及时间,采用pd=(lngd,latd,td)表示乘客下车时的经度、纬度以及时间;
19.采用poio表示上车地点方圆n内不同类别的poi数量组成的向量,采用poid表示下车地点方圆n内的不同类比的poi数量组成的向量;
20.采用bmo表示上车地点方圆n内的公共交通的站点数量、线路数量组成的向量,采用bmd表示下车地点方圆n内的公共交通的站点数量、线路数量组成的向量。
21.进一步的,所述基于动态定价机制的乘客出行意图挖掘方法,基于获取的乘客出行订单记录的上下车的时间地点、动态价格系数、上下车地点方圆n内的poi向量以及上下车地点方圆n内的公共交通分布向量,给定一个输入特征向量预测概率即对于任意乘客订单,给定对应的输入特征向量预测该订单的乘客出行意图y是任意一个可能的出行意图的概率;
22.基于得到的概率,最大的概率所对应的那个出行意图,即任意乘客订单所对应的乘客出行意图。
23.进一步的,上下文扩展具体为:
24.基于多源城市数据,进行特征提取,构成特征量,对特征量进行扩展以使其能表述关于乘客出行意图的上下文信息,包括基本订单信息、空间上下文、时间上下文、动态价格上下文这四种上下文信息;
25.基本订单信息,包括以下特征量:
26.订单持续时间t
od
:从乘客上车至下车所经历的时间,用td和to分别表示下车、上车时间,则t
od
=t
d-to;
27.订单距离d
od
:从乘客上车至下车所经历的距离。
28.进一步的,空间上下文,空间上下文信息描述了与乘客上车、下车地点相关的信息,包括以下特征量:
29.上下车地点方圆n内的公共交通分布向量bmo、bmd;
30.上下车地点方圆n内的poi向量poio、poid;
31.上下车地点方圆n内的poi独特性向量uniqo和uniqd:对于第i类poi,用ni表示这一类poi在全城的总数,用n表示所有poi在全城的总数,用poi
oi
和poi
di
分别表示poio和poid的第i个分量,用uniq
oi
和uniq
di
分别表示uniqo和uniqd的第i个分量,则:
32.[0033][0034]
上下车地点方圆n内的poi距离向量disto和distd:用poi距离向量来表示每一类poi距离上车或下车地点的最近距离,对于第i类poi,用dmin
oi
或dmin
di
表示所有属于这一类的poi距离上车或下车地点的最近距离,用dist
oi
和dist
di
表示disto和dist_d的第i个分量,则:
[0035][0036][0037]
进一步的,时间上下文,时间上下文信息描述了与乘客上车、下车时间相关的信息,包括以下特征量:
[0038]
上车时间属于一周的第几天dwo:该特征量描述的是乘客乘车当天为星期几,dwo具体为一个七维向量,其中只有一个维度是1,另外六个维度为0,dwo=[1,0,0,0,0,0,0]表示周一;
[0039]
上车和下车时间所对应的时间段tso和tsd:将一天划分为4个等长的时间段,第1至第4时间段分别为[4am,10am),[10am,4pm),[4pm,10pm)和[10pm,4am);tso和tsd为一个四维向量,其中只有一个维度是1,另外三个维度均为0,tso=[0,1,0,0]表示上车时间位于第2个时间段,即[10am,4pm)。
[0040]
进一步的,动态价格上下文,包括以下特征量:
[0041]
上车地点方圆n内的平均动态价格系数向量dpo:用dp
o,-1
,dp
o,0
,dp
o, 1
分别表示上车地点所处网格在上车前一小时、上车时、上车后一小时的平均动态价格系数,并将其排列成向量dpo=(dp
o,-1
,dp
o,0
,dp
o, 1
);
[0042]
下车地点方圆n内的平均动态价格系数向量dpd:用dp
d,-1
,dp
d,0
,dp
d, 1
分别表示下车地点所在网格在下车前一小时、下车时、下车后一小时的平均动态价格系数,并将其排列成向量dpd=(dp
d,-1
,dp
d,0
,dp
d, 1
)。
[0043]
进一步的,乘客出行意图挖掘具体包括:构造输入特征向量、特征量交织以及构造线性模型;
[0044]
构造输入特征向量具体为:
[0045]
基于获得的四种上下文信息及相应特征量,首先对这些特征量进行归一化;在归一化中,计算每个特征量的z-score:
[0046]
对于某个特征量xi,计算其均值和标准差σi,则xi对应的z-score为并使用x
zi
作为xi的归一化值;
[0047]
将每个特征量均进行归一化后,将所有的特征量组成输入特征向量即:
[0048]
进一步的,使用线性模型进行乘客出行意图挖掘,采用特征量交织的方法对特征量进行扩展,以描述特征量间的非线性关系;特征量交织具体为:
[0049]
将任意特征量xa和xb相乘,并以xc=xaxb作为新的特征量加入线性模型;相乘过程分为以下两种情况:
[0050]
两个特征量之中至少一个是标量,假设xa是标量,则xc=xaxb,且xc的维度和xb一样;
[0051]
两个特征量均为向量,假设xa和xb的维度分别为da和db,且,且则的维度是dc=dadb,且
[0052]
在进行特征量交织时,既可将任意两个特征量进行交织,也可将三个或多个特征量进行交织,构成高维度的复合特征量;
[0053]
对获得的四种上下文信息及相应特征量进行特征量交织,获得新的输入特征向量记为
[0054]
进一步的,构造线性模型具体为:
[0055]
构造一个逻辑回归模型,基于输入特征向量对每一种可能的乘客出行意图,求解二分类问题;
[0056]
在逻辑回归模型中,输入特征向量先经过一个线性模型,该线性模型的输出再经过一个sigmoid激活函数,最后生成一个概率作为输出,即为乘客出行意图是某种特定的目的的概率;
[0057]
定义一个超参数分类阈值p
th
,模型基于p
th
和确定乘客出行意图是否为某种特定的目的;用表示二分类器的输出,令表示乘客出行意图是该种特定的目的,表示乘客出行意图不是该种特定的目的,则有:
[0058][0059]
在逻辑回归模型中,损失函数使用二分类交叉熵,即损失函数l关于ω的关系为:
[0060][0061]
其中,ω是线性模型的系数向量,λ为l2正则化参数,是sigmoid激活函数的输出;p表示真值,在训练逻辑回归模型时,如果乘客出行意图是该种特定的目的,则p=1,反之则p=0。
[0062]
本发明与现有技术相比,具有如下优点和有益效果:
[0063]
1、本发明方法考虑了动态定价机制及其动态价格系数对乘客出行意图挖掘的影
响,在实现乘客出行意图挖掘时,首先将该问题视为多分类问题,然后将其转化为多个二分类问题,即判断某次乘客出行是否属于某个特定的乘客出行意图,在求解二分类问题时,采用特征量交织以及线性模型,一方面保证了乘客出行意图挖掘的准确率,一方面可以量化动态定价机制对不同的乘客出行意图的挖掘准确率的影响;本发明由于采用了特征量交织的线性的逻辑回归模型,准确率高,准确率能达到多层神经网络的水平。
附图说明
[0064]
图1是本发明实施例的方法示意图;
[0065]
图2是本发明的应用场景示意图。
具体实施方式
[0066]
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
[0067]
实施例
[0068]
如图1和图2所示,本发明,一种基于动态定价机制的乘客出行意图挖掘方法,包括:
[0069]
城市网格划分,将城市划分为相同大小的若干网格;
[0070]
获取多源城市数据,获取乘客出行订单数据、动态价格系数、poi数据以及公共交通分布数据;
[0071]
特征提取和上下文扩展,基于多源城市数据,进行特征提取,构成特征量,对特征量进行扩展,以使其能表述关于乘客出行意图的上下文信息;
[0072]
乘客出行意图挖掘,该步骤使用数据挖掘模型解决乘客出行意图挖掘问题。乘客出行意图挖掘问题是一个多分类问题,本发明将其转化为多个二分类问题(即,一个乘客订单“是否”属于某一个出行目的)进行求解,在分类过程中,选用线性模型。
[0073]
在本实施例中,乘客出行订单数据具体为乘客上下车的时间地点;
[0074]
动态价格系数具体为,每个网格内每小时所有订单的平均动态价格系数;动态价格系数的获取方法有多种,例如动态价格系数可通过群智感知的方法,鼓励司机上传接载订单的动态价格系数;动态价格系数还可通过在城市的不同地区部署多个模拟终端的方法,收集得到;
[0075]
poi(即兴趣点,point-of-interest)数据具体为,乘客上下车地点附近的poi向量;poi数据从在线地图上通过网络爬虫获得;在线地图服务将poi分为若干类别(例如,餐厅、购物、体育和娱乐设施、医院、酒店、景点、住宅区等),给定一个地点,该地点附近的不同类别的poi数量,是对该地点的地理特征的一个综合描述,该地点附近的不同类别的poi数量构成poi向量;
[0076]
在本实施例中,“附近”理解为方圆n内,n表示方圆范围的具体值,n根据具体实施情况和数据决定,n的单位为米,如n取500,即某地点方圆500米内。
[0077]
公共交通分布数据具体为,乘客上下车地点附近的公共交通分布向量;公共交通分布数据从在线地图上通过网络爬虫获得。
[0078]
在本实施例中,对乘客出行意图挖掘问题的定义包括:
[0079]
采用a={a1,a2,...,a9}表示乘客出行意图,其中a1至a9分别表示娱乐、户外、购物、用餐、教育、交通、通勤回家、生活健康以及通勤上班这9类出行意图;
[0080]
采用po=(lngo,lato,to)表示乘客上车的经度、纬度以及时间,采用pd=(lngd,latd,td)表示乘客下车的经度、纬度以及时间;
[0081]
采用poio表示上车地点附近(如500m范围内)的不同类别的poi数量组成的向量,采用poid表示下车地点附近的不同类比的poi数量组成的向量;
[0082]
采用bmo表示上车地点附近的公共交通(如公交、地铁)的站点数量、线路数量组成的向量,采用bmd表示下车地点附近的公共交通的站点数量、线路数量组成的向量。
[0083]
基于动态定价机制的乘客出行意图挖掘方法,可以简单地概括为一个分类问题:基于获取的乘客出行记录的上下车的时间地点、动态价格系数、上下车地点附近的poi向量以及上下车地点附近的公共交通分布向量,给定一个输入特征向量预测概率即对于任意乘客订单,给定对应的输入特征向量预测该订单的乘客出行意图y是任意一个可能的出行意图的概率;
[0084]
基于得到的概率,最大的概率所对应的那个出行意图,即任意乘客订单所对应的乘客出行意图。
[0085]
在本实施例中,为了实现对任意乘客都可以进行乘客出行意图挖掘的目的,本发明不依赖人口信息、调查、问卷等针对特定人群的数据集,而是选取多源城市数据,从多个不同的角度对订单的时空特征进行描述。如下表1所示,为本实施例中使用的多源城市数据信息,在实际实施中,也可以选用其他形式、来源的多源城市数据。
[0086][0087][0088]
表1
[0089]
在本实施例中,上下文扩展具体为:
[0090]
基于多源城市数据,进行特征提取,构成特征量,用这些特征量来刻画乘客出行订单,并使用这些特征量作为乘客出行意图挖掘方法的输入,特征量分为两类,一类是直接特征量,即可以直接从多源城市数据中获取的,另一类则为间接特征量,需要在直接特征量的基础上进行一些计算才能获取。
[0091]
对特征量进行扩展以使其能表述关于乘客出行意图的上下文信息,包括基本订单信息、空间上下文、时间上下文、动态价格上下文这四种上下文信息;
[0092]
基本订单信息,包括以下特征量:
[0093]
订单持续时间t
od
:从乘客上车至下车所经历的时间,用td和to分别表示下车、上车时间,则t
od
=t
d-to。
[0094]
订单距离d
od
:从乘客上车至下车所经历的距离。
[0095]
在本实施例中,空间上下文,空间上下文信息描述了与乘客上车、下车地点相关的信息,包括以下特征量:
[0096]
上下车地点附近的公共交通分布向量bmo、bmd;这两个向量均为直接特征量。
[0097]
上下车地点附近的poi向量poio、poid;这两个向量均为直接特征量。
[0098]
上下车地点附近的poi独特性向量uniqo和uniqd:poi向量poio和poid只统计了不同类型poi的数量,却无法考虑不同类别的poi的独特性。例如,某地点周围的餐厅的poi数量较多,但是餐厅这类poi是城市中非常普遍的;反之,如果该地点周围有一个体育场馆类型的poi,因为该类别在城市中比较罕见,所以这个体育场馆类型的poi更重要。对于第i类poi,用ni表示这一类poi在全城的总数,用n表示所有poi在全城的总数,用poi
oi
和poi
di
分别表示poio和poid的第i个分量,用uniq
oi
和uniq
di
分别表示uniqo和uniqd的第i个分量,则:
[0099][0100][0101]
上下车地点附近的poi距离向量disto和distd:对于乘客来说,通常距离上车或下车地点最近的poi可能是更重要的。考虑到这一点,用poi距离向量来表示每一类poi距离上车或下车地点的最近距离,对于第i类poi,用dmin
oi
(或dmin
di
)表示所有属于这一类的poi距离上车或下车地点的最近距离,用dist
oi
和dist
di
表示disto和dist_d的第i个分量,则:
[0102][0103][0104]
在本实施例中,时间上下文,时间上下文信息描述了与乘客上车、下车时间相关的信息,包括以下特征量:
[0105]
上车时间属于一周的第几天dwo:该特征量描述的是乘客乘车当天为星期几,使用该特征量的原因是,乘客出行意图往往和出行的是哪一天有关的dwo具体为一个七维向量,其中只有一个维度是1,另外六个维度为0,如dwo=[1,0,0,0,0,0,0]表示周一;
[0106]
上车和下车时间所对应的时间段tso和tsd:一天的不同时间段通常对应着不同的出行习惯和目的。将一天划分为4个等长的时间段,第1至第4时间段分别为[4am,10am),[10am,4pm),[4pm,10pm)和[10pm,4am);tso和tsd为一个四维向量,其中只有一个维度是1,另外三个维度均为0,如tso=[0,1,0,0]表示上车时间位于第2个时间段,即[10am,4pm)。
[0107]
在本实施例中,动态价格上下文,包括以下特征量:
[0108]
上车地点附近的平均动态价格系数向量dpo:用dp
o,-1
,dp
o,0
,dp
o, 1
分别表示上车地点所处网格在上车前一小时、上车时、上车后一小时的平均动态价格系数,并将其排列成向量dpo=(dp
o,-1
,dp
o,0
,dp
o, 1
);
[0109]
下车地点附近的平均动态价格系数向量dpd:用dp
d,-1
,dp
d,0
,dp
d, 1
分别表示下车地点所在网格在下车前一小时、下车时、下车后一小时的平均动态价格系数,并将其排列成向量dpd=(dp
d,-1
,dp
d,0
,dp
d, 1
)。
[0110]
在本实施例中,乘客出行意图挖掘具体包括:构造输入特征向量、特征量交织以及构造线性模型;
[0111]
构造输入特征向量具体为:
[0112]
基于获得的四种上下文信息及相应特征量,首先对这些特征量进行归一化;在归一化中,计算每个特征量的z-score:
[0113]
对于某个特征量xi,计算其均值和标准差σi,则xi对应的z-score为并使用x
zi
作为xi的归一化值;
[0114]
将每个特征量均进行归一化后,将所有的特征量组成输入特征向量即:
[0115]
在本实施例中,使用线性模型进行乘客出行意图挖掘,采用特征量交织的方法对特征量进行扩展,以描述特征量间的非线性关系;特征量交织具体为:
[0116]
将任意特征量xa和xb相乘,并以xc=xaxb作为新的特征量加入线性模型;相乘过程分为以下两种情况:
[0117]
第一种,两个特征量之中至少一个是标量,假设xa是标量,则xc=xaxb,且xc的维度和xb一样;
[0118]
第二种,两个特征量均为向量,假设xa和xb的维度分别为da和db,且则的维度是dc=dadb,且
[0119]
在进行特征量交织时,既可将任意两个特征量进行交织,也可将三个或多个特征量进行交织,构成高维度的复合特征量;
[0120]
对获得的四种上下文信息及相应特征量进行特征量交织,获得新的输入特征向量记为
[0121]
在本实施例中,构造线性模型具体为:
[0122]
构造一个逻辑回归模型,基于输入特征向量对每一个可能的乘客出行意图,求解二分类问题。
[0123]
在逻辑回归模型中,输入特征向量先经过一个线性模型,该线性模型的输出再经过一个sigmoid激活函数,最后生成一个概率作为输出,即为乘客出行意图是某种特定的目的的概率;
[0124]
定义一个超参数分类阈值p
th
,模型基于p
th
和确定乘客出行意图是否为某种特定的目的;用表示二分类器的输出,令表示乘客出行意图是该种特定的目的,表示乘客出行意图不是该种特定的目的,则有:
[0125][0126]
在逻辑回归模型中,损失函数使用二分类交叉熵,即损失函数l关于ω的关系为:
[0127][0128]
其中,ω是线性模型的系数向量,λ为l2正则化参数,是sigmoid激活函数的输出;p表示真值,在训练逻辑回归模型时,如果乘客出行意图是该种特定的目的,则p=1,反之则p=0。
[0129]
还需要说明的是,在本说明书中,诸如术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0130]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献