一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于最小可觉差乘客偏好排序的诱导路径推荐方法

2022-11-28 14:15:24 来源:中国专利 TAG:


1.本发明涉及城市轨道交通客流管理技术领域,尤其涉及一种基于最小可觉差乘客偏好排序的诱导路径推荐方法。


背景技术:

2.随着人们出行活动的增加以及交通需求量的迅速上升,轨道交通快速发展,路网规模日渐增大,客流拥挤日益增加。为缓解客流拥堵,除了客流控制手段之外,客流诱导成为新的方式和手段。然而,现有研究在轨道交通领域的客流诱导路径推荐效果欠佳,缺少对乘客实施个性化的精准诱导,在乘客出行路径生成方面,大多仅考虑乘客群体特征,对所有乘客采用同一套模型参数,未考虑乘客个体偏好。
3.因此,基于乘客偏好分析进行诱导路径推荐,生成个性化诱导信息发布策略显得至关重要。


技术实现要素:

4.本发明的实施例提供了一种基于最小可觉差乘客偏好排序的诱导路径推荐方法,不仅提出了基于最小可觉差乘客偏好分析的个性化诱导路径推荐方法,而且为提高轨道交通乘客信息服务与运营管理水平提供理论与技术参考。
5.为了实现上述目的,本发明采取了如下技术方案:
6.一种基于最小可觉差乘客偏好排序的诱导路径推荐方法,包括:
7.获取乘客出行信息,对乘客出行过程进行分析,构建包括直接属性和间接属性的乘客画像标签体系;
8.基于所述乘客画像标签体系从起点到终点od层面和时段层面两个维度细化乘客出行信息,并采用谱聚类方法提取乘客出行偏好;
9.结合乘客出行的偏好度排序,构建基于jnd的字典序偏好路径选择模型,得到满足乘客偏好的路径,并推荐给乘客。
10.优选地,所述的获取乘客出行信息,对乘客出行过程进行分析,构建包括直接属性和间接属性的乘客画像标签体系,包括:
11.采用区间属性和路径属性定义路网,所述区间属性包括区间运行时间和区间拥挤情况,所述路径属性包括:路径旅行时间、路径等待时间、路径换乘次数以及路径拥挤程度;
12.设置定义乘客出行过程的六元组的数学模型公式为:
13.xm=(id,t
in
,t
out
,sto,std,r,tp)
14.式中m——某乘客,id——乘客id,用于标识乘客;t
in
——进站时间;t
out
——出站时间;sto——起始车站;std——终点车站;r——该乘客的出行路径为该od的第r条可行路径;tp——出行时段;
15.所述的乘客画像标签体系包括:直接属性和间接属性。
16.所述直接属性主要包括卡类型、出行次数、出行od分布、出行时间分布和出行路径
分布,所述间接属性包括平均换乘次数、平均出行时间、出行路径平均拥挤度、平均等待时间和标签偏好度分布。
17.优选地,所述的基于所述乘客画像标签体系从od层面和时段层面两个维度细化乘客出行信息,并采用谱聚类方法识别并提取乘客出行偏好,包括:
18.将所有乘客的出行记录集合x按照od进行划分,筛选出以某od为出行od的乘客出行数据x
o,d
,实现空间维度的划分,x
o,d
计算公式如下所示:
19.x
o,d
={xm|sto=o,std=d}
20.将x
o,d
按出行时段进行划分,得到时段τ的子集x
o,d,τ
,实现时间维度的划分,x
o,d,τ
计算公式如下所示:
21.x
o,d,τ
={xm|sto=o,std=d,tp=τ}
22.将x
o,d,τ
按照乘客进行划分,得到不同乘客在不同od不同时段下的子集计算公式如下所示:
[0023][0024][0025]
筛选出出行次数大于3次的乘客,计算不同od不同时段下每个乘客的间接属性,得到乘客在(o,d)的时段τ下的出行个体特征属性组成不同od不同时段的乘客出行个体特征属性集合u
o,d,τ
,对u
o,d,τ
进行谱聚类,根据轮廓系数和ch分数确定最优聚类簇c,计算公式如下所示:
[0026]
c={c1,c2,...,ck}
[0027]
根据每类乘客的聚类中心ck,确定每类的乘客偏好,公式如下所示:
[0028][0029]
式中,qk为聚类中心ck所体现的乘客偏好。乘客c的乘客偏好qc即为其所属类别的聚类中心所呈现出的乘客偏好。
[0030]
优选地,所述的结合乘客出行的偏好度排序,构建基于jnd的字典序偏好路径选择模型,得到满足乘客偏好的路径,并推荐给乘客,包括:
[0031]
设定乘客对于路径的不同属性的感知存在jnd阈值,当多个路径的出行时间差值小于jnd阈值,则认为该多个路径在出行时间上没有差别;当多个路径的出行时间差值大于jnd阈值,则认为该多个路径在出行时间上存在差异;
[0032]
令为乘客偏好属性qi的可感知的刺激量变化比率,即如果两条路径的属性qi的差异比率小于则这两条路径在该属性上的差异没有被感知到,那么这两条路径在该属性上被认为是没有差异的,计算公式如下:
[0033][0034]
式中,是属性qi的最佳值,的最佳值,为百分比形式。上式即为,乘客对于属性qi的可感知变化比率为路径和路径中该属性的较优值为
当乘客在对比这两条路径时,若两条路径之间的差值在的范围内时,乘客会认为这两条路径在属性qi上的表现是一样的,选择任意一条路径都可;
[0035]
基于jnd的字典序偏好模型的模型假设:
[0036]
设已知乘客c在某od对(o,d)的字典序偏好集合为qc,od在时刻ω的路径属性集
[0037]
假设乘客对于属性变化的感知服从韦伯定律,存在jnd阈值,假设乘客对于属性变化的可感知变化比率集为β,计算公式如下所示:
[0038][0039]
式中——偏好属性qi的可感知变化比率;
[0040]
——出行时间属性的可感知变化比率;
[0041]
——换乘次数属性的可感知变化比率;
[0042]
——等待时间属性的可感知变化比率;
[0043]
——路径拥挤度属性的可感知变化比率。
[0044]
对β集进行随机连续化,采用ddpg算法对参数进行自动探索;
[0045]
根据乘客出行偏好得到乘客偏好度排序,根据乘客偏好度排序构建基于jnd的字典序偏好路径选择模型,所述基于jnd的字典序偏好模型的计算流程如下:
[0046]
step1:输入乘客的有序偏好集、感知变化率、od的路径集矩阵,初始化推荐路径集和临时路径集,按照偏好顺序,依次比较可行路径集中的属性值,即按照行顺序,从上到下遍历od的路径集矩阵;
[0047]
step2:将按照从小到大进行排序,并计算乘客可感知差异上限若临时路径集不为空,则将中大于上限的路径取出,从大到小依次存入推荐路径集中;否则,跳转至step 4;
[0048]
step3:遍历完od的路径集矩阵后,若为空,则直接跳转至step 4;否则,取出中的路径从大到小依次存入中;
[0049]
step 4:为有序路径集合,排序越靠后,越满足乘客偏好,将进行倒序重新排列,得到满足乘客偏好的有序路径集中的即为匹配路径l
best
,将作为推荐给乘客的满足乘客偏好的路径。
[0050]
优选地,所述的方法还包括:考虑不同乘客对路径属性的敏感性差异,结合ddpg强化学习算法对所述基于jnd的字典序偏好路径选择模型进行优化,包括:
[0051]
step 1:随机初始化主网络参数θ
μ
和θq以及目标网络参数θ
μ

和θq′
,其中θ
μ

=θ
μ
,θq′
=θq;然后初始化样本存储缓存区r,并给定预设迭代次数;
[0052]
step 2:初始化一个随机噪声ε
t
并获取当前状态s
t

[0053]
step 3:根据actor网络的输出以及噪声ε
t
选择动作a
t
,计算公式如下所示;环境执
行动作a
t
,得到奖励r
t
和新状态s
t 1
,actor网络将(s
t
,a
t
,r
t
,s
t 1
)作为一组数据存入样本存储缓存区r中,作为训练网络的数据集;
[0054]at
=μ(s
t

μ
) ε
t
[0055]
step 4:从r中随机采样n组(s
t
,a
t
,r
t
,s
t 1
)数据,作为actor主网络、critic主网络的训练数据,计算critic主网络的梯度,并对主网络进行更新,更新公式如下所示:
[0056][0057]
式中l——critic网络的损失函数,为预测q值和目标q值的均方差,计算actor主网络的梯度,并对主网络进行更新,更新公式如下所示:
[0058][0059]
式中——j
β
(μ)的梯度,即为s根据ρ
β
分布时,的期望值;
[0060]
step 5:更新目标网络参数,计算公式如下所示:
[0061]
θq′
=τθq (1-τ)θq′
[0062]
θ
μ

=τθ
μ
(1-τ)θ
μ

[0063]
式中τ——更新系数,本发明取值0.01。达到迭代次数后,迭代结束,否则跳转至step 2。
[0064]
由上述本发明的实施例提供的技术方案可以看出,本发明实施例公开了一种基于jnd(just noticeable difference,最小可觉差)乘客偏好分析的诱导路径推荐方法与系统,该方法基于afc(automatic fare collection,自动售检票系统)数据和乘客画像提出基于od的乘客偏好识别方法,从od层面和时段层面两个维度细化乘客出行信息;考虑乘客偏好度排序,构建基于jnd的字典序偏好路径选择模型,解决乘客和路径的匹配问题,并结合ddpg强化学习方法对乘客路径选择模型参数进行优化,提高乘客个性化诱导的准确性,为轨道交通精准客流诱导提供决策参考。
[0065]
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
[0066]
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0067]
图1为本发明实施例提供的一种基于最小可觉差乘客偏好排序的诱导路径推荐方法的流程图。
[0068]
图2为本发明实施例提供的一种乘客偏好识别流程图。
[0069]
图3为本发明实施例提供的一种基于jnd的字典序偏好模型框架图。
[0070]
图4为为本发明实施例提供的一种ddpg强化学习算法原理图。
具体实施方式
[0071]
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
[0072]
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
[0073]
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
[0074]
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
[0075]
实施例一
[0076]
本发明实施例提供的一种基于最小可觉差乘客偏好排序的诱导路径推荐方法的处理流程如图1所示,包括如下的处理步骤:
[0077]
步骤s10、获取乘客出行数据,对乘客出行过程进行分析,基于用户画像思想构建乘客画像标签体系。
[0078]
本发明所用的数据包括广州地铁线网拓扑数据、广州地铁afc数据、历史满载率数据、车站站台候车时间数据、列车时刻表数据和路径集数据。
[0079]
采用区间属性和路径属性来定义路网。区间属性包括区间运行时间和区间拥挤情况,路径属性包括:路径旅行时间、路径等待时间、路径换乘次数以及路径拥挤程度。
[0080]
所述的定义乘客出行过程的六元组的数学模型公式为:
[0081]
xm=(id,t
in
,t
out
,sto,std,r,tp)
[0082]
式中m——某乘客,id——乘客id,用于标识乘客;t
in
——进站时间;t
out
——出站时间;sto——起始车站;std——终点车站;r——该乘客的出行路径为该od的第r条可行路径;tp——出行时段。
[0083]
所述的乘客画像标签体系包括:直接属性和间接属性。
[0084]
所述直接属性主要包括卡类型、出行次数、出行od(origin to destination,起点到终点)分布、出行时间分布和出行路径分布。
[0085]
(1)出行时间分布
[0086]
出行时间分布是指乘客在各个时段出行的频率统计。出行时间分布在一定程度上
可以反映乘客的出行规律。通勤乘客其出行时间多集中于早高峰和晚高峰,所以其早晚高峰的出行频率较高。乘客c在时段τ的出行频率f
tc,τ
计算如下式。各个时段的出行频率f
tc,τ
组成出行时间分布集合f
tc

[0087][0088][0089]
式中|a|——集合a中元素的总数,下同;
[0090]
——乘客c在时段τ的出行记录集合;
[0091]
xc——乘客c全部出行记录集合。
[0092]
(2)出行od分布
[0093]
出行od分布是指乘客在各个出行od的频率统计,可以反映乘客的职住地特征。某od的出行频率越高,说明乘客的工作地和居住地在od附近。出行od分布又可进一步分为起始站分布、终点站分布。以某车站为o或d的出行频率越高,说明乘客的居住地或工作地在该车站附近。乘客c出行od分布的计算公式如下所示:
[0094][0095][0096]
式中——乘客c以(o,d)为出行od的出行频率;
[0097]
——乘客c以(o,d)为出行od的出行记录集合。
[0098]
各个od的出行频率组成出行od分布集合组成出行od分布集合仅包含出行频率降序排序后的前三个od。
[0099][0100][0101]
式中——乘客c以o为起始站点的出行频率;
[0102]
——乘客c以o为起始站的出行记录集合。
[0103]
各个起始站的出行频率组成起始站分布集合组成起始站分布集合仅包含出行频率降序排序后的前三个起始站点。
[0104][0105][0106]
式中——乘客c以d为终点站的出行频率;
[0107]
——乘客c以d为终点站的出行记录集合。
[0108]
各个终点站的出行频率组成终点站分布集合组成终点站分布集合仅包含出行频率降序排序
后的前三个终点站。
[0109]
(3)出行路径分布
[0110]
出行路径分布是指乘客在各条出行路径的频率统计,可以反映乘客的出行规律,计算公式如下所示:
[0111][0112][0113]
式中f
rc,o,d,k
——乘客c以起始站o到终点站d的第k条路径为出行路径的出行频率;
[0114]
——乘客c以起始站o到终点站d的第k条路径为出行路径的出行记录集合。
[0115]
各条出行路径的出行频率组成出行路径分布集合组成出行路径分布集合仅包含出行频率降序排序后的前三条路径。
[0116]
所述间接属性包括平均换乘次数、平均出行时间、出行路径平均拥挤度、平均等待时间、标签偏好度分布。
[0117]
(1)平均换乘次数
[0118]
平均换乘次数衡量乘客出行的换乘次数,计算公式如下所示:
[0119][0120]
式中——乘客c的平均换乘次数;
[0121]
——起点站o到终点站d的第k条路径的换乘次数。
[0122]
(2)平均出行时间
[0123]
平均出行时间表示乘客的平均出行时长,计算公式如下所示:
[0124][0125][0126]
式中——乘客c的平均出行时间
[0127]
——起点站o到终点站d的第k条路径的旅行时间,为出站时间和进站时间之差。
[0128]
(3)出行路径平均拥挤度
[0129]
出行路径平均拥挤度可以衡量乘客每次出行的拥挤程度,通过路径中拥挤区间所占比例来表示。通常用区间满载率来表示区间的拥挤程度。根据区间满载率的数值将拥挤分为四类:不拥挤(80%以下)、轻微拥挤(80%-100%)、中度拥挤(100%-120%)、严重拥挤(120%以上)。考虑到不同拥挤程度的影响不同,本发明提出将拥挤区间加权比例作为出行路径拥挤度的衡量指标,计算公式如下所示:
[0130][0131][0132][0133]
式中——起点站o到终点站d的第k条路径在ω时刻的拥挤区间加权比例;
[0134]
t
ij
——路径的各区间运行时间;
[0135]
λ——区间拥挤程度所对应的权重;
[0136]
——区间在ω时刻的满载率;
[0137]
——乘客c的出行路径平均拥挤度。
[0138]
(4)平均等待时间
[0139]
平均等待时间衡量乘客每次出行在起始站和换乘站的等待时长,计算公式如下所示:
[0140][0141]
式中——乘客c的平均等待时间;
[0142]
——起点站o到终点站d的第k条路径在ω时刻的站台等待时间。
[0143]
所述的标签偏好度分布反映乘客在路径选择时所考虑的因素,包括路径旅行时间、路径换乘次数、路径等待时间、路径拥挤程度;标签的取值为0或1,0表示路径没有该标签特征,1表示路径具有该标签特征,刻画出行路径的属性特征,计算公式如下所示:
[0144][0145][0146][0147]
[0148][0149]
式中——路径i在t
in
时的路径属性;
[0150]
——组成的所有可行路径在t
in
时的路径属性;
[0151]
——路径i旅行时间,为区间运行时间和路径等待时间之和;
[0152]
——t
in
时刻的路径i等待时间,由起始站站台等待时间和换乘站站台等待时间组成,可从车站站台等待时间表获取;
[0153]
——路径i换乘次数,可从路径集表获取;
[0154]
——路径i在t
in
时刻的拥挤度;
[0155]
——路径k在t
in
时的属性标签集合;
[0156]
——路径k在t
in
时的“出行时间最少”标签值;
[0157]
——路径k在t
in
时的“等待时间最少”标签值;
[0158]
——路径k在t
in
时的“换乘最少”标签值;
[0159]
——路径k在t
in
时的“最不拥挤”标签值。
[0160]
计算乘客对于每个标签的偏好度,得到其标签偏好度集合。偏好度指标为目标群体指数(tgi,target group index),可以反映乘客对某一特征的偏好。tgi数值越大说明乘客对某一特征的偏好越强;tgi大于100说明乘客对某一特征的偏好较强,等于100说明乘客对某一特征的偏好在平均水平,小于100说明乘客对某一特征的偏好较弱。tgi的计算公式如下所示:
[0161][0162]
步骤s20、提出基于谱聚类算法的乘客偏好识别方法,从od层面和时段层面两个维度细化乘客出行信息。
[0163]
所述的基于od的乘客偏好识别方法,从od层面和时段层面两个维度细化乘客出行信息,并采用谱聚类对乘客进行聚类,识别并提取乘客出行偏好,方法流程图如图2所示。
[0164]
基于od的乘客偏好识别方法计算步骤如下:
[0165]
step 1:将所有乘客的出行记录集合x按照od进行划分,筛选出以某od为出行od的乘客出行数据x
o,d
,实现空间维度的划分。x
o,d
计算公式如下所示:
[0166]
x
o,d
={xm|sto=o,std=d}
[0167]
step 2:将x
o,d
按出行时段进行划分,得到时段τ的子集x
o,d,τ
,实现时间维度的划分。x
o,d,τ
计算公式如下所示:
[0168]
x
o,d,τ
={xm|sto=o,std=d,tp=τ}
[0169]
step 3:将x
o,d,τ
按照乘客进行划分,得到不同乘客在不同od不同时段下的子集
计算公式如下。筛选出出行次数大于3次的乘客,计算不同od不同时段下每个乘客的间接属性,得到乘客在(o,d)的时段τ下的出行个体特征属性间接属性,得到乘客在(o,d)的时段τ下的出行个体特征属性组成不同od不同时段的乘客出行个体特征属性集合u
o,d,τ

[0170][0171][0172]
step 4:对u
o,d,τ
进行谱聚类,根据轮廓系数和ch分数确定最优聚类簇c,计算公式如下所示:
[0173]
c={c1,c2,...,ck}
[0174]
step 5:根据每类乘客的聚类中心ck,确定每类的乘客偏好,公式如下所示:
[0175][0176]
式中,qk为聚类中心ck所体现的乘客偏好。乘客c的乘客偏好qc即为其所属类别的聚类中心所呈现出的乘客偏好。
[0177]
步骤s30、考虑乘客偏好度排序,构建基于jnd的字典序偏好路径选择模型,解决乘客和路径的匹配问题。
[0178]
所述基于jnd的字典序偏好模型在进行路径之间的比较时,按照乘客对不同属性的偏好程度,依次比较。先比较路径之间的偏好度最高的属性,认为该属性的最优路径更满足乘客的需求;若偏好度最高的属性无法区分不同路径,则再比较次高属性,以此类推。通过这种顺序比较,可以将更满足乘客偏好的路径推荐给乘客。字典序偏好模型不需要对属性赋予权重,而是以满足最重要的属性为主要的匹配标准。
[0179]
本发明认为乘客对于路径的不同属性的感知存在jnd阈值。假如路径1的出行时间为20分钟,路径2的出行时间为24分钟,路径3的出行时间为40分钟,jnd阈值为5分钟。乘客在进行比较时,由于路径2和路径1的出行时间差值小于jnd阈值,因此认为路径1和路径2在出行时间上没有差别。而路径3和路径1的出行时间差值大于jnd阈值,因此认为路径1和路径3在出行时间上存在差异,且基于出行时间判断,路径1优于路径3。
[0180]
令为乘客偏好属性qi的可感知的刺激量变化比率,即如果两条路径的属性qi的差异比率小于则这两条路径在该属性上的差异没有被感知到,那么这两条路径在该属性上被认为是没有差异的,计算公式如下:
[0181][0182]
式中,是属性qi的最佳值,的最佳值,为百分比形式。上式即为,乘客对于属性qi的可感知变化比率为路径和路径中该属性的较优值为当乘客在对比这两条路径时,若两条路径之间的差值在的范围内时,乘客会认为这两条路径在属性qi上的表现是一样的,选择任意一条路径都可。
[0183]
基于jnd的字典序偏好模型的模型假设:
[0184]
设已知乘客c在某od对(o,d)的字典序偏好集合为qc,od在时刻ω的路径属性集
[0185]
假设乘客对于属性变化的感知服从韦伯定律,存在jnd阈值。假设乘客对于属性变化的可感知变化比率集为β,计算公式如下所示:
[0186][0187]
式中——偏好属性qi的可感知变化比率;
[0188]
——出行时间属性的可感知变化比率;
[0189]
——换乘次数属性的可感知变化比率;
[0190]
——等待时间属性的可感知变化比率;
[0191]
——路径拥挤度属性的可感知变化比率。
[0192]
对β集进行随机连续化,采用ddpg算法对参数进行自动探索。模型求解目标是确定满足乘客偏好的最优路径l
best
。模型以为判断条件,对od的路径集l
o,d
进行比较排序,得到满足乘客偏好的有序路径集序,得到满足乘客偏好的有序路径集中排序越靠前的路径越满足乘客偏好,因此中排序第一的路径即为l
best

[0193]
基于jnd的字典序偏好模型框架如图3所示,模型计算流程如下:
[0194]
step1:输入乘客的有序偏好集、感知变化率、od的路径集矩阵,初始化推荐路径集和临时路径集。按照偏好顺序,依次比较可行路径集中的属性值,即按照行顺序,从上到下遍历矩阵。
[0195]
step2:将按照从小到大进行排序,并计算乘客可感知差异上限若临时路径集不为空,则将中大于上限的路径取出,从大到小依次存入推荐路径集
[0196]
中;否则,跳转至step 4。
[0197]
step3:遍历完矩阵后,若为空,则直接跳转至step 4;否则,取出中的路径从大到小依次存入中;
[0198]
step 4:为有序路径集合,排序越靠后,越满足乘客偏好。将进行倒序重新排列,得到满足乘客偏好的有序路径集排列,得到满足乘客偏好的有序路径集中的即为匹配路径l
best
,将作为模型计算结果输出,推荐给乘客。
[0199]
步骤s40、考虑不同乘客对路径属性的敏感性差异,结合ddpg强化学习算法对乘客路径选择模型参数进行优化,以提高乘客个性化诱导的准确性。
[0200]
ddpg强化学习算法基本要素:
[0201]
(1)状态
[0202]
由于参数优化的效果直接体现为给乘客推荐路径的准确率发生变化,因此在本发明中,模型的状态为推荐的准确率δ,计算公式如下所示。状态空间为1。
[0203][0204]
式中n——乘客的总出行数量;
[0205]
n1——给乘客推荐的路径和乘客实际出行路径一致的出行次数。
[0206]
(2)动作
[0207]
本发明中的动作为基于jnd的字典序偏好模型的感知变化比率集β,计算公式如下所示。由于β中有四个参数,因此动作空间为4。
[0208][0209]
(3)奖励函数
[0210]
奖励函数计算公式如下所示。当采取某动作之后,若准确率上升则奖励函数为正,智能体得到正反馈将向该方向学习;若准确率下降则奖励函数为负,智能体得到负反馈将避免向该方向学习。
[0211]
r=δ
′‑
δ
[0212]
式中δ——采取某动作之前的准确率;
[0213]
δ

——采取某动作之后的准确率。
[0214]
本发明拟将β集进行随机连续化,采用ddpg算法对参数进行学习标定。ddpg算法核心在于采用深度神经网络模拟函数,并用深度学习的方法对其进行训练。ddpg算法的原理如图4所示,其主要分为两个模块,actor模块和critic模块。
[0215]
actor模块负责更新策略函数,选择动作,又可称为策略网络。其目标是确定一个最优策略使得累积奖励最大化。actor网络中的参数定义为θ
μ
,目标函数计算公式如下所示:
[0216][0217]
式中q
μ
(s,a)——累积奖励期望值;
[0218]
ρ
β
——状态s的分布函数;
[0219]at
——t时刻智能体的动作;
[0220]st
——t时刻的环境状态;
[0221]
r(s
t
,a
t
)——状态s
t
执行a
t
后获得的奖励值;
[0222]
γ——下一个状态的奖励值的衰变系数,γ∈[0,1]。
[0223]
critic模块负责对当前策略进行评估,输出q函数,即actor网络中的q
μ
(s,μ(s))。critic网络参数定义为θq,其目标是使得网络的损失函数最小,目标函数计算公式如下所示:
[0224]yt
=r
t
γq

(s
t 1


)|θ
μ

)
[0225][0226]
式中yi——目标q值;
[0227]
l——critic网络的损失函数,为预测q值和目标q值的均方差。
[0228]
结合actor网络和critic网络的目标和更新流程可知,ddpg算法的目标就是最大
化j
β
(μ)并最小化l。为提高算法的稳定性和效率,ddpg分别为actor网络、critic网络各创建了两个神经网络,分别负责训练计算和参数更新。
[0229]
ddpg强化学习算法原理图如图4所示,其算法流程如下:
[0230]
step 1:随机初始化主网络参数θ
μ
和θq以及目标网络参数θ
μ

和θq′
,其中θ
μ

=θ
μ
,θq′
=θq;然后初始化样本存储缓存区r,并给定预设迭代次数。
[0231]
step 2:初始化一个随机噪声ε
t
并获取当前状态s
t

[0232]
step 3:根据actor网络的输出以及噪声ε
t
选择动作a
t
,计算公式如下所示;环境执行动作a
t
,得到奖励r
t
和新状态s
t 1
,actor网络将(s
t
,a
t
,r
t
,s
t 1
)作为一组数据存入样本存储缓存区r中,作为训练网络的数据集。
[0233]at
=μ(s
t

μ
) ε
t
[0234]
step 4:从r中,随机采样n组(s
t
,a
t
,r
t
,s
t 1
)数据,作为actor主网络、critic主网络的训练数据,计算critic主网络的梯度,并对主网络进行更新,更新公式如下所示:
[0235][0236]
式中l——critic网络的损失函数,为预测q值和目标q值的均方差。计算actor主网络的梯度,并对主网络进行更新,更新公式如下所示:
[0237][0238]
式中的梯度,即为s根据ρ
β
分布时,的期望值。
[0239]
step 5:更新目标网络参数,计算公式如下所示:
[0240]
θq′
=τθq (1-τ)θq′
[0241]
θ
μ

=τθ
μ
(1-τ)θ
μ

[0242]
式中τ——更新系数,本发明取值0.01。达到迭代次数后,迭代结束,否则跳转至step 2。
[0243]
实施例二
[0244]
以卡号为1759753155543242的乘客为例,采用所述基于jnd的字典序偏好模型进行基于个体的乘客诱导路径推荐实例分析。
[0245]
根据出行信息,按照所述乘客画像建立方法,分别计算直接属性和间接属性的各项指标,得到乘客画像如下表1所示:
[0246][0247]
表1
[0248]
选取基于jnd的字典序偏好模型参数,从出行时间、换乘次数、等待时间三方面分析乘客对出行时间变化感知情况,并在此基础上计算各条路径的属性。对于该乘客来说,在早高峰阶段,该od的出行偏好排序为出行时间>等待时间,所以在比较时先对比出行时间,再对比等待时间。基于jnd的字典序模型计算结果如下表2所示,分析该乘客对于三类路径属性的可感知差异可知,路径1更符合其出行偏好。
[0249]
[0250]
表2
[0251]
用相同方法计算所有出行记录,并计算准确率,计算结果如下表3所示。结果显示,在30次出行记录中,8条路径推荐的与乘客实际出行不一致,准确率为73%。基于jnd的字典序偏好模型考虑了乘客在路径选择过程中对于不同影响因素的偏好程度,更符合乘客在路径选择时的决策过程。
[0252][0253]
表3
[0254]
在上述实例基础上,对基于ddpg强化学习算法的参数优化的计算过程进行简要说明。首先选取ddpg强化学习算法所需的各个参数,计算得到优化结果如下表4所示。结果显示,经过ddpg参数优化之后,在30次出行记录中有2条路径推荐的与乘客实际出行不一致,算法准确率为93.33%。针对当前算例,优化参数后的模型其准确率相较于未优化参数的模型提升了20%。
[0255][0256]
表4
[0257]
综上所述,本发明实施例一种基于最小可觉差乘客偏好排序的诱导路径推荐方法与系统,结合实例验证了本发明提出的基于最小可觉差乘客偏好排序的诱导路径推荐方法与系统可以真实有效地为提高轨道交通乘客信息服务与运营管理水平提供理论与技术参考,同时也为城市轨道交通的良性运转提供一定的帮助。
[0258]
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
[0259]
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
[0260]
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
[0261]
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根
据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0262]
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献