一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种独飞航线机票预测规划方法、系统及储存介质与流程

2022-06-22 22:42:06 来源:中国专利 TAG:


1.本发明涉及数据分析技术领域,具体为一种独飞航线机票预测规划方法、系统及储存介质。


背景技术:

2.采用合理的机票价格规划可以实现航班的价值最大化,因此航空公司往往会采用数据分析的方法提前对航班进行机票价格规划。但是现有的机票价格规划方法存在如下问题:
3.1.对机票价格的预测中,数据均来自于历史数据,因历史数据有限,所以预测的结果并不能取得一个良好的效果,针对该问题本发明提出了查票人数模拟的方法。、
4.2.对机票价格的预测与规划中并发完全采用强化学习的方法,多数为迭代式伪强化学习,并不能够拟合复杂多变的真实售票环境。
5.3.在机票学习相关的预测方法中,没有一个好的向量化方法,售票状态与预测结果难以达到空间维度的统一。


技术实现要素:

6.针对现有技术存在的问题,本发明目的之一在于提供一种独飞航线机票预测规划方法,包括:
7.s1.查票人数模拟,包括:
8.s1-1,统计目标航班的历史购票记录中的购票人数、价格与购票时间。
9.s1-2,基于s1-1的统计数据,获取目标训练时间点前第i天的购票人数与其购票价格,对任意i中购票人数与购票价格取得平均值,同时计算日均总收入。
10.s1-3,构建泊松分布函数po对每一天的查票人数进行模拟,得到当天的模拟查票人数。
11.s2.基于查票人数模拟对强化学习模型进行训练,包括:
12.s2-1,构建a2c强化学习网络。
13.s2-2,将步骤s1查票人数模拟结果作为强化学习网络的训练环境进行训练。之后,将目标航班在该训练环境中的最高收益和总体收益记为网络预测收益,将模拟环境对应的最高收益与总体收益记为模拟收益。
14.s2-3,将预测收益与模拟收益带入损失函数,对强化学习模型进行参数更新。。
15.s2-4,重置模拟环境并重新进行上述训练,直至奖励值不再增长,网络训练完毕,保存网络训练参数。
16.s3.机票价格规划:依据航班当前的售票状态通过强化学习模型对其后续定价策略进行预测。
17.进一步的,步骤s1-1所述统计目标航班的历史购票记录中的购票人数、价格与购票时间的方法为:
18.首先,标记目标训练时间点,并获取统计间隔天数c。
19.然后,对其中c∈c,统计c当天的购票人数a,记每一个人的购票价格为p,记该天的信息为集合dc。
20.最后,将全部c∈c的集合dc合并为集合d。
21.进一步的,步骤s1-2包括:计算目标训练时间点前第i天的平均购票人数ai与平均购票折扣mi,并计算当天平均收益:ai*mi。
22.进一步的,步骤s1-3所述构建泊松分布函数po对每一天的查票人数进行模拟的方法为:
23.首先,构建泊松分布函数po,对于任意c∈c,取其集合dc。获取c所对应的i天的平均购票人数ai、平均购票折扣mi、平均收益:ai*mi。
24.然后,以x轴为购票人数,y轴购票价格构建x-y坐标系。在x-y坐标系上做如下po函数曲线:以a
i-mi为峰值,调整λ使得柏松分布的积分面积等于ai*mi*α/10。
25.所得po函数曲线即为当天查票人数与其可接受的价格,其中纵坐标为机票价格,横坐标为可接受该购票价格的查票人数。
26.进一步的,步骤s1-1中,对目标航班进行一年的上述统计,得到365-366个d。步骤s1-3中对365-366个d分别构建po函数曲线,作为该航班的模拟查票人数。
27.进一步的,步骤s2-1所述a2c强化学习网络,包括a与c,a为状态计算网络,c为价值计算网络,其分别由afc1、afc2、cfc1、cfc2与fcs构成,其中:
28.afc1为a中第一层全链接,由128个神经元构成。
29.afc2为a中第二层全链接,由256个神经元构成。
30.cfc1为c中第一层全链接,由128个神经元构成。
31.cfc2为c中第二层全链接,由256个神经元构成。
32.fcs为其共享层,由128个神经元构成。
33.进一步的,步骤s2-2所述将步骤s1查票人数模拟结果作为强化学习网络的训练环境进行训练的方法包括:
34.1)采用步骤s1对目标航班历史数据中随机选取一天进行查票人数模拟。
35.2)根据上述模拟查票人数结果,预先计算该航班最大收益r。
36.3)随机初始化已售票状态s。
37.4)s作为初始状态,输入步骤s2的a2c网络中,使用a模型计算当前定价策略,得到结果a。
38.5)a作为定价策略与模拟查票环境进行计算,统计该定价策略下,当天售票人数与其售票价格,并计算当日收益r,同时c网络计算售票策略a带来的价值v。
39.6)收集v与r直至选取当天目标航班起飞或者机票售罄。
40.进一步的,步骤s3所述依据航班当前的售票状态通过强化学习模型对其后续定价策略进行预测的方法,包括:
41.首先获取当前已售票状态并对其进行向量化,向量化的方法为:分别统计各折扣下的售票量,构建十维全零向量,其中0到9分别代表一折到全价的售票量。
42.然后加载向量化强化学习模型,将上述向量作为输入,对其进行预测,输出得到定价策略a。a为十维向量,其中0到9分别代表一折到全价的放票量。
43.本发明的目的之二在于提供一种独飞航线机票预测规划系统,包括分析装置,所述分析装置可以是pc、智能手机、平板电脑等可加载分析程序进行分析的装置。所述分析装置采用上述独飞航线机票预测规划方法,获取目标航班的历史数据,分析后输出该航班目标时间的定价策略a。
44.本发明的目的之三在于提供一种储存介质,所述储存介质存储有多条指令,所述指令适于处理器进行加载,以执行上述的独飞航线机票预测规划方法中的步骤。
45.本发明至少具有以下有益效果之一:
46.1.本发明模拟海量数据对强化模型进行学习训练,数据模拟依据来源于真实数据,并结合符合真实购票情况的柏松分布进行数据膨胀,使得模拟环境更接近于真实环境。
47.2.本发明的强化学习模型训练中兼顾了每日的收益与整体的收益,能有效避免奖励滞后的问题,使得网络效果更佳,训练速度更快。
48.3.本发明中对购票状态与定价策略的向量化,综合借鉴了自然语言处理中词带模型与向量化策略,能够很好的将抽象的状态信息转化为模型输入与输出。
附图说明
49.图1所示为本发明实施例一种泊松分布函数曲线图。
具体实施方式
50.下面对本发明实施例中的技术方案进行清楚、完整地描述。
51.实施例1
52.一种独飞航线机票预测规划方法,包括:
53.s1.查票人数模拟,包括:
54.s1-1,统计目标航班的历史购票记录中的购票人数、价格与购票时间。具体方法为:
55.首先,标记目标训练时间点,并获取统计间隔天数c。
56.然后,对其中c∈c,统计c当天的购票人数a,记每一个人的购票价格为p,记该天的信息为集合dc。
57.最后,将全部c∈c的集合dc合并为集合d。
58.对目标航班进行一年的上述统计,得到365-366个d。
59.s1-2,基于s1-1的统计数据,获取目标训练时间点前第i天的购票人数与其购票价格,对任意i中购票人数与购票价格取得平均值,同时计算日均总收入。具体方法为:计算目标训练时间点前第i天的平均购票人数ai与平均购票折扣mi,并计算当天平均收益:ai*mi。
60.s1-3,构建泊松分布函数po对每一天的查票人数进行模拟,得到当天的模拟查票人数。具体方法为:
61.首先,构建泊松分布函数po,对于任意c∈c,取其集合dc。获取c所对应的i天的平均购票人数ai、平均购票折扣mi、平均收益:ai*mi。
62.然后,以x轴为购票人数,y轴购票价格构建x-y坐标系。在x-y坐标系上做如下po函数曲线:以a
i-mi为峰值,调整λ使得柏松分布的积分面积等于ai*mi*α/10。
63.所得po函数曲线即为当天查票人数与其可接受的价格,其中纵坐标为机票价格,
横坐标为可接受该购票价格的查票人数。
64.对365-366个d分别构建po函数曲线,作为该航班的模拟查票人数。
65.目前,现有技术对与机票价格的预测中,多是基于历史数据进行模型的训练,如利用购票进度数据来训练上客进度,用历史价格走势来进行价格的预测。在强化学习相关算法中,数据来源多为历史数据,并非像游戏场景中那样有固定的模拟数据。因此,基于强化学习的机票价格、上客人数等相关算法存在如下问题:
66.1、历史数据不足。在历史数据中对强化学习模型进行训练时,由于历史数据仅能够涵盖一小部分情况,会导致模型训练欠拟合。
67.2、模拟数据偏离实际。使用模拟数据对模型进行训练时,模型学习到的仅是模拟环境中的最优解,与生产环境、真实环境脱节。
68.针对上述问题,本发明提出了上述查票人数模拟的方法,该方法结合历史数据与相关数学算法,基于历史数据进行环境模拟,是模拟出的环境能够涵盖真实场景信息,又能起到扩充数据集的效果。
69.以a地到b地的于11月14日起飞的ca000航班来举例:
70.1、统计自11月1日至11月14日,每天的购票人数与每个人的购票价格dc,如:11月3日买票人数为9人,其购票价格分别为8、3、4、5、7、5、5、6、5折,则该天dc结构为:d3=[8,3,4,5,7,5,5,6,5]。同理得到d
1-d
14
,并将d
1-d
14
构成集合d。
[0071]
对ca 000航班进行一年的上述统计,得到365个d。
[0072]
2、在一年历史数据中,计算举例起飞第i天的平均购票人数ai与平均购票折扣mi,并计算当天平均收益:ai*mi。
[0073]
3、构建poisson分布函数,调整λ值,使柏松分布的积分面积等于ai*mi*α/10。例如:某航班距离起飞第5天时,平均购票人数为20,平均折扣为0.6,α取2.5(α值为实验分析得出),则计算ai*mi*α/10为:20*0.6*2.5/10=3,其中3为po函数的积分面积,构建poisson分布函数为:
[0074][0075]
做po函数曲线如图1所示,其中横坐标为查票人数,纵坐标为可接受的最高折扣,如po(5)=0.5,则表示有5人可接受的最高票价为5折,po(6)=0.4,则表示有人6可接受的最高票价为4折。
[0076]
对365个d进行po构建,作为该航班的模拟查票人数。
[0077]
现有方法使用历史数据作为模拟环境,历史数据中,每天可能仅有两种票价折扣,并不能够覆盖全面。与现有方法比,本发明查票人数模拟的方法具有涵盖范围更全、数据更真实的优点。
[0078]
s2.基于查票人数模拟对强化学习模型进行训练,包括:
[0079]
s2-1,构建a2c强化学习网络。所述a2c强化学习网络,包括a与c,a为状态计算网络,c为价值计算网络,其分别由afc1、afc2、cfc1、cfc2与fcs构成,其中:
[0080]
afc1为a中第一层全链接,由128个神经元构成。
[0081]
afc2为a中第二层全链接,由256个神经元构成。
[0082]
cfc1为c中第一层全链接,由128个神经元构成。
[0083]
cfc2为c中第二层全链接,由256个神经元构成。
[0084]
fcs为其共享层,由128个神经元构成。
[0085]
s2-2,将步骤s1查票人数模拟结果作为强化学习网络的训练环境进行训练。之后,将目标航班在该训练环境中的最高收益和总体收益记为网络预测收益,将模拟环境对应的最高收益与总体收益记为模拟收益。
[0086]
所述将步骤s1查票人数模拟结果作为强化学习网络的训练环境进行训练的方法包括:
[0087]
1)采用步骤s1对目标航班历史数据中随机选取一天进行查票人数模拟。
[0088]
2)根据上述模拟查票人数结果,预先计算该航班最大收益r。
[0089]
3)随机初始化已售票状态s。
[0090]
4)s作为初始状态,输入步骤s2的a2c网络中,使用a模型计算当前定价策略,得到结果a。
[0091]
5)a作为定价策略与模拟查票环境进行计算,统计该定价策略下,当天售票人数与其售票价格,并计算当日收益r,同时c网络计算售票策略a带来的价值v。
[0092]
6)收集v与r直至选取当天目标航班起飞或者机票售罄。
[0093]
s2-3,将预测收益与模拟收益带入损失函数,对强化学习模型进行参数更新。
[0094]
例如:构建强化学习模型为:
[0095][0096]
其中,n为总训练轮次,t为每轮训练下的训练步数,q
πθ
为价值网络在网络参数为θ与更新策略为π时所计算出的当前动作价值,v
πθ
为价值网络在网络参数为θ与更新策略为π时所计算出的当前状态价值,为模拟在第n轮次中第t步的状态,模拟在第n轮次中第t步的动作(定价策略),β
θ
为网络模型。
[0097]
其损失函数为:
[0098][0099]
其中,为模拟在第n轮次中第t步的真实收益,v
π
为价值网络在策略为π时所计算的收益。
[0100]
参数更新依据adam优化器进行梯度更新。
[0101]
s2-4,重置模拟环境并重新进行上述训练,直至奖励值不再增长,网络训练完毕,保存网络训练参数。
[0102]
目前,现有技术对a2c模型的训练通常采用传统的强化学习训练方法。该方法在游戏等固定场景下效果较好,但在机票环境中,需要考虑两方面因素:一是整体收益,另一是整体客座率。在真实环境中,票价低,则客座率高,但收益并不一定高。同样,票价高,客座率可能会低,但收益也并不一定低。一个理想的票价规划,会即能满足收益,又能满足客座率。因此,在强化学习的训练中,要考虑一个当天买票进度的奖励,还要考虑整体的奖励。
[0103]
本发明基于上述两点考虑,提出了上述模型的训练方法,该训练方法通过步骤s1模拟海量数据对强化模型进行学习训练,数据模拟依据来源于真实数据,并结合符合真实购票情况的柏松分布进行数据膨胀,使得模拟环境更接近于真实环境。同时该方法兼顾了每日的收益与整体的收益,能有效避免奖励滞后的问题,使得网络效果更佳,训练速度更快。
[0104]
例如:随机取ca 000航班通过步骤s1得到的一个数据集合d,作为训练环境。首先,基于d计算出距离起飞第14-0天每一天的最佳定价策略,如:在第i天的模拟时,预先计算的定价策略为[0,0,5,6,0,8,0,8,0,0],即:3折票5张,4折票6张,6折票8张,8折票八张。使用强化学习模型预测该天的定价策略为[0,3,0,0,0,0,0,8,8,0],依据预测结果,计算当天收益v并记录买票进度。对i取14-0,分别计算上述v于买票进度,在起飞当天或飞机座位售罄时,计算预测的总收益。将每天的收益与卖票进度、总收益,分别作为模型参数更新的参考,依据不同损失函数,对模型进行参数更新。
[0105]
这一训练过程,即包括每天的收益训练,也包括整体的收益训练。这种训练方法能够使得模型不仅能够有全局最优策略,还能够具有制定局部最优策略的优点。
[0106]
s3.机票价格规划:依据航班当前的售票状态通过强化学习模型对其后续定价策略进行预测。具体包括:
[0107]
首先获取当前已售票状态并对其进行向量化,向量化的方法为:分别统计各折扣下的售票量,构建十维全零向量,其中0到9分别代表一折到全价的售票量。
[0108]
然后加载向量化强化学习模型,将上述向量作为输入,对其进行预测,输出得到定价策略a。a为十维向量,其中0到9分别代表一折到全价的放票量。
[0109]
目前,现有技术对于机票价格预测有两种主流方法:一是回归方法,即:直接预测某一价格下的票量;一是分类方法,即:将票量作为类别,以分类的方法,预测票量。
[0110]
但实际票量与价格规划中,不同价格下分别对应多种放票量,如:3折票8张,7折票19张等。针对现有技术存在的问题,本发明提出了上述机票价格规划方法。该方法采用向量化方法与预测结果的表示相结合,保证输入输出在同一特征空间,因此可以达到将环境输入与模型输出进行直接映射转换的效果。
[0111]
例如:针对ca 000航班,进行如下计算:
[0112]
1.分别统计已售各折扣下的售票量,构建十维全零向量,其中0到9分别代表一折到全价的售票量,统计得:三折票已售10张,五折票已售27张,全价票已售8张,其状态向量为s=[0,0,10,0,27,0,0,0,0,8]
[0113]
2.然后加载向量化强化学习模型,将上述向量作为输入,对其进行预测。输出得到得到第二天的定价策略a=[0,0,0,5,6,3,0,0,0,1],其中0到9分别代表一折到全价的放票量,即:4折票放5张,5折票放6张,6折票放3张,全价票放1张。将a与s叠加,得到a’=[0,0,10,5,33,3,0,0,0,9]作为对第三天进行预测的输入向量,得到第三天的定价策b;再将b与a’叠加,得到b’作为第四天的输入,以此类推,直至航班起飞。
[0114]
实施例2
[0115]
一种独飞航线机票预测规划系统,包括分析装置,所述分析装置可以是pc、智能手机、平板电脑中的一种可加载分析程序进行分析的装置。所述分析装置采用实施例1所述独飞航线机票预测规划方法,获取目标航班的历史数据,分析后输出该航班目标时间的定价
策略a。
[0116]
实施例3
[0117]
一种储存介质,所述储存介质存储有多条指令,所述指令适于处理器进行加载,以执行实施例1所述的独飞航线机票预测规划方法中的步骤。
[0118]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献