一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于强化学习的航空器滑出时间预测方法

2023-02-04 13:06:04 来源:中国专利 TAG:

技术特征:
1.一种基于强化学习的航空器滑出时间预测方法,其特征在于:包括以下步骤:步骤1,对获取到的机场场面运行数据进行预处理,并构建影响航空器滑出时间的特征集;步骤2,定义马尔可夫决策过程的五元组,离散化系统的状态和动作并初始化累计奖赏;步骤3,利用探索过程和学习过程进行动作选择,确定下一个系统状态并更新累计奖赏;步骤4,设置预定义的停止条件,迭代训练强化学习算法得到最优累计奖赏;步骤5,利用最优累计奖赏对个体航空器滑出时间进行预测,对机场场面整体滑行态势进行评估。2.根据权利要求1所述的基于强化学习的航空器滑出时间预测方法,其特征在于:所述步骤1中,通过机场监测系统记录的航空器实时数据,得到机场场面运行情况的实测数据,然后提取计划和实际的推出时间、起飞时间,从交通状态和时序特性角度构建影响航空器滑出时间的特征集。3.根据权利要求2所述的基于强化学习的航空器滑出时间预测方法,其特征在于:所述影响航空器滑出时间的特征集包括:离港瞬时流量:在计划推出时刻处于滑出阶段的航班数量;离港累计流量:在计划推出时刻和计划起飞时刻之间活动的离港航班数量;离港队列长度:在计划推出时刻和计划起飞时刻之间内预计起飞的航班数量;离港资源需求:在计划推出时刻前后15分钟的区间内预计推出的航班数量;前30分钟平均滑出时间:在计划推出时刻前30分钟内活动的离港航班的平均滑出时间;当前时间索引:计划推出时刻对应的小时索引。4.根据权利要求1所述的基于强化学习的航空器滑出时间预测方法,其特征在于:所述步骤2中,用马尔可夫决策过程的五元组建模航空器滑出时间预测问题,确定系统状态、动作、奖赏函数和折扣系数;然后分别对状态和动作进行离散化处理,并对状态、动作的各种组合初始化累计奖赏。5.根据权利要求4所述的基于强化学习的航空器滑出时间预测方法,其特征在于:所述步骤2中,由步骤1的特征集中的特征构成状态集合s,所有可能的滑出时间构成动作集合a,根据如下公式定义奖赏函数:r(s,a,s')=-|t
actual-t
predicted
|该式表明从状态s采取动作a转移到状态s'得到的回报,其中t
actual
为真实滑出时间,t
predicted
为预测的滑出时间;接着根据各个特征和滑出时间的取值范围,相应地将状态空间s和动作空间a进行离散化处理,并对任意的状态s和动作a,用0初始化r(s,a)。6.根据权利要求1所述的基于强化学习的航空器滑出时间预测方法,其特征在于:所述步骤3中,根据迭代次数确定进入探索过程或者学习过程,选择对应动作得到预测的滑出时间;然后计算并且更新奖赏函数,进入下一个系统状态。7.根据权利要求6所述的基于强化学习的航空器滑出时间预测方法,其特征在于:所述步骤3中,设置总迭代次数,当前迭代次数小于总迭代次数时,进行探索过程,以概率p选择
贪婪动作1-p选择随机动作,进而得到预测的滑出时间,计算r(s,a,s')并更新累计奖赏r(s,a),进入下一个系统状态s';当前迭代次数达到总迭代次数时,进入学习过程,直接选择贪婪动作得到预测的滑出时间,计算r(s,a,s')并更新累计奖赏r(s,a),进入下一个系统状态s';其中,使用近似动态规划更新累计奖赏,如下所示:其中,α为学习参数,n为迭代次数。8.根据权利要求1所述的基于强化学习的航空器滑出时间预测方法,其特征在于:所述步骤4中,设置预测稳定的停止条件为|r
n 1
(s,a)-r
n
(s,a)|≤ε,其中ε为一个很小的正数;当达到该条件时表示训练完成,得到最优累计奖赏r
optimal
(s,a)。9.根据权利要求1所述的基于强化学习的航空器滑出时间预测方法,其特征在于:所述步骤5中,利用训练好的强化学习模型得到最优累计奖赏,计算各航空器的状态并将该状态下的最优动作视为预测的滑出时间;然后计算各个时间片下航空器预测滑出时间的均值,并将其视为该时间片机场整体的滑行态势。10.根据权利要求9所述的基于强化学习的航空器滑出时间预测方法,其特征在于:所述步骤5中,利用训练好的强化学习模型得到最优累计奖赏r
optimal
(s,a),对计划在t时刻推出的航空器而言,首先计算该航班的机场系统状态s,然后将该状态下的最优动作视为预测的滑出时间,计算公式如下:当获得了所有航班预测的滑出时间,以15分钟为单位,统计一天内各时间片预测的航空器滑出时间的均值,并将其作为机场场面滑行态势的度量值以此评估一天的滑行态势变化情况。

技术总结
本发明公开了一种基于强化学习的航空器滑出时间预测方法,包括以下步骤:步骤1,对获取到的机场场面运行数据进行预处理,并构建影响航空器滑出时间的特征集;步骤2,定义马尔可夫决策过程的五元组,离散化系统的状态和动作并初始化累计奖赏;步骤3,利用探索过程和学习过程进行动作选择,确定下一个系统状态并更新累计奖赏;步骤4,设置预定义的停止条件,迭代训练强化学习算法得到最优累计奖赏;步骤5,利用最优累计奖赏对个体航空器滑出时间进行预测,对机场场面整体滑行态势进行评估。本发明能够在复杂机场场面环境中准确高效地预测航空器滑出时间,评估场面整体滑行态势,提高了机场场面的智能化管理能力。机场场面的智能化管理能力。机场场面的智能化管理能力。


技术研发人员:张魏宁 胡明华 杜婧涵 尹嘉男
受保护的技术使用者:南京航空航天大学
技术研发日:2022.10.08
技术公布日:2023/2/3
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献