一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

航空行李在线装载规划方法、装置、设备及介质

2022-11-13 12:07:19 来源:中国专利 TAG:


1.本发明涉及智能航空物流技术领域,尤其涉及一种航空行李在线装载规划方法、装置、设备及介质。


背景技术:

2.随着我国民航领域的发展,我国的民用机场数量以及机场全年的旅客吞吐量增长速度飞快,机场迫切需要通过智能化建设提高整体运行效率,保证旅客的出行体验。目前国内大部分机场仍旧采用人工作业的方式进行航空行李的装载,装载效率低、成本高,造成了资源的浪费,因此进行智能化装载算法的设计是重点。
3.航空行李的装载问题属于在线的三维装箱问题,在给定多个长、宽、高分别已知的长方体物品后,将所有长方体物品装入若干个集装箱中,在满足特定的装箱约束条件(稳定性约束、体积约束、重量约束等)的前提下,使集装箱的装载利用率最高。目前最常见的行李装箱算法主要包括数学规划算法和启发式算法。
4.数学规划算法将装箱问题视为带约束的优化问题,利用分支界定法和0-1整型规划模型对物品进行规划计算。使用数学规划算法虽然能够精确地求解出最优解,但随着物品和箱体数量的增加,算法的计算复杂度会呈指数倍数的增长从而导致“组合爆炸”,难以解决较大大规模的物品装箱问题;启发式算法基于人工装载经验形成,并融合了物品码放的相关约束规则,得到问题的近似最优解。虽然启发式算法能够得到可行解,相比于数学规划算法运行时间得到了显著提升,但其解的质量没有理论保证,且仍需要大量的运行时间成本。


技术实现要素:

5.本发明实施例提供了一种航空行李在线装载规划方法、装置、设备及介质,以实现航空行李准确、快速的自动化在线装载规划。
6.根据本发明实施例的一方面,提供了一种航空行李在线装载规划方法,包括:获取当前待装载行李的行李尺寸信息,以及码垛区域的垛型信息;将行李尺寸信息和垛型信息输入至与码垛区域匹配的分层树搜索模型中,获取与码垛区域内各备选行李码放位置分别对应的目标节点特征;将行李尺寸信息、垛型信息以及与码垛区域内各备选行李码放位置分别对应的目标节点特征输入至深度强化学习模型中,获取与当前待装载行李匹配的目标行李码放位置;控制机械臂将当前待装载行李码放至码垛区域内的目标行李码放位置后,根据目标行李码放位置更新分层树搜索模型。
7.根据本发明的另一方面,提供了一种航空行李在线装载规划装置,包括:实时信息获取模块,用于获取当前待装载行李的行李尺寸信息,以及码垛区域的垛型信息;
目标节点特征获取模块,用于将行李尺寸信息和垛型信息输入至与码垛区域匹配的分层树搜索模型中,获取与码垛区域内各备选行李码放位置分别对应的目标节点特征;目标行李码放位置获取模块,用于将行李尺寸信息、垛型信息以及与码垛区域内各备选行李码放位置分别对应的目标节点特征输入至深度强化学习模型中,获取与当前待装载行李匹配的目标行李码放位置;码放控制模块,用于控制机械臂将当前待装载行李码放至码垛区域内的目标行李码放位置后,根据目标行李码放位置更新分层树搜索模型。
8.根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的航空行李在线装载规划方法。
9.根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的航空行李在线装载规划方法。
10.本发明实施例的技术方案,通过根据当前待装载行李的行李尺寸信息,以及码垛区域的垛型信息,在与码垛区域匹配的分层树搜索模型中,获取与码垛区域内各备选行李码放位置分别对应的目标节点特征后,使用深度强化学习模型,获取与当前待装载行李匹配的目标行李码放位置;最后控制机械臂将当前待装载行李码放至码垛区域内的目标行李码放位置的技术手段,将分层树搜索与深度强化学习模型相结合,实现了航空行李准确、快速的自动化在线装载规划,从而使每个航空行李的装载紧密、稳定,减少空间的浪费,有效提高机场的经济性和运行效率,此外,本发明实施例的技术方案能够有效应对机场出港行李信息有限的实际场景,具有更好的可行性和实用性。
11.应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
12.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
13.图1a是根据本发明实施例一提供的一种航空行李在线装载规划方法的流程图;图1b是本发明实施例所适用的一种航空行李在线装载方法的作业流程图;图2a是根据本发明实施例二提供的一种航空行李在线装载规划方法的流程图;图2b是本发明实施例所适用的一种分层树搜索模型的网络结构图;图3a是根据本发明实施例三提供的一种航空行李在线装载规划方法的流程图;图3b是本发明实施例所适用的一种深度强化学习模型的网络结构图;图3c是本发明实施例所适用的一种航空行李在线装载规划方法的总图结构示意
图;图3d是本发明实施例所适用的航空行李在线装载规划方法在模型训练过程中的填充率变化曲线;图4是根据本发明实施例四提供的一种航空行李在线装载规划装置的结构图;图5是实现本发明实施例的航空行李在线装载规划方法的电子设备的结构示意图。
具体实施方式
14.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
15.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
16.实施例一图1a为本发明实施例一提供的一种航空行李在线装载规划方法的流程图,本实施例可适用于控制机械臂在线的将航空行李装载至码垛区域中适宜的行李码放位置的情况,该方法可以由航空行李在线装载规划装置来执行,该航空行李在线装载规划装置可以采用硬件和/或软件的形式实现,并一般可配置于中具有数据处理功能的终端或者服务器中。如图1a所示,该方法包括:s110、获取当前待装载行李的行李尺寸信息,以及码垛区域的垛型信息。
17.在本实施例中,可以通过行李相机采集得到当前待装载行李的行李图像,并通过图像识别技术,获取当前待装载行李的行李尺寸信息。具体的,该行李尺寸信息可以包括当前待装载行李的长度信息、宽度信息以及高度信息。
18.相类似的,可以通过垛型相机可以得到在对当前待装载行李进行实时装载之前,码垛区域的区域图像,并通过图像识别技术,获取与该码垛区域的垛型信息。具体的,该垛型信息可以包括各码垛完成行李在该码垛区域的码垛位置,以及各码垛完成行李的行李尺寸信息。
19.可以理解的是,在对当前待装载行李进行实时装载之前,该码垛区域内可能包括0个、1个或者多个码垛完成行李。
20.s120、将行李尺寸信息和垛型信息输入至与码垛区域匹配的分层树搜索模型中,获取与码垛区域内各备选行李码放位置分别对应的目标节点特征。
21.在本实施例中,分层树搜索模型与码垛区域相匹配,用于存储各码垛完成行李在
该码垛区域内的已码放位置,同时,该分层树搜索模型中还存储有基于码垛完成行李在该码垛区域内的已码放位置,所计算出来的各备选行李码放位置。
22.其中,该备选行李码放位置可以理解为,码垛区域内的一个当前处于空载状态的码放位置。
23.在本实施例中,通过使用该实时获取的垛型信息,可以对分层树搜索模型进行进一步校正,保证分层树搜索模型所存储信息的准确性;通过使用前待装载行李的行李尺寸信息,可以进一步在分层树搜索模型中量化确定出每个备选行李码放位置分别对应的目标节点特征,进而,在后续决策过程中,决策出与当前待装载行李最适宜的目标行李码放位置。
24.具体的,目标节点特征可以理解为每个备选行李码放位置针对前待装载行李的行李尺寸信息所形成的节点特征。
25.s130、将行李尺寸信息、垛型信息以及与码垛区域内各备选行李码放位置分别对应的目标节点特征输入至深度强化学习模型中,获取与当前待装载行李匹配的目标行李码放位置。
26.在本实施例中,在获取与码垛区域内各备选行李码放位置分别对应的目标节点特征之后,可以基于预先训练得到的深度强化学习模型,结合当前的奖励函数,从全部备选行李码放位置中决策出一个最优的备选行李码放位置,作为与当前待装载行李匹配的目标行李码放位置。
27.其中,该奖励函数可以结合当前待装载行李的行李尺寸信息和垛型信息实时更新确定得到。
28.s140、控制机械臂将当前待装载行李码放至码垛区域内的目标行李码放位置后,根据目标行李码放位置更新分层树搜索模型。
29.在从全部备选行李码放位置中确定出目标行李码放位置,可以控制用于机械臂将当前待装载行李码放至码垛区域内的目标行李码放位置处,以实现行李的实时在线装载。
30.同时,在完成对当前待装载行李的码放后,当前待装载行李就变成了一个码垛至目标行李码放位置的已装载行李。进而,需要结合该目标行李码放位置重新更新与码垛区域对应的分层树搜索模型,以供新的当前待装载行李对该分层树搜索模型的继续使用。
31.本发明实施例的技术方案,通过根据当前待装载行李的行李尺寸信息,以及码垛区域的垛型信息,在与码垛区域匹配的分层树搜索模型中,获取与码垛区域内各备选行李码放位置分别对应的目标节点特征后,使用深度强化学习模型,获取与当前待装载行李匹配的目标行李码放位置;最后控制机械臂将当前待装载行李码放至码垛区域内的目标行李码放位置的技术手段,将分层树搜索与深度强化学习模型相结合,实现了航空行李准确、快速的自动化在线装载规划,从而使每个航空行李的装载紧密、稳定,减少空间的浪费,有效提高机场的经济性和运行效率,此外,本发明实施例的技术方案能够有效应对机场出港行李信息有限的实际场景,具有更好的可行性和实用性。
32.其中,在图1b中示出了本发明实施例所适用的一种航空行李在线装载方法的作业流程图。
33.如图1b所示,在航空行李的装载运输流水线上,将每个航空行李依次流转至行李车车厢所在位置,每个行李车车厢对应一个码垛区域。各航空行李由分拣传送带传送至码
垛区域并按照到位顺序进行即时装载,且仅有当前码垛区域的行李信息以及已装载完成的垛型信息已知,后续行李的三维信息以及到达顺序均未知,靠装载机械臂执行码放动作,完成行李装车。
34.其中,航空行李的三维结构平整度较差,为降低算法的计算复杂程度,对航空行李以及行李车车厢进行简化假设:行李车车厢为规则长方体,底面平整均匀,承载能力足够;航空行李为规则长方体,质量分布均匀,装载过程中视为承载能力足够的刚体,无形变发生。进而,每个航空行李可以通过长度、宽度以及高度这三个特征进行表征。
35.在图1b中,通过设置在行李运输流水线上的行李相机进行实时图像采集,可以获取与当前待装载行李匹配的行李信息(也即行李尺寸信息),通过贴近行李车车厢设置的垛型相机进行实时图像采集,可以获取每次当前待装载行李在线装载前的垛型信息。通过将垛型信息和行李信息输入至该分层树搜索模型中,可以获取与每个备选行李码放位置分别对应的目标行李码放位置并相应输入至预先训练的深度强化学习模型中。深度强化学习模型根据与每个备选行李码放位置分别对应的目标行李码放位置,可以决策出最优的动作位置,也即,从全部备选行李码放位置决策出目标备选行李码放位置。
36.进而,可以基于该目标备选行李码放位置,控制机械臂执行动作装载,将该当前待装载行李堆垛至行李车车厢(堆垛区域)内的目标备选行李码放位置。当一个行李车车厢无法容纳新的航空行李时,确定该行李车车厢装车完成,可以将该行李车车厢运输至机下进行行李装机。如果此时行李运输流水线上还有新的待装载行李,可以继续放置新的行李车车厢进行航空行李的继续装载。
37.实施例二图2a为本发明实施例二提供的一种航空行李在线装载方法的流程图,在本实施例中,对将行李尺寸信息和垛型信息输入至与码垛区域匹配的分层树搜索模型中,获取与码垛区域内各备选行李码放位置分别对应的目标节点特征的操作进行进一步细化。
38.相应的,如图2a所示,该方法包括:s210、获取当前待装载行李的行李尺寸信息,以及码垛区域的垛型信息。
39.s220、根据所述垛型信息,对所述分层树搜索模型中的各内部节点和各叶子节点进行更新。
40.其中,各内部节点用于描述码垛区域中各码垛完成行李的描述信息,各叶子节点用于描述码垛区域中各备选行李码放位置的描述信息。
41.在本实施例中,分层树搜索模型以内部节点和叶子节点的形式,存储码垛区域中各码垛完成行李的描述信息以及码垛区域中各备选行李码放位置的描述信息。
42.其中,码垛完成行李的描述信息可以包括码垛完成行李的行李尺寸信息(长度、宽度以及高度),以及码垛完成行李在码垛区域中的行李码放位置。备选行李码放位置的描述信息可以为码垛区域中的设定区域范围描述信息,例如,以码垛区域的中心点为坐标原点,由四个角点坐标表示的矩形坐标范围。
43.其中,分层树搜索模型的内部节点可以根据堆垛区域内的已码放行李唯一确定,分层树搜索模型的叶子节点可以根据各内部节点动态生成。一个叶子节点对应一个备选行李码放位置。当码垛区域为空时,该分层树搜索模型可以仅包括一个根节点作为内部节点,以及若干个叶子节点。行李装载过程可视为叶节点替换为内部节点,且生成若干个新的叶
节点的迭代过程,直到没有符合约束要求的内部节点产生时装载算法结束。
44.如前所述,为了使得分层树搜索模型中存储的内部节点和叶子节点能够准确描述堆垛区域内的已码放行李的码放情况。可以在每次获取当前待装载行李的行李尺寸信息之后,同步获取当前码垛区域的垛型信息,并基于该垛型信息对分层树搜索模型进行一次更新(也可以理解为校准),以保证后续计算过程的准确性。
45.s230、通过分层树搜索模型中的多层感知器,根据行李尺寸信息、分层树搜索模型中的内部节点和叶子节点,生成与码垛区域内各备选行李码放位置分别对应的低维节点特征。
46.在本实施例中,在该分层树搜索模型中设置有一个或者多个多层感知机,用于生成与每个备选行李码放位置(叶子节点)分别对应的低维节点特征。
47.典型的多层感知机(multi-layer perception,mlp),包括三层结构:输入层、隐层和输出层,mlp神经网络不同层之间是全连接的,以实现对不可线性分离的数据的识别。
48.在本实施例中,可以使用三个独立的节点式多层感知器,最终描述出与每个备选行李码放位置分别对应的低维节点特征。
49.相应的,在本实施例的一个可选的实施方式中,通过分层树搜索模型中的多层感知器,根据行李尺寸信息、分层树搜索模型中的内部节点和叶子节点,生成与码垛区域内各备选行李码放位置分别对应的低维节点特征可以包括:将分层树搜索模型中的各内部节点输入至第一节点式多层感知器中,获取第一类特征;将分层树搜索模型中的每个叶子节点分别输入至第二节点式多层感知器中,获取与每个叶子节点分别对应的第二类特征;将行李尺寸信息输入至第三节点式多层感知器中,获取第三类特征;将与每个叶子节点分别对应的第二类特征,分别与第一类特征和第三类特征进行组合,生成与码垛区域内各备选行李码放位置分别对应的低维节点特征。
50.其中,可以通过来描述第一节点式多层感知器,使用描述在进行第k个当前待装载行李的装载之前,各内部节点(也即,各码垛完成行李)的描述信息。进而,可以通过来描述第一类特征;相类似的,可以通过来描述第二节点式多层感知器,使用描述在进行第k个当前待装载行李的装载之前,分层树搜索模型中第i个叶子节点的描述信息,进而,可以通过()来描述与第i个叶子节点对应的第二类特征;此外,可以通过来描述第三节点式多层感知器,使用描述第k个当前待装载行李,进而,可以通过来描述第三类特征。
51.相应的,可以通过来描述第i个叶子节点(也即,第i个备选行李码放位置)的低维节点特征,其中,n为分层树搜索模型中的叶子节点(备选行李码放位置)的总数量。
52.s240、通过分层树搜索模型中的图注意力网络,将与码垛区域内各备选行李码放位置分别对应的低维节点特征转化为高维节点特征。
53.其中,图注意力网络(graph attention networks,gat),用于实现对高维节点特征的提取。
54.s250、通过缩放点积注意力网络,根据分层树搜索模型中叶子节点关系权重以及与码垛区域内各备选行李码放位置分别对应的高维节点特征,计算与各备选行李码放位置分别对应的嵌入节点特征。
55.在本实施例中,在得到与每个备选行李码放位置分别对应的高维节点特征之后,为了更加精准的描述备选行李码放位置的目标节点特征,进一步考虑在每个备选行李码放位置的高维节点特征中,融合该备选行李码放位置与其他备选行李码放位置之间的权重关系,以综合考虑不同叶子节点之间的关联性。
56.相应的,在该分层树搜索模型中的缩放点积注意力网络中,可以根据公式:,计算得到与第p个备选行李码放位置对应的嵌入节点特征;其中,、、、为分层树搜索模型中预先训练的权值矩阵,n为分层树搜索模型中的叶子节点的总数量,为与第p个备选行李码放位置对应的高维节点特征,为与第j个备选行李码放位置对应的高维节点特征,为投影特征的维度,为转置运算符。
57.s260、通过归一化网络,对与各备选行李码放位置分别对应的嵌入节点特征进行归一化处理,得到与码垛区域内各备选行李码放位置分别对应的目标节点特征。
58.具体的,该归一化网络可以为softmax层,在该softmax层中,可以根据公式,计算得到与第p个备选行李码放位置对应的目标节点特征;其中,为使用第四节点式多层感知器对进行处理。
59.具体的,将行李尺寸信息和垛型信息输入至与码垛区域匹配的分层树搜索模型中,获取与码垛区域内各备选行李码放位置分别对应的目标节点特征的具体实现方式可以如图2b所示,在图2b示出了本发明实施例所适用的一种分层树搜索模型的网络结构图。
60.在图2b中,分层树搜索模型具体包括有三个多层感知机、图注意力网络、缩放点积注意力网络以及softmax层,通过上述各个网络结构的处理,可以针对输入的垛型信息以及行李信息(也即,行李尺寸信息),输出每个叶子节点的最终节点特征(也即,目标节点特征)至深度强化学习模型。
61.s270、将行李尺寸信息、垛型信息以及与码垛区域内各备选行李码放位置分别对应的目标节点特征输入至深度强化学习模型中,获取与当前待装载行李匹配的目标行李码放位置。
62.在本实施例中,不同于传统强化学习中对动作-状态空间离散化表述的方法,而是通过分层树搜索模型实现对深度强化学习模型中的动作-状态空间的定义,进而,深度强化学习模型最终输出的目标行李码放位置为分层树搜索模型中当前包括的各叶节点的索引,由于动作空间的大小与叶节点的数量相同,动作空间的复杂程度仅取决于叶节点的拓展策略和装载行李信息,从而避免了离散化网格方法中动作空间随网格精度增加而爆炸性增长的问题。
63.s280、控制机械臂将当前待装载行李码放至码垛区域内的目标行李码放位置后,根据目标行李码放位置更新分层树搜索模型。
64.在本实施例的一个可选的实施方式中,根据目标行李码放位置更新分层树搜索模型具体可以包括:在所述分层树搜索模型中,将与所述目标行李码放位置匹配叶子节点替换为内部节点;根据所述分层树搜索模型中当前更新得到的各内部节点,获取与所述码垛区域匹配的至少一个最大空余子空间;根据与每个最大空余子空间分别对应的地面角点位置,更新所述分层树搜索模型中的各叶子节点。
65.如前所述,每当完成对一个航空行李的码放后,需要相应更新分层树搜索模型中包括的内部节点和叶子节点,以进行新的当前待装载行李的在线装载规划。其中,内部节点的更新方式比较简单,可以直接将与所述目标行李码放位置匹配叶子节点替换为内部节点即可。
66.叶节点的更新策略可以采用最大空余空间(empty maximal space,ems)策略。用ems的左前下角点坐标作为空间原点,当前ems的尺寸表示为。当对三维尺寸为,码放位置位于空间原点的第k个待码垛行李完成码放动作后,当前的ems被划分为三个最大空余子空间,其空间原点坐标分别为、、;子空间大小分别为、、。
67.对于每个最大空余子空间,新的备选行李码放位置位于其底面的四个角点,即左下角点、右下角点、左上角点和右上角点。
68.为实现航空行李的精确装载,需将ems空间中的规划位置坐标转换至行李车坐标系下,其左下角点坐标仍保持不变;右下角点坐标转换为;左上角点坐标转换为;右上角点坐标转换为。
69.本发明实施例的技术方案通过使用深度强化学习算法来对航空行李的最优码放位置进行计算,通过与环境的交互调节相关参数,从而使每个行李的装载紧密、稳定,减少空间的浪费,提高机场的经济性和运行效率,同时,通过结合分层树搜索的深度强化学习算法,使算法性能不再受限于动作-状态空间的离散化程度,相比于普通的深度强化学习方法,训练出的模型计算精度更高,实用性更强。
70.实施例三图3a为本发明实施例三提供的一种航空行李在线装载方法的流程图,在本实施例中,对将行李尺寸信息、垛型信息以及与码垛区域内各备选行李码放位置分别对应的目标节点特征输入至深度强化学习模型中,获取与当前待装载行李匹配的目标行李码放位置的操作进行进一步细化。
71.相应的,如图3a所示,所述方法具体包括:s310、获取当前待装载行李的行李尺寸信息,以及码垛区域的垛型信息。
72.s320、将行李尺寸信息和垛型信息输入至与码垛区域匹配的分层树搜索模型中,
获取与码垛区域内各备选行李码放位置分别对应的目标节点特征。
73.s330、通过深度强化学习模型根据行李尺寸信息,确定当前待装载行李的行李类别。
74.在本实施例中,所述深度强化学习模型使用优势动作评价(advantage actor critic,a2c)算法预先训练得到,该深度强化学习模型以民航机场航空行李的行李车车厢真实数据作为训练样本集,以填充率为评测标准,多次迭代训练得到。
75.其中,在图3b中示出了本发明实施例所适用的一种深度强化学习模型的网络结构图。如图3b所示,该基于a2c算法的深度强化学习模型包括有actor网络和critic网络。actor网络中的注意力模型中共包含三个注意力(也即,attention)模型,每个注意力模型中包含两个线性层(也即,linear),每层之间采用relu激活函数连接;actor网络中的图注意力编码层中包含一个跳跃连接层(也即,skip connection)、一个线性跳跃连接层(也即,linear skip connection)和两个线性层,线性跳跃连接层包含两个线性层,线性层之间以relu激活函数连接;critic网络包含一个线性层,采用的优化器为adam优化器。
76.在本实施例中,所述actor决策网络基于指针机制设计,用于输出并选择动作分布概率。全局特征可表示为,且通过投影矩阵映射得到query值q;每个叶节点的目标节点特征通过投影矩阵得到一组键值。通过query值和所有的向量点积之和得到适应度函数为:其中,为叶节点选取的logit函数。利用tanh函数对进行裁剪,其范围由参数控制。为投影特征的维度,qt为对q进行转置运算。
77.相应的,每个叶节点的概率分布函数可以表示为:所述critic网络采用优势函数代替传统critic网络中的回馈值,作为衡量当前选取动作好坏的指标,优势函数定义为:其中,为在策略下执行动作对应的值函数;为在策略下所有可能采取的动作值函数与动作概率的乘积之和。算法的目标是寻找最优策略使累积奖励最大化。
78.在本实施例中,可以按照尺寸范围(例如,35cm
×
30cm
×
15cm及以下、35cm
×
30cm
×
15cm ~50cm
×
45cm
×
30cm、46cm
×
41cm
×
31cm ~60cm
×
50cm
×
40cm、61cm
×
51cm
×
41cm ~75cm
×
70cm
×
55cm、其它)将航空行李分为a、b、c、d、e五个类别,每个当前待装载行李仅会根据其行李尺寸信息被分配至一个唯一的类别中。
79.s340、通过深度强化学习模型根据当前待装载行李的行李类别以及垛型信息,计算与码垛区域内的每个备选行李码放位置分别对应的节点权重。
80.发明人通过实际试验发现:在最优情况下,同种类型的航空行李应该被装载至堆垛区域内尽量靠近的位置,以减小上层空间底面的不平整程度,提高装载垛型的稳定性。
81.续前例,在根据ems方法生成最大空余子空间,并根据各最大空余子空间更新得到分层树搜索模型中的各叶子节点后,可以相应根据第k个当前待装载行李的行李尺寸信息,以及码垛区域内码垛完成行李的垛型中行李的类别对每个叶节点赋予节点权重,进而深度强化学习模型可以综合使用每个叶节点的节点权重,从分层树搜索模型的全部叶子节点中决策出目标叶子节点。
82.在本实施例的一个可选的实施方式中,通过深度强化学习模型根据当前待装载行李的行李类别以及垛型信息,计算与码垛区域内的每个备选行李码放位置分别对应的节点权重,可以包括:根据公式:,计算第t个备选行李码放位置相针对当前待装载行李k的节点权重;其中,为当前待装载行李的体积,c为预设的经验常数,为当前待装载行李k与码垛区域中全部码垛完成行李中同类别行李的平均距离。
83.s350、通过深度强化学习模型根据与每个备选行李码放位置分别对应的节点权重,设置所述深度强化学习模型的奖励函数。
84.在本实施例中,在获取与每个备选行李码放位置分别对应的节点权重之后,可以通过公式:设置与第t个备选行李码放位置对应的奖励函数。
85.其中,为放缩比例常数;为第k个当前待装载行李的体积,即;为当前行李车车厢的总容积,即,l、w、h分别为行李车车厢容积的长、宽、高;为从训练开始所有迭代过程的奖励函数平均值。为避免碰撞发生,设置位置奖励函数,规定:若靠近机械臂一侧先放置了行李,则将其内侧空间视为不安全空间,放置后的位置奖励为。
86.s360、通过深度强化学习模型根据与码垛区域内各备选行李码放位置分别对应的目标节点特征以及所述奖励函数,从分层树搜索模型的全部叶子节点中决策出目标叶子节点,作为与当前待装载行李匹配的目标行李码放位置。
87.在本实施例中,通过actor网络对每个叶节点的目标节点特征进行加权操作并输出当前的策略分布,通过critic网络将全局特征映射至状态值函数中,以计算在执行当前行李的装载时获得的累积奖励,以最终决策出目标叶子节点,作为与当前待装载行李匹配的目标行李码放位置。
88.s370、控制机械臂将当前待装载行李码放至码垛区域内的目标行李码放位置后,根据目标行李码放位置更新分层树搜索模型。
89.本发明实施例的技术方案,通过根据当前待装载行李的行李尺寸信息,以及码垛区域的垛型信息,在与码垛区域匹配的分层树搜索模型中,获取与码垛区域内各备选行李码放位置分别对应的目标节点特征后,使用深度强化学习模型,获取与当前待装载行李匹配的目标行李码放位置;最后控制机械臂将当前待装载行李码放至码垛区域内的目标行李码放位置的技术手段,将分层树搜索与深度强化学习模型相结合,实现了航空行李准确、快速的自动化在线装载规划,从而使每个航空行李的装载紧密、稳定,减少空间的浪费,有效
提高机场的经济性和运行效率,此外,本发明实施例的技术方案能够有效应对机场出港行李信息有限的实际场景,具有更好的可行性和实用性。
90.在上述各实施例的技术上,图3c是本发明实施例所适用的一种航空行李在线装载规划方法的总图结构示意图。
91.结合图3c,对本发明实施例对分层树搜索模型以及深度强化学习模型的训练以及推理过程进行简单描述。
92.其中,在对分层树搜索模型以及深度强化学习模型的训练之前,需要首先确定训练样本以及测评标准。在本实施例中,集民航机场航空行李及行李车车厢真实数据,对数据进行预处理,用于构建用于进行模型训练的数据集,数据集处理为pt格式的数据文件,并按照8:2的比例划分为训练集和测试集。
93.数据集格式包含行李的长、宽、高信息,每组数据集将多个行李的信息组成二维张量的格式构建数据集:其中,li、wi、hi分别为第i个行李的长、宽、高,其中i∈[1,n]。
[0094]
数据集中的三维数据为整数,单位为mm,采集到的原始数据若包含小数,需要进行数据的预处理。数据集的生成采用随机生成的方法,从完成预处理的数据中随机抽取三维信息生成数据集,数据集序列的长度为3000,共包含3000组随机序列,每组随机序列包含100个行李三维信息。
[0095]
之后,建立动作-状态空间表示方法,包括动作-状态空间定义、叶节点生成和选择方法,以构建得到分层树搜索模型,然后搭建深度强化学习gym环境,包括动作空间和状态空间设计。在模型和gym环境的交互过程中,在每次当前待装载行李的装载规划时,将从分层树搜索模型获取的各叶节点的目标节点特征提供给深度强化学习模型中,通过actor网络对各叶节点的进行加权操作并输出当前的策略分布,进而得到动作概率分布,执行动作,得到新状态、奖励和终止标志位done,在没有符合约束条件的叶节点选择时终止标志位置1,结束此轮迭代并更新actor网络参数。
[0096]
进一步的,加载保存的决策网络的参数,然后在实际应用环境中获取行李车车厢和行李的当前状态s作为actor网络中的输入,得到的输出作为当前行李码放位置的最优解。以填充率为优化目标,训练方式为以回合为单位,1个回合即为1轮训练,共对模型训练120000次,其填充率优化曲线如图3d所示。可明显观察到,填充率总体呈上升趋势,在110000轮训练左右,智能体填充率达到69%左右,随后因动作探索开始围绕69%左右上下波动。从该波动可知,训练结束时智能体所得策略并非最优策略,但从其奖励曲线可看出其仍有上升趋势。具体地,行李流水线将待装载行李运输至垛型相机和行李相机的拍摄区域,将相机采集到的垛型信息和行李信息作为状态s输入,加载保存的决策网络参数,得到的输出作为当前行李的码垛位置,将其输出到执行动作的机械臂端完成装载任务。
[0097]
实施例四图4为本发明实施例四提供的一种航空行李在线装载规划装置的结构示意图。如
图4所示,该装置包括:实时信息获取模块410、目标节点特征获取模块420、目标行李码放位置获取模块430以及码放控制模块440。其中:实时信息获取模块410,用于获取当前待装载行李的行李尺寸信息,以及码垛区域的垛型信息;目标节点特征获取模块420,用于将行李尺寸信息和垛型信息输入至与码垛区域匹配的分层树搜索模型中,获取与码垛区域内各备选行李码放位置分别对应的目标节点特征;目标行李码放位置获取模块430,用于将行李尺寸信息、垛型信息以及与码垛区域内各备选行李码放位置分别对应的目标节点特征输入至深度强化学习模型中,获取与当前待装载行李匹配的目标行李码放位置;码放控制模块440,用于控制机械臂将当前待装载行李码放至码垛区域内的目标行李码放位置后,根据目标行李码放位置更新分层树搜索模型。
[0098]
本发明实施例的技术方案,通过根据当前待装载行李的行李尺寸信息,以及码垛区域的垛型信息,在与码垛区域匹配的分层树搜索模型中,获取与码垛区域内各备选行李码放位置分别对应的目标节点特征后,使用深度强化学习模型,获取与当前待装载行李匹配的目标行李码放位置;最后控制机械臂将当前待装载行李码放至码垛区域内的目标行李码放位置的技术手段,将分层树搜索与深度强化学习模型相结合,实现了航空行李准确、快速的自动化在线装载规划,从而使每个航空行李的装载紧密、稳定,减少空间的浪费,有效提高机场的经济性和运行效率,此外,本发明实施例的技术方案能够有效应对机场出港行李信息有限的实际场景,具有更好的可行性和实用性。
[0099]
在上述各实施例的基础上,目标节点特征获取模块420具体包括:分层树搜索模型更新单元,用于根据所述垛型信息,对所述分层树搜索模型中的各内部节点和各叶子节点进行更新;其中,各内部节点用于描述码垛区域中各码垛完成行李的描述信息,各叶子节点用于描述码垛区域中各备选行李码放位置的描述信息;低维节点特征生成单元,用于通过分层树搜索模型中的多层感知器,根据行李尺寸信息、分层树搜索模型中的内部节点和叶子节点,生成与码垛区域内各备选行李码放位置分别对应的低维节点特征;高维节点特征转化单元,用于通过分层树搜索模型中的图注意力网络,将与码垛区域内各备选行李码放位置分别对应的低维节点特征转化为高维节点特征;嵌入节点特征计算单元,用于通过缩放点积注意力网络,根据分层树搜索模型中叶子节点关系权重以及与码垛区域内各备选行李码放位置分别对应的高维节点特征,计算与各备选行李码放位置分别对应的嵌入节点特征;归一化处理单元,用于通过归一化网络,对与各备选行李码放位置分别对应的嵌入节点特征进行归一化处理,得到与码垛区域内各备选行李码放位置分别对应的目标节点特征。
[0100]
在上述各实施例的基础上,低维节点特征生成单元,可以具体用于:将分层树搜索模型中的各内部节点输入至第一节点式多层感知器中,获取第一类特征;
将分层树搜索模型中的每个叶子节点分别输入至第二节点式多层感知器中,获取与每个叶子节点分别对应的第二类特征;将行李尺寸信息输入至第三节点式多层感知器中,获取第三类特征;将与每个叶子节点分别对应的第二类特征,分别与第一类特征和第三类特征进行组合,生成与码垛区域内各备选行李码放位置分别对应的低维节点特征。
[0101]
在上述各实施例的基础上,嵌入节点特征计算单元,可以具体用于:根据公式:,计算得到与第p个备选行李码放位置对应的嵌入节点特征;其中,、、、为分层树搜索模型中预先训练的权值矩阵,n为分层树搜索模型中的叶子节点的总数量,为与第p个备选行李码放位置对应的高维节点特征,为与第j个备选行李码放位置对应的高维节点特征,为投影特征的维度,为转置运算符。
[0102]
在上述各实施例的基础上,归一化处理单元,可以具体用于:根据公式:,计算得到与第p个备选行李码放位置对应的目标节点特征;其中,为使用第四节点式多层感知器对进行处理。
[0103]
在上述各实施例的基础上,目标行李码放位置获取模块430,可以具体包括:行李类别确定单元,用于通过深度强化学习模型根据行李尺寸信息,确定当前待装载行李的行李类别;节点权重计算单元,用于通过深度强化学习模型根据当前待装载行李的行李类别以及垛型信息,计算与码垛区域内的每个备选行李码放位置分别对应的节点权重;奖励函数设置单元,用于通过深度强化学习模型根据与每个备选行李码放位置分别对应的节点权重,设置所述深度强化学习模型的奖励函数;目标叶子节点决策单元,用于通过深度强化学习模型根据与码垛区域内各备选行李码放位置分别对应的目标节点特征以及所述奖励函数,从分层树搜索模型的全部叶子节点中决策出目标叶子节点,作为与当前待装载行李匹配的目标行李码放位置;其中,所述深度强化学习模型使用优势动作评价算法预先训练得到,该深度强化学习模型以民航机场航空行李的行李车车厢真实数据作为训练样本集,以填充率为评测标准,多次迭代训练得到。
[0104]
在上述各实施例的基础上,节点权重计算单元,可以具体用于:根据公式:,计算第t个备选行李码放位置相针对当前待装载行李k的节点权重;其中,为当前待装载行李的体积,c为预设的经验常数,为当前待装载行李k与码垛区域中全部码垛完成行李中同类别行李的平均距离。
[0105]
在上述各实施例的基础上,码放控制模块440,可以具体用于:在所述分层树搜索模型中,将与所述目标行李码放位置匹配叶子节点替换为内部
节点;根据所述分层树搜索模型中当前更新得到的各内部节点,获取与所述码垛区域匹配的至少一个最大空余子空间;根据与每个最大空余子空间分别对应的地面角点位置,更新所述分层树搜索模型中的各叶子节点。
[0106]
本发明实施例所提供的航空行李在线装载规划装置可执行本发明任意实施例所提供的航空行李在线装载规划方法,具备执行方法相应的功能模块和有益效果。
[0107]
实施例五图5示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
[0108]
如图5所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(rom)12、随机访问存储器(ram)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(rom)12中的计算机程序或者从存储单元18加载到随机访问存储器(ram)13中的计算机程序,来执行各种适当的动作和处理。在ram 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、rom 12以及ram 13通过总线14彼此相连。输入/输出(i/o)接口15也连接至总线14。
[0109]
电子设备10中的多个部件连接至i/o接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0110]
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如,实现一种航空行李在线装载规划方法,也即:获取当前待装载行李的行李尺寸信息,以及码垛区域的垛型信息;将行李尺寸信息和垛型信息输入至与码垛区域匹配的分层树搜索模型中,获取与码垛区域内各备选行李码放位置分别对应的目标节点特征;将行李尺寸信息、垛型信息以及与码垛区域内各备选行李码放位置分别对应的目标节点特征输入至深度强化学习模型中,获取与当前待装载行李匹配的目标行李码放位置;控制机械臂将当前待装载行李码放至码垛区域内的目标行李码放位置后,根据目标行李码放位置更新分层树搜索模型。
[0111]
在一些实施例中,该航空行李在线装载规划方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或
者全部可以经由rom 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到ram 13并由处理器11执行时,可以执行上文描述的一种航空行李在线装载规划方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行一种航空行李在线装载规划方法。
[0112]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0113]
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0114]
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0115]
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0116]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)、区块链网络和互联网。
[0117]
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过
通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务中,存在的管理难度大,业务扩展性弱的缺陷。
[0118]
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
[0119]
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献