一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于深度强化学习的多机器人路径规划方法

2022-07-14 00:27:45 来源:中国专利 TAG:


1.本发明属于人工智能技术领域,尤其涉及一种基于深度强化学习的多机器人路径规划方法、电子装置及计算机可读存储介质。


背景技术:

2.路径规划问题是人工智能领域热点问题,该问题涉及生活中的许多方面,其中包括移动机器人导航、飞行器航迹规划、游戏自动导航以及物流运输导航等。尤其在网络购物盛行的今天,越来越多的消费者选择网上购物的方式进行消费,这也加大了仓库中的物流运输难度,仓储物流中心在货物激增时需要大量的机器人运输货物,这将使得机器人在前往目标点的途中造成难以避免的拥塞,此外还需处理外界不稳定因素如货物的跌落或是第三方突然闯入造成的突发情况。
3.路径规划的传统算法在国内外已有较多的方法,例如,广度优先搜索算法(breadth first search,bfs)、迪杰斯特拉算法或者a*算法,但是上述算法在各种地图尺寸、高密度障碍物情况下,智能体间缺乏通信,从而导致规划信息杂乱,不能准确进行路径规划。


技术实现要素:

4.本发明旨在至少解决现有技术中存在的技术问题之一,提供一种基于深度强化学习的多机器人路径规划方法,提高多机器人路径规划的成功率。
5.第一方面,本发明提供一种基于深度强化学习的多机器人路径规划方法,所述机器人为多个,包括:
6.对于每个机器人,获取所述机器人的第一参考路径,基于所述机器人的第一参考路径进行训练优化处理,直至满足目标训练条件,其中,所述训练优化处理包括:
7.根据所述机器人的第一参考路径确定所述机器人的局部运动空间信息;
8.将所述局部运动空间信息输入到第一神经网络,以使得所述第一神经网络对所述局部运动空间信息进行特征处理,输出所述机器人的局部状态特征;
9.将所述机器人的局部状态特征输入到第二神经网络,以使得所述第二神经网络根据所述局部状态特征输出所述机器人的动作信息;
10.基于所述动作信息和所述第一参考路径,得到所述机器人的第二参考路径;
11.将与所述机器人相距最近的若干所述机器人的编码信息输入到第三神经网络,以使得所述第三神经网络根据多个所述编码信息输出损失特征参数,基于所述损失特征参数和已确定的奖惩参数计算得到损失函数,其中,所述编码信息通过对所述局部状态特征和所述动作信息编码得到;
12.通过所述损失函数训练所述第二神经网络和所述第三神经网络;
13.所述目标训练条件为目标抵达占比参数不小于预设占比参数,其中,所述目标抵达占比参数为抵达所述第二参考路径的目标点的所述机器人与所有所述机器人的比值;
14.将所述第二参考路径确定为所述机器人的目标规划路径。
15.根据本发明实施例提供的基于深度强化学习的多机器人路径规划方法,至少有如下有益效果:首先,获取机器人的第一参考路径,其中,第一参考路径为每个机器人使用传统的路径规划算法得到,之后再对第一参考路径进行优化处理,便于规划出更精准的路径,根据第一参考路径确定机器人的局部运动空间信息,再将局部运动空间信息输入到第一神经网络得到机器人的局部状态特征,从而能够根据局部状态特征确定机器人所在环境的状况,避免机器人在运动过程中与障碍物发生碰撞,其次,将机器人的局部状态特征输入到第二神经网络,得到机器人的动作信息,便于指导机器人的移动路径,最后,再将与机器人相距最近的若干机器人的编码信息输入到第三神经网络,以使得第三神经网络输出损失特征参数,通过损失函数训练第一神经网络、第二神经网络和第三神经网络,达到不断优化第二神经网络和第三神经网络的目的,从而提高第二神经网络和第三神经网络路径规划的准确率,当目标训练条件为目标抵达占比参数不小于预设占比参数,将第二参考路径确定为机器人的目标规划路径,从而实现对多机器人的路径规划,提高成功率以及准确率。
16.根据本发明的一些实施例,将所述局部状态特征输入到所述第二神经网络,使得所述第二神经网络的中间层基于时间序列传递所述局部状态特征,对所述局部状态特征进行规划得到所述动作信息,输出所述动作信息,根据动作信息确定机器人将要执行的动作,从而实现对机器人移动路径的控制。
17.根据本发明的一些实施例,当确定所述机器人根据所述第一参考路径移动,基于所述动作信息计算得到奖惩参数,便于后续损失特征参数的计算。
18.根据本发明的一些实施例,所述奖惩参数包括用于表征所述机器人移动过程中发生动作变化的动作奖惩值、用于表征所述机器人与障碍物发生碰撞的碰撞奖惩值、用于表征所述机器人进行震荡运动的震荡奖惩值、用于表征所述机器人偏离所述第一参考路径的偏离程度的偏离奖惩值和用于表征所述机器人抵达终点的抵达奖惩值,根据机器人在执行动作信息的过程中,得到环境执行动作之后的反馈,便于记录机器人运动过程中的奖惩状态。
19.根据本发明的一些实施例,将与所述机器人相距最近的若干所述机器人的编码信息输入到注意力网络,以使得所述注意力网络基于预设的选择注意力算法对所述编码信息进行计算,输出权重矩阵,其中,所述选择注意力算法用于表征所述机器人之间的影响力;将所述编码信息和所述权重矩阵输入到所述编码网络计算,输出所述损失特征参数,便于根据损失特征参数进行算法优化,从而确定最终的目标路径。
20.根据本发明的一些实施例,根据所述选择注意力算法对所述编码信息进行计算,得到查询矩阵、键值矩阵和值项矩阵;根据所述查询矩阵、所述键值矩阵和所述值项矩阵计算得到所述权重矩阵,便于后续损失特征参数的计算,以及实现对相邻若干机器人的选择。
21.根据本发明的一些实施例,确定与每个所述机器人相距最近的若干所述机器人的所述编码信息;将所述编码信息输入到所述第三神经网络,以使得所述第三神经网络得到损失特征集合,实现所有机器人对周围若干机器人的选择,从而根据每个机器人的编码信息,计算得到损失值的集合。
22.根据本发明的一些实施例,对所述损失特征参数和所述奖惩参数进行第一计算,得到用于优化所述第三神经网络的所述第三损失函数;根据所述奖惩参数进行第二计算,
得到用于优化所述第一神经网络和第二神经网络的所述第二损失函数,从而实现对第一神经网络、第二神经网络和第三神经网络的优化。
23.第二方面,本发明提供一种电子装置,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的一种基于深度强化学习的多机器人路径规划方法。
24.第三方面,本发明实施例还提供了一种计算机可读存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序被处理器执行时用于实现如上第一方面所述的基于深度强化学习的多机器人路径规划方法。
25.本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
26.附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
27.图1是本发明一个实施例提供的基于深度强化学习的多机器人路径规划方法的流程图;
28.图2是本发明另一实施例提供的基于深度强化学习的多机器人路径规划方法的流程图;
29.图3是本发明另一实施例提供的基于深度强化学习的多机器人路径规划方法的流程图;
30.图4是本发明另一实施例提供的基于深度强化学习的多机器人路径规划方法的流程图;
31.图5是图4中的步骤s620的具体方法流程图;
32.图6是本发明另一实施例提供的基于深度强化学习的多机器人路径规划方法的流程图;
33.图7是本发明另一实施例提供的基于深度强化学习的多机器人路径规划方法的流程图;
34.图8是本发明一个实施例提供的网络设备的结构示意图。
具体实施方式
35.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
36.需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
37.本发明提供了一种基于深度强化学习的多机器人路径规划方法、电子装置及计算机可读存储介质,首先,获取机器人的第一参考路径,其中,第一参考路径为每个机器人使
用传统的路径规划算法得到,之后再对第一参考路径进行优化处理,便于规划出更精准的路径,根据第一参考路径确定机器人的局部运动空间信息,再将局部运动空间信息输入到训练好的第一神经网络得到机器人的局部状态特征,从而能够根据局部状态特征确定机器人所在环境的状况,避免机器人在运动过程中与障碍物发生碰撞,其次,将机器人的局部状态特征输入到第二神经网络,得到机器人的动作信息,便于指导机器人的移动路径,最后,再将与机器人相距最近的若干机器人的编码信息输入到第三神经网络,以使得第三神经网络输出损失特征参数,通过损失函数训练第一神经网络、第二神经网络和第三神经网络,达到不断优化第二神经网络和第三神经网络的目的,从而提高第二神经网络和第三神经网络路径规划的成功率,当目标训练条件为目标抵达占比参数不小于预设占比参数,将第二参考路径确定为机器人的目标规划路径,从而实现对多机器人的路径规划,提高成功率。
38.下面结合附图,对本发明实施例作进一步阐述。
39.参照图1,图1是本发明一个实施例提供的基于深度强化学习的多机器人路径规划方法,多机器人路径规划方法包括但不限于步骤s100至s300。
40.步骤s100:对于每个机器人,获取机器人的第一参考路径,基于机器人的第一参考路径进行训练优化处理,直至满足目标训练条件;
41.需要说明的是,获取机器人的第一参考路径首先要忽略动态障碍物的存在,并且机器人的第一参考路径为每个机器人使用传统的路径规划算法得到,其中传统的路径规划算法包括但不限于广度优先搜索算法、迪杰斯特拉算法或者a*算法,本实施例不作具体限制。
42.在一实施例中,训练优化处理包括:首先,根据机器人的第一参考路径确定机器人的局部运动空间信息,将局部运动空间信息输入到训练好的第一神经网络,以使得第一神经网络对局部运动空间信息进行特征处理,输出机器人的局部状态特征,并且将机器人的局部状态特征输入到第二神经网络,以使得第二神经网络根据局部状态特征输出机器人的动作信息,之后,将与机器人相距最近的若干机器人的编码信息输入到第三神经网络,以使得第三神经网络根据多个编码信息输出损失函数特征参数,基于损失特征参数和已确定的奖惩参数计算得到损失函数,最后通过损失函数训练第一神经网络、第二神经网络和第三神经网络。
43.需要说明的是,编码信息通过对局部状态特征和动作信息编码得到。
44.在一实施例中,将局部运动空间信息输入到第一神经网络,使得第一神经网络对局部运动空间信息进行空间状态的描述,从而输出机器人的局部状态特征,便于后续对机器人的动作信息进行计算。
45.需要说明的是,第一神经网络为卷积神经网络。
46.在一实施例中,将机器人的局部状态特征输入到第二神经网络,以使得第二神经网络根据局部状态特征为机器人传递信息,从而输出动作信息,便于规划机器人在第一参考路径中的动作。
47.需要说明的是,第二神经网络为以双向递归神经网络(或称bicnet)为核心的演员(或称actor)神经网络。
48.步骤s200:基于动作信息和第一参考路径,得到机器人的第二参考路径;
49.需要说明的是,第二参考路径为等待优化的目标规划路径,并且第一参考路径和
第二参考路径的目标点相同。
50.在一实施例中,将与机器人相距最近的若干机器人的编码信息输入到第三神经网络,以使得第三神经网络输出损失特征参数(或称q),并且基于损失特征参数和已确定的奖惩参数计算得到损失函数,便于后续通过损失函数对第二神经网络和第三神经网络进行优化。
51.需要说明的是,第三神经网络为评判(或称critic)神经网络。
52.在一实施例中,通过损失函数以及梯度下降算法对第一神经网络、第二神经网络和第三神经网络进行优化训练,便于后续确定目标规划路径。
53.在一实施例中,目标训练条件为目标抵达占比参数不小于预设占比参数,当满足目标训练条件则结束训练,保存第一神经网络、第二神经网络和第三神经网络,当不满足目标训练条件,则继续训练,直到满足目标训练条件为止,提高多机器人路径规划的准确率。
54.需要说明的是,目标抵达占比参数为抵达第二参考路径的目标点的机器人与所有机器人的比值。
55.需要说明的是,预设占比参数可以为90%,93%或者95%等,本实施例中为95%。
56.步骤s300:将第二参考路径确定为机器人的目标规划路径。
57.在一实施例中,当确定目标抵达比参数不小于预设占比参数,则结束训练,将第二参考路径确定为机器人的目标规划路径,从而实现对多机器人的路径规划,提高准确率。
58.参考图2,图2是本发明一个实施例提供的基于深度强化学习的多机器人路径规划方法的流程图,该步骤包括但不限于步骤s410。
59.步骤s410:将局部状态特征输入到第二神经网络,使得第二神经网络的中间层基于时间序列传递局部状态特征,对局部状态特征进行规划得到动作信息,输出动作信息。
60.在一实施例中,将局部状态特征输入到第二神经网络,使得第二神经网络的中间层基于时间序列传递局部状态特征,最后,第二神经网络对局部状态特征进行规划得到动作信息,输出动作信息,实现对机器人局部状态特征的规划。
61.需要说明的是,第二神经网络还包括输入层和输出层等,本实施例不做具体限制。
62.参考图3,图3是本发明一个实施例提供的基于深度强化学习的多机器人路径规划方法的流程图,该步骤包括但不限于步骤s610。
63.步骤s610:当确定机器人根据第一参考路径移动,根据动作信息计算得到奖惩参数。
64.在一实施例中,奖惩参数(或称r)包括用于表征机器人移动过程中发生动作变化的动作奖惩值(或称rs)、用于表征机器人与障碍物发生碰撞的碰撞奖惩值(或称rc)、用于表征机器人进行震荡动的震荡奖惩值(或称ro)、用于表征机器人偏离第一参考路径的偏离程度的偏离奖惩值运(或称rf)和用于表征机器人抵达终点的抵达奖惩值(或称rg)。
65.需要说明的是,奖惩参数由动作奖惩值、碰撞奖惩值、震荡奖惩值、偏离奖惩值和抵达奖惩值相加得到,即公式(1):
66.r=rs rc ro γrf rg
67.需要说明的是,γ可以为0.3、0.4、或者0.5等,本实施例不做具体限制。
68.参考图4,图4是本发明一个实施例提供的基于深度强化学习的多机器人路径规划方法的流程图,该步骤包括但不限于步骤s620-s630。
69.步骤s620:将与机器人相距最近的若干机器人的编码信息输入到注意力网络,以使得注意力网络基于预设的选择注意力算法对编码信息进行计算,输出权重矩阵;
70.需要说明的是,选择注意力算法用于表征机器人之间的影响力。
71.在一实施例中,第三神经网络包括编码网络和以注意力机制为中心的注意力网络,将于机器人相距最近的若干机器人的编码信息输入到第三神经网络,使得第三神经网络中的注意力网络输出权重矩阵,便于后续损失特征参数的计算。
72.步骤s630:将编码信息和权重矩阵输入到编码网络计算,输出损失特征参数。
73.可以理解的是,损失特征参数为损失函数所需要的特征参数,在此不做限制。
74.需要说明的是,编码网络(或称gj)由输入为状态维度加上动作维度的全连接层和一个leakyrelu激活函数构成,用于对机器人的局部状态特征和动作信息进行编码。
75.在一实施例中,将编码信息和权重矩阵输入到编码网络进行计算,输出损失特征函数参数的公式(2)如下:
76.qj(oj,aj)=fj(gj(oj,aj),yj)
77.其中,fj是编码网络中的两层全连接层,oj为机器人j的局部状态特征,αj为机器人j的动作信息,yj表示其余机器人的编码信息对机器人j的贡献。
78.参考图5,图5是图4中的步骤s620的具体方法流程图,该步骤s620包括但不限于步骤s621-s622。
79.步骤:s621:根据选择注意力算法对编码信息进行计算,得到查询矩阵、键值矩阵和值项矩阵;
80.在一实施例中,根据选择注意力算法对编码信息进行计算,得到查询矩阵(或称qj)、键值矩阵(或称ki)和值项矩阵(或称vi),便于后续计算权重矩阵。
81.步骤s622:根据查询矩阵、键值矩阵和值项矩阵计算得到权重矩阵。
82.需要说明的是,根据查询矩阵、键值矩阵和值项矩阵计算得到权重矩阵的公式(3)如下所示:
[0083][0084]
其中,dk表示的是ki的维度信息。
[0085]
参考图6,图6是本发明另一实施例提供的基于深度强化学习的多机器人路径规划方法,多机器人路径规划方法包括但不限于步骤s110至s120。
[0086]
步骤s110:确定与每个机器人相距最近的若干机器人的编码信息;
[0087]
步骤s120:将编码信息输入到第三神经网络,以使得第三神经网络得到损失特征集合。
[0088]
需要说明的是,损失特征参数为损失特征集合。
[0089]
在一实施例中,确定与每个机器人相距最近的若干机器人的编码信息,包括动作信息a'和局部状态特征信息o',通过公式(2)进行计算得到损失特征集合q(o',a')。
[0090]
可以理解的是,损失特征集合展开为q(o',a')={q1(o1',a1'),q2(o2',a2'),...,qn(on',an')}。
[0091]
参考图7,图7是本发明另一实施例提供的基于深度强化学习的多机器人路径规划方法,该步骤s600包括但不限于步骤s640-s650。
[0092]
在一实施例中,损失函数包括第二损失函数和第三损失函数,其中,第二损失函数用于第一神经网络和第二神经网络,第三损失函数用于优化第三神经网络。
[0093]
步骤s640:对损失特征参数和奖惩参数进行第一计算,得到用于优化第三神经网络的第三损失函数;
[0094]
在一实施例中,对损失特征参数和奖惩参数进行第一计算,得到第三损失函数,具体公式(4)和(5)如下:
[0095]
yj=rj γqj(o'j,a'j)
[0096][0097]
步骤s650:根据奖惩参数进行第二计算,得到用于优化第一神经网络和第二神经网络的第二损失函数。
[0098]
在一实施例中,根据奖惩参数进行第二计算,得到第二损失函数,具体公式和(6)如下:
[0099][0100]
此外,本发明的另一个实施例还提供了一种基于深度强化学习的机器人路径规划装置,该机器人路径规划装置包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。
[0101]
另外,参照图8所示,本发明的一个实施例还提供了一种网络设备,该网络设备200包括存储器210、处理器220及存储在存储器210上并可在处理器220上运行的计算机程序。
[0102]
处理器220和存储器210可以通过总线或者其他方式连接。
[0103]
存储器210作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器210可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器210可选包括相对于处理器220远程设置的存储器,这些远程存储器可以通过网络连接至该处理器220。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0104]
实现上述实施例的基于深度强化学习的多机器人路径规划方法所需的非暂态软件程序以及指令存储在存储器中,当被处理器执行时,执行上述实施例的基于深度强化学习的多机器人路径规划方法,例如,执行以上描述的图1中的方法步骤s100至s300、图2中的方法步骤s410、图3中的方法步骤s610、图4中的方法步骤s620至s630、图5中的方法步骤s621至s622、图6中的方法步骤s110至s120、图7中的方法步骤s640至s650。
[0105]
此外,本发明的一个实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个处理器或控制器执行,例如,被上述系统实施例中的一个处理器执行,可使得上述处理器执行上述实施例中的汇聚引擎确定方法,例如,执行以上描述的图1中的方法步骤s100至s300、图2中的方法步骤s410、图3中的方法步骤s610、图4中的方法步骤s620至s630、图5中的方法步骤s621至s622、图6中的方法步骤s110至s120、图7中的方法步骤s640至s650。
[0106]
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为
由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
[0107]
以上是对本发明的较佳实施方式进行的具体说明,但本发明并不局限于上述实施方式,熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换,这些等同的变形或替换均包含在本发明权利要求所限定的范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献