用于领航跟随型多智能体编队路径规划的方法和存储介质与流程

2021-10-24 10:12:00 来源：中国专利 TAG：编队领航机器人路径跟随

1.本发明涉及机器人技术领域，尤其涉及一种用于领航跟随型多机器人系统编队路径规划的方法和存储介质。

背景技术：

2.多智能体编队路径规划要求多个机器人形成一种队形并保持这种位置关系向目标点移动，移动过程中不仅要安全规避障碍物，还要较为迅速地找到到达目标点的较优路径。此外，已知地图环境中路径规划较为简单，未知地图环境则对多机器人路径规划能力提出更高的要求。
3.对于多智能体编队，已有很多实施方法，包括领航
‑
跟随法、基于行为的方法、虚拟结构法等。领航
‑
跟随法主要通过领航者信息共享来实现协作，此方法对领航机器人要求较高，需要提高领航机器人路径规划能力和跟随机器人局部跟随能力，并且算法简洁。基于行为的方法是提前设计子行为，根据所遇情况的变化选择执行的行为，但准确度不够且遇到复杂环境难以融合各种行为。虚拟结构法则把队形视为固定的刚体结构，无法进行有效避障。
4.对于智能体路径规划，分为全局路径规划和局部路径规划，其中又有躲避障碍物和到达目标点两个任务。
5.在实现本公开实施例的过程中，发现相关技术中至少存在如下问题：全局路径规划中的a*算法，需要提前了解环境的信息，缺乏灵活性，难以应对实时变化的环境；局部路径规划方法应用广泛的人工势场法，非常容易出现局部最优或者振荡；强化学习算法试探学习需要不断迭代，耗时较长。

技术实现要素：

6.本公开实施例提供了一种用于领航跟随型多智能体编队路径规划的方法和存储介质，以解决现有技术中全局路径规划中的a*算法，需要提前了解环境的信息，缺乏灵活性，难以应对实时变化的环境；局部路径规划方法应用广泛的人工势场法，非常容易出现局部最优或者振荡；强化学习算法试探学习需要不断迭代，耗时较长的技术问题。
7.第一方面，提供了一种用于领航跟随型多智能体编队路径规划的方法，该方法包括：步骤s1：领航智能体根据引力势场法初始化q值；步骤s2：所述领航智能体根据模拟退火法动态调整ε贪婪法中的探索概率，进行动作选择；步骤s3：所述领航智能体根据虚拟障碍物填充避障策略和动态障碍物避障机制规避障碍物；步骤s4：所述领航智能体执行动作并获得回报，根据所述回报更新q值，所述领航智能体将移动后位置传输至跟随智能体，直至所述领航智能体达到预设训练次数；步骤s5:所述跟随智能体获取到领航智能体当前位置信息时，所述跟随智能体根据所述领航智能体当前位置信息获取期望目标位置，所述跟随智能体根据代价函数选择代价最小的状态对应的动作并执行，同时，所述跟随智能体根据虚拟障碍物填充避障策略和动态障碍物避障机制规避障碍物，并向所述期望目标位置移
动；所述跟随智能体未获取到领航智能体当前位置信息时，所述跟随智能体路径规划结束。
8.结合第一方面，在第一方面的第一种可能的实现方式中，所述步骤s2中，探索概率ε通过以下公式计算得到：
[0009][0010]
其中，q(s，a
random
)为状态s时随机选择动作的q值，q(s，a
max
)为状态s时最优动作的q值，q为非零常数，t为模拟退火法中的温度控制参数。
[0011]
结合第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，计算得到探索概率后，获取随机数，所述探索概率大于所述随机数时，所述领航智能体随机选择动作；所述探索概率小于等于所述随机数时，所述领航智能体选择当前状态下最大q值所对应的动作。
[0012]
结合第一方面，在第一方面的第三种可能的实现方式中，所述步骤s3进一步包括：步骤s31：获取领航智能体当前位置的相邻位置，计算各所述相邻位置与目标位置之间的第一距离，根据各所述第一距离判断当前位置是否趋于凹形障碍物，通过填充规避障碍物，其中，所述领航智能体当前位置与目标位置之间的距离为第二距离；步骤s32：所述第一距离小于所述第二距离时，判断当前相邻位置是否是障碍物，所述当前相邻位置不是障碍物时，所述当前相邻位置为可行相邻位置；步骤s33：不存在所述可行相邻位置时，将所述领航智能体当前位置填充为虚拟障碍物。
[0013]
结合第一方面，在第一方面的第四种可能的实现方式中，所述步骤s4中，所述领航智能体通过以下公式计算获得的回报，
[0014]
回报函数r(s
t
，a
t
)＝w
c
×
r
current
(s
t
，a
t
) w
h
×
h(s
t
，a
t
)
[0015]
其中，s
t
为所述领航智能体在t时刻的状态；a
t
为所述领航智能体在t时刻的动作；r
current
(s
t
，a
t
)为所述领航智能体的当前位置回报函数，
[0016]
h(s
t
，a
t
)为启发函数，通过所述领航智能体当前位置与目标位置的对角线距离计算得到；w
c
为第一系数为正值；w
h
为第二系数为负值。
[0017]
结合第一方面，在第一方面的第五种可能的实现方式中，所述步骤s1中，通过以下公式进行q值初始化，
[0018][0019]
其中，回报值k为比例系数，γ为折扣因子，ξ为调节系数为负值，ρ
aim
(s
′
)为领航智能体当前位置与目标位置之间的距离，η为常数。
[0020]
结合第一方面，在第一方面的第六种可能的实现方式中，所述步骤s5中，代价函数c(s
t
，a
t
)＝c
×
d
attr
r
static
(s
t
，a
t
)
[0021]
其中，s
t
为所述跟随智能体在t时刻的状态，a
t
为所述跟随智能体在t时刻的动作，d
attr
为引力势场，根据跟随智能体当前位置与目标位置之间的欧式距离计算得到；r
static
(s
t
，a
t
)为静态障碍物惩罚函数，
[0022]
c为调节系数。
[0023]
结合第一方面，在第一方面的第七种可能的实现方式中，所述步骤s5中，所述跟随智能体根据动态障碍物避障机制进行障碍物规避，包括：
[0024]
动态障碍物出现在跟随智能体当前位置的相邻位置时，获取所述动态障碍物对所述跟随智能体当前位置的斥力势场，计算所述跟随智能体当前位置与所述动态障碍物之间的距离，对所述跟随智能体所受期望目标位置引力和动态障碍物斥力进行受力分析，确定所述跟随智能体规避所述动态障碍物的临时目标位置，进行障碍物规避。
[0025]
结合第一方面的第七种可能的实现方式，在第一方面的第八种可能的实现方式中，所述斥力势场通过以下公式计算得到，
[0026]
斥力势场
[0027]
其中，(x
s
，t
s
)为所述跟随智能体当前状态的坐标，(x
obst
，y
obst
)为所述动态障碍物的坐标。
[0028]
第二方面，提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行前述的用于领航跟随型多智能体编队路径规划的方法。
[0029]
本公开实施例提供的用于领航跟随型多机器人系统编队路径规划的方法、系统和存储介质，可以实现以下技术效果：
[0030]
采用领航跟随型多智能体编队方式进行未知环境下的路径规划，领航智能体负责规划路径，跟随智能体跟随领航智能体而维持编队队形，多智能体共享位置信息和部分环境信息，分工明确，编队简单高效；领航智能体利用模拟退火法和ε贪婪法的运动策略，可以加速路径规划收敛；设置虚拟障碍物填充避障策略和动态障碍物避障机制可以有效避障；跟随智能体采用代价函数选择动作，与领航智能体并行采用虚拟障碍物填充避障策略，进行局部路径规划，可以有效跟随领航智能体并躲避障碍。
[0031]
以上的总体描述和下文中的描述仅是示例性和解释性的，不用于限制本技术。
附图说明
[0032]
一个或多个实施例通过与之对应的附图进行示例性说，这些示例性说明和附图并不构成对实施例的限定，附图中具有相同参考数字标号的元件示为类似的元件，附图不构成比例限制，并且其中：
[0033]
图1是本公开实施例提供的用于领航跟随型多智能体编队路径规划的方法流程示意图；
[0034]
图2是本公开实施例提供的多智能体的动作、步长和传感器探测范围示意图；
[0035]
图3是本公开实施例提供的智能体虚拟障碍物避障策略一步填充示意图；
[0036]
图4是本公开实施例提供的传统q值学习算法和本公开实施例改进的q学习算法累计回报收敛情况对比示意图；
[0037]
图5是本公开实施例提供的传统q值学习算法和本公开实施例改进的q学习算法回合步数收敛情况对比示意图；
[0038]
图6是本公开实施例提供的跟随智能体栅格化人工势场法躲避动态障碍物的示意图；
[0039]
图7是本公开实施例提供的领航智能体路径规划方法的流程示意图；
[0040]
图8是本公开实施例提供的跟随智能体路径规划方法的流程示意图；
[0041]
图9是本公开实施例提供的领航智能体路径规划结果示意图；
[0042]
图10是本公开实施例提供的障碍物环境下多智能体编队路径规划结果示意图。
具体实施方式
[0043]
为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。基于本技术提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本技术保护的范围。
[0044]
显而易见地，下面描述中的附图仅仅是本技术的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本技术应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本技术公开的内容相关的本领域的普通技术人员而言，在本技术揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本技术公开的内容不充分。
[0045]
在本技术中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本技术所描述的实施例在不冲突的情况下，可以与其它实施例相结合。
[0046]
除非另作定义，本技术所涉及的技术术语或者科学术语应当为本技术所属技术领域内具有一般技能的人士所理解的通常意义。本技术所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本技术所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0047]
下面对本公开实施例中所涉概念进行介绍，模拟退火法，从某一较高初温出发，伴随温度控制参数的不断下降，结合概率突跳特性在解空间中随机寻找目标函数的全局最优解，即，在局部最优解能概率性地跳出并最终趋于全局最优。
[0048]
q
‑
learn i ng是强化学习算法中的va l ue
‑
based的算法，q即为q(s，a)在某一时
刻的状态s(s∈state)下，采取动作a(a∈act i on)能够获得收益的期望，环境会根据智能体的动作反馈相应的回报，学习回合不断迭代直到累积回报最大。所以，算法的关键就是将状态和动作构建成一张q值表来存储q值，然后，根据q值来选取能够获得最大收益的动作。
[0049]
在实现本公开实施例的过程中，发现相关技术中存在：领航跟随法主要通过领航者信息共享来实现协作，此方法对领航智能体要求较高，需要提高领航智能体路径规划的能力和跟随智能体的局部跟随能力的问题。
[0050]
图1是本公开实施例提供的用于领航跟随型多智能体编队路径规划的方法流程示意图。如图1所示，本公开实施例提供了用于领航跟随型多智能体编队路径规划的方法，该方法包括：步骤s1：领航智能体根据引力势场法初始化q值；步骤s2：领航智能体根据模拟退火法动态调整ε贪婪法中的探索概率，进行动作选择；步骤s3：领航智能体根据虚拟障碍物填充避障策略和动态障碍物避障机制规避障碍物；步骤s4：领航智能体执行动作并获得回报，根据回报更新q值，领航智能体将移动后位置传输至跟随智能体，直至领航智能体达到预设训练次数；步骤s5:跟随智能体获取到领航智能体当前位置信息时，跟随智能体根据领航智能体当前位置信息获取期望目标位置，跟随智能体根据代价函数选择代价最小的状态对应的动作并执行，同时，跟随智能体根据虚拟障碍物填充避障策略和动态障碍物避障机制规避障碍物，并向期望目标位置移动；跟随智能体未获取到领航智能体当前位置信息时，跟随智能体路径规划结束。
[0051]
本公开实施例提供的用于领航跟随型多智能体编队路径规划的方法，可以实现以下技术效果：采用领航跟随型多智能体编队方式进行未知环境下的路径规划，领航智能体负责规划路径，跟随智能体跟随领航智能体而维持编队队形，多智能体共享位置信息和部分环境信息，分工明确，编队简单高效；领航智能体利用模拟退火法和ε贪婪法的运动策略，可以加速路径规划收敛；设置虚拟障碍物填充避障策略和动态障碍物避障机制可以有效避障；跟随智能体采用代价函数选择动作，与领航智能体并行采用虚拟障碍物填充避障策略，进行局部路径规划，可以有效跟随领航智能体并躲避障碍。
[0052]
在一些实施例中，将多智能体编队划分为领航智能体和跟随智能体，可以将编队队形设置为三角形，领航智能体在前，跟随智能体在后，可以减少整个编队行进的阻力，智能体之间通信方便，本领域技术人员也可以根据实际需求将编队队形设置为方形或者其他形状。随机设置位于不同位置、大小和形状不同的静态障碍物，也可以在预设栅格范围内设置动态障碍物。其中，领航智能体也可以为虚拟领航智能体。
[0053]
图2是本公开实施例提供的多智能体的动作、步长和传感器探测范围示意图。如图2所示，在一些实施例中，多智能体动作集包括：向上、向下、向左、向右、向左上、向右上、向左下和向右下。每个智能体21设置有传感器，可以探测所在位置的环境状况，以及，以所在位置为中心的3
×
3栅格范围内的环境信息。
[0054]
在一些实施例中，在步骤s1之前，构建多智能体运动环境地图，获取领航智能体的当前位置和目标位置。
[0055]
在一些实施例中，步骤s1中，通过以下公式进行q值初始化，
[0056]
[0057]
其中，回报值k为比例系数，γ为折扣因子，ξ为调节系数为负值，ρ
aim
(s
′
)为领航智能体当前位置与目标位置之间的距离，η为常数，防止分母为零。这样，利用改进的引力势场法初始化q值表来引导领航智能体的运动，在领航智能体运动的同时进行初始化。领航智能体总是你倾向选择q值最大的动作，引导领航智能体向目标位置移动的同时规避障碍物。
[0058]
在一些实施例中，步骤s4中，领航智能体通过以下公式计算获得的回报，
[0059]
回报函数r(s
t
，a
t
)＝w
c
×
r
current
(s
t
，a
t
) w
h
×
h(s
t
，a
t
)
[0060]
其中，s
t
为领航智能体在t时刻的状态；a
t
为领航智能体在t时刻的动作；r
current
(s
t
，a
t
)为领航智能体的当前位置回报函数，
[0061]
h(s
t
，a
t
)为启发函数，通过领航智能体当前位置与目标位置的对角线距离计算得到；w
c
为第一系数为正值；w
h
为第二系数为负值，可以对w
c
和w
h
进行调节以适应环境。通过当前位置回报函数和启发函数，加权求和构造探索环境的回报函数。
[0062]
在一些实施例中，根据智能体遇到障碍物赋予当前位置回报函数较大负值，到达目标位置赋予当前位置回报函数较大正值，智能体每移动一个位置，赋予当前位置回报函数较小负值作为惩罚，对当前位置回报函数进行设置。
[0063]
在一些实施例中，启发函数使用对角线距离，对角线距离为曼哈顿距离h_man加上斜线移动距离h_dia，曼哈顿距离为两位置之间南北方向的垂直距离加上东西方向的垂直距离。
[0064]
在一些实施例中，h_man(s
t
，a
t
)＝|x
s
‑
x
goal
| |y
s
‑
y
goal
|，其中，(x
s
，y
s
)为领航智能体在状态s时的坐标，(x
goal
，y
goal
)为领航智能体在目标状态时的坐标。
[0065]
在一些实施例中，h_dia(s
t
，a
t
)＝min(|x
s
‑
x
goal
|，|t
s
‑
y
goal
|)。
[0066][0067]
其中，d为相邻栅格之间的移动代价，按照启发函数利用对角线距离计算，上下左右方向的移动代价为d，斜线方向的移动代价为
[0068]
在一些实施例中，步骤s2中，探索概率ε通过以下公式计算得到：
[0069][0070]
其中，q(s，a
random
)为状态s时随机选择动作的q值，q(s，a
max
)为状态s时最优动作的q值，q为非零常数，用于防止分子为零，t为模拟退火法中的温度控制参数。根据metropolis
准则计算随机选择动作的接受概率并将其作为探索概率。
[0071]
在一些实施例中，设置温度控制参数t的初始值，同时以连续n次迭代步数样本标准差控制冷却温度,
[0072][0073]
其中，step
m 1
、step
m 2
、
…
、step
m n
分别为连续n次迭代的步数，step
avg
为连续n次迭代次数的平均值，k为控制系数，用于控制t的取值在合适的范围内，i为非零常数，用于防止收敛后t值为0。
[0074]
在一些实施例中，计算得到探索概率后，获取随机数δ，δ∈(0,1)，探索概率ε大于随机数δ时，领航智能体随机选择动作；探索概率ε小于等于随机数δ时，领航智能体选择当前状态下最大q值所对应的动作。这样，领航智能体利用模拟退火法和ε贪婪法相结合的策略选择动作，提出模拟退火改进的ε
‑
greedy策略，利用模拟退火法动态调整ε，模拟退火的控制温度参数根据算法学习情况实时调整，在路径规划前期尽可能多的探索，增加较多先验知识的同时防止局部最优，后期接近收敛则取消不必要的探索。
[0075]
在一些实施例中，步骤s3进一步包括：步骤s31：获取领航智能体当前位置的相邻位置，计算各相邻位置与目标位置之间的第一距离，根据各第一距离判断当前位置是否趋于凹形障碍物，通过填充规避障碍物，其中，领航智能体当前位置与目标位置之间的距离为第二距离；步骤s32：第一距离小于第二距离时，判断当前相邻位置是否是障碍物，当前相邻位置不是障碍物时，当前相邻位置为可行相邻位置；步骤s33：不存在可行相邻位置时，将领航智能体当前位置填充为虚拟障碍物。
[0076]
在一些实施例中，步骤s31中，领航智能体当前位置的相邻位置，包括：智能体当前位置周围的3
×
3栅格位置。在步骤s31中，还包括：建立一个当前位置
‑
动作数组，用于存储当前位置的可行相邻位置。
[0077]
在一些实施例中，将步骤s32得到的可行相邻位置添加到当前位置
‑
动作数组中。当前相邻位置更加远离目标位置或者当前相邻位置为障碍物，则当前相邻位置为不可行位置，不会添加到当前位置
‑
动作数组中。
[0078]
在一些实施例中，步骤s33中，当前位置
‑
动作数组为空，即，不存在可行相邻位置时，表示当前位置完全趋向于不可行区域，当前位置可能是趋向于凹形障碍物路径中的关键位置，将当前位置填充为虚拟障碍物。步骤s33还包括：对智能体的每一步进行判断，直到凹形障碍物被填充完毕。
[0079]
图3是本公开实施例提供的智能体虚拟障碍物避障策略一步填充示意图。如图3所示，在一些实施例中，在路径规划过程中，智能体进入浅灰色凹形障碍物中，根据距离计算，确定智能体当前位置向下、向右和向右下相邻位置为趋近目标位置，即图3(b)中的深灰色方格为趋近目标位置，进一步判断发现此三处相邻位置为障碍物，说明皆为不可行位置，当前位置完全趋向于不可行区域，将当前位置填充为图3(c)中的浅灰色虚拟障碍物。这样，可以对凹形障碍物进行有效规避。
[0080]
在一些实施例中，步骤s3中，领航智能体根据动态障碍物避障机制规避障碍物，包括：在领航智能体移动之前，判断到达状态后是否会与动态障碍物相撞，若相撞，则领航智能体修改所选动作为动态障碍物相对其反方向的三个状态栅格中q值最大状态对应的动作，同时设定一个阈值，如果领航智能体同样动作连续躲避次数超过这个阈值，则判定动态障碍物为匀速直线运动，领航智能体向动态障碍物运行的法线方向移动来规避动态障碍物后，继续向目标位置移动。
[0081]
在一些实施例中，步骤s4中，领航智能体不断移动直到到达目标位置为一个回合结束，不断迭代回合直到达到预设训练次数；领航智能体每移动一步都将移动后位置广播至跟随智能体；领航智能体通过以下公式更新q值：
[0082][0083]
其中，α为学习率，0＜α<1，r
t
为领航智能体在当前时刻选择动作策略后获得的奖赏，γ为折扣因子，0＜γ<1,max
a
q(s
t 1
,a)为领航智能体在下一时刻t 1选择最优动作策略得到的q值。这样，改进后的强化学习算法适合在未知环境中探索规划，并且可以快速规划出全局优化的路径。
[0084]
图4是本公开实施例提供的传统q值学习算法和本公开实施例改进的q学习算法累计回报收敛情况对比示意图。图5是本公开实施例提供的传统q值学习算法和本公开实施例改进的q学习算法回合步数收敛情况对比示意图。如图4和5所示，采用本公开实施例提供的改进的q值强化学习算法，智能体路径规划过程中的累计回报和回合步数较快达到平稳收敛，收敛时间缩短89.9％，收敛回合数减少63.4％，路径规划的回合步数较少。
[0085]
在一些实施例中，步骤s5中，跟随智能体向期望目标位置移动，利用代价函数公式对当前位置状态的八个相邻位置状态计算代价，确定代价最小的状态对应的动作并执行。
[0086]
在一些实施例中，步骤s5中，代价函数c(s
t
，a
t
)＝c
×
d
attr
r
static
(s
t
，a
t
)，其中，s
t
为跟随智能体在t时刻的状态，a
t
为跟随智能体在t时刻的动作，d
attr
为引力势场，根据跟随智能体当前位置与目标位置之间的欧式距离计算得到；r
static
(s
t
，a
t
)为静态障碍物惩罚函数，
[0087]
c为调节系数。根据引力势场思想设计代价函数，目标位置对当前位置的引力势场用目标位置与当前位置的欧氏距离衡量，与欧式距离成正比。
[0088][0089]
其中，(x
s
，y
s
)为跟随智能体当前状态的坐标，(x
goal
，y
goal
)为目标位置的坐标。
[0090]
图6是本公开实施例提供的跟随智能体栅格化人工势场法躲避动态障碍物的示意图。如图6所示，在一些实施例中，步骤s5中，跟随智能体根据动态障碍物避障机制进行障碍物规避，包括：动态障碍物出现在跟随智能体当前位置的相邻位置时，获取动态障碍物对跟随智能体当前位置的斥力势场，计算跟随智能体当前位置与动态障碍物之间的距离，对跟随智能体所受期望目标位置引力和动态障碍物斥力进行受力分析，确定跟随智能体规避所述动态障碍物的临时目标位置，进行障碍物规避。其中，临时目标位置一步避障后即舍弃。
[0091]
在一些实施例中，斥力势场通过以下公式计算得到，
[0092]
斥力势场
[0093]
其中，(x
s
，y
s
)为跟随智能体当前状态的坐标，(x
obst
，y
obst
)为动态障碍物的坐标。这样，跟随智能体根据领航智能体位置实时获取连续变化的期望目标位置，实现基于人工势场的栅格化自探测局部路径规划方法。
[0094]
图7是本公开实施例提供的领航智能体路径规划方法的流程示意图。如图7所示，步骤p1：建立领航智能体q值表，并用引力势场法初始化，初始化温度控制参数t、回报函数和探测机制，其中，探测机制为对当前所处位置附近的3
×
3栅格环境进行探测后，进入步骤p2：领航智能体回合数自增一，在当前回合中，计算标准差，更新温度控制参数t；判断是否达到预设训练次数，达到预设训练次数，结束，未达到预设训练次数，转入步骤p3：初始化领航智能体位置后，转入步骤p4：领航智能体步数自增一后，转入步骤p5：领航智能体根据虚拟障碍物填充避障策略和动态障碍物避障机制规避障碍物，领航智能体利用行为策略选择并执行动作，领航智能体进入下一状态并获得回报，将当前位置坐标广播给跟随智能体，领航智能体将回报函数值传递给值函数，并进行q值更新，当领航智能体当前位置状态未达到目标位置时，转入步骤p4，当领航智能体当前位置状态到达目标位置时，转入步骤p2。
[0095]
图8是本公开实施例提供的跟随智能体路径规划方法的流程示意图。如图8所示，初始化跟随智能体位置，步骤b1：当获取到领航智能体广播的目标状态，则结束，当未获取到领航智能体广播的目标状态时，转入步骤b2：计算跟随智能体当前位置状态的八个相邻位置状态的代价，确定代价最小的状态，跟随智能体与领航智能体并行采用虚拟障碍物填充避障策略，栅格化人工势场法进行局部规避动态障碍物后，选择动作并执行后，转入步骤b3：当前状态为目标状态时，转入步骤b1，当前状态不是目标状态时，转入步骤b2。
[0096]
图9是本公开实施例提供的领航智能体路径规划结果示意图。如图9所示，领航智能体采用本公开实施例的改进q学习算法能够稳定找到最优路径，路径步数减少到22。
[0097]
图10是本公开实施例提供的障碍物环境下多智能体编队路径规划结果示意图。如图10所示，领航机器人利用本公开实施例的改进q学习算法规划出深灰色路径，两个跟随机器人在跟随过程中自行躲避障碍，分别规划出两种浅灰色路径，三个机器人同时到达目标位置，完成编队任务。
[0098]
本公开实施例还提供了一种用于领航跟随型多智能体编队路径规划的系统，该系统包括：第一模块，用于领航智能体根据引力势场法初始化q值；第二模块，用于领航智能体根据模拟退火法动态调整ε贪婪法中的探索概率，进行动作选择；第三模块，用于领航智能体根据虚拟障碍物填充避障策略和动态障碍物避障机制规避障碍物；第四模块，用于领航智能体执行动作并获得回报，根据回报更新q值，领航智能体将移动后位置传输至跟随智能体，直至领航智能体达到预设训练次数；第五模块，用于跟随智能体获取到领航智能体当前位置信息时，跟随智能体根据领航智能体当前位置信息获取期望目标位置，跟随智能体根据代价函数选择代价最小的状态对应的动作并执行，同时，跟随智能体根据虚拟障碍物填充避障策略和动态障碍物避障机制规避障碍物，并向期望目标位置移动；跟随智能体未获取到领航智能体当前位置信息时，跟随智能体路径规划结束。
[0099]
需要说明的是，上述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位
于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
[0100]
本公开实施例还提供了一种存储介质，存储介质存储有计算机程序，计算机程序包括程序指令，程序指令当被处理器执行时使处理器执行前述的用于领航跟随型多智能体编队路径规划的方法。
[0101]
本公开实施例提供的用于领航跟随型多智能体编队路径规划的方法、系统和存储介质，构建领航跟随型多智能体编队模式，领航智能体用于基于启发信息引导机制的强化学习算法进行路径规划，跟随智能体学习领航智能体的运动状态，多智能体共享位置信息和部分环境信息，实现动态编队运动；多智能体分工明确，可以有效规避动态和凹形障碍物，编队简单高效，在完全未知的环境中可以快速规划出一条全局优化的路径。
[0102]
以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：涂胶机设备网络化控制系统的制作方法

用于领航跟随型多智能体编队路径规划的方法和存储介质与流程

相关文献

最热文献