一种基于数字孪生式训练的集群航迹规划强化学习方法与流程

2021-10-12 19:59:00 来源：中国专利 TAG：航迹集群规划无人机学习方法

技术特征：
1.一种基于数字孪生式训练的集群航迹规划强化学习方法，其特征在于，所采用的步骤是：步骤1：构建无人机集群航迹规划问题的状态空间和动作空间，状态空间由三部分组成，包括目标位置状态信息，障碍物位置状态信息和邻居节点状态信息；动作空间为无人机的速度大小和方向；步骤2：设计无人机集群航迹规划问题深度强化学习方法的奖励函数，奖励函数包括五部分，分别为无人机接近目标奖励，无人机与障碍物之间的防碰撞奖励，无人机与邻居节点之间的协同奖励，无人机的运动奖励以及边界奖励，最终的奖励函数为上述五者的线性耦合；步骤3：设计基于行为耦合的无人机集群航迹规划问题深度强化学习方法的网络架构，深度强化学习网络采用actor
‑
critic网络架构，其中actor网络分为4个子网络，分别是前进子网络，协同子网络，避障子网络和耦合子网络；步骤4：搭建基于无人机集群数字孪生系统的集群航迹规划深度强化学习方法的仿真训练体系架构，无人机集群数字孪生系统包括孪生物理实体、孪生仿真模型、孪生决策模型和孪生连接通道，无人机集群航迹规划深度强化学习方法运行于孪生决策模型中，并利用孪生物理实体、孪生仿真模型和孪生连接通道，进行深度强化学习模型的训练和部署。2.根据权利要求1所述的一种基于数字孪生式训练的集群航迹规划强化学习方法，其特征在于，构建无人机集群航迹规划问题的状态空间和动作空间的具体方法为：无人机i在第t个时间步长内的观测信息由三部分组成，第一部分是目标位置状态信息，为了削弱模型对目标绝对位置的敏感性，本发明采用了相对位置{g
ꢀ‑ꢀ
u
i,t
}代替了目标的绝对位置，同理，在第二部分和第三部分的观测信息中也采用了这个方法；第二部分是障碍物位置状态信息，假设无人机感知范围内存在障碍物，则无人机i在第t个时间步长内的障碍物位置观测信息为｛o1ꢀ‑ꢀ
u
i,t
, o2ꢀ‑ꢀ
u
i,t
,
ꢀ…
, o
k
ꢀ‑ꢀ
u
i,t
}；第三部分是邻居节点观测信息，无人机i在第t个时间步长内的邻居节点观测信息表示为{u
1,t
ꢀ‑ꢀ
u
i,t
, u
2,t
ꢀ‑ꢀ
u
i,t
,
ꢀ…
, u
j,t
ꢀ‑ꢀ
u
i,t
}，这里，表示无人机i的邻居节点集；综上，无人机i在第t个时间步长内的状态空间表示为s
i,t = {g
ꢀ‑ꢀ
u
i,t
, o1ꢀ‑ꢀ
u
i,t
, o2ꢀ‑ꢀ
u
i,t
,
ꢀ…
, o
k
ꢀ‑ꢀ
u
i,t
, u
1,t
ꢀ‑ꢀ
u
i,t
, u
2,t
ꢀ‑ꢀ
u
i,t
,
ꢀ…
, u
j,t
ꢀ‑ꢀ
u
i,t
}；为了使无人机的飞行轨迹更加平滑，采用了连续动作空间，无人机i在第t个时间步长内动作空间表示为a
i,t = {v, θ}，其中v表示速度的大小，范围从v
min
到v
max
，θ表示速度的方向，该方向受无人机的最大转向角限制。3.根据权利要求2所述的一种基于数字孪生式训练的集群航迹规划强化学习方法，其特征在于，设计无人机集群航迹规划问题深度强化学习方法的奖励函数的具体方法为：（1）接近目标奖励：该奖励用于引导无人机朝向目标方向，其基本思想是，在一个时间步长内，朝向目标方向的移动距离尽可能大，因此，无人机i在第t个时间步长内接近目标的奖励定义为：(1)其中，ω
appro
是一个正常数；
（2）防碰撞奖励：此奖励用于引导无人机与障碍物和邻居保持安全距离，无人机i在第t个时间步长内与障碍物或邻居碰撞的奖励定义为：(2)这里，
ꢀꢀꢀꢀꢀꢀꢀ
(3)(4)其中，ω
obs
和ω
nei
表示正常数，d3表示无人机与障碍物之间的安全距离，d1表示为无人机与邻居之间的安全距离，表示障碍物集合；（3）协同奖励：该奖励用于引导无人机与邻居保持连通性，以便在集群运动过程中建立更好的协同效果，无人机i在第t个时间步长内与邻居协同的奖励定义为：(5)其中，d2表示无人机的通信距离，ω
connec
表示一个正常数；（4）运动奖励：该奖励用于引导无人机用更少的时间完成集群航迹规划任务，无人机i在第t个时间步长内的运动奖励定义为：
ꢀꢀꢀ
(6)其中ω
step
表示一个正常数；（5）边界奖励：该奖励用于引导无人机避免距离边界太近，无人机i在第t个时间步长内的边界奖励定义为：(7)其中ω
hor
和ω
ver
为正常数，d
hor
和d
ver
为无人机到水平和垂直边界的最小距离，当它们大于边长的0.05倍时，设置为零；综上，无人机i在第t个时间步长内的整体奖励函数定义为：(8)。4.根据权利要求3所述的一种基于数字孪生式训练的集群航迹规划强化学习方法，其特征在于，设计基于行为耦合的无人机集群航迹规划问题深度强化学习方法的网络架构的具体方法为：bcddpg使用actor
‑
critic网络架构，其中，actor网络直接输出预期动作， critic网络
近似动作值函数，用于评估actor网络输出动作的质量；bcddpg的actor网络由多个子网络组成，对于集群航迹规划问题而言，无人机的状态信息s可以分为以下三类：（1）当前时间步长内目标的相对位置，表示为s
f
；（2）当前时间步长内其邻居节点的相对位置，表示为s
c
；（3）当前时间步长内的障碍物的相对位置，表示为s
o
；bcddpg使用三个不同的子actor网络来处理三类状态信息，子actor网络1、2和3分别采用s
f
、s
c
和s
o
作为输入，并输出对应的子动作a
f
、a
c
和a
o
；同时，子actor网络中采用了long
‑
short term memory神经网络处理状态信息，以便更好的从历史状态信息中对下一时间步长邻居节点位置进行预测；子actor网络4将状态s，子动作a
f
、a
c
和a
o
联立组成一个新向量作为输入，并输出最终动作a。5.根据权利要求4所述的一种基于数字孪生式训练的集群航迹规划强化学习方法，其特征在于，搭建基于无人机集群数字孪生系统的集群航迹规划深度强化学习方法的仿真训练体系架构的具体方法为：（1）、搭建孪生物理实体：由低成本、小型无人机和任务环境组成的无人机集群系统称为孪生物理实体，无人机在计算和存储方面受到资源限制，无法高效率的完成drl模型的训练，每架无人机配备多个传感器，能实时感知环境状态；搭建孪生仿真模型：中央服务器利用从真实世界接收的数据，通过仿真和建模，建立无人机集群系统的高保真孪生仿真模型，中央服务器在每个时间步长用来自真实世界无人机传感器的感知数据实时更新孪生仿真模型，孪生仿真模型可获得全局状态信息，用于提高drl算法的训练速度和有效性；搭建孪生决策模型：drl算法部署在孪生决策模型中，用于为集群航迹规划问题提供决策服务，孪生决策模型从孪生仿真模型中提取训练过程所需的状态信息，并利用中央服务器强大的计算性能，实时输出无人机集群航迹规划问题的控制策略，drl算法在执行阶段可借助孪生仿真模型不断更新和改进，实现drl算法的持续进化；搭建孪生连接通道：孪生连接通道是连接物理域和信息域的桥梁，二者之间可以通过4g/5g、移动ap或卫星等方式建立通信链路，孪生连接通道是双向的，一方面，孪生物理实体将传感器数据传输到中央服务器，用于孪生仿真模型构建，另一方面，中央服务器将drl算法生成的控制策略输出到孪生物理实体，用于指导无人机集群运动，一旦drl算法完成训练阶段，可借助孪生连接通道快速部署到现实世界的多无人机系统中，并以分布式方式执行；（2）、借助于无人机集群数字孪生系统，无人机集群航迹规划深度强化学习方法采用“集中式训练，分布式执行，持续进化”的方式实现模型的快速训练和部署；在训练阶段，孪生物理实体上的高精度传感器采集环境状态信息，通过孪生连接通道将数据传输至孪生仿真模型；孪生仿真模型根据采集到的环境状态信息更新自身状态，并提取集群航迹规划问题的状态数据发送至孪生决策模型进行模型训练；孪生决策模型借助中央服务器的计算资源完成深度强化学习网络模型的训练；在执行阶段，孪生决策模型将训练完成的深度强化学习网络模型通过孪生连接通道发送至孪生物理实体上；孪生物理实体根据深度强化学习网络模型的决策结果分布式完成航迹规划任务；同时孪生决策模型继续根据孪生仿真模型中的状态数据进行深度强化学习网
络模型的持续训练，并定期将更优的训练结果通过孪生连接通道更新至孪生物理实体上，实现深度强化学习方法的持续进化。

技术总结
本发明公开了一种基于数字孪生式训练的集群航迹规划强化学习方法，该方法将无人机集群航迹规划问题的状态空间进行分类，并设计相应的子Actor网络用于处理不同类别的状态信息。为了驱动集群更好的完成航迹规划任务，该方法设计了五种不同的奖励信号，最终的奖励函数是五种奖励信号的线性耦合。同时，该方法设计了一种基于数字孪生的无人机集群航迹规划深度强化学习方法的仿真训练体系架构，构建无人机集群数字孪生系统；深度强化学习方法运行于孪生决策模型中，并利用集群孪生仿真模型和孪生连接通道，进行深度强化学习网络模型的训练和部署。本发明的仿真结果证明了该方法的有效性。效性。效性。

技术研发人员：雷磊沈高青蔡圣所宋晓勤张莉涓朱晓浪
受保护的技术使用者：南京航空航天大学
技术研发日：2021.09.07
技术公布日：2021/10/11

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：振动唤醒BMS的方法、装置、电子设备及存储介质与流程

一种基于数字孪生式训练的集群航迹规划强化学习方法与流程

相关文献

最热文献