基于虚拟环境模仿重构和强化学习的无人机飞行控制方法与流程

2021-10-09 15:23:00 来源：中国专利 TAG：无人机飞行控制方法模仿

技术特征：
1.一种基于虚拟环境模仿重构和强化学习的无人机飞行控制方法，其特征在于，包含以下步骤：步骤1：将无人机在飞行过程中自身的飞行状态变化，和与环境状态的变化交互抽象为马尔可夫决策过程，用五元组＜s,a,p,r,γ＞表示，其中s为状态空间，a为动作空间，p为状态转移概率，r为从环境得到的单步奖赏，γ为累计奖赏的折扣因子；步骤2：构建和初始化强化学习ppo算法的模型、模拟器环境的状态转移模型f；步骤3：收集现实环境中无人机的飞行数据；步骤4：根据步骤3得到的数据，构建bc算法虚拟环境训练损失函数；步骤5：根据步骤3得到的数据，构建gail算法虚拟环境训练损失函数；步骤6：将步骤4，5中的两种训练方法结合起来，具体的结合方法为使用同一神经网络同时作为bc算法的预测网络，也作为gail算法的生成器网络，交替使用bc算法的损失函数j
transition
(a)和gail算法的损失函数l
gail
(π,dis)，对这一神经网络进行训练，直至神经网络收敛，便能得到虚拟环境网络；步骤7：基于步骤6建立的虚拟环境，在虚拟环境中通过强化学习训练无人机自主飞行控制agent策略网络；重复上述步骤3～7，直到agent策略网络收敛或者达到最大迭代次数为止；最终得到的飞行策略模型，将飞行策略模型应用在现实无人机中。2.根据权利要求1所述的基于虚拟环境模仿重构和强化学习的无人机飞行控制方法，其特征在于，所述步骤3中，收集现实环境中无人机的飞行数据，提取所有的三元组(s,a,s')，其中s为当前状态，a为当前动作，s'为下一状态，得到用于训练现实的环境的状态转移模型的数据集d
real
＝{(s1,a1,s2),(s2,a2,s3),...,(s
n
‑1,a
n
‑1,s
n
)}。3.根据权利要求1所述的基于虚拟环境模仿重构和强化学习的无人机飞行控制方法，其特征在于，所述步骤4中，根据步骤3得到的数据，构建bc算法虚拟环境训练损失函数；对于bc算法，以“当前状态
‑
当前动作”对作为特征，下一状态作为标签，进行回归学习，训练现实环境的状态转移模型f；通过最小化损失函数训练：其中f
α
代表当神经网络参数设置为α时的状态转移模型；因此，对于bc算法，需要将轨迹数据d
real
中的s
n
,a
n
联合作为输入，s
n 1
作为标签，计算损失函数进行训练。4.根据权利要求1所述的基于虚拟环境模仿重构和强化学习的无人机飞行控制方法，其特征在于，所述步骤5中，根据步骤3得到的数据，构建gail算法虚拟环境训练损失函数；对于gail算法，通过将需要学习的状态转移模型作为生成对抗网络中的生成器，这一生成器以“当前状态
‑
当前动作”对作为状态s，下一状态作为动作a，然后训练一个判别器通过区分真实历史数与生成数据的差异程度作为策略网络的奖赏函数，以此来引导策略网络的优化，不断地重复上述对抗训练过程，直到最终得到收敛的转移模型和更好的奖赏函数，具体的优化目标为：
其中log底数为e，π为当前生成器策略，π
e
为专家策略，h为正则化约束，λ为可调节比例参数；这一优化目标的目的在于得到一个平衡点，在这一平衡点上，生成器已经能够完全生成与专家一致的样本，判别器无法区分专家样本和生成样本的区别；此时的生成器便是模仿学习训练的目标；因此，gail的训练过程就是策略与奖赏函数分别代表的生成器与判别器的对抗博弈训练：5.根据权利要求1所述的基于虚拟环境模仿重构和强化学习的无人机飞行控制方法，其特征在于，所述步骤6中交替利用gail损失函数和bc损失函数更新虚拟环境状态转移模型，所述gail训练和bc训练的比例按照m：n配置，每使用m次gail损失函数更新网络，加入n次bc损失函数更新。6.一种基于虚拟环境模仿重构和强化学习的无人机飞行控制系统，其特征在于，包括虚拟环境训练模块和策略训练模块；所述虚拟环境训练模块中，训练模拟器的无人机飞行策略之前，从现实环境无人机的飞行轨迹数据抽取出所有的“当前状态
‑
当前动作
‑
下一状态”三元组，组成轨迹数据集；初始化虚拟环境状态转移模型；根据轨迹数据集，通过gail bc算法结合，对虚拟环境状态转移模型进行交替训练；所述策略训练模块中，将虚拟环境状态转移神经网络封装为强化学习可交互的环境；初始化ppo策略网络；利用基于强化学习的无人机自主飞行控制agent与虚拟环境不断交互，训练自主飞行控制agent策略；虚拟环境训练模块和策略训练模块是交替优化，互相促进的关系，强化学习策略收敛后，在真实环境中可以收集到更多的轨迹数据提供给虚拟环境训练模块，使环境更精准；而更精准的环境又能反过来提升强化学习策略的效果。7.一种计算机设备，其特征在于，该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行上述计算机程序时实现如权利要求1
‑
5任一项所述的基于虚拟环境模仿重构和强化学习的无人机飞行控制方法。8.一种计算机可读存储介质，该计算机可读存储介质存储有执行如权利要求1
‑
5任一项所述的基于虚拟环境模仿重构和强化学习的无人机飞行控制方法的计算机程序。

技术总结
本发明公开一种基于虚拟环境模仿重构和强化学习的无人机飞行控制方法，利用在真实飞行环境中采集到的状态转移历史轨迹数据，利用GAIL BC算法构建基于模仿学习的虚拟环境；在虚拟环境中利用强化学习算法训练无人机飞行策略；将策略迁移到真实环境中。本发明使无人机能够在复杂多变的环境中，实现有效，稳定的自主飞行控制；通过利用历史交互数据构建虚拟环境，并让强化学习Agent在虚拟环境中训练的方式，避免了强化学习的高试错成本弊端，同时不再依赖专家知识和人力，并提高了模型对特殊环境状态的适应能力。通过GAIL算法和BC算法两种算法的结合，避免了基于纯模仿学习算法的收敛性问题，也避免了纯BC算法的模型偏移问题，解决了传统的虚拟环境重构算法的应用难题。解决了传统的虚拟环境重构算法的应用难题。解决了传统的虚拟环境重构算法的应用难题。

技术研发人员：俞扬詹德川黎铭周志华张逸风袁雷靳学坤贾乘兴叶志浩管聪吴银霞
受保护的技术使用者：南京大学
技术研发日：2021.07.22
技术公布日：2021/10/8

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种磁轴承系统及其控制方法、装置、存储介质及处理器与流程

基于虚拟环境模仿重构和强化学习的无人机飞行控制方法与流程

相关文献

最热文献