一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于领域知识的多个无人平台任务协同规划方法及装置与流程

2022-03-23 04:07:22 来源:中国专利 TAG:

技术特征:
1.一种基于领域知识的多个无人平台任务协同规划方法,其特征在于,所述方法包括:对救援区域进行侦察,确定所述救援区域中进行多无人平台协同救援的区域;对无人平台的救援动作划分为任务分配动作和功能性动作,针对所述任务分配动作采用智能体对无人平台进行建模,针对所述功能性动作,采用领域知识进行建模,得到领域知识模型;所述领域知识模型在输入所述任务分配动作时,输出所述任务分配动作对应的功能性动作;通过预先构建的环境模拟器和灾害仿真模拟器,生成环境信息和灾害信息,根据多无人平台对应的智能体构建的集中式强化学习模型,与所述环境信息和灾害信息交互进行集中式强化学习模型的训练,输出训练好的集中式强化学习模型;所述集中式强化学习模型的奖励值和惩罚值是根据灾害仿真模拟器输出的实时灾害评估值确定的;将训练好的集中式强化学习模型迁移至真实灾害环境下进行协同救援。2.根据权利要求1所述的方法,其特征在于,所述救援区域包含多个任务节点,对救援区域进行侦察,确定所述救援区域中进行多无人平台协同救援的区域,包括:将多无人平台中执行侦察任务时间最长无人平台的时间代价作为优化指标,所述任务节点的侦察需求量作为约束条件,利用采用神经组合优化方法对所述优化指标进行迭代寻优,得到最优解;根据最优解确定所述救援区域中进行多无人平台协同救援的区域。3.根据权利要求2所述的方法,其特征在于,利用采用神经组合优化方法对所述优化指标进行迭代寻优,得到最优解,包括:根据神经组合优化方法,采用强化学习算子对所述优化指标进行求解,得到候选解;对所述候选解进行存储,设置迭代阈值,根据所述迭代阈值采用强化学习算子对所述优化指标进行迭代寻优,选择多个候选解中的最优解作为所述救援区域中进行多无人平台协同救援的区域。4.根据权利要求1至3任意一项所述的方法,其特征在于,根据多无人平台对应的智能体构建的集中式强化学习模型,与所述环境信息和灾害信息交互进行集中式强化学习模型的训练,输出训练好的集中式强化学习模型,包括:在集中式强化学习模型的训练中设置评分指标和一个回合的最大时间步,所述评分指标关联实时灾害评估值;在一个回合中,根据所述评分指标和最大时间步对所述智能体进行奖励和惩罚,得到该回合内的智能体的得分;经过多个回合训练后,选择得分最高的策略模型作为训练好的集中式强化学习模型;所述策略模型中包含多个功能性动作。5.根据权利要求4所述的方法,其特征在于,在一个回合中,根据所述评分指标和最大时间步对所述智能体进行奖励和惩罚,得到该回合内的智能体的得分,包括:当所述智能体采用的功能性动作降低了灾害的评估指标时则进行奖励,所述奖励与灾害减轻程度正相关;当所述智能体采用的功能性动作没有降低评价指标时进行惩罚。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:当时间步达到最大时获取智能体的得分并启动下一回合。7.根据权利要求1所述的方法,其特征在于,获取预先构建的环境模拟器,包括:
将城市需要救援区域进行抽象,得到城市仿真环境;根据所述城市仿真环境构建环境模拟器;所述环境模拟器包括道路、建筑物、救援基地。8.一种基于领域知识的多个无人平台任务协同规划装置,其特征在于,所述装置包括:多无人平台协同救援的区域确定模块,用于对救援区域进行侦察,确定所述救援区域中进行多无人平台协同救援的区域;建模模块,用于对无人平台的救援动作划分为任务分配动作和功能性动作,针对所述任务分配动作采用智能体对无人平台进行建模,针对所述功能性动作,采用领域知识进行建模,得到领域知识模型;所述领域知识模型在输入所述任务分配动作时,输出所述任务分配动作对应的功能性动作;集中式强化学习模型训练模块,用于通过预先构建的环境模拟器和灾害仿真模拟器,生成环境信息和灾害信息,根据多无人平台对应的智能体构建的集中式强化学习模型,与所述环境信息和灾害信息交互进行集中式强化学习模型的训练,输出训练好的集中式强化学习模型;所述集中式强化学习模型的奖励值和惩罚值是根据灾害仿真模拟器输出的实时灾害评估值确定的。迁移模块,用于将训练好的集中式强化学习模型迁移至真实灾害环境下进行协同救援。9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

技术总结
本申请涉及一种基于领域知识的多个无人平台任务协同规划方法及装置。所述方法包括:对救援区域进行侦察,确定所述救援区域中进行多无人平台协同救援的区域;无人平台的救援动作划分为任务分配动作和功能性动作,针对任务分配动作采用智能体对无人平台进行建模,针对功能性动作,采用领域知识进行建模;通过预先构建的环境模拟器和灾害仿真模拟器,生成环境信息和灾害信息,根据多无人平台对应的智能体构建的集中式强化学习模型,与环境信息和灾害信息交互进行集中式强化学习模型的训练,输出训练好的集中式强化学习模型,然后将模型迁移至真实灾害环境下进行协同救援。采用本方法能够提高救援效率。够提高救援效率。够提高救援效率。


技术研发人员:张煜 杨学科 王凯强 袁唯林 李鑫 蒋超远 杨景照 刘鸿福 李婷婷
受保护的技术使用者:中国人民解放军国防科技大学
技术研发日:2021.12.08
技术公布日:2022/3/22
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献