一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于领域知识的多个无人平台任务协同规划方法及装置与流程

2022-03-23 04:07:22 来源:中国专利 TAG:


1.本技术涉及多无人平台协同规划技术领域,特别是涉及一种基于领域知识的多个无人平台任务协同规划方法、装置、计算机设备和存储介质。


背景技术:

2.多无人平台协同是指在单个无人平台底层控制的基础上实现多个无人平台合作来完成一个任务或者实现一种目标。传统的协同方式多基于规则,而基于规则的任务协同会受到人类掌握的有限知识的限制、任务执行易冲突、任务理解不全面。
3.智能无人平台的发展正逐步改变人类的社会的方方面面,在灾害救援领域救援无人平台发展非常迅速,大大提高了救援的效率。城市搜救区域面积大、位置分散、受道路楼宇分割等特点明显,单个无人平台完成任务是有限的,必须采用多无人平台协同完成任务,而多无人平台完成任务动作空间和状态空间巨大,单纯依靠数学规划方法很难凑效。


技术实现要素:

4.基于此,有必要针对上述技术问题,提供一种能够提高救援效率的基于领域知识的多个无人平台任务协同规划方法、装置、计算机设备和存储介质。
5.一种基于领域知识的多个无人平台任务协同规划方法,所述方法包括:
6.对救援区域进行侦察,确定所述救援区域中进行多无人平台协同救援的区域;
7.对无人平台的救援动作划分为任务分配动作和功能性动作,针对任务分配动作采用智能体对无人平台进行建模,针对功能性动作,采用领域知识进行建模,得到领域知识模型;领域知识模型在输入任务分配动作时,输出任务分配动作对应的功能性动作;
8.通过预先构建的环境模拟器和灾害仿真模拟器,生成环境信息和灾害信息,根据多无人平台对应的智能体构建的集中式强化学习模型,与环境信息和灾害信息交互进行集中式强化学习模型的训练,输出训练好的集中式强化学习模型;集中式强化学习模型的奖励值和惩罚值是根据灾害仿真模拟器输出的实时灾害评估值确定的;
9.将训练好的集中式强化学习模型迁移至真实灾害环境下进行协同救援。
10.在其中一个实施例中,救援区域包含多个任务节点,对救援区域进行侦察,确定救援区域中进行多无人平台协同救援的区域,包括:将多无人平台中执行侦察任务时间最长无人平台的时间代价作为优化指标,任务节点的侦察需求量作为约束条件,利用采用神经组合优化方法对优化指标进行迭代寻优,得到最优解;根据最优解确定救援区域中进行多无人平台协同救援的区域。
11.在另一个实施例中,利用采用神经组合优化方法对优化指标进行迭代寻优,得到最优解,包括:根据神经组合优化方法,采用强化学习算子对优化指标进行求解,得到候选解;对候选解进行存储,设置迭代阈值,根据迭代阈值采用强化学习算子对优化指标进行迭代寻优,选择多个候选解中的最优解作为救援区域中进行多无人平台协同救援的区域。
12.在其中一个实施例中,根据多无人平台对应的智能体构建的集中式强化学习模
型,与环境信息和灾害信息交互进行集中式强化学习模型的训练,输出训练好的集中式强化学习模型,包括:在集中式强化学习模型的训练中设置评分指标和一个回合的最大时间步,评分指标关联实时灾害评估值;在一个回合中,根据评分指标和最大时间步对智能体进行奖励和惩罚,得到该回合内的智能体的得分;经过多个回合训练后,选择得分最高的策略模型作为训练好的集中式强化学习模型;策略模型中包含多个功能性动作。
13.在另一个实施例中,在一个回合中,根据评分指标和最大时间步对智能体进行奖励和惩罚,得到该回合内的智能体的得分,包括:当智能体采用的功能性动作降低了灾害的评估指标时则进行奖励,奖励与灾害减轻程度正相关;当智能体采用的功能性动作没有降低评价指标时进行惩罚。
14.在另一个实施例中,当时间步达到最大时获取智能体的得分并启动下一回合。
15.在其中一个实施例中,获取预先构建的环境模拟器,包括:将城市需要救援区域进行抽象,得到城市仿真环境;根据城市仿真环境构建环境模拟器;环境模拟器包括道路、建筑物、救援基地。
16.一种基于领域知识的多个无人平台任务协同规划装置,所述装置包括:
17.多无人平台协同救援的区域确定模块,用于对救援区域进行侦察,确定救援区域中进行多无人平台协同救援的区域;
18.建模模块,用于对无人平台的救援动作划分为任务分配动作和功能性动作,针对任务分配动作采用智能体对无人平台进行建模,针对功能性动作,采用领域知识进行建模,得到领域知识模型;领域知识模型在输入任务分配动作时,输出任务分配动作对应的功能性动作;
19.集中式强化学习模型训练模块,用于通过预先构建的环境模拟器和灾害仿真模拟器,生成环境信息和灾害信息,根据多无人平台对应的智能体构建的集中式强化学习模型,与环境信息和灾害信息交互进行集中式强化学习模型的训练,输出训练好的集中式强化学习模型;集中式强化学习模型的奖励值和惩罚值是根据灾害仿真模拟器输出的实时灾害评估值确定的。
20.迁移模块,用于将训练好的集中式强化学习模型迁移至真实灾害环境下进行协同救援。
21.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
22.对救援区域进行侦察,确定所述救援区域中进行多无人平台协同救援的区域;
23.对无人平台的救援动作划分为任务分配动作和功能性动作,针对任务分配动作采用智能体对无人平台进行建模,针对功能性动作,采用领域知识进行建模,得到领域知识模型;领域知识模型在输入任务分配动作时,输出任务分配动作对应的功能性动作;
24.通过预先构建的环境模拟器和灾害仿真模拟器,生成环境信息和灾害信息,根据多无人平台对应的智能体构建的集中式强化学习模型,与环境信息和灾害信息交互进行集中式强化学习模型的训练,输出训练好的集中式强化学习模型;集中式强化学习模型的奖励值和惩罚值是根据灾害仿真模拟器输出的实时灾害评估值确定的;
25.将训练好的集中式强化学习模型迁移至真实灾害环境下进行协同救援。
26.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执
行时实现以下步骤:
27.对救援区域进行侦察,确定所述救援区域中进行多无人平台协同救援的区域;
28.对无人平台的救援动作划分为任务分配动作和功能性动作,针对任务分配动作采用智能体对无人平台进行建模,针对功能性动作,采用领域知识进行建模,得到领域知识模型;领域知识模型在输入任务分配动作时,输出任务分配动作对应的功能性动作;
29.通过预先构建的环境模拟器和灾害仿真模拟器,生成环境信息和灾害信息,根据多无人平台对应的智能体构建的集中式强化学习模型,与环境信息和灾害信息交互进行集中式强化学习模型的训练,输出训练好的集中式强化学习模型;集中式强化学习模型的奖励值和惩罚值是根据灾害仿真模拟器输出的实时灾害评估值确定的;
30.将训练好的集中式强化学习模型迁移至真实灾害环境下进行协同救援。
31.上述基于领域知识的多个无人平台任务协同规划方法、装置、计算机设备和存储介质,首先对救援区域进行侦察,确定救援区域中需要进行多无人平台协同救援的区域,在该区域中对无人平台的救援动作进行分层划分,得到救援动作的任务分配动作和功能性动作,然后利用智能体和领域知识分别对任务分配动作和功能性动作建模,实现任务分配动作与功能性动作进行对应,再根据多无人平台对应的智能体构建的集中式强化学习模型,与环境信息和灾害信息交互进行集中式强化学习模型的训练,本技术利用领域知识辅助多无人平台通过神经网络训练学习如何协同救援,训练好的集中式强化学习模型中的智能体能够根据灾害环境准确输出对应的救援动作,实现协同救援,提高救援效率。
附图说明
32.图1为一个实施例中一种基于领域知识的多个无人平台任务协同规划方法的流程示意图;
33.图2为一个实施例中多无人平台任务协同的示意图;
34.图3为一个实施例中一种基于领域知识的多个无人平台任务协同规划装置的结构框图;
35.图4为一个实施例中一种基于领域知识的多个无人平台任务协同规划硬件系统构成图;
36.图5为一个实施例中计算机设备的内部结构图。
具体实施方式
37.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
38.在一个实施例中,如图1所示,提供了一种基于领域知识的多个无人平台任务协同规划方法,包括以下步骤:
39.步骤102,对救援区域进行侦察,确定所述救援区域中进行多无人平台协同救援的区域。
40.多无人平台实施救援阶段主要任务是在前期侦察基础上,派出多无人平台协同完成一定区域内的救援任务,需要对城市受灾区域进行全面的搜索侦察,便于指挥员掌握全
局信息,根据城市受灾区域中各个区域中的受灾情况确定需要进行多无人平台协同救援的区域,利用多个无人平台协同救援可以大大提高救援效率。
41.步骤104,对无人平台的救援动作划分为任务分配动作和功能性动作,针对任务分配动作采用智能体对无人平台进行建模,针对功能性动作,采用领域知识进行建模,得到领域知识模型;领域知识模型在输入任务分配动作时,输出任务分配动作对应的功能性动作。
42.多无人平台建模状态、动作空间大,难以采用规划方法进行求解,因此本发明将无人平台的动作进行了分层表示,对无人平台的救援动作划分为任务分配动作和功能性动作,底层的功能性动作基于领域知识进行定义和规划,上层的动作采用强化学习来训练,功能性动作主要包括移动、救援动作、开始/终止条件等,上层的任务分配动作仅包括目标任务的分配,从而实现状态动作空间降维。针对任务分配动作,在进行强化学习时,将无人平台表示为智能体,针对功能性动作,采用领域知识进行建模,例如,基于火灾救援领域,领域知识表示为根据火焰颜色、火势大小以及火焰温度,功能性动作包括无人消防车对应选择车载水箱或利用消防栓,消防炮的多少、消防炮打开和关闭的条件,以及无人消防车的数量,无人消防车的移动速度和移动区域的选择。
43.步骤106,通过预先构建的环境模拟器和灾害仿真模拟器,生成环境信息和灾害信息,根据多无人平台对应的智能体构建的集中式强化学习模型,与环境信息和灾害信息交互进行集中式强化学习模型的训练,输出训练好的集中式强化学习模型;集中式强化学习模型的奖励值和惩罚值是根据灾害仿真模拟器输出的实时灾害评估值确定的。
44.将城市需要救援区域进行抽象,构建的环境模拟器,环境具体包括道路、建筑物、救援基地等,该环境是基础环境,在环境模拟器基础上,采用动态的灾害仿真模拟器,可以实现建筑物倒塌、道路堵塞、房屋损毁、人员受伤等情景的模拟,无人平台可以在任务地图上随机的移动,根据多无人平台对应的智能体构建的集中式强化学习模型,在城市灾害仿真环境中,智能体与环境信息和灾害信息交互进行集中式强化学习模型的训练,当智能体采用的功能性动作降低了灾害评估值时则进行奖励,奖励与灾害减轻程度正相关;当智能体采用的功能性动作没有降低灾害评估值时进行惩罚,训练完成后,多个智能体在进行灾情救援时,会根据环境信息和灾害信息,对应采用能够降低灾情的动作,并且保证多个智能体之间是协同工作,不会采用冲突行为,进而提高救援效率。
45.步骤108,将训练好的集中式强化学习模型迁移至真实灾害环境下进行协同救援。
46.将训练好的集中式强化学习模型进行验证后迁移至真实灾害环境下进行协同救援,如图2所示,多无人平台任务协同工作。
47.上述基于领域知识的多个无人平台任务协同规划方法中,首先对救援区域进行侦察,确定救援区域中需要进行多无人平台协同救援的区域,在该区域中对无人平台的救援动作进行分层划分,得到救援动作的任务分配动作和功能性动作,然后利用智能体和领域知识分别对任务分配动作和功能性动作建模,实现任务分配动作与功能性动作进行对应,再根据多无人平台对应的智能体构建的集中式强化学习模型,与环境信息和灾害信息交互进行集中式强化学习模型的训练,本技术利用领域知识辅助多无人平台通过神经网络训练学习如何协同救援,训练好的集中式强化学习模型中的智能体能够根据灾害环境准确输出对应的救援动作,实现协同救援,提高救援效率。
48.在其中一个实施例中,救援区域包含多个任务节点,对救援区域进行侦察,确定救
援区域中进行多无人平台协同救援的区域,包括:将多无人平台中执行侦察任务时间最长无人平台的时间代价作为优化指标,任务节点的侦察需求量作为约束条件,利用采用神经组合优化方法对优化指标进行迭代寻优,得到最优解;根据最优解确定救援区域中进行多无人平台协同救援的区域。
49.将城市救援区域抽象为度量拓扑图,每个任务节点为拓扑图上关键任务点或者一个任务区域,为了完成侦察搜索任务,每个任务节点都需要一定的侦察量需求,侦察量需求是区别于时间代价的一个指标,对救援区域进行侦察的任务即将所有的任务节点在满足侦察量需求的前提下进行遍历,为了尽快完成任务,将多无人平台中执行侦察任务时间最长无人平台的时间代价作为优化指标,而将侦察需求量作为约束条件,利用采用神经组合优化方法对优化指标进行迭代寻优找到最优解,为多条规划路线分配多个无人平台,在救援区域内按照最优解对任务节点进行遍历,确定救援区域中进行多无人平台协同救援的区域。
50.在另一个实施例中,利用采用神经组合优化方法对优化指标进行迭代寻优,得到最优解,包括:根据神经组合优化方法,采用强化学习算子对优化指标进行求解,得到候选解;对候选解进行存储,设置迭代阈值,根据迭代阈值采用强化学习算子对优化指标进行迭代寻优,选择多个候选解中的最优解作为救援区域中进行多无人平台协同救援的区域。
51.在其中一个实施例中,根据多无人平台对应的智能体构建的集中式强化学习模型,与环境信息和灾害信息交互进行集中式强化学习模型的训练,输出训练好的集中式强化学习模型,包括:在集中式强化学习模型的训练中设置评分指标和一个回合的最大时间步,评分指标关联实时灾害评估值;在一个回合中,根据评分指标和最大时间步对智能体进行奖励和惩罚,得到该回合内的智能体的得分;经过多个回合训练后,选择得分最高的策略模型作为训练好的集中式强化学习模型;策略模型中包含多个功能性动作。
52.采用集中式强化学习的多智能体模式,训练智能体进行动作选择,实现不同智能体动作的协同,提高救援效率。策略模型中包含多个功能性动作,例如,基于火灾救援领域,功能性动作包括无人消防车对应选择车载水箱或利用消防栓,消防炮的多少和开闭以及无人消防车的数量,无人消防车的移动速度和移动区域的选择。
53.在另一个实施例中,在一个回合中,根据评分指标和最大时间步对智能体进行奖励和惩罚,得到该回合内的智能体的得分,包括:当智能体采用的功能性动作降低了灾害的评估指标时则进行奖励,奖励与灾害减轻程度正相关;当智能体采用的功能性动作没有降低评价指标时进行惩罚。
54.在另一个实施例中,当时间步达到最大时获取智能体的得分并启动下一回合。
55.经验动作和过程将会按照一定的规律存放在经验池中,便于更新策略。
56.在其中一个实施例中,获取预先构建的环境模拟器,包括:将城市需要救援区域进行抽象,得到城市仿真环境;根据城市仿真环境构建环境模拟器;环境模拟器包括道路、建筑物、救援基地。
57.在其中一个实施例中,采用算法迁移方法验证训练好的集中式强化学习模型,包括:
58.采用一种通信协议实现两种编程语言的实时通信;采用当前多种强化学习算法比较成熟的语言作为救援智能体算法仿真平台;采用比较成熟的城市灾害救援仿真平台作为
灾害仿真实验平台,并在该平台中构建救援智能体实体;在城市灾害仿真环境中救援智能体与环境进行交互,状态数据实时的传送更新至算法平台智能体;采用一定的基线算法进行本文算法实例的对比,选择表现较好的算法模型。对训练好的集中式强化学习模型进行泛化性评估,验证训练好的集中式强化学习模型后用于真实环境中的城市灾害协同救援。
59.在其中一个实施例中,如图4所示,一种基于领域知识的多个无人平台任务协同规划硬件系统包括救援智能体算法仿真平台、城市灾害救援仿真模拟平台和cpu服务器算法平台。
60.应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
61.在一个实施例中,如图3所示,提供了一种基于领域知识的多个无人平台任务协同规划装置,包括:多无人平台协同救援的区域确定模块302、建模模块304、集中式强化学习模型训练模块306和迁移模块308,其中:
62.多无人平台协同救援的区域确定模块302,用于对救援区域进行侦察,确定救援区域中进行多无人平台协同救援的区域;
63.建模模块304,用于对无人平台的救援动作划分为任务分配动作和功能性动作,针对任务分配动作采用智能体对无人平台进行建模,针对功能性动作,采用领域知识进行建模,得到领域知识模型;领域知识模型在输入任务分配动作时,输出任务分配动作对应的功能性动作;
64.集中式强化学习模型训练模块306,用于通过预先构建的环境模拟器和灾害仿真模拟器,生成环境信息和灾害信息,根据多无人平台对应的智能体构建的集中式强化学习模型,与环境信息和灾害信息交互进行集中式强化学习模型的训练,输出训练好的集中式强化学习模型;集中式强化学习模型的奖励值和惩罚值是根据灾害仿真模拟器输出的实时灾害评估值确定的。
65.迁移模块308,用于将训练好的集中式强化学习模型迁移至真实灾害环境下进行协同救援。
66.在其中一个实施例中,多无人平台协同救援的区域确定模块302还用于救援区域包含多个任务节点,对救援区域进行侦察,确定救援区域中进行多无人平台协同救援的区域,包括:将多无人平台中执行侦察任务时间最长无人平台的时间代价作为优化指标,任务节点的侦察需求量作为约束条件,利用采用神经组合优化方法对优化指标进行迭代寻优,得到最优解;根据最优解确定救援区域中进行多无人平台协同救援的区域。
67.在另一个实施例中,多无人平台协同救援的区域确定模块302还用于利用采用神经组合优化方法对优化指标进行迭代寻优,得到最优解,包括:根据神经组合优化方法,采用强化学习算子对优化指标进行求解,得到候选解;对候选解进行存储,设置迭代阈值,根据迭代阈值采用强化学习算子对优化指标进行迭代寻优,选择多个候选解中的最优解作为救援区域中进行多无人平台协同救援的区域。
68.在其中一个实施例中,集中式强化学习模型训练模块306还用于根据多无人平台对应的智能体构建的集中式强化学习模型,与环境信息和灾害信息交互进行集中式强化学习模型的训练,输出训练好的集中式强化学习模型,包括:在集中式强化学习模型的训练中设置评分指标和一个回合的最大时间步,评分指标关联实时灾害评估值;在一个回合中,根据评分指标和最大时间步对智能体进行奖励和惩罚,得到该回合内的智能体的得分;经过多个回合训练后,选择得分最高的策略模型作为训练好的集中式强化学习模型;策略模型中包含多个功能性动作。
69.在另一个实施例中,集中式强化学习模型训练模块306还用于在一个回合中,根据评分指标和最大时间步对智能体进行奖励和惩罚,得到该回合内的智能体的得分,包括:当智能体采用的功能性动作降低了灾害的评估指标时则进行奖励,奖励与灾害减轻程度正相关;当智能体采用的功能性动作没有降低评价指标时进行惩罚。
70.在另一个实施例中,集中式强化学习模型训练模块306还用于当时间步达到最大时获取智能体的得分并启动下一回合。
71.在其中一个实施例中,集中式强化学习模型训练模块306还用于获取预先构建的环境模拟器,包括:将城市需要救援区域进行抽象,得到城市仿真环境;根据城市仿真环境构建环境模拟器;环境模拟器包括道路、建筑物、救援基地。
72.关于基于领域知识的多个无人平台任务协同规划装置的具体限定可以参见上文中对于基于领域知识的多个无人平台任务协同规划方法的限定,在此不再赘述。上述基于领域知识的多个无人平台任务协同规划装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
73.在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于领域知识的多个无人平台任务协同规划方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
74.本领域技术人员可以理解,图5中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
75.在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述实施例中方法的步骤。
76.在一个实施例中,提供了一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中方法的步骤。
77.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
78.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
79.以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献