一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

面向围捕任务的多无人机智能协同决策方法与流程

2021-10-09 11:48:00 来源:中国专利 TAG:无人机 围捕 智能 协同 决策

技术特征:
1.一种面向围捕任务的多无人机智能协同决策方法,其特征是,首先基于比例控制和避障机制建立初步决策方案,随后采用多智能体确定性策略梯度方法对初步决策方案进行评价改进,获得最优行动策略,最后,在线应用优化后的网络实时给出决策结果,完成面向围捕任务的多无人机任务决策。2.如权利要求1所述的面向围捕任务的多无人机智能协同决策方法,其特征是,第一部分,建立初步决策方案,即根据人工势场法与比例控制方法得出每一架己方无人机的初步加速度:首先,由于区域内存在若干静态障碍物,为安全考虑,无人机在飞行过程中不能与障碍物碰撞,考虑这一约束,采用人工势场法获得可以避免无人机撞向障碍物的加速度分量;其次,考虑到己方无人机之间、对方无人机之间均不能发生碰撞,同样采用人工势场法获得可以避免无人机之间互相碰撞的加速度分量;再次,考虑己方无人机想要短时间内尽快完成围捕任务的目标,采用比例控制方法尽可能缩短两者之间的距离与速度差;最后考虑双方无人机的最大速度限制,当己方或对方无人机的飞行速度超过最大速度时,对其进行修正,最终根据得到的加速度分量,计算每一架己方无人机的初步飞行加速度获得初步决策方案;第二部分,改进决策方案,即采用多智能体强化学习方法通过评价改进的方式优化决策结果:首先,考虑多无人机围捕问题中需要满足的避碰避障约束、速度约束和快速完成围捕的目标,建立随机博弈模型sg,即确定围捕问题中的状态集、观测状态集、动作集、立即收益值、状态转移概率以及折扣因子;然后,基于中心式评价

去中心式决策的结构,利用神经网络拟合特性,建立评价网络与决策网络,分别用来输出当前决策结果与此时可能获得的平均总收益值;最后,在与仿真环境的交互过程中,采用多智能体确定性策略梯度方法训练评价网络与决策网络的网路参数,通过评价网络的输出指导决策网络的决策结果,通过一致经验回放机制,抽取数据库中的数据逐步改进评价结果的准确度与改进决策结果,最终获得最优行动策略;第三部分,在线决策,即利用训练好的网络进行实时决策:通过前两部分完成离线学习过程之后,评价网络和决策网络的网络参数也被确定下来,此时决策网络拟合的可观测状态与无人机动作之间的映射关系近似等于最优行动策略,考虑到实际任务执行过程中的无人机仅能观测到部分状态,这时需要全局状态信息和动作信息作为输入的评价网络将无法应用,因此对于待解决的多无人机围捕任务,己方各无人机采用去中心式决策结构,即仅将离线学习后得到的决策网络用于在线环节,在存在环境不确定影响的真实任务环境中,最终实现多无人机分布式实时任务决策。3.如权利要求1所述的面向围捕任务的多无人机智能协同决策方法,其特征是,详细步骤如下:第一步,建立初步决策方案,即根据人工势场法与比例控制方法得出每一架己方无人机的初步加速度首先给出多无人机围捕问题中,己方各架无人机需要满足的约束条件和性能指标函数:1)速度约束||v
i
||≤v
maxi
,||v
j
||≤v
maxj
ꢀꢀꢀꢀ
(1)其中v
i
和v
j
分别表示己方无人机和对方无人机的速度,i∈[1,n
i
],j∈[n
i
1,n
i
n
j
],n
i
和n
j
分别为任务区域内的己方和对方无人机总数,v
maxi
和v
maxj
分别表示己方无人机和对方无人机的最大速度;2)避碰避障约束δp
ik
>d
outi
,δp
jk
>d
outj
ꢀꢀꢀꢀ
(2)其中δp
ik
=||p
i

p
k
||,δp
jk
=||p
j

p
k
||,分别表示第i个己方无人机和第j个对方无人机相对第k个障碍物之间的距离,p
i
,p
j
和p
k
分别表示第i个己方无人机的位置、第j个对方无人机的位置以及第k个障碍物中心点的位置,i∈[1,n
i
],k∈[1,n
k
],j∈[n
i
1,n
i
n
j
],n
k
表示区域内障碍物的总个数,d
ini
和d
outi
分别表示己方无人机的最小安全半径和最大安全半径,表示第i个己方无人机相对第个己方无人机的距离,个己方无人机的距离,表示第j个己方无人机相对第个己方无人机的距离,3)性能指标由围捕任务的成功条件可知,性能指标设置为使如式(4)所示函数j
task
最小化j
task
=t
task
ꢀꢀꢀꢀ
(4)其中t
task
表示完成围捕任务需要的时间步;考虑如式(2)所示的避障约束,采用人工势场法获得可以避免碰撞的加速度分量考虑如式(2)所示的避障约束,采用人工势场法获得可以避免碰撞的加速度分量其中,表示第个无人机与第个障碍物之间的排斥力,为障碍物势能场函数的负梯度,即其中障碍物势能场函数定义为定义为因此,写为然后考虑式(3)所示的避碰约束,同样采用人工势场法获得可以避免碰撞的加速度分量
其中,表示己方无人机之间的排斥力,为己方无人机势能场函数的负梯度其中障碍物势能场函数定义为定义为因此,写为接下来考虑式(4)所示的围捕目标,若己方无人机想要追踪上对方无人机,需要尽可能缩短两者之间的距离与速度差,因此加速度分量表示为最后考虑式(1)中的速度约束,当己方无人机或对方无人机的飞行速度最后考虑式(1)中的速度约束,当己方无人机或对方无人机的飞行速度超过最大速度时,对其进行修正,即超过最大速度时,对其进行修正,即通过上述分析,得到初步决策方案:第二步,改进决策方案,即采用多智能体强化学习方法通过评价改进的方式优化决策结果(1)建立随机博弈模型根据式(1)

(4)中描述的多无人机围捕问题,总结为随机博弈模型,各个符号的含义如下:1)状态集s根据任务的具体情况,将t时刻每个障碍物中心点的位置,己方无人机的位置和速度,对方无人机的位置,作为状态量s,即。s=(p
k
,p
i
,v
i
,p
j
,v
j
)∈s
ꢀꢀꢀꢀ
(15)
其中,i∈[1,n
i
],j∈[n
i
1,n
i
n
j
],k∈[1,n
k
]。2)观测状态集o
i
,o
j
,对于第i个己方无人机,将t时刻自身的位置、速度、与区域内各个障碍物之间的相对位置、与己方其他无人机之间的相对位置、与对方无人机之间的相对位置、对方无人机的移动速度作为观测状态类似的,对于第j个对方无人机,观测状态写为3)动作集a将己方无人机的附加加速度作为动作a
i
,将对方无人机的加速度作为a
j
,即那么己方无人机的实际加速度为初始加速度与附加加速度之和,即4)立即收益值r
i
,r
j
将己方无人机收到的立即收益值设计为其中,其中,其中,其中,其中,其中,5)状态转移概率由于区域内障碍物的位置不会变动,给出无人机的状态转移函数γ
p
,将无人机的运动学和动力学方程作为状态转移函数,写为如式(21)所示形式p
i
(t 1)=p
i
(t) v
i
(t 1)δt d
1i
(t)v
i
(t 1)=v
i
(t) a
i
(t)δt d
2i
(t)
p
j
(t 1)=p
j
(t) v
j
(t 1)δt d
1j
(t)v
j
(t 1)=v
j
(t) a
j
(t)δt d
2j
(t)
ꢀꢀꢀꢀ
(21)其中,d
1i
(t),d
2i
(t),d
1j
(t),d
2j
(t)为己方无人机和对方无人机在环境中受到的外界干扰。考虑速度约束,当己方无人机或对方无人机的飞行速度v
i
(t 1),v
j
(t 1)超过最大速度时,按照对(14)其进行修正,而式(21)中的位置转移函数修正为正,而式(21)中的位置转移函数修正为6)折扣因子γγ表示未来收益值相对于当前收益值的重要程度,当γ=0时,相当于只考虑当前收益不考虑未来收益,γ=1时,将未来收益和当前收益看得同等重要,这里选取折扣因子γ=0.95;通过对随机博弈模型五个符号的定义,基于围捕任务的多无人机任务决策过程可描述为:当各无人机在任务环境中的实际位置、速度、静态障碍物的位置组成状态s(t)时,各无人机根据自身传感器获得与其他无人机及障碍物的相对距离,无人机的自身位置与速度、对方无人机速度等观测信息o
i
(t),o
j
(t),选择附加加速度a
i
(t)或加速度a
j
(t),并根据式(20)获得相应的立即收益值r
i
(t),由状态转移函数(21)

(22),此时实际状态变为s(t 1),重复该过程直到实现成功围捕的目标;(2)建立评价网络与决策网络采用中心式评价

去中心式执行的网络框架,通过神经网络的拟合功能,建立决策与评价网络,分别用来输出当前决策结果与此时可能获得的平均总收益值;1)建立评价网络评价函数为第i个己方无人机的中心式评价值的近似值,表明在当前时刻所有无人机的观测状态集合下,当其他无人机根据各自的行动策略和观测状态分别选择附加加速度或加速度时,己方无人机根据行动策略和当前观测值选择附加加速度可能获得的平均总收益值,引入神经网络近似环节对评价值进行参数化,得到评价网络,由于采用中心式评价的结构,评价网络的输入为当前时刻任务环境内所有无人机的观测状态集合与动作集合;输出为在当前其他无人机选择动作为时,己方无人机根据当前观测值与行动策略选择动作可能获得的平均总收益值的近似值,采用的评价网络为全连接层神经网络,对于每一个己方无人机,网络层数为7层,包括1层输入层,5层隐藏层和1层输出层,输入节点个数为所有无人机观测状态集合和动作集合的维度;由于评价网络输出为当前观测状态集合下第i个无人机执行当前动作可能获得的平均累计总收益,因此,输出节点个数为1;2)建立决策网络采用确定性策略,那么参数化之前的第i个无人机的行动策略为仅根据当前的观测值决定该时刻的动作,由于采用去中心式决策的结构,决策网络的输入为无人机自身的可观测状态,输出为当前时刻的附加加速度,采用的决策网络也为全连接层神经网络,网络层数为5层,包括1层输入层,3层隐藏层和1层输出层,输入节点个数为第i个无人机观测状态的维度,由于决策网络输出为无人机的附加加速度或飞行加速度,因此输出节点个数为动作维度;
(3)更新网络参数基于给定的网络结构,网络参数更新方式如下对于第i个己方无人机来说,其决策网络以最大化自身的平均总收益为目标,即因此通过最小化梯度来训练决策网络的网络参数,接下来进一步给出评价网络的更新方程,若评价网络的输出值近似真实值q
i
,需满足最小,结合贝尔曼方程:q

i
=r
i
γq
i
,其中q

i
表示在下一时刻的评价值。此时,评价网络的更新方程考虑到训练网络所用的经验数据之间具有相关性,为了避免其影响网络的收敛效果,设计目标决策网络和目标评价网络,用来输出目标q
i
值;需要注意的是,由于相邻的数据之间具有相关性,因此不能按照存储顺序直接从经验回放池中提取数据,这里从经验回放池d中进行随机收取经历数据e进行训练,这种数据存储和提取方式称为一致经验回放,由于在训练过程中,双方无人机需要提取同一训练回合中同一时刻的数据进行训练,否则会出现无人机的行动策略收敛到不同平衡点的情况,因此采用一致经验回放机制进行数据采样,即从经验数据库d中随机抽取同一训练回合中同一时刻的数据;第三步,在线决策,即利用训练好的网络进行实时决策:在完成离线学习过程之后,评价网络的网络参数和决策网络的网络参数也被确定下来,此时决策网络拟合的可观测状态与无人机动作之间的映射关系近似等于最优行动策略,考虑到实际任务执行过程中的无人机仅能观测到部分状态,这时需要全局状态信息和动作信息作为输入的评价网络将无法应用,因此对于多无人机围捕任务,己方各无人机采用去中心式决策结构,即仅将离线学习后得到的决策网络用于在线环节,在存在环境不确定影响的真实任务环境中,最终实现多无人机分布式实时任务决策;在围捕过程中己方各无人机将探测到的自身位置、速度、与区域内各个障碍物之间的相对位置、与己方其他无人机之间的相对位置、与对方无人机之间的相对位置、对方无人机的移动速度作为观测信息,输入到决策网络中;训练好的决策网络会快速给出该时刻的附加加速度,与初步加速度相加得到实际飞行加速度,考虑环境不确定对无人机完成任务效果的影响,即飞行环境中可能受到的外界干扰,得到无人机实际位置与速度,重复这一过程,直到到达执行任务时间或完成围捕目标。

技术总结
本发明涉及强化学习、传统控制和多智能体等领域,为提出一种面向围捕任务的基于多智能体确定性策略梯度和避障机制的多无人机智能协同决策方法,考虑状态部分可观测的特点、任务环境动态性与不确定性因素的影响,采用多智能体确定性策略梯度方法和避障机制,获得最优行动策略,达到多无人机智能协同决策的目的,本发明,面向围捕任务的多无人机智能协同决策方法,首先基于比例控制和避障机制建立初步决策方案,随后采用多智能体确定性策略梯度方法对初步决策方案进行评价改进,获得最优行动策略,最后,在线应用优化后的网络实时给出决策结果,完成面向围捕任务的多无人机任务决策。本发明主要应用于多无人机智能协同场合。本发明主要应用于多无人机智能协同场合。本发明主要应用于多无人机智能协同场合。


技术研发人员:宗群 张睿隆 赵欣怡 窦立谦 张秀云
受保护的技术使用者:天津大学
技术研发日:2021.06.30
技术公布日:2021/10/8
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜