一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种多智能体一致性强化学习控制方法与流程

2022-03-19 18:24:06 来源:中国专利 TAG:

技术特征:
1.一种多智能体一致性强化学习控制方法,所述多智能体系统中跟随者模型为:其中,代表智能体i的第j阶的状态,f(x
i
)为连续非线性函数,u
i
(t)为控制输入,d
i
(t)为未知干扰;所述多智能体系统中领导者动力学方程为:其中,代表领导者的第j阶的状态,f(x0)为连续非线性函数,d0(t)为未知干扰;n个跟随者智能体能够获取自身的各阶状态信息以及与其相连接的延迟时间τ的邻居智能体j的状态信息;其特征在于包括以下步骤:步骤1:由所述多智能体系统模型,定义智能体i的第j个分量的局部邻居误差:其中,a
ij
为智能体i与智能体j之间的权重,b
i
为智能体i与领导者的权重,∑为拓扑图中智能体j到智能体i的所有拓扑关系的总和;步骤2:通过式(3)得到智能体i的局部邻居误差系统方程:步骤3:定义虚拟控制器:v

(t)=f(x
i
) u
i
(t);
ꢀꢀꢀꢀꢀ
(5)步骤4:根据实际多智能体之间通信存在的时滞,构建公式,定义如下:
其中,复合控制器复合控制器为分布式最优控制器,为分布式积分滑模控制器,为智能体j具有时滞信息的虚拟控制器,τ为通信时滞;步骤5:n个跟随者智能体根据自己的状态信息及其邻居智能体的信息来分别构建局部邻居误差动力学方程向量形式为:其中,δ
i
(t)为智能体i的状态误差向量,为智能体i的复合控制器,为关于智能体j的虚拟控制器,δ
ij
(t)=∑a
ij
(d
i
(t)-d
j
(t)) b
i
(d
i
(t)-d
j
(t));步骤6:设计分布式积分滑模控制器;步骤7:设计分布式最优控制器。2.根据权利要求1所述的一种多智能体一致性强化学习控制方法,其特征在于,所述步骤6设计分布式积分滑模控制器包括以下步骤:步骤6.1:对所述分布式积分滑模控制器,选用积分滑模面为:其中,δ
i
为智能体i的状态误差向量,s
i

i
)为滑模函数,s
i0

i
)为关于δ
i
(t)的函数,s
i0
(δ0)为常数,步骤6.2:根据所选积分滑模面式(8)设计分布式积分滑模控制器为:其中,β(0<β<1)为通信时滞系数,定义r
i
(t)的导数:σ0(σ0>0)为常数,sgn(
·
)为符号函数,为关于智能体j的虚拟控制器,δ
ij
(t)=∑a
ij
(d
i
(t)-d
j
(t)) b
i
(d
i
(t)-d
j
(t));所述步骤7设计分布式最优控制器包括以下步骤:步骤7.1:当智能体达到滑模面时,设计式(10)的等效控制器为:步骤7.2:智能体达到滑模面后,式(7)则为:步骤7.3:提出如下性能指标:
其中,γ
i
为折扣因子,q
i
≥0为半正定矩阵,r
i
>0为正定矩阵;步骤7.4:基于所提出的性能指标,定义其值函数为:步骤7.5:根据最优控制理论,提出如下哈密尔顿函数:提出如下哈密尔顿函数:有如下hjb方程:步骤7.6:得到分布式最优控制器:3.根据权利要求2所述的一种多智能体一致性强化学习控制方法,其特征在于,所述hjb方程采用基于策略迭代强化学习算法的actor-critic神经网络求解,求解过程包括以下步骤:所述值函数采用critic神经网络逼近:其中,表示critic神经网络估计权值,φ
i

i
)为神经网络激活函数;所述分布式最优控制器采用actor神经网络估计:其中,表示actor神经网络估计权值,为激活函数的导数;所述critic神经网络估计权值采用如下方程更新:其中,其中,为critic神经网络的学习率;所述actor神经网络估计权值采用如下方程更新:
其中,其中,为actor神经网络的学习率,g
i1
与g
i2
为可调参数。4.根据权利要求3所述的一种多智能体一致性强化学习控制方法,其特征在于,所述分布式积分滑模控制器具有自适应学习能力,分布式积分滑模控制器的自适应学习算法,包括以下步骤:s1:初始化;s2:计算s3:计算分布式滑模面:s
i

i
(t));s4:计算分布式积分滑模控制器:s5:计算复合控制器:s6:由式(6)计算s7:计算实际控制器:s8:计算值函数:s9:更新critic神经网络权值;s10:更新actor神经网络权值;s11:重复步骤s2-s10,直到收敛。5.根据权利要求4所述的一种多智能体一致性强化学习控制方法,其特征在于,所述步骤s1初始化包括:初始化领导者的状态x0(0)与跟随者的状态x
i
(0),令并且初始化critic神经网络权值和actor神经网络权值6.根据权利要求4所述的一种多智能体一致性强化学习控制方法,其特征在于,所述步骤s2是通过式(19)计算7.根据权利要求4所述的一种多智能体一致性强化学习控制方法,其特征在于,所述步骤s3是通过式(8)计算分布式滑模面s
i

i
(t))。8.根据权利要求4所述的一种多智能体一致性强化学习控制方法,其特征在于,所述步骤s4是通过式(10)计算分布式积分滑模控制器9.根据权利要求4所述的一种多智能体一致性强化学习控制方法,其特征在于,所述步骤s9是通过式(20)更新critic神经网络权值。10.根据权利要求4所述的一种多智能体一致性强化学习控制方法,其特征在于,所述步骤s10是通过式(21)更新actor神经网络权值。

技术总结
本发明涉及一种多智能体一致性强化学习控制方法,包含如下步骤:由所述多智能体系统中领导者动力学模型,定义智能体i的第j个分量的局部邻居误差;通过式(3)得到智能体i的局部邻居误差系统方程;定义虚拟控制器;根据实际多智能体之间通信存在的时滞,构建公式;N个跟随者智能体根据自己的状态信息及其邻居智能体的信息来分别构建局部邻居误差动力学方程向量;设计分布式积分滑模控制器;设计分布式最优控制器。本发明将具有强鲁棒性的滑模控制和强化学习算法相结合,设计的分布式复合控制律不仅能使整个高阶多智能体系统抵抗外界扰动使系统具有很强的鲁棒性而且使整个多智能体系统具有自学习能力从而实现最优一致性。体系统具有自学习能力从而实现最优一致性。体系统具有自学习能力从而实现最优一致性。


技术研发人员:李金娜 袁林
受保护的技术使用者:辽宁石油化工大学
技术研发日:2021.11.11
技术公布日:2022/3/18
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献