一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

事件触发下无人系统集群的无模型最优分组协同控制方法

2022-07-27 22:25:10 来源:中国专利 TAG:


1.本发明涉及多智能体系统控制领域,无人系统集群控制是多智能体系统一致性协同控制的典型应用,本专利内容中使用多智能体系统进行具体描述。


背景技术:

2.近几十年来,多智能体系统的一致性控制得到了很大的发展和广泛的应用,如自主移动机器人编队控制、群集、多无人机编队控制、卫星编队飞行、传感器网络目标跟踪等。需要注意的是,多智能体系统的一致性控制的相关工作主要集中在系统模型的设计和稳定性条件的获取上,但很少考虑最优性能。因此,最优协调控制问题已成为一个热门而重要的研究课题,因为它可以极大地降低控制成本,具有重要的实际应用价值。传统的最优控制依赖于耦合的哈密顿-雅可比-贝尔曼方程的解析。然而,求解此方程是一项非常困难的任务。自适应动态规划方法被认为是解决该问题的有效且潜在的方法,它结合了最优控制和强化学习的优点。然而,现有的大部分采用自适应动态规划方法的一致性研究工作都必须依赖精确的系统模型。但在实际应用中,由于结构复杂,大多数系统难以获得精确的系统模型,这限制了它们的应用范围。此外,这些工作通常使用智能体之间的周期性采样控制,这会消耗大量的系统资源。
3.目前大部分关于多智能体系统最优控制的工作都是基于一阶智能体的,但实际上,大多数机械系统都是二阶动态系统,例如成群结队的车辆、机器人、无人机等等。除了位置信息,我们还需要知道它们的速度信息,才能准确地描述它们的动力学特性。此外,现有工作很少涉及智能体之间的竞争交互,但是实际上智能体之间需要竞争有限的系统资源,同时又要相互合作完成一致性任务,因此,对于智能体之间的合作竞争交互研究很有必要性。最后,随着多智能体系统规模和复杂性的增加,可能需要将其划分为不同的子网,并且智能体的一致值可能会随着环境或任务的变化而有所不同。
4.经过检索,申请公开号cn108897229a,一种二阶多智能体系统的领导-跟随比例一致性控制方法,根据网络的拓扑结构确定跟随智能体与领导者,确定以领导者为根节点的有向生成树结构;其次根据期望实现多智能体状态比例关系,为跟随智能体选择比例参数,使二阶多智能体状态达到预期指定比例关系;最后在一个或多个跟随智能体能获取领导者信息的情况下,设计多智能体的领导-跟随比例一致性协议,实现跟随智能体的状态以一定的比例严格跟随领导者的状态,所有跟随智能体的状态实现比例一致性。
5.本专利和上述专利内容仅领导者-跟随者模型相似,本文的专利创新重点是合作竞争网络,多智能体最优控制,事件触发。系统的模型只是一种材料,谁都可以用,比如在纸上写文字,重点是用这个材料做出的东西。


技术实现要素:

6.本发明旨在解决以上现有技术的问题。提出了一种事件触发下无人系统集群的无模型最优分组协同控制方法。无人系统集群控制是多智能体系统一致性协同控制的典型应
用,本专利内容中使用多智能体系统进行具体阐述。本发明的技术方案如下:
7.一种事件触发下无人系统集群的无模型最优分组协同控制方法,其包括以下步骤:
8.s1、首先获取智能体的初始位置和速度信息,利用矩阵理论转换二阶智能体的动力学模型,得到同时包含智能体位置信息和速度信息的动力学方程;
9.s2、根据包含智能体合作竞争交互的局部邻域跟踪误差协议分别对智能体状态信息进行处理,得到该智能体的局部邻域跟踪误差;
10.s3、利用邻域跟踪误差和贝尔曼最优原理建立智能体的性能指标函数,并计算该智能体的最优控制策略;
11.s4、使用基于演员-批评家神经网络的自适应动态规划方法拟合智能体的最优控制策略;
12.s5、为每个智能体设置事件触发阈值,当该智能体的局部邻域跟踪误差超过该阈值时更新其控制策略;
13.s6、智能体根据控制策略不断更新其状态信息,最终实现多智能体系统的最优分组一致。
14.进一步的,所述s1利用矩阵理论转换二阶智能体的动力学模型,得到同时包含智能体位置信息和速度信息的动力学方程,具体包括:
15.所述二阶智能体的模型为领导者-跟随者模型,其中跟随者智能体的动力学方程为:
[0016][0017]
其中,xi(k),ui(k),vi(k)分别表示智能体的位置信息、控制输入以及速度信息;矩阵a,b,c以及ti是系统参数矩阵,并且是完全未知的;k是智能体迭代的时间步长;
[0018]
所述领导者智能体的动力学方程为:
[0019][0020]
其中,x0(k)∈rn,v0(k)∈rm分别是领导者智能体的位置和速度信息;
[0021]
所述转换后的智能体动力学模型为:
[0022][0023]
其中跟随者智能体的状态为领导者智能体的状态为领导者智能体的状态为矩阵p,si是转换后新的系统参数矩阵,矩阵a,b,c以及ti是原系统参数矩阵,并且是完全未知的;k是智能体迭代的时间步长;
[0024]
进一步的,所述s2根据包含智能体合作竞争交互的局部邻域跟踪误差协议分别对
智能体状态信息进行处理,得到该智能体的局部邻域跟踪误差,具体包括:
[0025]
所述包含智能体合作竞争交互的局部邻域跟踪误差协议包括:
[0026][0027]
其中,γ
ij
是智能体之间的竞争系数,γ
ij
<0代表着智能体i与智能体j之间存在竞争交互,相反,γ
ij
>0代表着智能体之间的合作交互;如果智能体i可以收到智能体j的通信信息,则a
ij
>0,否则,a
ij
=0;当且仅当跟随者智能体i存在一条入度边来自领导者智能体,bi>0,否则,bi=0。yj(k)是转换后智能体j的状态信息、ni表示智能体i的邻域智能体、δi(k)是智能体i的局部邻域跟踪误差协议。
[0028]
进一步的,所述s3利用邻域跟踪误差和贝尔曼最优原理建立智能体的性能指标函数,并计算该智能体的最优控制策略,具体包括:
[0029]
所述智能体的性能指标函数为:
[0030]ji
(δi(k),ui(k),uj(k))=ui(δi(k),ui(k),uj(k)) αji(δi(k 1),ui(k 1),uj(k 1))
[0031]
其中是智能体i的回报函数,α∈(0,1]是强化学习领域中的折扣因子;q
ii
≥0,r
ii
≥0,r
ij
≥0是正对称加权矩阵,通常设置为单位矩阵;为了方便研究,简化公式ji(δi(k),ui(k),uj(k))=ji(δi(k))以及ui(δi(k),ui(k),uj(k))=ui(δi(k),ui(k));
[0032]
所述最优控制策略为:
[0033][0034]
其中,bi是智能体i与领导者智能体的关系参数,当且仅当跟随者智能体i存在一条入度边来自领导者智能体,bi>0,否则,bi=0。di是智能体i的入度、是智能体i的最优控制策略、是矩阵r
ii
的逆矩阵。
[0035]
进一步的,所述s4使用基于演员-批评家神经网络的自适应动态规划方法拟合智能体的最优控制策略,具体包括:
[0036]
所述actor神经网络为:
[0037][0038]
其中,k
si
为智能体i的事件触发时刻,k
si 1
为智能体i下一事件触发时刻;是智能体i的演员神经网络权重,z
ci
()是包含跟踪误差δj信息的输入向量,ψ
ci
(
·
)是激活函数;为近似性能指标函数。
[0039]
所述critic神经网络为:
[0040][0041]
其中,是智能体i近似最优控制策略,ψ
ai
(
·
)是激活函数,z
ai
(
·
)是包含跟踪误差δi信息的输入向量,智能体i的演员神经网络权重。
[0042]
在演员-批评家神经网络权重的更新规则中,仅仅使用系统过去和当前的数据,并
没有涉及到多智能体系统精确的系统模型,即使系统矩阵p和si是未知的也不会影响神经网络权重的更新。
[0043]
进一步的,所述s5为每个智能体设置事件触发阈值,当该智能体的局部邻域跟踪误差超过该阈值时更新其控制策略,具体包括:
[0044]
所述智能体的事件触发阈值为:
[0045][0046]
其中z=η-σk
是过滤函数,事件触发参数f,η,σ是正数且满足f
2-2σlnη<0,是智能体j的演员神经网络权重,z
aj
(k
sj
1)是包含跟踪误差δj(k
sj
)信息的输入向量,ei(k)是智能体的事件触发误差;k1为智能体i的第一次事件触发时刻,k
si 1
为智能体i下一事件触发时刻。
[0047]
进一步的,所述s6智能体根据控制策略不断更新其状态信息,最终实现多智能体系统的最优分组一致,具体包括:
[0048]
当异质多智能体系统满足以下条件时,所有的智能体可以达到分组一致;满足的条件为:
[0049][0050]
其中,如果第i个智能体和领导者智能体在同一子网,那么ci=1,否则ci=-1;x0(k)、v0(k)分别表示领导者智能体在k时刻的位置和速度信息,xi(k)、vi(k)分别表示智能体i在k时刻的位置和速度信息。
[0051]
考虑由一个领导者智能体和n个跟随者智能体组成的离散二阶多智能体系统,其通信拓扑可以抽象为图其中是图的顶点集,每一个顶点代表着多智能体系统中的一个智能体;是图的所有的边组成的集合;在有向图中,有向路径(vi,vj)是指从顶点vi到顶点vj的一系列连续的边{(vi,vn),(vn,vm)...,(vm,vj)},矩阵是多智能体系统的加权邻接矩阵,如果智能体i可以收到智能体j的通信信息,则a
ij
>0,否则,a
ij
=0;定义顶点vi的邻接顶点集为则顶点vi的入度为d=diag{d1,d2,...,dn},其中
[0052]
本发明的优点及有益效果如下:
[0053]
1、本发明的多智能体系统中包括合作-竞争关系的多智能体,根据多智能体系统中智能体之间的合作竞争关系设计如下局部邻域跟踪误差协议:
[0054][0055]
其中,γ
ij
是智能体之间的竞争系数,γ
ij
<0代表着智能体i与智能体j之间存在竞争交互,相反,γ
ij
>0代表着智能体之间的合作交互;a
ij
是智能体i和智能体的邻接关系,如果智能体i可以收到智能体j的通信信息,则a
ij
>0,否则,a
ij
=0;当且仅当跟随者智能体i存在一条入度边来自领导者智能体,bi>0,否则,bi=0。yj(k)是转换后智能体j的状态信息、ni表示智能体i的邻域智能体、δi(k)是智能体i的局部邻域跟踪误差协议。此协议将智能体分为两个组,这种竞争合作的内部关系相比于单一的合作关系或者竞争关系,更符合现实复杂系统的内部关系,有利于智能体系统执行并行分布式任务,最终使同组智能体收敛到相同值,不同组智能体收敛值相反。
[0056]
2、本发明的多智能体系统是具位置信息和速度信息的二阶多智能体系统,相比于一阶多智能体系统,二阶多智能体系统能够更加准确的描述实际存在的工程项目系统。
[0057]
3、本发明为每个智能体设计了一种新颖的包含过滤函数的事件触发机制:
[0058][0059]
其中z=η-σk
是过滤函数,事件触发参数f,η,σ是正数且满足f
2-2σlnη<0,是智能体j的演员神经网络权重,z
aj
(k
sj
1)是包含跟踪误差δj(k
sj
)信息的输入向量,ei(k)是智能体的事件触发误差;k1为智能体i的第一次事件触发时刻,k
si 1
为智能体i下一事件触发时刻。此事件触发机制中的过滤函数可以有效的减少普通事件触发机制引起的过度触发问题,降低了控制成本,极大的减少的系统资源的消耗。
[0060]
4、本发明使用基于神经网络的无模型自适应动态规划算法进行拟合最优控制,使得该算法不必考虑真实系统的精确模型,其应用分为更加广泛。
[0061]
演员神经网络为:
[0062][0063]
其中,是智能体i近似最优控制策略,ψ
ai
(
·
)是激活函数,z
ai
(
·
)是包含跟踪误差δi信息的输入向量,智能体i的演员神经网络权重。
[0064]
定义输出误差函数为:
[0065][0066]
其中,其中,是批评家神经网络近似最优性能指标函数,参数通常设置为0。
[0067]
设计演员神经网络的权重更新公式为:
[0068]
[0069]
其中,参数参数κ
ai
是演员神经网络的学习率。
附图说明
[0070]
图1是本发明提供优选实施例例的系统控制流程图;
[0071]
图2为本发明实施例的系统拓扑图;
[0072]
图3为本发明实施例的智能体位置演变图;
[0073]
图4为本发明实施例的智能体速度演变图。
[0074]
图5为本发明实施例的智能体事件触发时刻图。
具体实施方式
[0075]
无人系统集群控制是多智能体系统一致性协同控制的典型应用,本专利内容中使用多智能体系统进行具体阐述。下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
[0076]
本发明解决上述技术问题的技术方案是:
[0077]
如图1所示,一种合作竞争网络中事件触发下无人系统集群的无模型最优分组协同控制方法,该方法包括但不限于如下步骤:
[0078]
s1、利用矩阵理论转换二阶智能体的动力学模型,得到同时包含智能体位置信息和速度信息的动力学方程。
[0079]
所述二阶智能体模型为领导者-跟随者模型,其中跟随者智能体的动力学方程为:
[0080][0081]
其中,xi(k)∈rn,vi(k)∈rm分别表示智能体的位置信息、控制输入以及速度信息;系统矩阵a∈rn×n,b∈rn×m,c∈rm×m以及都是完全未知的矩阵。
[0082]
所述领导者智能体的动力学方程为:
[0083][0084]
其中,x0(k)∈rn,v0(k)∈rm分别是领导者智能体的位置和速度信息。
[0085]
所述转换后的智能体动力学模型为:
[0086][0087]
其中跟随者智能体的状态为领导者智能体的状态为领导者智能体的状态为
[0088]
s2、根据包含智能体合作竞争交互的局部邻域跟踪误差协议分别对智能体状态信息进行处理,得到该智能体的局部邻域跟踪误差。
[0089]
所述包含智能体合作竞争交互的局部邻域跟踪误差协议包括:
[0090][0091]
其中,γ
ij
是智能体之间的竞争系数。γ
ij
<0代表着智能体i与智能体j之间存在竞争交互,相反,γ
ij
>0代表着智能体之间的合作交互。如果智能体i可以收到智能体j的通信信息,则a
ij
>0,否则,a
ij
=0;当且仅当跟随者智能体i存在一条入度边来自领导者智能体,bi>0,否则,bi=0。
[0092]
s3、利用邻域跟踪误差和贝尔曼最优原理建立智能体的性能指标函数,并计算该智能体的最优控制策略;
[0093]
所述智能体的性能指标函数为:
[0094]ji
(δi(k),ui(k),uj(k))=ui(δi(k),ui(k),uj(k)) αji(δi(k 1),ui(k 1),uj(k 1))
[0095]
其中是智能体i的回报函数,α∈(0,1]是强化学习领域中的折扣因子;q
ii
≥0,r
ii
≥0,r
ij
≥0是正对称加权矩阵,通常设置为单位矩阵。为了方便研究,简化公式ji(δi(k),ui(k),uj(k))=ji(δi(k))以及ui(δi(k),ui(k),uj(k))=ui(δi(k),ui(k))。
[0096]
所述最优控制策略为:
[0097][0098]
s4、由于关于智能体最优控制策略的哈密顿-雅可比-贝尔曼方程非常难以解析,因此使用基于actor-critic神经网络的自适应动态规划算法拟合智能体的最优控制策略。
[0099]
所述actor神经网络为:
[0100][0101]
其中,k
si
为智能体i的事件触发时刻,k
si 1
为智能体i下一事件触发时刻。是智能体i的演员神经网络权重,z
ci
()是包含跟踪误差δj信息的输入向量。ψ
ci
(
·
)是激活函数。
[0102]
所述critic神经网络为:
[0103][0104]
在演员-批评家神经网络权重的更新规则中,仅仅使用系统过去和当前的数据,并没有涉及到多智能体系统精确的系统模型,即使系统矩阵p和si是未知的也不会影响神经网络权重的更新,对于实际工程中无法获取精确系统模型的情况更加适用。
[0105]
所述基于actor-critic神经网络的自适应动态规划算法包括:
[0106][0107]
s5、为每个智能体设置事件触发阈值,当该智能体的局部邻域跟踪误差超过该阈值时更新其控制策略。
[0108]
所述智能体的事件触发阈值为:
[0109][0110]
其中z=η-σk
是过滤函数,f,η,σ是正数且满足f
2-2σlnη<0,是智能体j的演员神经网络权重,z
aj
(k
sj
1)是包含跟踪误差δj(k
sj
)信息的输入向量,ei(k)是智能体的事件触发误差。
[0111]
s6、智能体根据控制策略不断更新其状态信息,最终实现多智能体系统的最优分组一致;
[0112]
本发明中当异质多智能体系统满足以下条件时,所有的智能体可以达到分组一
致;满足的条件为:
[0113][0114]
其中,如果第i个智能体和领导者智能体在同一子网,那么ci=1,否则ci=-1。
[0115]
考虑由一个领导者智能体和n个跟随者智能体组成的离散二阶多智能体系统,其通信拓扑可以抽象为图其中是图的顶点集,每一个顶点代表着多智能体系统中的一个智能体;是图的所有的边组成的集合;在有向图中,有向路径(vi,vj)是指从顶点vi到顶点vj的一系列连续的边{(vi,vn),(vn,vm)...,(vm,vj)}。矩阵是多智能体系统的加权邻接矩阵,如果智能体i可以收到智能体j的通信信息,则a
ij
>0,否则,a
ij
=0。定义顶点vi的邻接顶点集为则顶点vi的入度为d=diag{d1,d2,...,dn},其中
[0116]
为了验证提出的合作-竞争牵制二分组一致性算法的效果,运用matlab进行仿真验证。在本说明书的描述中,所述一个节点表示一个智能体。
[0117]
考虑具有如图2所示通信拓扑结构的多智能体系统,其中节点0表示领导者智能体,其余为跟随者智能体。将图示多智能体系统划分成两个子网,智能体1、3、6组成子网一,智能体2、4、5、7组成子网二。对于多智能体系统,设置系统和网络参数如下:
[0118]
系统矩阵:s1=[0.019 0.38]
t
,s2=[0.026 0.43]
t
,s3=[0.041 0.52]
t
,s4=[0.025 0.37]
t
,s5=[0.033 0.40]
t
,s6=[0.021 0.30]
t
,s7=[0.042 0.43]
t
。牵制增益参数:b1=1,b2=b3=b4=b5=b6=b7=0。合作竞争系数:γ
21
=-0.1,γ
25
=2.1,γ
31
=γ
42
=γ
54
=γ
75
=1,γ
63
=3,γ
67
=-1,其它系数为0;折扣因子:α=0.95;学习率:κ
ci
=κ
ai
=0.03;事件触发参数:f=0.47,σ=0.8,η=1.23。
[0119]
从仿真结果可以得出,如图3、图4所分别示展示了所有智能体的位置状态和速度状态的演化过程。智能体节点2、4、5、7组成子网二是受领导者智能体节点0控制的子网,因此,子网二中的智能体最终与领导者智能体达成一致的状态(位置状态与速度状态)。而智能体节点1、3、6组成子网一则达成与领导者相反的状态(位置状态与速度状态)。实现了同组智能体趋于一致,不同组趋于相反的收敛值,符合实现了合作-竞争的内部关系,达到了分组一致的状态。图5展示了采用本发明所设计的事件触发机制下智能体的触发时刻,可以明显的看到相较于每一时刻都进行触发的时间触发模式,该事件触发机制下,智能体的触发时刻不连续,并且有极大的减少。
[0120]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要
素的过程、方法、商品或者设备中还存在另外的相同要素。
[0121]
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献