一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于混杂触发机制的多智能体协同控制方法及介质

2022-10-13 07:54:35 来源:中国专利 TAG:


1.本发明属于多智能体协同控制技术领域,涉及一种基于混杂触发机制的多智能体协同控制方法及介质,具体为基于混杂时间/事件触发机制的多智能体协同控制方法及介质。


背景技术:

2.多智能体协同控制是指针对由多个智能体构成的动态网络系统,通过设计合适的协调控制策略,驱使所有智能体协作完成预定目标的技术。由于在工业、能源、军事、航天等领域具有极其重要的应用价值,在过去二十多年里,多智能体协同控制技术成为相关领域的研究热点之一,并随着信息技术的发展,产生了越来越重要的作用。在工业方面,通过将生产机器建模为智能体并利用信息技术将其连接成一个有机的整体,可以利用多智能体协同控制技术提升工厂的智能化水平;在物流方面,通过物流无人车和/或无人机之间的协作,可以借助多智能体协同控制技术提升物流的路径规划效率,降低物流成本;在能源方面,多智能体协同控制技术通过在各发电单元和用电单元之间的信息共享,更好地协调能源网络以实现发/用电平衡,提升能源利用效率;在军事、航天、航空、航海等领域,多智能体协同控制技术成为各运载体实现无人化、集群化和智能化的基础手段,能赋予或提升多运载体系统在感知、导航、执行、生存等方面的能力,扩展单运载体不具备的功能,以完成更加复杂的任务。
3.多智能体协同控制目前已有较为系统和成熟的理论和方法。以其中最具代表性的的一致性目标为例,现有的协同控制设计方法已经有效解决了积分型多智能体系统、线性多智能体系统、非线性多智能体系统等各种智能体动力学模型下的一致性控制问题。
4.无论采用何种协同控制方法,多智能体系统的配置均要求控制器首先能够获取相邻智能体之间的状态或输出信息,然后根据这些信息设计协同控制策略。
5.由于经典的协同控制方法要求控制器能够连续地获取邻居智能体的信息,所以在实际应用中具有通信负载大、通信效率不高等缺点。
6.一方面,智能体之间的信息交互需要借助通信网络,而多智能体网络的分布式特性(比如移动机器人、水下无人艇等)导致难以维持连续的通信;另一方面,单个智能体的通信能力和资源往往非常有限,连续的信息交互会过多地消耗网络信道资源,降低多智能体系统的生存能力。
7.近年来,借助事件触发的思想,基于事件触发的多智能体协同控制方法在国内外引起了广泛的关注,成为多智能体协同控制领域的一个研究热点。在多智能体协同控制中,现有事件触发机制的作用通常是为了确定智能体自身状态的采样时刻,当采样误差超过某个设定的阈值时,智能体对自身状态进行采样并将采样的状态分发给邻居智能体。因此,这类事件触发机制要求智能体能够获取自身的绝对信息。为了满足协同控制的需要,这就要求所有智能体均以一个公共的全局坐标系为基准进行信息测量,从而对智能体的感知能力提出了极高的要求。例如,在某些典型的应用场景如深空协同探测、无gps信号的室内导航
中,为所有智能体建立一个准确的公共坐标系是极其困难的。此外,考虑到事件触发条件需要不断地检查触发条件,因而应用于多智能体系统的事件触发方法还应具有空间分布、时间异步的内在工作机制。综上所述,现有的基于事件触发的多智能体协同控制方法仍然具有很大的局限性,很有必要为多智能体协同控制提供一种更加实用的多智能体协同控制设计方法。


技术实现要素:

8.针对现有技术中的缺陷,本发明的目的是提供一种基于混杂触发机制的多智能体协同控制方法及介质。
9.根据本发明的一个方面,提供一种基于混杂时间/事件触发机制的多智能体协同控制方法,包括:
10.确定多智能体系统的智能体动力学模型;
11.确定多智能体系统的网络拓扑模型;
12.根据所述智能体动力学模型和所述网络拓扑模型,确定分布式协同控制协议;
13.根据所述网络拓扑模型和所述分布式协同控制协议,确定异步时间触发机制;
14.根据所述网络拓扑模型和所述分布式协同控制协议,确定分布式事件触发机制;
15.根据所述分布式协同控制协议、所述异步时间触发机制和所述分布式事件触发机制,自身控制器间歇性、异步、分布式地更新采样的智能体相对输出和采样的邻居控制器状态,实时计算出所述智能体的自身输入,使多智能体系统实现协同。
16.优选地,所述多智能体系统的智能体动力学模型,包括:
17.所述多智能体系统包括n个智能体,第i个智能体的动力学模型为
[0018][0019][0020]
其中第一个方程为第i个智能体的状态方程,第二个方程为第i个智能体的输出方程;和分别为第i个智能体的状态函数和输出函数;为第i个智能体的自身状态,n
x
为状态维数,为xi(t)的时间导数;为第i个智能体的自身输入,nu为输入维数;为第i个智能体的自身输出,ny为输出维数;t表示时间变量。
[0021]
优选地,所述第i个智能体的状态函数为
[0022][0023]
所述第i个智能体的输出函数为
[0024][0025]
其中和为第i个智能体的参数矩阵,由智能体自身的动力学特性决定。
[0026]
优选地,所述网络拓扑模型包括节点、连边以及连边权重,其中:
[0027]
所述一个节点表示一个智能体;
[0028]
所述连边表示所述智能体之间存在的连接关系;
[0029]
所述连边权重表示经过所述连边传输的信息的权重;
[0030]
所述邻居智能体指在所述网络拓扑模型中与自身智能体存在连边的节点。
[0031]
优选地,用图表示所述网络拓扑模型,用表示节点集合,其中n为智能体个数,表示连边集合,节点i的邻居集合表示为
[0032]
所述图的邻接矩阵定义为拉普拉斯矩阵定义为其中a
ij
≥0表示连边(i,j)的权重,矩阵以及
[0033]
优选地,所述分布式协同控制协议为:
[0034][0035][0036]
其中为第i个智能体的自身控制器的状态,n
x
为状态维数;为第i个智能体的自身输入,nu为输入维数;和分别为第i个智能体的自身控制器的状态函数和输出函数;表示第一类采样的控制器状态,定义为表示第一类采样的控制器状态,定义为表示第二类采样的控制器状态,定义为表示第二类采样的控制器状态,定义为为第一采样时刻序列,为第二采样时刻序列;表示与连边(j,i)关联的采样的智能体相对输出,yi为第i个智能体的自身输出。
[0037]
优选地,所述第i个智能体的自身控制器的状态函数为:
[0038][0039]
所述第i个智能体的自身控制器的输出函数为:
[0040][0041]
其中,a、b和c为所述智能体动力学模型的参数矩阵;为控制协议第一增益矩阵,满足k=-b
t
p,其中为满足黎卡提方程a
t
p pa-pbb
t
p q=0的对称正定解,为任意给定的对称正定矩阵;为控制协议第二增益矩阵,使得矩阵a fc为赫尔维兹稳定的;c为正的常数,满足λ2为所述图的拉普拉斯矩阵的实部最小的非零特征值,re(λ2)为λ2的实部。
[0042]
优选地,所述异步时间触发机制为:
[0043][0044]
其中ti>0为常数;
[0045]
所述第一采样时刻序列的选取需要满足所述异步时间触发机制;
[0046]
当系统时间t到达采样时刻第i个智能体更新采样的智能体相对输出同时第i个智能体更新自身的第一类采样的控制器状态
[0047]
优选地,所述分布式事件触发机制为:
[0048][0049]
其中为自身控制器状态的采样误差,为事件触发函数;
[0050]
所述第二采样时刻序列由所述分布式事件触发机制决定;
[0051]
当所述事件触发函数满足fi(
·
)≥0时,第i个智能体更新自身的第二类采样的控制器状态同时向邻居智能体广播更新的第二类采样的控制器状态
[0052]
当第i个智能体的第j个邻居智能体的事件触发函数满足fj(
·
)≥0时,第i个智能体的第j个邻居智能体更新自身的第二类采样的控制器状态同时第i个智能体接收来自第j个邻居智能体广播的更新的第二类采样的控制器状态
[0053]
根据本发明的第二个方面,提供一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行任一项所述的方法。
[0054]
与现有技术相比,本发明公开的技术方案具有下列有益效果:
[0055]
本发明一实施例提供了基于混杂时间/事件触发机制的多智能体协同控制方法,该方法基于智能体之间的相对输出信息,构建了分布式协同控制协议,无需测量智能体的自身绝对输出信息,避免对公共的全局坐标系的依赖,降低了协同控制协议对智能体感知能力的要求,具有很好的实用价值。
[0056]
本发明另一实施例提供了基于混杂时间/事件触发机制的多智能体协同控制方法,针对智能体相对输出和邻居控制器状态,分别设计了时间触发机制和事件触发机制,实现了智能体之间间歇性、分布式、异步地信息交互,无需对邻居智能体进行连续监控,节省了多智能体系统的感知和通信资源,降低了控制协议的实现难度,减小了发生通信阻塞和遭受网络攻击的风险,延长了实际多智能体系统的生存周期。
附图说明
[0057]
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
[0058]
图1为本发明一实施例中所提供的基于混杂时间/事件触发机制的多智能体协同控制方法的流程图;
[0059]
图2为本发明一实施例所提供的基于混杂时间/事件触发机制的多智能体协同控制方法的系统框架图;
[0060]
图3为本发明一优选实施例所提供的10个智能体的网络拓扑图;
[0061]
图4为本发明一优选实施例所提供的0-50s智能体状态轨迹图;
[0062]
图5为本发明一优选实施例所提供的0-50s分布式事件触发机制的采样信号轨迹图;
[0063]
图6为本发明一优选实施例所提供的0-50s异步时间触发机制的采样信号轨迹图;
[0064]
图7为本发明一优选实施例所提供的0-50s分布式事件触发机制的事件间隔图。
具体实施方式
[0065]
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
[0066]
为了便于理解本部分实施例,现对本发明基本框架构成作简单介绍。本技术是由多个智能体构成的一个系统。每个智能体包括智能体的动力学模型和一个自身控制器。其中,每个自身控制器含有两种不同的采样的控制器状态,分别为第一类采样的控制器状态和第二类采样的控制器状态。
[0067]
基于上述框架构成,本发明提供一个实施例。图1为本实施例中的多智能体协同控制方法的流程图,图2为与图1对应的多智能体协同控制方法的系统框架图。结合图1和图2,本实施例中的基于混杂时间/事件触发机制的多智能体协同控制方法,包括:
[0068]
s1,确定多智能体系统的智能体动力学模型;
[0069]
s2,确定多智能体系统的网络拓扑模型;
[0070]
s3,根据s1中的智能体动力学模型和s2中的网络拓扑模型,确定分布式协同控制协议;
[0071]
s4,根据s2中的网络拓扑模型和s3中的分布式协同控制协议,确定异步时间触发机制;
[0072]
s5,根据s2中的网络拓扑模型和s3中的分布式协同控制协议,确定分布式事件触发机制;
[0073]
s6,根据s3中的分布式协同控制协议、s4中的异步时间触发机制和s5中的分布式事件触发机制,自身控制器间歇性、分布式、异步地更新采样的智能体相对输出和采样的邻居控制器状态,实时计算出每个智能体的自身输入,使多智能体系统最终实现协同。
[0074]
本实施例避免控制器对智能体之间连续时间信息的依赖,提升智能体间的通信效率,克服现有方法对智能体感知能力要求高导致的实用性低的技术难题。
[0075]
在本发明的一个优选实施例中实施s1:确定多智能体系统的智能体动力学模型,用于表征智能体满足的动力学性质。智能体动力学模型包括自身状态、自身输入、自身输出及其满足的数学关系。
[0076]
多智能体系统的智能体动力学模型,包括:
[0077]
多智能体系统包括n个智能体,第i个智能体的动力学模型为
[0078][0079]
[0080]
其中第一个方程为第i个智能体的状态方程,第二个方程为第i个智能体的输出方程;和分别为第i个智能体的状态函数和输出函数;为第i个智能体的自身状态,n
x
为状态维数,为xi(t)的时间导数;为第i个智能体的自身输入,nu为输入维数;为第i个智能体的自身输出,ny为输出维数;t表示时间变量。具体的,
[0081]
第i个智能体的状态函数为:
[0082][0083]
第i个智能体的输出函数为:
[0084][0085]
其中和为第i个智能体的参数矩阵,由智能体自身的动力学特性决定。
[0086]
在本发明的一个优选实施例中实施s2,确定多智能体系统的网络拓扑模型,用于表征自身智能体与邻居智能体之间的信息交互关系。网络拓扑模型包括节点、连边以及连边权重,其中一个节点表示一个智能体,连边表示智能体之间存在的连接关系,连边权重表示经过连边传输的信息的权重;邻居智能体指在该网络拓扑模型中与自身智能体存在连边的节点
[0087]
具体地,网络拓扑模型用图表示。用表示节点集合,其中n为智能体个数,表示连边集合,节点i的邻居集合表示为图的邻接矩阵定义为拉普拉斯矩阵定义为其中a
ij
≥0表示连边(i,j)的权重,矩阵以及
[0088]
在本发明的一个优选实施例中,基于上述实施例s1中的智能体动力学模型和和上述实施例s2中网络拓扑模型实施s3,确定分布式协同控制协议。该分布式协同控制协议用于计算智能体的自身输入。在该分布式协同控制协议中,自身控制器需要的、与邻居智能体有关的信息包括采样的智能体相对输出和邻居的第二类采样的控制器状态。
[0089]
具体地,根据智能体动力学模型,求解如下的黎卡提方程:
[0090]at
p pa-pbb
t
p q=0,
[0091]
其中任意给定的对称正定矩阵,a和b为智能体动力学模型的参数矩阵,矩阵为满足黎卡提方程的对称正定解。
[0092]
根据网络拓扑模型,定义λi,为图的拉普拉斯矩阵的特征值,通过合理排序使其满足0=λ1<re(λ2)≤

≤re(λn),其中λ2为图的拉普拉斯矩阵的实部最小的非零特征值,re(λi)为λi的实部,该λ2特征值的限定使其更具普适性。
[0093]
定义和为两个不同的采样时刻序列。
[0094]
分布式协同控制协议设计为:
[0095][0096][0097]
其中为第i个智能体的自身控制器的状态,n
x
为状态维数;为第i个智能体的自身输入,nu为输入维数;表示第一类采样的控制器状态,定义为表示第一类采样的控制器状态,定义为表示第二类采样的控制器状态,定义为表示第二类采样的控制器状态,定义为为第一采样时刻序列,为第二采样时刻序列;表示与连边(j,i)关联的采样的智能体相对输出,yi为第i个智能体的自身输出;a、b和c为智能体动力学模型的参数矩阵;为控制协议第一增益矩阵,满足k=-b
t
p,其中为满足黎卡提方程的对称正定解;为控制协议第二增益矩阵,使得矩阵a fc为赫尔维兹稳定的;c为正的常数,满足λ2为图的拉普拉斯矩阵的实部最小的非零特征值,re(λ2)为λ2的实部。
[0098]
采用该实施例中的分布式协同控制协议可实现自身控制器间歇式地更新采样的智能体相对输出和采样的控制器状态。
[0099]
在本发明的一个优选实施例中,基于上述实施例中s2中的网络拓扑模型和s3中的分布式协同控制协议,实施s4,确定异步时间触发机制。该异步时间触发机制用于判断自身智能体是否对智能体相对输出进行重新采样以及是否更新自身的第一类采样的控制器状态。异步时间触发机制根据自身触发的上一个采样时刻和当前的系统时间决定自身的下一个采样时刻。
[0100]
令常数ti满足其中ρ(
·
)表示矩阵谱半径算子,常数ti用于控制采样的智能体相对输出的采样周期。
[0101]
异步时间触发机制设计为:
[0102][0103]
其中常数ti表示采样周期。
[0104]
当系统时间t到达采样时刻第i个智能体更新采样的智能体相对输出同时第i个智能体更新自身的第一类采样的控制器状态
[0105]
采用该实施例中的异步时间触发机制可实现自身控制器异步地更新采样的智能体相对输出和第一类采样的自身控制器状态。
[0106]
在本发明的一个优选实施例中,基于上述实施例中s2中的网络拓扑模型和s3中的分布式协同控制协议,实施s5,确定分布式事件触发机制。该分布式事件触发机制用于判断自身智能体是否更新自身的第二类采样的控制器状态以及是否将更新的自身的第二类采
样的控制器状态向邻居智能体广播;分布式事件触发机制根据自身的第二类采样的控制器状态的采样误差、自身的和邻居的第二类采样的控制器状态及当前的系统时间决定自身的下一个采样时刻。
[0107]
分布式事件触发机制设计为:
[0108][0109]
其中fi(t)为事件触发函数,设计为:
[0110][0111]
其中为自身的第二类采样的控制器状态的采样误差,l
ii
为图的拉普拉斯矩阵的第i个对角元素,a
ij
为连边(i,j)的权重,θi(t)为非负函数。当事件触发函数满足fi(
·
)≥0时,第i个智能体更新自身的第二类采样的控制器状态同时向邻居智能体广播更新的第二类采样的控制器状态当第i个智能体的第j个邻居智能体的事件触发函数满足fj(
·
)≥0时,第i个智能体的第j个邻居智能体更新自身的第二类采样的控制器状态同时第i个智能体接收来自第j个邻居智能体广播的更新的第二类采样的控制器状态
[0112]
采用该实施例中的分布式协同控制协议可实现自身控制器分布式地更新第二类采样的自身控制器状态和第二类采样的邻居控制器状态。
[0113]
下面给出仿真实验,以验证本发明所提供的多智能体协同控制方法的可行性。
[0114]
考虑一个由10架无人机组成的多智能体系统,智能体的动力学模型为:
[0115][0116][0117]
其中c=[1 0],状态xi的两个分量分别表示无人机的位置和速度,自身输出yi则为无人机的位置。假设该多智能体系统的协同控制目标为:使各个智能体最终聚集到一起并以相同的速度移动。
[0118]
考虑如图3所示的网络拓扑模型,其中每条连边的权重均为1,则拉普拉斯矩阵的最小非零特征值为λ2=0.3961。
[0119]
令q=i,则确定对称正定矩阵进而确定控制协议第一增益矩阵为k=-b
t
p=[-1
ꢀ‑
1.7321];选取控制协议第二增益矩阵为使矩阵a fc赫尔维兹稳定;选取常数c为
[0120]
选取异步时间触发机制中的常数ti为满足不等式:
[0121][0122]
选取分布式事件触发机制的非负函数为θi(t)=exp(-0.4t),
[0123]
运行50s的仿真实验,图4给出0-50s的智能体状态轨迹图,图5给出0-50s的分布式事件触发机制的采样信号轨迹图,图6给出0-50s的异步时间触发机制的采样信号轨迹图,图7给出0-50s的分布式事件触发机制的事件间隔图。在时刻t=0s,各智能体具有不同的初始位置和初始运动速度,而当时刻t≥10s,各智能体逐渐汇聚到一起并按照相同的速度继续运动,验证所设计的协同控制协议实现了预定的协同控制目标(如图4所示)。采样控制信号的轨迹表明智能体之间只需间歇性、异步地进行信息交互,降低了控制协议的通信负载(如图5和图6所示)。分布式事件触发机制的事件间隔定义为实验结果显示各个智能体的事件间隔在0-50s内均严格大于零,表明所设计的分布式事件触发机制不会引起无限快的采样动作,具有很好的实用性(如图7所示)。
[0124]
在本发明的其他实施例中,还一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行任一实施例中所述的方法。
[0125]
需要说明的是,本发明提供的所述方法中的步骤,可以利用所述系统中对应的模块、装置、单元等予以实现,本领域技术人员可以参照所述系统的技术方案实现所述方法的步骤流程,即,所述系统中的实施例可理解为实现所述方法的优选例,在此不予赘述。
[0126]
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
[0127]
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。上述各优选特征在互不冲突的情况下,可以任意组合使用。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献