一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于事件触发的多控制器系统稳定控制方法

2022-11-09 21:42:37 来源:中国专利 TAG:


1.本发明涉及事件触发和智能控制领域,更具体地,涉及一种基于事件触发的多控制器系统稳定控制方法。


背景技术:

2.多控制器系统得到了广泛的关注和应用,其特点是多个互相耦合的控制器和控制回路,例如飞行器自动驾驶仪系统。多控制器系统的主要目标是,利用多个具备独立优化需求的控制输入将状态变量维持在名义值或稳定值附近。传统的控制方法都是时间触发的,即状态会周期性地传输给每个控制器或执行器,这会导致通讯浪费和不必要的算力消耗。为了解决这个问题,非周期采样的事件触发机制,逐渐受到青睐,用以开发基于事件触发的控制策略。
3.另一方面,一般的控制方法难以兼顾所有控制器的优化性能。最近,基于非零和微分博弈来研究多控制器系统得到了控制界的广泛关注,通过深入挖掘控制器之间的博弈行为和优化关系,可以提升系统的整体性能。
4.因此,多控制器系统可以用非零和微分博弈来刻画,并利用事件触发改进性能。但是,由此建立的最优控制模型通常是难以求解的。幸运的是,最近强化学习等智能技术的发展,为解决这个问题提供了一种良好的思路。因此如何结合上述技术,开发一种智能化的控制方法和事件触发方法,对于提升控制效果和通信效率,是十分有必要的。


技术实现要素:

5.本发明提供了一种基于事件触发的多控制器系统稳定控制方法,该方法解决多控制器系统的稳定控制问题,本发明利用微分博弈保证了控制策略的最优性、利用强化学习提高了自主决策能力、利用事件触发机制改进了通信效率,详见下文描述:
6.本发明采用如下技术方案予以实施:
7.一种基于事件触发的多控制器系统稳定控制方法,所述方法包括以下步骤:
8.针对多控制器系统建立非零和微分博弈的最优控制模型
9.通过贝尔曼最优方法和控制器的代价函数vi(x)对最优控制模型计算输出最优控制策略
10.构建评价神经网络并利用经验回放对最优控制策略进行事件触发时刻控制输出基于事件的控制策略
11.构建基于局部代价函数的lyapunov函数并建立控制器的自适应事件触发规则;
12.将所述事件的控制策略和所述自适应事件触发规则应用于多控制器系统。
13.进一步,所述最优控制策略输出过程:
14.101、按照如下公式对多控制系统建立非零和微分博弈的最优控制模型:
15.16.其中:f(x(t))是系统的内部动态信息,n代表博弈者也即控制器的个数;对第i个博弈者而言,gi(x(t))是控制耦合矩阵,ui(t)是控制策略,也即第i个控制器的输出;
17.102、按照如下公式对每个控制器设置控制成本的二次型的代价函数vi(x)
[0018][0019]
其中,qi,r
ij
是正定且对称的常值矩阵,用以调整系统运行成本和控制成本在代价函数中的分量,可以看出,这个代价函数包含了所有控制器的控制成本,对于第i个控制器而言,其自身控制成本为
[0020]
103、在最优代价函数基础上,根据纳什均衡条件和贝尔曼最优性原理,得到博弈者的最优控制策略如下:
[0021][0022]
其中:是最优代价函数v
i*
(x)关于x的偏导数,构建的非零和微分博弈模型的最优控制策略为
[0023]
进一步,所述基于事件的控制策略输出过程:
[0024]
201、采用三层前馈神经网络构建评价神经网络,用以在线近似最优代价函数,评价网络的输出值将被用来计算控制策略,该输出值由评价权值和激活函数表征,如下所示:
[0025][0026][0027]
其中:是近似代价函数关于x的偏导数;
[0028]
202、给定一个控制策略利用牛顿-莱布尼兹公式计算控制器在一个固定区间上的奖励累积,得到强化信号如下:
[0029][0030]
其中:t>0是一个固定的积分间隔;同时,基于激活函数在不同积分时刻的差值,计算得到回归矢量如下:
[0031][0032]
203、建立数据栈区存储经验数据,其中l代表数据栈区的长度,经验数据主要是强化信号和回归矢量在不同时刻tq计算得到的值,表示如下:
[0033][0034]
[0035]
经验数据入栈标准如下:
[0036][0037]
其中:θi>0是一个较小的常数;
[0038]
204、利用评价权值和最优控制策略在事件触发时刻计算输出基于事件的控制策略如下:
[0039][0040]
进一步,所述自适应事件触发规则建立过程:
[0041]
301、通过如下公式对每个控制器计算局部采样误差
[0042][0043]
302、建立如下基于局部代价函数的lyapunov函数;
[0044][0045]
其中:是评价网络的权值误差,这个函数li(t)是一个综合了稳定性、收敛性和事件触发的评判标准;
[0046]
303、根据lyapunov函数计算稳定性条件并获得如下自适应事件触发规则:
[0047][0048]
其中:是两个常值参数,该触发规则描述了何时生成所需的事件触发时刻,即在当前触发时刻的基础上获得下一触发时刻初始触发时刻可认为是下一触发时刻的确定依赖于系统运行成本x
t
qix、当前触发时刻的控制策略采样误差和当前时刻的评价权值
[0049]
本发明还提供了一种非临时性计算机可读存储介质,其上存储计算机程序和控制指令,当程序和指令被每个控制器执行时,使得多控制器系统能够实现本公开所述的方法。
[0050]
本发明提供的技术方案的有益效果是:
[0051]
本发明公开的基于事件触发的多控制器系统稳定控制方法,将多控制器系统视为非零和微分博弈模型,结合强化学习设计了一种基于事件触发的智能控制方法,提高了控制决策效率、有效改善了通信受限条件、通过分布式事件触发提高了系统的鲁棒性。
[0052]
本发明针对多控制器系统的稳定控制问题,利用微分博弈、事件触发和强化学习技术,研究资源受限条件下的事件触发学习控制方法,是符合相关技术的应用需求和发展趋势的。通过对现有文献和技术的检索,并未发现类似的技术方案。
附图说明
[0053]
图1为根据一实施例示出的一种基于事件触发的多控制器系统稳定控制方法的流
程图;
[0054]
图2为根据一实施例示出的步骤s10的流程图;
[0055]
图3为根据一实施例示出的步骤s20的流程图;
[0056]
图4为根据一实施例示出的步骤s30的流程图;
[0057]
图5为根据一实施例示出的步骤s40的流程图;
[0058]
图6为根据一实施例示出的一种典型多控制器系统的主要状态变量和控制执行器;
[0059]
图7为根据一实施例示出的一种典型多控制器系统的状态轨迹和基于事件的控制信号;
具体实施方式
[0060]
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。应当注意到:除非另外说明,否则在这些实施例中阐述的步骤、数学表达式和数值不限制本公开的范围。同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
[0061]
本发明提供一种基于事件触发的多控制器系统稳定控制方法,该方法是基于节省通信和计算资源的事件触发学习控制方法,具体包括如下步骤:
[0062]
首先,建立基于非零和微分博弈的最优控制模型。多控制器系统是一种典型的复杂网络系统,其中每个控制器与系统构成独立的控制回路,所有的控制器共同作用于系统以维持相关状态变量的稳定。这种特性可以采用非零和微分博弈来描述,在一种实施例中,建立多人非零和微分博弈模型。每个独立的控制器被认为是博弈者,为了刻画博弈者的优化需求,综合考虑系统运行成本和所有博弈者的控制成本,设计博弈者的代价函数。每个博弈者通过最小化代价函数进行控制决策,根据纳什均衡条件和贝尔曼最优性原理,得到非零和微分博弈模型的最优控制策略。
[0063]
本发明根据多控制器系统的稳定控制需求,可以选择二次型能量型代价函数,进而得到所需的最优控制策略。针对不同控制需求,代价函数需要进行具体的变化,例如针对最短时间控制需求,代价函数应该主要体现时间变量。
[0064]
本发明构建评价神经网络并利用经验回放得到基于事件的控制策略。针对非零和微分博弈模型,利用多层前馈神经网络构建评价神经网络,用以在线近似最优代价函数,评价网络的输出值将被用来计算控制策略;同时,对于一个给定的控制策略,利用牛顿-莱布尼兹公式计算博弈者在一个固定区间上的奖励累积,得到强化信号和回归矢量。为了充分利用学习产生的数据,提高决策效率,建立数据栈区存储经验数据;经验数据主要包括历次迭代产生的状态信息、强化信号和回归矢量;同时设计经验数据入栈标准和替换方式。结合实时数据和经验数据,利用梯度下降自适应法得到评价网络的自适应更新规则,该规则表征了评价权值的更新迭代方式。结合评价权值和最优控制策略,在事件触发时刻得到基于事件的控制策略,该控制策略便是每个博弈者的实际决策结果,即控制器的实际输出。
[0065]
本发明强化学习可以采用行为-评价网络结构实现,此时控制策略由行为网络直接给出而不是由评价网络间接计算;相较而言,单评价网络结构更易于实现,计算负担更小。
[0066]
本发明得到基于分布式触发的自适应事件触发规则。分布式触发下,每个博弈者均配备一个局部事件触发器,独立地进行状态采样与数据传输,根据局部事件触发器记录的采样状态,计算局部采样误差。为了保证触发时刻的优化性和稳定性,建立基于局部代价函数的 lyapunov函数。对lyapunov函数求导得出稳定性条件,根据稳定性条件反推得到自适应事件触发规则,该触发规则描述了何时生成所需的事件触发时刻。
[0067]
本发明事件触发方式可以是分布式触发或集中式触发,前者突出博弈者的个性化需求,后者则强调全局同步性,需要考虑所有博弈者的代价函数。
[0068]
本发明将得到的控制策略和事件触发规则应用于多控制器系统。将控制策略和触发规则载入多控制器系统,其中每个控制器根据局部事件触发器产生的事件进行控制策略更新,每个控制器利用评价网络执行分布式强化学习过程,实现事件触发学习控制。
[0069]
本发明还提供了一种非临时性计算机可读存储介质,其上存储计算机程序和控制指令,当程序和指令被每个控制器执行时,使得多控制器系统能够实现本公开所述的方法。
[0070]
实施例1
[0071]
本发明实施例针对多控制器系统的稳定控制问题,基于微分博弈和强化学习技术,参见图1,该方法包括以下步骤:
[0072]
s10:建立基于非零和微分博弈的最优控制模型;
[0073]
其中,多控制器系统是一种典型的复杂网络系统,其中每个控制器与系统构成独立的控制回路,所有控制器共同作用于系统以保证相关状态变量的稳定。这种特性可以采用非零和微分博弈来描述,在一种实施例中,考虑可能存在的非线性特征,建立多人非零和微分博弈模型每个独立的控制器被认为是博弈者,其控制策略为ui(t),博弈者的个数为n,n≥2。为了刻画博弈者的优化需求,综合考虑系统运行成本和所有博弈者的控制成本,针对每个博弈者设计二次型的代价函数vi(x)。通过最小化这个代价函数,每个博弈者就可以在优化控制成本的同时将状态驱动至稳定值;每个博弈者的最优代价函数 v
i*
(x)对应着博弈问题的纳什均衡解,根据纳什均衡条件和贝尔曼最优性原理,得到非零和微分博弈模型的最优控制策略
[0074]
s20:构建评价神经网络并利用经验回放得到基于事件的控制策略;
[0075]
其中,针对上述非零和微分博弈模型,利用多层前馈神经网络构建评价神经网络,用以在线近似最优代价函数,评价网络的输出值将被用来计算控制策略,该输出值由评价权值和激活函数表征;同时,对于一个给定的控制策略利用牛顿-莱布尼兹公式计算博弈者在一个固定区间上的奖励累积,得到强化信号和回归矢量为了充分利用学习产生的数据,提高决策效率,建立数据栈区存储经验数据;经验数据主要包括历次迭代产生的状态信息x(t)、强化信号和回归矢量同时设计经验数据入栈标准和替换方式,入栈标准决定了什么样的学习数据能够进入栈区被存储,替换方式则决定新旧数据如何进行替换。结合实时数据和经验数据,利用梯度下降自适应法得到评价网络的自适应更新规则,该规则表征了评价权值的更新迭代方式。结合评价权值和最优控制策略的形式,在事件触发时刻得到基于事件的控制策略该
控制策略是每个博弈者的实际决策结果,即控制器的实际输出。
[0076]
s30:得到基于分布式触发的自适应事件触发规则;
[0077]
其中,分布式触发下,每个博弈者均配备一个局部事件触发器,独立地进行状态采样与数据传输。每个博弈者根据局部事件触发器记录的采样状态计算局部采样误差为了保证触发时刻的优化性和稳定性,建立基于局部代价函数的lyapunov函数li(t),这个函数li(t)综合考虑了代价函数、权值误差、事件触发的影响,是一个综合了稳定性、收敛性和事件触发的评判标准。对构建的lyapunov函数求导得出稳定性条件,该稳定性条件描述了导数的负定性,根据稳定性条件反推得到自适应事件触发规则,该触发规则决定了如何在当前触发时刻的基础上获得下一触发时刻
[0078]
s40:将得到的控制策略和事件触发规则应用于多控制器系统;
[0079]
其中,将控制策略和触发规则载入多控制器系统,每个控制器根据局部事件触发器产生的事件,在事件触发时刻进行控制策略更新在分布式触发设定下,每个学习回路的学习呈现独立特性,控制策略不再同步更新,每个控制器利用评价网络执行分布式强化学习过程,实现事件触发学习控制,最终共同稳定整个系统。
[0080]
实施例2
[0081]
下面结合具体的计算公式,实施例2对实施例1中的方案进行进一步介绍,详见如下:
[0082]
首先,通过图1中的步骤s10建立最优控制模型。
[0083]
s10:建立基于非零和微分博弈的最优控制模型;
[0084]
在本实施例中,可以通过图2中的步骤建立最优控制模型,步骤s10主要包括:
[0085]
步骤s101,建立多人非零和微分博弈模型。在多控制器系统的稳定控制问题中,有多个执行器共同参与稳定系统,执行器可认为是控制器,后文不再做特殊区分。此时,多控制器系统中存在着多个控制回路,为了更好地发挥所有执行器的控制效果,采用非零和微分博弈来描述,其中每个控制器将被看作独立的博弈者;同时,考虑到飞行器本身的非线性特征,建立如下所示的多人非零和微分博弈模型:
[0086][0087]
其中f(x(t))是系统的内部动态信息,n代表博弈者的个数;对第i个博弈者而言,gi(x(t))是控制耦合矩阵,ui(t)是控制策略,也即第i个控制器的输出。注意,在后续的技术表述中,为方便起见,时间变量t将被省略。
[0088]
步骤s102,设计博弈者的代价函数。为了刻画博弈者的优化需求,综合考虑系统运行成本和所有博弈者的控制成本,针对每个博弈者设计二次型的代价函数vi(x):
[0089][0090]
其中,qi,r
ij
是正定且对称的常值矩阵,用以调整系统运行成本和控制成本在代价函数中的分量,可以看出,这个代价函数包含了所有博弈者的控制成本,对于第i个博弈者而言,其自身控制成本为因此,通过最小化这个代价函数,每个博弈者就可以在优
化控制成本的同时将状态x(t)驱动至稳定值。
[0091]
步骤s103,得到最优控制策略。每个博弈者均期望获得最优代价函数v
i*
(x),以促使整个系统达到纳什均衡,即理论上最好的控制结果,因此,在最优代价函数基础上,根据纳什均衡条件和贝尔曼最优性原理,得到博弈者的最优控制策略如下:
[0092][0093]
其中是最优代价函数v
i*
(x)关于x的偏导数,构建的非零和微分博弈模型的最优控制策略为
[0094]
在获得最优控制模型后,可以继续通过图1中的步骤s20构建评价神经网络,实现对最优代价函数v
i*
(x)的近似。
[0095]
s20:构建评价神经网络并利用经验回放得到基于事件的控制策略;
[0096]
在本实施例中,可以通过图3中的步骤构建评价神经网络并获得基于事件的控制策略,如图3所示,步骤s20主要包括:
[0097]
步骤s201,构建评价神经网络。在此实施例中,采用三层前馈神经网络来构建评价神经网络,用以在线近似最优代价函数,评价网络的输出值将被用来计算控制策略,该输出值由评价权值和激活函数表征,如下所示:
[0098][0099]
其中是近似代价函数关于x的偏导数。接着给定一个控制策略利用牛顿
‑ꢀ
莱布尼兹公式计算博弈者在一个固定区间上的奖励累积,得到强化信号如下:
[0100][0101]
其中t>0是一个固定的积分间隔。同时,基于激活函数在不同积分时刻的差值,计算得到回归矢量如下:
[0102][0103]
步骤s202,建立数据栈区并获取经验数据。为了充分利用学习产生的数据,提高决策效率,建立数据栈区存储经验数据,其中l代表数据栈区的长度,经验数据主要是强化信号和回归矢量在不同时刻tq计算得到的值,表示如下:
[0104][0105][0106]
可以看出,这些数据其实都是系统真实产生的,他们将被多次利用。但是,并不是所有的数据都能够被存储,设计经验数据入栈标准如下:
[0107][0108]
其中θi>0是一个较小的常数。显然,只有当数据的差异性比较大时,新数据才会被存入栈区。新旧数据的替换方式设计为“推栈”方式,即栈区的数据按照时间顺序进行存储,新数据将会挤掉旧数据进入栈区,依次循环。
[0109]
步骤s203,得到评价网络的自适应更新规则。获得经验数据后,结合实时数据,利用梯度下降自适应法得到评价网络的更新规则如下:
[0110][0111]
其中li>0是第i个评价网络的学习率。从公式(9)中可以看出,评价网络通过利用实时数据和经验数据,便可实现评价权值的自适应更新;一旦新的评价权值获得,便可通过公式(4) 对代价函数进行更新。
[0112]
步骤s204,得到基于事件的控制策略。利用评价权值和公式(3)所示的最优控制策略在事件触发时刻计算得到基于事件的控制策略如下:
[0113][0114]
该控制策略是事件触发机制下,每个博弈者的实际决策结果,也是控制器的实际输出。
[0115]
上面获得了基于事件的控制策略,但其中的事件触发时刻仍然无法获得,因此继续通过图1中的步骤s30得到自适应事件触发规则,该规则将用于计算事件触发时刻。
[0116]
s30:得到基于分布式触发的自适应事件触发规则;
[0117]
在本实施例中,可以通过图4中的步骤获得自适应事件触发规则,如图4所示,步骤s30 主要包括:
[0118]
步骤s301,计算局部采样误差。为了照顾博弈者的个性化需求,本公开的实施例采用分布式事件触发机制。在分布式触发下,每个博弈者均需配备一个局部事件触发器,独立地进行状态采样与数据传输。假设第i个局部事件触发器产生的事件触发时刻为每个博弈者在对应的触发时刻进行状态采样并将采样状态传送给控制器以计算基于事件的控制策略而后,根据记录的采样状态计算局部采样误差
[0119][0120]
这个局部采样误差将被用来设计事件触发规则。
[0121]
步骤s302,建立基于局部代价函数的lyapunov函数。为了保证触发时刻的优化性和稳定性,建立基于局部代价函数的lyapunov函数li(t)如下::
[0122]
[0123]
其中是评价网络的权值误差,这个函数li(t)是一个综合了稳定性、收敛性和事件触发的评判标准。对该函数进行求导,根据lyapunov稳定性理论,需要满足如下的稳定性条件:
[0124][0125]
其中ρi∈(0,1)是一个保守性参数。
[0126]
步骤s303,得到自适应事件触发规则。根据上述稳定性条件进行反推设计,得到自适应事件触发规则如下:
[0127][0128]
其中是设计的两个常值参数,该触发规则描述了何时生成所需的事件触发时刻,即在当前触发时刻的基础上获得下一触发时刻初始触发时刻可认为是显然,下一触发时刻的确定依赖于系统运行成本x
t
qix、当前触发时刻的控制策略采样误差和当前时刻的评价权值
[0129]
获得控制策略和触发规则后,就可以继续通过图1中的步骤s40将他们应用于自动驾驶仪系统。
[0130]
s40:将得到的控制策略和事件触发规则应用于多控制器系统;
[0131]
在本实施例中,可以通过图5中的步骤将控制策略和触发规则应用于多控制器系统,如图5所示,步骤s40主要包括:
[0132]
步骤s401,将控制策略和触发规则载入多控制器系统。在一些实施例中,可以通过计算机程序和数学符号的形式将控制策略和触发规则载入多控制器系统,此时每个控制器在新生成的事件触发时刻进行控制策略更新完成新一轮的更新迭代和学习计算。
[0133]
步骤s402,实现事件触发学习控制。在分布式触发设定下,每个控制回路的学习呈现独立特性,控制策略不再同步更新,也就是说此时每个控制器利用局部触发器和评价网络执行分布式强化学习过程,实现事件触发学习控制,最终共同稳定整个系统。=
[0134]
实施例3
[0135]
下面结合具体的实验数据、实例对实施例1和2中的方案进行可行性验证,该实施例中考虑一种典型多控制器系统,即飞行器自动驾驶仪系统,详见下文描述:
[0136]
首先,图6示出了此实施例中自动驾驶仪系统的主要状态变量和执行器。在这个自动驾驶仪系统的稳定巡航过程中,主要有两个执行器发挥作用:方向舵和副翼。横向运动中主要涉及三个状态变量:横滚角φ、偏航角ψ和侧滑角β。在巡航过程中,需要将侧滑角β(t)(单位:度数,deg)、横滚角φ(t)(单位:度数,deg)、横滚率r
φ
(t)(单位:度/秒,deg/s)、偏航率r
ψ
(t)(单位:度/秒,deg/s)。而后,按照图1所示的步骤s10-s40继续执行。
[0137]
根据步骤s10,将方向舵和副翼看作是两个独立的博弈者,这两个执行器的输出信号分别是方向舵偏转角δr(t)(单位:度/秒,deg/s)和副翼偏转角δa(t)(单位:度/秒,deg/s),即博弈者的控制策略为u1(t)=δr(t),u2(t)=δa(t);同时,这个二人非零和微分博弈模
型的状态表示为x(t)=[x1,x2,x3,x4]
t
;x1=β,x2=φ,x3=r
φ
,x4=r
ψ
;对于两个博弈者,代价函数采取的配置为q1=diag{10,1,1,1},q2=diag{1,5,1,1},r
11
=1,r
12
=0.25,r
21
=1,r
22
=0.25。
[0138]
根据步骤s20,在本实施例中,评价网络的隐层中配置10个节点,激活函数设置为
[0139][0140]
为计算强化信号,积分间隔为t=0.05s;经验栈区的参数配置为θ1=θ2=0.2,l=12;此外,评价网络学习率为l1=l2=0.01。
[0141]
根据步骤s30,两个博弈者配备两个独立的事件触发器,对应自适应事件触发规则的参数配置为ρ1=ρ2=0.3,δ1=1,δ2=0.25,
[0142]
根据步骤s40,自动驾驶仪系统按照公式(10)计算基于事件的控制策略,按照公式(14) 计算新的事件触发时刻。每个博弈者通过评价网络和分布式触发,实现分布式强化学习,进而实现事件触发学习控制。
[0143]
图7是根据此实施例示出的飞行器自动驾驶仪系统的状态轨迹和基于事件的控制信号。可以发现,飞行器的四个状态变量在受到初始扰动后,大约在50秒左右完全稳定,同时控制信号呈现“阶梯状”,说明控制策略是非周期更新的。在这个过程中,控制器1需要更新179 次而控制器2仅需更新83次,相较传统时间触发控制的1000次,本公开方法中的控制器大约各自减少了82%和90%的数据传输和控制计算,有效节省了通信资源,进而改善了通信受限条件。
[0144]
实施例4
[0145]
下面在实施例3的基础上,考虑一种经典的事件触发控制方法,通过对比验证本公开的节省通信和计算资源的事件触发学习控制方法的鲁棒性,详见下文描述:
[0146]
在此实施例中,发明方法按照实施例3中的步骤实现,此外,考虑一种经典的事件触发控制方法,记为“经典方法”。在此实施例中,假设第二个事件触发器在[10,20]s内发生通讯故障,在此期间博弈者2收不到事件触发的采样数据。
[0147]
由于采用了分布式触发,发明的方法保持了一定的裕量,即此时博弈者1的事件触发器仍是正常工作的,因此系统状态不会产生较大的发散;与之对比,经典方法在事件触发器失效期间会导致较大的状态发散行为,这种过大的发散可能会危险到飞行器系统的安全性。
[0148]
结合实施例3和实施例4的结果来看,本发明实施例公开的一种节省通信和计算资源的事件触发学习控制方法的有益效果是属实的。
[0149]
实施例5
[0150]
本实施例提供了一种非临时性计算机可读存储介质(包括但不限于磁盘存储器、光学存储器等),其上存储:
[0151]
计算机程序,包括评价网络的自适应更新规则、基于分布式触发的自适应事件触发规则和用于方法实现的相关计算机代码。
[0152]
控制指令,主要是每个控制器的控制策略。
[0153]
当程序和指令被每个控制器执行时,使得多控制器系统能够实现本公开第一个方面所述的方法,在此不做赘述。
[0154]
本领域内的技术人员应当明白,本公开的实施例可提供为方法、原型系统或计算
机程序产品。因此,本公开可采用完全软件实施例或软硬件结合实施例的形式。
[0155]
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献