一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种多车辆系统的无模型最优同步控制方法

2022-11-14 12:24:52 来源:中国专利 TAG:


1.本发明涉及多车辆系统控制领域,尤其涉及一种多车辆系统的无模型最优同步控制方法。


背景技术:

2.在实际中多车辆协同控制问题中,车辆个体的动力学由于其复杂性,往往无法准确得到系统的精确动力学模型,如编队无人机、无人驾驶汽车、以及协作多机械手等。且由于实际生产装配过程中无法保证每一个零件完全一致,导致车辆个体之间不可避免存在异构问题。
3.当前的控制理论技术大多基于精确地模型来设计控制器,同时要求系统全状态可测,这在实际的复杂系统上往往难以实现。另外,在现有技术当中并未考虑控制系统的最优控制性能。最后,当前技术主要考虑纯净环境,忽略了实际工程应用中不可避免的随机扰动影响。
4.上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。


技术实现要素:

5.为解决上述技术问题,本发明提供一种多车辆系统的无模型最优同步控制方法,包括:
6.s1:获取多车辆系统,多车辆系统包括1个领导者和n个跟随者,获取分布式控制协议;
7.s2:根据多车辆系统构建模型无关的分布式观测器,通过模型无关的分布式观测器获得当前领导者的状态;
8.s3:通过历时输入输出数据构建当前跟随者的重构增广状态,根据当前领导者的状态和当前跟随者的重构增广状态获得跟踪误差指标;
9.s4:通过基于高斯核的两阶段值迭代评价网络设计方法对分布式控制协议进行训练;若误差指标小于阈值则输出当前的分布式控制协议,进入步骤s5;否则获取新的历时输入输出数据,返回步骤s2;
10.s5:将当前的分布式控制协议作为最优控制协议,通过最优控制协议控制多车辆系统的运行。
11.优选的,步骤s2中,当前领导者的状态的计算公式的表达式为:
[0012][0013]
其中,是领导者动力学f的估计,c是一个正常数,k是一个设计矩阵,是跟踪者车辆i对领导者状态r0(k)的估计,为邻居智能体个数,j为邻居智能体编号,di表
示度数矩阵元素,a
ij
》0表示跟随者i和跟随者j连通,否则a
ij
=0,si≥0表示固定增益,当si》0表示跟随者车辆i与领导者连通,否则si=0,其增益矩阵形式记为=0,其增益矩阵形式记为
[0014]
优选的,步骤s3具体为:
[0015]
s31:为了最优地解决分布式控制协议的分布式跟踪控制问题,定义增广系统动力学方程;
[0016]
s32:获得历史输入输出数据的重构状态通过将增广系统动力学方程重构为当前跟随者的重构增广状态;
[0017]
s33:将当前领导者的状态与当前跟随者的重构增广状态的差值方程的极限作为跟踪误差指标。
[0018]
优选的,跟随者i的增广系统动力学方程的表达式为:
[0019][0020]
其中,i
p
为单位阵,对于跟随者i有:xi(k)为系统状态,ei(k)为与领导者的跟踪误差,xi(k)为增广状态,ui(k)为控制输入,ai、bi、ci分别为跟随者i的漂移矩阵、输入矩阵和输出矩阵,增广漂移矩阵增广输入矩阵增广输入矩阵c
1i
=[c
i-i
p
]。
[0021]
优选的,采用si个历史输入输出数据获得的当前跟随者的重构增广状态的表达式为:
[0022][0023][0024]
其中,为增广漂移矩阵的估计,为增广输入矩阵的估计,为增广输入矩阵的估计;
[0025]
为k 1时刻的重构增广状态,为k时刻的重构增广状态,ui(k)为控制输入,ei(k)为跟踪误差。
[0026]
优选的,跟踪误差指标的表达式为:
[0027][0028]
其中,yi(k)表示跟随者i的输出,表示跟随者i对领导者状态的估计,ei(k)为跟踪误差。
[0029]
优选的,步骤s4具体为:
[0030]
s41:对n个跟随者同时进行训练,开始初始化阶段;
[0031]
获取高斯核函数的超参数t为训练次数且没有最大值,i为跟随者的编号且最大值为n;获取高斯回归样本集l为样本集样本数,为重构增广状态,ui(k)为控制输入,将分布式控制协议的控制策略的初始值设置为
[0032]
s42:开始训练阶段;
[0033]
分布式控制协议的控制策略表示为:获得该控制策略的奖励值表示为:q
1i
和ri均为正定矩阵,获取下一时刻跟随者的重构增广状态
[0034]
s43:通过ci(k)和第一更新公式更新控制策略的值,获得通过第二更新公式更新超参数的值,获得
[0035]
s44:将评价网络定义为:
[0036][0037]
若所有的跟随者的评价网络满足则停止学习输出当前的分布式控制协议,否则令t=t 1后返回步骤s2。
[0038]
优选的,第一更新公式的表达式为:
[0039][0040]
其中,θi=f(αi)=[f1(αi)f2(αi)

fd(αi)]
t
为一个连续可微函数;
[0041]
第二更新公式的表达式为:
[0042][0043]
其中满足高斯回归样本集表示为高斯回归样本集表示为为学习步长。
[0044]
优选的,最优控制协议的表达式为:
[0045][0046]
其中,表示最优控制协议,为重构增广状态,ui(k)为控制输入。
[0047]
本发明具有以下有益效果:
[0048]
1、本发明考虑了未知模型下的一类离散时间异构多智能系统的最优同步控制问题,具有实际应用价值和高强的可扩展性;
[0049]
2、本发明的成功实施可为多车辆编队行驶,多无人机编队表演,多水下航行器编队搜索等一系列应用场景提供一套形式有效的解决方案;
[0050]
3、由于本发明不要求获取被控系统的动力学模型信息,且允许智能体之间存在结构异构,能够有效容忍实际多智能体系统智能体在生产制造过程中的变差,能够允许不同结构的智能体组成多智能体系统,具有很高的实用价值。
附图说明
[0051]
图1为本发明实施例方法流程图;
[0052]
图2为多车辆系统示意图;
[0053]
图3为多车辆系统的拓扑结构图;
[0054]
图4为分布式观测误差示意图;
[0055]
图5为领导者和跟随者车辆输出轨迹;
[0056]
图6为跟随者的q函数演化轨迹;
[0057]
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0058]
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0059]
参照图1,本发明提供一种多车辆系统的无模型最优同步控制方法,包括:
[0060]
s1:获取多车辆系统,多车辆系统包括1个领导者和n个跟随者,获取分布式控制协议;
[0061]
具体的,多车辆系统如图2所示,车辆0为领导者车辆,其余车辆i(i=1,2,

,n)为跟随者,跟随者的动力学可以描述为:
[0062]
xi(k 1)=aixi(k) biui(k)
[0063]
yi(k)=cixi(k),i=1,2,

,n
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0064]
其中和表示跟随者i的系统状态、控制输入和输出;领导者的动力学如下:
[0065]
r0(k 1)=fr0(k)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0066]
式中r0(k)∈r
p
表示领导者的状态,f表示领导者系统参数。
[0067]
s2:根据多车辆系统构建模型无关的分布式观测器,通过模型无关的分布式观测器获得当前领导者的状态;
[0068]
s3:通过历时输入输出数据构建当前跟随者的重构增广状态,根据当前领导者的状态和当前跟随者的重构增广状态获得跟踪误差指标;
[0069]
s4:通过基于高斯核的两阶段值迭代评价网络设计方法对分布式控制协议进行训练;若误差指标小于阈值则输出当前的分布式控制协议,进入步骤s5;否则获取新的历时输入输出数据,返回步骤s2;
[0070]
s5:将当前的分布式控制协议作为最优控制协议,通过最优控制协议控制多车辆系统的运行。
[0071]
本实施例中,步骤s2中,只考虑系统的输入ui(k)、输出yi(k)和r0(k)是可测量的变量,系统的内部状态xi(k)是不可测的,且系统矩阵ai,bi,ci是未知的。假设2:每一辆车都是可控和可观察的,领导者是可观察的。假设3:已知每个车辆系统的阶数及其可观测指数的上界。假设4:领导者的所有极点都在单位圆上,且不重复;
[0072]
在多车辆系统中,只有领导者的邻居可以访问领导者;为实现输出一致性控制,消除车辆间异构特征的影响;本发明中当前领导者的状态的计算公式的表达式为:
[0073][0074]
其中,是领导者动力学f的估计,c是一个正常数,k是一个设计矩阵,是跟踪者车辆i对领导者状态r0(k)的估计,为邻居智能体个数,j为邻居智能体编号,di表示度数矩阵元素,a
ij
》0表示跟随者i和跟随者j连通,否则a
ij
=0,si≥0表示固定增益,当si》0表示跟随者车辆i与领导者连通,否则si=0,其增益矩阵形式记为=0,其增益矩阵形式记为
[0075]
具体的,公式(3)的观测估计误差通过以下更新规则收敛到零:
[0076][0077]
其中f=f0 δf,f0的所有极点都在单位圆上,||δf||《ξ,σ
max
(f0)表示f0的奇异值的最大值,λi表示的特征值;
[0078]
在观测估计误差收敛到零后,由(3)可得:
[0079][0080]
如果跟踪误差同时也收敛到零,则可以实现输出一致性目标。
[0081]
本实施例中,步骤s3具体为:
[0082]
s31:为了最优地解决分布式控制协议的分布式跟踪控制问题,定义增广系统动力学方程;
[0083]
s32:获得历史输入输出数据的重构状态通过将增广系统动力学方程重构为当前跟随者的重构增广状态;
[0084]
s33:将当前领导者的状态与当前跟随者的重构增广状态的差值方程的极限作为跟踪误差指标。
[0085]
本实施例中,跟随者i的增广系统动力学方程的表达式为:
[0086][0087]
其中,i
p
为单位阵,对于跟随者i有:xi(k)为系统状态,ei(k)为与领导者的跟踪误差,xi(k)为增广状态,ui(k)为控制输入,ai、bi、ci分别为跟随者i的漂移矩阵、输入矩阵和输出矩阵,增广漂移矩阵增广输入矩阵增广输入矩阵c
1i
=[c
i-i
p
]。
[0088]
具体的,在定义了增广系统动力学方程后,再定义跟随者i的待最小化性能指标函数为:
[0089][0090]
其中是效用函数,0《γi≤1表示折扣
因子,q
ei
和ri是定常矩阵且满足q
ei
》0,ri》0,q
1i
=[c
i-i
p
]
tqei
[c
i-i
p
]。对于最优跟踪控制问题,所设计的控制策略需要稳定控制系统并保证性能指标函数有限,即控制策略必须是可容许的。在容许控制下,每辆跟随者i的q函数可以表示为:
[0091][0092]
由此hamiltonian函数可以定义为:
[0093][0094]
根据最优性的第一个必要条件,得到了最优性
[0095][0096]
得到最优控制协议为:
[0097][0098]
获得ui(k)的解析解存在两个问题。首先,q函数vi(xi(k))包含内部状态xi(k),这是获得ui(k)所必需的。然而,xi(k)在本方法中是不可测的。其次,ui(k)的解包含偏导数和系统矩阵b
1i
,在实际应用中很难或不可能得到。为了克服这些困难,我们采用基于历史输入/输出数据的状态表示xi(k)来解决第一个问题。然后,提出一种基于q函数的adp方法,利用xi(k)逼近ui(k)的解来实现无模型输出一致性控制。
[0099]
本实施例中,利用历史输入输出数据获得的当前跟随者的重构增广状态:
[0100]
首先,证明系统内部状态是历史输出和控制输入的函数。在满足假设2和假设3条件下,根据历史测量的输入/输出序列,给出增广系统的状态,如下所示:
[0101][0102]
其中表示车辆i在k-1到k-si时间步的输出跟踪误差,展开可表示为:
[0103][0104]
表示车辆i在k-1到k-si时间步的输出序列,展开可表示为:
[0105][0106]
且,
[0107]vi
=u
i-w
idi

[0108][0109]
由于假设2和假设4,每一个增广系统存在一个能观性指数ki,,当si《ki,满足不等式rank(φi)《ni p;当si≥ki,满足不等式rank(φi)=ni p。因此,为了满足φi有列满秩,只需保证si≥ki。
[0110]
基于此,可以得到:
[0111][0112]
因为wi和vi为常数,定义重构状态表示输入输出数据组,则不可测的系统内部状态xi(k)可通过可测量的输入输出数据重构;下面的定理表明可以通过定义的重构状态来重构增广系统;
[0113]
因此,采用si个历史输入输出数据获得的当前跟随者的重构增广状态的表达式为:
[0114][0115][0116]
其中,为增广漂移矩阵的估计,为增广输入矩阵的估计,为增广输入矩阵的估计;
[0117]
为k 1时刻的重构增广状态,为k时刻的重构增广状态,ui(k)为控制输入,ei(k)为跟踪误差。
[0118]
具体的,
[0119]
r1=(s
i-1),r2=psi,
[0120][0121][0122]vi
=u
i-w
idi

[0123][0124]
其中,o表示0矩阵,下标表示矩阵维数,i表示单位矩阵,下标表示矩阵维数,p和si均为设计常数,mi表示系统输入维度,c
1i
=[c
i-i
p
]。
[0125]
本实施例中,跟踪误差指标的表达式为:
[0126][0127]
其中,yi(k)表示跟随者i的输出,表示跟随者i对领导者状态的估计,ei(k)为跟踪误差。
[0128]
具体的,可推导出跟踪误差动力学:
[0129][0130]
本实施例中,基于gk-acd的两阶段值迭代算法
[0131]
两相值迭代过程包括两部分:首先,在θi固定的条件下进行样本q函数的迭代逼近;其次,在固定样本q函数的条件下,用极大似然估计更新θi。注意到θi估计的精度受当前样本q函数的正确性的影响。一个错误的样本q函数可能会导致下一个值函数的计算失败,由于错误的信用分配。因此,为了实现值函数和超参数的同时迭代,采用并行两阶段随机迭代算法实现gk-acd。对于任意θi,如果k
li
是连续微分的,αi=0,k
li
对应θi的雅可比矩阵是非奇异的。定义一个连续可微函数:
[0132]
θi=f(αi)=[f1(αi)f2(αi)

fd(αi)]
t
ꢀꢀꢀ
(20)
[0133]
步骤s4具体为:
[0134]
s41:对n个跟随者同时进行训练,开始初始化阶段;
[0135]
获取高斯核函数的超参数t为训练次数且没有最大值,i为跟随者的编号且最大值为n;获取高斯回归样本集l为样本集样本数,为重构增广状态,ui(k)为控制输入,将分布式控制协议的控制策略的初始值设置为
[0136]
s42:开始训练阶段;
[0137]
分布式控制协议的控制策略表示为:获得该控制策略的奖励值表示为:q
1i
和ri均为正定矩阵,获取下一时刻跟随者的重构增广状态
[0138]
s43:通过ci(k)和第一更新公式更新控制策略的值,获得通过第二更新公式更新超参数的值,获得
[0139]
s44:将评价网络定义为:
[0140][0141]
若所有的跟随者的评价网络满足则停止学习输出当前的分布式控制协议,否则令t=t 1后返回步骤s2。
[0142]
具体的,步骤s4通过同时进行q函数值的逼近和超参数优化来更新评价网络;将q函数的迭代转化为αi的更新,对高斯核θi的更新可以实时调整评价网络模型;其中n是一个区间,αi每更新n次θi就更新一次;这种异步迭代有利于减少超参数学习过程中的计算量。
[0143]
本实施例中,第一更新公式的表达式为:
[0144][0145]
其中,θi=f(αi)=[f1(αi)f2(αi)

fd(αi)]
t
为一个连续可微函数。
[0146]
第二更新公式的表达式为:
[0147][0148]
其中满足高斯回归样本集表示为高斯回归样本集表示为为学习步长。
[0149]
本实施例中,基于高斯核的两阶段值迭代输出一致性控制
[0150]
值函数只考虑状态空间上的学习,而q函数同时考虑状态空间和动作空间。由于q函数包含了每个状态下控制动作的信息,因此对系统特征的描述更加全面。在q函数的帮助下,adp能够直接从系统轨迹的数据中进行学习,而不需要系统动力学的知识。本节将提出一种基于高斯核的两阶段值迭代评价网络设计方法,简称gk-acd,在不需要模型信息的条件下使跟踪误差收敛到零。
[0151]
设是任意的控制策略。针对重构系统,定义一个包含重构状态和控制输入ui(k)的q函数为:
[0152][0153]
通过q函数和值函数的定义,可以得到:
[0154][0155]
联立(24)和(25)可得,
[0156]
[0157]
由于q函数对每个状态的所有可能的控制输入进行评估,我们可以通过最小化q函数直接获得更好的控制策略;因此,可得:
[0158]
最优控制协议的表达式为:
[0159][0160]
其中,表示最优控制协议,为重构增广状态,ui(k)为控制输入。
[0161]
具体的,可利用高斯过程(gaussian processes,gps)来构建评价网络对最优控制协议进行评价,使用均值函数m(x)和协方差函数k(ω,ω

)来指定一个gps。协方差函数采用平方指数协方差函数:
[0162][0163]
其中v1表示向量函数方差,ω的维数用n
ω
表示,是长度尺度参数。
[0164]
本专利将车辆动力学的采样数据表示为其中表示状态动作对矩阵ω
i1

i2
,


il
,],yi表示对应的q函数向量,表示对应的q函数向量,v
0i
为噪声方差。则gps的超参数可以表示为为噪声方差。则gps的超参数可以表示为对于车辆i的任意状态动作对qi(ωi)的预测值符合方差和均值的高斯分布,可以描述为:
[0165][0166][0167]
其中ki=[k
mn
]是核矩阵,k
li
=ki v
0i
i是协方差矩阵。
[0168]
由于评价网络是基于gps构造的,(14)中的样本值yi是相对于预定样本集的样本q函数。因此,一个准确的样本值yi和一个设计良好的样本集将影响批评网络的性能,这里将采用迭代算法估计yi。yi(k)表示在k时刻yi的估计,令t为迭代次数,每个样本的q函数可以近似为:
[0169][0170]
其中ηi表示学习率,表示奖励函数,γ表示折扣因子,为了克服获取准确样本值yi的困难,在(23)中,用任意的状态动作对ωi取代ω
il
。由(21)的高斯回归函数计算样本q函数,可以表示为:
[0171]
[0172]
为了简化表达,令联立(30)和(31)可得:
[0173][0174]
由(32)可知,随着超参数的固定而固定,的迭代对应q函数的更新。因此,q函数的学习可以通过的迭代来实现。显然,不同的超参数会影响高斯过程回归的性能。采用极大似然法对超参数进行优化,使高斯回归模型更准确地逼近重构系统动力学。θi的极大似然估计可写为:
[0175][0176]
根据样本及其对应的q函数yi,通过证据最大化对超参数进行更新和优化,将对数证据定义为:
[0177][0178]
其中tr[
·
]表示轨迹,d=1,
···
,di。在样本集中,已知所有状态动作对的样本状态动作值函数yi。显然,θi是基于样本q函数迭代更新的,但θi也影响样本q函数的逼近精度。因此,交替计算θi和q函数是一种有效的解决方法。
[0179]
本方法的效果:
[0180]
考虑一个由一个领导者和三个异构跟踪车辆组成的简单系统。相互作用拓扑如图3所示;固定增益s1=1,s2=s3=0;
[0181]
其中领导者的动力学为:
[0182]
r0(k 1)=-r0(k)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(35)
[0183]
三个跟踪车辆动力学为:
[0184][0185]
各增广系统的观测器指标分别为k1=k3=3和k2=4。因此,选择s1=s3=3和s2=4来构造增广系统的重构状态:
[0186][0187][0188][0189]
效用函数中的加权矩阵为:q1=q2=q3=10,r1=r2=r3=1。对于i=1,2,3,所有追随者的折扣因子被设为γi=0.9。gk-acd算法中的学习率为:
实验结果获得的分布式观测误差如图4所示;
[0190]
领导者和跟随者的轨迹如图5所示。可以看出,跟随者从一个随机的初始位置开始,随着控制策略的调整,快速接近跟随者的状态。对于高阶动力学,虽然调整过程中轨迹波动较大,但仍能实现较快的收敛。结果表明,所提出的方法具有处理异构问题的能力。需要注意的是,虽然领导者的轨迹变化很快,但最优控制策略仍然可以使所有跟随者有效地跟随领导者的轨迹。仿真结果表明,所提出的无模型输出一致性策略是有效的。随着开发的基于gk-acd的双阶段值迭代方法的实现,q函数相对于初始系统状态-动作对的轨迹如图6所示。三个跟随者的状态-动作对的值是(u1,y1)=(0.3404,0.0901),(u2,y2)=(0.5853,0.6198),和(u3,y3)=(0.2238,0.4390)。q函数的轨迹不仅证明了三个q函数是收敛的,而且证明了q函数是一个非递减序列,从而验证了定理2的正确性。从q值的演化轨迹可以看出,学习的动态过程在十次迭代周期后停止变化。表示评价网络已达到终止条件,其权值已停止更新。由于q值迭代法的高效率,所提出的方法学习时间非常短。
[0191]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
[0192]
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序,可将这些词语解释为标识。
[0193]
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献