一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种轮式移动机器人的基于学习预测跟踪控制方法及装置与流程

2021-10-19 22:40:00 来源:中国专利 TAG:机器人 跟踪 控制 轨迹 装置


1.本发明涉及机器人轨迹跟踪控制领域,尤其涉及一种轮式移动机器人的基于学习预测跟踪控制方法及装置。


背景技术:

2.轮式移动机器人作为机器人领域的重要组成部分,一直受到研究学者们的广泛关注。一个完整的轮式移动机器人系统,一般由环境感知系统、控制系统以及行为动作执行系统构成。它集中了传感器、电子电气、信息处理、自动控制以及人工智能等多个学科技术。同时,轮式移动机器人凭借着其高集成性与机动性,相较于其它类型机器人,能够在各种复杂环境下展开灵活作业。尤其随着机器人智能化程度不断提高,轮式移动机器逐渐渗透进入现代社会的各行各业。不仅在工业、农业、医疗等传统领域应用广泛,而且在城市交通、智能物流和家用娱乐等新兴行业都扮演着重要角色。
3.随着轮式移动机器人不断融入生活,用户期望机器人执行任务的难度不断提高,使用场景也变得越来越复杂。人们对机器人的评价不仅以能否完成任务为指标,还包括在执行过程中的用户感受评价。例如,使用舒适性、低风险性等。尤其是在一些与人类生活密切先关的领域,使用过程的愉悦程度将极大地影响人们的评价。因此,近年来许多轮式移动机器人领域的相关研究,都逐渐引入使用体验评价。其次,随着轮式移动机器人运行环境越来越复杂,机器人面临的考验也逐渐增强。例如,系统扰动组成更加复杂,环境对机器人的约束限制更加多样。这对轮式移动机器人的控制方法提出了极大挑战,因此,带来如何提高轮式移动机器人控制系统的鲁棒性并增强其处理多约束的能力的挑战。
4.基于控制策略的理论保障大都依赖于系统模型的精确度。由于轮式移动机器人受到扰动等因素的影响,因此,在一些复杂场景下,这些控制策略无法满足控制性能的需要。特别是在轮式移动机器人系统受到参数不确定性、观测误差以及环境噪声等多种因素的影响,以及轮式移动机器人具有位置、输入和增量输入的约束,如何准确对轮式移动机器人的运动趋势进行预测,预测轮式移动机器人的运动轨迹,成为现有技术中无法解决的问题。
5.轮式移动机器人在实际使用过程中往往会受到各种物理约束限制的影响,例如速度约束、加速度约束、车道限制等。同时,由于实际应用场景中,轮式移动机器人系统会受到诸如参数不确定性、测量误差以及环境噪声等因素的影响。因此,设计一种能够有效处理有约束的鲁棒控制策略以解决轮式移动机器人的控制问题是极具研究价值的。传统模型预测控制策略较为依赖系统模型的精确性,因此,在一些具有复杂干扰的情况下,传统方法不能很好地完成控制任务。


技术实现要素:

6.为解决上述技术问题,本发明提出了一种轮式移动机器人的基于学习预测跟踪控制方法及装置,所述方法及装置,用以解决现有技术中无法对有扰、有约束条件下的轮式移动机器人运动进行良好控制,并且控制效果较为依赖轮式移动机器人准确模型的技术问
题。
7.根据本发明的第一方面,提供一种轮式移动机器人的基于学习预测跟踪控制方法,所述方法包括以下步骤:
8.步骤s01:进行离线设计,所述离线设计包括确定采样间隔δ、控制执行时间t
e
、学习误差率上限确定终端控制器的终端域ω
ε
;构建轮式移动机器人的基础模型,所述基础模型为包括领航机器人及所述轮式移动机器人的系统,用于获取所述轮式移动机器人的理论状态值;构建学习模型,所述学习模型输入所述轮式移动机器人实际状态值相对于所述理论状态值的差值,用于获取模型偏差预测值,所述模型偏差预测值用于表征所述轮式移动机器人自身的第一学习模型;
9.步骤s02:判断当前时刻t
k
是否小于所述控制执行时间t
e
,若是,进入步骤s03;若否,方法结束;
10.步骤s03:采集所述轮式移动机器人的实际状态计算当前时刻所述轮式移动机器人的理论状态值;若两机器人的位置偏差轨迹位于所述终端控制器的终端域ω
ε
,进入步骤s04;否则,进入步骤s05;
11.步骤s04:在当前时刻到下一采样时间的时间间隔内,使用所述终端控制器控制所述轮式移动机器人自身的第一学习模型;到达下一采样时间时,将下一采样时间记为当前时刻,进入步骤s02;
12.步骤s05:获取所述轮式移动机器人的实际状态与当前时刻所述轮式移动机器人的理论状态值的差值,作为所述学习模型的输入,输出模型偏差预测值,计算学习误差率;
13.步骤s06:若所述学习误差率大于所述学习误差率上限,进入步骤s07;否则,进入步骤s08;
14.步骤s07:基于所述模型偏差预测值更新所述轮式移动机器人自身的第一学习模型;进入步骤s09;
15.步骤s08:所述轮式移动机器人自身的第一学习模型保持不变;
16.步骤s09:基于所述轮式移动机器人的预测跟踪控制目标及约束条件,确定所述轮式移动机器人的预测跟踪控制优化问题模型;
17.步骤s10:在当前时刻到下一采样时间的时间间隔内,使用控制策略控制所述轮式移动机器人自身的第一学习模型;到达下一采样时间时,将下一采样时间记为当前时刻,进入步骤s02;
18.所述控制策略为:求解所述预测跟踪控制优化问题模型,获取当前采样时刻对应的最优控制输入,基于所述学习模型,获取当前采样时刻的模型偏差预测值,基于所述当前采样时刻的模型偏差预测值获取当前采样时刻对应的输入补偿,结合所述当前采样时刻对应的最优控制输入及所述当前采样时刻对应的输入补偿,作为所述轮式移动机器人的输入。
19.根据本发明第二方面,提供一种轮式移动机器人的基于学习预测跟踪控制装置,所述装置包括:
20.初始化模块:配置为进行离线设计,所述离线设计包括确定采样间隔δ、控制执行时间t
e
、学习误差率上限确定终端控制器的终端域ω
ε
;构建轮式移动机器人的基础模型,所述基础模型为包括领航机器人及所述轮式移动机器人的系统,用于获取所述轮式移动机器人的理论状态值;构建学习模型,所述学习模型输入所述轮式移动机器人实际状态值相对于所述理论状态值的差值,用于获取模型偏差预测值,所述模型偏差预测值用于表征所述轮式移动机器人自身的第一学习模型;
21.第一判断模块:配置为判断当前时刻t
k
是否小于所述控制执行时间t
e

22.第二判断模块:配置为采集所述轮式移动机器人的实际状态ξ
f(tk)
,计算当前时刻所述轮式移动机器人的理论状态值;若两机器人的位置偏差轨迹位于所述终端控制器的终端域ω
ε

23.第一控制模块:配置为在当前时刻到下一采样时间的时间间隔内,使用所述终端控制器控制所述轮式移动机器人自身的第一学习模型;到达下一采样时间时,将下一采样时间记为当前时刻;
24.学习误差率模块:配置为获取所述轮式移动机器人的实际状态ξ
f(tk)
与当前时刻所述轮式移动机器人的理论状态值的差值,作为所述学习模型的输入,输出模型偏差预测值,计算学习误差率;
25.第三判断模块:配置为判断所述学习误差率是否大于所述学习误差率上限;
26.第一更新模块:配置为基于所述模型偏差预测值更新所述轮式移动机器人自身的第一学习模型;
27.第一学习模型控制模块:配置为所述轮式移动机器人自身的第一学习模型保持不变;
28.优化问题模型构建模块:配置为基于所述轮式移动机器人的预测跟踪控制目标及约束条件,确定所述轮式移动机器人的预测跟踪控制优化问题模型;
29.控制模块:配置为在当前时刻到下一采样时间的时间间隔内,使用控制策略控制所述轮式移动机器人自身的第一学习模型;到达下一采样时间时,将下一采样时间记为当前时刻;
30.所述控制策略为:求解所述预测跟踪控制优化问题模型,获取当前采样时刻对应的最优控制输入,基于所述学习模型,获取当前采样时刻的模型偏差预测值,基于所述当前采样时刻的模型偏差预测值获取当前采样时刻对应的输入补偿,结合所述当前采样时刻对应的最优控制输入及所述当前采样时刻对应的输入补偿,作为所述轮式移动机器人的输入。
31.根据本发明第三方面,提供一种轮式移动机器人的基于学习预测跟踪控制系统,包括:
32.处理器,用于执行多条指令;
33.存储器,用于存储多条指令;
34.其中,所述多条指令,用于由所述存储器存储,并由所述处理器加载并执行如前所述的轮式移动机器人的基于学习预测跟踪控制方法。
35.根据本发明第四方面,提供一种计算机可读存储介质,所述存储介质中存储有多
条指令;所述多条指令,用于由处理器加载并执行如前所述的轮式移动机器人的基于学习预测跟踪控制方法。
36.根据本发明的上述方案,本发明的方法,考虑轮式移动机器人领航

跟随系统,在系统受到复杂扰动以及存在位置、输入和增量型输入约束的条件下,提出一种基于学习模型的预测跟踪控制方法。通过引入长短期记忆神经网络,对轮式移动机器人系统中的不确定性和扰动进行在线学习,并将学习到的模型偏差补偿到轮式移动机器人基础模型中以增强系统的抗扰能力并降低算法的保守性;本发明通过定义学习误差率,学习精度可被自行设定以达到期望的控制性能。同时,通过给出的学习误差上界,证明在该方法作用下的优化问题的迭代可行性和闭环系统的稳定性成立。本发明通过引入增量型输入约束,利用扰动观测器估计误差以及领航机器人加速度上界条件,得到跟随机器人的控制输入变化率上界,从而保证轮式移动机器人在实际使用中的安全性和舒适性。本发明通过设计二次型鲁棒约束,使得方法可以在满足位置约束的前提下,通过调节参数以平衡控制性能和优化问题初始可行域的大小。
37.上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。
附图说明
38.构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明提供如下附图进行说明。在附图中:
39.图1为本发明一个实施方式的轮式移动机器人的基于学习预测跟踪控制方法流程示意图;
40.图2为轮式移动机器人结构示意图;
41.图3为本发明一个实施方式的轮式移动机器人领航

跟随模型坐标图;
42.图4为本发明一个实施方式的轮式移动机器人模型偏差学习误差图;
43.图5为轮式移动机器人在lmptc算法作用下的轨迹跟踪图;
44.图6为在不同算法作用下轮式移动机器人的轨迹跟踪曲线图;
45.图7为在不同算法作用下轮式移动机器人的位置跟踪误差曲线图;
46.图8为本发明一个实施方式的轮式移动机器人的基于学习预测跟踪控制装置结构框图。
具体实施方式
47.首先结合图1说明本发明一个实施方式的轮式移动机器人的基于学习预测跟踪控制方法流程。如图1所示,所述方法包括以下步骤:
48.步骤s01:进行离线设计,所述离线设计包括确定采样间隔δ、控制执行时间t
e
、学习误差率上限确定终端控制器的终端域ω
ε
;构建轮式移动机器人的基础模型,所述基础模型为包括领航机器人及所述轮式移动机器人的系统,用于获取所述轮式移动机器人的理论状态值;构建学习模型,所述学习模型输入所述轮式移动机器人实际状态值相对于所述理论状态值的差值,用于获取模型偏差预测值,所述模型偏差预测值用于表征所述轮式
移动机器人自身的第一学习模型;
49.步骤s02:判断当前时刻t
k
是否小于所述控制执行时间t
e
,若是,进入步骤s03;若否,方法结束;
50.步骤s03:采集所述轮式移动机器人的实际状态计算当前时刻所述轮式移动机器人的理论状态值;若两机器人的位置偏差轨迹位于所述终端控制器的终端域ω
ε
,进入步骤s04;否则,进入步骤s05;
51.步骤s04:在当前时刻到下一采样时间的时间间隔内,使用所述终端控制器控制所述轮式移动机器人自身的第一学习模型;到达下一采样时间时,将下一采样时间记为当前时刻,进入步骤s02;
52.步骤s05:获取所述轮式移动机器人的实际状态与当前时刻所述轮式移动机器人的理论状态值的差值,作为所述学习模型的输入,输出模型偏差预测值,计算学习误差率;
53.步骤s06:若所述学习误差率大于所述学习误差率上限,进入步骤s07;否则,进入步骤s08;
54.步骤s07:基于所述模型偏差预测值更新所述轮式移动机器人自身的第一学习模型;进入步骤s09;
55.步骤s08:所述轮式移动机器人自身的第一学习模型保持不变;
56.步骤s09:基于所述轮式移动机器人的预测跟踪控制目标及约束条件,确定所述轮式移动机器人的预测跟踪控制优化问题模型;
57.步骤s10:在当前时刻到下一采样时间的时间间隔内,使用控制策略控制所述轮式移动机器人自身的第一学习模型;到达下一采样时间时,将下一采样时间记为当前时刻,进入步骤s02;
58.所述控制策略为:求解所述预测跟踪控制优化问题模型,获取当前采样时刻对应的最优控制输入,基于所述学习模型,获取当前采样时刻的模型偏差预测值,基于所述当前采样时刻的模型偏差预测值获取当前采样时刻对应的输入补偿,结合所述当前采样时刻对应的最优控制输入及所述当前采样时刻对应的输入补偿,作为所述轮式移动机器人的输入。
59.本实施例中,系统模型指的是轮式移动机器人的实际系统;第一学习模型是通过学习得到的用于近似模拟实际系统的模型,由于实际系统的扰动未知,因此,所述第一学习模型是用于接收实际控制的模型。
60.所述步骤s01,其中,所述构建轮式移动机器人的基础模型,所述基础模型为包括领航机器人及所述轮式移动机器人的系统,用于获取所述轮式移动机器人的理论状态值,包括:
61.如图2所示,轮式移动机器人的主体包括中心车体及左、右两个车轮。
62.建立领航

跟随者系统,包括领航机器人及所述轮式移动机器人,所述轮式移动机器人作为跟随机器人,所述领航机器人具有与所述轮式移动机器人相同的机械结构,所述领航机器人以恒定输入控制量进行运动,所述轮式移动机器人中设有预测跟踪控制器以控制所述轮式移动机器人跟随所述领航机器人进行运动。
63.进一步地,如图2所示,所述领航机器人以头部节点的中心作为中心节点建模,得到如下的领航机器人系统模型:
[0064][0065]
其中,t为时间,为领航机器人状态轨迹,u
l
为领航机器人控制输入,f
l

l
,u
l
)为领航机器人系统模型,θ为轮式移动机器人方向角,u
l
(t)为领航机器人控制输入轨迹;
[0066]
领航机器人状态变量ξ
l
=[x
l
,y
l
,θ
l
]
t
,包含所述领航机器人的位置变量p
l
=[x
l
,y
l
]
t
和角度变量θ
l
;x
l
为领航者位置横坐标值,y
l
为领航者位置纵坐标值;
[0067]
所述领航机器人的控制输入u
l
=[v
l
,ω
l
]
t
,由线速度v
l
和角速度ω
l
组成;
[0068]
所述领航机器人满足输入约束集合所述约束集合表示为:其中b=a/l,l表示轮式移动机器人半轮距值,v为轮式移动机器人线速度,ω为轮式移动机器人角速度;a是一个正实数。
[0069]
所述轮式移动机器人以头部节点为中心建立动力学方程并考虑运动过程中扰动的影响,所述轮式移动机器人即为所述跟随机器人,得到跟随机器人系统模型:
[0070][0071]
其中,所述轮式移动机器人状态变量ξ
f
=[x
f
,y
f
,θ
f
]
t
,控制输入u
f
=[v
f
,ω
f
]
t
;为跟随机器人状态轨迹,ξ
f
为跟随机器人状态,u
f
为跟随机器人控制输入,f
h

f
,u
f
)为跟随机器人系统模型,θ
f
为跟随机器人方向角,l为轮式移动机器人半轮距值,u
f
(t)为跟随机器人控制输入轨迹。
[0072]
根据两机器人运动过程中的相对位置关系,可得所述轮式移动机器人跟踪系统的表达式为
[0073][0074]
其中,为两机器人相对位置轨迹,为两机器人相对方向角轨迹,f
d
(t)为学习模型误差,ω
f
为跟随机器人角速度,v
f
为跟随机器人线速度,θ
f
为跟随机器人方向角,l为轮式移动机器人半轮距值;v
f
(t)为跟随机器人的线速度,ω
f
(t)为跟随机器人的角速度,为两机器人的方向偏差角;
[0075]
在轮式移动机器人实际运行中,轮式移动机器人会受到自身的系统模型不确定性、测量误差和扰动的影响。
[0076]
所述步骤s01,其中,构建学习模型,所述学习模型输入所述轮式移动机器人实际
状态值相对于所述理论状态值的差值,用于获取模型偏差预测值,所述模型偏差预测值用于表征所述轮式移动机器人自身的系统模型的偏差,包括:
[0077]
本实施例中,所述学习模型为长短期记忆神经网络,输入为所述轮式移动机器人实时状态值与由基础模型得到的理论状态值的差值,输出为所述轮式移动机器人的模型偏差预测值。
[0078]
所述步骤s05:获取所述轮式移动机器人的实际状态与当前时刻所述轮式移动机器人的理论状态值的差值,作为所述学习模型的输入,输出模型偏差预测值,计算学习误差率;
[0079]
步骤s06:若所述学习误差率大于所述学习误差率上限,进入步骤s07;否则,进入步骤s08;
[0080]
步骤s07:基于所述模型偏差预测值更新所述轮式移动机器人自身的第一学习模型;进入步骤s09;
[0081]
步骤s08:所述轮式移动机器人自身的第一学习模型保持不变,其中:
[0082]
将所述轮式移动机器人在运动过程中产生的实时状态值与由基础模型得到的理论状态值做对比,将差值作为输入数据输入所述长短期记忆神经网络进行训练,直到所述长短期记忆神经网络的学习误差率小于或等于用户需要的上界,更新所述轮式移机器人自身的系统模型。
[0083]
本实施例通过长短期记忆神经网络,将基础模型状态数据与所述轮式移动机器人实际运行中采集的状态数据的偏差值作为训练数据,在线学习轮式移动机器人实际模型和基础模型之间的偏差值并更新所述轮式移动机器人自身的系统模型以实现良好的控制效果。
[0084]
记采样时间序列采样间隔为δ。在每个采样时刻,所述学习模型的训练数据x
d
(t
k
)是通过获取所述轮式移动机器人实际状态测量值和基础模型理论值之间的差值得到的,即所述轮式移动机器人实际状态值相对于所述理论状态值的差值
[0085]
x
d
(t
k
)=ξ
f
(t
k 1
)

f
b

f
(t
k
),u
f
(t
k
))
[0086]
然后,将训练数据传入长短期记忆神经网络训练学习得到每个时刻的模型偏差预测值,记作y
d
(t
k
)。该模型偏差预测值包含了所述轮式移动机器人在实际运行过程中各种不确定性和环境噪声的综合影响。
[0087]
为补偿这些影响,将模型偏差预测值引入所述轮式移动机器人自身的系统模型,可以得到所述轮式移动机器人自身的系统模型:
[0088][0089]
其中,学习模型误差f
d
(t)=d
l
(t)

y
d
(t)表示所述轮式移动机器人实际模型偏差和学习到的模型偏差预测值之间的差值,其中,d
l
(t)为轮式移动机器人模型偏差,y
d
(t)为轮式移动机器人模型偏差预测值。进一步,为衡量模型偏差的学习效果,定义学习误差率
[0090][0091]
学习误差率μ(t)∈(0,1)是随时间变化的函数。通过轮式移动机器人在实际场景
中不断运动采集训练数据,神经网络训练模型最终可以以任意精度逼近原系统方程。因此,通过训练长短期记忆神经网络,轮式移动机器人的学习误差率会随时间下降以达到期望的控制效果。
[0092]
本实施例中,实际模型偏差和模型偏差预测值达到稳定状态,后续可以使用学习得到模型偏差来补偿所述移动机器人受到的实际扰动,使其更符合实际运行的需要,进而,在后续的预测跟踪控制阶段,能够更好地完成跟踪任务。
[0093]
所述步骤s09:基于所述轮式移动机器人的预测跟踪控制目标及约束条件,确定所述轮式移动机器人的预测跟踪控制优化问题模型,其中:
[0094]
轮式移动机器人优化控制问题中,所述轮式移动机器人和领航机器人之间的位置偏差需要满足输入约束、位置约束和增量型输入约束条件。
[0095]
基于轮式移动机器人的自身第一学习模型,同时,考虑所述轮式移动机器人满足跟踪位置约束表示两机器人需要满足的相对位置关系。控制输入约束和增量型输入约束表示机器人需要满足的加速度约束,为正实数。然后,定义学习模型预测控制优化问题。
[0096]
所述预测跟踪控制优化问题模型为:
[0097][0098][0099][0100][0101][0102][0103][0104][0105]
其中,为两机器人相对位置变量,为两机器人相对输入变量,为所述轮式移动机器人系统模型,为t
k
时刻预测的s时刻的所述轮式移动机器人状态轨迹,ξ
f
(t
k
;t
k
)为t
k
时刻的实际状态轨迹,为t
k
时刻预测的s时刻的所述轮式移动机器人控制输入轨迹,为阶段代函数,为终端代价函数,q,r,p表示权重矩阵,t为预测时域,收缩控制输入约束
其中β表示所述轮式移动机器人模型偏差d
l
(t)的上界,表示学习误差率μ(t)的上界;收缩增量型输入约束其中表示实际场景中所述轮式移动机器人需要满足的加速度上界,
τ
表示所述轮式移动机器人模型偏差d
l
(t)的导数上界;位置偏移量满足二次型约束上界,与时间相关并包含三个参数分别为调节参数,用户可自行定义,用于保证优化问题的迭代可行性、跟踪闭环系统的稳定性以及实际位置偏差约束的满足。终端域其中
ε
为设计参数。
[0106]
所述控制策略为:求解所述预测跟踪控制优化问题模型,获取当前采样时刻对应的最优控制输入,基于所述学习模型,获取当前采样时刻的模型偏差预测值,基于所述当前采样时刻的模型偏差预测值获取当前采样时刻对应的输入补偿,结合所述当前采样时刻对应的最优控制输入及所述当前采样时刻对应的输入补偿,作为所述轮式移动机器人的输入,其中:
[0107]
在当前采样时刻求解所述预测跟踪控制优化问题模型,同时,将所述轮式移动机器人的实际状态与基础模型得到的理论状态差值作为训练数据通过长短期记忆循环神经网络得到模型偏差值y
d
(t)以及相应的学习输入量u
d
(t)并和求解得到的最优控制输入相结合得到实际系统的最终控制输入u
f
(t)。
[0108]
通过求解优化问题得到轮式移动机器人系统最优控制当前采样时刻对应的输入然后,通过长短期记忆神经网络学习得到模型偏差d
l
(t)的预测值y
d
(t),并通过调节输入对其进行补偿,得到控制输入u
f
的完整表达式
[0109][0110]
其中,为所述预测跟踪控制优化问题模型得到的当前采样时刻对应的最优控制输入,学习输入量矩阵为输入矩阵b
f
的左伪逆矩阵。
[0111]
进一步地,将领航机器人当前的状态数据传递给跟随机器人的模型预测控制器,得到当前时刻最优控制输入量和预测的下一时刻的状态;其中,模型预测控制器通过模型预测控制算法为领航机器人构建优化问题,所述优化问题是最终目标状态已知情况下,使下一时刻目标状态下对应的当前时刻的控制输入量最小,获得当前时刻最优控制输入量。
[0112]
进一步地,本实施例中,为减少预测跟踪控制优化问题模型和学习模型的计算量,采用双模控制策略,即在终端域内、域外切换使用控制器。所述终端控制器如下:
[0113][0114]
其中,为终端控制器线速度变量,为终端控制器角速度变量,v
l
为领航机器人线速度变量,为两机器人相对方向角变量,l为轮式移动机器人半轮距值,c1和c2为常数,t
k 1
为下一采样时刻,且满足r
i
,q
i
分别表示权重矩阵q,r对角线上的元素,l表示轮式移动机器人半轮距长,表示领航机器人与跟随机器人位置偏差轨迹的横坐标值,表示领航机器人与跟随机器人位置偏差轨迹的纵坐标值。本实施例涉及的预测控制跟踪控制算法如表1:
[0115][0116]
表1
[0117]
本实施例通过把轮式移动机器人系统在运动过程中的实际状态信息与基础模型得到的理论状态信息差值作为训练数据并将训练得到的模型偏差预测值补偿到原系统中,
不断更新得到更符合实际场景的系统模型。通过学习训练得到的学习模型更符合场景需要从而可以更好地实现对轮式移动机器人的控制,提升了算法的抗扰能力。同时,通过定义学习模型误差率,学习精度可以被自行设定从而降低了算法处理扰动的保守性并保证了在算法作用下优化问题的迭代可行性和闭环系统的稳定性。
[0118]
本实施例采用经典双模模型预测控制方案,当位置偏差在终端区域外时,系统采用模型预测控制律;当位置偏差在终端区域内时,系统采用终端控制器。
[0119]
以下结合具体例子说明本发明的基于学习预测跟踪控制方法。本实施例的轮式移动机器人基于学习预测跟踪控制方法(以下简称lmptc算法)的在轮式移动机器人系统进行仿真并与其它两种控制方法比较。
[0120]
基于学习模型的预测跟踪控制算法仿真实验。
[0121]
首先,考虑轮式移动机器人领航

跟随系统,领航者与跟随者具有相同的机械结构。其中,轮式移动机器人最大线速度a=0.05m/s,半轮距轴长l=0.0267m,最大角速度b=a/l=4.8598rad/s。领航机器人以恒定输入控制量u
r
=[0.01,0.045]
t
,初始位置ξ
r
=[0,0,π/3]
t
进行运动。执行时间300s,采样周期0.05s,控制和预测时域t
c
=t=4s。跟随机器人初始状态ξ
f
=[0.1,

0.05,π/2]
t
,二次型鲁棒约束参数增量型输入约束上界ζ=0.2,代价函数权重矩阵q=diag(0.1,0.1),r=diag(0.008,0.008)和p=diag(0.5,0.5),终端控制器增益c1=c2=1.5,终端域参数ε=0.0128。
[0122]
由于轮式移动机器人在实际系统存在模型不确定性、测量误差以及各种复杂噪声的影响。因此,设计如下所示的扰动信号
[0123][0124]
扰动上界β=0.0049以及导数上界τ=0.0090。模型偏差学习误差率上界
[0125]
在仿真中领航机器人以固定速度做圆周运动,跟随机器人根据生成的既定轨迹做跟踪运动,为充分采集机器人的实际状态值作为训练数据,本次实验让跟随机器人沿固定轨迹持续运行三个循环。结果表明,采用lmptc算法,跟随机器人在运行过程中不断学习模型偏差并更新系统模型使学习误差不断降低。如图4所示,三条曲线分别表示三次循环后学习模型误差||d
l
(t)

y
d
(t)||的大小,其中,绿色曲线值最小,代表最后一次循环中的学习模型误差值。定义模型偏差学习误差和为依次求出在每次循环中模型偏差的学习误差和如下表所示:
[0126][0127]
表2轮式移动机器人跟踪循环轨迹中模型偏差的学习误差和
[0128]
使用最后一次更新的系统模型作为被控对象,检验轮式机器人最终的跟踪控制效果,如图5所示,其中,红线表示领航机器人生成的参考轨迹,蓝线表示跟随机器人的实际运
行轨迹,绿线表示跟随机器人无扰状态的下的运行轨迹。可以发现,基于学习模型的预测跟踪控制算法具有良好的抗扰效果,并使得跟随机器人实现良好的跟踪效果。
[0129]
轮式移动机器人模型预测跟踪控制方比较仿真。
[0130]
将本发明方法与基于扰动观测器的模型预测跟踪控制算法(disturbance observer based model predictive tracking control,简称dobmptc)与复合模型预测跟踪控制算法(compound model predictive tracking control,简称cmptc)在同样参数条件以及干扰条件下进行比较。
[0131]
下面将设计统一的场景并在同一组参数条件下,对轮式移动机器人进行仿真实验。首先,模拟实际系统中存在的不确定性以及环境噪声如下所示
[0132][0133]
且上界β=2.0
×
10
‑4,导数上界τ=2.2174
×
10
‑4。
[0134]
轮式移动机器人系统参数设计如下:最大线速度a=0.028m/s,半轮距轴长l=0.0267m,b=a/l=4.8598rad/s。领航机器人输入控制量u
r
=[0.01,0.045]
t
,初始位置ξ
r
=[0,0,π/3]
t
。机器人采样周期0.05s,控制和预测时域t
c
=t=4s,执行时间100s。跟随机器人初始状态ξ
f
=[0.06,

0.08,π/2]
t
,二次型鲁棒约束参数增量型输入约束上界代价函数权重矩阵q=diag(0.8,0.8),r=diag(0.001,0.001)和p=diag(0.5,0.5),终端控制器增益c1=c2=1.5,终端域参数ε=0.0085。三种算法作用下跟随机器人的运动轨迹如图8所示,可以发现其中lmptc的抗性能最为显著,cmptc次之,dobmptc相对较差。为进一步定量说明,图7展示了三种算法下跟随机器人和领航机器人的跟踪误差轨迹变化曲线。定义总体跟踪误差值结果表明dobmptc算法总体跟踪误差值为80.5299,cmptc算法总体跟踪误差值为80.1973,lmptc算法总体跟踪误差值为70.1516。在本算例中,lmptc算法的总体跟踪误差相对dobmptc算法和cmptc算法分别下降了12.89%和12.53%,算法跟踪误差表总结如下:
[0135][0136]
表3不同算法总体跟踪误差值
[0137]
本发明实施例进一步给出一种轮式移动机器人的基于学习预测跟踪控制装置,如图8所示,所述装置包括:
[0138]
初始化模块:配置为进行离线设计,所述离线设计包括确定采样间隔δ、控制执行时间t
e
、学习误差率上限确定终端控制器的终端域ω
ε
;构建轮式移动机器人的基础模型,所述基础模型为包括领航机器人及所述轮式移动机器人的系统,用于获取所述轮式移动机器人的理论状态值;构建学习模型,所述学习模型输入所述轮式移动机器人实际状态值相对于所述理论状态值的差值,用于获取模型偏差预测值,所述模型偏差预测值用于表
征所述轮式移动机器人自身的第一学习模型;
[0139]
第一判断模块:配置为判断当前时刻t
k
是否小于所述控制执行时间t
e

[0140]
第二判断模块:配置为采集所述轮式移动机器人的实际状态计算当前时刻所述轮式移动机器人的理论状态值;若两机器人的位置偏差轨迹位于所述终端控制器的终端域ω
ε

[0141]
第一控制模块:配置为在当前时刻到下一采样时间的时间间隔内,使用所述终端控制器控制所述轮式移动机器人自身的第一学习模型;到达下一采样时间时,将下一采样时间记为当前时刻;
[0142]
学习误差率模块:配置为获取所述轮式移动机器人的实际状态与当前时刻所述轮式移动机器人的理论状态值的差值,作为所述学习模型的输入,输出模型偏差预测值,计算学习误差率;
[0143]
第三判断模块:配置为判断所述学习误差率是否大于所述学习误差率上限;
[0144]
第一更新模块:配置为基于所述模型偏差预测值更新所述轮式移动机器人自身的第一学习模型;
[0145]
第一学习模型控制模块:配置为所述轮式移动机器人自身的第一学习模型保持不变;
[0146]
优化问题模型构建模块:配置为基于所述轮式移动机器人的预测跟踪控制目标及约束条件,确定所述轮式移动机器人的预测跟踪控制优化问题模型;
[0147]
控制模块:配置为在当前时刻到下一采样时间的时间间隔内,使用控制策略控制所述轮式移动机器人自身的第一学习模型;到达下一采样时间时,将下一采样时间记为当前时刻;
[0148]
所述控制策略为:求解所述预测跟踪控制优化问题模型,获取当前采样时刻对应的最优控制输入,基于所述学习模型,获取当前采样时刻的模型偏差预测值,基于所述当前采样时刻的模型偏差预测值获取当前采样时刻对应的输入补偿,结合所述当前采样时刻对应的最优控制输入及所述当前采样时刻对应的输入补偿,作为所述轮式移动机器人的输入。
[0149]
本发明实施例进一步给出一种轮式移动机器人的基于学习预测跟踪控制系统,包括:
[0150]
处理器,用于执行多条指令;
[0151]
存储器,用于存储多条指令;
[0152]
其中,所述多条指令,用于由所述存储器存储,并由所述处理器加载并执行如前所述的轮式移动机器人的基于学习预测跟踪控制方法。
[0153]
本发明实施例进一步给出一种计算机可读存储介质,所述存储介质中存储有多条指令;所述多条指令,用于由处理器加载并执行如前所述的轮式移动机器人的基于学习预测跟踪控制方法。
[0154]
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
[0155]
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以
通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0156]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0157]
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
[0158]
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,实体机服务器,或者网络云服务器等,需安装ubuntu操作系统)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read

only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0159]
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜