一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种面向机器人系统的人在回路决策建模与控制方法与流程

2021-10-09 15:35:00 来源:中国专利 TAG:回路 人机 建模 机器人 交互


1.本发明涉及人机交互技术领域,尤其是一种面向机器人系统的人在回路决策建模与控制方法。


背景技术:

2.行为控制作为编队控制技术之一,能够实现多机器人系统的分布式控制,具有灵活避障等优点,但传统行为控制方法不能保证编队控制的稳定性,为此,采用基于零空间的行为控制方法,该方法的数学模型能实现编队稳定,但由于缺少人的参与,使得行为控制方法在部分情况下无法消除任务之间的冲突,导致任务无法顺利完成。
3.因此,为了更好实现编队控制和提高编队稳定性能,需要引入人机交互。当前人与多机器人交互已经在基于领航跟随者等编队控制方法和人机交互控制框架等应用领域取得成功,但它们缺乏精确的人的模型。人的模型可以帮助预测在何种情况下人会出现较差的表现或不稳定,因此对于提高人类决策的准确性是必要的。目前存在一些人的模型建模方法,包括文献(pentland a,liu a.modeling and prediction of human behavior[j].neural computation,1999,11(1):229

242.)提出的马尔科夫模型,文献(gao j,lee j d.extending the decision field theory to model operators'reliance on automation in supervisory control situations[j].ieee transactions on systems,2006,36(5):943

959.)提出的扩展决策领域理论,此类方法依赖概率和人的信任作为建模依据,相比于这两种方法,文献(ratcliff r,mckoon g.the diffusion decision model:theory and data for two

choice decision tasks[j].neural computation,2008,20(4):873

922.)提出的漂移扩散模型根据人的实际感官信息进行人的决策建模,主要应用于神经学领域中人的决策建模,在人与多机器人交互背景下的应用仍属于开放性问题。此外,实际应用中人机协同任务的执行是存在时间要求的,传统针对人机协同任务执行控制器的设计无法保证人机复合任务能在有限时间内完成,因此,设计一种人机协同控制器来实现有限时间内执行人机复合任务仍属于开放性问题(zuo z.non

singular fixed

time terminal sliding mode control of non

linear systems[j].iet control theory&applications,2014,9(4):545

552.)。针对漂移扩散模型在人与多机器人领域的应用问题与人机复合任务在有限时间内完成的应用问题,本发明将漂移扩散模型与基于零空间的行为控制方法相结合,提出人的漂扩散模型,通过速度

准确性准则得到相对应得决策阈值公式,该方法能够提高人的决策准确性;同时提出固定时间滑模自适应行为控制器设计方法,保证人机复合任务在有限时间顺利执行。


技术实现要素:

[0004]
本发明提出一种面向机器人系统的人在回路决策建模与控制方法,通过对人的决策行为进行建模,设置人的决策阈值,提高人的决策准确性,设计人为干预任务,同时结合固定时间滑模控制与行为控制方法,采用自适应补偿策略,消除外部扰动,保证有限时间内
完成人机复合任务,实现人机任务共融。
[0005]
本发明采用以下技术方案。
[0006]
一种面向机器人系统的人在回路决策建模与控制方法,包括机器人任务设计、人的决策信息选择、人的决策行为建模、人的决策任务设计、固定时间滑模自适应行为控制器设计;所述方法首先获取机器人执行任务后的输出信息值,然后通过选择机器人位置偏差信息与速度偏差信息作为人的决策信息,使用人为决策漂移扩散模型作为建模方法,根据人的决策信息对人的决策行为进行建模,达到决策阈值后选择执行人为干预行为,设计人为决策任务,最后基于固定时间滑模控制方法设计自适应行为控制器,当机器人无法依赖系统的自主控制完成任务的时候,通过执行已设计好的人为决策任务来使机器人在规定时间内完成工作任务。
[0007]
所述方法为面向二阶非线性机器人系统的人机交互系统决策建模与固定时间滑模自适应行为控制方法,其机器人任务设计针对基于行为控制的多机器人系统,机器人具备感知探测功能,其移动环境存在障碍物;根据基于零空间的行为控制方法对机器人的基本任务进行设计,机器人基本任务包括运动到目标点任务和避撞任务;
[0008]
运动到到目标点任务是由机器人团队向目标点的移动来定义的;运动到目标点任务的目的是使团队机器人在到达预定目标点后,个体机器人停止运动,任务期望函数为目标点位置,运动到目标点任务的设计如下公式所示:
[0009][0010]
其中,x
pgj
是期望目标位置,x
vmj
是运动到目标点任务的速度输出指令,是正定增益矩阵,是任务偏差,是雅克比矩阵j
mj
的伪逆;
[0011]
当运动到目标点过程中存在障碍物时,避撞任务的目的是保持机器人与障碍物的安全距离,所以,设计避障任务函数是通过机器人与障碍物之间的距离与安全距离实时对比,若距离小于安全距离时进行避障;避撞任务被设定为高优先级任务,d
s
是期望安全距离或圆形安全区域的半径,避撞任务函数设计为:
[0012][0013]
其中,x
vaj
是避撞任务的速度输出指令,是雅克比矩阵j
aj
的伪逆,x
poq
是第q个障碍物的位置坐标,q=1,2,...,q,φ
adj
是避撞任务期望函数,φ
adj
是正定增益矩阵,是任务偏差;
[0014]
所述方法对机器人任务的输出进行融合,具体为设定机器人避撞任务作为机器人任务的高优先级,而运动到目标点任务作为次优先级任务,将运动到目标点的任务输出投影到避撞任务输出的零空间得到机器人任务的总输出:
[0015][0016]
其中,x
cvj
是机器人复合任务的速度输出指令,是避碰任务的零空间,用于消除避碰任务与运动到目标点任务之间的任务冲突部分。
[0017]
所述基于行为控制的多机器人系统中,机器人在执行运动到目标点任务和避撞任务时,机器人任务输出的反馈信息包含机器人位置信息、机器人速度信息、机器人位置偏差信息、机器人速度偏差信息、机器人与障碍物间的距离信息,所述反馈信息进行分类后用于人的决策信息选择;
[0018]
在人的决策信息选择中,将传统漂移扩散模型与基于零空间的行为控制方法结合,建立人的漂移扩散模型,将由基于零空间的行为控制方法得到的机器人位置偏差信息与速度偏差信息作为人的决策信息,为反映决策信息在单位时间内的变化量,采用机器人的速度偏差信息与机器人加速度信息偏差作为漂移率,实现对基于行为控制的人机交互系统中人的决策行为建模;
[0019]
所述人的决策行为建模为根据预设任务与滑模控制方法,当机器人的位置与速度同时跟踪上期望位置与期望速度时,位置偏差与速度偏差收敛至滑模面,即表示机器人完成期望任务,选择位置偏差与速度偏差作为决策信息;根据人的漂移扩散模型,决策行为建模公式为:
[0020][0021]
其中,是第j个机器人的位置偏差,x
pdj
是期望位置,是机器人的速度偏差,x
vdj
是期望速度,是加速度偏差,和是人的决策信息值,和分别表示和在时间dt内的变化量;
[0022]
在人的决策阈值设定时,采用基于贝叶斯风险准则进行决策阈值设置,以实现决策速度与准确性最优权衡;在任意外部扰动存在时,给定决策阈值下的决策速度与准确性为最优权衡,其中贝叶斯风险准则是最小化人的决策成本函数,决策成本函数公式为
[0023]
b
pj
=c
1pj
t
pj
c
2pj
e
pj
ꢀꢀꢀ
公式五;
[0024]
b
vj
=c
1vj
t
vj
c
2vj
e
vj
ꢀꢀꢀ
公式六;
[0025]
其中,
[0026][0027][0028][0029][0030]
其中,b
pj
和b
vj
分别是基于决策信息和的决策成本函数,c
1pj
和c
1vj
分别是基于决策信息和的决策观测成本,c
2pj
和c
2vj
分别是基于决策信息和的决策偏差成本,
t
pj
和e
pj
分别是基于决策信息的决策时间和决策偏差,t
vj
和e
vj
分别是基于决策信息的决策时间和决策偏差。ζ
pj
和ζ
vj
分别是基于决策信息和的决策阈值。值。和分别是初始位置偏差和初始速度偏差;
[0031]
所述人的决策阈值根据速度

准确性准则设定;人为决策信息随着时间不断演化,当人为决策信息演化到预设阈值时,需要从人的行为集中选择人的某个行为,即令和时,阈值的设定为:
[0032][0033][0034]
其中,除了ζ
pj
和ζ
vj
是未知外,其余的参数(c
pj
,c
vj
等)均为已知;
[0035]
当决策阈值确定后,可以得到准确的决策时机,即由两个决策阈值产生两个决策时机,定义t
d
为最终的决策时机,则有下列公式:
[0036][0037]
其中,t
pj
和e
pj
分别是基于决策信息的决策时间和决策偏差,t
vj
和e
vj
分别是基于决策信息的决策时间和决策偏差。
[0038]
所述人的决策任务设计为针对机器人系统的人为干预任务设计,具体为设计一组
人的行为集,包括人的监督行为和人为干预行为,其中监督行为对机器人并不产生任务输入,而人为干预行为是部分干预机器人,即人并不直接控制机器人,而是向机器人发送可执行的人为干预指令,只考虑人为干预行为的任务设计以公式表述为
[0039][0040]
其中,是雅克比矩阵j
h
的伪逆矩阵,是人为干预任务的正定增益矩阵,是人为干预任务偏差,是期望人为干预任务函数的偏导;
[0041]
当人为干预任务与机器人任务结合时,形成基于人在回路的行为控制,其中设计后的人的干预任务与机器人自主执行任务相同,都能被机器人快速识别执行,将人的干预任务设置为最高优先级任务,原本的机器人自主任务转为次高优先级任务,机器人自主任务的速度输出指令x
cvj
投影到人为干预任务速度输出指令x
vh
的零空间上,得到人机复合任务的速度输出指令为:
[0042][0043]
其中,x
vd
是人机复合任务的速度输出指令,是人为干预任务的零空间,当时,表示执行人为干预任务的同时无法执行机器人自主任务。
[0044]
所述固定时间滑模自适应行为控制器设计,具体为在得到人为干预任务后,结合基于零空间投影的行为控制方法,其控制目标是设计控制器使多机器人系统跟踪上参考轨迹该参考轨迹可以通过对参考速度离散积分得到。此外,对参考速度x
rv
求导可得参考加速度为结合基于零空间投影的行为控制方法,固定时间滑模面的设计为:
[0045][0046]
其中,定义是参考位置与实际位置的偏差,是参考位置与实际位置的偏差,是参考速度与实际速度之间的偏差,α和β是正定增益矩阵,μ
1.1
和μ
1.2
是正定奇数且满足足ω
1.1
和ω
1.2
是正定奇数且满足
[0047]
基于二阶非线性机器人模型与滑模面,固定时间滑模自适应行为控制器设计为:
[0048][0049]
其中,
[0050][0051]
[0052][0053]
其中,和是正定矩阵,μ
2.1
和μ
2.2
是正定奇数且满足0<μ2<1。<1。和是正定奇数且满足是正定奇数且满足是未知扰动上界δ
j
的估计值且满足||ε
j
||≤δ
j
。γ
j
>0是正定参数,表示第j个滑模面s
j
的一范数,是估计值与实际值δ
j
之间的偏差。
[0054]
所述面向机器人系统的人在回路决策建模与控制方法,包括面向二阶非线性系统的人在回路决策建模方法,以及固定时间滑模自适应行为控制器设计方法。
[0055]
所述面向机器人系统的人在回路决策建模与控制方法,其机器人任务设计针对基于行为控制的人与多机器人交互系统,机器人具备感知探测功能,其移动环境存在障碍物;包括以下步骤;
[0056]
步骤一:机器人任务设计:利用基于零空间的行为控制方法,把机器人运动到目标点行为和避撞行为设计为机器人基本任务;运动到目标点任务是跟机器人的位置相关,设计其目标函数为机器人的目标点,当机器人运动到目标点时候停止运动。避撞任务跟机器人与障碍物之间的距离相关,通过设定机器人的安全避撞距离,当机器人与障碍物的距离小于安全避撞距离时,执行避撞任务;
[0057]
步骤二:机器人任务输出融合:机器人完成运动到目标点任务和避撞任务的设计后,根据基于零空间的行为控制方法对任务的输出进行融合,设定机器人避撞任务作为高优先级任务,而运动到目标点任务作为次优先级任务,将运动到目标点的任务输出投影到避撞任务输出的零空间后,相加得到机器人任务的总输出;
[0058]
步骤三:人的决策过程分析:引入数据处理站,对人与多机器人交互系统的人的决策过程进行分析。数据处理站中对机器人的任务输出反馈和传感器信息反馈进行处理,将反馈信息进行分类,选择反馈信息进行人的决策行为建模,完成建模后的机器人系统,在决策信息到达决策阈值时,触发人的决策,选择是否进行人为干预,若进行人为干预则生成人为干预任务,设计为最高优先级任务输入到机器人;
[0059]
步骤四:人的决策信息选择:数据处理站接受的多种反馈信息包括直接反应机器人任务执行进度的信息和无法反应任务执行进度的信息,直接反应机器人任务执行进度的信息包括机器人实际位置与预设位置的偏差信息、机器人实际速度与预设速度的偏差信息,无法反应任务执行进度的信息包括机器人与障碍物的距离信息,数据处理站选择机器人位置偏差信息与速度偏差信息作为人的决策信息以实现人的决策建模;
[0060]
步骤五:人的决策行为建模:将人的漂移扩散模型扩展至二阶非线性系统,基于零空间的行为控制方法得到的机器人位置偏差信息与速度偏差信息作为人的决策信息,为反映决策信息在单位时间内的变化量,采用机器人的速度偏差信息与加速度偏差信息作为漂移率,实现对基于行为控制的人机交互系统中人的决策行为建模;速度偏差信息为预设速度与实际速度的偏差;加速度偏差信息为预设加速度与实际加速度的偏差;
[0061]
步骤六:人的决策阈值设定:通过设定人的决策阈值来获得准确的决策时机,根据
bayesrisk的速度

准确性准则,对人的决策成本函数最小化得到人的决策阈值设定公式,不同决策信息对应不同决策阈值,不同阈值对应的决策时间由人的决策时间公式得到准确的决策实际,实现速度和准确性最优;
[0062]
步骤七:人为干预任务设计:当人的决策信息到达决策阈值时,对人的行为集中的行为进行选择以形成人为干预任务,人的行为集包括人的监督行为和人为干预行为,其中监督行为并不对机器人产生任务输入,以人为干预行为来设计人为干预任务,帮助机器人顺利完成任务;
[0063]
步骤八:固定时间滑模行为控制器设计:即为保证机器人在有限时间内执行人机复合任务,提出将固定时间滑模控制方法与基于零空间的行为控制方法结合,采用自适应策略,消除外部扰动,实现在任意初始偏差下,在有限时间内完成人机协同。
[0064]
本发明针对人的漂移扩散模型仅适用于一阶线性模型导致实际应用范围较小的不足,发展人的漂移扩散模型至二阶非线性系统,扩展了人的漂移扩散模型在人机交互系统的实际应用。通过选择机器人的位置偏差信息和速度偏差信息作为人的决策信息,当人的决策信息分别到达对应的决策阈值时,人进行决策,提出决策时机确定公式,有效提高人的决策准确性和提高决策速度。当人进行决策后选择进行人为干预,将人的干预指令设计为干预任务。将固定时间滑模控制方法结合基于零空间的行为控制方法可以实现在任意初始任务偏差下,保证有限时间内完成预设人机复合任务,缩短任务的执行时间,提升任务的执行效率和多机器人系统的鲁棒性。
[0065]
本发明针对漂移扩散模型在人与多机器人领域的应用问题与人机复合任务在有限时间内完成的应用问题,将漂移扩散模型与基于零空间的行为控制方法相结合,提出人的漂扩散模型,通过速度

准确性准则得到相对应得决策阈值公式,该方法能够提高人的决策准确性;同时提出固定时间滑模自适应行为控制器设计方法,保证人机复合任务在有限时间顺利执行。
[0066]
本发明通过对人的决策行为进行建模,设置人的决策阈值,提高人的决策准确性,设计人为干预任务,同时结合固定时间滑模控制与行为控制方法,采用自适应补偿策略,消除外部扰动,保证有限时间内完成人机复合任务,实现人机任务共融。
附图说明
[0067]
下面结合附图和具体实施方式对本发明进一步详细的说明:
[0068]
附图1是面向二阶非线性系统的数据处理站的示意图;
[0069]
附图2是面向二阶非线性系统的人在回路控制框的示意图;
[0070]
附图3是基于固定时间滑模行为控制器的控制与决策框的示意图;
[0071]
附图4是基于位置偏差的决策信息演化的示意图;
[0072]
附图5是基于速度偏差的决策信息演化的示意图。
具体实施方式
[0073]
如图所示,一种面向机器人系统的人在回路决策建模与控制方法,包括机器人任务设计、人的决策信息选择、人的决策行为建模、人的决策任务设计、固定时间滑模自适应行为控制器设计;所述方法首先获取机器人执行任务后的输出信息值,然后通过选择机器
人位置偏差信息与速度偏差信息作为人的决策信息,使用人为决策漂移扩散模型作为建模方法,根据人的决策信息对人的决策行为进行建模,达到决策阈值后选择执行人为干预行为,设计人为决策任务,最后基于固定时间滑模控制方法设计自适应行为控制器,当机器人无法依赖系统的自主控制完成任务的时候,通过执行已设计好的人为决策任务来使机器人在规定时间内完成工作任务。
[0074]
所述方法为面向二阶非线性机器人系统的人机交互系统决策建模与固定时间滑模自适应行为控制方法,其机器人任务设计针对基于行为控制的多机器人系统,机器人具备感知探测功能,其移动环境存在障碍物;根据基于零空间的行为控制方法对机器人的基本任务进行设计,机器人基本任务包括运动到目标点任务和避撞任务;
[0075]
运动到到目标点任务是由机器人团队向目标点的移动来定义的;运动到目标点任务的目的是使团队机器人在到达预定目标点后,个体机器人停止运动,任务期望函数为目标点位置,运动到目标点任务的设计如下公式所示:
[0076][0077]
其中,x
pgj
是期望目标位置,x
vmj
是运动到目标点任务的速度输出指令,是正定增益矩阵,是任务偏差,是雅克比矩阵j
mj
的伪逆;
[0078]
当运动到目标点过程中存在障碍物时,避撞任务的目的是保持机器人与障碍物的安全距离,所以,设计避障任务函数是通过机器人与障碍物之间的距离与安全距离实时对比,若距离小于安全距离时进行避障;避撞任务被设定为高优先级任务,d
s
是期望安全距离或圆形安全区域的半径,避撞任务函数设计为:
[0079][0080]
其中,x
vaj
是避撞任务的速度输出指令,是雅克比矩阵j
aj
的伪逆,x
poq
是第q个障碍物的位置坐标,q=1,2,...,q,φ
adj
是避撞任务期望函数,φ
adj
是正定增益矩阵,是任务偏差;
[0081]
所述方法对机器人任务的输出进行融合,具体为设定机器人避撞任务作为机器人任务的高优先级,而运动到目标点任务作为次优先级任务,将运动到目标点的任务输出投影到避撞任务输出的零空间得到机器人任务的总输出:
[0082][0083]
其中,x
cvj
是机器人复合任务的速度输出指令,是避碰任务的零空间,用于消除避碰任务与运动到目标点任务之间的任务冲突部分。
[0084]
所述基于行为控制的多机器人系统中,机器人在执行运动到目标点任务和避撞任务时,机器人任务输出的反馈信息包含机器人位置信息、机器人速度信息、机器人位置偏差信息、机器人速度偏差信息、机器人与障碍物间的距离信息,所述反馈信息进行分类后用于人的决策信息选择;
[0085]
在人的决策信息选择中,将传统漂移扩散模型与基于零空间的行为控制方法结
合,建立人的漂移扩散模型,将由基于零空间的行为控制方法得到的机器人位置偏差信息与速度偏差信息作为人的决策信息,为反映决策信息在单位时间内的变化量,采用机器人的速度偏差信息与机器人加速度信息偏差作为漂移率,实现对基于行为控制的人机交互系统中人的决策行为建模;
[0086]
所述人的决策行为建模为根据预设任务与滑模控制方法,当机器人的位置与速度同时跟踪上期望位置与期望速度时,位置偏差与速度偏差收敛至滑模面,即表示机器人完成期望任务,选择位置偏差与速度偏差作为决策信息;根据人的漂移扩散模型,决策行为建模公式为:
[0087][0088]
其中,是第j个机器人的位置偏差,x
pdj
是期望位置,是机器人的速度偏差,x
vdj
是期望速度,是加速度偏差,和是人的决策信息值,和分别表示和在时间dt内的变化量;
[0089]
在人的决策阈值设定时,采用基于贝叶斯风险准则进行决策阈值设置,以实现决策速度与准确性最优权衡;在任意外部扰动存在时,给定决策阈值下的决策速度与准确性为最优权衡,其中贝叶斯风险准则是最小化人的决策成本函数,决策成本函数公式为
[0090]
b
pj
=c
1pj
t
pj
c
2pj
e
pj
ꢀꢀꢀ
公式五;
[0091]
b
vj
=c
1vj
t
vj
c
2vj
e
vj
ꢀꢀꢀ
公式六;
[0092]
其中,
[0093][0094][0095][0096][0097]
其中,b
pj
和b
vj
分别是基于决策信息和的决策成本函数,c
1pj
和c
1vj
分别是基于决策信息和的决策观测成本,c
2pj
和c
2vj
分别是基于决策信息和的决策偏差成本,t
pj
和e
pj
分别是基于决策信息的决策时间和决策偏差,t
vj
和e
vj
分别是基于决策信息的决策时间和决策偏差。ζ
pj
和ζ
vj
分别是基于决策信息和的决策阈
值。值。和分别是初始位置偏差和初始速度偏差;
[0098]
所述人的决策阈值根据速度

准确性准则设定;人为决策信息随着时间不断演化,当人为决策信息演化到预设阈值时,需要从人的行为集中选择人的某个行为,即令和时,阈值的设定为:
[0099][0100][0101]
其中,除了ζ
pj
和ζ
vj
是未知外,其余的参数(c
pj
,c
vj
等)均为已知;
[0102]
当决策阈值确定后,可以得到准确的决策时机,即由两个决策阈值产生两个决策时机,定义t
d
为最终的决策时机,则有下列公式:
[0103][0104]
其中,t
pj
和e
pj
分别是基于决策信息的决策时间和决策偏差,t
vj
和e
vj
分别是基于决策信息的决策时间和决策偏差。
[0105]
所述人的决策任务设计为针对机器人系统的人为干预任务设计,具体为设计一组人的行为集,包括人的监督行为和人为干预行为,其中监督行为对机器人并不产生任务输入,而人为干预行为是部分干预机器人,即人并不直接控制机器人,而是向机器人发送可执行的人为干预指令,只考虑人为干预行为的任务设计以公式表述为
[0106][0107]
其中,是雅克比矩阵j
h
的伪逆矩阵,是人为干预任务的正定增益矩阵,是人为干预任务偏差,是期望人为干预任务函数的偏导;
[0108]
当人为干预任务与机器人任务结合时,形成基于人在回路的行为控制,其中设计后的人的干预任务与机器人自主执行任务相同,都能被机器人快速识别执行,将人的干预任务设置为最高优先级任务,原本的机器人自主任务转为次高优先级任务,机器人自主任务的速度输出指令x
cvj
投影到人为干预任务速度输出指令x
vh
的零空间上,得到人机复合任务的速度输出指令为:
[0109][0110]
其中,x
vd
是人机复合任务的速度输出指令,是人为干预任务的零空间,当时,表示执行人为干预任务的同时无法执行机器人自主任务。
[0111]
所述固定时间滑模自适应行为控制器设计,具体为在得到人为干预任务后,结合基于零空间投影的行为控制方法,其控制目标是设计控制器使多机器人系统跟踪上参考轨迹该参考轨迹可以通过对参考速度离散积分得到。此外,对参考速度x
rv
求导可得参考加速度为结合基于零空间投影的行为控制方法,固定时间滑模面的设计为:
[0112][0113]
其中,定义是参考位置与实际位置的偏差,是参考位置与实际位置的偏差,是参考速度与实际速度之间的偏差,α和β是正定增益矩阵,μ
1.1
和μ
1.2
是正定奇数且满足足足和是正定奇数且满足
[0114]
基于二阶非线性机器人模型与滑模面,固定时间滑模自适应行为控制器设计为:
[0115][0116]
其中,
[0117][0118][0119]
[0120]
其中,k
α1j
=k
α1j
i和k
β1j
=k
β1j
i是正定矩阵,μ
2.1
和μ
2.2
是正定奇数且满足0<μ2<1。<1。和是正定奇数且满足是正定奇数且满足是未知扰动上界δ
j
的估计值且满足||ε
j
||≤δ
j
。γ
j
>0是正定参数,表示第j个滑模面s
j
的一范数,是估计值与实际值δ
j
之间的偏差。
[0121]
所述面向机器人系统的人在回路决策建模与控制方法,包括面向二阶非线性系统的人在回路决策建模方法,以及固定时间滑模自适应行为控制器设计方法。
[0122]
所述面向机器人系统的人在回路决策建模与控制方法,其机器人任务设计针对基于行为控制的人与多机器人交互系统,机器人具备感知探测功能,其移动环境存在障碍物;包括以下步骤;
[0123]
步骤一:机器人任务设计:利用基于零空间的行为控制方法,把机器人运动到目标点行为和避撞行为设计为机器人基本任务;运动到目标点任务是跟机器人的位置相关,设计其目标函数为机器人的目标点,当机器人运动到目标点时候停止运动。避撞任务跟机器人与障碍物之间的距离相关,通过设定机器人的安全避撞距离,当机器人与障碍物的距离小于安全避撞距离时,执行避撞任务;
[0124]
步骤二:机器人任务输出融合:机器人完成运动到目标点任务和避撞任务的设计后,根据基于零空间的行为控制方法对任务的输出进行融合,设定机器人避撞任务作为高优先级任务,而运动到目标点任务作为次优先级任务,将运动到目标点的任务输出投影到避撞任务输出的零空间后,相加得到机器人任务的总输出;
[0125]
步骤三:人的决策过程分析:引入数据处理站,对人与多机器人交互系统的人的决策过程进行分析。数据处理站中对机器人的任务输出反馈和传感器信息反馈进行处理,将反馈信息进行分类,选择反馈信息进行人的决策行为建模,完成建模后的机器人系统,在决策信息到达决策阈值时,触发人的决策,选择是否进行人为干预,若进行人为干预则生成人为干预任务,设计为最高优先级任务输入到机器人;
[0126]
步骤四:人的决策信息选择:数据处理站接受的多种反馈信息包括直接反应机器人任务执行进度的信息和无法反应任务执行进度的信息,直接反应机器人任务执行进度的信息包括机器人实际位置与预设位置的偏差信息、机器人实际速度与预设速度的偏差信息,无法反应任务执行进度的信息包括机器人与障碍物的距离信息,数据处理站选择机器人位置偏差信息与速度偏差信息作为人的决策信息以实现人的决策建模;
[0127]
步骤五:人的决策行为建模:将人的漂移扩散模型扩展至二阶非线性系统,基于零空间的行为控制方法得到的机器人位置偏差信息与速度偏差信息作为人的决策信息,为反映决策信息在单位时间内的变化量,采用机器人的速度偏差信息与加速度偏差信息作为漂移率,实现对基于行为控制的人机交互系统中人的决策行为建模;速度偏差信息为预设速度与实际速度的偏差;加速度偏差信息为预设加速度与实际加速度的偏差;
[0128]
步骤六:人的决策阈值设定:通过设定人的决策阈值来获得准确的决策时机,根据bayesrisk的速度

准确性准则,对人的决策成本函数最小化得到人的决策阈值设定公式,不同决策信息对应不同决策阈值,不同阈值对应的决策时间由人的决策时间公式得到准确
的决策实际,实现速度和准确性最优;
[0129]
步骤七:人为干预任务设计:当人的决策信息到达决策阈值时,对人的行为集中的行为进行选择以形成人为干预任务,人的行为集包括人的监督行为和人为干预行为,其中监督行为并不对机器人产生任务输入,以人为干预行为来设计人为干预任务,帮助机器人顺利完成任务;
[0130]
步骤八:固定时间滑模行为控制器设计:即为保证机器人在有限时间内执行人机复合任务,提出将固定时间滑模控制方法与基于零空间的行为控制方法结合,采用自适应策略,消除外部扰动,实现在任意初始偏差下,在有限时间内完成人机协同。
[0131]
实施例:
[0132]
本例中,组建了三个二阶非线性模型的多机器人系统仿真实例。其中,多机器人移动环境为未知,存在障碍物。机器人具备感知探测功能。
[0133]
分为以下步骤;
[0134]
步骤一:机器人任务设计
[0135]
运动到目标点任务的目的是使团队机器人在到达预定目标点后,个体机器人停止运动,任务期望函数为目标点位置,因此,运动到目标点任务的设计如下公式所示:
[0136][0137]
其中,x
pgj
是期望目标位置,x
vmj
是运动到目标点任务的速度输出指令,是正定增益矩阵,是任务偏差,是雅克比矩阵j
mj
的伪逆。
[0138]
避碰任务的目的是保持机器人与障碍物之间的安全距离,为保护机器人安全,故避碰任务被设定为高优先级任务,d
s
是期望安全距离或圆形安全区域的半径,因此,避碰任务函数设计为:
[0139][0140]
其中,x
vaj
是避撞任务的速度输出指令,是雅克比矩阵j
aj
的伪逆,x
poq
是第q个障碍物的位置坐标,q=1,2,...,q,φ
adj
是避撞任务期望函数,φ
adj
是正定增益矩阵,是任务偏差。
[0141]
步骤二:机器人任务输出融合
[0142]
对运动到目标点任务和避撞任务的输出进行融合,由于机器人的安全性至关重要,所以设定机器人避撞任务作为机器人任务的高优先级,而运动到目标点任务作为次优先级任务,将运动到目标点的任务输出投影到避撞任务输出的零空间得到机器人任务的总输出:
[0143][0144]
其中,x
cvj
是机器人复合任务的速度输出指令,是避碰任务的零空间,用于消除避碰任务与运动到目标点任务之间的任务冲突部分。
[0145]
步骤三:人的决策信息选择
[0146]
二阶非线性机器人系统中人的漂移扩散模型是从机器人传感器信息中选择人的
决策信息,并将其转换到数据处理站。如图1所示,存在多部分分布式传感器的信息,例如位置信息x
pj
,速度信息x
vj
,位置偏差信息速度偏差信息加速度信息和加速度偏差信息等。由于基于零空间投影的行为控制方法是给定期望任务函数,通过行为控制器产生参考轨迹,通过参考轨迹跟踪期望任务轨迹,同时人机交互系统主要作用是提高机器人完成任务的性能。因此,决策信息的选择标准是根据数据信息是否能准确反映任务的执行进度。
[0147]
步骤四:人的决策行为建模
[0148]
根据预设任务与滑模控制方法可知,当机器人的位置与速度同时跟踪上期望位置与期望速度时,位置偏差与速度偏差收敛至滑模面,即表示机器人完成期望任务,因此,选择位置偏差与速度偏差作为决策信息。根据人的漂移扩散模型,决策行为建模公式为:
[0149][0150][0151]
其中,是第j个机器人的位置偏差,x
pdj
是期望位置,是机器人的速度偏差,x
vdj
是期望速度,是加速度偏差,和是人的决策信息值,和分别表示和在时间dt内的变化量。
[0152]
步骤五:人的决策阈值设定
[0153]
基于贝叶斯风险准则(br)进行决策阈值设置是一种实现决策速度与准确性最优权衡的方法。通过贝叶斯风险准则可以实现在任意外部扰动存在时,给定决策阈值下的决策速度与准确性为最优权衡。贝叶斯风险准则是最小化人的决策成本函数,决策成本函数公式为:
[0154]
b
pj
=c
1pj
t
pj
c
2pj
e
pj
ꢀꢀꢀ
(6)
[0155]
b
vj
=c
1vj
t
vj
c
2vj
e
vj
ꢀꢀꢀ
(7)
[0156]
其中,
[0157][0158][0159][0160][0161]
其中,b
pj
和b
vj
分别是基于决策信息和的决策成本函数,c
1pj
和c
1vj
分别是基于决策信息和的决策观测成本,c
2pj
和c
2vj
分别是基于决策信息和的决策偏差成本,
t
pj
和e
pj
分别是基于决策信息的决策时间和决策偏差,t
vj
和e
vj
分别是基于决策信息的决策时间和决策偏差。ζ
pj
和ζ
vj
分别是基于决策信息和的决策阈值。值。和分别是初始位置偏差和初始速度偏差。
[0162]
令和可得决策阈值的解为:
[0163][0164][0165]
其中,除了ζ
pj
和ζ
vj
是未知外,其余的参数(c
pj
,c
vj
等)均为已知。
[0166]
步骤六:人的决策时机确定
[0167]
当决策阈值确定后,可以得到准确的决策时机。与一阶线性模型中人的漂移扩散模型只设置单个阈值相比,本章的决策阈值存在两个,产生两个决策时机,定义t
d
为最终的决策时机,则有下列公式:
[0168][0169]
步骤七:人为干预任务设计
[0170]
本节考虑一组人的行为集,包括人的监督行为和人为干预行为。由于监督行为对机器人并不产生任务输入,而人为干预行为是部分干预机器人,即人并不直接控制机器人,而是向机器人发送可执行的人为干预指令。因此,针对人为干预指令采用基于零空间投影的行为控制方法进行任务设计:
[0171][0172]
其中,是雅克比矩阵j
h
的伪逆矩阵,是人为干预任务的正定增益矩阵,是人为干预任务偏差,是期望人为干预任务函数的偏导。
[0173]
基于人在回路的行为控制中,将人为干预任务设置为最高优先级任务,原本的机器人自主任务转为次高优先级任务,因此,将机器人自主任务的速度输出指令x
cvj
投影到人为干预任务速度输出指令x
vh
的零空间上,得到人机复合任务的速度输出指令为:
[0174][0175]
其中,x
vd
是人机复合任务的速度输出指令,是人为干预任务的零空间,值得注意的是,当时,表示执行人为干预任务的同时无法执行机器人自主任务。
[0176]
步骤八:固定时间滑模行为控制器设计
[0177]
在得到人为干预任务后,结合基于零空间投影的行为控制方法,控制目标是设计控制器使多机器人系统跟踪上参考轨迹该参考轨迹可以通过对参考速度离散积分得到。此外,对参考速度x
rv
求导可得参考加速度为结合基于零空间投影的行为控制方法,固定时间滑模面的设计为:
[0178][0179]
其中,定义是参考位置与实际位置的偏差,是参考位置与实际位置的偏差,是参考速度与实际速度之间的偏差,α和β是正定增益矩阵,μ
1.1
和μ
1.2
是正定奇数且满足是正定奇数且满足和是正定奇数且满足
[0180]
基于二阶非线性机器人模型与滑模面,固定时间滑模自适应行为控制器设计为:
[0181][0182]
其中,
[0183][0184][0185][0186]
其中,k
α1j
=k
α1j
i和k
β1j
=k
β1j
i是正定矩阵,μ
2.1
和μ
2.2
是正定奇数且满足0
<μ2<1。<1。和是正定奇数且满足是正定奇数且满足是未知扰动上界δ
j
的估计值且满足||ε
j
||≤δ
j
。γ
j
>0是正定参数,表示第j个滑模面s
j
的一范数,是估计值与实际值δ
j
之间的偏差。
[0187]
以上所述的仅为本发明的较佳实施例而已,本发明不仅仅局限于上述实施例,凡在本发明的精神和原则之内所做的局部改动、等同替换、改进等均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜