一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种可重构机器人人类意图辨识最优控制方法及装置与流程

2021-12-04 01:13:00 来源:中国专利 TAG:


1.本发明涉及机器人控制技术领域,特别是涉及一种基于合作博弈的可重构机器人人类意图辨识最优控制方法及装置。


背景技术:

2.随着工业4.0进程的不断推进,机器人产业的发展与技术的提升已经成为我国制造业由“劳动密集型”向“技术密集型”转变的重要突破口,担负着国家高新科技实力“弯道超车”的重要使命,对我国经济体制转型与高精尖制造业的发展起到举足轻重的作用。近年来,让机器人来从事精度和重复性高的作业流程,人们在其辅助下进行创意性工作等的应用场合越来越多。可重构机器人是一类具有标准模块与接口,可根据不同的任务需求对自身构形进行重新组合与配置的机器人,由于这种特性,研究可重构机器人的人机交互任务显得更有必要。
3.根据可重构机器人的“模块化”与“可重构”的设计理念,可重构机器人的每个关节模块均包含了通讯、传感、驱动、控制等单元,通过对这些模块进行重新配置可以使机器人呈现多种装配构形来完成不同的工作任务,从而表现出传统机器人所不具有的优势。然而现有技术中对于多个模块的系统并不能保证整体的能耗最优。
4.因此,本领域亟需一种综合考虑其稳定性、精确性、鲁棒性及节能性等指标,确保整体的能耗最优的技术方案。


技术实现要素:

5.本发明的目的是提供一种可重构机器人人类意图辨识最优控制方法及装置,解决现有技术中对于多个模块的系统并不能保证整体的能耗最优的问题。
6.为实现上述目的,本发明提供了如下方案:
7.一种可重构机器人人类意图辨识最优控制方法,所述方法包括:
8.建立具有n个自由度的可重构机器人动力学模型;所述可重构机器人动力学模型中每个模块均由谐波传动装置构成;
9.根据所述可重构机器人动力学模型建立人类上肢与可重构机器人交互的动力学模型;
10.根据所述人类上肢与可重构机器人交互的动力学模型建立人类意图辨识模型;
11.根据所述人类上肢与可重构机器人交互的动力学模型与所述人类意图辨识模型建立基于人类意图的可重构机器人动力学模型;
12.构建性能指标函数;
13.根据所述性能指标函数和所述基于人类意图的可重构机器人动力学模型构建哈密顿函数,并构建最优性能指标函数;
14.利用三层前向神经网络近似所述最优性能指标函数,得到基于合作博弈的自适应动态规划的神经最优控制律。
15.在一些实施例中,所述可重构机器人动力学模型为:
[0016][0017]
其中,δθ
i
表示扭转形变角度,τ
wi
是波发生器的力矩,γ
i
代表谐波传动装置的减速比,c
wi
,k
wi0
是波发生器的弹性以及刚度参数,c
fi
,k
fi0
是生产商决定的弹性以及刚度参数,τ
fi
是柔轮的输出力矩。
[0018]
在一些实施例中,所述人类上肢与可重构机器人交互的动力学模型为:
[0019][0020]
其中,c
h
,g
h
是人类的阻尼、弹簧矩阵,z,是可重构机器人在笛卡尔空间下的位置、速度,z
hd
表示人类的意图,f
e
为人施加在机器人末端执行器上的交互力。
[0021]
在一些实施例中,所述根据所述人类上肢与可重构机器人交互的动力学模型建立人类意图辨识模型,具体包括:
[0022]
人类意图表示为:
[0023]
利用rbf神经网络对所述人类意图进行逼近,rbf人类意图表示为:rbf人类意图估计值表示为:其中,ε是逼近误差,是对rbf神经网络理想权值w
x
的估计值,s表示高斯基函数;
[0024]
采用梯度下降法计算对rbf神经网络理想权值w
x
的估计值得到的更新律为:其中,ω是微元算子,是神经网络逼近的权值向量,是神经网络逼近的权值向量的初值,s(ω)是在微元算子下的高斯基函数,α
a
=α

g
h
为吸收矩阵,α

为正常数。
[0025]
在一些实施例中,所述根据所述人类上肢与可重构机器人交互的动力学模型与所述人类意图辨识模型建立基于人类意图的可重构机器人动力学模型,具体包括:
[0026]
根据所述人类上肢与可重构机器人交互的动力学模型与所述人类意图辨识模型,得到可重构机器人的第i个模块动力学模型为:
[0027][0028]
v=i
[0029]
式中,i
mi
为转动惯量,为第i、j、k个关节的加速度,为第i、j、k个关节的加速度,为第i、j、k个关节的速度,是关节摩擦力,代表交联耦合项,z
mi
和z
lk
,z
lj
代表第m个电机旋转轴以及第k、j个连杆旋转轴的单位向量,[j
t
f
e
]
v
表示j
t
f
e
的第v个元素,τ
i
为电机输出力矩;
[0030]
将状态向量表示为:将控制器表示为:u
i
=τ
i
∈r1×1,得到
第i个模块的状态空间形式为:
[0031]
其中是第i个模块的速度向量,是第i个模块的加速度向量,g
i
=(i
mi
γ
i
)
‑1是控制输入矩阵,为系统的漂移动力学函数,f
pi
(x
i1
,x
i2
)是关节摩擦力的状态函数,为系统的耦合交联项,x表示机器人系统的全局向量;
[0032]
将模块的状态空间形式扩张为:
[0033]
其中,x1=[x
11
,...,x
i1
,...,x
n1
]
t
,x2=[x
12
,...,x
i2
,...,x
n2
]
t
,分别为关节位置和关节速度的扩张向量,f(x)=[f1(x1),...,f
i
(x
i
),...,f
n
(x
n
)]
t
,g
j
=[0,...,0,g
j
,0,...,0]
t
,h(x)=[h1(x),...,h
i
(x),...,h
n
(x)]
t
分别为机器人系统漂移动力学、控制输入以及交联耦合的扩张状态,u
j
为第j个模块的控制输入,模块的状态空间形式扩张后的公式为基于人类意图的可重构机器人动力学模型。
[0034]
在一些实施例中,所述性能指标函数为:
[0035][0036]
其中,t为时间,为e对时间的导数,e=[e1,...,e
i
,...,e
n
]
t
为误差矩阵,e
i
=x
i

x
id
和分别代表第i个关节的位置和速度跟踪误差,x
id
,为期望的位置以及速度,u=[u1,u2,...,u
n
]
t
为控制力矩矩阵,q
a
,r
m
是正定矩阵,γ为漂移动力学以及交联耦合的扩张状态f(x) h(x)的上界,代表效用函数。
[0037]
在一些实施例中,所述根据所述性能指标函数和所述基于人类意图的可重构机器人动力学模型构建哈密顿函数,并构建最优性能指标函数,具体包括:
[0038]
根据所述性能指标函数和所述基于人类意图的可重构机器人动力学模型构建哈密顿方程:其中,是期望的加速度,为性能指标函数的梯度;
[0039]
根据所述性能指标函数构建最优性能指标函数:
[0040]
在一些实施例中,所述利用三层前向神经网络近似所述最优性能指标函数,具体包括:
[0041]
利用三层前向神经网络近似所述最优性能指标函数,得到神经网络最优性能指标函数:其中,w
c
是理想的权值向量,是激活函数,ε
c
是神经网络的逼近误差;
[0042]
利用理想的权重向量的近似权值建立评判神经网络估计所述神经网络最优性能指标函数:其中为性能指标函数的逼近值,为逼近的权值向量;
[0043]
根据所述哈密顿方程和所述神经网络最优性能指标函数以及所述神经网络最优性能指标函数的梯度,将所述哈密顿方程改写为:其中,为修正的哈密顿函数,e
ch
是由评判神经网络逼近误差而得到的残差;
[0044]
根据改写后的哈密顿方程近似哈密顿方程,得到近似哈密顿函数:其中为近似哈密顿函数,为近似的控制输入,为近似的权值向量,为总体系统的加速度;
[0045]
根据改写后的哈密顿方程和所述近似哈密顿函数,建立误差方程:建立权值估计误差:
[0046]
采用目标函数训练和调整评判神经网络的权值信息,通过更新评判神经网络的权值;其中,是神经网络的权值更新律,α表示评判神经网络的学习速率。
[0047]
在一些实施例中,所述基于合作博弈的自适应动态规划的神经最优控制律为:
[0048][0049]
本发明还提供了一种可重构机器人人类意图辨识最优控制装置,其特征在于,包括:
[0050]
可重构机器人动力学模型建立单元,用于建立具有n个自由度的可重构机器人动力学模型;所述可重构机器人动力学模型中每个模块均由谐波传动装置构成;
[0051]
人类上肢与可重构机器人交互的动力学模型建立单元,用于根据所述可重构机器人动力学模型建立人类上肢与可重构机器人交互的动力学模型;
[0052]
人类意图辨识模型建立单元,用于根据所述人类上肢与可重构机器人交互的动力学模型建立人类意图辨识模型;
[0053]
基于人类意图的可重构机器人动力学模型建立单元,用于根据所述人类上肢与可重构机器人交互的动力学模型与所述人类意图辨识模型建立基于人类意图的可重构机器人动力学模型;
[0054]
性能指标函数构建单元,用于构建性能指标函数;
[0055]
哈密顿函数构建单元,用于根据所述性能指标函数和所述基于人类意图的可重构机器人动力学模型构建哈密顿函数,并构建最优性能指标函数;
[0056]
神经网络近似单元,用于利用三层前向神经网络近似所述最优性能指标函数,得到基于合作博弈的自适应动态规划的神经最优控制律。
[0057]
根据本发明提供的具体实施例,本发明公开了以下技术效果:
[0058]
本发明提供的可重构机器人人类意图辨识最优控制方法及装置,通过建立具有n个自由度的可重构机器人动力学模型,建立人类上肢与可重构机器人交互的动力学模型,建立人类意图辨识模型,建立基于人类意图的可重构机器人动力学模型,构建性能指标函数,构建哈密顿函数,并构建最优性能指标函数;最终利用三层前向神经网络近似所述最优性能指标函数,得到基于合作博弈的自适应动态规划的神经最优控制律。利用神经网络结合最优性能指标函数解决了现有技术中对于多个模块的系统并不能保证整体的能耗最优的问题,综合考虑其稳定性、精确性、鲁棒性及节能性等指标,确保整体的能耗最优。
附图说明
[0059]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。以下附图并未刻意按实际尺寸等比例缩放绘制,重点在于示出本发明的主旨。
[0060]
图1为本发明实施例提供的可重构机器人人类意图辨识最优控制方法流程图。
[0061]
图2为本发明实施例提供的可重构机器人人类意图辨识最优控制装置的框图。
具体实施方式
[0062]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0063]
如本发明和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。
[0064]
虽然本发明对根据本发明的实施例的系统中的某些模块做出了各种引用,然而,任何数量的不同模块可以被使用并运行在用户终端和/或服务器上。所述模块仅是说明性的,并且所述系统和方法的不同方面可以使用不同模块。
[0065]
本发明中使用了流程图用来说明根据本发明的实施例的系统所执行的操作。应当理解的是,前面或下面操作不一定按照顺序来精确地执行。相反,根据需要,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
[0066]
根据可重构机器人的“模块化”与“可重构”的设计理念,可重构机器人的每个关节模块均包含了通讯、传感、驱动、控制等单元,通过对这些模块进行重新配置可以使机器人呈现多种装配构形来完成不同的工作任务,从而表现出传统机器人所不具有的优势。在可重构机器人的使用过程中,不仅要考虑其稳定性、精确性、鲁棒性等指标,还需要考虑其节能性,因此,选取一个合适的控制策略是十分必要的。
[0067]
最优控制由于不仅考虑了系统的准确性还考虑了节能性,因此被广泛应用于非线性系统。自适应动态规划理论作为一种有效解决最优控制问题的维数灾问题,在连续时间系统、离散时间系统、数据驱动系统等都有广泛的应用。对于可重构机器人系统,要获取其最优控制策略则需求解哈密顿

雅克比

贝尔曼方程,而该方程是一类偏微分方程,难以用解析方法求得最优解。因此,本发明根据神经网络的万能逼近定理,在自适应动态规划系统中,神经网络被设计用来近似性能指标函数并估计哈密顿

雅克比

贝尔曼方程的解,最终得到系统的最优控制律。
[0068]
本发明的目的是提供一种可重构机器人人类意图辨识最优控制方法及装置,解决现有技术中对于多个模块的系统并不能保证整体的能耗最优的问题。
[0069]
本发明首先建立谐波传动柔度模型模型,其次构建人类上肢模型以及人类意图辨识模型,接下来建立人类意图的可重构机器人动力学模型,然后性能指标函数与哈密顿函数的构建,采用神经网络对性能指标函数进行近似,最终得到系统的最优控制律。
[0070]
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
[0071]
实施例一:
[0072]
如图1所示,本实施例提供了一种可重构机器人人类意图辨识最优控制方法,该方法包括:
[0073]
s1、建立具有n个自由度的可重构机器人动力学模型;所述可重构机器人动力学模型中每个模块均由谐波传动装置构成;
[0074]
建立具有n个自由度的可重构机器人动力学模型,其中每一个模块由一个谐波传动装置构成,包括波发生器、柔轮以及钢轮,γ
i
代表谐波传动装置的减速比。在稳定状态下,波发生器与柔轮的角度关系为:
[0075]
θ
wii


γ
i
θ
foi
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0076]
其中θ
wii
是波发生器的输入角度,θ
foi
是柔轮的输出角度。根据公式(1)中的柔轮输出角度,柔轮的形变δθ
fi
为:
[0077]
δθ
fi
=θ
foi

θ
fii
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0078]
其中θ
fii
是柔轮的输入角度。同样,根据公式(1)中的波发生器输入角度,波发生器的形变δθ
wi
为:
[0079]
δθ
wi
=θ
woi

θ
wii
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0080]
其中θ
woi
是波发生器的输出角度。在谐波传动装置装配中,公式(2)、(3)中的θ
woi
以及θ
fii
是不能直接测量的,所以定义扭转形变角度为:
[0081]
δθ
i
=θ
foi

θ
fii
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0082]
由于柔轮的非线性特性,柔轮的形变表示为:
[0083][0084]
其中c
fi
,k
fi0
是生产商决定的弹性以及刚度参数,τ
fi
是柔轮的输出力矩。
[0085]
定义波发生器的扭转形变为:
[0086][0087]
其中τ
wi
是波发生器的力矩,c
wi
,k
wi0
是波发生器的弹性以及刚度参数。
[0088]
将公式(5),公式(6)代入公式(4),得到扭转形变角度,即可重构机器人动力学模型:
[0089][0090]
其中,δθ
i
表示扭转形变角度,τ
wi
是波发生器的力矩,γ
i
代表谐波传动装置的减速比,c
wi
,k
wi0
是波发生器的弹性以及刚度参数,c
fi
,k
fi0
是生产商决定的弹性以及刚度参数,τ
fi
是柔轮的输出力矩。
[0091]
s2、根据所述可重构机器人动力学模型建立人类上肢与可重构机器人交互的动力学模型;
[0092]
在人机交互中,人类的外力考虑为施加在机器人的末端执行器上。根据步骤s1中建立的可重构机器人动力学模型,得到原始的人类上肢与可重构机器人交互的动力学模型为:
[0093][0094]
其中m
h
,c
h
,g
h
是人类的质量、阻尼、弹簧矩阵,z,是机器人系统在笛卡尔空间下的位置、速度以及加速度,可以计算为:其中是关节空间的位置与速度,ξ(
·
)是从关节空间映射到笛卡尔空间的映射矩阵,j(θ)是雅克比矩阵,j

t
是雅克比矩阵逆的转置,z
hd
表示人类的意图,col[
·
]表示列向量。
[0095]
因为在人机交互过程中,其关节力矩包含交互力矩τ
ci
以及自由空间的力矩τ
fio
,根据公式(5)和(7),可以得到柔轮的输出力矩的具体表达式为:
[0096][0097]
通过力与力矩的映射关系,可以计算出人施加在机器人末端执行器上的交互力:
[0098]
f
e
=j

t
τ
c
=j

t

f

τ
fo
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(10)
[0099]
其中τ
c
=[τ
c1
,...,τ
ci
,...,τ
cn
]
t

f
=[τ
f1
,...,τ
fi
,...,τ
fn
]
t

fo
=[τ
fo1
,...,τ
foi
,...,τ
fon
]
t
为对系统总体的交互力矩τ
c
、整个系统柔轮的输出力矩τ
f
、整个系统自由空间力矩τ
fo
的扩张的向量。
[0100]
在公式(8)中,阻尼矩阵和弹簧矩阵通常占主导作用,可以得到如下的原始的人类上肢与可重构机器人交互的动力学模型的近似模型:
[0101][0102]
本实施例将该近似模型作为人类上肢与可重构机器人交互的动力学模型,其中,c
h
,g
h
是人类的阻尼、弹簧矩阵,z,是可重构机器人在笛卡尔空间下的位置、速度,z
hd
表示
人类的意图,f
e
为人施加在机器人末端执行器上的交互力。
[0103]
s3、根据所述人类上肢与可重构机器人交互的动力学模型建立人类意图辨识模型;
[0104]
人类的意图都是与公式(11)中的交互力f
e
、笛卡尔空间下的位置、速度有关,人类意图表示为:
[0105][0106]
其中τ
ci
是第i个模块的交互力矩。
[0107]
利用rbf神经网络对所述人类意图(公式(12))进行逼近,rbf人类意图和rbf人类意图估计值分别表示为:
[0108][0109]
其中,ε是逼近误差,是对rbf神经网络理想权值w
x
的估计值,s表示高斯基函数;
[0110]
为了使得神经网络的逼近误差最小,采用梯度下降法计算对rbf神经网络理想权值w
x
的估计值定义如下误差代价函数:
[0111][0112]
将公式(14)对rbf神经网络理想权值w
x
求偏导,因此可以得到权值更新律:
[0113][0114]
其中α

为正常数,α
a
=α

g
h
为吸收矩阵。权值更新律可以保证神经网络的更新从而达到逼近的效果。
[0115]
根据公式(15)得到的更新律为:
[0116][0117]
其中,t是时间,ω是微元算子,是神经网络逼近的权值向量,是神经网络逼近的权值向量的初值,s(ω)是在微元算子下的高斯基函数,α
a
=α

g
h
为吸收矩阵,α

为正常数。
[0118]
s4、根据所述人类上肢与可重构机器人交互的动力学模型与所述人类意图辨识模型建立基于人类意图的可重构机器人动力学模型;
[0119]
根据所述人类上肢与可重构机器人交互的动力学模型与所述人类意图辨识模型,得到可重构机器人的第i个模块动力学模型为:
[0120][0121]
v=i
[0122]
式中,i
mi
为转动惯量,为第i、j、k个关节的加速度,为第i、j、k个关节的加速度,为第i、
j、k个关节的速度,是关节摩擦力,代表交联耦合项,z
mi
和z
lk
,z
lj
代表第m个电机旋转轴以及第k、j个连杆旋转轴的单位向量,[j
t
f
e
]
v
表示j
t
f
e
的第v个元素,τ
i
为电机输出力矩。
[0123]
根据公式(17),定义状态向量以及控制器u
i
=τ
i
∈r1×1,可以得到第i个模块的状态空间形式为:
[0124][0125]
其中是第i个模块的速度向量,是第i个模块的加速度向量,g
i
=(i
mi
γ
i
)
‑1是控制输入矩阵,为系统的漂移动力学函数,f
pi
(x
i1
,x
i2
)是关节摩擦力的状态函数,为系统的耦合交联项,x表示机器人系统的全局向量;
[0126]
为了方便分析,将模块的状态空间形式(公式(18))扩张为:
[0127][0128]
其中,x1=[x
11
,...,x
i1
,...,x
n1
]
t
,x2=[x
12
,...,x
i2
,...,x
n2
]
t
,分别为关节位置和关节速度的扩张向量,f(x)=[f1(x1),...,f
i
(x
i
),...,f
n
(x
n
)]
t
,g
j
=[0,...,0,g
j
,0,...,0]
t
,h(x)=[h1(x),...,h
i
(x),...,h
n
(x)]
t
分别为机器人系统漂移动力学、控制输入以及交联耦合的扩张状态,u
j
为第j个模块的控制输入,模块的状态空间形式扩张后的公式(19)为基于人类意图的可重构机器人动力学模型。
[0129]
s5、构建性能指标函数;
[0130]
构建性能指标函数j
p
为:
[0131][0132]
其中,t为时间,τ为微元算子,为e对时间的导数,e=[e1,...,e
i
,...,e
n
]
t
为误差矩阵,e
i
=x
i

x
id
和分别代表第i个关节的位置和速度跟踪误差,x
id
,为期望的位置以及速度,u=[u1,u2,...,u
n
]
t
为控制力矩矩阵,q
a
,r
m
是正定矩阵,γ为漂移动力学以及交联耦合的扩张状态f(x) h(x)的上界,代表效用函数。
[0133]
s6、根据所述性能指标函数和所述基于人类意图的可重构机器人动力学模型构建哈密顿函数,并构建最优性能指标函数;
[0134]
根据所述性能指标函数(公式(20))和所述基于人类意图的可重构机器人动力学模型(公式(19))构建哈密顿方程:
[0135][0136]
其中,是哈密顿函数,是期望的加速度,为性能指标函数j
p
的梯度,f(x)为漂移动力学的扩张状态,g为全局控制输入矩阵;
[0137]
根据所述性能指标函数(公式(20))构建最优性能指标函数:
[0138][0139]
基于非线性系统最优控制设计理论下,易知公式(22)中满足如下hjb方程:
[0140][0141]
若公式(22)中存在并且连续可微分,则可重构机器人的最优控制律为:
[0142][0143]
根据公式(24)可以得到每一个模块的最优控制律为:
[0144][0145]
其中r
i
是第i个关节的正定矩阵,为矩阵r
i
的逆,为激活函数,ε
c
为逼近函数的残差,w
c
为理想权值向量。
[0146]
根据公式(25),将hjb方程可以改写成:
[0147][0148]
s7、利用三层前向神经网络近似所述最优性能指标函数,得到基于合作博弈的自适应动态规划的神经最优控制律。
[0149]
利用三层前向神经网络近似所述最优性能指标函数得到神经网络最优性能指标函数:
[0150][0151]
其中,w
c
是理想的权值向量,是激活函数;
[0152]
对公式(27)中的求梯度可以得到:
[0153][0154]
其中:和分别代表激活函数的梯度和逼近误差。
[0155]
由于理想权值向量w
c
是未知的,利用理想的权重向量的近似权值建立评判神经网络估计所述神经网络最优性能指标函数:
[0156][0157]
其中,为性能指标函数的逼近值,为逼近的权值向量;
[0158]
根据所述哈密顿方程和所述神经网络最优性能指标函数以及所述神经网络最优性能指标函数的梯度,将所述哈密顿方程改写为:
[0159][0160]
其中,为修正的哈密顿函数,e
ch
是由评判神经网络逼近误差而得到的残差;
[0161]
根据改写后的哈密顿方程(公式(30))近似哈密顿方程,得到近似哈密顿函数:
[0162][0163]
其中为近似哈密顿函数,为近似的控制输入,为近似的权值向量,为总体系统的加速度;
[0164]
根据改写后的哈密顿方程(公式(30))和所述近似哈密顿函数(公式(31)),建立误差方程:
[0165][0166]
建立权值估计误差:
[0167][0168]
训练和调整评判神经网络的权值信息,采用目标函数它可以被训练来取到最小值,且神经网络的权值可以通过下式进行更新:
[0169][0170]
其中,是神经网络的权值更新律,α表示评判神经网络的学习速率。
[0171]
根据公式(34),可以得到评判神经网络的动态误差的如下表示:
[0172][0173]
其中是神经网络的动态误差。辅助变量υ定义为:
[0174][0175]
结合公式(25),(28),(34),(35)以及(36)得到基于合作博弈的自适应动态规划的神经最优控制律为:
[0176][0177]
其中g
i
是第i个关节的控制输入矩阵;
[0178]
如图2所示,本发明还提供了一种可重构机器人人类意图辨识最优控制装置,包括:
[0179]
可重构机器人动力学模型建立单元m1,用于建立具有n个自由度的可重构机器人动力学模型;所述可重构机器人动力学模型中每个模块均由谐波传动装置构成;
[0180]
人类上肢与可重构机器人交互的动力学模型建立单元m2,用于根据所述可重构机
器人动力学模型建立人类上肢与可重构机器人交互的动力学模型;
[0181]
人类意图辨识模型建立单元m3,用于根据所述人类上肢与可重构机器人交互的动力学模型建立人类意图辨识模型;
[0182]
基于人类意图的可重构机器人动力学模型建立单元m4,用于根据所述人类上肢与可重构机器人交互的动力学模型与所述人类意图辨识模型建立基于人类意图的可重构机器人动力学模型;
[0183]
性能指标函数构建单元m5,用于构建性能指标函数;
[0184]
哈密顿函数构建单元m6,用于根据所述性能指标函数和所述基于人类意图的可重构机器人动力学模型构建哈密顿函数,并构建最优性能指标函数;
[0185]
神经网络近似单元m7,用于利用三层前向神经网络近似所述最优性能指标函数,得到基于合作博弈的自适应动态规划的神经最优控制律。
[0186]
为了验证所提出的基于合作博弈的可重构机器人近似神经最优控制方法的有效性,本实施例还建立了一个二自由度可重构机器人模型进行实验验证,其中包括增量式编码器、直流电机、谐波减速器、绝对式编码器以及关节力矩传感器。直流电机的型号是maxon公司的218014、额定电压为48v、额定力矩为190mnm、减速比为100:1。电机侧的位置变量是由maxon公司的500线增量式编码器测量的,连杆侧的位置变量是由netzer公司的19位编码器测量的。关节力矩传感器的额定力矩为20nm被嵌在关节模块末端。采用quanser公司生产的线性功率放大器驱动关节模块的电动机和qpide数据采集卡采集各传感器的数据。
[0187]
通过实验结果表明,所提出的合作博弈人类意图辨识最优控制方法为可重构机器人提供稳定性和精确性,以满足各种任务的要求。
[0188]
在人类运动意图辨识方面,本发明仅采用了机器人本体的位置信息,没有使用其他传感器信息,可以降低实验成本并提高系统的跟踪精度。
[0189]
在控制力矩方面,本发明的控制力矩更加连续和平滑,不仅可以保持系统渐进稳定,而且可以降低每个关节的能量损耗。
[0190]
因此,本发明解决了现有技术中存在控制精度低以及跟踪速度慢的问题,为可重构机器人提供稳定性和精确性,并且可以满足各种任务的需求。
[0191]
对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0192]
本发明使用了特定词语来描述本发明的实施例。如“第一/第二实施例”、“一实施例”、和/或“一些实施例”意指与本发明至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外,本发明的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
[0193]
除非另有定义,这里使用的所有术语(包括技术和科学术语)具有与本发明所属领域的普通技术人员共同理解的相同含义。还应当理解,诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非这里明确地这样定义。
[0194]
上面是对本发明的说明,而不应被认为是对其的限制。尽管描述了本发明的若干示例性实施例,但本领域技术人员将容易地理解,在不背离本发明的新颖教学和优点的前
提下可以对示例性实施例进行许多修改。因此,所有这些修改都意图包含在权利要求书所限定的本发明范围内。应当理解,上面是对本发明的说明,而不应被认为是限于所公开的特定实施例,并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本发明由权利要求书及其等效物限定。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献