一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于智能假肢肩关节的自适应控制方法、设备及存储介质

2022-12-20 01:57:53 来源:中国专利 TAG:


1.本发明涉及仿生医疗装置技术领域,尤其是涉及一种用于智能假肢肩关节的自适应控制方法、设备及存储介质。


背景技术:

2.手臂的缺失往往使上肢截肢患者在工作和生活难以自理。自人工智能发展以来,为弥补截肢者而设计和制作装配的人工假体有了新的发展方向。但对于肩断离型截肢患者,手臂从肱骨或部分肩胛骨部位就已经缺失,失去了整条手臂的功能。因此对肩关节的仿生设计和控制研究是非常重要的。
3.人体的肩关节是球窝关节,拥有3个自由度,承载着整条手臂的运动,此位置的负载能力和控制精度,决定着仿生手臂能否正常运作。为了满足肩关节的自由度,必须配备至少3个电机,这就导致了仿生手臂输出小,重量大,噪声大的问题。
4.经过检索,中国专利申请cn113995561a,公开了一种仿生手臂模块化肩关节的自适应控制系统,该系统通过基于电机转速误差的自适应控制策略得到编码值,从而驱动控制模块化肩关节。但是,该系统仅仅采用传统的自适应控制策略,难以精准地适应多样化的手臂运动运动,尤其是应对快速变化的动作和突变的负载,影响佩戴效果。
5.针对上述缺陷,亟需设计一种适应性更高的模块化肩关节控制策略。


技术实现要素:

6.本发明的目的就是为了克服上述现有技术存在的缺陷而提供了一种适应性高的用于智能假肢肩关节的自适应控制方法、设备及存储介质。
7.本发明的目的可以通过以下技术方案来实现:
8.根据本发明的第一方面,提供了一种用于智能假肢肩关节的自适应控制方法,该方法包括以下步骤:
9.步骤s1、构建基于模块化肩关节模型的自适应控制系统;
10.步骤s2、采用深度确定性策略梯度ddpg算法对自适应控制器参数进行自学习自整定,并根据手臂运动策略给定与模块化肩关节相适应的奖励机制,训练网络并实现初步的关节控制;
11.步骤s3、将整定训练后的自适应控制器与受试者结合,按设定要求进行多次完整的动作训练,得到最终的适用于当前受试者的控制策略。
12.优选地,所述步骤s1中的模块化肩关节模型,具体表达式为:
[0013][0014]
式中,ωr为电机转速,iq为q轴相电流;uq、ud为d-q坐标系下的相电压;φ为无刷直
流电机永磁体产生的磁链,rs为无刷直流电机的相电阻,ls为无刷直流电机的电感,p为无刷直流电机的极对数,j为无刷直流电机转子的转动惯量,b为粘滞摩擦系数;to为电机实际提供的扭矩。
[0015]
优选地,所述步骤s1中的基于模块化肩关节模型的自适应控制系统,具体为:
[0016]
1)采集模块化肩关节的电机转速ωr以及加载在所述模块化肩关节上的三相电流信号ia、ib、ic;将电机转速ωr与电机转速参考信号ωd做差,得到电机转速偏差e1;三相电流信号ia、ib、ic依次经clake变换和park变换得到d-q坐标系下的电流信号id、iq,将q轴电流信号iq与q轴电流参考信号q
dr
做差,得到电机q轴电流偏差e2;
[0017]
2)将电机转速偏差e1,电机q轴电流偏差e2以及负载扭矩to,输入至自适应控制器中,输出电压控制信号ud、uq;
[0018]
3)电压控制信号ud、uq依次经逆park变换、svpwm以及三相逆变器,得到新的相电流信号ia、ib、ic,加载在所述模块化肩关节。
[0019]
优选地,所述步骤s2具体包括以下子步骤:
[0020]
步骤s21、初始状态下,根据当前actor网络和随机噪声,映射获得一个强化代理动作输出a
t
;处于t时刻状态s
t
下的被控对象执行动作a
t
后,返回奖励值r
t
和下一时刻状态s
t 1
;其中,状态包括电机转速偏差和q轴相电流的跟踪误差;
[0021]
步骤s22、actor网络将状态转换过程(s
t
,a
t
,r
t
,s
t 1
)存入到存储器中;
[0022]
步骤s23、从存储器中随机采样n个状态转换过程(si,ai,ri,s
i 1
)作为actor-critic网络的小回合训练数据,从而得到相互独立的critic网络和actor网络,以对critic网络进行更新;
[0023]
步骤s24、采用最小化损失函数l训练更新actor网络;
[0024]
步骤s25、多次迭代后获得合适的强化学习代理输出。
[0025]
优选地,所述步骤s21中的状态s
t
具体表达式为:
[0026]st
=[e1(t),e2(t),∫e1(t),∫e2(t),ωr(t)]
t
[0027]
式中,e1(t)、e2(t)分别为t时刻的电机转速偏差、q轴相电流的跟踪误差;∫e1(t),∫e2(t)分别为t时刻的电机转速累计偏差、q轴相电流的跟踪累积误差;ωr(t)为t时刻的电机转速。
[0028]
优选地,所述步骤s21中的奖励值r
t
具体为:
[0029]rt
=α1m1(t) α2m2(t)
[0030]
式中,α1、α2分别为限定误差值范围和反馈数值范围的奖励系数;m1(t)、m2(t)分别为误差值范围和反馈数值范围,表达式分别为:
[0031]
m1(t)=-c1e1(t)
2-c2e2(t)2[0032][0033]
其中,e1、e2分别为电机转速偏差、q轴相电流的跟踪误差;c1、c2为根据误差值和评价性能侧重性设定的奖赏参数;为稳定运行下电机转速的下限和上限。
[0034]
优选地,所述步骤s23中的critic网络的更新表达式为:
[0035][0036]
式中,yi为更新后的critic网络的输出值;γ为折扣因子,满足0<γ≤1;r
t
为奖励值;q-为更新前的critic网络输出的状态估计值;μ为actor网络的输出值,μ为actor网络的输出值,为网络参数,s
t 1
为下一时刻状态。
[0037]
优选地,所述步骤s24中的损失函数l表达式为:
[0038][0039]
式中,n为采样步数;yi为更新后的critic网络的输出值;q为当前critic网络的输出值,si为当前时刻的状态,ai为当前时刻的强化代理动作输出,θq为当前critic网络的参数。
[0040]
根据本发明的第二方面,提供了一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现任一项所述的方法。
[0041]
根据本发明的第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现任一项所述的方法。
[0042]
与现有技术相比,本发明具有以下优点:
[0043]
1)相较于无参数下训练的强化学习,本发明采用的深度确定性策略梯度ddpg算法可以大大减少训练成本,减少工作量,最终使模块化肩关节能够在训练好的控制器下实现良好的动态响应,大幅增加了人与智能假肢的协调;
[0044]
2)本发明采用的模块化肩关节结构将驱动器、无刷直流电机、机械抱闸以及谐波减速器集成于一体,相比于现有的步进电机、绳索驱动等驱动装置,模块化肩关节体积小,输出扭矩高,更适用于仿生手臂。
附图说明
[0045]
图1为本发明的基于模块化肩关节模型的自适应控制系统的控制流图;
[0046]
图2为强化学习控制的流程示意图;
[0047]
图3为强化学习网络的框架图;
[0048]
图4为控制系统总框架。
具体实施方式
[0049]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
[0050]
实施例
[0051]
本实施例给出了一种用于智能假肢肩关节的自适应控制方法,如图1~4所示,包括:
[0052]
1、建立模块化肩关节模型:
[0053]
本实施例的模块化肩关节结构将驱动器、无刷直流电机、机械抱闸以及谐波减速
[0069][0070]
式中,e1(t)、e2(t)分别为t时刻的电机转速偏差、q轴相电流的跟踪误差;∫e1(t),∫e2(t)分别为t时刻的电机转速累计偏差、q轴相电流的跟踪累积误差;ωr(t)为t时刻的电机转速。
[0071]
2)actor网络将状态转换过程(s
t
,a
t
,r
t
,s
t 1
)存入到存储器中;
[0072]
3)从存储器中随机采样n个状态转换过程(si,ai,ri,s
i 1
)作为actor-critic网络的小回合训练数据,从而得到相互独立的critic网络和actor网络;
[0073]
通过最小化损失函数l以训练更新critic网络:
[0074][0075]
式中,n为采样步数;q为当前critic网络的输出值,si为当前时刻的状态,ai为当前时刻的强化代理动作输出,θq为当前critic网络的参数;yi为critic网络的输出值,满足:
[0076][0077]
式中,yi为更新后的critic网络输出值;γ为折扣因子,满足0<γ≤1;r
t
为奖励值;q-为critic网络输出的状态估计值;μ为actor网络的输出值,为网络参数,s
t 1
为下一时刻状态;
[0078]
4)根据损失梯度不断更新actor目标网络;
[0079]
5)多次迭代后获得合适的强化学习代理输出。
[0080]
本发明电子设备包括中央处理单元(cpu),其可以根据存储在只读存储器(rom)中的计算机程序指令或者从存储单元加载到随机访问存储器(ram)中的计算机程序指令,来执行各种适当的动作和处理。在ram中,还可以存储设备操作所需的各种程序和数据。cpu、rom以及ram通过总线彼此相连。输入/输出(i/o)接口也连接至总线。
[0081]
设备中的多个部件连接至i/o接口,包括:输入单元,例如键盘、鼠标等;输出单元,例如各种类型的显示器、扬声器等;存储单元,例如磁盘、光盘等;以及通信单元,例如网卡、调制解调器、无线通信收发机等。通信单元允许设备通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0082]
处理单元执行上文所描述的各个方法和处理,例如方法s1~s3。例如,在一些实施例中,方法s1~s3可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元。在一些实施例中,计算机程序的部分或者全部可以经由rom和/或通信单元而被载入和/或安装到设备上。当计算机程序加载到ram并由cpu执行时,可以执行上文描述的方法s1~s3的一个或多个步骤。备选地,在其他实施例中,cpu可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法s1~s3。
[0083]
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)等等。
[0084]
用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0085]
在本发明的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0086]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献