一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于强化学习的四足机器人运动控制方法及系统与流程

2022-07-13 03:47:55 来源:中国专利 TAG:


1.本技术涉及机器人控制技术领域,具体涉及一种基于强化学习的四足机器人运动控制方法及系统。


背景技术:

2.在日常生产过程中,需要对生产车间进行定期巡检,以保障安全生产。尤其是较为复杂巡检工作环境,需要安排工作人员定时对不同区域的设备以及车间情况进行巡检,以保障日常生产工作的顺利开展,避免发生安全事故,避免造成人员伤亡以及财产损失。
3.现阶段,部分车间会采用机器人巡检的方式来提高巡检效率,而传统的机器人控制方法多为固定模式,设定机器人按照预设路线以及预设速度进行巡检工作。但由于实际场地的不确定性,机器人在响应指令时姿态易受影响,无法较好的实现控制指令对应的动作目标。
4.因此,为了更好的对机器人进行控制,使其能够更好的完成巡检工作,现提供一种新的四足机器人运动控制技术,以满足需求。


技术实现要素:

5.本技术提供一种基于强化学习的四足机器人运动控制方法及系统,利用强化学习算法,在响应控制指令的同时,根据机器人状态以及关节状态进行动态调整,从而实现对机器人的智动控制。
6.第一方面,本技术提供了一种基于强化学习的四足机器人运动控制方法,所述方法包括以下步骤:
7.获取预设巡视路线以及巡视配速,并生成初始关节控制指令;
8.基于初始关节控制指令,控制四足机器人的关节,以使得所述四足机器人以所述巡视配速按照所述预设巡视路线行动;
9.实时获取四足机器人的机器人状态以及关节状态,结合所述预设巡视路线以及所述巡视配速,基于预设的强化学习训练模型,获得实时变化的实时关节控制指令;
10.基于所述实时关节控制指令,实时控制四足机器人的关节,以使得所述四足机器人以所述巡视配速按照所述预设巡视路线行动;其中,
11.所述机器人状态包括机器人姿态、机器人移动速度以及机器人移动方向;
12.所述关节状态包括关节姿态以及关节扭矩值。
13.进一步的,所述方法还包括以下步骤:
14.监测所述四足机器人的行进路线;
15.当所述行进路线上存在障碍物时,判断所述障碍物是否为移动物;
16.若所述障碍物为移动物,则控制所述四足机器人停止;
17.待障碍物离开所述行进路线时,重启所述四足机器人。
18.进一步的,所述方法还包括以下步骤:
19.监测所述四足机器人的行进路线;
20.当所述行进路线上存在障碍物时,判断所述障碍物是否为固定物;
21.若所述障碍物为固定物,则获取所述障碍物的障碍物方位以及障碍物轮廓;
22.实时获取所述机器人状态以及关节状态,结合所述预设巡视路线、所述巡视配速、所述障碍物方位以及所述障碍物轮廓,基于预设的强化学习训练模型,获得所述实时关节控制指令;
23.基于所述实时关节控制指令,实时控制四足机器人的关节,以使得所述四足机器人以所述巡视配速绕开所述障碍物并按照所述预设巡视路线行动。
24.进一步的,所述方法还包括强化学习训练模型建立流程,所述强化学习训练模型建立流程包括以下步骤:
25.获取机器人物理参数;
26.构建致动器网络;
27.基于所述机器人物理参数以及所述致动器网络,训练获得所述强化学习训练模型。
28.进一步的,实时获取四足机器人的机器人状态以及关节状态,结合所述预设巡视路线以及所述巡视配速,基于预设的强化学习训练模型,获得实时变化的实时关节控制指令,包括以下步骤:
29.实时获取四足机器人的机器人状态以及关节状态;
30.基于所述机器人状态、所述关节状态以及前一时刻实时关节控制指令,利用所述强化学习训练模型,获得对应的奖励控制指令;
31.基于所述奖励控制指令以及前一时刻实时关节控制指令,获得实时关节控制指令;其中,
32.所述前一时刻实时关节控制指令为初始关节控制指令或前一时刻的实时关节控制指令。
33.进一步的,所述方法还包括以下步骤:
34.利用第一传感器监测所述机器人姿态、所述机器人移动速度以及所述机器人移动方向;
35.利用分别设置在所述关节上的第二传感器监测所述关节姿态以及所述关节扭矩值。
36.进一步的,所述方法还包括以下步骤:
37.利用摄像头拍摄所述四足机器人的前方图像;
38.基于所述前方图像,识别所述四足机器人的行进路线以及障碍物。
39.第二方面,本技术提供了一种基于强化学习的四足机器人运动控制方法,所述方法包括以下步骤:
40.接收初始关节控制指令,并获取理想状态下四足机器人响应所述初始关节控制指令实现的理想移动路线以及理想移动速度;
41.实时获取四足机器人的机器人状态以及关节状态,结合所述理想移动路线以及理想移动速度,基于预设的强化学习训练模型,获得实时变化的实时关节控制指令;
42.基于所述实时关节控制指令,实时控制四足机器人的关节,以使得所述四足机器
人以所述理想移动速度按照所述理想移动路线行动;其中,
43.所述机器人状态包括机器人姿态、机器人移动速度以及机器人移动方向;
44.所述关节状态包括关节姿态以及关节扭矩值。
45.第三方面,本技术提供了一种基于强化学习的四足机器人运动控制系统,所述系统包括:
46.初始指令生成单元,其用于获取预设巡视路线以及巡视配速,并生成初始关节控制指令;
47.初始指令响应单元,其用于基于初始关节控制指令,控制四足机器人的关节,以使得所述四足机器人以所述巡视配速按照所述预设巡视路线行动;
48.控制指令调节单元,其用于实时获取四足机器人的机器人状态以及关节状态,结合所述预设巡视路线以及所述巡视配速,基于预设的强化学习训练模型,获得实时变化的实时关节控制指令;
49.控制调节响应单元,其用于基于所述实时关节控制指令,实时控制四足机器人的关节,以使得所述四足机器人以所述巡视配速按照所述预设巡视路线行动;其中,
50.所述机器人状态包括机器人姿态、机器人移动速度以及机器人移动方向;
51.所述关节状态包括关节姿态以及关节扭矩值。
52.第四方面,本技术提供了一种基于强化学习的四足机器人运动控制系统,所述系统包括:
53.初始指令响应单元,其用于接收初始关节控制指令,并获取理想状态下四足机器人响应所述初始关节控制指令实现的理想移动路线以及理想移动速度;
54.控制指令调节单元,其用于实时获取四足机器人的机器人状态以及关节状态,结合所述理想移动路线以及理想移动速度,基于预设的强化学习训练模型,获得实时变化的实时关节控制指令;
55.控制调节响应单元,其用于基于所述实时关节控制指令,实时控制四足机器人的关节,以使得所述四足机器人以所述理想移动速度按照所述理想移动路线行动;其中,
56.所述机器人状态包括机器人姿态、机器人移动速度以及机器人移动方向;
57.所述关节状态包括关节姿态以及关节扭矩值。
58.本技术提供的技术方案带来的有益效果包括:
59.本技术利用强化学习算法,在响应控制指令的同时,根据机器人状态以及关节状态,结合所述预设巡视路线以及所述巡视配速,对控制指令进行动态调整,从而实现对机器人的智动控制,保障机器人能够较准确的完成既定目标。
附图说明
60.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
61.图1为本技术实施例中第一方面提供的基于强化学习的四足机器人运动控制方法的步骤流程图;
62.图2为本技术实施例中第二方面提供的基于强化学习的四足机器人运动控制方法的步骤流程图;
63.图3为本技术实施例中第三方面提供的基于强化学习的四足机器人运动控制系统的结构框图;
64.图4为本技术实施例中第四方面提供的基于强化学习的四足机器人运动控制系统的结构框图。
具体实施方式
65.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术的一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
66.以下结合附图对本技术的实施例作进一步详细说明。
67.本技术实施例提供一种基于强化学习的四足机器人运动控制方法及系统,利用强化学习算法,在响应控制指令的同时,根据机器人状态以及关节状态进行动态调整,从而实现对机器人的智动控制。
68.为达到上述技术效果,本技术的总体思路如下:
69.一种基于强化学习的四足机器人运动控制方法,该方法包括以下步骤:
70.s1、获取预设巡视路线以及巡视配速,并生成初始关节控制指令;
71.s2、基于初始关节控制指令,控制四足机器人的关节,以使得四足机器人以巡视配速按照预设巡视路线行动;
72.s3、实时获取四足机器人的机器人状态以及关节状态,结合预设巡视路线以及巡视配速,基于预设的强化学习训练模型,获得实时变化的实时关节控制指令;
73.s4、基于实时关节控制指令,实时控制四足机器人的关节,以使得四足机器人以巡视配速按照预设巡视路线行动;其中,
74.机器人状态包括机器人姿态、机器人移动速度以及机器人移动方向;
75.关节状态包括关节姿态以及关节扭矩值。
76.以下结合附图对本技术的实施例作进一步详细说明。
77.第一方面,参见图1所示,本技术实施例提供一种基于强化学习的四足机器人运动控制方法,该方法包括以下步骤:
78.s1、获取预设巡视路线以及巡视配速,并生成初始关节控制指令;
79.s2、基于初始关节控制指令,控制四足机器人的关节,以使得四足机器人以巡视配速按照预设巡视路线行动;
80.s3、实时获取四足机器人的机器人状态以及关节状态,结合预设巡视路线以及巡视配速,基于预设的强化学习训练模型,获得实时变化的实时关节控制指令;
81.s4、基于实时关节控制指令,实时控制四足机器人的关节,以使得四足机器人以巡视配速按照预设巡视路线行动;其中,
82.机器人状态包括机器人姿态、机器人移动速度以及机器人移动方向;
83.关节状态包括关节姿态以及关节扭矩值。
84.本技术实施例中,利用强化学习算法,在响应控制指令的同时,根据机器人状态以及关节状态进行动态调整,从而实现对机器人的智动控制。
85.进一步的,该方法还包括以下步骤:
86.监测所述四足机器人的行进路线;
87.当所述行进路线上存在障碍物时,判断所述障碍物是否为移动物;
88.若所述障碍物为移动物,则控制所述四足机器人停止;
89.待障碍物离开所述行进路线时,重启所述四足机器人。
90.进一步的,该方法还包括以下步骤:
91.监测所述四足机器人的行进路线;
92.当所述行进路线上存在障碍物时,判断所述障碍物是否为固定物;
93.若所述障碍物为固定物,则获取所述障碍物的障碍物方位以及障碍物轮廓;
94.实时获取所述机器人状态以及关节状态,结合所述预设巡视路线、所述巡视配速、所述障碍物方位以及所述障碍物轮廓,基于预设的强化学习训练模型,获得所述实时关节控制指令;
95.基于所述实时关节控制指令,实时控制四足机器人的关节,以使得所述四足机器人以所述巡视配速绕开所述障碍物并按照所述预设巡视路线行动。
96.进一步的,该方法还包括强化学习训练模型建立流程,该强化学习训练模型建立流程包括以下步骤:
97.获取机器人物理参数;
98.构建致动器网络;
99.基于所述机器人物理参数以及所述致动器网络,训练获得所述强化学习训练模型。
100.进一步的,实时获取四足机器人的机器人状态以及关节状态,结合所述预设巡视路线以及所述巡视配速,基于预设的强化学习训练模型,获得实时变化的实时关节控制指令,包括以下步骤:
101.实时获取四足机器人的机器人状态以及关节状态;
102.基于所述机器人状态、所述关节状态以及前一时刻实时关节控制指令,利用所述强化学习训练模型,获得对应的奖励控制指令;
103.基于所述奖励控制指令以及前一时刻实时关节控制指令,获得实时关节控制指令;其中,
104.所述前一时刻实时关节控制指令为初始关节控制指令或前一时刻的实时关节控制指令。
105.进一步的,该方法还包括以下步骤:
106.利用第一传感器监测所述机器人姿态、所述机器人移动速度以及所述机器人移动方向;
107.利用分别设置在所述关节上的第二传感器监测所述关节姿态以及所述关节扭矩值。
108.进一步的,该方法还包括以下步骤:
109.利用摄像头拍摄所述四足机器人的前方图像;
110.基于所述前方图像,识别所述四足机器人的行进路线以及障碍物。
111.第二方面,参见图2所示,本技术实施例提供一种基于强化学习的四足机器人运动控制方法,该方法包括以下步骤:
112.a1、接收初始关节控制指令,并获取理想状态下四足机器人响应初始关节控制指令实现的理想移动路线以及理想移动速度;
113.a2、实时获取四足机器人的机器人状态以及关节状态,结合理想移动路线以及理想移动速度,基于预设的强化学习训练模型,获得实时变化的实时关节控制指令;
114.a3、基于实时关节控制指令,实时控制四足机器人的关节,以使得四足机器人以理想移动速度按照理想移动路线行动;其中,
115.机器人状态包括机器人姿态、机器人移动速度以及机器人移动方向;
116.关节状态包括关节姿态以及关节扭矩值。
117.本技术实施例中,利用强化学习算法,在响应控制指令的同时,根据机器人状态以及关节状态进行动态调整,从而实现对机器人的智动控制。
118.进一步的,该方法还包括以下步骤:
119.监测所述四足机器人的行进路线;
120.当所述行进路线上存在障碍物时,判断所述障碍物是否为移动物;
121.若所述障碍物为移动物,则控制所述四足机器人停止;
122.待障碍物离开所述行进路线时,重启所述四足机器人。
123.进一步的,该方法还包括以下步骤:
124.监测所述四足机器人的行进路线;
125.当所述行进路线上存在障碍物时,判断所述障碍物是否为固定物;
126.若所述障碍物为固定物,则获取所述障碍物的障碍物方位以及障碍物轮廓;
127.实时获取所述机器人状态以及关节状态,结合所述理想移动路线、所述理想移动速度、所述障碍物方位以及所述障碍物轮廓,基于预设的强化学习训练模型,获得所述实时关节控制指令;
128.基于所述实时关节控制指令,实时控制四足机器人的关节,以使得所述四足机器人以所述理想移动速度绕开所述障碍物并按照所述理想移动路线行动。
129.进一步的,该方法还包括强化学习训练模型建立流程,该强化学习训练模型建立流程包括以下步骤:
130.获取机器人物理参数;
131.构建致动器网络;
132.基于所述机器人物理参数以及所述致动器网络,训练获得所述强化学习训练模型。
133.进一步的,实时获取四足机器人的机器人状态以及关节状态,结合所述理想移动路线以及理想移动速度,基于预设的强化学习训练模型,获得实时变化的实时关节控制指令,包括以下步骤:
134.实时获取四足机器人的机器人状态以及关节状态;
135.基于所述机器人状态、所述关节状态以及前一时刻实时关节控制指令,利用所述强化学习训练模型,获得对应的奖励控制指令;
136.基于所述奖励控制指令以及前一时刻实时关节控制指令,获得实时关节控制指令;其中,
137.所述前一时刻实时关节控制指令为初始关节控制指令或前一时刻的实时关节控制指令。
138.进一步的,该方法还包括以下步骤:
139.利用第一传感器监测所述机器人姿态、所述机器人移动速度以及所述机器人移动方向;
140.利用分别设置在所述关节上的第二传感器监测所述关节姿态以及所述关节扭矩值。
141.进一步的,该方法还包括以下步骤:
142.利用摄像头拍摄所述四足机器人的前方图像;
143.基于所述前方图像,识别所述四足机器人的行进路线以及障碍物。
144.第三方面,参见图3所示,本技术实施例在第一方面提及的基于强化学习的四足机器人运动控制方法的技术基础上,提供一种基于强化学习的四足机器人运动控制系统,该基于强化学习的四足机器人运动控制系统包括:
145.初始指令生成单元,其用于获取预设巡视路线以及巡视配速,并生成初始关节控制指令;
146.初始指令响应单元,其用于基于初始关节控制指令,控制四足机器人的关节,以使得所述四足机器人以所述巡视配速按照所述预设巡视路线行动;
147.控制指令调节单元,其用于实时获取四足机器人的机器人状态以及关节状态,结合所述预设巡视路线以及所述巡视配速,基于预设的强化学习训练模型,获得实时变化的实时关节控制指令;
148.控制调节响应单元,其用于基于所述实时关节控制指令,实时控制四足机器人的关节,以使得所述四足机器人以所述巡视配速按照所述预设巡视路线行动;其中,
149.所述机器人状态包括机器人姿态、机器人移动速度以及机器人移动方向;
150.所述关节状态包括关节姿态以及关节扭矩值。
151.本技术实施例中,利用强化学习算法,在响应控制指令的同时,根据机器人状态以及关节状态进行动态调整,从而实现对机器人的智动控制。
152.进一步的,该系统还包括机器人监控单元,其用于监测所述四足机器人的行进路线;
153.机器人监控单元还用于当所述行进路线上存在障碍物时,判断所述障碍物是否为移动物;
154.机器人监控单元还用于若所述障碍物为移动物,则控制所述四足机器人停止;
155.机器人监控单元还用于待障碍物离开所述行进路线时,重启所述四足机器人。
156.进一步的,机器人监控单元还用于监测所述四足机器人的行进路线;
157.机器人监控单元还用于当所述行进路线上存在障碍物时,判断所述障碍物是否为固定物;
158.机器人监控单元还用于若所述障碍物为固定物,则获取所述障碍物的障碍物方位以及障碍物轮廓;
159.控制指令调节单元还用于实时获取所述机器人状态以及关节状态,结合所述预设巡视路线、所述巡视配速、所述障碍物方位以及所述障碍物轮廓,基于预设的强化学习训练模型,获得所述实时关节控制指令;
160.控制调节响应单元还用于基于所述实时关节控制指令,实时控制四足机器人的关节,以使得所述四足机器人以所述巡视配速绕开所述障碍物并按照所述预设巡视路线行动。
161.进一步的,该系统还包括强化学习训练模型建立单元,该强化学习训练模型建立单元用于获取机器人物理参数,构建致动器网络,基于所述机器人物理参数以及所述致动器网络,训练获得所述强化学习训练模型。
162.进一步的,实时获取四足机器人的机器人状态以及关节状态,结合所述预设巡视路线以及所述巡视配速,基于预设的强化学习训练模型,获得实时变化的实时关节控制指令,包括以下操作流程:
163.实时获取四足机器人的机器人状态以及关节状态;
164.基于所述机器人状态、所述关节状态以及前一时刻实时关节控制指令,利用所述强化学习训练模型,获得对应的奖励控制指令;
165.基于所述奖励控制指令以及前一时刻实时关节控制指令,获得实时关节控制指令;其中,
166.所述前一时刻实时关节控制指令为初始关节控制指令或前一时刻的实时关节控制指令。
167.进一步的,该系统还包括第一传感器,其用于监测所述机器人姿态、所述机器人移动速度以及所述机器人移动方向;
168.该系统还包括第二传感器,其用于监测所述关节姿态以及所述关节扭矩值。
169.进一步的,机器人监控单元具体可以配置摄像头;
170.利用摄像头拍摄所述四足机器人的前方图像;
171.基于所述前方图像,识别所述四足机器人的行进路线以及障碍物。
172.第四方面,参见图4所示,本技术实施例在第二方面提及的基于强化学习的四足机器人运动控制方法的技术基础上,提供一种基于强化学习的四足机器人运动控制系统,该基于强化学习的四足机器人运动控制系统包括:
173.初始指令响应单元,其用于接收初始关节控制指令,并获取理想状态下四足机器人响应所述初始关节控制指令实现的理想移动路线以及理想移动速度;
174.控制指令调节单元,其用于实时获取四足机器人的机器人状态以及关节状态,结合所述理想移动路线以及理想移动速度,基于预设的强化学习训练模型,获得实时变化的实时关节控制指令;
175.控制调节响应单元,其用于基于所述实时关节控制指令,实时控制四足机器人的关节,以使得所述四足机器人以所述理想移动速度按照所述理想移动路线行动;其中,
176.所述机器人状态包括机器人姿态、机器人移动速度以及机器人移动方向;
177.所述关节状态包括关节姿态以及关节扭矩值。
178.本技术实施例中,利用强化学习算法,在响应控制指令的同时,根据机器人状态以及关节状态进行动态调整,从而实现对机器人的智动控制。
179.进一步的,该系统还包括机器人监控单元,其用于监测所述四足机器人的行进路线;
180.机器人监控单元还用于当所述行进路线上存在障碍物时,判断所述障碍物是否为移动物;
181.机器人监控单元还用于若所述障碍物为移动物,则控制所述四足机器人停止;
182.机器人监控单元还用于待障碍物离开所述行进路线时,重启所述四足机器人。
183.进一步的,机器人监控单元还用于监测所述四足机器人的行进路线;
184.机器人监控单元还用于当所述行进路线上存在障碍物时,判断所述障碍物是否为固定物;
185.机器人监控单元还用于若所述障碍物为固定物,则获取所述障碍物的障碍物方位以及障碍物轮廓;
186.控制指令调节单元还用于实时获取所述机器人状态以及关节状态,结合所述理想移动路线、所述理想移动速度、所述障碍物方位以及所述障碍物轮廓,基于预设的强化学习训练模型,获得所述实时关节控制指令;
187.控制调节响应单元还用于基于所述实时关节控制指令,实时控制四足机器人的关节,以使得所述四足机器人以所述理想移动速度绕开所述障碍物并按照所述理想移动路线行动。
188.进一步的,该系统还包括强化学习训练模型建立单元,该强化学习训练模型建立单元用于获取机器人物理参数,构建致动器网络,基于所述机器人物理参数以及所述致动器网络,训练获得所述强化学习训练模型。
189.进一步的,实时获取四足机器人的机器人状态以及关节状态,结合所述理想移动路线以及理想移动速度,基于预设的强化学习训练模型,获得实时变化的实时关节控制指令,包括以下操作流程:
190.实时获取四足机器人的机器人状态以及关节状态;
191.基于所述机器人状态、所述关节状态以及前一时刻实时关节控制指令,利用所述强化学习训练模型,获得对应的奖励控制指令;
192.基于所述奖励控制指令以及前一时刻实时关节控制指令,获得实时关节控制指令;其中,
193.所述前一时刻实时关节控制指令为初始关节控制指令或前一时刻的实时关节控制指令。
194.进一步的,该系统还包括第一传感器,其用于监测所述机器人姿态、所述机器人移动速度以及所述机器人移动方向;
195.该系统还包括第二传感器,其用于监测所述关节姿态以及所述关节扭矩值。
196.进一步的,机器人监控单元具体可以配置摄像头;
197.利用摄像头拍摄所述四足机器人的前方图像;
198.基于所述前方图像,识别所述四足机器人的行进路线以及障碍物。
199.需要说明的是,在本技术中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意
在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
200.以上仅是本技术的具体实施方式,使本领域技术人员能够理解或实现本技术。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献