一种深度强化学习模型机器人的控制方法与流程

2021-10-30 02:01:00 来源：中国专利 TAG：机器人深度模型强化控制

1.本发明涉及一种深度强化学习模型机器人的控制方法。

背景技术：

2.现有技术中采用基于图像处理技术的深度神经网络视觉技术和基于强化学习的控制模型对各类机器人控制的方案已普遍存在。
3.如申请号为cn202010944332.0的发明专利公开了一种基于视觉反馈和强化学习的柔性臂控制与规划方法，基于强化学习和针对视觉的深度神经网络实现了柔性机械臂的控制与规划。
4.又如申请号为cn202110145972.x的发明专利公开了一种通过强化学习技术实现无人机自主飞行的方法，通过将模拟环境和真实环境的数据结合在一个混合的深度强化学习算法中，通过使用真实环境的数据来了解系统的动态，并使用模拟环境的数据来学习一个可概括的感知系统，该方法能够使机器人仅使用单目摄像机就可以避免碰撞以实现自主飞行。
5.但在实践中，机器人在工业场景中实际使用有其特殊性：机器人在实际使用中的场景并非固定不变的，使用者可能常根据生产线调整而变更机器人使用场景，而算法模型要适配具体场景，对于深度学习算法构建的控制模型而言，更换场景无异于将整体控制模型推翻重来，即使对于硬件不变的机器人从复杂场景变更为简单场景使用，或从简单场景变更为复杂场景使用，其面临的控制模型重新训练的时间也让人难以接受，一种典型的情况是，一台用于分拣的机械臂因生产线调整，需要变更为用于数控机床上下料，现有技术中基于强化学习和视觉识别的机械臂在面临这种情况时必然需要重新对数控机床上下料的使用场景进行训练。

技术实现要素：

6.为解决上述技术问题，本发明提供了一种深度强化学习模型机器人的控制方法，该深度强化学习模型机器人的控制方法能够根据场景视觉信息变更而在线调整控制模型，从而避免重新进行模型训练给使用者带来的不便。
7.本发明通过以下技术方案得以实现。
8.本发明提供的一种深度强化学习模型机器人的控制方法，包括如下步骤：
9.获取图像：从图像模块或存储模块中获取机器人视觉图像；
10.识别物体数量：利用物体识别模型对获取到的机器人视觉图像进行识别，并对识别出的物体数量计数；
11.计算环境复杂度：根据物体数量计数，采用回归模型计算环境复杂度；
12.调整模型超参：根据环境复杂度计算控制模型超参数值；
13.发送执行：根据控制模型超参数值改变控制模型，基于控制模型计算控制量发送至机器人的执行模块执行控制，控制模型为深度强化学习模型。
14.所述发送执行步骤，包括如下步骤：
15.a.相似度判断：对比现有控制模型中的超参数值和计算得到的控制模型超参数值，判断是否相似或一致，如否则进入步骤c；
16.b.更改模型：以计算得到的控制模型超参替换控制模型的超参，控制模型参数保持不变；
17.c.计算控制量：根据机器人输入数据，采用控制模型计算控制量，并将控制量发送执行机构执行。
18.所述步骤c中，在计算控制量之前，先利用机器人输入数据对控制模型的参数进行更新。
19.所述步骤a中，对比现有控制模型中的超参数值和计算得到的控制模型超参数值是采用相似度计算的方式，计算皮尔逊相关系数。
20.所述物体识别模型采用迁移学习得到。
21.所述物体数量计数为多元向量。
22.所述调整模型超参步骤中，控制模型超参数值仅与控制模型的规模有关。
23.本发明还提供一种深度强化学习模型机器人的控制系统；包括物体识别模块、行动控制模块、图像采集模块、传感器组和执行机构，所述行动控制模块通信连接物体识别模块、传感器组和执行机构，行动控制模块执行深度强化学习控制模型，并根据环境复杂度调整控制模型超参；物体识别模块从图像采集模块获取机器人视觉图像并计算环境复杂度，将环境复杂度发送至行动控制模块。
24.所述图像采集模块还通信连接有图像分析模块，图像分析模块对图像进行分析并将分析结果发送至行动控制模块。
25.所述物体识别模块执行如上所述的深度强化学习模型机器人的控制方法中的获取图像、识别物体数量和计算环境复杂度步骤；所述行动控制模块执行如上所述的深度强化学习模型机器人的控制方法中的调整模型超参步骤。
26.本发明的有益效果在于：能够根据场景视觉信息变更而在线调整控制模型，从而避免重新进行模型训练给使用者带来的不便，进而便于大幅提升机器人的工作效率，并提升使用者的用户体验。
附图说明
27.图1是本发明的处理流程示意图；
28.图2是本发明一种实施方式的模块连接示意图。
具体实施方式
29.下面进一步描述本发明的技术方案，但要求保护的范围并不局限于所述。
30.实施例1
31.如图1所示的一种深度强化学习模型机器人的控制方法，包括如下步骤：
32.获取图像：从图像模块或存储模块中获取机器人视觉图像；
33.识别物体数量：利用物体识别模型对获取到的机器人视觉图像进行识别，并对识别出的物体数量计数；
34.计算环境复杂度：根据物体数量计数，采用回归模型计算环境复杂度；
35.调整模型超参：根据环境复杂度计算控制模型超参数值；
36.发送执行：根据控制模型超参数值改变控制模型，基于控制模型计算控制量发送至机器人的执行模块执行控制，控制模型为深度强化学习模型。
37.由此，在前期进行控制模型训练时，可以将同一个控制模型在多种可能的使用场景中训练进行，训练时调整模型超参以将模型中的决策单元根据场景分化，不同场景以物体数量划分，并且不同场景中机器人的操作目标应有高度相似性(例如均为搬运，或均为组装)。
38.实施例2
39.基于实施例1，发送执行步骤，包括如下步骤：
40.a.相似度判断：对比现有控制模型中的超参数值和计算得到的控制模型超参数值，判断是否相似或一致，如否则进入步骤c；
41.b.更改模型：以计算得到的控制模型超参替换控制模型的超参，控制模型参数保持不变；
42.c.计算控制量：根据机器人输入数据，采用控制模型计算控制量，并将控制量发送执行机构执行。
43.在深度神经网络中，超参用于设置模型，参数是用于模型运行过程中对数据进行计算处理实现智能化、训练反馈过程中修改实现学习自动化，因此计算并调整超参，同时参数保持不变，则仅改变控制模型本身的设置，而控制模型的训练过程不需要重新进行。
44.实施例3
45.基于实施例2，步骤c中，在计算控制量之前，先利用机器人输入数据对控制模型的参数进行更新。
46.输入数据用于实现控制模型的在线更新学习，先更新学习后进行控制的方式更符合常规需要。
47.实施例4
48.基于实施例2，步骤a中，对比现有控制模型中的超参数值和计算得到的控制模型超参数值是采用相似度计算的方式，计算皮尔逊相关系数。
49.实施例5
50.基于实施例1，物体识别模型采用迁移学习得到。
51.实施例6
52.基于实施例1，物体数量计数为多元向量。
53.实施例7
54.基于实施例1，调整模型超参步骤中，控制模型超参数值仅与控制模型的规模有关。
55.实施例8
56.如图2所示的一种深度强化学习模型机器人的控制系统；包括物体识别模块、行动控制模块、图像采集模块、传感器组和执行机构，行动控制模块通信连接物体识别模块、传感器组和执行机构，行动控制模块执行深度强化学习控制模型，并根据环境复杂度调整控制模型超参；物体识别模块从图像采集模块获取机器人视觉图像并计算环境复杂度，将环
境复杂度发送至行动控制模块。
57.实施例9
58.基于实施例8，图像采集模块还通信连接有图像分析模块，图像分析模块对图像进行分析并将分析结果发送至行动控制模块。
59.实施例10
60.基于实施例8，物体识别模块执行如实施例1中的获取图像、识别物体数量和计算环境复杂度步骤；行动控制模块执行如实施例1中的调整模型超参步骤。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种工控数据特征重排序算法的自适应确定方法与流程

一种深度强化学习模型机器人的控制方法与流程

相关文献

最热文献