一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种人机自主智能协同的跟踪方法

2022-12-20 20:20:30 来源:中国专利 TAG:


1.本发明属于自主智能协同控制和协作机器人目标自动跟随等技术领域,具体说是一种人机自主智能协同的跟踪方法,即根据机器人自身状态,结合视觉判断目标状态从而做出相应决策实现协同和跟踪的目标,并应用于流水线机器人跟随作业、台车跟随注油、无人车间人机协同作业、机器人巡航等领域。


背景技术:

2.自主智能协同跟踪指面向工业环境的人机物协同时人和机器具备环境感知、行为控制、动态决策、自动执行等使用功能的智能化综合控制系统,基于机器学习的过程、行为运行准则与周边环境情况等自主完成复杂任务,并可以利用机器视觉信息来控制机器人的移动,使机器人末端执行器迅速达到期望的位姿。这不仅需要机器人控制系统具有较高的反应速度,同时也对控制动作的精确度有着较高的要求。而具有感知和智能反馈的运动控制与协调问题对自主智能协同技术的应用具有重要的影响,如何建立场景模型、行为模型,并能自主学习行为规则,优化协同效率是关键的内容。因此,对自主智能协同的跟踪问题的研究是当前一项重要课题。
3.然而,目前的机器人跟踪技术主要依赖于人为事先设定好跟踪轨迹和各种判定条件,机器只能死板地根据设定进行周期性运转。机器本身往往缺乏智能性,如果环境发生改变,如出现障碍物等,机器一般不会改变策略,从而可能造成不必要的损耗。同时,人机之间往往也缺乏交互,人无法对机器做出指导,机器也难以向人反馈详细的作业情况。此外,目前的跟踪技术对视觉精度要求较高,当视觉传感器被遮挡或光线不良的情况下,机器常常会出现误判等情况,影响正常作业效率。以上问题是目前人机自主智能协同跟踪技术中急需解决的问题。


技术实现要素:

4.本发明结合机器人跟踪技术和人机协同方法,将两者合二为一,结合强化学习算法,提出了一种人机自主智能协同的跟踪方法,其目的在于实现人机系统在不同环境中可以自主化、智能化地作业,以更好地完成各类跟踪和协同的目标任务。
5.本发明为实现上述目的所采用的技术方案是:
6.一种人机自主智能协同的跟踪方法,包括以下步骤:
7.1)建立人机协同场景链式模型:根据马尔科夫链模型建立一个五元组;
8.2)根据目标要求,进行人工示教,得到多个策略,构成训练集,所述策略为智能体的某一状态对此状态下所有可能的动作的映射;
9.3)智能体获取策略,并对其进行离散采样,分别提取每个策略中各个动作的参数数值和频率,进而得到智能体不同状态下每个动作的近似概率分布;
10.4)通过近似概率分布以及状态回报得到对应动作的奖励值,进而得到奖励函数;
11.5)基于奖励函数训练最优策略;
12.6)对最优策略的性能进行测试:依据评价函数判断最优策略是否满足要求,即将评价函数与阈值比较,若不满足要求,则执行步骤7),否则,执行步骤8);
13.7)将最优策略加入训练集中,并修改估计参数,返回步骤4)重新估计奖励函数;
14.8)提取最优策略的偏好;
15.9)根据最优策略的偏好判断该策略是否存在部分优于现有策略,如果是,则将该策略加入现有策略,组成策略集,并修改估计参数,返回步骤4),否则,舍弃该策略;若连续舍弃次数满足设定次数,则执行步骤10),否则,修改估计参数,返回步骤4);
16.10)智能体根据最优策略的偏好进行策略集中的策略分类,完成模型构建,智能体根据模型中的策略进行自主跟踪。
17.所述五元组为(s,a,p,r,γ),其中,集合s表示智能体当前的状态集,集合a表示智能体下一时刻动作集,p为a中各种动作的概率,r为奖励函数,γ∈(0,1)为折扣系数,用于计算累计奖励值。
18.所述智能体状态为(d,v,α,β,θ),其中,d为智能体本身与目标的相对距离,v为智能体自身速度,α,β,θ分别为智能体本身与目标之间的空间角度;
19.所述动作为(μ,ω,δ),其中,μ为智能体执行动作的线加速度,ω为智能体执行动作的角加速度,δ为执行动作的时间。
20.所述步骤4)具体为:
21.通过近似概率分布以及状态回报得到对应动作的奖励值:
[0022][0023]
其中为动作μ
t
的奖励值,为进入状态s
t 1
获得的估计回报,为状态s
t 1
再进行状态转移获得的估计回报,f(μ
(t 1)i
)为近似概率分布;
[0024]
根据奖励值,可以得到当前状态下奖励最大的前n个动作,将除该n个动作以外的动作概率置零,并将置零的概率加到该n个动作概率上,根据奖励值,可以获得奖励函数:
[0025][0026]
p(μ
t
|s
t
)为在s
t
状态下动作μ
t
的概率。
[0027]
所述步骤5)中通过强化学习算法对五元组中的数据进行训练,得到最优策略。
[0028]
所述评价函数为:
[0029]
f(x)=g(x) h(x)
[0030]
其中,f(x)为评价函数,g(x)表示当前策略对目标的完成度,h(x)表示当前策略完成过程中产生的代价,g(x)的值和h(x)的值均通过离散采样得到。
[0031]
所述估计参数包括:状态回报、动作个数n以及折扣系数γ。
[0032]
对于一个目标,可以将其分解为多个并列的子目标或者多个按序进行的分目标,针对每个子目标或分目标均设计一个评价函数,用于衡量最优策略在子目标或分目标上的完成情况,所述最优策略的偏好为其子目标或分目标的评价函数的值集合。
[0033]
所述策略集为包含多种不同策略、每种策略的判定条件、策略的子目标或分目标
评价值的数据集合。
[0034]
本发明具有以下有益效果及优点:
[0035]
1.本发明提出了一种机器人自主智能协同的跟踪方法,主要面向工业场景中人机协同完成多目标任务,通过现场数据和协同行为模型双向驱动实现多目标优化,从而根据不同用户及不同环境下的人机自主协同完成特定任务需求实现最大限度的自主性。引入多策略模型可以有效解决单一模型可能存在的环境适应力不佳、抗干扰能力弱的问题。
[0036]
2.本发明中的跟踪方法无需考虑机器人各部位之间的坐标转换,只需让机器人通过与环境不断交互从而学习到如何进行动作决策,降低了大大简化了计算量并且减少了坐标转换可能带来的误差。
[0037]
3.本发明中的跟踪方法初期是对人工示教模型的模仿,然后从示教模型中学习执行动作的策略,最终获得最优策略。这种学习过程并不会受示教模型的优化性能限制,同时也不受训练数据集的大小影响。这使得机器人更具有智能性,对于各种突发状况,机器人可以进行自主决策,大大提高了其泛化性能。
[0038]
4.本发明中的跟踪方法在人工示教的帮助可以加快训练速度,克服了传统强化学习算法前期需要进行大量低效率探索的问题。
附图说明
[0039]
图1为机器人模型训练的流程图;
[0040]
图2为强化学习算法原理图;
[0041]
图3为机器人动作决策流程图。
具体实施方式
[0042]
下面结合附图及实施例对本发明做进一步的详细说明。
[0043]
整体流程如图1所示。
[0044]
步骤1)建立人机协同场景链式模型。根据马尔科夫链模型可建立一个五元组(s,a,p,r,γ),其中集合s表示当前的状态集,集合a表示下一时刻动作集,p为a中各种动作的概率,r为奖励函数,γ∈(0,1)为折扣系数,用于计算累计奖励值。机器人进行跟随动作主要需要考虑空间各个方向上的移动速度以及与目标之间的相对距离,因此根据运动学方程有:
[0045][0046]
其中,d
t
为t时刻机器人与目标之间的相对距离,δv
t
为t时刻机器人与目标之间的相对速度,τ为采样间隔,1a
t
为t时刻目标的加速度,2a
t
为t时刻机器人的加速度,μ
t
为t时刻执行的动作。根据上述方程,可以获得下一状态的近似取值,从而进行回报估计。
[0047]
步骤2)根据目标要求,进行人工示教,给出可行策略。此部分需要人工对目标进行初步分析,给出多个不同可行策略,用于指导机器人如何进行跟随,本部分所给出的策略性能越好则机器人的训练速度越快越容易获取最佳策略,所给出的策略性能越平庸则机器人
的搜索空间越大越容易搜索到更多偏好的策略。此处的策略π:s

p(a)为智能体根据状态(d,v,α,β,θ)关于所有可能做动作(μ,ω,δ)的概率的映射。其中d为相对距离,v为自身速度,α,β,θ为智能体本身与目标之间的空间角度,μ为智能体执行动作的线加速度,ω为智能体执行动作的角加速度,δ为动作时间。
[0048]
步骤3)机器人获取示教模型数据,进行离散采样,提取各个动作的参数数值和频率。根据对人工示教策略的采样,可以获得μ
t
随时间、相对距离、相对速度变化的关系,进而根据统计学公式:
[0049][0050]
可以获得不同状态下最优动作μ
tmax
的近似概率分布。
[0051]
在该步骤中,机器人包括但不限于完整的机器人,机械手等智能化设备也应包含在内,但需要满足可以灵活移动的条件。机器人应包含视觉传感器、末端执行器、移动装置(如轮子)等。机器人需要由视觉传感器,即摄像头采集末端执行器的动作信息以及目标位置变化的信息,同时根据末端执行器的动作执行量进行间距、速度的估计。
[0052]
步骤4)确定部分参数,估计奖励函数。根据不同状态,有:
[0053][0054]
其中为动作μ
t
的奖励值,为进入状态s
t 1
可获得的估计回报,为状态s
t 1
再进行状态转移可能获得的估计回报。根据奖励值,可以得到当前状态下奖励最大的前n个动作,n为变量,由用户根据实际情况确定。将除了这n个动作以外的动作概率置零,并将概率按一定比例加到这n个动作概率上。同时根据奖励值,可以获得奖励函数:
[0055][0056]
步骤5)基于奖励函数训练出最优策略。训练算法为包含状态集、动作集、奖励函数、值函数等数据的强化学习算法,原理如图2所示,包括但不限于某一特定的强化学习算法,如q-learning算法、actor-critic算法等。如基于值函数的强化学习算法有
[0057]
q(s
t
,a
t
)

q(s
t
,a
t
) α[r
t
1 γmax q(s
t 1
,a
t 1
)-q(s
t
,a
t
)]
[0058]
其中q为动作-策略值函数,r为奖励函数,α为贪心率。当机器人与环境进行交互时,每次动作都会使q函数发生改变。当进行一定次数交互后,q函数保持恒定,则训练完成。此处也可以采用基于策略梯度的强化学习算法训练策略,采用公式
[0059][0060]
进行策略梯度更新,最终完成策略训练。其中θ为策略参数,为执行策略π
后所得到的累积回报对策略参数的梯度,p
π
(s)为状态概率,为策略函数对其策略的梯度。两种算法均可得到该奖励函数下的最优策略,但所获策略不一定相同。
[0061]
步骤6)测试策略性能,依据评价函数判断策略是否满足要求。根据目标的要求,可以获得一个评价函数,形如
[0062]
f(x)=g(x) h(x)
[0063]
其中f(x)为评价函数,g(x)用于表示当前策略对目标的完成度,h(x)用于表示当前策略完成过程中产生的代价,如用时、移动距离等。根据评价函数,机器人可以对步骤五中最终获得的策略进行评价,判断该策略是否满足要求。若不满足要求,则跳到步骤7),否则跳到步骤8)。
[0064]
在本步骤中,测试性能应由视觉传感器根据末端执行器的实际运动情况进行评价,而不应由理论计算进行评价。
[0065]
对于机器人跟踪任务,要求机器人跟随过程中不能与目标距离过近或过远,同时也应当尽量保持平稳缓慢移动,避免突然性的快速运动或短时间完全静止不动。则评价函数可以为:
[0066][0067]
其中,t为测试时间,v(t)为机器人速度随时间变化的函数,δd(t)为机器人与目标之间的相对距离随时间变化的函数,d为合理间距,由人为给定,δv(t)为机器人与目标之间的相对速度随时间变化的函数,n为采样数据的规模大小。
[0068]
对于机器人跟踪任务,应当要求其评价函数以确保机器人跟随效率,其中为目标的平均速度。
[0069]
步骤7)将策略加入训练集合,修改估计参数,返回步骤四重新估计奖励函数。对于不满足要求的策略,应当加入训练集合,补充进示教策略中,并对部分动作进行去值,避免后续训练再度出现。此时还需修改步骤4)中部分参数,重新训练奖励函数。
[0070]
步骤8)提取策略偏好,对于一个目标,可以将其分解为多个并列的子目标或者多个按序进行的分目标。此处的针对每个子目标或分目标都可以设计一个评价函数,形式类似于f(x)=g(x) h(x)。该评价函数用于衡量策略在对应子目标或分目标上的完成情况,但此处的评价值在模型完成前不进行阈值判定,仅用于与其他策略进行比较。并根据完成情况的不同区别不同目标的偏好,帮助机器人在不同情况下选择不同目标。
[0071]
对于机器人跟踪任务,还应考虑(1)机器人速度变化是否平稳,即加速度的变化;(2)环境发生改变时,如突然出现障碍物,气流影响等,机器人如何进行动作决策;(3)目标突然停止运动或加快移动速度时,机器人的运动状态如何变化;(4)目标突然丢失时,如出现遮挡导致摄像头无法定位目标,机器人如何进行动作决策;(5)其他可能导致的机器人跟随受阻的情况等。对于上述情况下机器人的动作决策可以表征该策略的动作偏好。
[0072]
步骤9)若策略存在部分优于策略集现有策略,则将策略加入策略集,并修改估计
参数,返回步骤4)重新估计奖励函数;否则,舍去该策略,若连续舍弃次数满足设定次数,则执行步骤10),否则,修改估计参数,返回步骤4)。
[0073]
步骤10)根据策略偏好进行策略分类,完成模型构建。完成策略集中的策略收集后,机器人还需要根据子目标或分目标的评价值对策略进行分类,并根据策略的不同偏好对策略进行条件设定,此处的条件应为用户和机器人共同给出,形式为多个子目标或分目标的条件值。在进行自主跟踪的动作决策时,满足条件的策略将被选入待选策略,如果有多个策略满足使用条件时则按照用户指定的主要子目标或分目标的评价值来进行判定,以使得机器人总可以选择出最适合的策略。动作决策流程如图3所示。
[0074]
此处的策略集为包含多种不同策略、每种策略的判定条件、策略的子目标或分目标评价值等的元素的数据集合。
[0075]
对于机器人跟踪任务,当目标为易碎等容易损坏的物体时,机器人跟踪应在目标位置不确定时减少不必要的运动避免对目标造成损坏;而当目标为按确定规律运动的物体时,机器人即使短时丢失目标位置也可以按规律继续运动。诸如此类,对于不同环境,机器人应根据实际需求选取合适的策略进行动作决策。
[0076]
最终的模型应当是经过实际测试而确定的,如果存在部分表现无法满足要求,应该予以继续训练,必要时还可添加相应的示教数据辅助训练。
[0077]
如上所述,尽管参照特定的优选实施例已经表示和表述了本发明,但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下,可对其在形式上应用范围及细节上做出各种变化。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献