一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于语义环境图控制移动机器人的计算机实现方法和设备与流程

2022-02-24 20:31:46 来源:中国专利 TAG:

基于语义环境图控制移动机器人的计算机实现方法和设备
1.导致该申请的项目已经根据第732737号赠款协议(grant agreement)收到来自欧盟地平线2020研究和创新计划的资助。
技术领域
2.本发明涉及对移动机器人的优化轨迹进行建模,以用于控制移动机器人在环境中移动。


背景技术:

3.在环境中,诸如移动服务机器人、智能车辆、协作生产辅助、视频监控、城市规划等之类的移动机器人与其他动态对象和个体共享环境。对于移动机器人的运动规划而言,环境中的人类运动受到必须被评估的许多因素所影响。虽然室内人类导航仅由避免碰撞所激励,但是语义分割在室外环境中有强烈的影响。
4.为了控制移动机器人在拥挤环境中的移动,通常开发奖励函数,该奖励函数反映了个体和其他动态对象在环境中的移动。奖励函数通常可以形成针对移动机器人确定最优运动策略的基础,因为它可以用于估计给定环境图的平均占据值(average occupancy value)并且对新环境中的轨迹进行仿真。然后,使用平均占据值来确定运动轨迹,并且最终控制移动机器人的运动。
5.然而,基于可用数据来确定奖励函数是困难的。因此,使用所谓的逆向最优控制(ioc)方法来揭示最好地解释移动机器人的所演示的最优行为的奖励函数。基本上,在逆向最优控制中,通过演示移动机器人的行为来学习奖励函数。
6.逆向最优控制(ioc)方法利用语义图以便预测未来的人类运动,如例如从kitani, k.m.、ziebart, b.d.、bagnell, j.a.、hebert, m.的“activity forecasting”(proc. of the europ. conf. on comp. vision(eccv).第201-214页(2012年))中已知。特别地,语义图被用于编码奖励函数的特征。然而,ioc的这种应用没有很好地泛化至新环境或具有不同几何结构的异构数据集。


技术实现要素:

7.根据本发明,提供了根据权利要求1的一种用于使用由语义图确定的奖励函数来执行移动机器人的逆向最优控制以便预测未来的人类运动的方法、以及根据进一步的独立权利要求的设备和移动机器人。
8.从属权利要求中指示了进一步的实施例。
9.根据第一方面,提供了一种用于基于占据先验(occupancy prior)来确定机器人的运动轨迹的计算机实现方法,所述占据先验指示动态对象和/或个体在环境图中存在的概率,其中所述占据先验是借助于由奖励函数参数定义的奖励函数来确定的;对奖励函数参数的确定包括以下步骤:
‑ꢀ
提供多个语义图;
‑ꢀ
提供针对所述多个语义图中的每一个的多个训练轨迹;
‑ꢀ
取决于所述多个语义图中的每一个和所述多个训练轨迹中的每一个来计算预期平均特征计数与经验平均特征计数之间的差异,其中经验平均特征计数是在语义图的训练轨迹上累积的特征的平均数量,其中预期平均特征计数是通过取决于当前奖励函数参数生成的轨迹所累积的特征的平均数量;
‑ꢀ
取决于所述差异来更新奖励函数参数。
10.虽然用于预测未来轨迹的常规方法基于对移动个体的当前观察结果,但是上述方法将评测语义环境,而不管个体踪迹如何。上述方法明确地仅使用语义图作为输入,这允许使所学习的模型适配于新环境,而无需进一步的适配。
11.如本文中理解的轨迹是机器人可以沿着其移动或者机器人设备的一部分(例如,操纵器)可以被移动的规划运动路径。
12.特别地,进一步开发了逆向最优控制方法,以跨多样环境图的广泛选择来学习语义偏好。所学习的偏好然后用于对轨迹进行仿真,并且推断出新给定的环境的占据图。然后,新环境的占据图可以用于优化移动机器人的运动轨迹。
13.逆向强化学习假设个体在给定环境中的观察到的运动是由随机运动策略生成的,并且寻求以对于可用演示的最大似然来估计该策略。运动策略直接由奖励函数产生,并且可以用于在新提供的环境中对轨迹进行仿真。然而,该仿真取决于据此绘制仿真轨迹的起始和目标状态的分布,其中对起始或目标状态进行采样的概率是以状态的语义类为条件直接学习到的。
14.如本文中描述的特征用于在语义上描述环境。语义图用于编码奖励函数的特征。
15.可以规定的是,基于多个分别不同的语义图来迭代地执行对奖励函数参数的确定。
16.因此,可以在每次迭代中使用多个给定语义环境图在迭代过程中更新奖励函数。
17.此外,奖励函数可以指示物理场景特征在多大程度上影响了动态对象和/或个体的动作。
18.根据一实施例,针对所述多个语义图中的每一个的训练轨迹中的每一个,预期平均特征计数可以通过后向传递过程和前向传递过程而被接续开发,如也从kitani, k.m.、ziebart, b.d.、bagnell, j.a.、hebert, m.的“activity forecasting”(proc. of the europ. conf. on comp. vision(eccv). 第201-214页(2012年))中已知的。
19.此外,后向传递过程可以被配置成使用当前奖励函数参数来计算轨迹从任何初始状态到所考虑的训练轨迹的目标状态的预期奖励,其中可以应用最大熵策略。
20.因此,在后向传递中,使用当前奖励函数来计算在给定目标状态的情况下针对当前考虑的语义图中的每个状态的状态值函数。然后,于是计算用于达到目标状态的随机运动策略。随机运动策略在前向传递中用于对若干个轨迹进行仿真。
21.可以规定的是,对于前向传递过程,基于由前面的后向传递过程确定的随机运动策略来构建轨迹,同时使用所构建/生成的轨迹来更新针对所构建的轨迹的每个状态的访问计数(visitation count)。
22.基于仿真轨迹,将预期平均特征计数计算为访问计数的加权总和。此外,基于语义图的随机生成的轨迹来确定经验平均特征计数。经验平均特征计数表示通过当前迭代的给
定语义图的所生成轨迹(所提供的随机起始和目标状态)的累积占据频率。
23.可以取决于经验平均特征计数和预期平均特征计数使用梯度下降来更新奖励函数,直到梯度收敛到零。这是为了更新用于在后向-前向过程中生成轨迹的奖励函数。
24.与其他方法的差异在于,给定环境中的轨迹的数据库可以用于对环境的每个状态中的访问频率进行计数,以获得占据图。上述方法估计了在其中没有人类轨迹数据可用的环境中的分布。
25.当在异构语义图集合上训练时,常规的逆向最优控制算法难以收敛到奖励函数的最优参数。事实上,除非两个不同的语义图具有完全相同的经验特征计数,否则最优奖励函数参数将是不同的,并且通常所应用的梯度下降无法收敛,从而在两个局部最小值之间振荡。为了与在多个语义图上的训练兼容,通过针对一批语义图中的一批轨迹执行后向和前向传递来修改后向-前向算法,从而累积跨若干个图的访问计数。这种修改使得能够实现在具有可变特征计数的图上的泛化,并且防止奖励函数参数在每个个体图的最优解之间的振荡。
26.此外,除了生成随机起始和目标方位之外,还可以使用上面描述的后向-前向传递过程来执行所述多个轨迹的生成。在新的图中,所述方法生成随机目标,利用后向传递来找到动态对象/个体的状态值函数、奖励和运动策略,并且然后使用前向传递对轨迹进行仿真以从随机起始方位达到该目标点。这被重复达给定次数(例如,100-1000次,特别是500对随机起始和目标点)。这些仿真轨迹产生了新图中的访问计数,这些访问计数然后被归一化以得到占据先验分布,作为去往机器人运动规划的输入。
27.特别地,可以借助于softmax函数来开发轨迹的状态值函数。
28.根据进一步的方面,提供了一种设备、特别是移动机器人的控制单元,用于基于占据先验来确定移动机器人的运动轨迹,所述占据先验指示动态对象和/或个体在环境图中存在的概率,其中所述占据先验是通过由奖励函数参数定义的奖励函数来确定的;其中,对奖励函数参数的确定,所述设备被配置成:提供多个语义图以及针对所述多个语义图中的每一个的多个训练轨迹,以取决于所述多个语义图中的每一个和所述多个训练轨迹中的每一个来计算作为预期平均特征计数与经验平均特征计数之间的差异的梯度,其中经验平均特征计数是在语义图的所提供训练轨迹上累积的特征的平均数量,其中预期平均特征计数是由取决于当前奖励函数参数生成的轨迹所累积的特征的平均数量;并且取决于所述梯度来更新奖励函数参数。
附图说明
29.结合附图更详细地描述了实施例,在附图中:图1示出了在具有另外个体的环境中的移动机器人。
30.图2示出了用于确定用于控制图1的移动机器人的占据先验分布的图示。
31.图3示出了图示基于给定环境中的动态对象/个体的奖励函数来控制移动机器人的方法步骤的流程图。
32.图4示出了图示作为图3的过程的子例程的后向传递过程的流程图。
33.图5示出了图示作为图3的过程的子例程的前向传递过程的流程图。
具体实施方式
34.图1示出了移动机器人1的系统,该移动机器人1具有沿着轨迹从方位a到方位b移动穿过环境e的任务。在环境e中,动态对象和/或个体2可以移动以便执行它们自己的任务。动态对象和/或个体2可以均示出一种智能或任务驱动的行为,其中在环境的不同区域中存在的概率可以由该环境的语义图来指示。
35.如本文中理解的语义图是基于环境图的分割。环境图是移动机器人应在其中移动的真实环境的区域或空间表示。该分割与该环境和/或环境图的区或区域相关联。
36.移动机器人可以是自主清洁机器人、自主割草机、自主服务或护理机器人等。
37.移动机器人1可以具有如在图1中示意性示出的配置。移动机器人1具有控制单元11,控制单元11被配置成执行随后描述的方法并且控制机器人1沿着规划轨迹的移动。
38.控制单元11可以具有微处理器或微控制器、以及用于存储数据和算法代码的存储器。此外,移动机器人1具有用于与环境交互的致动单元12,例如致动单元12可以包括用于驱动移动机器人1的轮子以便使移动机器人1在环境e内移动的牵引电机。致动单元12由控制单元11控制。
39.此外,移动机器人1可以包括传感器系统13,传感器系统13用于感测环境e,特别是检测可以允许定位移动机器人1的其他对象和结构、以及动态对象在环境e中的位置,使得它们的方位或它们的姿态在环境e中是已知的。传感器系统13可以包括雷达、激光雷达和/或相机,以扫描移动机器人1周围的环境e。
40.控制单元11被配置成使移动机器人1沿着可以由马尔可夫决策过程确定的规划轨迹而移动。
41.马尔可夫决策过程用于表达决策制定过程的动力学,并且由状态、动作、概率状态转移映射、以及将状态转移映射到奖励值的奖励函数的元组来定义。如本文中所理解的,状态定义了位置/方位,并且可以进一步包括动态对象/个体2的一些内部状态。f(s)编码状态的语义,即它属于哪个语义类或其概率组合。概率可能来自于语义环境分割的不确定性。为了简单起见,可以假设每个状态s的语义f(s)与其最可能的类相等。然而,也可以假设fk(s)的概率值。
42.策略将状态s映射到动作a,并且通过对处于状态s时要采取的动作a的分布进行编码来表示决策制定过程。最优策略使预期累积性奖励最大化,。
43.在实践中,当处于状态s
t
时采取动作a
t
的预计奖励由状态-动作值函数q(s
t
,a
t
)来表示。在可能动作集合之上的最大化导致了状态值函数v(s
t
)和最优策略,。
44.等同地,最优策略满足贝尔曼方程:
其可以利用值迭代——动态编程算法来获得,该动态编程算法当从状态s1开始时迭代地计算v(s
t
)和q(s
t
,a
t
),以获得最优策略的累积性预期奖励。
45.逆向最优控制(ioc)框架处理对机器人的最优行为建模,从而在随机世界(状态集合)中操作,并且在去往它们的目标状态的途中收集奖励。逆向最优控制能够在制定策略时平衡即时奖励和未来预期奖励。在逆向最优控制问题中,奖励函数没有被给出,并且必须从所演示的示例中发现/开发,即从与给定环境(由环境图表示)中的动态对象和/或个体2的运动轨迹相对应的观察结果集合t中发现/开发。已经提出了使用结构化最大边际预测、特征匹配、以及最大熵逆向强化学习的各种方法以用于恢复奖励函数。奖励函数一般具有以下形式:并且被假设为特征响应的加权组合,其中每个fk(s)是物理场景特征的响应,其中fk(s)指示状态s属于语义类k的度量。如果状态s肯定地属于语义类k,则该度量是一。针对自然城市环境的语义类可以包括诸如路面、草地、道路表面、人行横道、障碍物、停车场、水、灌木丛等语义。
46.是表示奖励函数参数的权重向量,所述奖励函数参数定义了奖励函数。通过学习奖励函数参数,学习到物理场景特征/语义类在多大程度上影响动态对象或个体2的动作。例如,在道路导航中,特征(诸如,汽车或建筑物的存在)将具有大权重,这是因为它们是高成本/低奖励的,并且应当避免。
47.基本上,用于控制移动机器人1的合适运动轨迹是基于语义丰富的城市环境中的移动的动态对象或个体2的占据图先验来确定的。针对k个语义类的集合上的每个状态,给定具有相关联的特征响应给定具有相关联的特征响应的环境m的图,在该状态s中估计观察到动态对象/个体2的先验概率p(s)。
48.通常,可以通过在中应用轨迹的大型数据库来对每个状态中的访问频率进行计数,从而求解估计p(s)的问题:其中d(s)是轨迹当中的状态s的访问计数(每一个轨迹对图内的位置的命中)。然而,在本文中,应在其中没有轨迹数据而只有语义图可用的环境中估计访问计数的分布。
49.该环境的语义图f(m)、或用于提取它的方法一般通过语义场景标记的过程而已知。最近的语义场景标记方法提供了(例如出于导航目的)鲁棒且可靠的识别对应于语义类的物理场景特征的方式,所述语义类诸如例如路面、草地、树木、建筑物和汽车。
50.结合图2和图3描述了用于取决于从多个给定语义图中导出的奖励函数来控制移动机器人1的方法。图2示意性地示出了奖励函数确定方法的功能块,并且图3是用于控制移动机器人1——包括用于确定奖励函数——的方法步骤的流程图图示。该方法在移动机器人1的控制单元11中、或者在其中该方法可以作为硬件和/或软件中的算法来实现的任何其他数据处理单元中执行。
51.在步骤s1中,提供了不同环境的异构语义图的集合。针对每个语义图,提供了多个训练轨迹t,其可以从演示集合中随机选择。每个语义图将一个或多个特征与表示环境中的对应位置处的情形的图位置相关联。特别地,特征表示关于对象、结构等的存在或不存在的指示。语义图可以根据已知的过程来开发,例如取决于由移动机器人1或与其连接的任何其他成像系统(包括图片数据库、外部相机等)所获得的相机数据。
52.在以下步骤中,描述了一种使用语义图用于开发奖励函数的方法,该奖励函数是用于确定移动机器人1的运动轨迹的基础。基本上,奖励函数定义了占据先验,占据先验是通过从样本环境中进行学习而在新环境中导出的。
53.确定奖励函数的过程由伪代码指示如下:确定奖励函数的过程由伪代码指示如下:
54.在步骤s2(第1行)中,利用区别特征的数量k(语义类的数量)的倒数来初始化奖励函数参数。
55.在第2行中,将开始一循环,以用于在迭代中更新奖励函数参数。在每次迭代中,实行随后的步骤,直到在步骤s15中确定该过程收敛。
56.在步骤s3(第3行)中,经验平均特征计数和预期平均特征计数被重置。
57.在步骤s4(第4行)中,给出相同或不同环境的一批语义图,基于此,应确定经验平均特征计数和预期平均特征计数,以获得用于更新奖励函数参数的梯度。bm指示该批中的图的数量。
58.在第5行中,开始一循环,其中针对语义图中的每一个,执行随后的步骤。
59.因此,在步骤s5中,从结合语义图中的第一/所选语义图提供的训练数据t中选择数量b
t
个轨迹。
60.在步骤s6(第7行)中,根据下式来更新经验平均特征计数:。
61.经验平均特征计数对应于在语义图的(所考虑的)训练轨迹上累积的特征的平均数量。
62.在步骤s7(第8行)中,基于初始设置或先前确定的奖励函数参数根据来更新奖励函数。r0是转移的基本奖励。
63.在第9行中,开始一循环以用于考虑该批b
t
个轨迹中的每一个。
64.在步骤s8(第10行)中,基于如下面进一步描述的后向传递过程“backwardpass”来确定控制策略π。控制策略对应于规则集合,所述规则集合可以用于控制移动机器人1在真实世界环境中的动作。
65.在步骤s9(第11行)中,在如下面描述的前向传递算法“forwardpass”中,基于控制策略π来更新预期平均特征计数。预期平均特征计数是由取决于当前奖励函数参数生成的轨迹所累积的特征的平均数量。
66.在步骤s10中,检查该批b
t
个轨迹中的所有轨迹是否都被该循环处理。如果是肯定的(备选:是),则该过程以步骤s11继续。否则(备选:否),该过程返回到步骤s8。
67.在步骤s11中,检查该批bm个语义图中的所有语义图是否已经被该循环处理。如果是肯定的(备选:是),则该过程以步骤s12继续。否则(备选:否),该过程返回到步骤s5。
68.在步骤s12(第12行和第13行)中,将经验平均特征计数和预期平均特征计数归一化,以使它们可比较。
69.在步骤s13(第14行)中,将梯度计算为经验平均特征计数与预期平均特征计数之间的差异。
70.在步骤s14(第15行)中,根据、基于梯度来更新奖励函数参数,其中λ是根据经验设置的给定学习速率。
71.在步骤s15中,检查梯度的值是否小于给定阈值,这指示迭代的充分收敛。如果是肯定的(备选:是),则该过程以步骤s16继续,否则将它返回到步骤s3。
72.在步骤s16中,除了生成随机起始状态s0(其包括起始方位)和随机目标状态sg(其包括目标方位)之外,还基于奖励函数、例如通过使用如上描述的后向-前向传递过程来确定占据分布。在新的图中,该方法生成随机目标状态,利用后向传递来找到动态对象/个体2的状态值函数、奖励和运动策略,并且然后使用前向传递对轨迹进行仿真以从随机起始状态达到该目标状态。这被重复达给定次数(例如,500对随机起始和目标点)。这些仿真轨迹产生了新图中的访问计数,这些访问计数然后被归一化以得到占据先验分布,作为去往机器人运动规划的输入。
73.基于占据分布,确定运动轨迹。例如,dijkstra、a*或rrt是在成本图上操作的一些常用方法,其中先验占据分布可以用作成本图的一部分。
74.结合图4的流程图来详细解释后向传递过程。该过程附加地由以下伪代码来说明:
75.在后向传递过程中,使用当前奖励函数参数,并且计算轨迹的预期奖励,从而以给定目标sg结束并且开始。本质上,从每个可能的起始位置到目标来计算预期奖励。该算法围绕着状态值函数v(s)和状态-动作值函数q(s,a)的重复计算。直观地说,v(s)是从状态s达到目标的预期奖励的软估计,并且q(s,a)是从当前状态s采取动作a之后达到目标的软预期奖励。在收敛时,最大熵策略是。
76.后向传递过程以步骤s21(第2行)开始,其中状态值函数v(s)的每个元素被初始化为低值,诸如。
77.在第3行中,开始一循环,其中轨迹被提供作为以给定目标状态sg——其是该轨迹的最终状态——开始的相应图的训练轨迹t中的一个。
78.在步骤s22(第4行)中,将该轨迹的实际节点的状态值函数设置为0:。
79.在步骤s23(第5行)中,根据贝尔曼方程,通过实际奖励函数和来更新实际轨迹节点的状态-动作值函数q
(n)
(s,a):(s,a):对应于在状态s
t 1
中接收到的预期奖励。q函数的贝尔曼方程简单地在当前状态s中尝试每个动作a,并且基于下一个状态s
t 1
的值来评估它们的效果,下一个状态s
t 1
是通过在当前状态s
t
中执行动作a而达到的。
80.在步骤s24中,计算前一节点n-1的状态值函数:。
81.在步骤s25中,检查是否已经考虑了数量n个轨迹节点。数量n是预定参数,并且对应于针对轨迹时间范围所考虑的时间步的数量。在具有随机转移函数的非常复杂的环境中,在状态s
t
中执行动作a可能导致不同的所得状态s
t 1
,较高的n可能给出对v函数的更好估计。然而,针对大的n进行迭代也需要更多的运行时间。如果是肯定的(备选:是),则该过程通过步骤s22而继续。否则(备选:否),该过程以步骤s26继续。
82.在步骤s26中,运动策略被更新如下:运动策略被更新如下:对应于预定的随机运动策略参数——较高的意味着更集中的策略,其具有次优动作的较小概率。
83.在给定目标状态sg——其是轨迹的最终状态——的情况下,后向传递使用当前奖励函数参数来计算中的每个状态s的状态值函数v(s)。
84.然后,计算在下达到中的sg的随机运动策略,并且在前向传递中使用该随机运动策略,以对从s0(的初始状态)到目标状态sg的若干个轨迹进行仿真。
85.结合图5的流程图来详细解释前向传递过程。该过程附加地由以下伪代码来说明:
86.在随后的前向传递过程中,根据在先前后向传递过程中学习到的策略来传播初始分布。d(s)被定义为预期状态访问计数,该预期状态访问计数是表达在时间步n下处于某个状态s的概率的量。
87.在步骤s31(第2行)中,将访问计数d(s)的所有元素设置为0。
88.在第3行中,开始一循环,其根据由前面的后向传递过程确定的策略来开发从初始状态到目标状态的所考虑的轨迹,从而开发访问计数图d(s),该访问计数图d(s)针对给定图中的每个状态指示相关联轨迹的轨迹命中数量。
89.以初始状态开始,在步骤s32(第6行)中,使实际状态的访问计数递增。
90.在步骤s33(第7行)中,基于所确定的策略来确定下一个状态。
91.在步骤s34中,检查是否达到目标状态。如果是肯定的(备选:是),则该过程以步骤s35继续,否则(备选:否),该过程返回到步骤s32,从而考虑下一个状态。
92.在步骤s35中,根据下式来更新预期平均特征计数:。
93.因此,预期平均特征计数被计算为通过取决于当前奖励函数参数()生成的轨迹所累积的特征的平均数量。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献