基于语义环境图控制移动机器人的计算机实现方法和设备与流程

2022-02-24 20:31:46 来源：中国专利 TAG：

技术特征：
1.一种用于基于占据先验来确定移动机器人的运动轨迹的计算机实现方法，所述占据先验指示动态对象和/或个体（2）在环境（e）图中的存在的概率，其中所述占据先验是通过由奖励函数参数（）定义的奖励函数来确定的；对奖励函数参数（）的确定包括以下步骤：
‑ꢀ
提供（s1）多个（b
m
个）语义图（）；
‑ꢀ
提供（s1）针对所述多个（b
m
个）语义图（）中的每一个的多个（b
t
个）训练轨迹（）；
‑ꢀ
取决于所述多个语义图中的每一个和所述多个训练轨迹（）中的每一个来计算（s6-s13）作为预期平均特征计数（）与经验平均特征计数（）之间的差异的梯度，其中经验平均特征计数（）是在语义图（）的所提供的训练轨迹（）上累积的特征的平均数量，其中预期平均特征计数（）是通过取决于当前奖励函数参数（）生成的轨迹所累积的特征的平均数量；
‑ꢀ
取决于所述梯度来更新（s14）奖励函数参数（）。2.根据权利要求1所述的方法，其中基于多个不同的语义图来迭代地执行对奖励函数参数（）的确定。3.根据权利要求1或2所述的方法，其中所述奖励函数指示物理场景特征在多大程度上影响动态对象和/或个体（2）的动作。4.根据权利要求1至3中任一项所述的方法，其中针对所述多个（b
m
个）语义图中的每一个的训练轨迹中的每一个，预期平均特征计数（）通过后向传递过程和前向传递过程被接续开发。5.根据权利要求4所述的方法，其中后向传递过程被配置成使用当前奖励函数参数（）来计算轨迹从任何初始状态（s0）到所考虑的训练轨迹的目标状态（s
g
）的预期奖励，其中最大熵策略被确定。6.根据权利要求5所述的方法，其中在后向传递中，计算状态值函数，其中借助于softmax函数来开发所述轨迹的状态值函数。7.根据权利要求1至6中任一项所述的方法，其中对于前向传递过程，基于由前面的后向传递过程确定的策略来构建轨迹，同时使用所构建的轨迹来更新针对所构建的轨迹的每个状态（s）的访问计数。8.一种设备、特别是移动机器人（1）的控制单元（11），用于基于占据先验来确定移动机器人（1）的运动轨迹，所述占据先验指示动态对象和/或个体（2）在环境（e）图中的存在的概率，其中所述占据先验是通过由奖励函数参数（）定义的奖励函数来确定的；其中，对于奖励函数参数（）的确定，所述设备被配置成执行以下步骤：
‑ꢀ
提供（s1）多个（b
m
个）语义图（）；
‑ꢀ
提供（s1）针对所述多个（b
m
个）语义图（）中的每一个的多个（b
t
个）训练轨迹（）；
‑ꢀ
取决于所述多个语义图中的每一个和所述多个训练轨迹（）中的每一个来计算（s6-s13）作为预期平均特征计数（）与经验平均特征计数（）之间的差异的梯度，其中经验平均特征计数（）是在语义图（）的所提供的训练轨迹（）上累积的特征的平均数量，其中预期平均特征计数（）是通过取决于当前奖励函数参数（）生成的轨迹所累积的特征
的平均数量；
‑ꢀ
取决于所述梯度来更新（s14）奖励函数参数（）。9.一种机器人设备（1），其包括根据权利要求8的控制单元（11）、以及用于与环境交互的致动单元（12），其中致动单元（12）由控制单元（11）根据所确定的运动轨迹来控制。10.一种包括指令的计算机程序产品，当所述程序由计算机执行时，所述指令使得计算机实行权利要求1至7中任一项的方法的步骤。11.一种包括指令的机器可读介质，所述指令在由计算机执行时使得计算机实行权利要求1至7中任一项的方法的步骤。

技术总结
基于语义环境图控制移动机器人的计算机实现方法和设备。本发明涉及用于基于指示动态对象和/或个体在环境图中存在的概率的占据先验来确定移动机器人的运动轨迹的计算机实现方法，其中占据先验通过奖励函数参数定义的奖励函数确定；奖励函数参数的确定包括步骤：-提供多个语义图；-提供针对多个语义图中的每个的多个训练轨迹；-取决于多个语义图中的每个和多个训练轨迹中的每个来计算作为预期平均特征计数与经验平均特征计数之间的差异的梯度，其中经验平均特征计数是在语义图的所提供的训练轨迹上累积的特征的平均数量，其中预期平均特征计数是通过取决于当前奖励函数参数生成的轨迹所累积的特征的平均数量；-取决于梯度更新奖励函数参数。梯度更新奖励函数参数。梯度更新奖励函数参数。

技术研发人员：A
受保护的技术使用者：罗伯特
技术研发日：2021.08.11
技术公布日：2022/2/23

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

基于语义环境图控制移动机器人的计算机实现方法和设备与流程

相关文献

最热文献