一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

多机器人协同避障方法、装置和智能机器人与流程

2021-09-25 01:55:00 来源:中国专利 TAG:协同 机器人 装置 可读 人和

技术特征:
1.一种多机器人协同避障方法,其特征在于,包括:在执行完上一动作后,通过预设回报函数获取反馈回报;获取机器人的自身状态数据并发送至同路径任务的至少一个协同机器人,并接收至少一个所述协同机器人的协同状态数据;将所述反馈回报、所述自身状态数据以及所述协同状态数据输入至预设强化学习算法的协同避障模型,获得下一动作。2.根据权利要求1所述的多机器人协同避障方法,其特征在于,所述自身状态数据和所述协同状态数据包括目标点位置数据以及相应机器人的位置数据、速度数据、对应静态障碍物的位置数据、对应动态障碍物的位置数据。3.根据权利要求1所述的多机器人协同避障方法,其特征在于,所述预设强化学习算法为深度确定性策略梯度法,所述协同避障模型包括值函数网络以及策略网络;所述将所述反馈回报、所述自身状态数据以及所述协同状态数据输入至预设强化学习算法的协同避障模型,获得下一动作包括:将所述反馈回报、所述自身状态数据以及所述协同状态数据输入至所述值函数网络,获得相应的评估信息;根据所述评估信息对所述策略网络进行更新运算;从更新运算后的所述策略网络获得所述下一动作。4.根据权利要求2所述的多机器人协同避障方法,其特征在于,还包括:在执行所述下一动作后,获取机器人相应的新的自身状态数据,将所述下一动作、所述新的自身状态数据、所述上一动作的所述反馈回报以及所述上一动作的所述自身状态数据关联为状态转移数据,并存储至预设的经验回放池。5.根据权利要求4所述的多机器人协同避障方法,其特征在于,还包括:从所述经验回放池中筛选出预设数量的所述反馈回报大于或等于预设回报值的目标状态转移数据;将预设数量的所述目标状态转移数据作为训练样本,对所述协同避障模型进行训练。6.根据权利要求2所述的多机器人协同避障方法,其特征在于,所述动态障碍物为基于比例引导法的动态追踪障碍物。7.根据权利要求1所述的多机器人协同避障方法,其特征在于,所述预设回报函数的算式包括:式中,为所述反馈回报,为距离回报函数,为协同回报,为绕开障碍物回报,为路径任务成功回报,为路径任务失败回报。8.一种多机器人协同避障装置,其特征在于,包括:反馈回报获取模块,用于在执行完上一动作后,通过预设回报函数获取反馈回报;状态数据获取模块,用于获取机器人的自身状态数据并发送至同路径任务的至少一个协同机器人,并接收至少一个所述协同机器人的协同状态数据;协同避障动作获取模块,用于将所述反馈回报、所述自身状态数据以及所述协同状态数据输入至预设强化学习算法的协同避障模型,获得下一动作。
9.一种智能机器人,其特征在于,包括存储器以及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器上运行时执行根据权利要求1至7中任一项所述的多机器人协同避障方法。10.一种可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序在处理器上运行时执行权利要求1至7中任一项所述的多机器人协同避障方法。

技术总结
本发明提供一种多机器人协同避障方法、装置和智能机器人,该多机器人协同避障方法包括:在执行完上一动作后,通过预设回报函数获取反馈回报;获取机器人的自身状态数据并发送至同路径任务的至少一个协同机器人,并接收至少一个所述协同机器人的协同状态数据;将所述反馈回报、所述自身状态数据以及所述协同状态数据输入至预设强化学习算法的协同避障模型,获得下一动作。本发明的多机器人协同避障方法,通过获取自身状态数据以及其它智能机器人的协同状态数据,实现多个智能机器人执行相同的路径任务时,可协同路径规划并保持协同关系,使协同避障模型的下一动作避障成功率更高,提高多个智能机器人执行相同的路径任务的效率,提高用户体验度。提高用户体验度。提高用户体验度。


技术研发人员:宋佳 罗雨歇 赵凯 徐小蔚 童心迪
受保护的技术使用者:北京航空航天大学
技术研发日:2021.08.25
技术公布日:2021/9/24
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜