一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

路径规划模型的训练、路径规划方法、装置及电子设备与流程

2021-10-09 16:12:00 来源:中国专利 TAG:路径 规划 电子设备 装置 模型

技术特征:
1.一种路径规划模型的训练方法,其特征在于,包括:获取样本数据以及剩余决策次数,所述样本数据包括当前时刻的环境状态以及损失计算参数,所述损失计算参数用于损失函数的计算;将所述当前时刻的环境状态以及所述剩余决策次数输入路径规划模型,并利用所述剩余决策次数对所述路径规划模型预测结果中的非空动作进行约束,以输出当前时刻的执行动作并更新所述剩余决策次数,所述路径规划模型是基于强化学习模型建立的;根据所述当前时刻的执行动作以及所述损失计算参数进行损失函数的计算,并基于计算结果更新所述路径规划模型的参数,以确定目标路径规划模型。2.根据权利要求1所述的训练方法,其特征在于,所述路径规划模型包括策略网络以及价值网络,所述将所述当前时刻的环境状态以及所述剩余决策次数输入路径规划模型,并利用所述剩余决策次数对所述路径规划模型预测结果中的非空动作进行约束,以输出当前时刻的执行动作,包括:将所述为当前时刻的环境状态输入所述策略网络的第一全连接层进行非线性转换,得到预测结果,所述预测结果包括非空动作以及空动作;将所述剩余决策次数与所述预测结果进行融合;基于融合结果确定所述当前时刻的执行动作。3.根据权利要求2所述的训练方法,其特征在于,所述将所述剩余决策次数与所述预测结果进行融合,包括:对所述剩余决策次数进行编码,得到决策约束特征;将所述决策约束特征输入所述策略网络的第二全连接层进行非线性转换,并将所述第二全连接层的输出与所述非空动作的值相乘;将相乘结果与所述空动作的值进行拼接,得到所述融合结果。4.根据权利要求3所述的训练方法,其特征在于,所述将所述为当前时刻的环境状态输入所述策略网络的第一全连接层进行非线性转换,得到预测结果,包括:利用所述第一全连接层中带偏置项的激活函数对所述当前时刻的环境状态进行计算,并将计算结果与预设值相加,以得到所述预测结果。5.根据权利要求3或4所述的训练方法,其特征在于,所述将所述为当前时刻的环境状态输入所述策略网络的第一全连接层进行非线性转换,还得到预测结果,包括:利用所述当前时刻的环境状态,计算目标体与障碍物的位置参数,所述位置参数包括相对距离与方位角;将所述位置参数输入所述第一全连接层进行非线性转换,得到所述预测结果。6.根据权利要求1所述的训练方法,其特征在于,所述获取样本数据,包括:初始化预设路径规划模型,得到所述路径规划模型;将初始环境状态以及决策次数输入所述路径规划模型中,并利用所述决策次数对所述路径规划模型非空动作进行约束,以输出当前状态的动作;执行所述当前状态的动作确定更新后的初始环境状态,并获得对应的奖励值,并保存所述初始环境状态、所述当前状态的动作、所述奖励值以及所述更新后的初始环境状态,以确定所述样本数据。7.根据权利要求6所述的训练方法,其特征在于,所述获得对应的奖励值,包括:
当目标体未到达目标点且未碰撞到障碍物,确定所述奖励值为零;当所述目标体到达所述目标点且未碰撞到障碍物,确定所述奖励值为正向奖励;当所述目标体碰撞到障碍物无法到达所述目标点,确定所述奖励值为负向奖励。8.一种路径规划方法,其特征在于,包括:获取预设决策次数以及目标体的当前环境状态;将所述预设决策次数以及所述当前环境状态输入目标路径规划模型中,并利用所述预设决策次数对所述目标路径规划模型预测结果中的非空动作进行约束,以得到当前时刻的动作并更新所述预设决策次数,所述目标路径规划模型是基于强化学习模型建立的;执行所述当前时刻的动作并更新所述目标体的当前环境状态,以控制所述目标体在所述预设决策次数内达到目标点。9.一种路径规划模型的训练装置,其特征在于,包括:第一获取模块,用于获取样本数据以及剩余决策次数,所述样本数据包括当前时刻的环境状态以及损失计算参数;第一决策模块,用于将所述样本数据以及所述剩余决策次数输入路径规划模型中,并利用所述剩余决策次数对所述路径规划模型预测结果中的非空动作进行约束,以输出当前时刻的执行动作并更新所述剩余决策次数,所述路径规划模型是基于强化学习模型建立的;更新模块,用于根据所述当前时刻的执行动作进行损失函数的计算,并基于计算结果更新所述路径规划模型的参数,以确定目标路径规划模型。10.一种路径规划装置,其特征在于,包括:第二获取模块,用于获取预测决策次数以及目标体的当前环境状态;第二决策模块,用于将所述预测决策次数以及所述当前环境状态输入目标路径规划模型中,并利用所述预设决策次数对所述目标路径规划模型预测结果中的非空动作进行约束,以得到当前时刻的动作并更新所述预设决策次数,所述目标路径规划模型是基于强化学习模型建立的;执行模块,用于执行所述当前时刻的动作并更新所述目标体的当前环境状态,以控制所述目标体在所述预设决策次数内达到目标点。11.一种电子设备,其特征在于,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1

7中任一项所述的路径规划模型的训练方法,或者执行权利要求8所述的路径规划方法。12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行权利要求1

7中任一项所述的路径规划模型的训练方法,或执行权利要求8所述的路径规划方法。

技术总结
本发明实施例涉及强化学习技术领域,具体涉及路径规划模型的训练、路径规划方法、装置及电子设备,其中,所述训练方法包括:获取样本数据以及剩余决策次数,所述样本数据包括当前时刻的环境状态以及损失计算参数;将当前时刻的环境状态以及剩余决策次数输入路径规划模型,并利用剩余决策次数对路径规划模型预测结果中的非空动作进行约束,以输出当前时刻的执行动作并更新所述剩余决策次数,所述路径规划模型是基于强化学习模型建立的;根据当前时刻的执行动作以及损失计算参数进行损失函数的计算,并基于计算结果更新路径规划模型的参数,以确定目标路径规划模型。将决策次数作为约束条件,使得训练得到的目标路径规划模型能够应用在决策次数受限的场景下。够应用在决策次数受限的场景下。够应用在决策次数受限的场景下。


技术研发人员:徐博 成芳娟 张鸿铭 王燕娜
受保护的技术使用者:中国科学院自动化研究所
技术研发日:2021.09.06
技术公布日:2021/10/8
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜