一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

多车辆路径规划方法及装置

2022-12-13 20:26:00 来源:中国专利 TAG:

技术特征:
1.一种多车辆路径规划方法,其特征在于,用于规划多车辆访问多站点的路径,所述多站点包括待派送站点和待捡收站点,所述方法包括:调度步骤,利用预先训练的策略模型计算未被访问的站点的备选概率值,所述策略模型的输入包括每个站点的嵌入表征向量和全局表征向量,输出为去往每个站点以及停留原地的备选概率值;将备选概率值最大的动作分配给当前被调度车辆,作为当前被调度车辆的下一步动作;更新步骤,根据下一步动作对应的站点的货物量更新当前被调度车辆的剩余容量和每个站点的访问状态;判断步骤,判断是否存在未被访问的站点,如果存在未被访问的站点,返回所述调度步骤,如果不存在未被访问的站点,转向策略输出步骤;所述策略输出步骤,根据为每个车辆分配的站点输出路径规划策略,所述路径规划策略包括每一车辆访问站点的顺序。2.根据权利要求1所述的多车辆路径规划方法,其特征在于,还包括训练所述策略模型的步骤,训练所述策略模型的步骤包括:获取步骤,获取多组训练数据,每组所述训练数据包括每个站点的位置、每个站点待投递的货物数量、每个站点待拾取的货物数量、货物的起始地和目的地、车辆的容量以及车辆的数目;初始化步骤,初始化策略模型的参数;训练步骤,搭建策略网络模型,将所述多组训练数据输入所述策略网络模型,输出与每组训练数据对应的派送策略序列以及每个派送策略中各客户站点被选取的概率;利用所述派送策略序列计算所有车辆的总路程,以及局部解对应的局部路程;计算所述派送策略序列的评估值函数网络模型,所述评估值函数网络模型的输入为所述派送策略序列的每步局部解,输出为每步局部评估值;基于值函数更新所述策略模型和所述评估值函数;重复所述训练步骤n次后,保存策略模型,n为正整数。3.根据权利要求2所述的多车辆路径规划方法,其特征在于,所述基于值函数更新所述策略模型和所述评估值函数包括:计算所述策略模型和所述评估值函数的损失函数l;对所述损失函数l求梯度;利用梯度下降法更新所述策略模型和所述评估值函数的参数。4.根据权利要求1所述的多车辆路径规划方法,其特征在于,所述调度步骤还包括:将货物量超过当前被调度车辆的剩余容量的站点设为无法访问的站点。5.根据权利要求1所述的多车辆路径规划方法,其特征在于,所述更新步骤包括:根据分配给当前被调度车辆的站点的待派送货物量或待捡收货物量以及当前被调度车辆的当前容量更新当前被调度车辆的剩余容量。6.根据权利要求1所述的多车辆路径规划方法,其特征在于,所述待派送站点与所述待捡收站点一一对应,若所述待捡收站点未被访问,则对应的待派送站点为无法访问的站点,所述将备选概率值最大的动作分配给当前被调度车辆包括:删除无法访问的站点,将前往剩余站点和停留原地中备选概率值最大的动作分配给当前被调度车辆。
7.根据权利要求1所述的多车辆路径规划方法,其特征在于,当多个车辆被分配同一站点时,指派备选概率值最大的车辆前往该站点,其他车辆保留在原地。8.一种多车辆路径规划装置,其特征在于,用于规划多车辆访问多站点的路径,所述多站点包括待派送站点和待捡收站点,所述装置包括:调度模块,用于利用预先训练的策略模型计算未被访问的站点的备选概率值,所述策略模型的输入包括每个站点的嵌入表征向量和全局表征向量,输出为去往每个站点以及停留原地的备选概率值;将备选概率值最大的动作分配给当前被调度车辆,作为当前被调度车辆的下一步动作;更新模块,用于根据下一步动作对应的站点的货物量更新当前被调度车辆的剩余容量和每个站点的访问状态;判断模块,用于判断是否存在未被访问的站点,如果存在未被访问的站点,返回所述调度模块,如果不存在未被访问的站点,转向策略输出模块;所述策略输出模块,用于根据为每个车辆分配的站点输出路径规划策略,所述路径规划策略包括每一车辆访问站点的顺序。9.根据权利要求8所述的多车辆路径规划装置,其特征在于,所述装置还包括训练模块,用于训练所述策略模型,所述训练模块包括:获取子模块,用于获取多组训练数据,每组所述训练数据包括每个站点的位置、每个站点待投递的货物数量、每个站点待拾取的货物数量、货物的起始地和目的地、车辆的容量以及车辆的数目;初始化子模块,用于初始化策略模型的参数;训练子模块,用于搭建策略网络模型,将所述多组训练数据输入所述策略网络模型,输出与每组训练数据对应的派送策略序列以及每个派送策略中各客户站点被选取的概率;利用所述派送策略序列计算所有车辆的总路程,以及局部解对应的局部路程;计算所述派送策略序列的评估值函数网络模型,所述评估值函数网络模型的输入为所述派送策略序列的每步局部解,输出为每步局部评估值;基于值函数更新所述策略模型和所述评估值函数;保存子模块,用于在所述训练子模块训练n次后,保存策略模型,n为正整数。10.根据权利要求9所述的多车辆路径规划装置,其特征在于,所述训练子模块具体用于计算所述策略模型和所述评估值函数的损失函数l;对所述损失函数l求梯度;利用梯度下降法更新所述策略模型和所述评估值函数的参数。11.根据权利要求8所述的多车辆路径规划装置,其特征在于,所述调度模块还用于将货物量超过当前被调度车辆的剩余容量的站点设为无法访问的站点。12.根据权利要求8所述的多车辆路径规划装置,其特征在于,所述更新模块具体用于根据分配给当前被调度车辆的站点的待派送货物量或待捡收货物量以及当前被调度车辆的当前容量更新当前被调度车辆的剩余容量。13.根据权利要求8所述的多车辆路径规划装置,其特征在于,所述待派送站点与所述待捡收站点一一对应,若所述待捡收站点未被访问,则对应的待派送站点为无法访问的站点,所述调度模块具体用于删除无法访问的站点,将前往剩余站点和停留原地中备选概率值最大的动作分配给当前被调度车辆。

技术总结
本发明提供一种多车辆路径规划方法及装置,属于车辆路径规划技术领域。方法包括:调度步骤,按照调度顺序确定当前被调度车辆,利用策略模型计算未被访问的站点的备选概率值,将备选概率值最大的动作分配给当前被调度车辆,作为当前被调度车辆的下一步动作;更新步骤,根据下一步动作对应的站点的货物量更新当前被调度车辆的剩余容量和每个站点的访问状态;判断步骤,判断是否存在未被访问的站点,如果存在未被访问的站点,返回调度步骤,如果不存在未被访问的站点,转向策略输出步骤;策略输出步骤,根据为每个车辆分配的站点输出路径规划策略,路径规划策略包括每一车辆访问站点的顺序。本发明能够提高路径规划策略的生成速度。度。度。


技术研发人员:李勇 宗泽方 陈锦炜 郑萌 庄云麟 耿璐
受保护的技术使用者:清华大学
技术研发日:2021.06.10
技术公布日:2022/12/12
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献