一种基于强化学习的考虑配送时效性和充电需求的电动物流车队路径规划方法与流程

2021-11-05 19:23:00 来源：中国专利 TAG：

技术特征：
1.一种基于强化学习的考虑配送时效性以及充电需求的电动物流车队路径规划方法，其特征在于，包括以下步骤：s1：设立智能体与交互环境，将派单模式建立成部分可观测的马尔科夫决策过程(partially observable markov decision process，pomdp)，基于车辆信息与部分环境信息设定智能体状态s；将电动物流车的每项决策建立成不同的订单类型，把规划与调度问题转化成派单问题，设定动作空间a；根据车辆上的货物配送信息及订单类型来设计奖励机制r。s2：设计平台在同一时间内的派单机制，在同一个时间内，每个区域内智能体根据状态动作价值表q(s,a)与订单选择的可行表，按照轮次进行选单。车辆首先选出当前一轮内车辆可以选择的所有订单；其次车辆按照最大的状态行为价值选择相应的订单，如果不同车辆选择同一个订单，则由有最高状态行为价值的车辆进行选单；最后未选择订单的车辆进入下一轮选单，订单类别剔除已被选择的订单。s3：根据可行区域建立模型，根据订单信息处理数据，采用神经网络来拟合智能体的状态价值。基于建立的pomdp模型，输入处理后的订单数据，智能体根据状态行为价值以及构建的派单方法选择订单执行，更新智能体与环境的状态。采集需要规划的多个智能体与环境交互的历史信息存入经验回访池，再从中进行采样来训练神经网络。2.如权利要求1所述的方法，步骤s1中所述的奖励机制设置方法其特征在于：配送订单与车辆空闲状态下的调度订单是部分重合的，通过设置不同的奖励将两种类型的订单区分开来。3.如权利要求1所述的方法，步骤s1中所述的订单建模的方法，其特征在于：对照真实的物流订单信息，将智能体在下一时刻的所有动作—继续配送货物、充电、车辆调度至另一区域，都建立成订单模型，将物流的路径规划问题以及电动汽车充电决策问题都转化为订单调度问题。4.如权利要求1所述的方法，步骤s1中所述的奖励机制设置方法其特征在于：对于每个智能体，根据车上已有的货物信息，获得可以准时送达所有货物的配送顺序或者超时赔付最少的货物配送顺序，按照配送的顺序来确定调度订单中的配送订单。

技术总结
本发明公开了一种面向电动出租车队与换电运营商的低碳运行方法，从换电站运营商与电动出租车队运营商协同运行的角度进行考虑，从而对电动出租车队运行调度以及电池充电进行决策。本发明将分为电动出租车队运营商决策与换电站运营商决策两部分；电动出租车队运营商在满足乘客需求的前提下，以最小化车队运行时的碳排放量为目标函数，根据网络流模型决策出最优的换电位置与换电时间；换电站运营商在满足电动汽车车队换电需求的前提下最小化充电时的碳排放量，决策出何时选择哪个电量状态的电池去充电，何时将电池从充电桩上卸下来以及在每个时刻各个充电桩的充电功率。该发明能显著提高计算效率，通过响应分时电价，提高运营商的经济效益。商的经济效益。

技术研发人员：ꢀ(51)Int.Cl.G06Q10/04
受保护的技术使用者：华北电力大学
技术研发日：2021.05.07
技术公布日：2021/11/4

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种基于强化学习的考虑配送时效性和充电需求的电动物流车队路径规划方法与流程

相关文献

最热文献