矿车调度模型训练方法、装置、芯片、终端、设备及介质与流程

2022-11-12 20:13:22 来源：中国专利 TAG：

技术特征：
1.一种矿车调度模型训练方法，应用于矿车调度模型训练装置中，其特征在于，所述矿车调度模型训练装置包括调度智能体和交互环境，所述交互环境包括仿真系统和人工系统，所述方法包括：s1：获取所述仿真系统中的矿区生产信息和所述人工系统中的时间节点信息，并根据所述矿区生产信息和所述时间节点信息，生成调度状态信息；s2：通过预设的强化学习算法，根据所述调度状态信息，在预设的调度指令集合中选取出目标调度指令，并将所述目标调度指令发送至所述仿真系统，以使所述仿真系统根据所述目标调度指令更新所述矿区生产信息；s3：通过预设的混合奖励函数，基于所述更新后的矿区生产信息和所述时间节点信息，生成所述目标调度指令的动作奖励，应用所述动作奖励在所述调度指令集合中选取优化后的目标调度指令，重复执行步骤s1至步骤s3，不断选取优化后的目标调度指令，并将所述优化后的目标调度指令发送至所述仿真系统，以使所述仿真系统根据所述优化后的目标调度指令更新所述矿区生产信息；s4：统计预设时间段内的所述仿真系统中的矿区产量信息，计算智能体性能指标，并在所述智能体性能指标达到预设条件时，结束矿车调度模型的训练。2.根据权利要求1所述的方法，其特征在于，在所述获取所述仿真系统中的矿区生产信息和所述人工系统中的时间节点信息之前，所述方法还包括：在所述仿真系统中模拟生成所述矿区生产信息，其中，所述矿区生产信息包括仿真路网信息、至少一个仿真装载设备、每个所述仿真装载设备的设备信息和设备状态、至少一个仿真卸载设备、每个所述仿真卸载设备的设备信息和设备状态、至少一个仿真矿车、每个所述仿真矿车的车辆信息和车辆状态、以及每个所述仿真装载设备和每个所述仿真卸载设备之间的行驶时间中的至少一种信息；在所述仿真系统中的仿真矿车发送车辆调度请求时，根据所述矿区生产信息，在所述人工系统中生成针对所述仿真矿车的时间节点信息，其中，所述时间节点信息包括所述调度指令集合中的每个所述调度指令对应的行驶时间、每个所述调度指令对应的预期等待时间、所述仿真系统中每个仿真装载设备的剩余服务时间，以及仿真系统中每个仿真卸载设备的剩余服务时间中的至少一种信息。3.根据权利要求1或2所述的方法，其特征在于，所述获取所述仿真系统中的矿区生产信息和所述人工系统中的时间节点信息，并根据所述矿区生产信息和所述时间节点信息，生成调度状态信息，包括：在所述仿真系统中的仿真矿车发送车辆调度请求时，获取所述仿真系统中的矿区生产信息和所述人工系统中的时间节点信息，其中，所述车辆调度请求在所述仿真矿车的车辆状态更新为装载完成状态或卸载完成状态时发送；根据所述矿区生产信息和所述人工系统中的时间节点信息，生成针对所述仿真矿车的调度状态信息，其中，所述调度状态信息包括所述仿真矿车的位置信息、所述调度指令集合中的每个调度指令的动作可用性信息、每个所述调度指令对应的行驶时间、每个所述调度指令对应的预期等待时间、所述仿真系统中每个仿真装载设备的剩余服务时间和故障信息，以及仿真系统中每个仿真卸载设备的剩余服务时间和故障信息中的至少一种信息。4.根据权利要求3所述的方法，其特征在于，所述通过预设的强化学习算法，根据所述
调度状态信息，在预设的调度指令集合中选取出目标调度指令，并将所述目标调度指令发送至所述仿真系统，以使所述仿真系统根据所述目标调度指令更新所述矿区生产信息，包括：针对所述调度指令集合中的每个调度指令，通过预设的价值函数，计算每个所述调度指令在所述调度状态信息下的价值数值，其中，所述调度指令由所述仿真矿车的出发地和目的地组成；将数值最大的所述价值数值对应的调度指令确定为目标调度指令，并将所述目标调度指令发送至所述仿真系统中的仿真矿车中；在所述仿真矿车执行完成所述目标调度指令时，更新所述矿区生产信息。5.根据权利要求4所述的方法，其特征在于，所述应用所述动作奖励在所述调度指令集合中选取优化后的目标调度指令，包括：根据所述目标调度指令的动作奖励，对所述价值函数进行更新，得到优化后的价值函数，应用所述优化后的价值函数在所述调度指令集合中选取优化后的目标调度指令。6.根据权利要求2所述的方法，其特征在于，所述混合奖励函数由人工奖励函数和仿真奖励函数组成；则所述通过预设的混合奖励函数，基于所述更新后的矿区生产信息和所述时间节点信息，生成所述目标调度指令的动作奖励，包括：在所述时间节点信息中，提取出所述目标调度指令对应的行驶时间和预期等待时间，并根据所述行驶时间和所述预期等待时间之和，得到所述目标调度指令对应的行程时间；将所述目标调度指令对应的行程时间输入至所述人工奖励函数中，得到所述目标调度指令的人工奖励值；根据所述更新后的矿区生产信息，计算所述目标调度指令从执行开始至执行完成之间的仿真装载设备利用率；将所述仿真装载设备利用率输入至所述仿真奖励函数中，得到所述目标调度指令的仿真奖励值；根据所述人工奖励值和所述仿真奖励值，得到所述目标调度指令的动作奖励。7.根据权利要求6所述的方法，其特征在于，所述根据所述人工奖励值和所述仿真奖励值，得到所述目标调度指令的动作奖励，包括：根据所述更新后的矿区生产信息，计算智能体性能指标，并根据所述智能体性能指标，确定人工奖励权重系数；根据所述人工奖励权重系数，计算仿真奖励权重系数，其中，所述人工奖励权重系数和所述仿真奖励权重系数的和为预设值；根据所述人工奖励权重系数与所述人工奖励值的乘积与所述仿真奖励权重系数与所述仿真奖励值的乘积的和值，得到所述目标调度指令的动作奖励。8.根据权利要求7所述的方法，其特征在于，所述根据所述更新后的矿区生产信息，计算智能体性能指标，并根据所述智能体性能指标，确定人工奖励权重系数，包括：在所述更新后的矿区生产信息中，提取出预设时间段内的矿区产量信息，并将所述预设时间段内的矿区产量信息划分为多个子时间段内的矿区产量信息；对所述多个子时间段内的矿区产量信息进行线性拟合，得到性能指标拟合斜率，并计算所述多个子时间段内的矿区产量信息的平均值，得到性能指标均值；
判断所述性能指标拟合斜率是否小于预设的斜率阈值，并判断所述性能指标均值是否大于预设的性能指标阈值，其中，所述斜率阈值为负值；若所述性能指标拟合斜率小于所述斜率阈值，则对所述人工奖励权重系数进行递增计算；若所述性能指标均值小于等于所述性能指标阈值，则对所述人工奖励权重系数进行递增计算；若所述性能指标均值大于所述性能指标阈值，则对所述人工奖励权重系数进行递减计算。9.根据权利要求1所述的方法，其特征在于，所述统计预设时间段内的所述仿真系统中的矿区产量信息，计算智能体性能指标，并在所述智能体性能指标达到预设条件时，结束矿车调度模型的训练，包括：在所述仿真系统中的矿区生产信息中，提取出预设时间段内的矿区产量信息，并将所述预设时间段内的矿区产量信息划分为多个子时间段内的矿区产量信息；计算所述多个子时间段内的矿区产量信息的平均值，得到性能指标均值，计算所述多个子时间段的矿区产量信息与所述性能指标均值之间的偏差值；当所述偏差值小于预设的偏差阈值时，判定矿车调度模型训练完成，并结束所述矿车调度模型的训练。10.一种矿车调度模型训练装置，其特征在于，所述矿车调度模型训练装置包括调度智能体和交互环境，其中，所述交互环境包括仿真系统和人工系统，所述调度智能体包括：状态模块，用于获取所述仿真系统中的矿区生产信息和所述人工系统中的时间节点信息，并根据所述矿区生产信息和所述时间节点信息，生成调度状态信息；动作模块，用于通过预设的强化学习算法，根据所述调度状态信息，在预设的调度指令集合中选取出目标调度指令，并将所述目标调度指令发送至所述仿真系统，以使所述仿真系统根据所述目标调度指令更新所述矿区生产信息；奖励模块，用于通过预设的混合奖励函数，基于所述更新后的矿区生产信息和所述时间节点信息，生成所述目标调度指令的动作奖励，应用所述动作奖励在所述调度指令集合中选取优化后的目标调度指令，重复执行所述状态模块、所述动作模块和所述奖励模块的步骤，不断选取优化后的目标调度指令，并将所述优化后的目标调度指令发送至所述仿真系统，以使所述仿真系统根据所述优化后的目标调度指令更新所述矿区生产信息；评价模块，统计预设时间段内的所述仿真系统中的矿区产量信息，计算智能体性能指标，并在所述智能体性能指标达到预设条件时，结束矿车调度模型的训练。11.一种芯片，其特征在于，所述芯片包括至少一个处理器和通信接口，所述通信接口和所述至少一个处理器耦合，所述至少一个处理器用于运行计算机程序或指令，以实现如权利要求1-9中任一项所述的矿车调度模型训练方法。12.一种终端，其特征在于，所述终端包括如权利要求10所述的矿车调度模型训练装置。13.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。
14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。

技术总结
本发明公开了一种矿车调度模型训练方法、装置、芯片、终端、设备及介质，涉及车辆调度及智慧矿山技术领域。其中，所述方法应用于矿车调度模型训练装置中，该装置包括调度智能体和交互环境，交互环境包括仿真系统和人工系统，该方法包括：根据仿真系统中的矿区生产信息和人工系统中的时间节点信息，生成调度状态信息；根据调度状态信息，在调度指令集合中选取目标调度指令，将目标调度指令发送至仿真系统；通过混合奖励函数，基于矿区生产信息和时间节点信息，生成目标调度指令的动作奖励；根据矿区产量信息，计算智能体性能指标，在智能体性能指标达到预设条件时，结束矿车调度模型的训练。上述方法能够提高奖励获取的及时性，降低训练时间成本。降低训练时间成本。降低训练时间成本。

技术研发人员：张晓彤史磊石张振良
受保护的技术使用者：青岛慧拓智能机器有限公司
技术研发日：2022.10.14
技术公布日：2022/11/11

再多了解一些

2/2 首页上一页 1 2

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种基于大数据和互联网的信息管理方法

矿车调度模型训练方法、装置、芯片、终端、设备及介质与流程

相关文献

最热文献