一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于多智能体深度强化学习的水厂取水泵站节能调度方法

2023-01-16 22:08:26 来源:中国专利 TAG:

技术特征:
1.一种基于多智能体深度强化学习的水厂取水泵站节能调度方法,其特征在于,包括如下步骤:步骤1:在维持蓄水池液位、总管压强差、水泵切换次数在安全范围的前提下,将取水泵站总能耗最小化问题建模为马尔可夫博弈,并设计马尔可夫博弈相应的环境状态、行为、以及奖励函数,构建关于取水泵站系统的多智能体;步骤2:利用历史运行数据和长短期记忆网络构建取水泵站调度环境模型;步骤3:基于取水泵站调度环境模型和多智能体行动者-注意力-评论家强化学习算法对多智能体进行深度强化学习训练;步骤4:将训练得到的多智能体策略部署到实际取水泵站系统中。2.根据权利要求1所述的一种基于多智能体深度强化学习的水厂取水泵站节能调度方法,其特征在于,所述取水泵站总能耗最小化问题的表达式如下:式中,为时隙取水泵站的总能源消耗,,表示优化时隙总数;为期望算子;为时隙取水泵站的变频泵工作频率或定频泵状态;为时隙蓄水池液面高度,和为蓄水池安全范围的最低和最高液位;为时隙取水泵站总管压强,为时隙取水泵站总管压强,为安全范围内的最高总管压强差,为表示截止到时隙取水泵站在一天内的切换次数,为取水泵站在一天内安全范围内的最高切换次数。3.根据权利要求2所述的一种基于多智能体深度强化学习的水厂取水泵站节能调度方法,其特征在于,所述马尔可夫博弈中环境状态的表达式如下:式中,,取1,2,

,,表示需要控制的水泵数目,同时也为马尔可夫博弈中智能体的总个数,每个智能体负责控制1个取水泵;其中:为多智能体在时隙的环境状态,表示第个定频泵智能体或变频泵智能体的本地观测状态,为时隙的当前绝对时间在一天内的相对时间序号,为时隙蓄水池液面高度,为时隙取水泵站总管压强,为时隙蓄水池借水量,为时隙蓄水池供水量,为截止到时隙取水泵站在一天内的切换次数,为智能体所控制的水泵在时隙开
关状态。4.根据权利要求3所述的一种基于多智能体深度强化学习的水厂取水泵站节能调度方法,其特征在于,所述马尔可夫博弈中行为的表达式如下:的表达式如下:式中,表示需要控制的水泵数目,为整数,取1,2,

,;其中,当时,为小于的整数,智能体为定频泵,为定频泵在时隙的开关状态,当时,定频泵智能体关闭,定频泵智能体开启;当时,智能体为变频泵,,为变频泵在时隙的频率的增减情况,表示频率泵关闭,和分别表示变频泵频率减少和增大,,表示变频泵频率不变。5.根据权利要求4所述的一种基于多智能体深度强化学习的水厂取水泵站节能调度方法,其特征在于,所述马尔可夫博弈中奖励函数表达式如下:式中,为时隙末用于控制每个取水泵的智能体所接收到的奖励,其中:为时隙与取水泵站能耗相关的惩罚成本,为时隙与蓄水池液位违背安全范围相关的惩罚成本,为时隙与违背取水泵站总管压强差安全范围相关的惩罚成本,为时隙与取水泵站组合切换代价相关的惩罚成本,为时隙与取水泵站组合切换次数违背安全范围导致的惩罚;为蓄水池液位违背安全范围导致的惩罚相对于能耗相关的惩罚成本的重要性系数,为总管压强差违背安全范围导致的惩罚相对于能耗相关的惩罚成本的重要性系数,为切换取水泵站导致的惩罚相对于能耗相关的惩罚成本的重要性系数,为取水泵站切换次数违背安全范围导致的惩罚相对于能耗相关的惩罚成本的重要性系数。6.根据权利要求5所述的一种基于多智能体深度强化学习的水厂取水泵站节能调度方法,其特征在于,所述取水泵站调度环境模型构建如下:
式中,,为时隙蓄水池液面高度,为时隙取水泵站总管压强, 为时隙取水泵站的能源消耗,为时隙蓄水池借水量,为时隙蓄水池供水量,为利用真实历史运行数据训练得到的能源消耗预测长短期记忆网络,为利用真实历史运行数据训练得到的液位预测长短期记忆网络,为利用真实历史运行数据训练得到的总管压强预测长短期记忆网络。7.根据权利要求5所述的一种基于多智能体深度强化学习的水厂取水泵站节能调度方法,其特征在于,所述关于取水泵站系统的多智能体包括:智能体数量与水泵数量相等,每个水泵由1个智能体进行控制;每个智能体内部包含1个行动者网络、1个目标行动者网络、1个评论家网络、1个目标评论家网络、1个注意力网络;每个智能体的行动者网络和目标行动者网络的结构相同,每个智能体的评论者网络和目标评论者网络的结构相同。8.根据权利要求7所述的一种基于多智能体深度强化学习的水厂取水泵站节能调度方法,其特征在于,智能体行动者网络输入为,行动者网络输出为;每个智能体内部的评论家网络包含3个感知机模块,分别为第一感知机模块、第二感知机模块和第三感知机模块;其中:第一感知机模块的输入是本地观测状态,经过第一感知机模块后输出得到观测状态编码值;第二感知机模块的输入是本地观测状态和行为,输出是观测状态和行为的联合编码值;所有智能体的评论家网络中第二感知机模块输出作为注意力网络的输入;注意力网络返回其他智能体对当前智能体的贡献,所述贡献和第一感知机模块的输出作为第三感知机模块的输入,第三感知机模块的输出是当前所有智能体的状态行为值函数,表示所有智能体评论家网络的共享权重参数,表示智能体的多层感知机;注意力网络内部具有个结构相同的子网络,对应个智能体;子网络输入包含所有智能体评论家网络中第二感知机模块的输出,子网络输出为所有其他智能体对智能体的贡献值;所述贡献值是其他所有智能体的评论家网络中第二感知机模块的输出值经过线性变换送入到单层感知机后所得输出的加权和,即:,其中:加权系数反映了智能体的评论家网络中第二感知机模块输出值和其他智能体的评论家网络中第二感知机模块输出值之间的相似性,是一个共享矩阵,是leaky relu激活函数。9.根据权利要求7所述的一种基于多智能体深度强化学习的水厂取水泵站节能调度方法,其特征在于,多智能体的深度强化学习训练过程包含如下步骤:步骤4.1:根据取水泵站的历史运行数据,获得当前环境状态;步骤4.2:每个智能体的行动者网络根据所述当前环境状态,输出每个取水泵的当前行
为;步骤4.3:根据所述当前环境状态和当前行为,利用取水泵站调度环境模型得到该状态与行为下的能耗,下一时隙液位和下一时隙总管压强,并利用这些信息重新构建下一时隙的环境状态和奖励;步骤4.4:将当前环境状态、当前行为、下一时隙环境状态、下一时隙奖励发送至经验池中;步骤4.5:如果需要对智能体内部行动者网络的深度神经网络的权重参数进行更新,则从经验池中提取小批量训练样本,利用多智能体行动者-注意力-评论家强化学习算法先对评论家网络进行权重更新,然后对行动者网络进行更新;步骤4.6:智能体深度神经网络权重参数更新完毕后判断训练过程是否结束,如果未结束,则流程跳转至步骤4.1,否则,训练过程终止,并将训练得到的各个行动者网络将作为对应智能体的最优策略用于实际取水泵站的控制部署。10.根据权利要求9所述的一种基于多智能体深度强化学习的水厂取水泵站节能调度方法,其特征在于,评论家网络的权重更新采用联合损失函数最小化方法,所述联合损失函数计算公式如下:其中:为联合损失函数,为经验池,用于存储;代表期望运算,表示折扣系数;表示所有目标行动者网络的参数矢量,即:,其中:表示智能体的目标行动者网络参数;和表示所有智能体评论家网络和目标评论家网络的共享权重参数,是平衡最大化熵和最大化奖励之间的温度参数;代表选取的动作服从目标行动者网络策略时的期望值,代表目标行动者网络的策略,表示智能体总数;表示评论家网络状态行为值函数;表示目标评论家网络下一时隙状态行为值函数;当前奖励;所述行动者网络的权重更新采用梯度上升法,梯度更新计算公式如下:式中:表示智能体行动者网络的策略函数,为除了以外其他智能体行为的平均价值;代表行动者网络的梯度,代表选取的动作服从行动者网络策略时的期望值,表示对对数函数求偏导。

技术总结
本发明公开了一种基于多智能体深度强化学习的水厂取水泵站节能调度方法,包括以下步骤:(1)在维持蓄水池液位、总管压强差、水泵切换次数在安全范围的前提下,将水厂取水泵站总能耗最小化问题建模为马尔可夫博弈,并设计相应的环境状态、行为、以及奖励函数;(2)利用历史运行数据和长短期记忆网络构建取水泵站调度环境模型;(3)基于调度环境模型和多智能体行动者-注意力-评论家强化学习算法对深度强化学习智能体进行训练;(4)将训练得到的智能体策略部署到实际系统中。与现有方法相比,本发明提出的方法具有更强的系统安全维护能力、节能潜力(高达12.8%)以及通用性。节能潜力(高达12.8%)以及通用性。节能潜力(高达12.8%)以及通用性。


技术研发人员:余亮 檀洋阳 李澳 王冬生
受保护的技术使用者:南京邮电大学
技术研发日:2022.11.23
技术公布日:2022/12/30
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献