一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于强化学习的电力系统仿真调度方法及系统与流程

2022-03-05 03:26:36 来源:中国专利 TAG:

技术特征:
1.一种基于强化学习的电力系统仿真调度方法,其特征在于,该方法是通过电力系统云数据中心采集来自电力系统各参与电力系统单元的数据,利用数字孪生技术形成电力系统模拟仿真环境,并设计强化学习电力系统调度员决策模型π,再根据实际电力系统调度员的情况,采用a3c训练方法与电力系统仿真环境进行交互,最终形成最佳执行策略,最佳执行策略用于辅助电力系统调度员执行决策。2.根据权利要求1所述的基于强化学习的电力系统仿真调度方法,其特征在于,所述电力系统模拟仿真环境运行在电力系统云数据中心,通过对于与各个参与电力系统单元的数据采集及指令控制,实现各个参与电力系统单元的数据孪生运行体;电力系统云数据中心用于提供计算、存储及网络的云基础设施服务,并且运行电力系统的业务系统,手机来自各个参与电力系统单元的传感数据,同时提供强化学习训练所需的算力和存储。3.根据权利要求1所述的基于强化学习的电力系统仿真调度方法,其特征在于,所述强化学习电力系统调度员决策模型π是模拟调度员的实际操作形成的策略模型,通过强化学习训练得到,主体为序列化神经网络模型,根据当前电力系统的电力计划、频率情况、电压情况及检修情况的实际运行情况决定电力系统调度员要执行的调度操作。4.根据权利要求1所述的基于强化学习的电力系统仿真调度方法,其特征在于,强化学习电力系统调度员决策模型π的训练过程具体如下:(1)、收集海量的电力系统运行数据,电力系统运行数包括来自电力系统参与单元的实时状态数据、电力系统运行日志、电力系统调度计划、电力系统故障数据、检修数据以及电力系统调度员调度执行数据的信息;(2)、根据收集的电力系统运行历史数据,构建数字孪生系统,形成电力系统模拟仿真环境;(3)、根据电力系统调度员实际操作,结合电力系统实际操作的上下文状态环境,构建电力系统调度员调度操作指令执行序列exeseq(状态s,操作指令a);(4)、设计强化学习电力系统调度员决策模型π,根据当前电力计划、各参与电力系统单元运行状态、电网频率状况、电压状况、检修情况、事故异常事件及事故拉闸序位表的数据,确定下一步执行调度操作;(5)、根据电力系统调度员调度操作,基于历史数据实际执行效果,结合在电力系统模拟仿真环境,设定电力系统模拟仿真环境的奖励函数;(6)、在电力系统云数据中心申请资源,采用a3c算法训练强化学习电力系统调度员决策模型π,设定worker线程数量、全局共享迭代次数、全局最大迭代次数、状态特征维度及操作指令集的全局参数;(7)、初始化强化学习电力系统调度员决策模型π,设定全局模型公共神经网络,设置电力系统虚拟仿真环境初始化状态s0;其中,全局模型公共神经网络包括actor网络和critic网络;(8)、利用a3c算法,每个worker线程采用actor网络和critic网络结构,独立与电力系统虚拟仿真环境进行交互,执行调度操作获得反馈,并更新本地actor网络和critic网络梯度;(9)、将更新后的结果汇集到全局模型公共神经网络,更新全局模型公共神经网络的模
型参数;(10)、循环执行步骤(8)至步骤(9),直至强化学习电力系统调度员决策模型π收敛,得到最优的强化学习电力系统调度员决策模型π。5.根据权利要求1所述的基于强化学习的电力系统仿真调度方法,其特征在于,最佳执行策略用于辅助电力系统调度员执行决策具体如下:

、利用已经构建的数字孪生系统实时采集当前电力系统的实际运行数据,并实时更新到电力系统虚拟仿真环境;

、利用强化学习训练得到的强化学习电力系统调度员决策模型π,根据当前实际状况,输出下一步调度操作;

、记录当前电力系统虚拟仿真环境状态,强化学习电力系统调度员决策模型π推荐的下一步操作,反馈更新电力系统虚拟仿真环境;

、设定时间段,重复执行步骤

至步骤

,形成电力系统调度员推荐操作序列,用于辅助决策;

、电力系统调度操作员根据推荐操作,结合实际状况进行调度操作;

、电力系统获取实际操作结果,更新当前电力系统的实际运行数据,并实时更新到电力系统虚拟仿真环境,转到步骤



、持续更新运行状态,输出辅助推荐操作。6.根据权利要求1所述的基于强化学习的电力系统仿真调度方法,其特征在于,强化学习电力系统调度员决策模型π的优化过程具体如下:(一)、利用电力系统模拟仿真环境,针对实际每一位电力系统调度员的实际操作,采用强化学习方法训练其个性化强化学习电力系统调度员决策模型;(二)、将电力系统调度员的个性化强化学习电力系统调度员决策模型作为模拟调度员,与电力系统模拟仿真环境进行持续交互,模拟电力系统运行和调度;(三)、评价电力系统调度员个性化强化学习电力系统调度员决策模型的调度结果,并与最佳调度指令执行策略对比,发现其中的调度问题,进而改善调度策略;(四)、根据实际排班情况,在电力系统模拟仿真环境下,模拟全部调度员的调度操作,并与最佳调度指令执行策略对比,发现异常环节,优化调度方式;(五)、根据未来实际排班情况,在电力系统模拟仿真环境下,结合电力系统实际数据,模拟未来时刻电力系统运行和调度,提前发现问题,避免事故发生;(六)、持续收集来自实际电力系统运行及调度的数据,用于优化强化学习电力系统调度员决策模型。7.根据权利要求1所述的基于强化学习的电力系统仿真调度方法,其特征在于,所述参与电力系统单元包括发电系统、输电配电网以及用电负荷;其中,发电系统用于产生电力,包括风力发电、光伏发电、水利发电及核电的清洁能源以及传统的火力发电的化石燃料发电;输电配电网用于保证电力的安全传输;用电负荷指电力的消耗,电力的消耗包括工业负荷、居民负荷、商业负荷。8.根据权利要求1-7中任一所述的基于强化学习的电力系统仿真调度方法,其特征在于,所述电力系统调度操作包括设定机组出力的上限和下限、设定机组长落出力速度的调
整发电机组出力设置以及调整修改电力计划、事故拉闸限电、倒闸操作和设备检修的操作。9.一种基于强化学习的电力系统仿真调度系统,其特征在于,该系统包括,电力系统云数据中心,用于提供计算、存储及网络的云基础设施服务,并且运行电力系统的业务系统,收集来自各个参与电力系统单元的传感数据,并提供强化学习训练所需的算力及存储;强化学习电力系统调度员决策模型π,用于通过通过强化学习训练得到,主体是序列化神经网络模型,根据当前电力系统实际运行情况,决定电力系统调度员要执行的调度操作;其中,当前电力系统实际运行情况包括电力计划、频率情况、电压情况及检修情况;电力系统仿真模拟环境,用于运行在电力系统云数据中心,通过对于各个参与电力系统单元的数据采集及指令控制,实现各个参与电力系统单元的数字孪生运行体。10.根据权利要求9所述的基于强化学习的电力系统仿真调度系统,其特征在于,强化学习电力系统调度员决策模型π的训练过程具体如下:(1)、收集海量的电力系统运行数据,电力系统运行数包括来自电力系统参与单元的实时状态数据、电力系统运行日志、电力系统调度计划、电力系统故障数据、检修数据以及电力系统调度员调度执行数据的信息;(2)、根据收集的电力系统运行历史数据,构建数字孪生系统,形成电力系统模拟仿真环境;(3)、根据电力系统调度员实际操作,结合电力系统实际操作的上下文状态环境,构建电力系统调度员调度操作指令执行序列exeseq(状态s,操作指令a);(4)、设计强化学习电力系统调度员决策模型π,根据当前电力计划、各参与电力系统单元运行状态、电网频率状况、电压状况、检修情况、事故异常事件及事故拉闸序位表的数据,确定下一步执行调度操作;(5)、根据电力系统调度员调度操作,基于历史数据实际执行效果,结合在电力系统模拟仿真环境,设定电力系统模拟仿真环境的奖励函数;(6)、在电力系统云数据中心申请资源,采用a3c算法训练强化学习电力系统调度员决策模型π,设定worker线程数量、全局共享迭代次数、全局最大迭代次数、状态特征维度及操作指令集的全局参数;(7)、初始化强化学习电力系统调度员决策模型π,设定全局模型公共神经网络,设置电力系统虚拟仿真环境初始化状态s0;其中,全局模型公共神经网络包括actor网络和critic网络;(8)、利用a3c算法,每个worker线程采用actor网络和critic网络结构,独立与电力系统虚拟仿真环境进行交互,执行调度操作获得反馈,并更新本地actor网络和critic网络梯度;(9)、将更新后的结果汇集到全局模型公共神经网络,更新全局模型公共神经网络的模型参数;(10)、循环执行步骤(8)至步骤(9),直至强化学习电力系统调度员决策模型π收敛,得到最优的强化学习电力系统调度员决策模型π;强化学习电力系统调度员决策模型π的优化过程具体如下:(一)、利用电力系统模拟仿真环境,针对实际每一位电力系统调度员的实际操作,采用
强化学习方法训练其个性化强化学习电力系统调度员决策模型;(二)、将电力系统调度员的个性化强化学习电力系统调度员决策模型作为模拟调度员,与电力系统模拟仿真环境进行持续交互,模拟电力系统运行和调度;(三)、评价电力系统调度员个性化强化学习电力系统调度员决策模型的调度结果,并与最佳调度指令执行策略对比,发现其中的调度问题,进而改善调度策略;(四)、根据实际排班情况,在电力系统模拟仿真环境下,模拟全部调度员的调度操作,并与最佳调度指令执行策略对比,发现异常环节,优化调度方式;(五)、根据未来实际排班情况,在电力系统模拟仿真环境下,结合电力系统实际数据,模拟未来时刻电力系统运行和调度,提前发现问题,避免事故发生;(六)、持续收集来自实际电力系统运行及调度的数据,用于优化强化学习电力系统调度员决策模型。

技术总结
本发明公开了基于强化学习的电力系统仿真调度方法及系统,属于数字能源、物联网、深度学习和强化学习技术领域,本发明要解决的技术问题为如何有效的利用强化学习技术通过对电力系统的虚拟仿真来模拟真实环境,形成电力系统调度员的准确高效的调度策略,辅助电力调度员决策,避免调度失误造成的不良后果,采用的技术方案为:该方法是通过电力系统云数据中心采集来自电力系统各参与电力系统单元的数据,利用数字孪生技术形成电力系统模拟仿真环境,并设计强化学习电力系统调度员决策模型π,再根据实际电力系统调度员的情况,采用A3C训练方法与电力系统仿真环境进行交互,最终形成最佳执行策略,最佳执行策略用于辅助电力系统调度员执行决策。度员执行决策。度员执行决策。


技术研发人员:孙善宝 王晓利 张晖 罗清彩 张鑫
受保护的技术使用者:山东浪潮科学研究院有限公司
技术研发日:2021.11.12
技术公布日:2022/3/4
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献