一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

分布式能源系统博弈优化调度方法、系统、设备及介质与流程

2022-11-09 21:23:43 来源:中国专利 TAG:

技术特征:
1.一种分布式能源系统博弈优化调度方法,其特征在于,包括:获取分布式能源系统中各智能体的状态参数;各智能体包含系统运营商智能体、分布式电源运营商智能体和负荷聚合商智能体;基于所述状态参数,进行强化学习构建多主体博弈模型和q值表;采用wolf-phc算法进行智能体训练并更新各智能体的q值表,各智能体基于所述q值表获得各自博弈优化调度的nash均衡解;输出各自博弈优化调度的nash均衡解用于各智能体日前优化调度。2.根据权利要求1所述的分布式能源系统博弈优化调度方法,其特征在于,所述进行强化学习构建多主体博弈模型,包括:状态空间、动作空间的构建以及奖励函数;t时段联合状态空间表示为:式中,p
tpv
,p
tload
和分别为t时段系统内光伏发电功率,负荷功率和电储能储电量;为t-1时段微燃气轮机功率;系统运营商智能体动作空间为:式中,为t时段系统运营商向用户售电电价;为t时段系统运营商向分布式电源运营商购电电价;系统运营商智能体动作空间的约束条件为:系统运营商智能体动作空间的约束条件为:式中,分别为t时段购电价格上下限;分别为t时段售电价格上下限;分布式电源运营商智能体动作空间为:式中,r
t
为t时段微燃气轮机爬坡功率;表示微燃气轮机无功出力;p
tes
、分别表示电储能有功、无功出力;负荷聚合商智能体动作空间仅包含其负荷削减功率p
til
,方法为:系统运营商奖励函数为:r
tso
=c
sell
(t)-c
buy
(t)-c
grid
(t)
ꢀꢀꢀꢀ
(7)式中,c
sell
(t)、c
buy
(t)、c
grid
(t)分别为系统运营商向用户的售电收益、向分布式电源运营商的购电成本、与上级电网交互成本;分布式电源运营商决策变量为微燃气轮机有功、无功出力和电储能有功、无功出力,优化目标为最大化售电收益,奖励函数为:
p
td
=p
tpv
p
tmt
p
tes
ꢀꢀꢀꢀ
(12)式中,p
tpv
、p
tmt
、p
tes
分别为光伏发电功率、微燃气轮机功率和电储能放电功率;c
mt
(t)和c
b
(t)分别为微燃气轮机和电储能运行成本;负荷聚合商的效益函数为:式中,为用户用电效用函数,表示用户购电满意度,采用如式(14)所示二次函数模拟:式中,d、e均为系数;实际负荷需求p
tload
满足:p
tload
=p
tl0-p
til
ꢀꢀꢀꢀ
(15)式中,p
tl0
为固定负荷;p
til
为削减负荷,具有上限约束:式中,为最大可削减负荷。3.根据权利要求2所述的分布式能源系统博弈优化调度方法,其特征在于,所述c
sell
(t)、c
buy
(t)、c
grid
(t)的具体计算方法为:式中,p
tload
为t时段用户实际用电功率;式中,p
td
为t时段分布式电源运营商售出功率.式中,λ
tg,s
和λ
tg,b
分别为上级电网的售电电价和上网电价。4.根据权利要求1所述的分布式能源系统博弈优化调度方法,其特征在于,所述q值表为由状态和动作形成的函数表,表示为:q(s
p
,a
k
)其中,p和k分别代表智能体的状态数和动作数。5.根据权利要求1所述的分布式能源系统博弈优化调度方法,其特征在于,所述采用wolf-phc算法进行智能体训练并更新各智能体的q值表,包括:初始化q值表q
n
(s,a
n
);初始化联合状态空间得到联合状态空间s0;系统运营商智能体、分布式电源运营商智能体和负荷聚合商智能体分别根据ε贪婪策略确定各自的动作空间;根据各智能体决策由各自的奖励函数得到对应的奖励,以及下一时段系统联合运行状态s
t 1
,并更新各智能体q值表;对动作空间进行遍历得到的最大q值。6.根据权利要求5所述的分布式能源系统博弈优化调度方法,其特征在于,所述更新各
智能体q值表,采用以下方法:智能体q值表,采用以下方法:式中,π
n
(s,a
n
)表示智能体n策略,|a
n
|表示智能体n的动作个数,δ表示可变学习速率,可变学习速率采用如下方法得到:可变学习速率采用如下方法得到:式中,δ
w
为智能体表现较好时的学习速率,δ
l
为智能体表现欠佳时的学习速率,且δ
l
>δ
w
;为智能体n平均策略,c(s)表示状态s出现的次数。7.根据权利要求5所述的分布式能源系统博弈优化调度方法,其特征在于,所述对动作空间进行遍历得到的最大q值,包括:判断当前更新步数是否达到t,如果达到t则进入进行下一步,否则返回初始化联合状态空间得到联合状态空间s0步骤;判断当前学习轮数是否达到最大学习轮数m;如果达到m则结束训练,否则返回初始化q值表步骤;根据达到最大学习轮数m的动作空间和状态空间更新所得q值表。8.根据权利要求1所述的分布式能源系统博弈优化调度方法,其特征在于,所述各智能体基于所述q值表获得各自博弈优化调度的nash均衡解,包括:各智能体输出各自nash均衡策略9.根据权利要求1所述的分布式能源系统博弈优化调度方法,其特征在于,所述状态参数包括:分布式能源系统中的光伏、微燃气轮机、电储能的运行参数,及负荷的使用参数。10.一种分布式能源系统博弈优化调度系统,其特征在于,包括:获取模块,用于获取分布式能源系统中各智能体的状态参数;各智能体包含系统运营商智能体、分布式电源运营商智能体和负荷聚合商智能体;构建模块,用于基于所述状态参数,进行强化学习构建多主体博弈模型和q值表;更新模块,用于采用wolf-phc算法进行智能体训练并更新各智能体的q值表,各智能体基于所述q值表获得各自博弈优化调度的nash均衡解;输出模块,用于输出各自博弈优化调度的nash均衡解用于各智能体日前优化调度。11.根据权利要求10所述的分布式能源系统博弈优化调度系统,其特征在于,所述构建模块中,所述进行强化学习构建多主体博弈模型,包括:状态空间、动作空间的构建以及奖励函数;
t时段联合状态空间表示为:式中,p
tpv
,p
tload
和分别为t时段系统内光伏发电功率,负荷功率和电储能储电量;为t-1时段微燃气轮机功率;系统运营商智能体动作空间为:式中,为t时段系统运营商向用户售电电价;为t时段系统运营商向分布式电源运营商购电电价;系统运营商智能体动作空间的约束条件为:系统运营商智能体动作空间的约束条件为:式中,分别为t时段购电价格上下限;分别为t时段售电价格上下限;分布式电源运营商智能体动作空间为:式中,r
t
为t时段微燃气轮机爬坡功率;表示微燃气轮机无功出力;p
tes
、分别表示电储能有功、无功出力;负荷聚合商智能体动作空间仅包含其负荷削减功率p
til
,方法为:系统运营商奖励函数为:r
tso
=c
sell
(t)-c
buy
(t)-c
grid
(t)
ꢀꢀꢀꢀ
(7)式中,c
sell
(t)、c
buy
(t)、c
grid
(t)分别为系统运营商向用户的售电收益、向分布式电源运营商的购电成本、与上级电网交互成本;分布式电源运营商决策变量为微燃气轮机有功、无功出力和电储能有功、无功出力,优化目标为最大化售电收益,奖励函数为:p
td
=p
tpv
p
tmt
p
tes
ꢀꢀꢀꢀ
(12)式中,p
tpv
、p
tmt
、p
tes
分别为光伏发电功率、微燃气轮机功率和电储能放电功率;c
mt
(t)和c
b
(t)分别为微燃气轮机和电储能运行成本;负荷聚合商的效益函数为:式中,为用户用电效用函数,表示用户购电满意度,采用如式(14)所示二次函数模拟:
式中,d、e均为系数;实际负荷需求p
tload
满足:p
tload
=p
tl0-p
til
ꢀꢀꢀꢀ
(15)式中,p
tl0
为固定负荷;p
til
为削减负荷,具有上限约束:式中,为最大可削减负荷。12.根据权利要求10所述的分布式能源系统博弈优化调度系统,其特征在于,所述更新模块中,所述采用wolf-phc算法进行智能体训练并更新各智能体的q值表,包括:初始化q值表q
n
(s,a
n
);初始化联合状态空间得到联合状态空间s0;系统运营商智能体、分布式电源运营商智能体和负荷聚合商智能体分别根据ε贪婪策略确定各自的动作空间;根据各智能体决策由各自的奖励函数得到对应的奖励,以及下一时段系统联合运行状态s
t 1
,并更新各智能体q值表;对动作空间进行遍历得到的最大q值。13.根据权利要求10所述的分布式能源系统博弈优化调度系统,其特征在于,所述更新模块中,所述各智能体基于所述q值表获得各自博弈优化调度的nash均衡解,包括:各智能体输出各自nash均衡策略14.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1-9任一项所述分布式能源系统博弈优化调度方法的步骤。15.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-9任一项所述分布式能源系统博弈优化调度方法的步骤。

技术总结
本发明公开了一种分布式能源系统博弈优化调度方法、系统、设备及介质,包括:获取分布式能源系统中各智能体的状态参数;各智能体包含系统运营商智能体、分布式电源运营商智能体和负荷聚合商智能体;基于所述状态参数,进行强化学习构建多主体博弈模型和Q值表;采用WoLF-PHC算法进行智能体训练并更新各智能体的Q值表,各智能体基于所述Q值表获得各自博弈优化调度的Nash均衡解;输出各自博弈优化调度的Nash均衡解用于各智能体日前优化调度。本发明可有效提升分布式能源系统博弈优化调度问题求解精度,促进相关人工智能技术落地,推动电力优化调度决策智能化。电力优化调度决策智能化。电力优化调度决策智能化。


技术研发人员:蒲天骄 张津源 李烨 王新迎 荆江平
受保护的技术使用者:国网江苏省电力有限公司 国家电网有限公司
技术研发日:2022.09.16
技术公布日:2022/11/8
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献