一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种电力现货日前市场辅助报价方法与流程

2021-11-05 23:35:00 来源:中国专利 TAG:


1.本发明涉及电力市场交易领域,尤其涉及一种电力现货日前市场辅助报价方法。


背景技术:

2.日前电力市场会在交易日前一天,由独立调度机构(iso)将交易日的预测负荷(负荷需求量)公布给各发电商,各发电商从自身收益最大化出发,根据发电能力和报价限值来计划报价方案,之后将报价方案提交予市场运营机构,运营机构进行统一出清,得出各发电商的中标电价与中标电量并将结果反馈给各发电商。
3.传统日前电力交易业务的开展往往依托于人工,在电力市场化改革进程的蓬勃发展的新形势下,随着电力交易市场的不断开放与试行,传统人工方式已经不能满足和及时响应高频度的交易分析与辅助决策技术需求。
4.强化学习是机器学习中的一个重要分支,它用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。而多智体强化学习过程是指当环境中存在多个智能体,每个智能体通过与环境进行交互获取奖励值(reward)来学习改善自己的策略,最后达到一种均衡状态。


技术实现要素:

5.为了解决上述技术问题,本发明提供了一种基于wolf

phc改进算法的电力现货日前市场辅助报价方法,能够有效地帮助发电商得到较优的竞价策略,并且模型简单,算力资源利用率高,能够通过较少的迭代轮数达到纳什均衡状态,为推动电力交易的持续、协调、健康发展提供科学决策服务保障。
6.为了实现上述发明目的,本发明提供的技术方案包括:
7.一种电力现货日前市场辅助报价方法,包括步骤:
8.步骤s1.将各发电商的报价行为作为动作a;将各发电商的中标情况作为状态s;将发电商报价后可获得的收益作为回报r;将市场出清结果作为交互过程中的环境;将发电商在中标后可以采取的报价动作作为策略π;
9.步骤s2.初始化下列参数:状态

行为值函数q
i
(s,a
i
)=0;策略π
i
(s,a
i
)=1/|a
i
|;平均策略其中,i为发电商编号;a为所有动作a的集合;
10.步骤s3.各发电商根据状态s利用探索

利用策略得出报价动作a
i
并提交给市场;
11.步骤s4.所有发电商均完成动作提交后,市场进行出清,并将各发电商的收益r
i
和下一状态的中标状态s’反馈给各发电商;
12.步骤s5.更新所有发电商的值函数q
i
(s,a
i
);
13.步骤s6.根据更新后的值函数q
i
(s,a
i
),对每一个a
i
∈a
i
,更新平均估计策略和策略π
i
(s,a
i
);
14.步骤s7.重复步骤s3

s6以完成辅助报价模型的训练。
15.在一些较优的实施例中,步骤s4中各发电商的收益r
i
的计算方法为:
16.r
i
=p
i
p
i

f
c
o
al

17.f
coal
=a2p
i2
a1p
i
a0;
18.其中,p
i
为发电商的中标电量,p
i
为中标电价,a2,a1和a0为独立的成本系数。
19.在一些较优的实施例中,步骤s5中更新所有发电商的值函数q
i
(s,a
i
)的方法为:
20.分别构建当前值网络和目标值网络,每个网络均包含两层拥有256个神经单元的隐藏层,两个的网络的输入为当前状态下的所有动作向量,输出为当前状态下各动作对应的价值函数向量;
21.将当前值网络参数θ和目标值网络参数θ

均初始化为x(x∈(0,0.5));
22.设定用于存储根据所述步骤s4结果得到的(s,a
i
,r
i
,s’)的经验回放集合,并初始化其大小为2000;(s,a
i
,r
i
,s’)表示在状态s下采取动作a
i
能够达到状态s’并获得奖励r
i

23.从所述经验回放集合中随机采样(s
t
,a
t
,r
t 1
,s
t 1
)来计算当前值网络的损失函数值。
24.在一些较优的实施例中,还包括步骤:
25.所述当前值网络的损失函数值的计算方法为:
[0026][0027]
其中,q(s
t 1
,a
t 1
;θ

)为目标值网络输出的s
t 1
状态下的动作价值函数,q(s
t
,a;θ)为当前值网络输出的s
t
状态下的动作价值函数;
[0028]
采用梯度下降法更新当前值网络参数θ,并每隔c轮将θ的值赋给目标值网络参数θ

;其中,(c∈(10,100)。
[0029]
在一些较优的实施例中,步骤s6中所述平均估计策略的更新方法为:
[0030]
c(s)=c(s) 1,
[0031][0032]
其中,c(s)为状态s出现的次数,其初始值为0。
[0033]
在一些较优的实施例中,步骤s6中策略π
i
(s,a
i
)的更新方法为:
[0034]
π
i
(s,a
i
)

π
i
(s,a
i
) δ
sa
[0035]
其中
[0036]
其中
[0037][0038]
其中,δ
l

w
均为可变学习速率,δ
l

w
∈(0,1),且δ
l
>δ
w

[0039]
有益效果
[0040]
本发明能够有效地帮助发电商得到较优的竞价策略,并且模型简单,算力资源利
用率高,能够通过较少的迭代轮数达到纳什均衡状态,为推动电力交易的持续、协调、健康发展提供科学决策服务保障。
附图说明
[0041]
图1为本发明一种较优实施例的步骤流程示意图;
[0042]
图2为本发明一种较优实施例的节点与发电商系统的拓扑图;
[0043]
图3为本发明一种较优实施例的各发电商收益和迭代次数的统计图。
具体实施方式
[0044]
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步阐述。在本发明的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
[0045]
本发明提供了一种电力现货日前市场辅助报价方法,包括步骤:
[0046]
步骤s1.将各发电商的报价行为作为动作a;将各发电商的中标情况作为状态s;将发电商报价后可获得的收益作为回报r;将市场出清结果作为交互过程中的环境;将发电商在中标后可以采取的报价动作作为策略π;
[0047]
步骤s2.初始化下列参数:状态

行为值函数q
i
(s,a
i
)=0;策略π
i
(s,a
i
)=1/|a
i
|;平均策略其中,i为发电商编号;a为所有动作a的集合;
[0048]
步骤s3.各发电商根据状态s利用探索

利用策略得出报价动作a
i
并提交给市场;
[0049]
步骤s4.所有发电商均完成动作提交后,市场进行出清,并将各发电商的收益r
i
和下一状态的中标状态s’反馈给各发电商;
[0050]
步骤s5.更新所有发电商的值函数q
i
(s,a
i
);
[0051]
步骤s6.根据更新后的值函数q
i
(s,a
i
),对每一个a
i
∈a
i
,更新平均估计策略和策略π
i
(s,a
i
);
[0052]
步骤s7.重复步骤s3

s6以完成辅助报价模型的训练。
[0053]
应当理解的是,本发明主要是采用了强化学习的方法来构建辅助报价系统,本发明将应用场景抽象为一个由发电商报价决策层和市场出清层组成的双层模型,上层发电商根据自己的发电成本、机组特性和报价规则等约束条件决定最优报价;下层市场拿到各发电商的报价数据后,结合网络拓扑参数、潮流约束和负荷需求等因素进行出清,最后将出清结果反馈给各发电商。两层分别可以对应到强化学习过程中的智体与环境,将发电商报价决策问题转化为一个多智体强化学习求解问题。
[0054]
进一步的是,为了使所述强化学习方法更加适应本发明的领域特征,本发明对主要采用的特征有如下规定:
[0055]
智能体(agent):在电力现货日前市场中,将各发电商看作强化学习过程中的智能体,各智能体(发电商)之间具有竞争关系。
[0056]
动作(a∈a):智能体需要选择特定的动作来达到下一个状态,在该应用场景中,动
作就是指发电商选择的报价曲线。
[0057]
状态(s∈s):即环境所描述对象的情况。在该应用场景下,我们可以把智能体状态描述为发电商的出力情况(中标情况)。
[0058]
回报(r):智能体在当前状态s下选择动作a之后通过与环境交互得到的奖励值,在该应用场景下,回报即发电商报价后可以获得的收益。
[0059]
环境:在强化学习过程中,智能体需要在与环境的交互过程中通过学习策略以达成最大回报或实现特定目标。在该场景下,市场出清会作为环境,决定各发电商在采取特定动作后的回报。
[0060]
策略(π):定义了一个特定时刻智能体的行为方式。换言之,策略是一个从当前状态到该状态下采取的动作的一个映射。即发电商在当前出力状态下该采取何种报价动作。
[0061]
状态

行为值函数(q):值函数刻画了智能体在长期状态下对于某个状态或者行为的偏好。
[0062]
另一方面,本发明主要是基于wolf

phc算法的改进,所述wolf是指当智能体做的比期望值好的时候小心缓慢地调整参数,当智能体做的比期望值差的时候,加快步伐地调整参数。phc是一种单智能体在稳定环境下的一种学习算法,该算法的核心就是通常强化学习的思想,即增大能够得到最大累积期望的动作的选取概率。该算法具有合理性,能够收敛到最优策略。
[0063]
在一些较优的实施例中,步骤s4中各发电商的收益r
i
的计算方法为:
[0064]
r
i
=p
i
p
i

f
coal

[0065]
f
coal
=a2p
i2
a1p
i
a0;
[0066]
其中,p
i
为发电商的中标电量,p
i
为中标电价,a2,a1和a0为独立的成本系数。
[0067]
应当理解的是,所述成本系数a2,a1和a0可以由本领域技术人员通过运行发电机的历史成本与发电量数据拟合求得。
[0068]
在另一些较优的实施例中,给出了一种基于神经网络的值函数更新方法,具体包括:
[0069]
步骤s5中更新所有发电商的值函数q
i
(s,a
i
)的方法为:
[0070]
分别构建当前值网络和目标值网络,每个网络均包含两层拥有256个神经单元的隐藏层;
[0071]
将当前值网络参数θ和目标值网络参数θ

均初始化为x(x∈(0,0.5));
[0072]
设定用于存储所述步骤s4得到的(s,a
i
,r
i
,s’)的经验回放集合,并初始化其大小为2000;
[0073]
从所述经验回放集合中随机采样(s
t
,a
t
,r
t 1
,s
t 1
)来计算当前值网络的损失函数值。
[0074]
其中,采用经验回放集合通过存储

采样的方法训练当前值网络参数,是为了打破经验数据的关联性。其中,(s,a
i
,r
i
,s’)表示在状态s下采取动作a
i
能够达到状态s’并获得奖励r
i
,可以将它看作一条经验数据,而使用经验回放主要为了克服了经验数据的相关性和非平稳分布,本发明的技术方案是从以往的状态转移(经验)中随机采样对网络参数进行训练。这样可以提高数据利用率,因为一条经验数据可能会被多次使用。并且连续样本的相关性会使参数更新的方差比较大,而该机制可减少这种相关性。在电力竞价的场景下,以往
的决策数据能够得到充分利用,使算法得出的竞价策略更倾向于最优解。
[0075]
在另一些较优的实施例中,还给出了求取当前值网络的损失函数值的具体方法,包括:
[0076]
所述当前值网络的损失函数值的计算方法为:
[0077][0078]
其中,q(s
t 1
,a
t 1
;θ

)为目标值网络输出的s
t 1
状态下的动作价值函数,q(s
t
,a;θ)为当前值网络输出的s
t
状态下的动作价值函数;
[0079]
采用梯度下降法更新当前值网络参数θ,并每隔c轮将θ的值赋给目标值网络参数θ

;其中,(c∈(10,100)。
[0080]
在另一些较优的实施例中,还给出了更新平均估计策略和策略π
i
(s,a
i
)的具体方法,包括:
[0081]
平均估计策略的更新方法为:
[0082]
c(s)=c(s) 1,
[0083][0084]
其中,c(s)为状态s出现的次数,其初始值为0。
[0085]
π
i
(s,a
i
)的更新方法为:
[0086]
π
i
(s,a
i
)

π
i
(s,a
i
) δ
sa
[0087]
其中
[0088]
其中
[0089][0090]
其中,δ
l

w
均为可变学习速率,δ
l

w
∈(0,1),且δ
l
>δ
w

[0091]
实施例
[0092]
本实施例采用pjm网站某地区的负荷预测数据和发电商机组信息数据,对5节点3发电商系统进行仿真,仿真环境为tensorflow,每个发电商拥有一台火力发电机组,验证指标为每次迭代后的各发电商收益和总收益。
[0093]
各发电商参数如表1所示:
[0094]
表1各发电商参数
[0095]
[0096]
本实施例用pjm网站上十天的负荷需求数据(如表2所示),十天出清为一次迭代,每次迭代结束后记录各发电商十天的收益及所有发电商十天的总收益。
[0097]
表2负荷需求表
[0098]
day12345678910load(mw)190192183190191201201200199205
[0099]
本实施例所述节点与发电商系统的拓扑图如图2所示。
[0100]
利用本发明所提出的辅助报价方法,得出各发电商收益和迭代次数的统计图如图3所示。
[0101]
由此可以看出,采用本发明的电力现货日前市场辅助报价方法,可以有效地得出较优的竞价策略,并能够通过较少的迭代轮数达到纳什均衡状态。
[0102]
专业人员还可以进一步意识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术

包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0103]
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献