一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于强化学习的电网调控策略优化方法与流程

2022-02-22 03:05:29 来源:中国专利 TAG:


1.本发明属于电网调控技术领域,涉及电网调控方法,尤其是一种基于强化学习的电网调控策略优化方法。


背景技术:

2.随着电网规模的不断扩大,运行方式灵活多变,电网调控业务越来越复杂,调控人员工作强度也越来越大,这对调控业务的自动化和智能化提出了更高的要求。
3.现存的基于深度学习等技术的电网调控应用由于现有的调控决策样本难以覆盖所有的电网复杂运行情况导致训练的模型预测成功率低下,同时现有的模型可解释性差。


技术实现要素:

4.本发明的目的在于克服现有技术的不足,提出一种基于强化学习的电网调控策略优化方法,最终获得的策略能够更好地指导故障的处置选择。
5.本发明解决其现实问题是采取以下技术方案实现的:
6.一种基于强化学习的电网调控策略优化方法,包括以下步骤:
7.步骤1、输入电网数据集;
8.步骤2、利用故障处置的先验知识将步骤1输入的电网数据集中的电网状态集和对应的故障处置动作构建为对应的知识图谱;
9.步骤3、利用步骤2中构建的知识图谱以及电网数据集中电网状态之间的关系对步骤1电网数据集中包含的电网状态集和故障处置动作进行图表示学习,获得当前电网状态和故障处置动作的embedding;
10.步骤4、选取步骤2中构建的知识图谱以及状态集和故障处置对应的embedding,根据当前状态到目标状态的情况定义出多跳评分函数,用于评估两个状态之间的相关性,由步骤3获得的状态的embedding作为多跳评分函数的输入计算得到对应的评分;
11.步骤5、定义好多跳评分函数后,利用人工专家的先验知识构建故障处置的多条元路径;
12.步骤6、将步骤5中得到的多条元路径作为强化学习决策过程中的先验知识,作为故障处置动作选择约束,指导强化学习过程中决策序列的生成,产生源状态到目标状态的路径,使用步骤4的多跳评分函数来计算路径中两个节点之间产生多跳的得分评估,生成强化学习过程中当前状态下的及时奖励;
13.步骤7、在多跳评分函数产生及时奖励的基础上,定义强化学习的马尔可夫过程,利用现有的基于policy-based的强化学习算法,通过塑造新的奖励函数来对现有的强化学习策略优化方法进行改进;
14.步骤8、依据步骤7中定义的强化学习的马尔可夫过程以及策略优化算法的改进,将步骤3得到的电网状态集和故障处置动作的embedding作为步骤7中得到的改进版本强化学习的输入,最终产生依据强化学习获得的电网调控策略。
15.而且,所述步骤2的具体步骤包括:
16.(1)获得电网数据集中的每个初始电网状态下的故障处理记录;
17.(2)将每个电网状态作为知识图谱中的一个实体节点,将针对每个电网状态做出的故障处置动作作为实体节点间的关联边;
18.(3)对整个电网数据集中的电网状态节点依据故障处置动作对应的边进行关联,最终构成一张包括电网数据集中电网状态和故障处置的知识图谱。
19.而且,所述步骤3的具体方法为:
20.(1)根据电网状态,定义出每个电网状态所对应的实体类,实体类的个数定义为n;同时定义强化学习中每个状态输入的维度大小为embed_size。
21.(2)根据每个实体类中包含的对应类别的电网状态个数m,来对电网状态实体类进行表示学习的初始化,初始化向量的维度即为m*embed_size;
22.(3)定义故障处置动作的初始化向量维度为1*embed_size;
23.(4)依据相关状态下故障处理数据集,从中获取对应的记录,该记录中包含n个实体类对应的实例记录,作为一个n元组。基于n元组,从中生成对应存在关系的三元组,这类三元组的个数记作k,将这k个三元组作为成熟的图表示学习算法transh的输入,共同进行损失训练,生成状态集和故障处置集对应的embedding。
24.而且,所述步骤4的选取步骤2中构建的知识图谱,根据当前状态到目标状态的情况定义出多跳评分函数的具体方法为:
25.(1)首先定义多跳路径中的实体,路径的首位实体定义为e0,结尾实体定义为e
t
,如果e0和e
t
,中间存在一系列的实体诸如{e0,e1,

,e
t-1
},和它们之间的t个关系即{r1,r2,

,r
t
},则可以基于知识图谱定义出一个确定的有效多跳路径
26.(2)完成了多跳路径的定义之后,需要定义出多跳路径的评分函数,针对多跳路径中的两个实体和,评分函数可定义为:
[0027][0028]
其中,j表示多跳路径中任意一个实体节点的下标,b
et
是这里设置的偏置值。当t=0且j=0的时候,该评分函数表示的两个实体向量之间的相似度,即:
[0029][0030]
当t=1且j=1的时候,该评分函数表示的是头实体加上关系后和尾实体之间的相似度,即:
[0031][0032]
而且,所述步骤5的具体方法为:
[0033]
(1)依据知识图谱中包含的电网状态类型和故障处置类型生成一系列的三元组;
[0034]
(2)依据人工专家的先验知识,对这些存在关系的三元组进行关联,最终生成多条具有先验指导意义的元路径,可以有效地指导强化学习智能体在对应状态下进行故障处置动作选择。
[0035]
而且,所述步骤6的将步骤5中得到的多条元路径作为强化学习决策过程中的先验知识,作为故障处置动作选择约束,指导强化学习过程中决策序列的生成的具体方法可为:
[0036]
(1)获取定义好的多条元路径;
[0037]
(2)在强化学习智能体的路径探索尝试过程中,依据定义好的元路径来进行动作选择,最终生成决策序列。
[0038]
而且,所述步骤7的利用现有的基于policy-based的强化学习算法,通过塑造新的奖励函数对现有的强化学习策略优化方法进行改进的具体步骤包括:
[0039]
(1)选择policy-based的强化学习模型;
[0040]
(2)状态定义即在t时刻,状态s
t
定义为一个三元组(u,e
t
,h
t
),其中u属于电网状态类型的实体集u,e
t
则表示智能体在t步之后到达的实体,h
t
表示走到t步之前历史记录;
[0041]
根据以上定义,初始化状态表示为:
[0042][0043]
终止时刻t的状态可以表示为:
[0044]st
=(u,e
t
,h
t
)
[0045]
(3)动作定义即在某一时刻t的状态s
t
下,智能体都会有一个对应的动作空间,该动作空间包含了t时刻下实体e
t
的所有出度边的集合,然后实体不包含历史中存在的实体即:
[0046][0047]
(4)强化学习的软奖励定义,将终止状态获得的奖励r
t
定义为:
[0048][0049]
(5)塑造一个新的奖励机制,该部分奖励来源于融合未来各个状态下的蒙特卡罗(mc)增量,将时刻t的新塑造的奖励定义为:
[0050][0051]
在上式中,上面的箭头表示奖励是由后续状态的蒙特卡罗增量往前累加得到;
[0052]
(6)状态转移概率即在马尔科夫决策过程中,假设已知当前时刻t所处的状态s
t
=(u,e
t
,h
t
),以及当前状态下,根据路径搜索策略π
θ
,然后执行动作a
t
=(r
t 1
,e
t 1
),智能体将会到达下一个状态;就在执行一个动作后到下一个状态的这个过程中存在一个状态转移概率的定义,将状态转移概率定义为:
[0053][0054]
而初始状态是由最开始电网状态所决定的;
[0055]
(7)在给定的一个确定马尔科夫决策过程的周期中,某一时刻t对应状态下的总的奖励g
t
可以定义为:
[0056]gt
=r
t 1
γr
t 2
γ2r
t 3


γ
t-t-1rt
[0057]
即当前的及时奖励和未来的奖励值折扣的叠加,其中t表示的是终止状态;
[0058]
其中γ属于[0,1],表示距离当前状态越远的奖励,它们需要进行折扣的越多;如果γ等于0,表示只需要使用当前状态下的奖励;如果γ等于1,则表示环境是确定的,相同的动作可以获得相同的奖励;
[0059]
(8)定义搜索策略使任意起始的电网状态在搜索的周期内都可以获得最大化的累计回报,即公式定义为:
[0060][0061]
而且,所述步骤8的具体步骤包括:
[0062]
(1)定义演说家网络和评论家网络;
[0063]
(2)设置训练的迭代次数epochs,从epochs等于1开始训练;
[0064]
(3)由步骤3中对整体数据集中的数据和动作进行表示学习即embedding,然后将数据批量分别输入到actornetwork网络和criticnetwork中,分别获得动作空间中每个动作的概率分布和对该状态的价值评估。
[0065]
(4)计算critc预估值和真实的评估价值的损失函数最小化,以及计算当前动作概率与当前动作带来奖励的乘积最大化,同事定义一个保证模型探索与开发均衡的熵,让熵最大化。
[0066]
(5)在epochs定义的值范围内,重复步骤8的第(3)步中的步骤,最终训练出强化学习模型,该模型即为电网调控的策略,实现从电网当前状态到电网调控动作的映射。
[0067]
本发明的优点和有益效果:
[0068]
1、本发明提供一种基于强化学习的电网调控策略优化方法,本发明首先对电网运行状态和对应的故障处置动作空间中的动作进行表示学习处理,利用故障处置的先验知识构建知识图谱,基于知识图谱使用图表示学习方法对电网状态和故障处置动作进行表示学习;再基于知识图谱定义出从初始电网状态到目标电网状态的多跳评分函数;然后利用人工专家的先验知识构建故障处置的元路径,为当前电网状态的转移提供合理的故障处置选择;将电网状态信息作为强化学习的输入,其中强化学习的求解过程使用的是蒙特卡罗方法,我们将未来每个电网状态下的优势函数作为当前电网状态下采取决策的一种反馈奖励,来达到优化强化学习决策策略的目的,使得最终获得的策略可以更好地指导故障的处置选择。
[0069]
2、本发明提出的强化学习本身是一个无监督的试错学习过程,无需对数据集进行标记。从步骤5可以看出,强化学习可以有效地利用调控人员的业务知识和经验生成调控序列的元路径,结合步骤3中生成的知识图谱,最终获得的调控策略便可以生成一条决策路径用于调控的可解释。
附图说明
[0070]
图1为本发明基于当前状态的蒙特卡罗增量融合未来状态蒙特卡罗增量的强化学习策略更新机制的mdp图;
[0071]
图2为本发明融合未来蒙特卡罗增量的策略更新框架图;
[0072]
图3为本发明融合个性化损失的策略更新框架。
具体实施方式
[0073]
以下结合附图对本发明实施例作进一步详述:
[0074]
一种基于强化学习的电网调控策略优化方法,包括以下步骤:
[0075]
步骤1、输入电网数据集;
[0076]
步骤2、利用故障处置的先验知识将步骤1输入的电网数据集中的电网状态集和对应的故障处置动作构建为对应的知识图谱;
[0077]
根据步骤1的电网数据集中包含的电网状态集和对应的故障处置动作构建出一张实体间关系的知识图谱;
[0078]
所述步骤2的具体步骤包括:
[0079]
(1)获得电网数据集中的每个初始电网状态下的故障处理记录;
[0080]
(2)将每个电网状态作为知识图谱中的一个实体节点,将针对每个电网状态做出的故障处置动作作为实体节点间的关联边;
[0081]
(3)对整个电网数据集中的电网状态节点依据故障处置动作对应的边进行关联,最终构成一张包括电网数据集中电网状态和故障处置的知识图谱。
[0082]
步骤3、利用步骤2中构建的知识图谱以及电网数据集中电网状态之间的关系对步骤1电网数据集中包含的电网状态集和故障处置动作进行图表示学习,获得当前电网状态和故障处置动作的embedding;
[0083]
所述步骤3的具体方法为:
[0084]
(1)根据电网状态,定义出每个电网状态所对应的实体类,实体类的个数定义为n;同时定义强化学习中每个状态输入的维度大小为embed_size。
[0085]
(2)根据每个实体类中包含的对应类别的电网状态个数m,来对电网状态实体类进行表示学习的初始化,初始化向量的维度即为m*embed_size;
[0086]
(3)定义故障处置动作的初始化向量维度为1*embed_size;
[0087]
(4)依据相关状态下故障处理数据集,从中获取对应的记录,该记录中包含n个实体类对应的实例记录,作为一个n元组。基于n元组,从中生成对应存在关系的(状态i,故障处置r,状态j)的三元组,这类三元组的个数记作k,将这k个三元组作为成熟的图表示学习算法transh的输入,共同进行损失训练,生成状态集和故障处置集对应的embedding。
[0088]
步骤4、选取步骤2中构建的知识图谱以及状态集和故障处置对应的embedding,根据当前状态到目标状态的情况定义出多跳评分函数,用于评估两个状态之间的相关性,由步骤3获得的状态的embedding作为多跳评分函数的输入计算得到对应的评分;
[0089]
所述步骤4的选取步骤2中构建的知识图谱,根据当前状态到目标状态的情况定义出多跳评分函数的具体方法为:
[0090]
(1)首先本文定义多跳路径中的实体,路径的首位实体定义为r0,结尾实体定义为e
t
,如果e0和e
t
,中间存在一系列的实体诸如{e0,e1,

,e
t-1
},和它们之间的t个关系即{r1,r2,

,r
t
},则可以基于知识图谱定义出一个确定的有效多跳路径
[0091]
(2)完成了多跳路径的定义之后,需要定义出多跳路径的评分函数,针对多跳路径中的两个实体和,评分函数可定义为:
[0092][0093]
其中,j表示多跳路径中任意一个实体节点的下标,b
et
是这里设置的偏置值。当t=0且j=0的时候,该评分函数表示的两个实体向量之间的相似度,即:
[0094][0095]
当t=1且j=1的时候,该评分函数表示的是头实体加上关系后和尾实体之间的相似度,即:
[0096][0097]
步骤5、定义好多跳评分函数后,利用人工专家的先验知识构建故障处置的多条元路径;
[0098]
所述步骤5的具体方法为:
[0099]
(1)依据知识图谱中包含的电网状态类型和故障处置类型生成一系列的三元组;
[0100]
(2)依据人工专家的先验知识,对这些存在关系的三元组进行关联,最终生成多条具有先验指导意义的元路径,可以有效地指导强化学习智能体在对应状态下进行故障处置动作选择。
[0101]
步骤6、将步骤5中得到的多条元路径作为强化学习决策过程中的先验知识,作为故障处置动作选择约束,指导强化学习过程中决策序列的生成,产生源状态到目标状态的路径,使用步骤4的多跳评分函数来计算路径中两个节点之间产生多跳的得分评估,生成强化学习过程中当前状态下的及时奖励;
[0102]
所述步骤6的将步骤5中得到的多条元路径作为强化学习决策过程中的先验知识,作为故障处置动作选择约束,指导强化学习过程中决策序列的生成的具体方法可为:
[0103]
(1)获取定义好的多条元路径;
[0104]
(2)在强化学习智能体的路径探索尝试过程中,依据定义好的元路径来进行动作选择,最终生成决策序列。
[0105]
使用评分函数来计算路径中两个节点之间产生多跳的得分评估,生成强化学习过程中当前状态下的及时奖励。
[0106]
步骤7、在多跳评分函数产生及时奖励的基础上,定义强化学习的马尔可夫过程,利用现有的基于policy-based的强化学习算法,通过塑造新的奖励函数来对现有的强化学习策略优化方法进行改进;
[0107]
即利用基于当前电网状态对应的未来各个状态下的蒙特卡罗增量(未来蒙特卡罗增量)累加作为当前电网状态下决策的反馈奖励,进而更新故障处置决策策略;
[0108]
所述步骤7的利用现有的基于policy-based的强化学习算法,通过塑造新的奖励函数对现有的强化学习策略优化方法进行改进的具体步骤包括:
[0109]
(1)选择policy-based的强化学习模型;
[0110]
(2)状态定义即在t时刻,状态s
t
定义为一个三元组(u,e
t
,h
t
),其中u属于电网状态类型的实体集u,在这里是指决策过程的起始点,而e
t
则表示智能体在t步之后到达的实体,最后的这个h
t
表示走到t步之前历史记录。它们组成了当前时刻的状态。
[0111]
根据以上定义,显然,初始化状态表示为:
[0112][0113]
终止时刻t的状态可以表示为:
[0114]st
=(u,e
t
,h
t
)
[0115]
(3)动作定义即在某一时刻t的状态s
t
下,智能体都会有一个对应的动作空间,该动作空间包含了t时刻下实体e
t
的所有出度边的集合,然后实体不包含历史中存在的实体即:
[0116][0117]
(4)强化学习的软奖励定义:这种软奖励机制的获取依据多跳评分函数,基于此,终止状态获得的奖励r
t
定义为:
[0118][0119]
(5)塑造一个新的奖励机制,该部分奖励来源于融合未来各个状态下的蒙特卡罗(mc)增量。这个奖励和及时奖励类似,在每个状态下都会获得,在这里本文将时刻t的新塑造的奖励定义为:
[0120][0121]
在上式中,上面的箭头表示奖励是由后续状态的蒙特卡罗增量往前累加得到。
[0122]
在本实施例中,未来蒙特卡罗(mc)增量是一个根据其来源进行命名的新名词,本文中可以简称其为未来mc增量。在以往基于演说家-评论家的强化学习框架中,通常使用蒙特卡罗增量来进行强化学习策略的更新。在这里,蒙特卡罗增量,往往是一个在某一时刻对应的某一状态下,优势函数就是当前状态下对增量这种优势的一种描述。然而,当前存在的基于演说家-评论家框架的强化学习方法,在策略更新过程中,大多是基于多尺度的奖励回报来参与策略更新,将未来奖励以衰减的形式叠加到当前状态下。这些方法中并没有考虑到未来各个状态下的蒙特卡罗增量值,将增量以一定的形式叠加到当前状态中,作为一种新塑造的奖励函数。本方法中定义未来蒙特卡罗增量的动机在于,考虑到当前状态采取的策略和后续的路径搜索的走向也存在一定的关联,即优秀的搜索策略执行了合适的动作,可能会让智能体下一个时刻处于好的状态,进一步做出好的决策,如果未来的每一步状态的蒙特卡罗增量都有很好的表现,就可以说明当前状态下的决策是正确的。如图1所示,在一个确定的马尔科夫决策过程中,定义未来mc增量,将未来状态下的蒙特卡罗(mc)增量累加作为当前状态下新的奖励,参与到智能体策略更新,以优化模型策略的质量,提升推荐故障处理动作的合理性。
[0123]
图1中每个时刻的状态对应着一个当前状态的蒙特卡罗增量即mc增量,诸如s
t
时刻的状态state0对应的蒙特卡罗增量为(g
t-v(s
t
)),其中v(s
t
)为价值网络对当前时刻状态的价值评估,g
t
为从当前状态到结束这一周期内智能体获得的奖励累加和,基于当前状态之后的每个状态对应的蒙特卡罗增量累加和作为当前状态的新奖励函数,用来更新策略;
[0124]
(6)状态转移概率即在马尔科夫决策过程中,假设已知当前时刻t所处的状态s
t
=(u,e
t
,h
t
),以及当前状态下,根据路径搜索策略π
θ
,然后执行动作a
t
=(r
t 1
,e
t 1
),智能体将会到达下一个状态。就在执行一个动作后到下一个状态的这个过程中存在一个状态转移概率的定义,这里将状态转移概率定义为:
[0125][0126]
而初始状态是由最开始电网状态所决定的。
[0127]
(7)折扣因子即在马尔科夫决策过程中,智能体为了获得更多的奖励,往往不只会考虑到当前获得的及时奖励,还会参考到未来状态下获得的及时奖励。在给定的一个确定马尔科夫决策过程的周期中,某一时刻t对应状态下的总的奖励g
t
可以定义为:
[0128]gt
=r
t 1
γr
t 2
γ2r
t 3


γ
t-t-1rt
[0129]
即当前的及时奖励和未来的奖励值折扣的叠加,其中t表示的是终止状态。因为环境往往是随机的,执行特定的动作不一定会得到特定的状态,所以对将来的奖励来说,它们相比于当前状态下的奖励应该是衰减的,这也就是使用折扣因子γ目的,其中γ属于[0,1],表示距离当前状态越远的奖励,它们需要进行折扣的越多。如果γ等于0,表示只需要使用当前状态下的奖励;如果γ等于1,则表示环境是确定的,相同的动作可以获得相同的奖励。因此实际上往往会取类似于0.8或者0.9这一类值。如此一来,我们最终的任务则是训练出一个策略用的获得最终收益r的最大化。
[0130]
(8)策略优化即在马尔科夫决策过程中,我们的目标是学习一个优秀的搜索策略,这个搜索策略可以让以任意起始的电网状态在搜索的周期内都可以获得最大化的累计回报。即公式定义为:
[0131][0132]
步骤8、依据步骤7中定义的强化学习的马尔可夫过程以及策略优化算法的改进,将步骤3得到的电网状态集和故障处置动作的embedding作为步骤7中得到的改进版本强化学习的输入,最终产生依据强化学习获得的电网调控策略。
[0133]
所述步骤8的具体步骤包括:
[0134]
(1)本发明中采用的强化学习是基于演说家-评论家算法框架来实现的。首先我们会定义出演说家网络(又名为actor network),actor network架构主要用来学习到一个路径搜索策略,以计算出当前状态下,在它拥有的有效动作构成的掩码动作空间中,每个动作被选择的一种概率分布即。神经网络的输入为当前节点所拥有的动作空间和此时的状态,输出为动作空间中每个动作的概率分布,然后使用掩码操作删除无效动作,将结果输入到softmax中,生成最终的动作概率分布。其网络架构如图2左上部分网络结构所示。
[0135]
其次定义出评论家网络(又名为critic network),critic network架构主要用来学习到一个用于评估状态的能力,以计算出当前状态下,critic network对它的价值评估。该神经网络的输入为当前节点此时的状态,输出为对该状态的价值评估。其网络架构如图2的右上部分网络结构所示。
[0136]
图2是基于图1中的更新机制对策略进行更新,将状态的embedding作为图2左上侧critic network的输入,输出为critic network对当前输入状态的价值评估将状态
的embedding和动作空间掩码作为图2右上侧actor network的输入,输出为actor network基于当前状态做出的下一步动作选择概率分布将这些输出结合融合的未来蒙特卡罗增量即mc增量构建出强化学习的更新函数即图2中下侧部分。最终生成智能体的策略;
[0137]
(2)设置训练的迭代次数epochs,从epochs等于1开始训练。
[0138]
(3)由步骤3中对整体数据集中的数据和动作进行表示学习即embedding,然后将数据批量分别输入到actor network网络和critic network中,分别获得动作空间中每个动作的概率分布(故障处置)和对该状态的价值评估(状态好坏)。其中用于actor network更新过程中的奖励函数不仅局限于多跳评分函数带来的奖励,还增加了本发明中重塑的新的奖励函数即未来蒙特卡罗增量。
[0139]
(4)计算critc预估值和真实的评估价值的损失函数最小化,以及计算当前动作概率与当前动作带来奖励的乘积最大化,同事定义一个保证模型探索与开发均衡的熵,让熵最大化。
[0140]
(5)在epochs定义的值范围内,重复步骤8的第(3)步中的步骤,最终训练出强化学习模型,该模型即为电网调控的策略,实现从电网当前状态到电网调控动作的映射。
[0141]
在强化学习应用系统中,主要的关注点是策略本身的准确率,策略本身的准确率,和路径搜索策略的质量有较强的相关性。路径搜索策略的质量决定了生成路径的质量,即搜索策略越优秀,生成的用于路径质量越高,决策本身的准确率也就越好。对于路径,同一个决策结果可以存在不同的路径用来生成。本方法的创新主要是路径搜索策略的更新,显然路径搜索策略和决策的准确率又有着密切相关性。针对以上问题,许多方法会选择在基于知识图谱的表示学习上做一些改进,对知识图谱网络中的实体和关系进行更好地表示。在以往的相关研究中使用较多的算法诸如transe,transh等,将实体状态和实体状态间关系的表示变得更加准确,然后进行故障处置动作推荐。本发明中提出的方法与以往不同,主要在优化路径搜索策略上,以提高故障处置动作选择策略的质量,进而获得更加合理的处置效果,同时也提升了决策本身的可解释性。
[0142]
本发明的设计是基于考虑未来每个状态下的蒙特卡罗(mc)增量对当前状态下策略更新的影响而提出的。当前,在强化学习的过程中,奖励函数稀疏是普遍存在的问题。本发明提出的算法中,塑造了一个新的奖励函数,即叠加融合未来每个状态下的蒙特卡罗(mc)增量,将这个新塑造的奖励函数累加到当前状态下的actor损失函数中,以更新模型策略,对当前模型路径搜索策略进行优化。优化后的智能体路径搜索策略,在做出动作选择决策时,不仅仅会考虑到当前状态下的收益情况,也对未来的每一步带来的收益增量进行了更深入地评估。
[0143]
基于以上的改进,就实现了本发明提出的基于融合未来蒙特卡罗(mc)增量强化学习策略更新方法的定义。该方法可以有效提升推荐策略的准确性,提高故障处置动作的质量,最终使得策略产生的决策效果更加理想。
[0144]
本发明的工作原理是:
[0145]
本发明涉及电网调控的持续策略生成问题,采用强化学习实现优化调控和调度策略的自监督学习以及持续进化,尤其是涉及一种基于电网当前状态结合未来状态蒙特卡罗
增量的多尺度方法,实现对调控策略持续更新的参数激励策略。
[0146]
本发明采用强化学习实现电网调控策略的优化,强化学习又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习可以取代传统的进化计算,引入深度学习和表示学习技术,实现更好的优化、预测、分类任务的表现。
[0147]
本发明使用改进的强化学习算法,该强化学习算法中包含两个神经网络,分别为actor network和critic network;其中actor network以电网数据集中的电网状态集的embedding和动作空间掩码作为输入,输出为actor network基于当前状态做出的下一步动作选择概率分布critic network以电网数据集中的电网状态集的embedding作为输入,输出为critic network对当前输入状态的价值评估基于神经网络的输出,构建用于强化学习网络参数更新的目标函数,生成该算法最终要得到的actor network即调控策略,用于电网调控。在更新所需的目标函数构建过程中,本发明中针对强化学习过程中存在的奖励稀疏问题,如图1所示,重塑了新的奖励函数,该奖励函数来自于基于当前状态下未来各个状态下的蒙特卡罗增量累计和,即在图2中,该奖励用于强化学习策略更新,可以让模型具有更好地预测能力,这在一方面有效地缓解了强化学习策略现存的短视问题,相比与已有的机器学习算法也提升了结果的可解释性,最终生成电网调控策略;本发明中针对强化学习过程中存在的损失约束不足的问题,在critic网络中增加了局部损失函数即为每一个批次输入的样本获得的蒙特卡罗增量做正负判断,如图3所示,如果蒙特卡罗增量是正的,则增加损失大小,减少这种策略高估行为,如果蒙特卡罗增量是负的,则减少损失大小,以维护这种策略。最终使得整体策略具有更好的评估能力,可以更好地对每个电网状态进行评估。最终生成本发明所需的电网调控策略。
[0148]
图3中将状态的embedding作为图3左上侧critic network的输入,输出为critic network对当前输入状态的价值评估将状态的embedding和动作空间掩码作为图3右上侧actor network的输入,输出为actor network基于当前状态做出的下一步动作选择概率分布将这些输出融合本方法中提出的个性化损失函数personal_loss,即将每次批量输入的样本获得的蒙特卡罗增量进行约束,以此来更新强化学习中智能体的策略。
[0149]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0150]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产
生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0151]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0152]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献