一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

具有隐私保护功能的智能电网需求侧管理策略学习方法

2022-09-14 23:50:40 来源:中国专利 TAG:


1.本发明属于电力系统隐私安全和控制技术领域,具体涉及一种具有隐私保护功能的智能电网需求侧管理策略学习方法。


背景技术:

2.需求侧管理技术的主要内容是通过采取有效措施,引导电力用户改变其固有用电行为模式,促使电力用户与电网进行交互,从而达到提高终端用电效率、优化资源配置、保障电网高效稳定运行的目的。为此,发展智能电网需求侧管理技术变得尤为重要。
3.近年来,为了满足负荷需求,分布式电力供应商往往选择产出过量的电能,能源的浪费是一个亟需解决的问题。2016年,全国平均弃风率达到15%,西北部分地区平均弃光率更是高达30%,电能资源的供过于求导致了能源的大量浪费。优化电网内部的供求关系,建立合理、高效的用户侧需求响应策略,对解决能源浪费问题有重要意义。不仅如此,在整体层面,分布式电力系统具有地理位置分散化、利益主体差异化、并网技术多样化等特征。在个体层面,电力用户具有设备种类多样、供需关系演化不确定、用电信息不完整等特征。上述特征使得传统的以电网为中心自上而下的需求响应方式的实施变得不再高效、快捷。综上所述,在愈发复杂的电力市场环境下,亟需设计一种考虑到整体及个体效益的以用户为中心自下而上的新型需求响应机制。
4.智能电网利益主体差异化、供需关系演化不确定、电力用户信息不完整等特征为智能电网需求侧管理技术的发展带来了极大的困难,上述挑战使得用户侧需求响应策略难以通过动态规划等传统算法进行优化。强化学习通过反复试错来探索环境,并通过训练获得序贯决策问题的最优策略,因其可以在无需明确构建完整决策模型的情况下为智能体群体制定有效的协调策略,为智能电网中需求侧管理策略的优化问题提供了一个极具吸引力的研究方向。然而,直接利用强化学习算法优化需求侧管理策略仍存在以下困难:
5.1)现有的基于强化学习算法的需求侧管理技术往往依赖于获取完整的电力系统状态信息来求解全局最优的联合策略,忽略了用户信息的隐私安全。
6.2)系统中电力用户动态的需求侧管理策略将极大的影响其他电力用户策略的稳定性,为从全局的角度获取最优联合需求侧管理策略带来了重大挑战。
7.为此,设计一种具有隐私保护功能的多智能体深度强化学习算法优化智能电网的需求侧管理策略具有可行性和挑战性。


技术实现要素:

8.针对上述现有技术存在的问题,本发明提供一种具有隐私保护功能的智能电网需求侧管理策略学习方法,该方法能有效保护电力用户的隐私,同时,能最大限度地降低整个电网的运营成本,同时增强每个微电网的用户体验,有利于推动智能电网需求侧管理技术的发展。
9.为了实现上述目的,本发明提供一种具有隐私保护功能的智能电网需求侧管理策
略学习方法,包括以下步骤:
10.步骤一:公用事业公司为所有微电网i确定电能价格;
11.步骤二:由n个微电网i组成的分布式微电网系统根据每个微电网i的用电需求和电池状态向集中式能源管理系统报告其能源消耗需求信息;
12.步骤三:集中式能源管理系统收集分布式微电网i的需求信息,并为所有微电网i提供需求侧管理策略,具体方法如下:
13.s1:构建分布式马尔可夫决策过程模型;分布式马尔可夫决策过程模型包括智能体模块、环境状态模块、观测模块、动作模块和奖励模块;
14.智能体模块中含有n个智能体,n=[1,2,

,n],且每个智能体对应一个微电网i;
[0015]
环境状态模块中包含有整个电网系统在时刻t的状态s
t
,s
t
={d
t
,e
t
,soc
t
},d
t
为在时刻t需求响应系统的联合需求,soc
t
为在时刻t联合电池信息,e
t
表示公用事业公司在时刻t公布的电能价格;
[0016]
观测模块包含微电网i在时刻t的观测值o
t
,o
t
={d
t
,e
t
,soc
t
}∈s
t

[0017]
动作模块包含微电网i在时刻t的动作a
t
,a
t
=p
i,t
;a
t
∈[-1,1],a
t
<0表示微电网i将在时刻t将总能耗需求减少,a
t
≥0表示微电网i不仅可以满足其在时刻t的总需求,而且还可以在电池中存储额外的能量供后续使用;
[0018]
奖励模块包含微电网i将在时刻t所获得的奖励r
i,t

[0019]
s2:信息交互;
[0020]
s21:首先,初始化每个微电网i的执行网络π
η
、评估网络q
φ
、目标执行网络π'
η'
和目标评估网络q'
φ'
的参数;
[0021]
s22:使智能体与环境状态模块交互e1个片段,每个片段的交互过程如下:
[0022]
每个微电网i通过不断地与集中式能源管理系统进行信息交互来学习最优的需求响应策略;在时刻t,微电网i首先通过感知环境获得自身的观测值o
t
,再根据公式(1)通过自身的参数化为η的执行网络π
η
来选择当前动作a
t
,观测值o
t
包含其自身的能源消耗需求信息,当前动作a
t
包含对应的需求响应策略;
[0023]at
=π
η
(o
i,t
)
ꢀꢀꢀꢀꢀꢀꢀꢀ
(1);
[0024]
s23:在所有微电网i选择完动作后,环境状态模块根据公式(2)为每个微电网i生成满意度奖励r
t
并进入下一时刻的环境状态s
t 1

[0025][0026]
其中,为支付奖励,为支付奖励,为满意度奖励,表示为:
[0027][0028]
式中,d
i,t-l
i,t-soc
i,t
表示微电网i实际购买的电能相对于能耗需求的减少量;
[0029]
s3:信息加密;
[0030]
微电网i将其观测信息o
i,t
和动作信息a
i,t
输入加密器中,根据公式(3)转换为加密信息c'
i,t

[0031]
c'
i,t
=φ(c
i,t
|k)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3);
[0032]
式中,c
i,t
=f(o
i,t
,a
i,t
)为将观测信息o
i,t
和动作信息a
i,t
输入固定参数神经元网络获得的高维特征,φ为加密方程,k为所有微电网共享的密钥,仅对系统内的微电网可见;
[0033]
s4:经验存储;
[0034]
在完成每次信息交互后,将当前环境状态s
t
、联合动作a
t
、联合奖励r
t
和下一时刻的环境状态s
t 1
组成一个训练经验[s
t
,a
t
,r
t
,s
t 1
],并将该经验存储在经验缓存区中,以用于需求响应策略的训练;其中,s
t
={d
t
,e
t
,soc
t
},d
t
和soc
t
分别表示在时刻t需求响应系统的联合需求和联合电池信息,e
t
表示公用事业公司在时刻t公布的电能价格;
[0035]
s5:集中式训练;
[0036]
s51:在经验缓存区收集到足够的训练经验之后,首先从经验缓存区中选择采样大小为n的训练样本;
[0037]
s52:训练样本中的每个微电网i首先获取其他所有微电网i传递给其的加密信息c'
t
,再根据公式(4)利用密钥将其解密获取原始的特征信息c
t

[0038][0039]
s53:微电网i利用训练样本以及其他微电网i传递给它的特征信息c
t
计算执行网络π
η
和评估网络q
φ
的梯度,并根据公式(5)计算执行网络π
η
的梯度误差根据公式(6)计算评估网络q
φ
的误差l,然后通过梯度的反向传播更新执行网络π
η
和评估网络q
φ
的参数,使需求侧管理策略更新收敛;
[0040][0041][0042]
s6:输出最优的需求相应策略;
[0043]
s61:利用公式(7)获得微电网i从时刻0到时刻t获得的累积奖励ri;
[0044][0045]
式中,γ∈(0,1]为折扣因子;
[0046]
s62:集中式能源管理系统利用每个微电网i训练好的执行网络π
η
与环境进行交互输出最优的需求相应策略直至制定出最大化所有微电网i的累积奖励的联合需求响应策略
[0047]
进一步,在步骤三中的s2中,在执行网络π
η
的输出层添加高斯噪声αn(0,i);其中,e为当前的训练次数。在训练开始时,由于对环境的了解不足,作为智能体的微电网i应当更频繁地探索环境。通过噪声的添加,能更好的探索环境,这样,随着训练的继续,智能体将对环境有足够的经验,同时,噪音也会逐渐减少。
[0048]
作为一种优选,在步骤三中的s3中,所述加密器为具有高级加密标准的加密器。
[0049]
作为一种优选,在步骤二中,所述能源消耗需求包括基础需求和可控需求。
[0050]
在本方法中,首先将微电网优化需求侧管理策略的问题形式化成了一个序贯决策问题,并利用分布式马尔可夫决策过程对该问题进行数学建模。其次,本发明在每次进行信息交互后,都将经验存储在经验缓存区中,可以供需求响应策略进行训练,这样,便能应用集中式训练和分散式执行架构来减轻多智能体环境中训练经验的不稳定性对训练性能造成的损害,并通过多智能体强化学习算法为系统中的微电网制定最优的需求侧管理策略这样,可以最大限度地降低整个电网的运营成本,同时增强每个微电网的用户体验。随着学习的逐步进行,微电网中电力用户的需求侧管理策略会收敛到最优。最后,由于用户的需求响应策略和能源消耗需求是最为重要的隐私信息,其可以充分揭示电力用户的用电偏好等信息。一旦能源用户的上述隐私信息被泄露,被恶意攻击者所获得,恶意攻击者就可以进行定向的广告推送牟利,甚至根据电力用户的能源消费习惯威胁他们的人身安全,进而会使能源用户的隐私面临到极其严重的威胁。为了保护电力用户的隐私,本发明利用加密器对需求响应策略和能源消耗需求进行加密,且加密过程所用到的密钥仅对系统内的电网可见,在这种情况下,即使恶意攻击者可以窃取微电网的加密信息,也无法从加密的信息中推断出能源用户的真实需求响应策略和能源消耗需求,从而能有效保护电能交易过程中的隐私信息。
[0051]
本方法实施过程简单,实用性强,其可以在保护电力用户隐私的基础上为微电网制定最优的需求侧管理策略,其在保护电力用户隐私、提高电力用户用电满意度和降低电力用户的花费方面具有显著的作用,可以有效提升电力用户参与智能电网需求测管理系统的经济效益,促进用户参与电力市场调控的积极性,推动智能电网需求侧管理技术的发展。
附图说明
[0052]
图1是本发明的流程图。
具体实施方式
[0053]
下面结合附图对本发明作进一步说明。
[0054]
如图1所示,本技术提供了一种具有隐私保护功能的智能电网需求侧管理策略学习方法,包括以下步骤:
[0055]
步骤一:公用事业公司为所有微电网i确定电能价格;
[0056]
步骤二:由n个微电网i组成的分布式微电网系统根据每个微电网i的用电需求和电池状态向集中式能源管理系统报告其能源消耗需求信息;
[0057]
步骤三:集中式能源管理系统收集分布式微电网i的需求信息,并为所有微电网i提供需求侧管理策略,具体方法如下:
[0058]
s1:构建分布式马尔可夫决策过程模型;分布式马尔可夫决策过程模型包括智能体模块、环境状态模块、观测模块、动作模块和奖励模块;
[0059]
智能体模块中含有n个智能体,n=[1,2,

,n],且每个智能体对应一个微电网i;
[0060]
环境状态模块中包含有整个电网系统在时刻t的状态s
t
,s
t
={d
t
,e
t
,soc
t
},d
t
为在时刻t需求响应系统的联合需求,soc
t
为在时刻t联合电池信息,e
t
表示公用事业公司在时刻t公布的电能价格;
[0061]
观测模块包含微电网i在时刻t的观测值o
t
,o
t
={d
t
,e
t
,soc
t
}∈s
t

[0062]
动作模块包含微电网i在时刻t的动作a
t
,a
t
=p
i,t
;a
t
∈[-1,1],a
t
<0表示微电网i将在时刻t将总能耗需求减少,a
t
≥0表示微电网i不仅可以满足其在时刻t的总需求,而且还可以在电池中存储额外的能量供后续使用;
[0063]
奖励模块包含微电网i将在时刻t所获得的奖励r
i,t

[0064]
s2:信息交互;
[0065]
s21:首先,初始化每个微电网i的执行网络π
η
、评估网络q
φ
、目标执行网络π'
η'
和目标评估网络q'
φ'
的参数;
[0066]
s22:使智能体与环境状态模块交互e1个片段,每个片段的交互过程如下:
[0067]
每个微电网i通过不断地与集中式能源管理系统进行信息交互来学习最优的需求响应策略;在时刻t,微电网i首先通过感知环境获得自身的观测值o
t
,再根据公式(1)通过自身的参数化为η的执行网络π
η
来选择当前动作a
t
,观测值o
t
包含其自身的能源消耗需求信息,当前动作a
t
包含对应的需求响应策略;
[0068]at
=π
η
(o
i,t
)
ꢀꢀꢀꢀꢀꢀꢀꢀ
(1);
[0069]
s23:在所有微电网i选择完动作后,环境状态模块根据公式(2)为每个微电网i生成满意度奖励r
t
并进入下一时刻的环境状态s
t 1

[0070][0071]
其中,为支付奖励,为支付奖励,为满意度奖励,表示为:
[0072][0073]
式中,d
i,t-l
i,t-soc
i,t
表示微电网i实际购买的电能相对于能耗需求的减少量;
[0074]
上述满意度奖励表示了需求减少量d
i,t-l
i,t-soc
i,t
越大,微电网i的不满意程度就越高。
[0075]
s3:信息加密;
[0076]
微电网i将其观测信息o
i,t
和动作信息a
i,t
输入加密器中,根据公式(3)转换为加密信息c'
i,t

[0077]
c'
i,t
=φ(c
i,t
|k)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3);
[0078]
式中,c
i,t
=f(o
i,t
,a
i,t
)为将观测信息o
i,t
和动作信息a
i,t
输入固定参数神经元网络获得的高维特征,φ为加密方程,k为所有微电网共享的密钥,仅对系统内的微电网可见;
[0079]
s4:经验存储;
[0080]
在完成每次信息交互后,将当前环境状态s
t
、联合动作a
t
、联合奖励r
t
和下一时刻的环境状态s
t 1
组成一个训练经验[s
t
,a
t
,r
t
,s
t 1
],并将该经验存储在经验缓存区中,以用于需求响应策略的训练;其中,s
t
={d
t
,e
t
,soc
t
},d
t
和soc
t
分别表示在时刻t需求响应系统的联合需求和联合电池信息,e
t
表示公用事业公司在时刻t公布的电能价格;
[0081]
s5:集中式训练;
[0082]
s51:在经验缓存区收集到足够的训练经验之后,首先从经验缓存区中选择采样大
小为n的训练样本;
[0083]
s52:训练样本中的每个微电网i首先获取其他所有微电网i传递给其的加密信息c'
t
,再根据公式(4)利用密钥将其解密获取原始的特征信息c
t

[0084][0085]
s53:微电网i利用训练样本以及其他微电网i传递给它的特征信息c
t
计算执行网络π
η
和评估网络q
φ
的梯度,并根据公式(5)计算执行网络π
η
的梯度误差根据公式(6)计算评估网络q
φ
的误差l,然后通过梯度的反向传播更新执行网络π
η
和评估网络q
φ
的参数,使需求侧管理策略更新收敛;
[0086][0087][0088]
s6:输出最优的需求相应策略;
[0089]
s61:利用公式(7)获得微电网i从时刻0到时刻t获得的累积奖励ri;
[0090][0091]
式中,γ∈(0,1]为折扣因子;
[0092]
s62:集中式能源管理系统利用每个微电网i训练好的执行网络π
η
与环境进行交互输出最优的需求相应策略其中,集中式能源管理系统的输入为每个微电网i的用电需求以及当前时刻的电能电价,其输出为需求侧管理控制信号,直至制定出最大化所有微电网i的累积奖励的联合需求响应策略π
*

[0093]
在步骤三中的s2中,在执行网络π
η
的输出层添加高斯噪声αn(0,i);其中,e为当前的训练次数。在训练开始时,由于对环境的了解不足,作为智能体的微电网i应当更频繁地探索环境。通过噪声的添加,能更好的探索环境,这样,随着训练的继续,智能体将对环境有足够的经验,同时,噪音也会逐渐减少。
[0094]
作为一种优选,在步骤三中的s3中,所述加密器为具有高级加密标准的加密器。
[0095]
作为一种优选,在步骤二中,所述能源消耗需求包括基础需求和可控需求。
[0096]
在本方法中,首先将微电网优化需求侧管理策略的问题形式化成了一个序贯决策问题,并利用分布式马尔可夫决策过程对该问题进行数学建模。其次,本发明在每次进行信息交互后,都将经验存储在经验缓存区中,可以供需求响应策略进行训练,这样,便能应用集中式训练和分散式执行架构来减轻多智能体环境中训练经验的不稳定性对训练性能造成的损害,并通过多智能体强化学习算法为系统中的微电网制定最优的需求侧管理策略这样,可以最大限度地降低整个电网的运营成本,同时增强每个微电网的用户体验。随着学习的逐步进行,微电网中电力用户的需求侧管理策略会收敛到最优。最后,由于用户的需求响应策略和能源消耗需求是最为重要的隐私信息,其可以充分揭示电力用户的用电偏好等信
息。一旦能源用户的上述隐私信息被泄露,被恶意攻击者所获得,恶意攻击者就可以进行定向的广告推送牟利,甚至根据电力用户的能源消费习惯威胁他们的人身安全,进而会使能源用户的隐私面临到极其严重的威胁。为了保护电力用户的隐私,本发明利用加密器对需求响应策略和能源消耗需求进行加密,且加密过程所用到的密钥仅对系统内的电网可见,在这种情况下,即使恶意攻击者可以窃取微电网的加密信息,也无法从加密的信息中推断出能源用户的真实需求响应策略和能源消耗需求,从而能有效保护电能交易过程中的隐私信息。
[0097]
本方法实施过程简单,实用性强,其可以在保护电力用户隐私的基础上为微电网制定最优的需求侧管理策略,其在保护电力用户隐私、提高电力用户用电满意度和降低电力用户的花费方面具有显著的作用,可以有效提升电力用户参与智能电网需求测管理系统的经济效益,促进用户参与电力市场调控的积极性,推动智能电网需求侧管理技术的发展。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献