一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种综合能源系统优化调度方法、系统、设备及介质与流程

2022-08-10 22:48:58 来源:中国专利 TAG:


1.本发明属于电力调度决策技术领域,特别涉及一种综合能源系统优化调度方法、系统、设备及介质。


背景技术:

2.在扩大能源需求与降低碳排放的压力下,构建完善的综合能源系统是促进能源转型的重要途径;通过构建完善的综合能源系统能够消纳新能源、优化能源供应结构以及提高能源的利用效率。
3.综合能能源系统需要同时考虑多个相互耦合的异质能源网络和设备,来满足用户侧的电、热、冷等的用能需求,另外,随机出力的高渗透新能源注入导致系统结构更加复杂,难以收集系统运行参数;综合能源系统对机组出力的准确性和实时性要求更高,不准确的系统参数和快速变化的实时数据很容易导致更新不及时,会影响机组的输出优化精度,降低结果的可靠性。
4.基于上述陈述可知,如何优化单元出力来降低系统运行成本成为了综合能源系统研究中重要问题;现有的综合能源系统机组优化出力的准确性和及时性存在不足,亟需一种新的综合能源优化调度方法。


技术实现要素:

5.本发明的目的在于提供一种综合能源系统优化调度方法、系统、设备及介质,以解决上述存在的一个或多个技术问题。本发明提供的优化调度方法具体是一种基于数字孪生和深度强化学习的综合能源优化调度方法,可提高综合能源系统机组优化出力的准确性和及时性,从而降低了综合能源系统的运行成本。
6.为达到上述目的,本发明采用以下技术方案:
7.本发明第一方面提供的一种综合能源系统优化调度方法,包括以下步骤:
8.接收到调度任务时,基于预先构建并训练好的综合能源系统数字孪生模型获取综合能源系统当前t时刻的状态s
t
;所述综合能源系统数字孪生模型包括决策层;
9.采用所述决策层中部署的预先训练好的ddpg算法,基于所述当前t时刻的状态s
t
,确定动作a
t

10.基于所述综合能源系统数字孪生模型,执行动作a
t
并获得t 1时刻的状态s
t 1

11.基于获得的t 1时刻的状态s
t 1
和所述预先训练好的ddpg算法,通过选择t 1时刻的动作a
t 1
获得动态调度动作,并基于所述动态调度动作调节所述综合能源系统包括的机组输出量。
12.本发明的进一步改进在于,所述预先构建的综合能源系统数字孪生模型的获取步骤包括:
13.搭建综合能源系统物理实体,构建获得物理层;
14.在所述综合能源系统物理实体的预设位置安装多维传感器,构建获得感知层;
15.构建数据传输层;其中,所述数据传输层用于存储或传输所述感知层获取的数据;
16.构建数据处理层;其中,所述数据处理层用于接收所述数据传输层输送的数据并进行预处理,基于预处理后的数据构建综合能源系统的数字孪生环境;用于将综合能源系统的每一种类型的单元作为一个智能体,实现智能体与数字孪生环境之间的持续交互;用于采用历史数据对决策层产生的预测结果进行校正;
17.搭建综合能源系统虚拟实体,构建获得决策层;其中,所述决策层用于基于智能体和数字孪生环境之间的交互数据,使用预先训练好的ddpg算法寻找机组单元经济运行输出的最佳策略,生成单元输出调度计划;
18.基于所述物理层、感知层、数据传输层、数据处理层和决策层得到综合能源系统数字孪生模型。
19.本发明的进一步改进在于,所述数字孪生环境包括综合能源系统内功率平衡约束和各机组单元运行范围约束;
20.内功率平衡约束包括电功率和热功率平衡约束,表达式为,
21.p
grid
(t) p
rg
(t) p
bes
(t) p
chp
(t)-p
eb
(t)=p
load
(t);
22.h
chp
(t) h
gb
(t) h
eb
(t)=h
load
(t);
23.式中,p
grid
(t)、p
rg
(t)、p
bes
(t)、p
chp
(t)、p
eb
(t)、p
load
(t)分别为在t时间段内,与主网侧的交互功率、可再生能源机组输出电功率、电储能的充电功率或放电功率、热电联供机组的输出电功率、电锅炉的输入电功率及用户电负荷;h
chp
(t)、h
gb
(t)、h
eb
(t)、h
load
(t)分别为热电联供机组的输出热功率、燃气锅炉的输出热功率、电锅炉的输出热功率和用户热负荷;
24.各机组单元运行范围约束,表达式为,
[0025][0026]
式中,分别为综合能源系统与主网侧交互功率的下限和上限;分别为热电联供机组的输出电功率的下限和上限;分别为电储能的充/放电功率的下限和上限;分别为燃气锅炉的输出热功率的下限和上限;分别为电锅炉的输出热功率的下限和上限;分别为电储能荷电状态的下限和上限。
[0027]
本发明的进一步改进在于,所述预先训练好的ddpg算法的获取步骤包括:
[0028]
构建综合能源系统深度强化学习框架中的状态空间、动作空间和奖励函数;
[0029]
所述状态空间的表达式为,s
t
={p
load
(t),h
load
(t),p
rg
(t),c
soc
(t-1),t};式中,c
soc
(t-1)为电储能荷电状态;
[0030]
所述动作空间表达式为,q
t
={p
chp
(t),p
bes
(t),h
gb
(t)};
[0031]
所述奖励函数表达式为,
[0032]
式中,能源购买成本ce,折旧成本c
bes

[0033][0034]
式中,εe(t)为t时间段内的电价,ε
gas
(t)为时段t购买天然气的单位热值价格,为热电联供机组的电效率,η
gb
为燃气锅炉的效率,t为总调度时间,δt为时隙长度,ρ
bes
为电储能折旧成本系数;
[0035]
当综合能源系统中系统状态s
t
确定,调度动作a
t
的优劣程度采用动作价值函数q
π
(s,a)评估,直至找到最优策略π
*
以最大化q
π
(s,a);其中,所述动作价值函数q
π
(s,a)的表达式为,式中,e
π
(.)为策略π下的期望,γ为折扣因子;
[0036]
分别采用值网络θq和策略网络θ
π
来逼近ddpg框架中的critic和actor函数,值网络θq和策略网络θ
π
为两个独立的网络,两个网络均有各自的目标网络θq‘
和θ
π’;其中,在t时刻的迭代计算中,策略网络θq输入状态空间中的状态s
t
,输出动作空间中的动作a
t
;智能体根据t时刻的控制策略进行状态转移,获得下一时刻的状态s
t 1
,并给出t时刻的奖励r
t
(s
t
,a
t
)反馈给智能体,智能体记录经验e
t
=(s
t
,a
t
,r
t
(s
t
,a
t
),s
t 1
)并将其放入经验池;值网络θ
π
输入状态空间中的状态s
t
和动作空间中的动作a
t
,输出动作-值函数q
π
(s
t
,a
t
);
[0037]
训练时重复迭代,每次从经验池中随机提取小批量样本,θq和θ
π
网络通过梯度下降法更新网络参数直至稳定,获得所述预先训练好的ddpg算法。
[0038]
本发明第二方面提供的一种综合能源系统优化调度系统,包括:
[0039]
第一状态获取模块,用于接收到调度任务时,基于预先构建并训练好的综合能源系统数字孪生模型获取综合能源系统当前t时刻的状态s
t
;所述综合能源系统数字孪生模型包括决策层;
[0040]
第一动作获取模块,用于采用所述决策层中部署的预先训练好的ddpg算法,基于所述当前t时刻的状态s
t
,确定动作a
t

[0041]
第二状态获取模块,用于基于所述综合能源系统数字孪生模型,执行动作a
t
并获得t 1时刻的状态s
t 1

[0042]
第二动作获取模块,用于基于获得的t 1时刻的状态s
t 1
和所述ddpg算法,通过选择t 1时刻的动作a
t 1
获得动态调度动作,并基于所述动态调度动作调节所述综合能源系统包括的机组输出量。
[0043]
本发明的进一步改进在于,所述预先构建的综合能源系统数字孪生模型的获取步骤包括:
[0044]
搭建综合能源系统物理实体,构建获得物理层;
[0045]
在所述综合能源系统物理实体的预设位置安装多维传感器,构建获得感知层;
[0046]
构建数据传输层;其中,所述数据传输层用于存储或传输所述感知层获取的数据;
[0047]
构建数据处理层;其中,所述数据处理层用于接收所述数据传输层输送的数据并进行预处理,基于预处理后的数据构建综合能源系统的数字孪生环境;用于将综合能源系统的每一种类型的单元作为一个智能体,实现智能体与数字孪生环境之间的持续交互;用于采用历史数据对决策层产生的预测结果进行校正;
[0048]
搭建综合能源系统虚拟实体,构建获得决策层;其中,所述决策层用于基于智能体和数字孪生环境之间的交互数据,使用预先训练好的ddpg算法寻找机组单元经济运行输出的最佳策略,生成单元输出调度计划;
[0049]
基于所述物理层、感知层、数据传输层、数据处理层和决策层得到综合能源系统数字孪生模型。
[0050]
本发明的进一步改进在于,所述数字孪生环境包括综合能源系统内功率平衡约束和各机组单元运行范围约束;
[0051]
内功率平衡约束包括电功率和热功率平衡约束,表达式为,
[0052]
p
grid
(t) p
rg
(t) p
bes
(t) p
chp
(t)-p
eb
(t)=p
load
(t);
[0053]hchp
(t) h
gb
(t) h
eb
(t)=h
load
(t);
[0054]
式中,p
grid
(t)、p
rg
(t)、p
bes
(t)、p
chp
(t)、p
eb
(t)、p
load
(t)分别为在t时间段内,与主网侧的交互功率、可再生能源机组输出电功率、电储能的充电功率或放电功率、热电联供机组的输出电功率、电锅炉的输入电功率及用户电负荷;h
chp
(t)、h
gb
(t)、h
eb
(t)、h
load
(t)分别为热电联供机组的输出热功率、燃气锅炉的输出热功率、电锅炉的输出热功率和用户热负荷;
[0055]
各机组单元运行范围约束,表达式为,
[0056][0057]
式中,分别为综合能源系统与主网侧交互功率的下限和上限;分别为热电联供机组的输出电功率的下限和上限;分别为电储能的充/放电功率的下限和上限;分别为燃气锅炉的输出热功率的下限和上限;分别为电锅炉的输出热功率的下限和上限;分别为电储能荷电状态的下限和上限。
[0058]
本发明的进一步改进在于,所述预先训练好的ddpg算法的获取步骤包括:
[0059]
构建综合能源系统深度强化学习框架中的状态空间、动作空间和奖励函数;
[0060]
所述状态空间的表达式为,s
t
={p
load
(t),h
load
(t),p
rg
(t),c
soc
(t-1),t};式中,c
soc
(t-1)为电储能荷电状态;
[0061]
所述动作空间表达式为,q
t
={p
chp
(t),p
bes
(t),h
gb
(t)};
[0062]
所述奖励函数表达式为,
[0063]
式中,能源购买成本ce,折旧成本c
bes

[0064][0065]
式中,εe(t)为t时间段内的电价,ε
gas
(t)为时段t购买天然气的单位热值价格,为热电联供机组的电效率,η
gb
为燃气锅炉的效率,t为总调度时间,δt为时隙长度,ρ
bes
为电储能折旧成本系数;
[0066]
当综合能源系统中系统状态s
t
确定,调度动作a
t
的优劣程度采用动作价值函数q
π
(s,a)评估,直至找到最优策略π
*
以最大化q
π
(s,a);其中,所述动作价值函数q
π
(s,a)的表达式为,式中,e
π
(.)为策略π下的期望,γ为折扣因子;
[0067]
分别采用值网络θq和策略网络θ
π
来逼近ddpg框架中的critic和actor函数,值网络θq和策略网络θ
π
为两个独立的网络,两个网络均有各自的目标网络θq‘
和θ
π’;其中,在t时刻的迭代计算中,策略网络θq输入状态空间中的状态s
t
,输出动作空间中的动作a
t
;智能体根据t时刻的控制策略进行状态转移,获得下一时刻的状态s
t 1
,并给出t时刻的奖励r
t
(s
t
,a
t
)反馈给智能体,智能体记录经验e
t
=(s
t
,a
t
,r
t
(s
t
,a
t
),s
t 1
)并将其放入经验池;值网络θ
π
输入状态空间中的状态s
t
和动作空间中的动作a
t
,输出动作-值函数q
π
(s
t
,a
t
);
[0068]
训练时重复迭代,每次从经验池中随机提取小批量样本,θq和θ
π
网络通过梯度下降法更新网络参数直至稳定,获得所述预先训练好的ddpg算法。
[0069]
本发明第三方面提供的一种电子设备,包括:
[0070]
至少一个处理器;以及,
[0071]
与所述至少一个处理器通信连接的存储器;其中,
[0072]
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一项上述的综合能源系统优化调度方法。
[0073]
本发明第四方面提供的一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现本发明任一项上述的综合能源系统优化调度方法。
[0074]
与现有技术相比,本发明具有以下有益效果:
[0075]
本发明提供的综合能源优化调度方法,可从以下两个方面全面提升电网企业对于电力调度决策领域的管控水平:
[0076]
(1)可实现对综合能源系统数据参数的准确获取;具体而言,本发明通过建立数字孪生虚拟环境来获得精确的系统运行数据,通过数字孪生虚拟环境实时仿真机组出力,能够为后续深度强化学习决策提供相关的数据基础。
[0077]
(2)可实现对综合能源系统机组出力最优策略的获取;具体而言,本发明采用深度
强化学习算法通过机组单元与环境的交互来搜索最佳决策,并生成相应的调度计划,指导综合能源系统机组最佳出力。
[0078]
综上所述,本发明提供的优化调度方法具体是一种基于数字孪生和深度强化学习的综合能源优化调度方法,可提高综合能源系统机组优化出力的准确性和及时性。
附图说明
[0079]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面对实施例或现有技术描述中所需要使用的附图做简单的介绍;显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0080]
图1是本发明实施例的一种综合能源优化调度方法的流程示意图;
[0081]
图2是本发明实施例中,综合能源数字孪生模型结构工作流程示意图;
[0082]
图3是本发明实施例中,基于综合能源数字孪生模型决策层工作流程示意图;
[0083]
图4是本发明实施例的一种综合能源优化调度系统的示意图。
具体实施方式
[0084]
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
[0085]
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0086]
请参阅图1,本发明实施例的一种综合能源系统优化调度方法,包括以下步骤:
[0087]
所述综合能源系统接收到调度任务时,基于预先构建的综合能源系统数字孪生模型获取当前t时刻的状态s
t

[0088]
基于所述当前t时刻的状态s
t
,采用所述综合能源系统数字孪生模型中预先训练好的ddpg算法策略网络选择动作a
t

[0089]
基于所述综合能源系统数字孪生模型,执行动作a
t
并获得t 1时刻的状态s
t 1

[0090]
基于获得的t 1时刻的状态s
t 1
,采用所述综合能源系统数字孪生模型中预先训练好的ddpg算法策略网络选择动作a
t 1
,获得动态调度动作,实现所述综合能源系统的优化调度。
[0091]
本发明实施例中,数字孪生模型包括:物理层、感知层、数据传输层、数据处理层和决策层;所述决策层使用深度强化学习算法(ddpg算法)来寻找机组单元经济运行输出的最
佳策略,并生成单元输出调度计划;基于数字孪生模型实现综合能源系统优化调度,可提高综合能源系统机组优化出力的准确性和及时性。
[0092]
请参阅图2,本发明实施例提供一种基于数字孪生和深度强化学习的综合能源调度策略,同时还建立了一个由物理层、传感层、数据传输层、数据处理层和决策层五部分组成的综合能源系统单元输出优化数字孪生结构系统,为提升电网企业的电力调度水平提供技术支持;其中,所述综合能源系统单元输出优化数字孪生结构系统的构建过程如下:
[0093]
step1:建立物理层,搭建综合能源系统物理实体;具体的,建立整个数字孪生的数据载体,包含综合能源系统内的多种类型机组,如可再生能源机组(光伏、风机机组)、电储能、热电联供机组、燃气锅炉、电锅炉等,并提供机组装机容量、运行数据、每种类型设备的运行环境等参数。
[0094]
step2:建立感知层,收集实体数据;具体的,通过安装在综合能源系统内的多维传感器组成,以收集天气数据,来可再生能源机组、热电联产机组、燃气锅炉和其他设备的运行数据及用户电-热负荷,从而驱动数字孪生系统的正常运行。
[0095]
step3:建立数据传输层,实现数据的传输和存储;示例性的,数据传输以交换机和以太网为核心,通过构建无线网络传输系统,实现气象数据、设备运行数据等的高效传输。数据存储采用分布式本地存储和集中式云存储相结合,可根据系统要求实现数据的动态响应和相互调用。
[0096]
step4:建立数据处理层;具体的,数据处理层一方面,接收来自感知层和数据传输层的数据,采用大数据处理技术实现对数据的预处理,包括数据加载、数据清洗、数据转换、数据提取等,并建立综合能源系统的数字孪生环境;另一方面,它将每一种类型的单元视为一个智能体,并实现智能体与环境之间的持续交互,采用历史数据对决策层产生的预测结果进行校正,为决策层生成最终的调度计划提供依据。
[0097]
本发明实施例中,建立的综合能源系统数字孪生环境需综合考虑系统内功率平衡约束、外部能源供应约束和设备运行约束。
[0098]
综合能源系统内功率平衡约束主要考虑如下所示的电功率和热功率平衡约束为:
[0099]
p
grid
(t) p
rg
(t) p
bes
(t) p
chp
(t)-p
eb
(t)=p
load
(t)
ꢀꢀꢀ
(1)
[0100]hchp
(t) h
gb
(t) h
eb
(t)=h
load
(t)
ꢀꢀꢀ
(2)
[0101]
式中,p
grid
(t)、p
rg
(t)、p
bes
(t)、p
chp
(t)、p
eb
(t)、p
load
(t)分别为在t时间段内,与主网侧的交互功率、可再生能源机组输出电功率、电储能的充/放电功率、热电联供机组的输出电功率、电锅炉的输入电功率及用户电负荷;h
chp
(t)、h
gb
(t)、h
eb
(t)、h
load
(t)分别为热电联供机组的输出热功率、燃气锅炉的输出热功率、电锅炉的输出热功率和用户热负荷。
[0102]
基于对电网侧运行稳定性的考虑,主网对综合能源系统交互功率进行约束,同时为保证系统中设备的持续稳定运行,对各机组单元运行范围约束如下:
[0103][0104]
式中,分别综合能源系统与主网侧交互功率的下限和上限;分别为热电联供机组的输出电功率的下限和上限;分别为电储能的充/放电功率的下限和上限;为燃气锅炉的输出热功率的下限和上限;分别为电锅炉的输出热功率的下限和上限;分别电储能荷电状态的下限和上限。
[0105]
step5:建立决策层,搭建综合能源系统虚拟实体;具体的,基于智能体和环境之间的交互数据,决策层使用深度强化学习算法来寻找机组单元经济运行输出的最佳策略,并生成单元输出调度计划。该计划被反馈到终端设备,以指导综合能源系统中每个单元的输出。
[0106]
请参阅图3,本发明实施例中,预先训练好的ddpg算法的获取步骤包括:
[0107]
综合能源系统经济调度转化为强化学习框架时,将用户电负荷、热负荷、可再生能源机组输出电功率、电储能荷电状态及调度时间段t作为综合能源系统深度强化学习框架中的状态信息,则状态空间可以描述为:
[0108]st
={p
load
(t),h
load
(t),p
rg
(t),c
soc
(t-1),t}
ꢀꢀꢀ
(4)
[0109]
对于热电联供机组,当p
chp
(t)确定后,由输出电功率与热功率间的“电热特性”,可以得到h
chp
(t);h
gb
(t)确定后,由式(2)可求得h
eb
(t),进一步的可通过电锅炉输出效率转换得到p
eb
(t)。因此综合能源系统深度强化学习框架中动作空间可以描述为:
[0110]at
={p
chp
(t),p
bes
(t),h
gb
(t)}
ꢀꢀꢀ
(5)
[0111]
将综合能源系统总成本最小化问题综合考虑能源购买成本ce和电储能充/放电折旧成本c
bes
,则奖励函数可以取为:
[0112][0113]
其中,
[0114][0115]
式中,εe(t)为t时间段内的电价,ε
gas
(t)为时段t购买天然气的单位热值价格,为热电联供机组的电效率,η
gb
为燃气锅炉的效率,t为总调度时间,δt为时隙长度,ρ
bes
为电储能折旧成本系数;
[0116]
当综合能源系统中状态s
t
确定,动作a
t
的优劣程度可采用动作-价值函数q
π
(s,a)
评估,直至找到最优策略π
*
以最大化q
π
(s,a)。
[0117][0118]
式中,e
π
(.)为策略π下的期望,γ为折扣因子。
[0119]
本发明中采用基于actor-critic框架的ddpg算法作为决策层核心,通过深度神经网络来估计最优策略函数,即分别采用两个独立的网络值网络θq和策略网络θ
π
来逼近critic和actor函数;其中每个网络均有各自的目标网络θq‘
和θ
π’。主要流程包括:
[0120]
1)在t时刻的迭代计算中,策略网络θq输入如(4)式所示的状态s
t
,输出如(5)式所示的动作a
t

[0121]
2)智能体根据此时的控制策略进行状态转移,达到下一时刻的状态s
t 1
,并给出t时刻的奖励r
t
(s
t
,a
t
),反馈给智能体,智能体记录经验e
t
=(s
t
,a
t
,r
t
(s
t
,a
t
),s
t 1
)并将其放入经验池;
[0122]
3)值网络θ
π
输入如(4)式所示的状态和如(5)式所示的动作,输出如(8)式所示的动作-值函数q
π
(s
t
,a
t
);
[0123]
4)训练时重复步骤1)至步骤3)过程,每次从经验池中随机提取小批量样本,θq和θ
π
网络通过梯度下降法更新网络参数直至稳定,网络训练完成。
[0124]
当综合能源系统接收到新的调度任务时,可跟据当前系统状态s
t
利用训练好的ddpg算法策略网络选择调度动作a
t
,执行动作a
t
并下一个环境状态s
t 1
,继而采集t 1时刻系统的状态信息,并进行s
t 1
时刻的决策,由此可得到动态调度动作。
[0125]
综上,本发明实施例具体公开了一种基于数字孪生和深度强化学习的综合能源调度框架和策略,尤其针对电力系统调度决策技术领域。本发明采用该模型进行优化调度的原理如下:首先,利用传感器采集综合能源系统的实际运行数据,构建综合能源系统数字孪生的虚拟环境;其次,通过各类机组代理与数字孪生环境的不断交互,为深度强化学习模型决策提供相关系统参数依据;最后,利用深度强化学习模型寻找机组的最优输出策略,并将信息通过数字孪生实时反馈给终端控制器,并产生相应的控制指令,指导综合能源系统机组的输出调度。数字孪生技术利用物理实体、传感器和历史数据库之间的交互模拟,实现数字虚拟空间与实际物理设备之间的高保真映射,通过深度强化学习作为决策中心,可以实现物理系统单元输出的全生命周期的同步演化。本发明实施例提供的数字孪生和人工智能技术的结合为解决综合能源系统机组优化出力的准确性和及时性问题提供了新的思路。
[0126]
下述为本发明的装置实施例,可以用于执行本发明方法实施例。对于装置实施例中未纰漏的细节,请参照本发明方法实施例。
[0127]
请参阅图4,本发明再一实施例中,提供一种综合能源系统优化调度系统,包括:
[0128]
第一状态获取模块,用于所述综合能源系统接收到调度任务时,基于预先构建的综合能源系统数字孪生模型获取当前t时刻的状态s
t

[0129]
第一动作获取模块,用于基于所述当前t时刻的状态s
t
,采用所述综合能源系统数字孪生模型中预先训练好的ddpg算法策略网络选择动作a
t

[0130]
第二状态获取模块,用于基于所述综合能源系统数字孪生模型,执行动作a
t
并获得t 1时刻的状态s
t 1

[0131]
第二动作获取模块,用于基于获得的t 1时刻的状态s
t 1
和所述预先训练好的ddpg算法,通过选择t 1时刻的动作a
t 1
获得动态调度动作。
[0132]
所述第一状态获取模块基于预先构建的综合能源系统数字孪生模型获取当前t时刻的状态s
t
的过程中,所述预先构建的综合能源系统数字孪生模型的获取步骤包括:
[0133]
搭建综合能源系统物理实体,构建获得物理层;
[0134]
在所述综合能源系统物理实体的预设位置安装多维传感器,构建获得感知层;
[0135]
构建数据传输层;其中,所述数据传输层用于存储或传输所述感知层获取的数据;
[0136]
构建数据处理层;其中,所述数据处理层用于接收所述数据传输层输送的数据并进行预处理,基于预处理后的数据构建综合能源系统的数字孪生环境;用于将综合能源系统的每一种类型的单元作为一个智能体,实现智能体与数字孪生环境之间的持续交互;用于采用历史数据对决策层产生的预测结果进行校正;
[0137]
搭建综合能源系统虚拟实体,构建获得决策层;其中,所述决策层用于基于智能体和数字孪生环境之间的交互数据,使用预先训练好的ddpg算法寻找机组单元经济运行输出的最佳策略,生成单元输出调度计划;
[0138]
基于所述物理层、感知层、数据传输层、数据处理层和决策层得到综合能源系统数字孪生模型。
[0139]
其中,所述数字孪生环境包括综合能源系统内功率平衡约束和各机组单元运行范围约束;
[0140]
内功率平衡约束包括电功率和热功率平衡约束,表达式为,
[0141]
p
grid
(t) p
rg
(t) p
bes
(t) p
chp
(t)-p
eb
(t)=p
load
(t);
[0142]hchp
(t) h
gb
(t) h
eb
(t)=h
load
(t);
[0143]
式中,p
grid
(t)、p
rg
(t)、p
bes
(t)、p
chp
(t)、p
eb
(t)、p
load
(t)分别为在t时间段内,与主网侧的交互功率、可再生能源机组输出电功率、电储能的充电功率或放电功率、热电联供机组的输出电功率、电锅炉的输入电功率及用户电负荷;h
chp
(t)、h
gb
(t)、h
eb
(t)、h
load
(t)分别为热电联供机组的输出热功率、燃气锅炉的输出热功率、电锅炉的输出热功率和用户热负荷;
[0144]
各机组单元运行范围约束,表达式为,
[0145][0146]
式中,分别为综合能源系统与主网侧交互功率的下限和上限;分别为热电联供机组的输出电功率的下限和上限;分别为电储能的充/放电功率的下限和上限;分别为燃气锅炉的输出热功率的下限和上限;分别为
电锅炉的输出热功率的下限和上限;分别为电储能荷电状态的下限和上限。
[0147]
所述第一动作获取模块米用所述综合能源系统数字孪生模型中预先训练好的ddpg算法策略网络选择动作a
t
的过程中,所述预先训练好的ddpg算法的获取步骤包括:
[0148]
构建综合能源系统深度强化学习框架中的状态空间、动作空间和奖励函数;
[0149]
所述状态空间的表达式为,s
t
={p
load
(t),h
load
(t),p
rg
(t),c
soc
(t-1),t};式中,c
soc
(t-1)为电储能荷电状态;
[0150]
所述动作空间表达式为,a
t
={p
chp
(t),p
bes
(t),h
gb
(t)};
[0151]
所述奖励函数表达式为,
[0152]
式中,能源购买成本ce,折旧成本c
bes

[0153][0154]
式中,εe(t)为t时间段内的电价,ε
gas
(t)为时段t购买天然气的单位热值价格,为热电联供机组的电效率,η
gb
为燃气锅炉的效率,t为总调度时间,δt为时隙长度,ρ
bes
为电储能折旧成本系数;
[0155]
当综合能源系统中系统状态s
t
确定,调度动作a
t
的优劣程度采用动作价值函数q
π
(s,a)评估,直至找到最优策略π*以最大化q
π
(s,a);其中,所述动作价值函数q
π
(s,a)的表达式为,式中,e
π
(.)为策略π下的期望,γ为折扣因子;
[0156]
分别采用值网络θq和策略网络θ
π
来逼近ddpg算法框架中的critic和actor函数,值网络θq和策略网络θ
π
为两个独立的网络,两个网络均有各自的目标网络θq‘
和θ
π’;其中,在t时刻的迭代计算中,策略网络θq输入状态空间中的状态s
t
,输出动作空间中的动作a
t
;智能体根据t时刻的控制策略进行状态转移,获得下一时刻的状态s
t 1
,并给出t时刻的奖励r
t
(s
t
,a
t
)反馈给智能体,智能体记录经验e
t
=(s
t
,a
t
,r
t
(s
t
,a
t
),s
t 1
)并将其放入经验池;值网络θ
π
输入状态空间中的状态s
t
和动作空间中的动作a
t
,输出动作-值函数q
π
(s
t
,a
t
);
[0157]
训练时重复迭代,每次从经验池中随机提取小批量样本,θq和θ
π
网络通过梯度下降法更新网络参数直至稳定,获得所述预先训练好的ddpg算法。
[0158]
本发明再一个实施例中,提供了一种计算机设备,该计算机设备包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行计算机存储介质内一条或一条以上指令从而实
现相应方法流程或相应功能;本发明实施例所述的处理器可以用于综合能源系统优化调度方法的操作。
[0159]
本发明再一个实施例中,本发明还提供了一种存储介质,具体为计算机可读存储介质(memory),所述计算机可读存储介质是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质,当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速ram存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中有关综合能源系统优化调度方法的相应步骤。
[0160]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0161]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0162]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0163]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0164]
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献