一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于深度强化学习的城轨混合储能系统功率动态分配控制方法与流程

2021-11-15 17:20:00 来源:中国专利 TAG:


1.本发明涉及的是一种城市轨道交通储能、节能技术领域,具体的说就是一种基于深度强化学习的城轨混合储能系统功率动态分配控制方法。


背景技术:

2.地铁运行区间距离短,启动、制动频繁,牵引加速阶段需要较大的启动功率,其制动时会产生大量的再生制动能量,常采用储能的方式回收多余的制动能量并用于列车牵引启动,以达到节能效果。由于单一器件的储能系统难以满足城轨大功率、大能量的双重需求,为抑制牵引网功率波动,结合超级电容高功率密度、电池短时大能量的特性,采用车载式超级电容与地面式电池组成的混合储能系统平抑直流牵引网功率波动,实现“削峰填谷”。通过合理的控制策略在实现混合储能系统能量最优管理的同时可以有效稳定直流牵引电压、回收制动能量。然而,频繁的列车制动、启动工况往往对储能元件寿命造成影响,因此如何通过储能元件之间的能量协调控制以实现较好的节能稳压效果以及储能寿命保护,是技术人员目前需要考虑解决的技术问题。


技术实现要素:

3.技术问题:为实现永磁牵引供电环境与混合储能系统的再生制动能量循环,如何通过控制实现车载超级电容和地面电池的最优能量管理,从而达到牵引供电网络稳定、节能的同时实现储能元件寿命保护是目前需要考虑解决的技术问题。
4.技术方案:针对上述问题,本发明采用车载式超级电容与地面式电池组成混合储能系统能量结构,将混合储能系统能量管理优化问题建模为序贯决策优化过程,并通过引入永磁牵引系统与混合储能系统的协调控制策略,以实现牵引功率的平滑与实时分配。在此基础上,发明一种变优先级经验回放机制的深度强化学习算法,在列车不同运行工况下对各经验样本的优先级进行自适应变化,且在经验回放池中按优先级顺序学习经验样本,以提高寻优效率与正确率,最终以实现能量管理策略的序贯控制。然后,设计在线学习

在线序贯决策方法,在系统存在模型误差和参数变化的情况下实现控制算法的快速学习与在线优化。
5.本发明提出的基于深度强化学习的城轨混合储能系统功率动态分配控制方法,其该方法采用基于变优先级经验回放的深度强化学习算法,对经验池进行变优先级概率经验回放训练,从而提高了智能体的训练效率与寻优正确率。并进一步设计在线学习

在线序贯决策方法,通过智能体(agent)“试错”和“反馈”的机制进行策略在线学习与优化,最终结合低通滤波器实现混合储能功率实时分配,在有效提高牵引网节能稳压特性的同时合理控制车载超级电容充放电电流,防止过冲、过放现象,从而延长储能元件寿命。本发明实现如下:
6.首先,设计永磁牵引系统与混合储能系统能量协调策略。车载超级电容主要用于完成永磁牵引能量交换,地面电池用于承担低频功率指令并辅助供电。地面电池采用电压
电流双环级联控制,车载超级电容在此基础上增加了牵引功率前馈。
7.以电池为例,通过给定充电电压阈值u
bat_char
、放电电压阈值u
bat_dis
与实时反馈牵引网电压u
dc
差值比较,然后经pi控制器再与反馈的电池电流i
bat
差值比较最终通过pwm控制得到驱动bdc开关器件的占空比d。考虑到电池元件保护,进一步引入电池限流保护环节k
c
,通过限制电池充电电流变化速率k
c_char
以及放电电流变化速率k
c_dis
从而有效地平滑电池电流的给定值,使其更好地承担低频负荷,实现电池过充过放保护。
8.在传统深度强化学习算法中,经验回放机制在消除数据样本之间关联性的同时能够提高样本利用率,但经验池中的历史数据(s
t
,a
t
,r,s
t 1
)(当前状态、动作、奖励、下一状态),在学习时是均匀随机抽样的,而在智能体(agent)与环境交互产生的经验样本中,首先临近的某些样本数据本身就强相关,其次不同数据对梯度学习的贡献可能会不同,这些都会导致学习效率低,甚至过拟合。
9.传统的优先经验回放基于时序差分|td

error|的方法,表示在时序差分中当前的动作价值函数q’值与目标价值函数q的差值,如式(1)所示。训练的目标是让|td

error|的期望尽可能小,因此常通过其大小来确定优先级排序rank
i
以及经验回放概率p
i
,如式(2)所示。
[0010][0011][0012]
其中,rank
i
表示从第i个经验开始从大到小的排名,排名从1开始。r(s
t
,a
t
)为t时刻反馈的奖励回报,γ为奖励折扣,q'(s
t 1
,a
t 1
)为t 1时刻的动作价值,q(s
t
,a
t
)为t时刻的动作价值。p
i
表示经验回放概率。
[0013]
本发明在双延迟深度确定性策略梯度算法(twin delayed deep deterministic policy gradient,td3)的基础上,设计一种基于变优先级经验回放的的深度强化学习算法(variable priority experience replay twin delayed deep deterministic policy gradient,v

td3),其创新点在于对不同工况下对各经验样本的优先级进行自适应变化。在网络模型学习过程中,根据优先级的变化采用不同的概率从经验池中选取每批次样本数据。优先级权值β
st
设置如下:
[0014][0015]
其中,β
st
为各工况下样本所占权重,t为系统运行总时长,s
t
表示运行工况,分别包括恒加速

恒功率牵引

惰行

制动四种工况,t
i
为系统运行在各工况下的时间。
[0016]
然后根据实际工况变化设置经验池差值l如(4)所示,训练的目的在于不同运行工况下的l均能达到最小,并根据差值l的大小变化来确定优先级排序rank
v

[0017][0018]
最终,通过变优先级排序rank
v
设置样本回放概率p
v
,如式(5)所示:
[0019][0020]
所设计v

td3方法中对于重要性程度高的经验样本,每批次以较大的概率选取,同时为保证样本数据多样性,每批次以较小的概率选取少量立即奖励值小、重要性程度低的经验样本。考虑深度强化学习算法在城轨混合储能上的控制应用,分别设计环境状态、智能体动作、奖励函数。
[0021]
1)永磁牵引供电环境及状态表征设计:
[0022]
由于在v

td3算法训练过程中,每一步动作施加至环境后,环境将反馈更新的状态到智能体中;因此,在混合储能系统(hybrid energy storage system,hess)功率分配策略中,将hess能量管理系统视为学习和决策的agent,整个永磁牵引供电系统视为agent所处的环境;agent感知环境和自身状态,执行特定的动作,从而影响环境的状态并使得环境生成相应的奖励信号;并根据获得的反馈信号对策略进行改进,以实现整个时间段内累计奖励最大化;由于列车制动时瞬时大功率、短时大能量的特性,在实现稳压节能的同时需要考虑混合储能系统的寿命保护,因此选取直流牵引电压u
dc
、混合储能功率给定p
hess_ref
、超级电容荷电状态soc
uc
、电池荷电状态soc
bat
、列车运行速度ω以及加速度a
c
作为agent观测到环境所处的状态s(state),状态空间表示为:
[0023]
s=[u
dc1
,p
hess_ref1
,soc
uc1
,soc
bat1
,ω1,a
c1
,...,u
dcn
,p
hess_refn
,soc
ucn
,soc
batn

n
,a
cn
]
ꢀꢀ
(6)
[0024]
2)连续动作空间选取与动作实施:
[0025]
在马尔可夫决策过程(mdp)后,v

td3从动作空间选取的永磁牵引功率再分配动作应当能够全面覆盖hess能量管理系统可行域,为避免其无法学习到能量管理全局最优决策,连续动作空间不可选取太小;但若选取过大,将使得v

td3训练效率大幅下降;因选择agent动作action为超级电容给定功率调整量δp
sc_ref
;策略π是状态集合s到动作集合a的映射函数:π:s

a,决定了不同系统状态下agent的行为;考虑超级电容功率波动范围,功率调整量进行动作连续化,得到连续动作空间a如式(7)所示;
[0026][0027]
其中,p
sc_ref0
为超级电容功率初始给定值;
[0028]
3)奖励函数设计:
[0029]
奖励信号r(reward)是环境对代理动作的反馈,agent学习的目标即获得最大累积奖励;奖励值分布的方差不能过大,否则将使v

td3训练时间过长且易陷入局部最优;但奖励值分布方差取值过小可能导致v

td3无法有效进行学习,因此选取agent奖励r为时间步长δt内稳压效率v%与节能效率e%以及soc
uc
安全变化的加权和,如式(8)所示;期望稳压节能效果最优的同时soc
uc
能够保持在安全范围[0.15,0.85]以内,从而实现过超级电容充过放保护;
[0030]
r=max[λ
·
v% μ
·
e% σ(0.15≤soc
uc
≤0.85)

η[(soc
uc

char
≥0.85)or(soc
uc

dis
≤0.15)]
ꢀꢀ
(8)
[0031]
其中,λ,μ,σ,η为权重系数,节能效率e%定义为安装混合储能系统前后变电所总输出能量变化量占无储能系统时变电所总输出能量的百分比;稳压效率v%采用直流牵引电压超出/低于限值部分的积分来评估,分别如式(9)和式(10)所示;soc
uc

char
和soc
uc

dis
分别表示充电/放电状态下的超级电容荷电状态值;
[0032][0033]
其中,分别为安装/未安装混合储能情况下直流牵引网电压,分别为安装/未安装混合储能情况下直流牵引网电流;
[0034][0035]
其中,分别为设置的直流牵引网电压安全上限值/安全下限值,δh/δl分别为列车运行工况内直流牵引电压超过安全上限值/下限值的时间;
[0036]
最终,设计在线训练

在线序贯决策方法。
[0037]
1)在线训练模块中,建立城轨牵引供电仿真平台并将其视为agent所处的环境,将能量管理算法agent与仿真平台进行交互,且每回合列车运行速度均随机初始至安全运行范围,通过agent的在线学习直至奖励收敛,训练出一种可以满足随机环境下的控制性能和调节经济性综合最优的策略。
[0038]
2)在线序贯决策模块中,采用rt

lab半实物实时仿真系统模拟实时运行工况。agent根据实时的系统状态信息进行决策,根据当前列车运行状态迅速做出最优决策,使其节能稳压效率最优,储能寿命保护最优,能够根据实时运行工况实现混合储能系统的功率动态分配。在线训练

在线决策结合的方式极大地缩短了实验中agent探索阶段,并且避免了因决策错误导致的安全问题,提高了能量管理算法的学习效率和安全性能。
[0039]
系统运行,具体运行步骤如下:
[0040]
step1:根据列车运行时,永磁牵引系统产生的实时牵引功率需求p
hess_ref
经低通滤波器得到分别得到超级电容高频功率指令p
sc_ref0
和电池低频功率指令p
bat_ref0

[0041]
step2:智能体agent通过与城轨永磁牵引供电环境在线交互训练,直至奖励稳定收敛后,用于半实物实时仿真系统中实现在线序贯决策,智能体根据列车运行工况在线输出超级电容实时功率补偿量δp
sc_ref

[0042]
step3:超级电容高频功率指令p
sc_ref0
与智能体输出的实时功率补偿量δp
sc_ref
相加得到超级电容实时功率指令p
sc_ref
,再由混合储能功率需求p
hess_ref
与p
sc_ref
差值得到地面电池实时功率指令p
bat_ref

[0043]
step4:超级电容实时功率指令p
sc_ref
经电流内环控制与内环超级电容电流i
sc
比较差值并经pi控制器后用于调节控制双向dc/dc变换器开关管驱动脉冲信号。地面电池通过电压电流双环级联控制以及k
c
限流环节实现充放电控制以及电池系统的限流保护。
[0044]
本发明中,采用永磁牵引系统与混合储能系统的能量协调控制,车载超级电容主要用于完成永磁牵引能量交换,地面电池用于承担低频功率指令并辅助供电;并考虑列车运行时永磁牵引功率需求和混合储能系统荷电状态以及列车运行状态,进一步设计在线学习

在线序贯决策方法,通过智能体(agent)“试错”和“反馈”的机制进行策略在线学习与优化,从而实现混合储能系统最优能量管理,有效稳定牵引网功率波动以及储能元件系统寿命保护,使得城市轨道交通系统更加节能环保。
[0045]
有益效果:上述运行步骤能有效实现永磁牵引系统与混合储能系统的能量协调控制,并且通过变优先级经验回放机制能够有效提高最优能量管理策略的寻优效率与正确率,采用在线学习

在线序贯决策优化的方法能够在系统存在模型误差和参数变化的情况下实现控制算法的快速学习与在线优化。最终,所提功率动态分配策略在有效提高牵引网节能稳压特性的同时防止储能元件过冲、过放,从而延长储能元件寿命,达到节能与经济的综合效益。
附图说明
[0046]
本发明有以下附图:
[0047]
图1基于深度强化学习的混合储能系统能量管理策略结构图。
[0048]
图2基于变优先级经验回放机制的深度强化学习网络结构图。
[0049]
图3在线学习

在线序贯决策优化结构图。
具体实施方式
[0050]
为进一步解释本发明的技术方案,具体实施方式:
[0051]
设计基于深度强化学习的混合储能系统能量管理策略,如图1所示。首先,在永磁牵引系统与混合储能系统能量协调控制部分中,车载超级电容主要用于完成永磁牵引能量交换,地面电池用于承担低频功率指令并辅助供电。地面电池采用电压电流双环级联控制,车载超级电容在此基础上增加了牵引功率前馈。
[0052]
以电池为例,通过给定充电电压阈值u
bat_char
、放电电压阈值u
bat_dis
与实时反馈牵引网电压u
dc
差值比较,然后经pi控制器再与反馈的电池电流i
bat
差值比较最终通过pwm控制得到驱动bdc开关器件的占空比d。考虑到电池元件保护,进一步引入电池限流保护环节k
c
,通过限制电池充电电流变化速率k
c_char
以及放电电流变化速率k
c_dis
从而有效地平滑电池电流的给定值,使其更好地承担低频负荷,实现电池过充过放保护。
[0053]
在传统深度强化学习算法中,经验回放机制在消除数据样本之间关联性的同时能够提高样本利用率,但经验池中的历史数据(s
t
,a
t
,r,s
t 1
)(当前状态、动作、奖励、下一状态),在学习时是均匀随机抽样的,而在智能体(agent)与环境交互产生的经验样本中,首先临近的某些样本数据本身就强相关,其次不同数据对梯度学习的贡献可能会不同,这些都会导致学习效率低,甚至过拟合。
[0054]
传统的优先经验回放基于时序差分|td

error|的方法,表示在时序差分中当前的动作价值函数q’值与目标价值函数q的差值,如式(1)所示。训练的目标是让|td

error|的期望尽可能小,因此常通过其大小来确定优先级排序rank
i
以及经验回放概率p
i
,如式(2)所示。
[0055][0056][0057]
其中,rank
i
表示从第i个经验开始从大到小的排名,排名从1开始。r(s
t
,a
t
)为t时刻反馈的奖励回报,γ为奖励折扣,q'(s
t 1
,a
t 1
)为t 1时刻的动作价值,q(s
t
,a
t
)为t时刻的动作价值。p
i
表示经验回放概率。
[0058]
本发明在双延迟深度确定性策略梯度算法(twin delayed deep deterministic policy gradient,td3)的基础上,设计一种基于变优先级经验回放的的深度强化学习算法(variable priority experience replay twin delayed deep deterministic policy gradient,v

td3),其创新点在于对不同工况下对各经验样本的优先级进行自适应变化。在网络模型学习过程中,根据优先级的变化采用不同的概率从经验池中选取每批次样本数据。基于变优先级经验回放机制的深度强化学习网络结构图如图2所示。优先级权值βst设置如下:
[0059][0060]
其中,β
st
为各工况下样本所占权重,t为系统运行总时长,s
t
表示运行工况,分别包括恒加速

恒功率牵引

惰行

制动四种工况,t
i
为系统运行在各工况下的时间。
[0061]
然后根据实际工况变化设置经验池差值l如(4)所示,训练的目的在于不同运行工况下的l均能达到最小,并根据差值l的大小变化来确定优先级排序rank
v

[0062][0063]
最终,通过变优先级排序rank
v
设置样本回放概率p
v
,如式(5)所示:
[0064][0065]
所设计v

td3方法中对于重要性程度高的经验样本,每批次以较大的概率选取,同时为保证样本数据多样性,每批次以较小的概率选取少量立即奖励值小、重要性程度低的经验样本。考虑深度强化学习算法在城轨混合储能上的控制应用,分别设计环境状态、智能体动作、奖励函数。
[0066]
1)永磁牵引供电环境及状态表征设计:
[0067]
由于在v

td3算法训练过程中,每一步动作施加至环境后,环境将反馈更新的状态到智能体中;因此,在混合储能系统(hybrid energy storage system,hess)功率分配策略中,将hess能量管理系统视为学习和决策的agent,整个永磁牵引供电系统视为agent所处的环境;agent感知环境和自身状态,执行特定的动作,从而影响环境的状态并使得环境生
成相应的奖励信号;并根据获得的反馈信号对策略进行改进,以实现整个时间段内累计奖励最大化;由于列车制动时瞬时大功率、短时大能量的特性,在实现稳压节能的同时需要考虑混合储能系统的寿命保护,因此选取直流牵引电压u
dc
、混合储能功率给定p
hess_ref
、超级电容荷电状态soc
uc
、电池荷电状态soc
bat
、列车运行速度ω以及加速度a
c
作为agent观测到环境所处的状态s(state),状态空间表示为:
[0068]
s=[u
dc1
,p
hess_ref1
,soc
uc1
,soc
bat1
,ω1,a
c1
,...,u
dcn
,p
hess_refn
,soc
ucn
,soc
batn

n
,a
cn
]
ꢀꢀ
(6)
[0069]
2)连续动作空间选取与动作实施:
[0070]
在马尔可夫决策过程(mdp)后,v

td3从动作空间选取的永磁牵引功率再分配动作应当能够全面覆盖hess能量管理系统可行域,为避免其无法学习到能量管理全局最优决策,连续动作空间不可选取太小;但若选取过大,将使得v

td3训练效率大幅下降;因选择agent动作action为超级电容给定功率调整量δp
sc_ref
;策略π是状态集合s到动作集合a的映射函数:π:s

a,决定了不同系统状态下agent的行为;考虑超级电容功率波动范围,功率调整量进行动作连续化,得到连续动作空间a如式(7)所示;
[0071][0072]
其中,p
sc_ref0
为超级电容功率初始给定值;
[0073]
3)奖励函数设计:
[0074]
奖励信号r(reward)是环境对代理动作的反馈,agent学习的目标即获得最大累积奖励;奖励值分布的方差不能过大,否则将使v

td3训练时间过长且易陷入局部最优;但奖励值分布方差取值过小可能导致v

td3无法有效进行学习,因此选取agent奖励r为时间步长δt内稳压效率v%与节能效率e%以及soc
uc
安全变化的加权和,如式(8)所示;期望稳压节能效果最优的同时soc
uc
能够保持在安全范围[0.15,0.85]以内,从而实现过超级电容充过放保护;
[0075]
r=max[λ
·
v% μ
·
e% σ(0.15≤soc
uc
≤0.85)

η[(soc
uc

char
≥0.85)or(soc
uc

dis
≤0.15)]
ꢀꢀ
(8)
[0076]
其中,λ,μ,σ,η为权重系数,节能效率e%定义为安装混合储能系统前后变电所总输出能量变化量占无储能系统时变电所总输出能量的百分比;稳压效率v%采用直流牵引电压超出/低于限值部分的积分来评估,分别如式(9)和式(10)所示;soc
uc

char
和soc
uc

dis
分别表示充电/放电状态下的超级电容荷电状态值;
[0077][0078]
其中,分别为安装/未安装混合储能情况下直流牵引网电压,分别为安装/未安装混合储能情况下直流牵引网电流;
[0079]
[0080]
其中,分别为设置的直流牵引网电压安全上限值/安全下限值,δh/δl分别为列车运行工况内直流牵引电压超过安全上限值/下限值的时间;
[0081]
最终,设计在线训练

在线序贯决策方法,如图3所示。
[0082]
1)在线训练模块中,建立城轨牵引供电仿真平台并将其视为agent所处的环境,将能量管理算法agent与仿真平台进行交互,且每回合列车运行速度均随机初始至安全运行范围,通过agent的在线学习直至奖励收敛,训练出一种可以满足随机环境下的控制性能和调节经济性综合最优的策略。
[0083]
2)在线序贯决策模块中,采用rt

lab半实物实时仿真系统模拟实时运行工况。agent根据实时的系统状态信息进行决策,根据当前列车运行状态迅速做出最优决策,使其节能稳压效率最优,储能寿命保护最优,能够根据实时运行工况实现混合储能系统的功率动态分配。在线训练

在线决策结合的方式极大地缩短了实验中agent探索阶段,并且避免了因决策错误导致的安全问题,提高了能量管理算法的学习效率和安全性能。
[0084]
系统运行,具体运行步骤如下:
[0085]
step1:根据列车运行时,永磁牵引系统产生的实时牵引功率需求p
hess_ref
经低通滤波器得到分别得到超级电容高频功率指令p
sc_ref0
和电池低频功率指令p
bat_ref0

[0086]
step2:智能体agent通过与城轨永磁牵引供电环境在线交互训练,直至奖励稳定收敛后,用于半实物实时仿真系统中实现在线序贯决策,智能体根据列车运行工况在线输出超级电容实时功率补偿量δp
sc_ref

[0087]
step3:超级电容高频功率指令p
sc_ref0
与智能体输出的实时功率补偿量δp
sc_ref
相加得到超级电容实时功率指令p
sc_ref
,再由混合储能功率需求p
hess_ref
与p
sc_ref
差值得到地面电池实时功率指令p
bat_ref

[0088]
step4:超级电容实时功率指令p
sc_ref
经电流内环控制与内环超级电容电流i
sc
比较差值并经pi控制器后用于调节控制双向dc/dc变换器开关管驱动脉冲信号。地面电池通过电压电流双环级联控制以及k
c
限流环节实现充放电控制以及电池系统的限流保护。
[0089]
本发明中,采用永磁牵引系统与混合储能系统的能量协调控制,车载超级电容主要用于完成永磁牵引能量交换,地面电池用于承担低频功率指令并辅助供电;并考虑列车运行时永磁牵引功率需求和混合储能系统荷电状态以及列车运行状态,进一步设计在线学习

在线序贯决策方法,通过智能体(agent)“试错”和“反馈”的机制进行策略在线学习与优化,从而实现混合储能系统最优能量管理,有效稳定牵引网功率波动以及储能元件系统寿命保护,使得城市轨道交通系统更加节能环保。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献