一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于DDPG算法的电能计量装置运维策略优化方法与流程

2022-06-22 19:19:37 来源:中国专利 TAG:

一种基于ddpg算法的电能计量装置运维策略优化方法
技术领域
1.本发明涉及电能计量装置运维管理领域,尤其涉及一种基于ddpg算法的电能计量装置运维策略优化方法。


背景技术:

2.电能计量装置包括电压互感器、电流互感器、二次回路和电能表,是发电集团、电网公司、售电公司、用电客户之间进行公平公正交易、准确贸易结算的重要工具,同时也是电网企业内部进行线损考核、母线平衡计算的重要依据,电能计量装置运行的准确性和稳定性关系到了贸易双方的经济利益,也关系到企业内部的经济效益。周期检修是电能计量装置根据电能计量装置管理规程按照其电能计量装置分类要求的周期时间所进行的现场校验。随着电能计量装置的数量规模逐渐增多,按照规程要求的周期校验将浪费大量的人力物力,对企业效益造成损害。
3.针对电能计量装置周期检修造成的“检修不足”、“运维过度”的问题,本发明提出了一种基于ddpg(deep deterministic policy gradient,深度确定性策略梯度)算法的电能计量装置运维策略优化方法,将强化学习的思想用以解决电能计量装置运维策略的优化问题,摆脱了传统运维方式中的人为经验的约束,降低了运维成本,提高了运维效率。


技术实现要素:

4.本发明针对现有技术中存在的技术问题,提供一种基于ddpg算法的电能计量装置运维策略优化方法将强化学习的思想用以解决电能计量装置运维策略的优化问题,摆脱了传统运维方式中的人为经验的约束,降低了运维成本,提高了运维效率。
5.根据本发明的第一方面,提供了一种基于ddpg算法的电能计量装置运维策略优化方法,包括:步骤1,在历史数据中选择电能计量装置的各个误差状态参数建立表示电能计量装置误差状态的决策特征向量,根据所述决策特征向量计算得到电能计量装置的误差状态评分,基于所述误差状态评分和设定的阈值范围评估所述电能计量装置的误差状态为稳定、良好或预警;步骤2,建立基于ddfg算法的运维模型,所述运维模型的actor网络为电能计量装置生成运维动作;所述运维模型的critic网络评估运维动作的表现,并指导策略函数生成下一阶段的运维动作;根据所述步骤1中得到所述误差状态及对应的运维动作对所述运维模型进行迭代更新训练;步骤3,基于所述运维模型对待评估的所述电能计量装置对应的所述阈值范围进行迭代优化,根据优化后的所述阈值范围和所述运维模型确定待评估的所述电能计量装置的运维策略。
6.在上述技术方案的基础上,本发明还可以作出如下改进。
7.可选的,所述步骤1中,所述决策特征向量为,其中,
为实时误差估计值,为短期预测误差估计值序列,为长期预测误差估计值序列,w为稳定性状态。
8.可选的,所述步骤1中,所述电能计量装置的误差状态参数的获取方法包括:采用基于数据驱动的算法计算得到所述实时误差估计值;对电能计量装置的误差数据进行预处理并剥离为自身误差和附加误差,并利用arima算法构造趋势预测模型,将所述自身误差输入所述趋势预测模型得到所述电能计量装置的自身误差短期预测值,根据温度信息和频率信息计算待测电能计量装置的附加误差短期预测值,将所述自身误差预测值和附加误差预测值相加得到所述短期预测误差估计值序列;将多个所述自身误差处理为时间序列,将所述时间序列输入到训练完成的lstm模型中,得到所述电能计量装置的自身误差长期预测值;根据温度信息和频率信息计算所述电能计量装置的附加误差长期预测值;融合所述自身误差长期预测值和附加误差长期预测值,得到所述长期预测误差估计值序列;构建并获取所述电能计量装置的稳定性状态评估指标,建立电能计量装置稳定性状态指标数据模型,包括:突变误差稳定频次函数模型、突变误差不稳定频次函数模型、渐变误差单调显著性函数模型和渐变误差标准偏差函数模型;采用层次分析理论对各状态评估指标的重要性进行比较,确定状态评估指标的权重,根据电能计量装置稳定性状态指标数据模型的各个状态评估指标的结果和对应的权重计算电能计量装置稳定性状态评分,根据电能计量装置稳定性状态评分评估电能计量装置稳定性状态w为稳定、轻度稳定、中度稳定或重度稳定;所述步骤1中,对所述决策特征向量的各项所述误差状态参数采用加权综合评分的方法进行计算后,得到所述误差状态评分。
9.可选的,所述步骤1中根据所述决策特征向量计算得到电能计量装置的误差状态评分的过程包括:步骤101,基于所述电能计量装置的误差估计值、误差估计值的标准差和精度k建立电能计量装置的误差状态评分模型;步骤102,基于所述误差状态评分模型,分别计算为实时误差估计值、短期预测误差估计值序列和长期预测误差估计值序列的误差状态评分分别为、和;步骤103,对电能计量装置的稳定性w按照稳定性程度为稳定、轻度稳定、中度稳定和重度稳定设置对应的权值分别为、、和,得到;步骤104,对各个所述误差状态参数的误差状态评分采用加权综合评分的方法进行计算得到电能计量装置的误差状态评分;步骤105,设定表示所述电能计量装置的误差状态为稳定、良好或预警的对应的误差状态评分的各个所述阈值范围,根据所述误差状态评分所处的阈值范围评估所述电能计量装置的误差状态。
10.可选的,所述步骤1和所述步骤3中用评分阈值参数、和表示所述阈值范围:所述电能计量装置的误差状态;其中,、和分别表示稳定、良好和预警;为电能计量装置的误差状态评分,评分阈值参数、和满足。
11.可选的,所述步骤101中建立的所述误差状态评分模型为:;其中,为基于误差估计值计算得到的电能计量装置误差真值超出区间[-k,k]的概率:。
[0012]
可选的,所述步骤102中所述误差状态评分、和的计算公式分别为:;;;其中,i和j为常数。
[0013]
可选的,所述步骤104中计算电能计量装置的误差状态评分为:。
[0014]
可选的,所述步骤2中对所述运维模型的目标q值的计算过程包括:步骤201,设t时刻,电能计量装置的误差状态为,运维动作为:; ;
其中,、和分别表示顺延一个校验周期、按照规定周期进行和安排现场校验;步骤202,定义函数表示确定性运维动作策略,所述电能计量装置在任意t时刻的运维动作的计算公式为:;步骤203,定义参数和函数j,所述参数为对所述函数进行模拟的策略网络的参数,所述函数j为衡量所述函数表示的运维动作策略的表现的函数;;其中,为分布函数;表示在不同的误差状态下,按照函数表示的运维动作策略时能产生的q值;是误差状态根据分布时的期望值;步骤204,在所述电能计量装置的误差状态为下采取运维动作后,且持续执行所述函数表示的运维动作策略的情况下,计算目标值为:;其中,为折扣因子,r为回报值。
[0015]
可选的,所述步骤3包括:步骤301,定义电能计量装置的误差状态与运维动作的关系函数满足:当电能计量装置的误差状态分别为、和时,执行的运维动作分别对应为、和;步骤302,基于所述步骤2中所述运维模型中目标的值与函数对应的确定性动作策略,对设置初始的所述评分阈值参数、和进行迭代优化,得到优化后的所述评分阈值参数、和,表示优化迭代次数。
[0016]
本发明提供的一种基于ddpg算法的电能计量装置运维策略优化方法,采用加权综合评分的方法以及动态阈值的设定,保证了电能计量装置误差状态评估的准确性;建立了基于ddpg算法的运维模型,对电能计量装置的运维策略进行了优化,降低了运维成本,提高了运维效率;将强化学习的思想用以解决电能计量装置运维策略的优化问题,摆脱了传统运维方式中的人为经验的约束,降低了运维成本,提高了运维效率。
附图说明
[0017]
图1为本发明提供的一种基于ddpg算法的电能计量装置运维策略优化方法的流程图;图2为ddpg的网络结构示意图;图3本发明实施例提供的一种评分阈值参数优化方法示意图。
具体实施方式
[0018]
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
[0019]
图1为本发明提供的一种基于ddpg算法的电能计量装置运维策略优化方法的流程图,如图1所示,该运维策略优化方法包括:步骤1,在历史数据中选择电能计量装置的各个误差状态参数建立表示电能计量装置误差状态的决策特征向量,根据决策特征向量计算得到电能计量装置的误差状态评分,基于误差状态评分和设定的阈值范围评估电能计量装置的误差状态为稳定、良好或预警。
[0020]
步骤2,建立基于ddfg算法的运维模型,运维模型的actor网络为电能计量装置生成运维动作;运维模型的critic网络评估运维动作的表现,并指导策略函数生成下一阶段的运维动作;根据步骤1中得到误差状态及对应的运维动作对运维模型进行迭代更新训练。
[0021]
ddpg算法继承了dpg( deterministic policy gradient,确定性策略梯度)算法的确定性策略,智能体根据状态决策输出确定性动作,并且ddpg采用深度神经网络,增强对决策函数的拟合能力。相比随机性策略,ddpg大大减少了采样数据量,提高了算法的效率,更有助于智能体在连续动作空间中进行学习。
[0022]
ddpg的网络结构如图2所示,通过图2可知,ddpg算法采用actor-critic框架形式,主要包含演员(actor)网络和评论家(critic)网络。actor网络负责为电能计量装置生成动作和环境交互,critic网络负责评估状态和动作的表现,并指导策略函数生成下一阶段的动作。actor和critic均采用双网络结构,拥有各自的目标(target)网络和估计(eval)网络。actor-eval网络主要负责策略网络参数的迭代更新,根据当前的状态s来选择动作a,在和环境交互过程中,生成下一时刻的状态和执行当前动作产生的回报值r。actor-target网络负责根据经验池中采样下一状态选择最优的下一时刻动作。网络参数定期从actor-eval网络中的复制。critic-eval网络主要是对网络参数的迭代更新,计算当前q值和目标q值,其中表示折扣因子,影响训练过程中未来奖励相对于当前奖励的重要程度。critic-target网络中主要参数是从定期复制critic-eval网络的参数得来的,主要负责计算目标q值中的。
[0023]
步骤3,基于运维模型对待评估的电能计量装置对应的阈值范围进行迭代优化,根据优化后的阈值范围和运维模型确定待评估的电能计量装置的运维策略。
[0024]
本发明提供一种基于ddpg算法的电能计量装置运维策略优化方法,将强化学习的思想用以解决电能计量装置运维策略的优化问题,摆脱了传统运维方式中的人为经验的约束,降低了运维成本,提高了运维效率。
[0025]
实施例1本发明提供的实施例1为本发明提供的一种基于ddpg算法的电能计量装置运维策略优化方法的实施例,结合图1可知,该运维策略优化方法的实施例包括:步骤1,在历史数据中选择电能计量装置的各个误差状态参数建立表示电能计量装置误差状态的决策特征向量,根据决策特征向量计算得到电能计量装置的误差状态评分,基于误差状态评分和设定的阈值范围评估电能计量装置的误差状态为稳定、良好或预
警。
[0026]
在一种可能的实施例方式中,步骤1中建立的决策特征向量为,其中,为实时误差估计值,为短期预测误差估计值序列,为长期预测误差估计值序列,w为稳定性状态。即该电能计量装置的误差状态参数包括:实时误差估计值、短期预测误差估计值序列、长期预测误差估计值序列和稳定性状态。
[0027]
在一种可能的实施例方式中,步骤1中,电能计量装置的误差状态参数的获取方法包括:1)采用基于数据驱动的算法计算得到实时误差估计值。
[0028]
2)对电能计量装置的误差数据进行预处理并剥离为自身误差和附加误差,并利用arima(auto regression integreate moving average,差分自回归移动平均)算法构造趋势预测模型,将自身误差输入趋势预测模型得到电能计量装置的自身误差短期预测值,根据温度信息和频率信息计算待测电能计量装置的附加误差短期预测值,将自身误差短期预测值和附加误差短期预测值相加得到短期预测误差估计值序列,如公式(1)所示。
[0029]
ꢀꢀꢀꢀꢀ
(1)m为常数。
[0030]
3)将多个自身误差处理为时间序列,将时间序列输入到训练完成的lstm模型中,得到电能计量装置的自身误差长期预测值;根据温度信息和频率信息计算电能计量装置的附加误差长期预测值;融合自身误差长期预测值和附加误差长期预测值,得到长期预测误差估计值序列,如公式(2)所示。
[0031]
ꢀꢀꢀꢀ
(2)n为常数。
[0032]
4)构建并获取电能计量装置的稳定性状态评估指标,建立电能计量装置稳定性状态指标数据模型,包括:突变误差稳定频次函数模型、突变误差不稳定频次函数模型、渐变误差单调显著性函数模型和渐变误差标准偏差函数模型;采用层次分析理论对各状态评估指标的重要性进行比较,确定状态评估指标的权重,根据电能计量装置稳定性状态指标数据模型的各个状态评估指标的结果和对应的权重计算电能计量装置稳定性状态评分,根据电能计量装置稳定性状态评分评估电能计量装置稳定性状态w为稳定、轻度稳定、中度稳定或重度稳定。
[0033]
其中,、和分别表示各个时刻,且。
[0034]
在一种可能的实施例方式中,步骤1中,对决策特征向量的各项误差状态参数采用加权综合评分的方法进行计算后,得到误差状态评分。
[0035]
在一种可能的实施例方式中,步骤1中根据决策特征向量计算得到电能计量装置的误差状态评分的过程包括:步骤101,基于电能计量装置的误差估计值、误差估计值的标准差(为常数)和精度k(k为常数)建立电能计量装置的误差状态评分模型。
[0036]
可以理解的是,对于一支待评估的电能计量装置,将其误差真值、算法获取的误差估计值分别记作和,服从如下分布:,故基于误差估计值计算电能计量装置误差真值超出区间[-k,k]的概率,如公式(3)所示:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)具体计算为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)基于概率计算电能计量装置的误差状态评分:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)步骤102,基于误差状态评分模型,分别计算为实时误差估计值、短期预测误差估计值序列和长期预测误差估计值序列的误差状态评分分别为、和。
[0037]
可以理解的是,步骤102中误差状态评分、和的计算公式分别为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
ꢀꢀꢀꢀꢀꢀ
(7)
ꢀꢀꢀꢀꢀꢀꢀꢀ
(8)其中,i和j为常数。
[0038]
步骤103,对电能计量装置的稳定性w按照稳定性程度为稳定、轻度稳定、中度稳定和重度稳定设置对应的权值分别为、、和,得到。
[0039]
具体实施中,该权值可以通过专家判断的方法进行确定。
[0040]
步骤104,对各个误差状态参数的误差状态评分采用加权综合评分的方法进行计算得到电能计量装置的误差状态评分。
[0041]
步骤104中计算电能计量装置的误差状态评分为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)
步骤105,设定表示电能计量装置的误差状态为稳定、良好或预警的对应的误差状态评分的各个阈值范围,根据误差状态评分所处的阈值范围评估电能计量装置的误差状态。
[0042]
具体实施中,各个误差状态评分对应的各个阈值范围可以通过专家判断的方法进行确定。
[0043]
在一种可能的实施例方式中,步骤1和步骤3中用评分阈值参数、和表示阈值范围:电能计量装置的误差状态:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(10)其中,、和分别表示稳定、良好和预警;为电能计量装置的误差状态评分,评分阈值参数、和满足。
[0044]
步骤2,建立基于ddfg算法的运维模型,运维模型的actor网络为电能计量装置生成运维动作;运维模型的critic网络评估运维动作的表现,并指导策略函数生成下一阶段的运维动作;根据步骤1中得到误差状态及对应的运维动作对运维模型进行迭代更新训练。
[0045]
在一种可能的实施例方式中,步骤2中对运维模型的目标q值的计算过程包括:步骤201,设t时刻,电能计量装置的误差状态为,运维动作为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(12)其中,、和分别表示顺延一个校验周期、按照规定周期进行和安排现场校验。
[0046]
步骤202,定义函数表示确定性运维动作策略,电能计量装置在任意t时刻的运维动作的计算公式为:。
[0047]
步骤203,定义参数和函数j,参数为对函数进行模拟的策略网络的参数,函数j为衡量函数表示的运维动作策略的表现的函数。
[0048]
ꢀꢀ
(13)其中,为分布函数;表示在不同的误差状态下,按照函数表示的运维动作策略时能产生的q值;是误差状态根据分布时的期望值。
[0049]
步骤204,在电能计量装置的误差状态为下采取运维动作后,且持续执行函
数表示的运维动作策略的情况下,计算目标值为:
ꢀꢀꢀꢀꢀꢀ
(14)其中,为折扣因子,r为回报值。
[0050]
步骤3,基于运维模型对待评估的电能计量装置对应的阈值范围进行迭代优化,根据优化后的阈值范围和运维模型确定待评估的电能计量装置的运维策略。
[0051]
如图3所示本发明实施例提供的一种评分阈值参数优化方法示意图,结合图3可知,在一种可能的实施例方式中,步骤3包括:步骤301,定义电能计量装置的误差状态与运维动作的关系函数满足:当电能计量装置的误差状态分别为、和时,执行的运维动作分别对应为、和。
[0052]
步骤302,基于步骤2中运维模型中目标的值与函数对应的确定性动作策略,对设置初始的评分阈值参数、和进行迭代优化,得到优化后的评分阈值参数、和,表示优化迭代次数。
[0053]
具体地,当执行t时刻电能计量装置的误差状态为下的运维动作后如果较小,则说明设置的电能计量装置误差状态评分的初始的评分阈值参数、和设置过小,就需要调大该评分阈值参数。
[0054]
根据优化后的电能计量装置误差状态评分阈值和基于ddfg算法的运维模型指导电能计量装置运维。
[0055]
本发明实施例提供的一种基于ddpg算法的电能计量装置运维策略优化方法,采用加权综合评分的方法以及动态阈值的设定,保证了电能计量装置误差状态评估的准确性;建立了基于ddpg算法的运维模型,对电能计量装置的运维策略进行了优化,降低了运维成本,提高了运维效率;将强化学习的思想用以解决电能计量装置运维策略的优化问题,摆脱了传统运维方式中的人为经验的约束,降低了运维成本,提高了运维效率。
[0056]
需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其它实施例的相关描述。
[0057]
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0058]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产
生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0059]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0060]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0061]
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
[0062]
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献