一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于Q-Learning算法的输配电线路覆冰处置预案生成方法

2022-06-01 12:46:28 来源:中国专利 TAG:

基于q-learning算法的输配电线路覆冰处置预案生成方法
技术领域
1.本发明属于电力线路除冰优化技术领域,尤其涉及一种基于q-learning算法的输配电线路覆冰处置预案生成方法。


背景技术:

2.随着计算机技术及通信技术的发展,各类自动化装置不断被安装到电网系统中,它们收集了大量的有用数据,如覆冰厚度、杆塔倾角、导线张力、环境温度、湿度、风速风向等。目前,基于这些数据对未来几天的天气及覆冰发展情况进行预测的工作已成为研究热点,基于这些预测直接给出相应的覆冰处置方案,将大大提高处置工作的科学性和效率。但是,覆冰处置方面的预案多基于经验规则生成,不便于进行模拟演练和动态更改。因此,覆冰处置工作急需一种模型简单、描述能力强、易于实现模拟和动态调整的方法,以便对相关数据进行利用,自动实现不同场景下的覆冰处置方案的生成。


技术实现要素:

3.本发明的目的是提供一种基于q-learning算法的输配电线路覆冰处置预案生成方法,旨在解决现有技术中覆冰处置预案不方便进行模拟演练和动态更改的技术问题。
4.为解决上述技术问题,本发明所采取的技术方案是:一种基于q-learning算法的输配电线路覆冰处置预案生成方法,包括以下步骤:步骤1:基于openai gym库建立覆冰增长和发展、处置的环境模型;步骤2:基于q-learning算法,构建覆冰处置行动方案探索的智能体学习模型,并完成模型的训练;步骤3:基于步骤1中的环境模型,从中选择特定的环境模型作为预案所对应的环境;步骤4:将步骤2中训练好的智能体模型作用于步骤3的预案环境,计算出最优处理策略;步骤5:基于python-docx将步骤4中环境的每一步变化,和采取的每一步措施输出到处置预案的word文档;步骤6:基于gym库构建覆冰处置预案的演示动画,为培训处置人员提供帮助。
5.进一步地,所述步骤1包括以下步骤:步骤11:构建线路静态信息模型(1)构建杆塔与线路的类型及其连接模型;(2)构建线路的耐受张力模型;(3)构建线路的微环境气象模型及导线表面温度模型;步骤12:构建线路的动态运行数据的离散化模型(1)构建线路的历史覆冰厚度与倒杆、断线等故障信息模型;(2)构建线路的覆冰监测数据输入模型;
(3)构建线路的微气象信息输入模型;步骤13:构建处置行为与环境变化的单步交互模型;步骤14:构建覆冰处置的人力和财力上限模型,用于约束对覆冰处置行为的奖励;步骤15:构建环境对处置行为的奖励办法,以便训练出最优处置策略。
6.进一步地,所述步骤2包括如下步骤:步骤21:初始化覆冰处置行为集合;步骤22:构建环境的初始q表;步骤23:采用时间差分算法,尝试做出一种随机的处置行为,并循环更新q表。
7.进一步地,所述步骤3包括以下步骤:步骤31:考虑一些极端情况如连续雨雪天气、气温及湿度的组合情况,生成它们的组合情况;步骤32:将上述情况与线路的静态信息模型相结合,生成不同的应急处置场景,即一些确定的环境模型。
8.进一步地,所述步骤4包括以下步骤:步骤41:采用贪婪策略从q表中选取每个状态下的行动;步骤42:记录完整的状态行为序列,即可得到最优策略。
9.进一步地,所述步骤5包括以下步骤:步骤51:安装python-docx插件;步骤52:根据步骤42中记录的序列,按照指定的格式输出到word文档中,得到应急处置预案文档。
10.进一步地,所述步骤6包括以下步骤:步骤61:用户指定可能出现的环境情况;步骤62:系统根据用户指定的环境变化情况,生成相应的确定性环境;步骤63:采用贪婪策略从训练生成的q表中选取行动;步骤 64,将选取的行动在环境中执行,每执行一部调用环境中的render进行状态绘制,形成一帧一帧的演示动画。
11.采用上述技术方案所产生的有益效果在于: 与现有技术相比,本发明通过将与线路状态相关的数据构建为环境,采用强化学习完成决策优化,采用q-learning算法构建覆冰处置行动方案探索的智能体学习模型,在环境和智能体完成学习的基础上,给定场景组合,完成智能体和评价函数的学习即生成价值估计q表;对于每个场景让智能体与之交互,输出相应的环境和行为序列即为处置预案,采用word格式输出预案。本发明将冰期处置行为视为一种智能体的处理过程,通过对覆冰线路及状态进行建模,并采用强化学习的方法对覆冰发展态势进行预演,为覆冰处置决策提供帮助,该方法具有重要的现实意义和理论价值。
附图说明
12.下面结合附图和具体实施方式对本发明作进一步详细的说明。
13.图1是本发明实施例提供的一种基于q-learning算法的输配电线路覆冰处置预案生成方法的流程框图;
图2是本发明实施例中基于强化学习的覆冰处置过程;图3是本发明实施例中覆冰处置环境模型的构建过程。
具体实施方式
14.下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
15.随着深度学习技术的不断发展,其的应用领域也越来越广泛。强化学习具有很好的环境探索能力和策略优化能力。强化学习已经在机器人路径规划、游戏博弈等领域获得了很大的成功。近年来,强化学习也开始被应用于电力相关领域。一些文献提出了一种基于强化学习理论的地区电网无功电压优化控制方法、基于深度强化学习的电网紧急控制策略、基于强化学习的互联电网cps自校正控制方法、基于强化学习方法的风储合作决策以及基于强化学习的多成品率衰变设备预防维修策略等。这些研究都是强化学习在电力系统应用的有益尝试,也取得了较好的效果。
16.鉴于强化学习类算法在机器人、游戏ai及电力系统控制等领域已有成功应用,但将冰期处置行为视为一种智能体的处理过程,对覆冰线路及状态进行建模,并对覆冰发展态势进行预演属于一种全新的尝试,本发明即是将强化学习用于覆冰处置中,有助于优化覆冰处置预案,减少冰灾带来的经济损失和安全效益损失。该方法具有重要的现实意义和理论价值。
17.本发明提供的一种基于q-learning算法的输配电线路覆冰处置预案生成方法,具体流程如图1所示,包括以下步骤:步骤1:基于open ai的gym库建立覆冰增长和发展、处置的环境模型;具体包括以下步骤:步骤11:构建线路静态信息模型;步骤111:构建杆塔与线路的类型及其连接模型;(1)采用关系数据库表格存储杆塔信息,包含杆塔编号、杆塔位置、杆塔类型,所处地形等信息;(2)采用关系数据库表格存储架空导线的信息,包含线路类型,长度,使用年限等,线路的负荷情况等;(3)采用关系数据库表格存储杆塔与线路间的连接关系。
18.步骤112:构建线路的耐受张力模型;(1)采用关系数据库表格存储各架空导线的耐张信息;(2)采用关系数据库表格存储各杆塔的耐张信息。
19.步骤12:构建线路的动态运行数据的离散化模型;步骤121:构建线路的历史覆冰厚度与倒杆、断线等故障信息模型;(1)从历史故障中导入覆冰厚度与倒杆、断线等等信息;(2)挖掘覆冰厚度与故障间的关系,并在此基础上构建环境模型。
20.步骤122:构建线路的覆冰监测数据输入模型;
设计存储动态覆冰厚度变化的表格;以一定的频率(如每15分钟采集一组数据)将覆冰厚度监测数据存储到表格中。
21.步骤123:构建线路的微气象信息输入模型;(1)设计存储气象信息和温度信息的表格结构,信息包含:环境温度、湿度、风速、风向和导线表面温度数据;(2)以一定的频率(如每15分钟采集一组数据)将气象及导线温度数据存储到表格中。
22.步骤13:构建处置行为与环境变化的单步交互模型,如图2所示:步骤131:采用python语言设计一个覆冰处置的类,实现环境模型的构建;包含状态(环境的离散情况)和行为;步骤132:实现类中的step函数,根据处置行为改变环境状态,并计算该行为获得的奖励值。
23.步骤14:构建覆冰处置的人力和财力上限模型,用于约束对覆冰处置行为的奖励;(1)在计算行为奖励算法时,将覆冰处置的人力和财力上限作为参考因素。
24.(2)当智能体的连续行为导致人力和材料上限时给与行为一个较大的惩罚值(负值奖励)。
25.步骤15:构建环境对处置行为的奖励办法,以便训练出最优处置策略;(1)构建覆冰期结束时的奖励函数,奖励值=故障次数*(-100) (1-故障几率)*10 剩余百分比*(10)。
26.(2)根据奖励函数,和结束时的与线路状态、故障次数、剩余人力和财力的计算奖励值。
27.综上,覆冰处置的环境模型的构建过程如图3所示,基于固有状态和变化状态设计状态模型,基于线路集合和动作集合设计行为模型,根据整体目标设计奖励模型。
28.步骤2:基于q-learning算法,构建覆冰处置行动方案探索的智能体学习模型,并完成模型的训练;具体包括如下步骤:步骤21:初始化覆冰处置行为集合;步骤211:构建可处置的对象集合,以整条线路为基本的处理对象,处置集合大小即为线路的条数,线路的集合为l;步骤212:构建基本处置动作集合包含预防检修、变压器融冰、人工除冰,不处理等,该集合为s;步骤213:将上述两个集合组合形成行动集合a=l
×
s。
29.步骤22:构建环境的初始q表;初始q表的构建过程如下所示:
步骤221:根据环境中线路数量、气象数据的离散组合、覆冰状态的离散值,构建环境的状态集合s;步骤222:初始化每个状态所对应的估计价值为0,得到初始q表。
30.步骤23:采用时间差分算法,尝试做出一种随机的处置行为,并循环更新q表。
31.步骤231:设定外层死循环,每一次循环为一幕,即从覆冰开始到覆冰结束的所有时间步;步骤232:对于每一个状态计算并更新其q值;步骤233:根据设定的增量阈值判断是否终止外层循环。
32.步骤3:基于步骤1中的环境模型,从中选择特定的环境模型作为预案所对应的环境;具体包括以下步骤:步骤31:考虑一些极端情况如连续雨雪天气、气温及湿度的组合情况,生成它们的组合情况。
33.步骤311:构建离散的天气集合w={雨、雪、晴、阴},和天气持续时长(天数)的组合关系;步骤312:构建温度和湿度的离散组合,以及他们和持续化时长的组合关系;步骤313:构建覆冰厚度的离散集合i={零、轻度、中度、重度};步骤314:将上述多步的集合进行组合生成组合天气即覆冰情况;步骤315:选择几种典型的情况作为应急处置的典型情况。
34.步骤32:将上述情况与线路的静态信息模型相结合,生成不同的应急处置场景,即一组确定的环境模型。
35.步骤321:根据环境模型生成环境中的状态; 步骤322:采用python 语言实现模型中的状态,并采用文件方式实现状态的存储。
36.步骤4:将步骤2中训练好的智能体作用于步骤3的预案环境,计算出最优处理策
略;具体包括以下步骤:步骤41:采用贪婪策略从q表中选取每个状态下的行动;步骤411:从学习到的q表中查找当前状态下,取值行为价值最大的行动a。
37.步骤421:在环境中执行行动a,并记录执行a后得到的新的状态。
38.步骤42:记录完整的状态行为序列,即可得到最优策略。
39.步骤5:基于python-docx将步骤4中环境的每一步变化,和采取的每一步措施输出到处置预案的word文档。具体包括以下步骤:步骤51:安装python-docx插件;步骤52:根据步骤42中记录的序列,按照指定的格式输出到word文档中,得到应急处置预案文档。
40.步骤521:选取一种环境组合关系,即一种应急情况;步骤522:在应急预案生成程序中,根据将42中得到的状态,行为序列关系输出到word文档中。
41.步骤6:基于gym库构建覆冰处置预案的演示动画,为培训处置人员提供帮助。具体包括以下步骤:步骤61:用户指定可能出现的环境情况;步骤611:用户在演示程序中,设定各种环境的取值;步骤612:用户对设定的环境参数,指定其在覆冰期的出现频率和时间长度(天数)。
42.步骤62:系统根据用户指定的环境变化情况,生成相应的确定性环境;步骤621:根据用户指定的环境组合生成环境相关的参数;步骤622:根据用户指定的人力和财力上线,设计新的奖励函数;步骤623:根据上述步骤生成环境类。
43.步骤63:采用贪婪策略从训练生成的q表中选取行动;步骤631:从覆冰期开始的第一天开始循环,直到覆冰期结束;步骤632:根据用户设定的时间步(每一幕的时间长度)选取相应的环境状态;步骤633:根据环境状态和训练好的q表,采用贪婪策略选取价值最大的行为,并执行step函数,进入下状态。
44.步骤 64,将选取的行动在环境中执行,每执行一部调用环境中的render进行状态绘制,形成一帧一帧的演示动画。
45.步骤641:跟随步骤631的循环步骤进行执行;步骤642:采用python的图形输出类完成动画中每一帧的图形绘制,并延时一段时间以便能以动画形式展现状态变化。
46.综上所述,本发明提供的一种基于q-learning算法的输配电线路覆冰处置预案生成方法,该方法不仅能够完成覆冰期间线路状态的建模、优化方案探索的智能体的建模,并能根据线路状态及覆冰态势自动生成处置预案。因此本发明可对应急预案软件设计提供指导,对提高覆冰处置工作的成效具有重要意义。
47.在上面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的
情况下做类似推广,因此本发明不受上面公开的具体实施例的限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献