一种电力设备档案类数据治理方法及系统与流程

2022-02-20 06:10:48 来源：中国专利 TAG：

1.本发明涉及电力设备数据管理技术领域，特别是涉及一种电力设备档案类数据治理方法及系统。

背景技术：

2.电力设备的档案类数据是电网生产工作开展的基础，基层班组人员负责对电力设备档案数据录入、更新和维护，现场电力设备运维、检修、检测、试验等各项生产工作均需以电力设备档案数据为基础，只有档案数据准确，才能确保相关运维检修业务记录可以准确无误登记在其生产管理系统中。然而，由于数据来源不同、同一数据统计口径不同、一线人员数据录入、异常行为等问题以及缺乏相应的数据质量管控体系，常常会导致异常数据产生。这些数据问题影响了电网内部业务的开展，同时也影响了基于这些档案数据的上层应用建设。故而有必要设计一种基于分布式计算的电力设备档案类数据治理平台，提高数据质量管控效率，提升档案数据质量，从而实现这些数据资源的深度应用。
3.现有的大多数数据治理方法都是针对与电力设备运行过程中量测类数据，即采用一些人工智能算法对量测类数据进行异常识别，然后进行数据的修正和填补，而由于档案类数据大多数是文本类数据，采用机器学习算法对数据进行治理的难度较大，实现较为困难。

技术实现要素：

4.为了克服现有技术的不足，本发明的目的是提供一种电力设备档案类数据治理方法及系统，能够提高电力档案类数据的质量。
5.为实现上述目的，本发明提供了如下方案：
6.一种电力设备档案类数据治理方法，包括：
7.对电力设备业务和所述电力设备业务的档案数据进行数据理解，得到数据录入规范库；
8.根据所述数据录入规范库，将电力设备档案类数据从电力设备数据仓库中提取到spark并行计算模型中，得到弹性分布式数据集；
9.基于所述数据录入规范库，调用所述spark并行计算模型中的正则表达式标准库建立档案类异常数据筛选算法模型；
10.根据所述档案类异常数据筛选算法模型对所述弹性分布式数据集进行筛选和统计，得到待修正的档案类数据集；
11.基于所述spark并行计算模型中api调用函数对所述待修正的档案类数据集进行修正，得到数据治理完成的档案类数据集。
12.优选地，所述对电力设备业务和所述电力设备业务的档案数据进行数据理解，得到数据录入规范库，包括：
13.对所述电力设备业务进行解析，得到业务知识数据；所述业务知识数据包括：电力
设备业务结构数据、数据治理需求数据和目标完成数据；
14.判断所述档案数据中的异常数据集合和异常数据原因；
15.基于所述档案数据、所述业务知识数据、所述异常数据集合和所述异常数据原因构建所述数据录入规范库。
16.优选地，所述根据所述数据录入规范库，将电力设备档案类数据从电力设备数据仓库中提取到spark并行计算模型中，得到弹性分布式数据集，包括：
17.依据所述数据录入规范库，将所述电力设备档案类数据从所述电力设备数据仓库导入到所述spark并行计算模型，得到初始数据集；
18.对所述初始数据集进行完整性检查，得到检查后的所述弹性分布式数据集。
19.优选地，所述基于所述数据录入规范库，调用所述spark并行计算模型中的正则表达式标准库建立档案类异常数据筛选算法模型，包括：
20.参照所述数据录入规范库，根据预设业务需求建立电力设备档案类数据异常识别规则；
21.根据所述电力设备档案类数据异常识别规则，调用所述spark并行计算模型提供的正则表达式标准库，建立所述档案类异常数据筛选算法模型。
22.优选地，在根据所述电力设备档案类数据异常识别规则，调用所述spark并行计算模型提供的正则表达式标准库，建立所述档案类异常数据筛选算法模型之后，还包括：
23.利用所述spark并行计算模型中的集群驱动器读取所述档案类异常数据筛选算法模型的输入任务，并将所述输入任务分发给多个执行器处理，得到运行结果；
24.基于所述运行结果，统计档案类数据指标中的异常数据；
25.根据所述运行结果和所述异常数据对所述电力设备档案类数据异常识别规则进行完善，得到完善后的电力设备档案类数据异常识别规则；
26.根据所述完善后的电力设备档案类数据异常识别规则对所述档案类异常数据筛选算法模型进行优化，得到优化后的档案类异常数据筛选算法模型。
27.优选地，在所述根据所述完善后的电力设备档案类数据异常识别规则对所述档案类异常数据筛选算法模型进行优化，得到优化后的档案类异常数据筛选算法模型之后，还包括：
28.根据所述优化后的档案类异常数据筛选算法模型的输出结果建立统计信息错误表。
29.优选地，所述基于所述spark并行计算模型中api调用函数对所述待修正的档案类数据集进行修正，得到数据治理完成的档案类数据集，包括：
30.基于spark提供的结构化api调用函数，对所述待修正的档案类数据集进行数据删除、数据填充和数据更正，得到所述数据治理完成的档案类数据集；
31.其中，所述数据删除的步骤包括：
32.对所述待修正的档案类数据集中的重复数据进行去重保存；
33.根据所述数据理解和所述电力设备档案类数据异常识别规则删除所述待修正的档案类数据集中的缺失数据；
34.所述数据填充的步骤包括：
35.根据缺失值填充方法对所述待修正的档案类数据集中的缺失值数据进行填充；
36.所述数据更正的步骤包括：
37.对所述待修正的档案类数据集中的格式错误数据进行批量更正。
38.一种电力设备档案类数据治理系统，包括：
39.数据理解模块，用于对电力设备业务和所述电力设备业务的档案数据进行数据理解，得到数据录入规范库；
40.数据提取模块，用于根据所述数据录入规范库，将电力设备档案类数据从电力设备数据仓库中提取到spark并行计算模型中，得到弹性分布式数据集；
41.模型建立模块，用于基于所述数据录入规范库，调用所述spark并行计算模型中的正则表达式标准库建立档案类异常数据筛选算法模型；
42.筛选模块，用于根据所述档案类异常数据筛选算法模型对所述弹性分布式数据集进行筛选和统计，得到待修正的档案类数据集；
43.数据修正模块，用于基于所述spark并行计算模型中api调用函数对所述待修正的档案类数据集进行修正，得到数据治理完成的档案类数据集。
44.优选地，所述数据理解模块具体包括：
45.解析单元，用于对所述电力设备业务进行解析，得到业务知识数据；所述业务知识数据包括：电力设备业务结构数据、数据治理需求数据和目标完成数据；
46.判断单元，用于判断所述档案数据中的异常数据集合和异常数据原因；
47.规范库构建单元，用于基于所述档案数据、所述业务知识数据、所述异常数据集合和所述异常数据原因构建所述数据录入规范库。
48.优选地，所述数据提取模块具体包括：
49.导入单元，用于依据所述数据录入规范库，将所述电力设备档案类数据从所述电力设备数据仓库导入到所述spark并行计算模型，得到初始数据集；
50.检查单元，用于对所述初始数据集进行完整性检查，得到检查后的所述弹性分布式数据集。
51.根据本发明提供的具体实施例，本发明公开了以下技术效果：
52.本发明提供了一种电力设备档案类数据治理方法及系统，通过业务和数据理解、数据提取、模型建立、数据修正等步骤将电力设备档案类数据治理方法完善为一套流程，降低了数据治理的工作难度，并利用spark并行计算模型进行高复用率的内存计算，以及结合正则表达式的建模方法进行算法建模，本发明能够提高档案类数据异常识别的工作效率，并且具有高扩展性和良好的性能。
附图说明
53.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
54.图1为本发明提供的实施例中的电力设备档案类数据治理方法的方法流程图；
55.图2为本发明提供的实施例中的电力设备档案类数据治理方法的实施步骤示意图；
56.图3为本发明提供的实施例中的电力设备档案类数据治理系统的模块连接图。
具体实施方式
57.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
58.在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。
59.本技术的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤、过程、方法等没有限定于已列出的步骤，而是可选地还包括没有列出的步骤，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤元。
60.本发明针对现有技术中的问题：电力设备档案关键参数缺失、电力设备档案名称填写不规范，导致无法识别和电力设备档案参数填写错误或与电力设备现场实际情况不一致，提供了一种电力设备档案类数据治理方法及系统，能够提高电力档案类数据的质量。
61.为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。
62.图1为本发明提供的实施例中的电力设备档案类数据治理方法的方法流程图，如图1所示，本发明提供了一种电力设备档案类数据治理方法，包括：
63.步骤100：对电力设备业务和所述电力设备业务的档案数据进行数据理解，得到数据录入规范库；
64.步骤200：根据所述数据录入规范库，将电力设备档案类数据从电力设备数据仓库中提取到spark并行计算模型中，得到弹性分布式数据集；
65.步骤300：基于所述数据录入规范库，调用所述spark并行计算模型中的正则表达式标准库建立档案类异常数据筛选算法模型；
66.步骤400：根据所述档案类异常数据筛选算法模型对所述弹性分布式数据集进行筛选和统计，得到待修正的档案类数据集；
67.步骤500：基于所述spark并行计算模型中api调用函数对所述待修正的档案类数据集进行修正，得到数据治理完成的档案类数据集。
68.具体的，本实施例中电力设备业务理解及其档案数据理解，能够实现数据录入的规范化，保证模型的有效性。
69.优选地，所述步骤100包括：
70.对所述电力设备业务进行解析，得到业务知识数据；所述业务知识数据包括：电力设备业务结构数据、数据治理需求数据和目标完成数据；
71.判断所述档案数据中的异常数据集合和异常数据原因；
72.基于所述档案数据、所述业务知识数据、所述异常数据集合和所述异常数据原因构建所述数据录入规范库。
73.可选地，所述步骤100中电力设备业务理解及其档案数据理解应从电力数据的应用场景出发包括以下四点：
74.a)理解电力设备业务结构；
75.b)将业务知识转化为数据治理问题的需求和实现目标的初步计划；
76.c)初步判断档案数据中可能产生的异常和无效数据及其产生原因；
77.d)建立数据录入规范库，对建模数据的各类指标属性进行规范化。
78.优选地，所述步骤200包括：
79.依据所述数据录入规范库，将所述电力设备档案类数据从所述电力设备数据仓库导入到所述spark并行计算模型，得到初始数据集；
80.对所述初始数据集进行完整性检查，得到检查后的所述弹性分布式数据集。
81.具体的，从电力设备数据仓库中提取电力设备档案类数据到spark并行计算平台(spark并行计算模型)步骤如下：
82.a)依据数据录入规范，将所需建模数据从电力设备数据仓库中导入到spark，形成可供并行计算的弹性分布式数据集；
83.b)对电力设备档案类数据进行检查，包括对数据地理空间属性、电力设备场站线、业务成员属性和电力设备部件/业务单元属性的唯一性筛查，建模数据需保持其主体设备参数的唯一性标识。
84.优选地，所述步骤300包括：
85.参照所述数据录入规范库，根据预设业务需求建立电力设备档案类数据异常识别规则；
86.根据所述电力设备档案类数据异常识别规则，调用所述spark并行计算模型提供的正则表达式标准库，建立所述档案类异常数据筛选算法模型。
87.优选地，在根据所述电力设备档案类数据异常识别规则，调用所述spark并行计算模型提供的正则表达式标准库，建立所述档案类异常数据筛选算法模型之后，还包括：
88.利用所述spark并行计算模型中的集群驱动器读取所述档案类异常数据筛选算法模型的输入任务，并将所述输入任务分发给多个执行器处理，得到运行结果；
89.基于所述运行结果，统计档案类数据指标中的异常数据；
90.根据所述运行结果和所述异常数据对所述电力设备档案类数据异常识别规则进行完善，得到完善后的电力设备档案类数据异常识别规则；
91.根据所述完善后的电力设备档案类数据异常识别规则对所述档案类异常数据筛选算法模型进行优化，得到优化后的档案类异常数据筛选算法模型。
92.优选地，在所述根据所述完善后的电力设备档案类数据异常识别规则对所述档案类异常数据筛选算法模型进行优化，得到优化后的档案类异常数据筛选算法模型之后，还包括：
93.根据所述优化后的档案类异常数据筛选算法模型的输出结果建立统计信息错误表。
94.具体的，异常档案数据提取模型的构建步骤如下：
95.a)参照数据录入规范库，根据业务需求初步建立电力设备档案类数据异常识别规则。
96.b)根据异常识别规则，调用spark中提供的正则表达式标准库，建立档案类异常数据筛选算法模型。
97.c)spark集群驱动器读取算法模型输入后，将任务分发给若干个执行器处理，执行其负责对不同异常识别算法的实现，基于算法模型运行结果，统计档案类数据指标中的异常；
98.d)根据c)中的结果，以满足数据质量的唯一性、完整性、一致性、有效性与准确性的要求完善异常识别规则，spark平台再次根据完善后的异常识别规则，运行模型并建立统计信息错误表。
99.优选地，所述步骤500包括：
100.基于spark提供的结构化api调用函数，对所述待修正的档案类数据集进行数据删除、数据填充和数据更正，得到所述数据治理完成的档案类数据集；
101.其中，所述数据删除的步骤包括：
102.对所述待修正的档案类数据集中的重复数据进行去重保存；
103.根据所述数据理解和所述电力设备档案类数据异常识别规则删除所述待修正的档案类数据集中的缺失数据；
104.所述数据填充的步骤包括：
105.根据缺失值填充方法对所述待修正的档案类数据集中的缺失值数据进行填充；
106.所述数据更正的步骤包括：
107.对所述待修正的档案类数据集中的格式错误数据进行批量更正。
108.具体的，根据模型筛选的异常数据，基于spark提供的结构化api调用函数，对电力设备档案类数据集修正步骤如下：
109.a)数据删除：对于重复的数据，需要直接去重保留一条记录；对于缺失数据，依据电力档案类数据理解和异常识别规则判断是否删除；
110.b)数据填充：应用于缺失值数据，依据指标不同属性，采用不同的缺失值填充方法；
111.c)数据更正：对于部分格式错误的数据(如日期格式不规范、分类错误、特征匹配错误)，本实施例可以批量更正数据，将错误数据或者不标准格式的数据进行修正。
112.d)得到数据质量高的电力设备档案类数据集。
113.图2为本发明提供的实施例中的电力设备档案类数据治理方法的实施步骤示意图，如图2所示，本实施例中还提供了将上述方法应用到实际的数据治理领域的具体步骤，以电力生产管理系统(powerproduction management system，pms)导线数据为例，其数据治理平台具体实施步骤如下：
114.步骤一具体过程如下：
115.(1)理解pms导线业务及需求：pms制造导线(电缆)的业务流程包括基础台账资料管理和缺陷管理，线路设备按一根杆，一张卡组织。每条电缆线都有一个对应的设备台帐，称为台帐卡，电缆的台帐卡组成的数据库记录所有电缆信息和所有电缆更改，对数据库的查询需要保证档案数据的高质量和准确性。
116.(2)pms导线数据异常及其产生原因初判：由于人员误操作和记录失误等原因使得档案数据中可能存在大量异常数据，为有针对性的修改数据需要对数据库中的档案数据台账种类、每种台账中的id编码、错误标签的名称、错误标签对应的参数名、错误数据、错误类型、检测时间、错误信息，说明等进行记录。
117.(3)建立pms导线基本数据录入规范库，包括数据库中的参数名称，计量单位，录入方式要求和各参数的填写说明。
118.2、步骤二的具体过程如下：
119.(1)依据pms导线基本数据录入规范库，将所需建模数据从pms数据仓库库导入到spark平台上，并建立弹性分布式数据集，数据总量为10万条。
120.(2)对pms导线数据库进行完整性检查，包括所属线路、所属地市、起始杆塔、终止杆塔、长度(m)、投运日期、供电区域、所属大馈线、设备状态、型号、是否代维、导线股数及规格、生产厂家、旋转方向、是否农网、导线类型、设备编码、登记时间、导线材质类型、设备主人、pm编码、电压等级名称、所属分段线路、专业分类、所属大馈线id、最大馈线支线id、分裂根数、导线截面(mm2)、导线最大允许电流(a)、破坏拉断力(n)、最大设计应力(mpa)、额定载流量(a)、安全系数、备注、电压等级代码、设备类型编码和设备id等39个参数。
121.3、步骤三的具体过程如下：
122.(1)依据步骤一中3建立的数据录入规范库，初步确定pms导线数据异常识别规则：
123.a)唯一性规则：所有导线参数唯一无重复
124.b)完整性规则：所有考核字段不得为空
125.c)准确性规则：1.10≤导线截面(mm2)≤400，2.50≤额定载流量(a)≤800。
126.d)一致性规则：
127.①
出厂日期早于投运日期；
128.②
若架设方式为“混合”，则架空线路长度、电缆线路长度、线路总长度任何一项不得为0；
129.③
若型号包含“yj”，则架空类型为“绝缘导线”；
130.④
若型号开头为“lgy”，则架空类型为“裸导线”；
131.⑤
长度(m)＝(终止杆塔编号-起始杆塔编号)
×
80；
132.⑥
农网与地区特征是否匹配('市中心区'，'县城区'，'市区’不与农网匹配，'农村'，'城镇','乡镇'与农网匹配)。
133.(2)根据(1)中pms数据异常识别规则，采用spark平台中的api调用正则表达式标准库实现对应的正则表达式方法，从而匹配pms相应的文本和字符数据，建立pms导线异常数据筛选算法模型。
134.(3)基于(2)中执行模型后得到的模型运行结果，统计档案类数据指标中的异常(列举部分：型号判断，农网分类)如表1和表2所示；表1为型号判断(部分)示意表，表2为农网判断(部分)示意表。
135.表1
[0136][0137]
表2
[0138][0139]
(4)根据(3)中的结果，修正pms数据异常识别规则为
[0140]
a)唯一性规则：所有导线参数唯一无重复；
[0141]
b)完整性规则：所有考核字段不得为空；
[0142]
c)准确性规则：1.10≤导线截面(mm2)≤400，2.50≤额定载流量(a)≤800；
[0143]
d)一致性规则：
[0144]
①
投运日期早于登记日期；
[0145]
②
若架设方式为“混合”，则架空线路长度、电缆线路长度、线路总长度任何一项不得为0；
[0146]
③
依据大多数样本正确，小部分错误，找出导线类型分类错误；
[0147]
④
依据大多数样本正确，小部分错误，找出农网分类错误；
[0148]
⑤
长度(m)≤(终止杆塔编号-起始杆塔编号)
×
80；
[0149]
⑥
起始塔杆与终止塔杆文字不匹配，或无塔杆编号，索引值提取出。
[0150]
(5)建立统计信息错误表如附表3。
[0151]
表3
[0152][0153]
4、步骤四具体过程如下：
[0154]
根据步骤三种模型的运行结果，基于spark提供的结构化api调用map，reduce和drop等函数，对pms导线档案数据进行修正：
[0155]
(1)对于重复的pms导线数据，直接删除一条且需要保留一条记录；
[0156]
(2)对于缺失数据，分类型和数值性数据按照其他属性分类做比较，如果有相同类型属性数据，则分为一类，若无，分类型的缺失值可以用“unknown”填充，数值型的数据可以用“0”、
‘
空’填充。
[0157]
(3)对于分类错误的数据，如导线类型分类错误、农网匹配错误，按照pms导线数据异常识别规则批量更正数据；
[0158]
(4)对于不符合异常识别规则的数据，将其按照标准格式进行改正，若无法改正，将其添加标记；
[0159]
最终得到数据治理完成的pms导线数据集。
[0160]
图3为本发明提供的实施例中的电力设备档案类数据治理系统的模块连接图，如图3所示，本实施例还提供了一种电力设备档案类数据治理系统，包括：
[0161]
数据理解模块，用于对电力设备业务和所述电力设备业务的档案数据进行数据理解，得到数据录入规范库；
[0162]
数据提取模块，用于根据所述数据录入规范库，将电力设备档案类数据从电力设备数据仓库中提取到spark并行计算模型中，得到弹性分布式数据集；
[0163]
模型建立模块，用于基于所述数据录入规范库，调用所述spark并行计算模型中的正则表达式标准库建立档案类异常数据筛选算法模型；
[0164]
筛选模块，用于根据所述档案类异常数据筛选算法模型对所述弹性分布式数据集进行筛选和统计，得到待修正的档案类数据集；
[0165]
数据修正模块，用于基于所述spark并行计算模型中api调用函数对所述待修正的档案类数据集进行修正，得到数据治理完成的档案类数据集。
[0166]
优选地，所述数据理解模块具体包括：
[0167]
解析单元，用于对所述电力设备业务进行解析，得到业务知识数据；所述业务知识数据包括：电力设备业务结构数据、数据治理需求数据和目标完成数据；
[0168]
判断单元，用于判断所述档案数据中的异常数据集合和异常数据原因；
[0169]
规范库构建单元，用于基于所述档案数据、所述业务知识数据、所述异常数据集合和所述异常数据原因构建所述数据录入规范库。
[0170]
优选地，所述数据提取模块具体包括：
[0171]
导入单元，用于依据所述数据录入规范库，将所述电力设备档案类数据从所述电力设备数据仓库导入到所述spark并行计算模型，得到初始数据集；
[0172]
检查单元，用于对所述初始数据集进行完整性检查，得到检查后的所述弹性分布式数据集。
[0173]
本发明的有益效果如下：
[0174]
(1)本发明提供了一套电力档案类数据的治理完整流程，能够提高电力档案类数据质量。
[0175]
(2)本发明通过spark计算平台数据读取和模型执行的高效性，能够提高档案类数据治理的工作效率。
[0176]
(3)本发明降低了电力设备档案类数据治理的工作难度，为电网设备档案数据应用前期的数据质量筛查、数据整改提供了有效的手段。
[0177]
本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。
[0178]
本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于手机定位数据的出行方式识别方法及系统与流程

一种电力设备档案类数据治理方法及系统与流程

相关文献

最热文献