基于数据血缘关系图谱的电力数据溯源方法及系统与流程

2022-05-18 03:23:47 来源：中国专利 TAG：

1.本发明涉及数据处理技术领域，特别是涉及一种基于数据血缘关系图谱的电力数据溯源方法及系统。

背景技术：

2.随着电网信息化水平的不断提高，电力数据呈现爆炸式增长。电力数据已经成为电网企业发展的重要战略性资源，建设电力数据资产管理体系已经成为应对大数据时代要求的必然选择和趋势。面对复杂多变的电网业务整合需求，电力数据在各部门之间不断流转，流转中存在一系列的加载、清洗、转换等操作，一旦在某一环节出现问题，极有可能导致电力数据资源出现异常，却很难追溯出现异常的根源。因此，在大数据背景下解决电力数据的溯源问题是当前研究的热点。
3.数据血缘在数据溯源中有着重要的应用，通过血缘分析可以有效梳理数据流转过程，在数据出现异常时及时追溯其问题根源，同时准确构建异常影响范围，为相关人员快速定位及解决问题提供必要的支持。现有的基于数据血缘分析的溯源方法可分为以下几种：
4.一、基于人工标注的方式，此种方法对于简单的数据应用场景尚有一定的价值，但在电力大数据应用场景下很难推广使用，面临着效率低、成本高，易出错的问题。
5.二、基于数据字典的方式，此种方法在完备的数据字典下能够获取很好的数据血缘分析结果，但面临着日常维护成本过高的问题。
6.三、基于机器学习方式，此种方法需要大量的已知样本数据才能获得较好的效果，但存在训练模型难的问题。
7.四、基于区块链方式，此种方法结果可信度高，具有数据认证能力，对于新建系统有着很好的应用优势，但构建成本高，技术难度大，在已有系统集成表现一般。
8.总结当前电力数据血缘分析方法现状，仍需解决电力多源数据中字段多而复杂，字段对应数据维度高且不固定以及数据溯源分析较慢的问题。

技术实现要素：

9.本发明的目的是提供一种基于数据血缘关系图谱的电力数据溯源方法及系统，以解决数据源字段复杂、数据维度高、维度不固定以及数据溯源分析慢的问题。
10.为实现上述目的，本发明提供了一种基于数据血缘关系图谱的电力数据溯源方法，所述方法包括：
11.采用有序分层法对所有字段进行词汇提取，获得字段特征词汇总表；
12.利用所述字段特征词汇总表，统计待统计字段中的所有字段信息，同时进行归一化处理，获得不同字段数据类型对应的字段特征向量；
13.建立各个所述字段特征向量之间的血缘关系；
14.根据各个所述字段特征向量之间的血缘关系构建字段级数据血缘图谱和表级数据血缘图谱；
15.确定所述字段级数据血缘图谱和所述表级数据血缘图谱中两结点之间血缘方向性；
16.通过图搜索策略，对已确定血缘方向性的表级数据血缘图谱和/或字段级数据血缘图谱中的每个结点进行溯源分析。
17.可选地，所述采用有序分层法对所有字段进行词汇提取，获得字段特征词汇总表，具体包括：
18.提取电力系统内所有表结构的字段信息，并按照字段数据类型对所述字段信息进行分类，将不同字段数据类型的字段信息分别放入不同字段数据类型对应的字段集合；
19.对各所述字段集合内的所有字段信息进行汇总排序；
20.对各所述字段集合内汇总排序的所有字段信息分别进行提取词汇，获得各字段数据类型对应的初始词汇表；
21.对各字段数据类型对应的初始词汇表进行扩充，获得字段特征词汇总表。
22.可选地，所述利用所述字段特征词汇总表，统计待统计字段中的所有字段信息，同时进行归一化处理，获得不同字段数据类型对应的字段特征向量，具体包括：
23.对待统计字段中的所有字段信息，利用所述字段特征词汇总表统计出不同字段数据类型中各词汇对应的词频；
24.对不同字段数据类型中各词汇对应的词频进行归一化处理，获得不同字段数据类型对应的字段特征向量。
25.可选地，所述建立各个所述字段特征向量之间的血缘关系，具体包括：
26.采用欧氏距离度量法或余弦距离度量法计算任意两个所述字段特征向量之间的距离；
27.对各距离进行非负化处理，获得各距离对应的权重；
28.基于各对应的权重确定字段特征向量间的血缘关系。
29.可选地，所述字段特征词汇总表包括：整型字段词汇表、浮点型字段词汇表、布尔型字段词汇表、字符型字段词汇表、字符串型字段词汇表、日期型字段词汇表和文本型字段词汇表。
30.本发明还提供一种基于数据血缘关系图谱的电力数据溯源系统，所述系统包括：
31.词汇提取模块，用于采用有序分层法对所有字段进行词汇提取，获得字段特征词汇总表；
32.字段特征向量确定模块，用于利用所述字段特征词汇总表，统计待统计字段中的所有字段信息，同时进行归一化处理，获得不同字段数据类型对应的字段特征向量；
33.血缘关系构建模块，用于建立各个所述字段特征向量之间的血缘关系；
34.数据血缘图谱构建模块，用于根据各个所述字段特征向量之间的血缘关系构建字段级数据血缘图谱和表级数据血缘图谱；
35.血缘方向性确定模块，用于确定所述字段级数据血缘图谱和所述表级数据血缘图谱中两结点之间血缘方向性；
36.溯源分析模块，用于通过图搜索策略，对已确定血缘方向性的表级数据血缘图谱和/或字段级数据血缘图谱中的每个结点进行溯源分析。
37.可选地，所述词汇提取模块，具体包括：
38.分类单元，用于提取电力系统内所有表结构的字段信息，并按照字段数据类型对所述字段信息进行分类，将不同字段数据类型的字段信息分别放入不同字段数据类型对应的字段集合；
39.汇总排序单元，用于对各所述字段集合内的所有字段信息进行汇总排序；
40.词汇提取单元，用于对各所述字段集合内汇总排序的所有字段信息分别进行提取词汇，获得各字段数据类型对应的初始词汇表；
41.扩充单元，用于对各字段数据类型对应的初始词汇表进行扩充，获得字段特征词汇总表。
42.可选地，所述字段特征向量确定模块，具体包括：
43.词频统计单元，用于对待统计字段中的所有字段信息，利用所述字段特征词汇总表统计出不同字段数据类型中各词汇对应的词频；
44.归一化处理单元，用于对不同字段数据类型中各词汇对应的词频进行归一化处理，获得不同字段数据类型对应的字段特征向量。
45.可选地，所述血缘关系构建模块，具体包括：
46.距离计算单元，用于采用欧氏距离度量法或余弦距离度量法计算任意两个所述字段特征向量之间的距离；
47.非负化处理单元，用于对各距离进行非负化处理，获得各距离对应的权重；
48.血缘关系确定单元，用于基于各对应的权重确定字段特征向量间的血缘关系。
49.可选地，所述字段特征词汇总表包括：整型字段词汇表、浮点型字段词汇表、布尔型字段词汇表、字符型字段词汇表、字符串型字段词汇表、日期型字段词汇表和文本型字段词汇表。
50.根据本发明提供的具体实施例，本发明公开了以下技术效果：
51.本发明公开一种基于数据血缘关系图谱的电力数据溯源方法及系统，将抽象的数据血缘分析问题转换为可操作性强的特征空间向量相似性度量问题进行求解，同时解决现有技术面临的数据源字段复杂、数据维度高及维度不固定的问题，能够有效提取电力数据中存在的多粒度血缘关系，构建字段级数据血缘图谱和表级数据血缘图谱，实现快速的数据溯源分析。
附图说明
52.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
53.图1为本发明基于数据血缘关系图谱的电力数据溯源方法流程图；
54.图2为本发明字段词汇表分层结构示意图；
55.图3为本发明字段特征向量生成示意图；
56.图4为本发明基于数据血缘关系图谱的电力数据溯源系统结构图。
具体实施方式
57.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
58.本发明的目的是提供一种基于数据血缘关系图谱的电力数据溯源方法及系统，以解决数据源字段复杂、数据维度高、维度不固定以及数据溯源分析慢的问题。
59.为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。
60.实施例1
61.如图1所示，本发明公开一种基于数据血缘关系图谱的电力数据溯源方法，所述方法包括：
62.步骤s1：采用有序分层法对所有字段进行词汇提取，获得字段特征词汇总表。
63.步骤s2：利用所述字段特征词汇总表，统计待统计字段中的所有字段信息，同时进行归一化处理，获得不同字段数据类型对应的字段特征向量。
64.步骤s3：建立各个所述字段特征向量之间的血缘关系。
65.步骤s4：根据各个所述字段特征向量之间的血缘关系构建字段级数据血缘图谱和表级数据血缘图谱。
66.步骤s5：确定所述字段级数据血缘图谱和所述表级数据血缘图谱中两结点之间血缘方向性。
67.步骤s6：通过图搜索策略，对已确定血缘方向性的表级数据血缘图谱和/或字段级数据血缘图谱中的每个结点进行溯源分析。
68.下面对各个步骤进行详细论述：
69.步骤s1：采用有序分层法对所有字段进行词汇提取，获得字段特征词汇总表；如图2所示，所述字段特征词汇总表包括：整型字段词汇表、浮点型字段词汇表、布尔型字段词汇表、字符型字段词汇表、字符串型字段词汇表、日期型字段词汇表和文本型字段词汇表。
70.步骤s11：提取电力系统内所有表结构的字段信息，并按照字段数据类型对所述字段信息进行分类，将不同字段数据类型的字段信息分别放入不同字段数据类型对应的字段集合；所述字段数据类型包括整型、浮点型、布尔型、字符型、字符串型、日期型和文本型。本实施例中，处在同一类字段集合内的字段信息才能进行数据血缘提取，不同类别字段集合内的字段信息无法进行自动数据血缘提取。
71.步骤s12：对各所述字段集合内的所有字段信息进行汇总排序。
72.步骤s13：对各所述字段集合内汇总排序的所有字段信息分别进行提取词汇，获得各字段数据类型对应的初始词汇表；本实施例中，对于数值型数据，可以在获取最大值、最小值基础上进行数据分段处理，可以降低后期字段特征向量的维度。对于已经分段处理的数值型数据，其初始词汇按分段区间给出，例如“[2,10]”；对于布尔型数据，其初始词汇表只有两个词汇，即“true”和“false”；对于字符型数据，可以使用ascii码值进入初始词汇表；对于字符串型数据，直接使用字符串进入初始词汇表；对于日期型数据，可使用日期时间戳进行整理。
[0073]
步骤s14：对各字段数据类型对应的初始词汇表进行扩充，获得字段特征词汇总表。本实施例中，可以将术语、专业词汇、标签信息等加入到各段数据类型对应的初始词汇表中，获得各字段数据类型对应的字段词汇表(即字段特征词汇总表)。各字段数据类型对应的字段词汇表具体为：整型字段词汇表、浮点型字段词汇表、布尔型字段词汇表、字符型字段词汇表、字符串型字段词汇表、日期型字段词汇表和文本型字段词汇表。
[0074]
步骤s2：利用所述字段特征词汇总表，统计待统计字段中的所有字段信息，同时进行归一化处理，获得不同字段数据类型对应的字段特征向量，具体包括：
[0075]
步骤s21：对待统计字段中的所有字段信息，利用所述字段特征词汇总表统计出不同字段数据类型中各词汇对应的词频。
[0076]
步骤s22：对不同字段数据类型中各词汇对应的词频进行归一化处理，获得不同字段数据类型对应的字段特征向量。本实施例中，由于不同字段词汇的不同字段数据量不同，统计的词频数据必须要进行归一化处理，具体做法是对步骤s21产生的词频向量处于当前字段下的数据个数。
[0077]
如图3所示，数据表中的字段名为“设备名称”；字段对应数据依次包括“变压器、隔离开关、断路开关、断路开关、变压器、变压器、断路开关、断路开关”8个数据；文本型字段词汇表包括了5个词汇，分别是“变压器、隔离开关、断路开关、防风锤和绝缘子串”，将各词汇对应的词频进行归一化处理，获得字段特征向量为(0.375,0.125,0.5,0.00,0.00)。
[0078]
步骤s3：建立各个所述字段特征向量之间的血缘关系，具体包括：
[0079]
步骤s31：采用欧氏距离度量法或余弦距离度量法计算任意两个所述字段特征向量之间的距离。
[0080]
由于各词汇对应的词频进行归一化向量处理，同时相同数据类型的向量维度相同，每个维度代表的意义相同，因此可以进行特征向量的统计运算。字段血缘关系的量化可以通过对字段特征向量的相似性进行度量。
[0081]
采用余弦距离度量法计算任意两个所述字段特征向量之间的距离，具体计算公式为：
[0082][0083]
其中，表示字段特征向量与字段特征向量之间的夹角，c
i，j
表示字段特征向量与字段特征向量之间距离。
[0084]ci，j
取值范围是[-1, 1]之间，其值约接近于1则表示两个向量越相似，反之越接近-1则表示两个向量差异性越大。为了后期对每个字段血缘关系加权处理，需要进行非负化处理。
[0085]
步骤s32：对各距离进行非负化处理，获得各距离对应的权重，具体计算公式为：
[0086]ci，j
＝(c
itj
1.0)/2.0
ꢀꢀ
(2)
[0087]
其中，c
itj
表示距离c
i，j
对应的权重。
[0088]
步骤s33：基于各对应的权重确定字段特征向量间的血缘关系；具体地，为了判别两个字段特征向量和是否相似，需要设置一个阈值th，确定字段特征向量间的血缘关系具体公式为：
[0089][0090]
其中，f
itj
＝1表示字段特征向量与字段特征向量之间存在血缘关系，f
itj
＝0表示字段特征向量与字段特征向量之间不存在血缘关系，th表示阈值，c
i，j
表示距离c
i，j
对应的权重，otherwise表示其他。
[0091]
步骤s4：根据各个所述字段特征向量之间的血缘关系构建字段级数据血缘图谱和表级数据血缘图谱；具体地，在生成血缘关系后，以字段特征向量中各字段的名称为结点，如果两个字段具有血缘关系，则对应的两个结点之间存在一条无向边连接，边的权重就是两个结点的相似度。按照上述操作后，得到字段级数据血缘图谱。此图谱是一个无向图加权图，在血缘图谱更新阶段会增加方向，为数据溯源分析提供支撑。
[0092]
构建表级数据血缘图谱；具体地，在字段级血缘图谱基础上，通过字段特征向量所在表的对应关系生成表级数据血缘。在生成表级血缘关系时，只要两个表的字段存在潜在血缘关系，则两张表就存在血缘关系。
[0093]
对于任意的两个表ti和tj用如下公式表示：
[0094][0095][0096]
其中，表示ti表中第k个字段特征向量，k∈[0，n]，n表示ti表中包含字段特征向量的总个数，表示tj表中第t个字段特征向量，t∈[0，m]，m表示tj表中包含字段特征向量的总个数。
[0097]
计算所有表之间的血缘关系具体公式为：
[0098][0099]
其中，f
i，j
＝1表示表ti和表tj之间存在血缘关系，f
i，j
＝0表示表ti和表tj之间不存在血缘关系，f
ik，jt
＝＝1表示表ti中的第k个字段特征向量和表tj中的第t个字段特征向量之间存在血缘关系，otherwise表示表ti中的第k个字段特征向量和表tj中的第t个字段特征向量之间不存在血缘关系。
[0100]fiktjt
的值利用公式(1)-(3)中取得，依次类推，计算所有表之间的血缘关系，两个表的相似度度量值可设置为对应字段血缘权重的累加和的平均值。
[0101]
生成每两个表间的血缘关系后，以表名称为结点，如果两个表具有血缘关系，则其对应的两个结点之间存在一条无向边连接，边的权重就是两个结点的相似度。按照上述操作后，得到表级数据血缘图谱。此图谱是一个无向图加权图，在血缘图谱更新阶段会增加方向，为数据溯源分析提供支撑。
[0102]
步骤s5：确定所述字段级数据血缘图谱和所述表级数据血缘图谱中两结点之间血缘方向性。
[0103]
上述已经获取的表级数据血缘图谱和字段级数据血缘图谱都属于无向加权图，此
关系图可以进行数据溯源，只是溯源没有方向限制，不太符合实际应用。为此，需要通过以下两种方法确定所述字段级数据血缘图谱和所述表级数据血缘图谱中两结点之间血缘方向性，因此可构造有向加权图。
[0104]
方法1：通过读取已知的建表时间先后关系、建表语句主外键关系，对表级数据血缘图谱和字段级数据血缘图谱指明两结点之间的方向性。
[0105]
方法2：通过在数据库中设置插件，功能用于获取数据库表、字段的修改时间，在发生数据变更时将变更数据及时发送给数据血缘图谱，通过判断两个字段数据更改时间先后顺序，自动确定两个结点之间血缘方向性。
[0106]
在同时采用上述两种方法进行血缘方向指定时，如果出现指向相反的冲突，按照第一种方法为准，因为自动获取数据血缘方向可能存在一定的误差。
[0107]
步骤s6：通过图搜索策略，对已确定血缘方向性的表级数据血缘图谱和/或字段级数据血缘图谱中的每个结点进行溯源分析。
[0108]
实施例2
[0109]
如图4所示，本发明还公开一种基于数据血缘关系图谱的电力数据溯源系统，所述系统包括：
[0110]
词汇提取模块401，用于采用有序分层法对所有字段进行词汇提取，获得字段特征词汇总表。
[0111]
字段特征向量确定模块402，用于利用所述字段特征词汇总表，统计待统计字段中的所有字段信息，同时进行归一化处理，获得不同字段数据类型对应的字段特征向量。
[0112]
血缘关系构建模块403，用于建立各个所述字段特征向量之间的血缘关系；
[0113]
数据血缘图谱构建模块404，用于根据各个所述字段特征向量之间的血缘关系构建字段级数据血缘图谱和表级数据血缘图谱。
[0114]
血缘方向性确定模块405，用于确定所述字段级数据血缘图谱和所述表级数据血缘图谱中两结点之间血缘方向性。
[0115]
溯源分析模块406，用于通过图搜索策略，对已确定血缘方向性的表级数据血缘图谱和/或字段级数据血缘图谱中的每个结点进行溯源分析。
[0116]
作为一种可选的实施方式，本发明所述词汇提取模块401，具体包括：
[0117]
分类单元，用于提取电力系统内所有表结构的字段信息，并按照字段数据类型对所述字段信息进行分类，将不同字段数据类型的字段信息分别放入不同字段数据类型对应的字段集合。
[0118]
汇总排序单元，用于对各所述字段集合内的所有字段信息进行汇总排序。
[0119]
词汇提取单元，用于对各所述字段集合内汇总排序的所有字段信息分别进行提取词汇，获得各字段数据类型对应的初始词汇表。
[0120]
扩充单元，用于对各字段数据类型对应的初始词汇表进行扩充，获得字段特征词汇总表。
[0121]
作为一种可选的实施方式，本发明所述字段特征向量确定模块402，具体包括：
[0122]
词频统计单元，用于对待统计字段中的所有字段信息，利用所述字段特征词汇总表统计出不同字段数据类型中各词汇对应的词频。
[0123]
归一化处理单元，用于对不同字段数据类型中各词汇对应的词频进行归一化处
理，获得不同字段数据类型对应的字段特征向量。
[0124]
作为一种可选的实施方式，本发明所述血缘关系构建模块403，具体包括：
[0125]
距离计算单元，用于采用欧氏距离度量法或余弦距离度量法计算任意两个所述字段特征向量之间的距离。
[0126]
非负化处理单元，用于对各距离进行非负化处理，获得各距离对应的权重。
[0127]
血缘关系确定单元，用于基于各对应的权重确定字段特征向量间的血缘关系。
[0128]
本发明利用字段特征向量将抽象的数据血缘分析问题转换为可操作性强的特征空间相似性度量问题进行求解，能够有效提取电力数据中存在的多粒度血缘关系。
[0129]
本发明数据血缘关系图谱中结点的方向可以通过自动化方法进行更新，也可以与已知建库时间等信息相结合，高效创建数据血缘有向图，为数据溯源提供必要支撑。
[0130]
本发明在数据血缘关系确定时，同时给出了结点间有向边的权重关系，可为后续数据溯源影响程度进行量化分析。
[0131]
本发明按照分层思想构造词汇表，将不容易量化的数据血缘关系通过构建字段特征向量的形式进行量化，通过特征量的相似性度量值作为后期字段级、表级数据血缘关系生成依据，便于并行操作，能够实现高效的电力数据溯源
[0132]
本发明普适性强，整个流程按照计算机自动化方法设计实现，即使在表、字段没有前期建库信息基础上也可以取得较好的应用效果。
[0133]
本发明公开一种基于数据血缘关系图谱的电力数据溯源方法及系统，将抽象的数据血缘分析问题转换为可操作性强的特征空间相似性度量问题进行求解，同时解决现有技术面临的数据源字段复杂、数据维度高及维度不固定的问题，能够有效提取电力数据中存在的多粒度血缘关系，构建血缘关系图谱，实现快速的数据溯源分析。
[0134]
本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。
[0135]
本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种多重加密的数据加密系统的制作方法

基于数据血缘关系图谱的电力数据溯源方法及系统与流程

相关文献

最热文献