一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于WordEmbedding的配网设备一致性识别方法与流程

2021-11-05 19:12:00 来源:中国专利 TAG:

一种基于word embedding的配网设备一致性识别方法
技术领域
1.本发明涉及数据融合技术领域,尤其涉及一种基于word embedding的配网设备的一致性识别方法。


背景技术:

2.随着电网公司信息化技术的进步和发展,配电网数据已成一定的规模,主要包括配电设备信息及其连接关系。在信息化建设过程中,由于初期缺乏统一规划,这些数据往往来源于不同信息系统。由于数据存在冗余、错误等特点,使得电网公司难以对这些数据进行整合利用,造成了诸多不便。
3.设备一致性识别是解决上述问题的一个关键路径。来源于不同系统(例如gis和营销系统)的设备,由于存在差异,它们的描述方式可能不同,但在电网领域下,它们是同一个实例。设备一致性识别就是将同一个实例通过实例信息分析进行融合,一方面是为了解决数据冗余、错误等问题,另一方面也能够补全侧重点不同的信息。
4.传统设备一致性识别的方法是利用设备实例的相关信息对来自不同系统的设备实例进行匹配,在源系统中给定一个设备实例,计算该实例与目标系统中每一个实例的相似度。若相似度高于阈值,则认为它们属于同一个实例。这种暴力搜索方法在面对大规模数据的情况下,会由于计算代价过大,显得难以为继。
5.不足之处:
6.(1)配网设备逐一匹配,导致计算复杂度达到o(n2),难以用于大规模设备一致性识别;
7.(2)依赖配网设备本身属性进行一致性识别的方法较为单一,没有考虑到配网设备的连接关系,容易导致一致性识别效果不佳;


技术实现要素:

8.本发明的技术任务是针对以上不足之处,提供一种实用性强、基于word embedding的配网设备一致性识别方法,解决了传统一致性识别方法存在的计算复杂度过高以及综合效果不佳等问题,本发明具有处理数据较为简单,且计算量相较于现有技术较少,提高数据识别额准确性。
9.一种基于word embedding的配网设备一致性识别方法,包括以下步骤:
10.s1:抽取配网设备原始数据,进行数据清洗,并将数据清洗后的数据进行规范化处理;
11.s2:经过步骤s1处理后的配网设备数据,所述配网设备包括实体名和邻居实体,基于word embedding构造邻居实体的名称向量;
12.s3:基于word embedding构造邻居实体的邻居向量;
13.s4:对所有名称向量中的所有分词项构造倒排索引;
14.s5:根据规则获取候选集;
15.s6:基于属性和类别过滤候选集,基于区县编码和实体类型过滤候选集,仅保留结果一致的候选集;
16.s7:相似度计算及阈值调参,具体地:s701基于余弦距离和向量空间模型,将数据集验证集和测试集,对阈值进行调试;
17.s702:计算匹配对的最终相似度:名称向量相似度和邻居向量相似度加权线性求和;
18.s703:获得最终一致性识别结果。。
19.在本发明的一个优选实施例中,所述构造名称向量及邻居向量的过程为:首先对实体名称进行分词,然后过滤停用词,最后基于word embedding构造低维向量。
20.在本发明的一个优选实施例中,所述s4的构造倒排索引的过程包括:向量中的每一项都索引到前一步构造的向量中包含该项的实例。
21.在本发明的一个优选实施例中,所述s5的规则包括:
22.规则一,两匹配实体的名称向量维数均大于等于3,且两者名称向量中至少有2个关键词相同;
23.规则二,两匹配实体的名称向量维数均小于3,且两者名称向量中至少有1个关键词相同;
24.规则三,两个邻居向量中至少有1个相同的关键词;
25.上述规则根据实际情况进行选择。
26.在本发明的一个优选实施例中,所述相似度计算及阈值调参包括:
27.通过线性组合方法将名称向量和邻居向量按权重组合;
28.基于余弦距离计算组合后的向量相似度。
附图说明
29.为了更清楚地说明本技术的技术方案,下面将对实施例中所需要使用的附图作详细说明,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
30.附图1为本技术实施例提供的基于word embedding的配网设备一致性识别方法流程图。
具体实施方式
31.为了使本领域技术人员更好地理解本技术中的技术方案,下面将结合本技术实施例中的附图,对申请实施例中的技术方案进行清楚、完整地描述;显然,所描述的实施例仅是本技术的一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。
32.参照图1所示,下面结合附图1对本发明作进一步说明:
33.现有的机器学习方法往往无法直接处理文本数据,因此需要找到合适的方法,将文本数据转换为数值型数据,由此引出了word embedding的概念。如果将word看作文本的最小单元,可以将word embedding理解为一种映射,其过程是:将文本空间中的某个word,
通过一定的方法,映射或者说嵌入(embedding)到另一个数值向量空间。
34.一种基于word embedding的配网设备一致性识别方法,其实现过程为:
35.s1:抽取配网设备原始数据,进行数据清洗;
36.s2:构造名称向量;
37.s3:构造邻居向量;
38.s4:构造倒排索引;
39.s5:基于倒排索引划分待匹配集,并根据规则获取候选集;
40.s6:基于属性和类别过滤优化候选集,以去除不合理的候选;
41.s7:相似度计算及阈值调参,得到最佳一致性识别结果。
42.所述方法包括:数据清洗;将配网设备分为:标识id、类别信息、可区分属性信息、实体名称以及邻居实体等;通过分词及词频统计等方法,基于word embedding对实体名称及邻居实体构造名称向量和邻居向量;根据名称向量和邻居向量构建倒排索引,基于所述规则生成初始候选集;基于可区分属性及类别信息过滤候选集,形成最终候选集;名称向量及邻居向量线性融合;基于余弦距离计算实体相似度并阈值调优。
43.综上所述,本发明解决了传统一致性识别方法存在的计算复杂度过高以及综合效果不佳等问题,本发明具有处理数据较为简单,且计算量相较于现有技术较少,提高数据识别额准确性。
44.实施例2:
45.具体地s1:抽取配网设备原始数据,进行数据清洗,详细操作方式如下:
46.s101:获取原始配网台账数据;
47.s102:剔除缺失值大于20%的数据;
48.s103:对数据格式进行规范化处理,例如统一大小写、删除字符中的空格等。
49.s201:将配网设备及其连接关系分为:
50.id:配网设备的唯一标识;
51.类型信息:类型信息即设备所属的类,例如变电站、变压器等,不同类的设备不予进行一致性匹配;
52.可区分属性信息:可用于区分实例的属性,不同县区设备不予进行一致性匹配;
53.实体名:判断两实体是否一致的重要信息,但不是唯一信息。
54.邻居实体:除实体名以外,实体的邻居实体也是识别实体一致性的重要手段;
55.进一步地,s2:构造名称向量和s3:构造邻居向量作为一个整体来看:
56.s202:将实体名称进行分词处理;
57.s203:对分词结果进行停用词过滤;
58.s204:统计词频并基于word embedding构建向量。
59.s301:一个实体的邻居向量通常包含两个部分,第一个部分是邻居实体的名称向量,第二个部分是邻居实体的属性信息;其中第一个部分是必要的,而第二个部分需要根据数据的实际情况进行定义,若没有合适的属性,可以不定义;
60.s302:若存在多个邻居实体,则将所有邻居实体的邻居向量线性组合:
61.62.其中,nbi(i)表示实例i的所有邻居实体所构成的向量,nb(i)表示所有邻居实体构成的集合,nv(i’)表示邻居实体的名称向量;
63.s303:基于名称向量和邻居向量(每个单词变成一个向量,目的还是为了方便计算),一个实体的核心特征的计算式如下:
64.ec(i)=ld(i) γ
·
nbi(i)
65.其中,参数γ表示邻居向量的重要程度。
66.步骤s4s4:构造倒排索引;
67.s401:对所有名称向量中的所有分词项构建倒排索引;
68.s402:针对每个分词项,具体维护一个所有向量中包含该分词项的列表。
69.s501:利用倒排索引检索候选匹配对
70.s502:设计规则:
71.规则1,两匹配实体的名称向量维数均大于等于3,且两者名称向量中至少有2个关键词相同;
72.规则2,两匹配实体的名称向量维数均小于3,且两者名称向量中至少有1个关键词相同;
73.规则3,两个邻居向量中至少有1个相同的关键词。
74.只要属于上述3个规则之一,则触发获取候选集。
75.具体地步骤s6:基于属性和类别过滤优化候选集,以去除不合理的候选;
76.s601:基于可区分属性对实体进行筛选,进一步过滤属性值不一致的待匹配项;
77.s602:基于类型信息对实体进行筛选,仅匹配同一类型的实体。
78.基于步骤s1

步骤s6的筛选处理后,则得到本发明的一致性识别结果:
79.s701:基于余弦距离和向量空间模型,将数据集验证集和测试集,对阈值进行调试;
80.s702:计算匹配对的最终相似度:名称向量相似度和邻居向量相似度加权线性求和;
81.s703:获得最终一致性识别结果。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献