一种基于表示学习的配电网网架补全方法和系统与流程

2022-05-18 11:09:15 来源：中国专利 TAG：

1.本发明涉及数据处理领域，尤其是涉及一种基于表示学习的配电网网架补全方法和系统。

背景技术：

2.随着社会经济技术的快速发展，配电网在维护电力稳定和电网安全等诸多方面的应用也越来越广泛。配电网网架是能源输送和转换利用的网络枢纽，是提升配网规划设计、调度、运维等各项核心业务管理水平的关键。目前云南电网配网网架缺乏统一建设标准、彼此孤立，存在扩展性差、响应速度慢、维护成本高等问题，且单系统网架数据存在大量缺失和冗余，导致数据跨业务共享融合困难，业务数据无法贯通，数据价值难以提升。

技术实现要素：

3.本发明采用技术方案是基于知识图谱表示学习trans系列算法来对已进行过清理的配网网架数据进行补全的。
4.transe算法是早期知识图谱表示学习的典型算法。该算法设计源于对于知识库的分层认知和自然传递表示的认识。认为知识图谱中的实体和关系是一层一层的进行组织的，同时实体可以通过某种传递方式得到其他实体的信息，从而可以用于对实体进行表示。其模型为：
5.模型：给定知识图谱(h，l，t)，其中h为头实体集合，t为尾实体集合，l为关系集合。然后将实体和关系在各自的空间中(实体空间和关系空间)表示为向量，使知识图谱中的每个三元组的实体向量和关系向量满足|h l|≈t：即如果三元组是正确的，则尾实体向量应该与头实体向量和关系向量的加和更为接近；反之，如果三元组是错误的，则尾实体向量应该与头实体向量和关系向量的加和更为远离，如图2所示。
6.本发明的技术方案具体如下：
7.一种基于表示学习的配电网网架补全方法，包括如下步骤：
8.采集数据；
9.抽取配网网架原始数据进行数据清洗，形成实体集和关系集；构造正负样本；初始化向量空间及超参数；模型训练；调整超参数；过滤补全结果。
10.进一步地，数据清洗方法包括正则匹配、文本分词、停用词处理、字符串处理、规约化数据。
11.进一步地，实体和关系采用国际标准iec61968/iec61970信息模型中所定义的设备实体和关系。
12.进一步地，构造正负样本中，负样本则依据实体关系一对多或是多对一数量大小关系，通过替换头实体h或尾实体t所构造而成。
13.进一步地，基于正负样本，对向量空间中的任意向量，采用小批量随机梯度下降法进行训练，使其尽可能满足trans系列模型表示规则：
14.1)对于构造的正样本，使其对应的向量h，r和t在向量空间中尽可能使得 h r接近t；而对于负样本，尽可能使得h r远离t；据此，定义h r与t的距离 d：
[0015][0016]
该式表达了一个三元组的正确程度：对于一个正样本，d将趋于0；对于一个负样本，d在边界参数内将尽可能大；
[0017]
2)定义损失函数：
[0018][0019]
其中，[x] 表示x取正，γ是边界参数，p表示正样本集，p’表示负样本集；
[0020]
3)基于损失函数更新向量位置，梯度下降算法在搜索过程中，到达每个点后都会重新估计移动的方向，从而在迭代过程中，保证每次移动的方向都是最佳的；若以w作为回归系数，α作为学习速率，则：
[0021][0022]
进一步地，通过统计补全结果的正确率，逐步调整超参数的取值。
[0023]
本发明还涉及一种基于表示学习的配电网网架补全系统，包括采集器和处理器，采集器采集数据，处理器按照上述的方法进行处理。
[0024]
本发明还涉及的一种电子设备，包括存储器、处理器以及在存储器上，并可在处理器上运行的计算机程序，其特征在于：所述处理器执行所述计算机程序时实现上述方法的步骤。
[0025]
本发明还涉及的非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于：该计算机程序被处理器执行时，实现如上述方法的步骤。
[0026]
与现有技术相比，本发明的有益效果具体如下：
[0027]
本发明能够利用配网网架本身已有的数据，在没有额外信息补充的情况下，完成网架的缺失实体和关系的补全工作，有助于提升数据质量，为各业务域数据贯通奠定良好的基础。此外，本发明方法在自动补全缺失数据的同时，能大大减少人力成本的消耗，提升经济效益。
附图说明
[0028]
图1为本发明的系统框架图；
[0029]
图2为本发明的网架补全流程图；
[0030]
图3为本发明的表示学习(transe)示意图；
[0031]
图4为本发明的表示学习核心思想示意图。
具体实施方式
[0032]
下面将结合本技术实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于
本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0033]
除非另外定义，本技术实施例中使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。“上”、“下”、“左”、“右”、“横”以及“竖”等仅用于相对于附图中的部件的方位而言的，这些方向性术语是相对的概念，它们用于相对于的描述和澄清，其可以根据附图中的部件所放置的方位的变化而相应地发生变化。
[0034]
如图1所示，本实施例的一种基于表示学习的配电网网架补全系统，其特征在于：包括采集器和处理器，采集器采集数据，处理器进行处理。
[0035]
基于上述系统，本实施例的方法具体如下：
[0036]
(1)抽取配网网架原始数据进行数据清洗，形成实体集e和关系集r；数据清洗方法包括正则匹配、文本分词、停用词处理、字符串处理、规约化数据等。
[0037]
本实施例采用的数据清洗方法为正则表达式匹配法和字符串处理结合的方式，由于一般业务数据获取普遍是通过业务系统导出数据表文件或者直接基于业务系统的数据库编写sql脚本等途径获取的，获取到的数据不是统一规范的，所以需要将数据处理为符合业务规范的信息。
[0038]
例如：标题文本为：《配网》、《网架》、《补全》，业务需要的文本为：配网，网架，补全，具体做法如下：
[0039]
a、将标题文本字符串中包含的“、”符号用“，”符号进行替换；
[0040]
b、对上一步处理后的文本进行正则匹配全局替换书名号(《》)处理，正则表达式为：“/《|》/g”。
[0041]
实体和关系采用国际标准iec61968/iec61970公共信息模型(cim)中所定义的设备实体和关系。
[0042]
(2)构造正负样本；
[0043]
正样本指的是具有关系的实体，反之负样本指的是不具有关系的样实体。正样本构造较为容易，负样本则依据实体关系“一对多”或是“多对一”数量大小关系，通过替换头实体h或尾实体t所构造而成。
[0044]
向量空间及超参数初始化，模型训练；
[0045]
基于正负样本，对向量空间中的任意向量，采用小批量随机梯度下降法 (mini-batch sgd)进行训练，使其尽可能满足trans系列模型表示规则：
[0046]
2.1)对于步骤(2)所构造的正样本，使其对应的向量h，r和t在向量空间中尽可能使得h r接近t；而对于负样本，尽可能使得h r远离t，如图3所示。据此，定义h r与t的距离d：
[0047][0048]
该式表达了一个三元组的正确程度：对于一个正样本，d将趋于0；对于一个负样本，d在边界参数内将尽可能大。
[0049]
2.2)定义损失函数：
[0050][0051]
其中，[x] 表示x取正，γ是边界参数，p表示正样本集，p’表示负样本集。
[0052]
2.3)基于损失函数更新向量位置，梯度下降算法在搜索过程中，到达每个点后都会重新估计移动的方向，从而在迭代过程中，保证每次移动的方向都是最佳的。若以w作为回归系数，α作为学习速率，则：
[0053][0054]
(3)调整超参数、过滤补全结果
[0055]
通过统计补全结果的正确率，逐步调整超参数的取值。
[0056]
基于国际标准iec61968/iec61970信息模型中所定义的设备实体和关系，采用表示学习技术，对配电网网架进行补全。
[0057]
需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。
[0058]
这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
[0059]
例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(application specific integrated circuit，asic)，或，一个或多个微处理器(digital signal processor，dsp)，或，一个或者多个现场可编程门阵列(field programmable gate array，fpga)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(centralprocessing unit，cpu)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，soc)的形式实现。
[0060]
在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本技术实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在可读存储介质中，或者从一个可读存储介质向另一个可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无
线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，dvd)、或者半导体介质(例如固态硬盘solid state disk(ssd))等。
[0061]
上述的处理器可以是通用处理器，包括中央处理器(central processing unit， cpu)、网络处理器(network processor，np)等；还可以是数字信号处理器(digitalsignalprocessing，dsp)、专用集成电路(application specific integrated circuit， asic)、现场可编程门阵列(field－programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0062]
以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种基于表示学习的配电网网架补全方法和系统与流程

相关文献

最热文献