一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于电力生产统计业务的知识图谱构建方法及系统与流程

2022-03-02 00:43:16 来源:中国专利 TAG:


1.本发明属于知识图谱、知识库问答、电力生产统计技术领域,尤其涉及一种基于电力生产统计业务的知识图谱构建方法及系统。


背景技术:

2.知识图谱由谷歌公司在 2012 年 5 月 17 号提出,致力于描述海量实体、实体属性和实体关系,并建立一种智能的信息检索模式。在知识图谱中,实体间关系的基本组成单位为“实体-关系-实体”三元组,即 g =(e,r,s) ,其中 e表示知识库中实体的集合 e ={e1 ,e2 ,

,en} ,r 表示知识库实体间关系的集合 r ={r1 ,r2 ,

,rm} ,s 表示知识库的三元组集合 s
ꢀ⊆ꢀeꢀ×ꢀrꢀ×ꢀ
e,实体的属性特征则使用“属性-值”来表示。实体是知识图谱的基本元素,关系是不同实体之间的关系,属性是对实体的说明,值为实体属性的具体数值。
3.知识库问答它的英文的全称是:knowledgebasequestionanswering,kbqa即给定自然语言问题,通过对问题进行语义理解和解析,进而利用知识库进行查询、推理得出答案。


技术实现要素:

4.当前,电网统计工作的重点,已经逐步从传统的统计、汇总数据转向分析、研究数据,为未来多业务、多领域关联互动提供高效率、高质量的统计分析服务奠定基础。知识图谱以结构化的形式描述客观世界中概念、实体及其之间的关系,将信息表达成更接近人类认知世界的形式,提供一种更好地组织、管理和理解海量信息的能力。结合生产统计业务,深化研究知识图谱技术,搭建电力生产统计知识图谱,将更充分地发挥统计对生产经营业务的监督支撑作用,进一步推进公司统计业务数字化、可视化、智能化,为网上电网系统的智能应用提升奠定基础。
5.本发明为此提出了一种基于电力生产统计业务的知识图谱构建方法及系统,包括:梳理电力生产统计指标纵向汇集和横向关联关系;基于统计指标间关系构建统计指标-明细数据-关联数据-关联对象的联动模型;利用本体设计软件实现联动模型的图谱绘制;基于知识图谱构建智能分析、智能回答应用场景。本发明除考虑传统的电力生产指标的统计、汇总,通过进一步考虑省-市-县三级纵向汇集关系、各级统计指标间的横向关联关系,以及智能分析、智能问答应用场景,可实现更高质量的统计分析服务,进一步推进统计业务数字化、可视化、智能化。
6.其目的是在于提供一种电力生产统计知识图谱构建的方法、步骤及演进路线,制定生产统计知识图谱构建方案,该方案包括构建指标联动模型、知识图谱绘制、智能搜索等场景应用,进一步推进公司统计工作现代化,为未来网上电网系统的智能化水平提升奠定基础。
7.其具体采用以下技术方案:
一种基于电力生产统计业务的知识图谱构建方法,其特征在于,包括以下步骤:步骤s1:梳理电力生产统计指标纵向汇集和横向关联关系;步骤s2:基于统计指标间关系构建统计指标-明细数据-关联数据-关联对象的联动模型;步骤s3:利用本体设计软件进行联动模型的图谱绘制;步骤s4:基于知识图谱构建包括智能分析和/或智能回答的应用场景。
8.进一步地,在步骤s1中,电力生产统计按内容分类包含发电统计、供电统计、用电统计、电量平衡、负荷统计、设备统计和能耗统计;服务对象包括对内的公司统计,以及对外统计;统计口径包括公司、电网、地区、农网,不同电压等级、不同行业;统计周期包括月度、季度、年度;电力生产统计指标间关系分为省-市-县纵向三级,以及各级之间的横向关联。
9.进一步地,在步骤s2中,通过本体学习构建知识图谱的模式层,包括:术语抽取、概念抽取、关系抽取以及规则学习4个步骤抽取整合生产统计相关实体,分别为:报表、指标、企业、发电厂、关口、行政区划、行业、月份、年份以及报表主题。
10.进一步地,在步骤s3中,构建电力生产统计样例知识图谱的数据层,在本体学习的基础上,抽取数据中的实体及关系信息;利用本体设计系统实现联动模型的图谱绘制;通过平台本体建模、知识抽取、知识融合、知识存储、绘制图谱的功能实现统计指标-明细数据联动模型的图谱绘制。
11.进一步地,在步骤s4中,将构建成的图谱进行应用,包括智能搜索、辅助决策的图算法研究以及智能问答三种类型。
12.进一步地,采用自顶向下的构建方法构建电力生产统计知识图谱:先构建知识图谱的模式层,然后再构建数据层;即首先根据现有的结构化数据或专家知识库构造模式层中的本体及其相关系,形成对应的概念模型和规则关系,然后再依照此模式从数据中抽取实体,构造数据层。
13.通过本体学习构建知识图谱的模式层,包括:术语抽取、概念抽取、关系抽取以及规则学习4个步骤整合出10个实体,构成电力生产统计样例知识图谱的模式层,形成最终的本体模型即生产统计指标联动模型;通过实体学习的实体链接以及实体填充两个步骤构建电力生产统计样例知识图谱的数据层。
14.以及,一种基于电力生产统计业务的知识图谱系统,建立在以上基于电力生产统计业务的知识图谱构建方法的基础上,包括智能搜索、辅助决策的图算法研究以及智能问答三种应用模块。
15.进一步地,所述智能搜索模块以生产统计工作中常见的问题为导向设计图谱查询条件、展开进一步的分析研究,即探索生产统计业务中各种类型的实体、关系、事件和属性的图谱搜索应用场景,包括:行政区域和单位隶属关系查询子模块、设备情况查询子模块、产业用电情况分析子模块、清洁能源情况分析子模块以及分行业用电分析子模块。
16.进一步地,所述辅助决策的图算法研究模块用于快速检索两个指标间的所有路径。
17.进一步地,所述智能问答模块用于收集生产统计相关的常用问题,将生产统计相关的常用问题进行技术处理,创建知识库回答关于电力生产统计的当期值与累计值的问
题,以及通过知识库回答关于电力生产统计的同比增速、增幅大小的问题。
18.以及,一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如上所述的基于电力生产统计业务的知识图谱构建方法的步骤。
19.以及,一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如上所述的基于电力生产统计业务的知识图谱构建方法的步骤。
20.本发明及其优选方案从生产指标出发,提供了利用知识图谱构建智能分析、智能回答应用场景的具体实现方案,包括方法、步骤及演进路线,制定生产统计知识图谱构建方案,该方案包括构建指标联动模型、知识图谱绘制、智能搜索等场景应用,能够充分地发挥统计对生产经营业务的监督支撑作用,进一步推进公司统计业务数字化、可视化、智能化,为网上电网系统的智能应用提升奠定基础。
附图说明
21.下面结合附图和具体实施方式对本发明进一步详细的说明:图1是本发明实施例的整体架构图;图2是本发明实施例的知识库问答处理流程图;图3是本发明实施例的生产统计指标联动模型;图4是本发明实施例的自顶向下方法构建电力生产统计知识图谱的流程图。
具体实施方式
22.为让本专利的特征和优点能更明显易懂,下文特举实施例,作详细说明如下:如图1所示,本实施例提供的电力生产统计知识图谱构建的方法具体步骤如下:步骤一:梳理电力生产统计指标纵向汇集和横向关联关系;步骤二:基于统计指标间关系构建统计指标-明细数据-关联数据-关联对象的联动模型;步骤三:利用本体设计软件实现联动模型的图谱绘制;步骤四:基于知识图谱构建智能分析、智能回答应用场景。
23.步骤一中,电力生产统计按内容分类包含发电统计、供电统计、用电统计、电量平衡、负荷统计、设备统计和能耗统计等七方面的内容,服务对象包括对内的公司统计,以及对外统计(政府统计、行业统计)。统计口径包括公司、电网、地区、农网;不同电压等级;不同行业等;统计周期包括月度、季度、年度等。电力生产统计指标间关系分为省-市-县纵向三级,以及各级之间的横向关联。
24.步骤二中,通过“本体学习”来构建知识图谱的模式层,主要包括术语抽取、概念抽取、关系抽取以及规则学习4个步骤抽取整合出了10个生产统计相关实体,分别为“报表”、“指标”、“企业”、“发电厂”、“关口”、“行政区划”、“行业”、“月份”、“年份”以及“报表主题”;步骤三中,构建电力生产统计样例知识图谱的数据层,在本体学习的基础上,抽取数据中的实体及关系信息。利用本体设计系统实现联动模型的图谱绘制;通过平台本体建模、知识抽取、知识融合、知识存储、绘制图谱等功能实现统计指标-明细数据联动模型的图
谱绘制;步骤四中,将构建成的图谱进行应用,包括智能搜索、辅助决策的图算法研究以及智能问答三种类型的应用,提高了用户工作效率,帮助新入行的业务人员快速了解业务知识。
25.本发明实施例采用的是自顶向下的构建方法构建电力生产统计知识图谱。包括采用自顶向下方法先构建知识图谱的模式层,然后再构建数据层。在自顶向下构建中,首先根据现有的结构化数据或专家知识库构造模式层中的本体及其相关系,形成对应的概念模型和规则关系,然后再依照此模式从数据中抽取实体,构造数据层。由此可见,自顶向下构建方法是从抽象到具体,先有概念而后有具体实现的构建过程。
26.通过“本体学习”来构建知识图谱的模式层,主要包括术语抽取、概念抽取、关系抽取以及规则学习4个步骤。整合出了10个实体,构成电力生产统计样例知识图谱的模式层,形成最终的本体模型即“生产统计指标联动模型”。
27.通过“实体学习”的实体链接以及实体填充两个步骤构建电力生产统计样例知识图谱的数据层。
28.具体地,如图1-图4所示,构建过程包括:第一步:本体学习构建生产统计指标联动模型的过程即构建生产统计知识图谱的模式层的过程,也称为本体构建过程。需要通过“本体学习”来构建知识图谱的模式层,主要包括术语抽取、概念抽取、关系抽取以及规则学习4个步骤。以《生产统计报表制度》、《设备统计报表制度》以及《能耗统计报表制度》为基础,采用“本体学习”的术语抽取、概念抽取、关系抽取以及规则学习4个步骤构建生产统计指标联动模型。
29.本体学习步骤1:术语抽取术语是知识图谱中的实体、概念在电力系统领域专业化的固定表示形式。术语抽取的目标是获取用于表示电力生产统计中本体的专业标记集合。对《生产统计报表制度》进行术语抽取,观察《生产统计报表制度》的目录页,将《直报一
‑‑
供电综合情况表(公司口径-市级供电企业)》、《直报二
‑‑
电量交换情况表(电网口径)》、《直报三
‑‑
电网负荷表》、《直报四
‑‑
售电明细表(公司口径)》等各个报表的具体名称作为术语抽取出来。
30.本体学习步骤2:概念抽取在术语抽取的基础上,进一步对《生产统计报表制度》中的概念进行抽取。概念是更加抽象、具有代表性和概括性的术语,能够代表一定范畴内部的全部实体。比如《直报一
‑‑
供电综合情况表(公司口径-市级供电企业)》、《直报二
‑‑
电量交换情况表(电网口径)》、《直报三
‑‑
电网负荷表》等目录中的具体名称抽取为“报表”这个概念。
31.本体学习步骤3:关系抽取通过上述的术语抽取和概念抽取,整合出了10个实体,分别为“报表”、“指标”、“企业”、“发电厂”、“供电关口”、“行政区划”、“行业”、“月份”、“年份”以及“报表主题”。整合出了下级关系、相等关系、计算关系、包含关系、计算关系等多种实体与实体间的关系。
32.本体学习步骤4:规则学习规则学习是指在本体抽取过程中,对包含了实体、关系的通用句式或者模板进行学习的过程,即周而复始不断提炼的过程。经过本体学习的术语抽取、概念抽取、关系抽取
以及规则学习4个步骤构成电力生产统计样例知识图谱的模式层,形成最终的本体模型即“生产统计指标联动模型”。
33.第二步:实体学习实体学习构建电力生产统计样例知识图谱的数据层,在本体学习的基础上,抽取数据中的实体及关系信息。这些抽取的实体可以根据其所对应的概念,按照模式层的关系层次组成实体间的结构关系。实体学习的主要关键技术包括实体链接和实体填充。
34.实体学习步骤1:实体链接实体链接是对于从文本中抽取得到的实体对象,将其链接到知识库中对应的正确实体对象的操作。在实体链接的过程中,为确保每个实体的唯一性,使用“唯一标识”来表示此实体。以实体“指标”为例对实体链接的数据处理进行详细说明,以“供电”场景为例,实体“指标”的数值在报表中涉及两个维度,横向体现的是统计指标,纵向体现的是供电企业,将统计指标和供电企业结合成“统计指标-供电企业”对应到具体的指标值,并用“英文首字母或拼音首字母缩写”的方法赋予其“唯一标识”。
35.实体学习步骤2:实体填充实体填充为已获得的实体增加描述,使得实体能够更好地被人理解和区分。实体属性填充以及实体关系填充是实体填充的主要内容。通过实体学习的实体链接以及实体填充两个步骤构建电力生产统计样例知识图谱的数据层。
36.对构建好的生产统计知识普进行相关应用。电力生产知识图谱的应用主要包括智能搜索、辅助决策的图算法研究以及智能问答三种类型。
37.应用一:智能搜索生产统计知识图谱的智能搜索是以生产统计工作中常见的问题为导向(搜索偏好)设计图谱查询条件、展开进一步的分析研究,即探索生产统计业务中各种类型的实体、关系、事件和属性的图谱搜索应用场景。
38.(1)行政区域查询此场景以“省
”‑“

”‑“

”‑“
电厂”层层下钻的方式,展现区域间层级关系的完整性,具体展现效果如下。在搜索框内搜索“xx省”,再点击其“下级”关系,便可清晰了解xx省的各地市;以其中的“xx市”为例,点击“下级”,拓展其“下级”关系便可查阅xx市的区县;再以xx市的“xx县”为例,点击“所属区域”便可查看到“xx县供电有限公司”以及隶属xx县的各个电厂情况。同样的,这样的拓展方式可查看到xx省国家电网相关企业。
39.(2)设备情况的查询利用上述搜索方式,结合基本业务电力知识,在搜索框内输入与设备统计相关的常用指标,便可查询xx省的设备统计相关数据。查询设备情况业务时常用的业务指标,分别为变电站座数、主变台数、变电容量,输电线路条数和长度以及配电设备的台数、线路条数。通过这些指标展示,业务人员可以对年度设备统计指标总体情况有一些初步认知,为进一步挖掘分析指标数据内容奠定了一定基础。
40.(3)产业用电情况分析利用知识图谱快速搜索功能,结合用电相关的业务知识,选中产业用电相关指标,便可直接查询到相关指标值,分别为三次产业结构的用电情况,以及全社会用用电总量情况;同时,也可查询到用电指标的当期值、累计值以及相关上年同期值上年同月值。相关业
务统计分析人员可通过此搜索场景,简单计算指标的同比以及占比情况,进行月度用电指标的初步业务分析。
41.(4)清洁能源情况的分析运用知识图谱快速搜索功能,结合用电相关的业务知识,可以看到清洁能源装机容量、电量增速比总容量、电量增速。
42.(5)分行业用电分析利用图谱实现分行业用电分析关键指标搜索,结合实际用电情况挑出能够跟国内/国际形势对应的产业变化情况进行分析。
43.应用二:辅助决策的图算法研究辅助决策的图算法研究。路径分析常用于寻找两个节点间的路径。在电力生产统计知识图谱中,可以迅速检索到两个指标间的所有路径,以便行业新人迅速了解电力生产统计业务业务知识。
44.(1)关系分析在电力生产统计知识图谱中可用于快速查找两张报表间的共同主题;另外,“关系分析”也可应用在“设备情况的查询”的场景中。在“设备情况”应用场景中,可通过“关系分析
”‑“
关联分析”迅速查找两个相关指标的所属的共同报表及相关年份,并“高亮”显示“报表名称”及关联年份。关系分析中的关联分析:在图谱中,找到任意两个节点之间指定度数内的所有节点和关系。用于挖掘两个节点之间在一定度数内所有的节点和关系;关系分析在电力生产统计知识图谱中可用于快速查找两张统计报表间的共同主题。关系分析中的共同邻居分析:得到两个节点所共有的邻居节点,直观地发现图谱中任意两个实体间强相关的另一个实体,进一步推测两个节点之间的潜在关系和相近程度,“关系分析”可应用在“设备情况的查询”的场景中。在“设备情况”应用场景中,可通过“关系分析
”‑“
关联分析”迅速查找两个相关指标的所属的共同报表及相关年份,并“高亮”显示“报表名称”及关联年份。
45.(2)中心度分析中的“介数中心度分析”以及“紧密中心度”可用于电力生产统计知识图谱的“省-市-县”电力公司查询模块中,通过图算法,点亮子图的“省”与“市”的节点,使用者可在复杂庞大的省-市-县关系图谱中快速地查找到省份与地市的关系和位置。介数中心度分析:在图谱中,介数中心度是基于最短路径针对网络图中心性的衡量标准之一。在全连接的网络图中任意两个节点均至少存在一个最短路径,每个节点的介数中心性即为这些最短路径穿过该节点的次数。中心度分析中的“介数中心度分析”以及“紧密中心度”可用于电力生产统计知识图谱的“省-市-县”电力公司查询模块中,通过图算法,点亮子图的“省”与“市”的节点。紧密中心度算法:在图谱中,某个节点到达其他节点的难易程度,也就是到其他所有结点距离的平均值的倒数。使用者可在复杂庞大的省-市-县关系图谱中快速地查找到省份与地市的关系和位置。
46.(3)“社群发现分析”的“louvain算法”可用于电力生产统计知识图谱的不同主题的各个报表中。通过算法,图谱将完整的子图划分为不同模块,并用不同的颜色标出。放大图谱,则可发现在子图中“louvain算法”自动将报表内部关系“省-市-县”为划分规则,将子图分为不同模块。社群分析发现在电力生产图谱的应用中可以判断两张报表是否完全割裂的,还是存在一定的联系。通过社区发现可让电力统计相关业务人员产生关于报表设计的思考:分析两张报表后续的优化或是否需要设计新的报表来加强两张统计报表间的联系。
louvain算法是基于模块度的社区发现算法,其优化目标是最大化整个社区网络的模块度。通过算法,图谱将完整的子图划分为不同模块,并用不同的颜色标出。放大图谱,则可发现在子图中“louvain算法”自动将报表内部关系“省-市-县”为划分规则,将子图分为不同模块。
47.(4)图算法的研究可运用于“可溯式展示”起到辅助决策的作用。通过实现关键路径可视化,将自动辨别对结果影响最大的推理,路径并将其高亮显示,以便电力生产统计业务人员快速发现主要影响因素。图算法善于发现错综复杂的人与人之间的关系特征。在“社交场景”的应用可联想到“电力设备”的应用,“人群”中能实现的算法,同样可应用到“设备”中去。未来,图算法可在“电力设备”专题做更深入的探索研究,挖掘更多“电力设备”之间的可能,在复杂关系中寻找更多可能。
48.应用三:智能问答主要可以包括以下内容:(1)收集生产统计相关的常用问题;(2)将生产统计相关的常用问题进行技术处理;(3)创建知识库回答关于电力生产统计的当期值与累计值的问题;(4)通过知识库回答关于电力生产统计的同比增速、增幅大小等综合情况的问题。
49.如基于语义解析的kbqa的大致流程为:问题
‑‑‑
》实体链接
‑‑‑
》属性理解(意图识别 属性关联)
‑‑‑
》结构化查询
‑‑‑
知识图谱
‑‑‑
》答案。创建知识库回答关于电力生产统计的当期值与累计值的问题。
50.如基于模板的kbqa的大致流程为:自然语言问题匹配
‑‑‑
》人工定义的模板
‑‑‑
》意图理解
‑‑‑
》人工标注每个模板对应的知识图谱中的属性
‑‑‑
》属性关联。通过知识库回答关于电力生产统计的同比增速同比增速等综合情况的问题。
51.本发明不限于上述最佳实施方式,任何人在本发明的启示下都可得出其他各种形式的产品,但不论在其形状或结构上作任何变化,凡是具有与本技术相同或相近似的技术方案,均落在本发明的保护范围之内。
52.本实施例提供的以上方法可以代码化的形式存储在计算机可读取存储介质中,并以计算机程序的方式进行实现,并通过计算机硬件输入计算所需的基本参数信息,并输出计算结果。
53.本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
54.本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
55.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
56.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
57.最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
58.本专利不局限于上述最佳实施方式,任何人在本专利的启示下都可以得出其它各种形式的基于电力生产统计业务的知识图谱构建方法及系统,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本专利的涵盖范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献