一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于知识图谱的设备故障关键信息提取方法及系统与流程

2022-06-29 16:11:51 来源:中国专利 TAG:


1.本发明涉及一种基于知识图谱的设备故障关键信息提取方法及系统,属于电力系统调度技术监控领域。


背景技术:

2.在互联网环境中,随着认知神经、深度学习等领域的持续发展,人工智能逐渐涉足各个领域,旨在改善人们的生活,给人们的生活和工作带来极大便利。
3.目前人工智能的技术发展在图像识别、语音识别等领域已经有了.广泛的应用。然而在自然语言处理领域,由于人类语言的复杂性以及事物的多样性,目前的自然语言识别技术也得到了一定程度的发展,因此需要一个语义联通的桥梁——知识图谱。知识图谱由知识以及知识之间的关系组成,其本质上来讲是一种语义网络,网络中的节点表示现实世界存在的实体(entity),节点之间的边表示两个实体(entity)之间的关系。通过点与边的组合,将现实世界的知识抽象成计算机可以理解并进行处理的数据。目前知识图谱技术主要用于智能语义搜索、移动个人助理以及问答系统中。如何在非结构化的自然语言中获取关键词信息直接影响系统运行的准确性和检索结果的可靠性。
4.在冀北调控中心执行保电任务时,设备的运行状态和故障信息是直接影响保电工作的重大因素,如某变电站变压器损坏,造成线路停电;又如,某条线路电能质量出现故障,造成多个相关线路或设备电压低,电气设备不能正常运行,如何更高效的检索到设备故障关键信息或如何快速地确定用户想要查询的关键字是亟待解决的问题。


技术实现要素:

5.本发明的目的在于提供一种基于知识图谱的设备故障关键信息提取方法及系统,以利用多个规则块同时运行、并行地实施所需的匹配,有效地实现了非结构化语句等数据的多级并行处理,大大提高了抽取方法的通用性和可移植性。
6.为实现上述目的,本发明采用如下方案:
7.一方面,一种基于知识图谱的设备故障关键信息提取方法,包括:
8.利用预先构建的电力领域词库对采集的设备故障信息文本内容进行拆分、过滤,得到故障关键字;
9.根据所述故障关键字,利用知识图谱提取第一实体对最短路径集合;
10.在预设的多个第一规则块中并行地对第一实体对最短路径集合进行修正;在预设的多个第二规则块中并行地对修正后的第一实体对最短路径集合中的故障信息与电力领域词库中的故障信息进行匹配,得到第二实体对最短路径集合;
11.根据第二规则块的匹配次数,从第二实体对最短路径集合中抽取出匹配次数最高的实体对最短路径。
12.进一步地,所述电力领域词库通过以下方法构建:
13.对已有的调控云模型表中存储的对象进行歧义字剔除、去重、分类,存储到对应的
业务子库中;
14.对于非结构化文件,利用textrank算法提取关键字,然后进行分类,存储到对应的业务子库中,将无法分类的放到技术标准子库中。
15.进一步地,利用textrank算法从非结构化文件中提取关键字的方法,包括:
16.将非结构文件中的文本进行分割,形成句子数组;
17.对句子数组中的每个句子进行分词,过滤停用词,保留名称,得到每个句子对应的关键词;
18.基于所述关键词,构建关键词图g=(v,e),其中v为节点集,由每个句子对应的关键词组成,e为节点的边;
19.利用textrank公式,迭代传播计算各节点的权重,直至收敛;
20.根据权重倒叙排列节点,获得排序最高的多个词语;
21.将获取的词语进行分类,存储到对应的字库中。
22.进一步地,所述第一规则块采用正则表达式,多个所述第一规则块根据电力系统业务内容不同进行构建,不同规则块在运行信息匹配时相互隔离。
23.进一步地,所述第二规则块采用搜索表达式,多个所述第二规则块根据电力系统业务内容不同进行构建,不同规则块在运行信息匹配时相互隔离。
24.进一步地,所述在预设的多个第一规则块中并行地对第一实体对最短路径集合进行修正,包括:
25.采用构建的多个正则表达式,并行地对第一实体对最短路径集合中的文本进行处理,得到电力领域规范使用的文本。
26.进一步地,所述在预设的多个第二规则块中并行地对修正后的第一实体对最短路径集合中的故障信息与电力领域词库中的故障信息进行匹配,包括:
27.将设备主体属性集合s与电力领域词库中设备主体属性集合s

相比较,所述设备主体属性集合s为修正后的故障关键字的集合,若s∈s

,对第一实体对最短路径集合中的设备故障信息p和电力领域词库中相关故障信息p

的关键词进行词频计算,得到分词向量k={k1,k2,

,kn}和k

={k

1,k

2,

,k

m};
28.利用相似性算法计算k和k

之间的相似度,得到设备故障信息p和词库中设备故障信息p

之间的匹配度,当匹配度大于设定阈值,过滤出设备故障信息p。
29.另一方面,一种基于知识图谱的设备故障关键信息提取系统,包括:
30.一种基于知识图谱的设备故障关键信息提取系统,其特征在于,包括:
31.基本信息提取模块,利用预先构建的电力领域词库对采集的设备故障信息文本内容进行拆分、过滤,得到故障关键字;
32.路径结构信息提取模块,根据所述故障关键字,利用知识图谱提取第一实体对最短路径集合;
33.属性文本信息提取模块,用于在预设的多个第一规则块中并行地对第一实体对最短路径集合进行修正;在预设的多个第二规则块中并行地对修正后的第一实体对最短路径集合中的故障信息与电力领域词库中的故障信息进行匹配,得到第二实体对最短路径集合;
34.关系抽取模块,根据第二规则块的匹配次数,从第二实体对最短路径集合中抽取
出匹配次数最高的实体对最短路径。
35.本发明所达到的有益技术效果:
36.本发明利用多个规则块同时运行、并行地实施所需的匹配,有效地实现了非结构化语句等数据的多级并行处理,大大提高了抽取方法的通用性和可移植性。
附图说明
37.图1是本发明实施例的一种基于知识图谱的设备故障关键信息提取方法流程图;
38.图2是本发明实施例的一种基于知识图谱的设备故障关键信息提取系统结构框图;
39.图3是电力领域词库示意图。
具体实施方式
40.下面结合具体实施例对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
41.本发明利用多个规则块同时运行、并行地实施所需的匹配,实现了非结构化语句数据的多级并行处理,从中提取实体的描述属性与连接实体对的最短路径集合。
42.如图1所示,一种基于知识图谱查询的并行抽取方法,包括:
43.步骤s1,利用预先构建的电力领域词库对采集的设备故障信息文本内容进行拆分、过滤,得到故障关键字;
44.在对设备故障信息文本内容进行拆分前,应当构建电力领域词库。具体的,在通用词库的基础上扩充电力系统专业术语,如“电厂”、“张家口变”、“励磁涌流”、“断路器”、“自动化”、“保护设备”等,并按照层次法对词语进行建模。
45.利用层次建模法,构建的电力领域词库可以包含业务子库、词语标签、词语项目3个层次,如图3所示。电力领域词库的构建需要确保词库管理的规范性、扩展性、通用性、可推广性,建模以后可以在各个电网部门,特别是各级调度内部进行重复使用,协同扩展。
46.词库构建过程中,词语的提取主要采用两种方式:

利用已有的发电厂、变电站、交流线路、直流线路等调控云模型表中存储的对象,进行歧义字剔除、去重、分类,存储到对应的业务子库中。

从调度规程、稳定限额规程、技术标准、规范等非结构化文件中,利用textrank算法提取关键字,然后进行分类,存储到对应的业务子库中,将无法分类的放到技术标准子库中,构建出初步的电力领域词库。
47.其中,利用textrank算法从非结构化文件中提取关键字的过程,具体为:
48.input:输入调度规程等文本数据t
49.output:电力专业关键词语
50.1:将给定的文本t按照完整句子进行分割;
51.2:形成句子数组:t=[s1,s2,s3,

,sn];
[0052]
3:对s分词,过滤停用词,保留名称;
[0053]
4:得到si的分词结果关键词:si=[t
i,1
,t
i,2
,t
i,3


,t
i,m
];
[0054]
5:构建关键词图g=(v,e),其中v为节点集,由si产生的候选词组成,e为节点的边,仅当节点间相同词语个数为m,m表示窗口大小;
[0055]
6:利用textrank公式,迭代传播计算各节点的权重,直至收敛;
[0056]
7:根据权重倒叙排列节点,获得排序最高的t个单语;
[0057]
8:将获取的词语进行分类,存储到对应的字库中。
[0058]
基于构建好的电力领域词库,对采集到的非结构化设备故障信息文本内容进行分词拆分、过滤,具体方法包括:
[0059]
根据不同的属性和语义设置若干个分词,遍历非结构化数据信息的内容进行比较,对非结构化数据中的内容所包含的实体词与词库中的检索词进行相似度匹配,若相似度低于设置的阈值,则将若干个实体词定义为触发词,若相似度等于或高于阈值,则将检索词进行过滤。同时将符合规范的触发词进行记录,避免下一次查询时重复进行筛选操作。
[0060]
例如,张家口.白龙山站/220kv白鹿线034开关故障信息,如下表:
[0061][0062][0063]
从表格中可以看到:通过步骤s1提取到了“034开关”、“034线保护出口”、“034开关间隔事故总”、“034开关控制回路断线”等故障关键字。
[0064]
步骤s2,根据所述故障关键字,利用知识图谱提取第一实体对最短路径集合;
[0065]
知识图谱(knowledge graph)是表示信息的一种方式,相比传统数据库,知识图谱技术更容易捕获数据实体间复杂的关系。
[0066]
将知识图谱视作有向图,利用双向广度优先搜索算法确认实体对之间的最短路径长度,随后利用深度优先搜索算法寻找一定数量的实体对的最短路径;以语义框架的概念对所提取的实体、关系进行三元组表示,通过cypher语言对neo4j数据库进行操作,分别用标签、节点、边、代表概念、实体、关系。获取连接实体对的最短路径集合。
[0067]
为了获得更好的检索结果,通过分析步骤s1中故障文本信息中句子间各成分间的依存关系来分析句子结构,获取设备故障信息与词库匹配的相关信息,通过语义相似度计算对实体、关系的缩略语、指代词进行筛选与消歧,将电力文本中所提取的知识与已有知识进行对比评估,完成设备故障信息实体匹配、关系整合。
[0068]
步骤s3,在预设的多个第一规则块中并行地对第一实体对最短路径集合进行修
正;在预设的多个第二规则块中并行地对修正后的第一实体对最短路径集合中的故障信息与电力领域词库中的故障信息进行匹配,得到第二实体对最短路径集合;
[0069]
为了弥补路径信息无法反映实体对之间语义关系的情况,在预设的多个规则块中调用自建程序和自动程序并行地运行信息匹配,其中,规则块可根据电力系统业务内容不同进行划分,不同规则块在运行信息匹配时相互隔离,有效缩减了硬件成本。
[0070]
自建程序采用构建的正则表达式进行信息匹配,将每一条电力业务规则转换为一种字符匹配模式,当每个规则块读取输入内容后,自动与字符匹配模式适配,查看是否符合该模式。在本实施例中,通过以下述实例进行说明:
[0071][0072][0073]
自动程序采用构建的搜索表达式进行信息匹配,与正则表达式类似,检索表达式的构建同样基于不同的电力系统业务内容,通过检索词、逻辑算符、通配符等进行关联,进行信息匹配。当得到自建程序与自动程序结果后,将其拼接在一起,构成实体对的属性信息,提高信息匹配的正确率。
[0074]
通过搜索表达式,并行地对第一实体对最短路径集合中的故障信息与电力领域词库中的故障信息进行匹配,具体如下:
[0075]
通过步骤s1获取到实体属性s(关键字),通过步骤s2获取到关键字关联度较高的属性信息在最短路径集合中的匹配度最高的故障关键信息p。
[0076]
对任意设备故障信息p和词库中故障信息p’,以及设通过步骤备主体属性集合s和词库中设备主体属性集合s

;对于任意s(如开关状态开),s∈s

,获取该分类领域中的关键字集合利用该关键字集合分别对设备故障信息p和词库中相关故障信息p

的关键词进行词频计算,从而分别获得分词向量k={k1,k2,.,kn}和k

={k

1,k

2,k

m}。
[0077]
利用相似性算法计算k和k

之间的相似度,作为设备故障信息p和词库中设备故障信息p

之间的匹配度。
[0078]
其中检索信息的属性信息包括:关键词、设备名称和故障类别等信息。
[0079]
例如:对“张家口.白龙山站/220kv.白鹿线034开关故障信息”进行规则块匹配,得到的实体对路径集合如下:
[0080][0081]
步骤s4,根据第二规则块的匹配次数,从第二实体对最短路径集合中抽取出匹配次数最高的实体对最短路径。
[0082]
汇总多个规则块的匹配结果,多个规则块的匹配结果为正则表达式的匹配次数和搜索表达式的匹配次数,并输出对文本页面的抽取结果,分别采用准确率等维度作为所述抽取结果的评价指标,验证并行抽取的质量。在多个匹配结果中,根据双向广度优先搜索算法确认设备故障关键信息最优的提取结果。
[0083]
通过规则块中构建的正则表达式匹配算法和搜索表达式匹配算法进行最终结果进行抽取,剔除故障信息文本分析过程中产生的可能性结果,保留最优匹配结果,如下表:
[0084][0085]
在另一实施例中,如图2所示,一种基于知识图谱的设备故障关键信息提取系统,包括:
[0086]
基本信息提取模块,利用预先构建的电力领域词库对采集的设备故障信息文本内容进行拆分、过滤,得到故障关键字;
[0087]
路径结构信息提取模块,根据所述故障关键字,利用知识图谱提取第一实体对最短路径集合;
[0088]
属性文本信息提取模块,用于在预设的多个第一规则块中并行地对第一实体对最短路径集合进行修正;在预设的多个第二规则块中并行地对修正后的第一实体对最短路径
集合中的故障信息与电力领域词库中的故障信息进行匹配,得到第二实体对最短路径集合;
[0089]
关系抽取模块,根据第二规则块的匹配次数,从第二实体对最短路径集合中抽取出匹配次数最高的实体对最短路径。。
[0090]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0091]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0092]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0093]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0094]
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献