基于子图匹配和分布式查询的运维故障诊断分析方法与流程

2022-03-16 15:52:50 来源：中国专利 TAG：

1.本发明涉及智能检索分析领域，特别涉及基于子图匹配和分布式查询的运维故障诊断分析方法。

背景技术：

2.随着人工智能的不断发展，以知识图谱为基础的智能检索分析方法逐渐运用于搜索引擎、教育、医疗、智能电网等领域。通过抽取技术从各个领域的数据中抽取实体、属性、关系等语义信息，并通过知识融合、知识加工等技术构建知识库，然后通过实体间的匹配分析实现用户所需的检索分析服务。同时，知识图谱采用本体术语和语义表达的格式，有规范且标准的概念模型，能很好地解决电网系统积累的大量多源异构的运行数据，包括数字、文字、图像等；而且，知识图谱通过语义链接功能增强数据之间的关联关系，可使数据表达更加规范，结构化更强，能很好地适应智能问答、智能检索、辅助决策等技术的运用场景，同时对电网知识的检索分析也适用。
3.本方法面向的国网公司运维数据分散且规模庞大，数据量已达到zb级规模，已构建的智能运维知识图谱从复杂结构网络中中采集数据，呈现出数据中心分散、数据网络复杂且数据规模大的特征,这些特征使得用户难以快速获取满意的查询结果。针对以上特征,如何实现快速高效的知识图谱查询是当前系统亟待解决的问题。传统的知识图谱查询工作通常简单的将知识图谱查询建模成子图匹配问题，但在实际应用中存在诸多不足。
4.首先，传统的知识图谱查询模型大多要求查询结果与用户查询精确匹配，但是由于知识图谱存在噪声数据，这些模型会遗漏用户感兴趣的查询结果，存在可用性差的问题。
5.其次，为了加快查询速度，传统的知识图谱查询算法普遍采用图索引技术，但是本项目中的智能运维知识图谱的数据规模大，为其建立图索引需耗费高昂的时间和空间开销。
6.最后，由于智能运维知识图谱网络复杂且规模庞大，所以需要采用分布式的方式实现查询过程，然而传统的分布式图数据处理平台未针对知识图谱查询的执行过程进行优化，存在执行效率低下的问题。

技术实现要素：

7.本发明的目的是克服现有技术缺陷，提供基于子图匹配和分布式查询的运维故障诊断分析方法，以期通过在子图匹配、检索算法、分布式处理等方向的优化，解决了现有技术的可用性问题与效率问题。
8.本发明的目的是这样实现的：一种基于子图匹配和分布式查询的运维故障诊断分析方法，包括以下步骤：
9.步骤1)基于子图匹配的方法，建立知识图谱的故障处置措施检索模型：在既存的运维知识图谱中，通过定义检索图-匹配子图-子检索划分-进行子检索-连接子检索结果五个步骤构建基于知识图谱的运维故障处置措施检索模型；
10.步骤2)根据知识图谱中査询图和结果图的拓扑结构特征，基于图结构和语义信息的相似度计算，对结果子图进行排序，得到最优的查询结果：对查询图谱与结果子图进行基于图结构的相似度计算，对图谱之间的语义信息通过语义特征描述进行语义相似度计算；
11.通过将基于图结构的相似度计算与基于语义信息的相似度计算进行线性叠加得到各个子图最终的综合得分score，并且通过score对结果子图进行排序得到最优的查询结果，从而得到最优的k个结果图；
12.步骤3)基于top-k查询模型进行优化，使用分布式查询方法加快查询速度，在分布式图数据处理平台上分别从作业调度和数据存储两个方面优化分布式知识图谱查询的执行效率：基于top-k查询模型进行优化，利用分布式环境的计算能力加快查询速度，并在分布式图数据处理平台上，分别从作业调度和数据存储两个方面优化分布式知识图谱查询的执行效率；
13.步骤4)对运维告警数据进行分级并且筛选相关网元属性：根据大量告警数据中不同级别的问题信息，优先抓取重要和关键告警，并对故障信息进行分级；在出现故障信息，根据告警分级初步判定该故障信息的处理级别，以及受影响的业务，通过网元归属关系查找性能系统网元归属关系和用户容量报表，根据故障网元筛选出归属关系、登记用户数和覆盖范围属性；
14.步骤5)基于大规模智能运维知识图谱，将每种故障的处理步骤规则化：基于大规模智能运维知识图谱，依据历年故障数据库中的信息将每种故障的处理步骤规则化；
15.步骤6)在基于步骤1)、2)、3)知识图谱平台的智能运维决策分析模块中，直接调用“实体—关系—实体”对象，最终形成一键运维故障诊断分析报表：通过大规模智能运维知识图谱，确定实体—关系—实体对象，输出故障诊断说明；故障诊断知识转化采用自动化手段，在基于知识图谱平台的智能运维决策分析原型模块中，直接调用“实体—关系—实体”对象，最终形成一键故障诊断分析报表。
16.作为本发明的进一步限定，所述步骤1)具体包括：
17.步骤1.1)定义检索图：对于检索图q＝(eq，rq),包含点集合eq和边集合rq,其中，每一个检索点都对应一个具体的实体描述，边表示任意两个点之间的关系；
18.步骤1.2)匹配子图：对于给定的知识图谱g＝(eg，rg，eg)和检索子图q＝(eq，rq)，匹配子图的目的是在图谱g中找到子图q的匹配子图φ(q)，φ将子图q中的点eq映射到图谱g中的点φ(eg)中，将子图q中的边rq映射到图谱g中的边φ(rg)中，即将图谱g中满足相关映射函数的子图定义为匹配子图φ(q)；
19.步骤1.3)子检索划分：将检索图划分为多个顶点数目少，边特征单一的子检索图降低检索难度，将子检索图划分为两层树的结构，使每个自检索图包含一个根节点，一层子节点和边；通过逐层的匹配得到子检索的检索结果进而得到检索图的检索结果；
20.步骤1.4)进行子检索：对于步骤1.3)中的子检索图，将子检索图分解成最小生成树，输入数据图与划分后的子检索图，初始化子检索结果集di与匹配点对集合t为空，由根节点生成备选匹配点对集合t，对于集合t，如果t中包含子检索图q的所有节点，计算图的边是否符合标准，将符合判断标准的结果存入子检索结果集di，在完成所有匹配后最终得到结果集di；
21.步骤1.5)连接子检索结果：对于步骤1.4)得到的子检索结果，将所有子检索得结
果连接到一起，生成匹配子图；当且仅当qi、qj两个子检索有共同顶点时，进行检索结果的连接；子检索结果的连接的基本过程如下：初始化子检索结果集d，对于划分的子检索集qi∈(q1，q2，
…qn
)按照子检索进行方法执行所有的qi得到所有的子检索结果，之后对各子检索结果进行哈希连接，保存匹配度满足阈值λ的结果到c中，并将结果按匹配度排序处理，对存储在c中的检索结果运用评价模型进行评价，得出检索结果重要度f，返回检索结果集c，完成检索。
22.作为本发明的进一步限定，所述步骤2)具体包括：
23.步骤2.1)基于图结构的相似度计算：对查询图谱与结果子图的结构进行定量化分析；定义若存在两个知识图谱g1中的节点a，g2中的节点b，两图谱中邻居节点相似，则节点a和节点b相似；同理，边的起点和终点相似，则边相似；定义若任意节点或任意边的相似度越高，则子图匹配的程度越高；结构相似度主要通过节点相似度和边相似度构成的矩阵来衡量；定义图谱g1中有i个节点，图谱g2中有j个节点，则相似度矩阵规模i*j，用x
ab
表示图谱g1中节点a与图谱g2中节点b的相似度，y
cd
表示图谱g1中边c与图谱g2中边d的相似度，则得出如下节点与边的得分求解公式：
[0024][0025]
其中sx表示图谱g1与图谱g2节点相似度得分矩阵，xi(k)表示k次迭代后两图谱中各点相似度；sy表示图谱g1与图谱g2边相似度得分矩阵，yi(k)表示k次迭代后两图谱中各边的相似度；通过对图谱点相似度与图谱边相似度取平均值并且进行相加得到查询图谱与结果子图的结构相似度得分s
sim
，公式如下：
[0026][0027]
其中，n1与n2分别表示图谱g1与图谱g2中节点的个数，m1与m2分别表示图谱g1与图谱g2中边的个数；
[0028]
步骤2.2)基于语义信息的相似度计算：对于给出查询图谱gs＝(g1，g2，
…
，gn)与结果子图gr＝(r1，r2，
…
，rn)，其中ri为三元组，规定将查询图谱与结果子图的相似度用似然估计概率p(gs|gr)表示，根据概率大小判断相似度大小并对结果子图进行排序，基于似然估计概率p(gs|gr)的语义相似度得分计算方法如下：
[0029][0030]
其中，p(gi|gr)表示查询图谱gs的统计语言模型能产生词gi的概率，使用gi在多个三元组模型中产生的概率p(gi|rj)的平均值来表示；
[0031]
步骤2.3)得到线性加权相似度得分：通多对步骤2.1)中的结构相似度得分s
sim
与步骤2.2)中的语义相似度得分进行线性加权融合得到最终的相似度得分情况，公式如下所示：
[0032][0033]
其中，η为一个取值为[0，1]的可变参数，用来调节两个相似度得分在综合相似度得分中的比重；通过对综合相似度的得分对结果子图进行排序，得到最优的查询结果，完成故障检索。
[0034]
作为本发明的进一步限定，所述步骤3)具体包括：
[0035]
步骤3.1)基于top-k查询模型进行优化，利用分布式环境的计算能力加快查询速度，采用分布式广度优先搜索的方法实时计算知识图谱中实体间的距离；提出基于限界技术的査询优化方法加快查询速度，以实体间距离的上下界取代精确距离，并基于上下界推导最优的k个结果图，减少查询时间；在分布式环境下实现知识图谱图查询算法，通过分布式环境下知识图谱的存储方式以及查询任务之间的交互模式，保证分布式查询算法在实际环境中得以执行；
[0036]
步骤3.2)在分布式图数据处理平台上，分别从作业调度和数据存储两个方面优化分布式知识图谱查询的执行效率：通过优化分布式图査询任务的数据加载时间；通过面向数据本地性的任务调度算法，将任务调度到数据所在的计算节点；通过基于共享内存的数据图复用技术，使内存中的知识图谱数据被多个査询任务复用。
[0037]
本发明采用以上技术方案，与现有技术相比，有益效果为：1)本发明在子图匹配的基础上，设计了改进的检索方法，通过将基于图结构的相似度与基于语义信息的相似度进行线性叠加，有效提高了检索准确度，降低了噪声数据的影响；2)本发明采用分布式方法实现查询过程，优化了查询时间，加快了查询速度；3)本发明在分布式图数据处理平台上，分别从作业调度和数据存储两个方面优化分布式知识图谱查询的执行效率，减少数据i/o的开销,进一步缩短查询的整体完成时间。
附图说明
[0038]
图1本发明的总体框架图。
[0039]
图2本发明构建的检索子图概念图。
[0040]
图3本发明的检索子图划分概念图。
具体实施方式
[0041]
如图1所示的基于子图匹配和分布式查询的运维故障诊断分析方法，包括以下步骤：
[0042]
步骤1)基于子图匹配的方法，建立知识图谱的故障处置措施检索模型：在既存的运维知识图谱中，通过定义检索图-匹配子图-子检索划分-进行子检索-连接子检索结果五个步骤构建基于知识图谱的运维故障处置措施检索模型；
[0043]
步骤1.1)定义检索图：对于检索图q＝(eq，rq),包含点集合eq和边集合rq,其中，每一个检索点都对应一个具体的实体描述，边表示任意两个点之间的关系；
[0044]
步骤1.2)匹配子图：对于给定的知识图谱g＝(eg，rg，eg)和检索子图q＝(eq，rq)，匹配子图的目的是在图谱g中找到子图q的匹配子图φ(q)，φ将子图q中的点eq映射到图谱g中的点φ(eg)中，将子图q中的边rq映射到图谱g中的边φ(rg)中，即将图谱g中满足相关映射函数的子图定义为匹配子图φ(q)；
[0045]
步骤1.3)子检索划分：考虑到检索图的顶点和边的数目过多，将检索图划分为多个顶点数目少，边特征单一的子检索图降低检索难度，将子检索图划分为两层树的结构，使每个自检索图包含一个根节点，一层子节点和边；通过逐层的匹配得到子检索的检索结果进而得到检索图的检索结果；构建的检索子图如图2所示，检索子图划分如图3所示；
[0046]
步骤1.4)进行子检索：对于步骤1.3)中的子检索图，将子检索图分解成最小生成树，输入数据图与划分后的子检索图，初始化子检索结果集di与匹配点对集合t为空，由根节点生成备选匹配点对集合t，对于集合t，如果t中包含子检索图q的所有节点，计算图的边是否符合标准，将符合判断标准的结果存入子检索结果集di，在完成所有匹配后最终得到结果集di；
[0047]
步骤1.5)连接子检索结果：对于步骤1.4)得到的子检索结果，将所有子检索得结果连接到一起，生成匹配子图；当且仅当qi、qj两个子检索有共同顶点时，进行检索结果的连接；子检索结果的连接的基本过程如下：初始化子检索结果集d，对于划分的子检索集qi∈(q1，q2，
…qn
)按照子检索进行方法执行所有的qi得到所有的子检索结果，之后对各子检索结果进行哈希连接，保存匹配度满足阈值λ的结果到c中，并将结果按匹配度排序处理，对存储在c中的检索结果运用评价模型进行评价，得出检索结果重要度f，返回检索结果集c，完成检索。
[0048]
步骤2)根据知识图谱中査询图和结果图的拓扑结构特征，基于图结构和语义信息的相似度计算，对结果子图进行排序，得到最优的查询结果：对查询图谱与结果子图进行基于图结构的相似度计算，对图谱之间的语义信息通过语义特征描述进行语义相似度计算；
[0049]
通过将基于图结构的相似度计算与基于语义信息的相似度计算进行线性叠加得到各个子图最终的综合得分score，并且通过score对结果子图进行排序得到最优的查询结果，从而得到最优的k个结果图；
[0050]
步骤2.1)基于图结构的相似度计算：对查询图谱与结果子图的结构进行定量化分析；定义若存在两个知识图谱g1中的节点a，g2中的节点b，两图谱中邻居节点相似，则节点a和节点b相似；同理，边的起点和终点相似，则边相似；定义若任意节点或任意边的相似度越高，则子图匹配的程度越高；结构相似度主要通过节点相似度和边相似度构成的矩阵来衡量；定义图谱g1中有i个节点，图谱g2中有j个节点，则相似度矩阵规模i*j，用x
ab
表示图谱g1中节点a与图谱g2中节点b的相似度，y
cd
表示图谱g1中边c与图谱g2中边d的相似度，则得出如下节点与边的得分求解公式：
[0051][0052]
其中sx表示图谱g1与图谱g2节点相似度得分矩阵，xi(k)表示k次迭代后两图谱中各点相似度；sy表示图谱g1与图谱g2边相似度得分矩阵，yi(k)表示k次迭代后两图谱中各边的相似度；通过对图谱点相似度与图谱边相似度取平均值并且进行相加得到查询图谱与结果子图的结构相似度得分s
sim
，公式如下：
[0053][0054]
其中，n1与n2分别表示图谱g1与图谱g2中节点的个数，m1与m2分别表示图谱g1与图
谱g2中边的个数；
[0055]
步骤2.2)基于语义信息的相似度计算：对于给出查询图谱gs＝(g1，g2，
…
，gn)与结果子图gr＝(r1，r2，
…
，rn)，其中ri为三元组，规定将查询图谱与结果子图的相似度用似然估计概率p(gs|gr)表示，根据概率大小判断相似度大小并对结果子图进行排序，基于似然估计概率p(gs|gr)的语义相似度得分计算方法如下：
[0056][0057]
其中，p(gi|gr)表示查询图谱gs的统计语言模型能产生词gi的概率，使用gi在多个三元组模型中产生的概率p(gi|rj)的平均值来表示；
[0058]
步骤2.3)得到线性加权相似度得分：通多对步骤2.1)中的结构相似度得分s
sim
与步骤2.2)中的语义相似度得分进行线性加权融合得到最终的相似度得分情况，公式如下所示：
[0059][0060]
其中，η为一个取值为[0，1]的可变参数，用来调节两个相似度得分在综合相似度得分中的比重；通过对综合相似度的得分对结果子图进行排序，得到最优的查询结果，完成故障检索。
[0061]
步骤3)基于top-k查询模型进行优化，使用分布式查询方法加快查询速度，在分布式图数据处理平台上分别从作业调度和数据存储两个方面优化分布式知识图谱查询的执行效率：基于top-k查询模型进行优化，利用分布式环境的计算能力加快查询速度，达到快速响应查询请求的目的，并在分布式图数据处理平台上，分别从作业调度和数据存储两个方面优化分布式知识图谱查询的执行效率；
[0062]
步骤3.1)基于top-k查询模型进行优化，利用分布式环境的计算能力加快查询速度，达到快速响应查询请求的目的；为达到免索引的目的，采用分布式广度优先搜索的方法实时计算知识图谱中实体间的距离，避免预先计算并存储任意两个实体间的距离；为了加快查询速度，提出基于限界技术的査询优化方法加快查询速度，以实体间距离的上下界取代精确距离，并基于上下界推导最优的k个结果图，达到有效减少查询时间的目的；在分布式环境下实现知识图谱图查询算法，通过分布式环境下知识图谱的存储方式以及查询任务之间的交互模式，保证分布式查询算法在实际环境中得以执行；
[0063]
步骤3.2)在分布式图数据处理平台上，分别从作业调度和数据存储两个方面优化分布式知识图谱查询的执行效率：通过优化分布式图査询任务的数据加载时间，提高査询任务的执行性能；通过面向数据本地性的任务调度算法，将任务调度到数据所在的计算节点，以尽可能避免网络i/o对査询性能的影响；通过基于共享内存的数据图复用技术，使内存中的知识图谱数据被多个査询任务复用，避免由重复加载数据图带来的i/o开销。
[0064]
步骤4)对运维告警数据进行分级并且筛选相关网元属性：根据大量告警数据中不同级别的问题信息，优先抓取重要和关键告警，并对故障信息进行分级；在出现故障信息，根据告警分级初步判定该故障信息的处理级别，以及可能影响的业务，通过网元归属关系查找性能系统网元归属关系和用户容量报表，根据故障网元筛选出归属关系、登记用户数
和覆盖范围属性，为故障辅助决策提供相关信息的支撑；
[0065]
步骤5)基于大规模智能运维知识图谱，将每种故障的处理步骤规则化：基于大规模智能运维知识图谱，依据历年故障数据库中的信息将每种故障的处理步骤规则化；如明确出现关键告警后需要查询的设备，以及对不同专业设备的具体查询内容。
[0066]
步骤6)在基于步骤1)、2)、3)知识图谱平台的智能运维决策分析模块中，直接调用“实体—关系—实体”对象，最终形成一键运维故障诊断分析报表：通过大规模智能运维知识图谱，确定实体—关系—实体对象，输出故障诊断说明；故障诊断知识转化采用自动化手段，在基于知识图谱平台的智能运维决策分析原型模块中，直接调用“实体—关系—实体”对象，最终形成一键故障诊断分析报表。
[0067]
本发明方法针对云数据中心智能运维知识图谱噪声数据多、数据规模大的特征，提出基于子图匹配和分布式查询的运维故障诊断分析方法，以期通过在子图匹配、检索算法、分布式处理等方向的优化，解决现有技术的可用性问题与效率问题，为智能运维决策分析提供支持。
[0068]
本发明并不局限于上述实施例，在本发明公开的技术方案的基础上，本领域的技术人员根据所公开的技术内容，不需要创造性的劳动就可以对其中的一些技术特征作出一些替换和变形，这些替换和变形均在本发明的保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：智能路侧单元的车辆身份识别方法、系统及可读存储介质与流程

基于子图匹配和分布式查询的运维故障诊断分析方法与流程

相关文献

最热文献