一种数据资产图谱化简方法

2022-11-13 11:34:31 来源：中国专利 TAG：

1.本发明属于数据可视化技术领域，具体涉及一种数据资产图谱化简方法。

背景技术：

2.数据资产图谱是一种以数据资产为节点、以数据资产间关联关系为连边的点边双异质网络，用于描述一个或多个公司掌握的数据资产及资产间的关联关系，从而能够高效地挖掘与综合企业数据资产的价值，帮助企业实现数据资产化运营，加快数据变现，方便企业智能化构建行业知识库以及快速构建数据运营能力，从而实现数据增值化。随着现在数据资产的网络规模不断扩大，节点和连边的数量越来越多，导致用户愈加难以理解网络的拓扑特征，以至于无法有效地挖掘、分析数据资产图谱并提炼出图谱中高价值的信息。
3.为了解决上述问题，现在经常采用例如图聚类的方法实现数据资产图谱化简，首先，通过一定的指标将近似节点归并成群组，然后，根据该指标应用图聚类算法计算出所有的群组以及节点-群组的从属树型关系，最后，采用聚类节点等隐喻实现聚类树的可视化表达，并提供一定的交互方法以帮助用户进行可视分析。
4.然而，在数据资产图中存在很多视觉上冗余的小结构，它们的拓扑特性基本一致，在网络资产图中表达的语义也相同，在真实场景中也发挥着相同的业务作用，这部分小结构在工业界和学术界上可称为结构等价子图，对于这些结构等价子图，无法有效寻找出不同结构的子图类型，无法很好的进行子图分组，同时也不能有效识别子图是否同构且同质，因此，传统的图聚类化简方法无法实现有效的化简。

技术实现要素：

5.因此，本发明要解决的技术问题在于克服现有技术中，对数据资产图谱无法有效化简的问题，从而提供一种数据资产图谱化简方法。
6.本发明提供一种数据资产图谱化简方法，包括：
7.获取原始的数据资产图谱，包括以数据资产作为普通节点，以及数据资产间的关联关系构成的连边；
8.从普通节点中提取核节点集合与非核节点集合，并随机以一个非核节点开始进行递归遍历，构建普通节点分组集合；
9.对普通节点分组集合进行粗过滤得到候选子图集合，对候选子图集合进行遍历划分，筛选出同类型的子图；
10.将数据资产图谱中的子图塌陷成子图节点，并进行同源判断，插入虚拟节点与同源的子图节点连接，将插入虚拟节点后的数据资产图谱输入sdne图嵌入模型，得到普通节点和子图节点的节点嵌入向量；
11.利用dbscan聚类算法对得到的节点嵌入向量进行聚类，对所有的聚类结果进行节点和连边的异质判断，划分同类节点和噪音节点；
12.计算所有聚类结果的采样率，根据采样率在所有聚类结果中进行随机采样，删除
采样节点和关联的连边，得到化简后的数据资产图谱。
13.进一步的，获取原始的数据资产图谱，可以为公司、学校、行政单位、公益机构等等的数据资产图谱，将其原始的数据资产图谱当成一个无向同质网络图谱。
14.进一步的，从普通节点中提取核节点集合与非核节点集合，并随机以一个非核节点开始进行递归遍历，构建普通节点分组集合，该步骤是为了后续有效挖掘出不同类型的子图，为了方便理解，首先需要理解以下概念：
15.数据资产图谱中的主要子图由2-4个普通节点组成，其两节点、三节点和四节点构成的所有子图连接模式如图1所示；
16.核节点为数据资产图谱中度大于6或者去核度数大于3的普通节点，即不能构成子图的普通节点；
17.普通节点的去核度数为普通节点在数据资产图谱下的度数减去与核节点连接的边数。
18.理解了上述概念，那么该步骤具体为：
19.由于待挖掘的子图普通节点组成为2-4个，因此子图中普通节点的最大度数等于3，需要找出资产图中度大于3的普通节点作为候选核节点集合；
20.求解每一个候选核节点度数减去候选核节点之间互连的度数，若相减之后度数仍大于3，则可作为核节点，此外，若候选核节点中度数大于6，则也归为核节点，由此构成核节点集合，剩下的普通节点构成非核节点集合；
21.随机访问一个非核节点，从该非核节点开始进行深度优先的递归遍历，在同一个深度优先递归过程中，遍历的所有普通节点分成一组，在每一个深度优先递归过程中，遇到核节点或已遍历过的普通节点则停止深度遍历，递归到上一层普通节点进行下一次遍历，直到没有普通节点遍历时结束该轮递归遍历，由此可得到一个普通节点分组集合。
22.进一步的，对普通节点分组集合进行粗过滤得到候选子图集合，对候选子图集合进行遍历划分，筛选出同类型的子图，具体为：
23.遍历普通节点分组集合，由于子图是由2-4个普通节点构成，若普通节点分组集合中普通节点数量大于4或者小于等于1，则跳过下一个普通节点分组集合，由此将余下的普通节点分组构成候选子图集合sts
24.遍历候选子图集合sts，按照式(1)进行子图类型判断，其中count(stsi)表示普通节点分组i中普通节点的个数，表示节点j的去核度数为k，对照图2中g2子图判断为例，如果该普通节点分组中普通节点数等于3且其中两个普通节点去核度数等于1，另外一个去核度数等于2，则该普通节点分组中的普通节点构成子图g2。最后，给筛选出的同一种类型的子图打上相同的标签，构成同类型的子图。
[0025][0026]
进一步的，将数据资产图谱中的子图塌陷成子图节点，并进行同源判断，插入虚拟节点与同源的子图节点连接，将插入虚拟节点后的数据资产图谱输入sdne图嵌入模型，得到普通节点和子图节点的节点嵌入向量，具体为：
[0027]
由于图嵌入聚类方法仅能对单一节点进行特征学习，无法对子图结构进行精准聚类划分，因此首先将挖掘出的子图塌陷成一个超点，也称之为子图节点，若子图节点拥有相同的上游端节点，且对应的子图标签相同，则说明这些子图是同源的；插入虚拟节点，将同源子图对应的子图节点与相同的虚拟节点相连，把插入虚拟节点后的数据资产图谱作为sdne图嵌入模型的输入，得到所有普通节点和子图节点的节点嵌入向量。
[0028]
进一步的，利用dbscan聚类算法对得到的节点嵌入向量进行聚类，对所有的聚类结果进行节点和连边的异质判断，划分同类节点和噪音节点，具体为：
[0029]
粗聚类，利用dbscan聚类算法对得到的节点嵌入向量进行聚类，得到聚类结果)(或称为类簇)，可以通过设置密度范围和聚类结果中节点的最少个数来控制聚类结果，从而将图中非近邻相似的节点和节点数量少的类簇中的节点都当成噪音节点；
[0030]
细划分。由于借助sdne图嵌入模型得到节点的向量表示，是将图谱当成无向图处理，聚类结果并没有对节点进行区分，因此需要在同一个聚类结果中，对节点和连边进行异质判断，做聚类拆分：在同一个聚类结果中，对于每类同质的普通节点而言，如果其数量大于等于阈值￡(本文取4)，则将这部分普通节点划分到同一类，否则当成噪音节点；在同一个聚类结果中，对于超点或子图节点而言，需要进一步根据它们内部的节点和连边是否为同质进行分类判断，如果子图节点同质且同质的子图节点的数量大于等于阈值￡(本文取4)，则将这些子图节点内部的普通节点划分到同一类，否则将子图节点内部的普通节点都当成噪音节点。
[0031]
进一步的，计算所有聚类结果的采样率，根据采样率在所有聚类结果中进行随机采样，删除采样节点和关联的连边，得到化简后的数据资产图谱，具体为：
[0032]
利用公式(2)的结构等价子图采样率公式计算出类聚类结果的采样率sgi，其中，该公式中ei表示非噪音节点占全节点比值，计算方式如公式(3)所示，σ是本文根据经验值设置的能保持化简前后图谱可视化视觉效果的推荐化简系数(默认值为1.2)，然后，在每个聚类结果中按照采样率sgi进行随机节点采样，并删除采样的节点及其关联的连边，得到化简后的数据资产图谱。
[0033]
[0034][0035]
本发明相对于现有技术，具有如下的优点及效果：提供的数据资产图谱化简方法能够有效地减少图谱视觉密集区域下的冗余结构，在不影响图谱整体拓扑特性的同时突出图谱主要结构特征，明显提高分析人员对图谱的探索分析过程，有助于重要数据资产结构的识别和探索，适合推广应用。
附图说明
[0036]
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0037]
图1示出了本发明的不同类型的子图结构的示意图；
[0038]
图2示出了本发明的核节点和去核度数示意图；
[0039]
图3示出了本发明的子图塌陷成子图节点的示意图；
[0040]
图4示出了本发明的同源子图节点和虚拟节点的示意图；
[0041]
图5示出了本发明的普通节点划分同类节点和噪音节点的示意图；
[0042]
图6示出了本发明的子图节点划分同类节点和噪音节点的示意图；
[0043]
图7-a示出了本发明公开实施例的某公司数据资产图谱示意图；
[0044]
图7-b示出了本发明公开实施例的某公司数据资产图谱化简后的示意图。
具体实施方式
[0045]
这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
[0046]
实施例1
[0047]
本发明提供一种数据资产图谱化简方法，包括：
[0048]
获取原始的数据资产图谱，包括以数据资产作为普通节点，以及数据资产间的关联关系构成的连边；
[0049]
从普通节点中提取核节点集合与非核节点集合，并随机以一个非核节点开始进行递归遍历，构建普通节点分组集合；
[0050]
对普通节点分组集合进行粗过滤得到候选子图集合，对候选子图集合进行遍历划分，筛选出同类型的子图；
[0051]
将数据资产图谱中的子图塌陷成子图节点，并进行同源判断，插入虚拟节点与同源的子图节点连接，将插入虚拟节点后的数据资产图谱输入sdne图嵌入模型，得到普通节点和子图节点的节点嵌入向量；
[0052]
利用dbscan聚类算法对得到的节点嵌入向量进行聚类，对所有的聚类结果进行节点和连边的异质判断，划分同类节点和噪音节点；
[0053]
计算所有聚类结果的采样率，根据采样率在所有聚类结果中进行随机采样，删除采样节点和关联的连边，得到化简后的数据资产图谱。
[0054]
进一步的，获取原始的数据资产图谱，可以为公司、学校、行政单位、公益机构等等的数据资产图谱，将其原始的数据资产图谱当成一个无向同质网络图谱。
[0055]
进一步的，从普通节点中提取核节点集合与非核节点集合，并随机以一个非核节点开始进行递归遍历，构建普通节点分组集合，该步骤是为了后续有效挖掘出不同类型的子图，为了方便理解，首先需要理解以下概念：
[0056]
数据资产图谱中的主要子图由2-4个普通节点组成，其两节点、三节点和四节点构成的所有子图连接模式如图1所示；
[0057]
核节点为数据资产图谱中度大于6或者去核度数大于3的普通节点，即不能构成子图的普通节点；
[0058]
普通节点的去核度数为普通节点在数据资产图谱下的度数减去与核节点连接的边数。
[0059]
如图2所示，普通节点a度数为8，属于核节点，普通节点b度数为3，去核度数为2(度数-与核节点的连边数)。
[0060]
理解了上述概念，那么该步骤具体为：
[0061]
由于待挖掘的子图普通节点组成为2-4个，因此子图中普通节点的最大度数等于3，需要找出资产图中度大于3的普通节点作为候选核节点集合；
[0062]
求解每一个候选核节点度数减去候选核节点之间互连的度数，若相减之后度数仍大于3，则可作为核节点，此外，若候选核节点中度数大于6，则也归为核节点，由此构成核节点集合，剩下的普通节点构成非核节点集合；
[0063]
随机访问一个非核节点，从该非核节点开始进行深度优先的递归遍历，在同一个深度优先递归过程中，遍历的所有普通节点分成一组，在每一个深度优先递归过程中，遇到核节点或已遍历过的普通节点则停止深度遍历，递归到上一层普通节点进行下一次遍历，直到没有普通节点遍历时结束该轮递归遍历，由此可得到一个普通节点分组集合。
[0064]
进一步的，对普通节点分组集合进行粗过滤得到候选子图集合，对候选子图集合进行遍历划分，筛选出同类型的子图，具体为：
[0065]
遍历普通节点分组集合，由于子图是由2-4个普通节点构成，若普通节点分组集合中普通节点数量大于4或者小于等于1，则跳过下一个普通节点分组集合，由此将余下的普通节点分组构成候选子图集合sts
[0066]
遍历候选子图集合sts，按照式(1)进行子图类型判断，其中count(stsi)表示普通节点分组i中普通节点的个数，表示节点j的去核度数为k，对照图1中g2子图判断为例，如果该普通节点分组中普通节点数等于3且其中两个普通节点去核度数等于1，另外一个去核度数等于2，则该普通节点分组中的普通节点构成子图g2。最后，给筛选出的同一种类型的子图打上相同的标签，构成同类型的子图。
[0067][0068]
进一步的，将数据资产图谱中的子图塌陷成子图节点，并进行同源判断，插入虚拟节点与同源的子图节点连接，将插入虚拟节点后的数据资产图谱输入sdne图嵌入模型，得到普通节点和子图节点的节点嵌入向量，具体为：
[0069]
由于图嵌入聚类方法仅能对单一节点进行特征学习，无法对子图结构进行精准聚类划分，因此首先将挖掘出的子图塌陷成一个超点，也称之为子图节点，如图3所示，两节点、三节点、四节点的子图均可塌陷为一个子图节点结构，若子图节点拥有相同的上游端节点，且对应的子图标签相同，则说明这些子图是同源的，如图4所示，三个子图节点另一端均与左边的中心灰色节点相连，即拥有相同的上游端节点，且这三个子图节点标签相同，因此这些子图节点为同源的子图节点；插入虚拟节点，将同源子图对应的子图节点与相同的虚拟节点相连，结果如图4所示，把插入虚拟节点后的数据资产图谱作为sdne图嵌入模型的输入，得到所有普通节点和子图节点的节点嵌入向量。
[0070]
进一步的，利用dbscan聚类算法对得到的节点嵌入向量进行聚类，对所有的聚类结果进行节点和连边的异质判断，划分同类节点和噪音节点，具体为：
[0071]
粗聚类，利用dbscan聚类算法对得到的节点嵌入向量进行聚类，得到聚类结果)(或称为类簇)，可以通过设置密度范围和聚类结果中节点的最少个数来控制聚类结果，从而将图中非近邻相似的节点和节点数量少的类簇中的节点都当成噪音节点；
[0072]
细划分。由于借助sdne图嵌入模型得到节点的向量表示，是将图谱当成无向图处理，聚类结果并没有对节点进行区分，因此需要在同一个聚类结果中，对节点和连边进行异质判断，做聚类拆分：在同一个聚类结果中，对于每类同质的普通节点而言，如果其数量大于等于阈值￡(本文取4)，则将这部分普通节点划分到同一类，否则当成噪音节点，如图5所示，类簇中有两类同质节点，个数分别为3和1，均小于4，因此当作噪音节点；在同一个聚类结果中，对于超点或子图节点而言，需要进一步根据它们内部的节点和连边是否为同质进行分类判断，如果子图节点同质且同质的子图节点的数量大于等于阈值￡(本文取4)，则将这些子图节点内部的普通节点划分到同一类，否则将子图节点内部的普通节点都当成噪音节点，如图6所示，类簇中的5个子图节点(虚线部分)下有4个为同质子图节点，因此这4个子图节点为同一类，标记为
①
的子图节点作为噪音节点。
[0073]
进一步的，计算所有聚类结果的采样率，根据采样率在所有聚类结果中进行随机采样，删除采样节点和关联的连边，得到化简后的数据资产图谱，具体为：
[0074]
利用公式(2)的结构等价子图采样率公式计算出类聚类结果的采样率sgi，其中，该公式中ei表示非噪音节点占全节点比值，计算方式如公式(3)所示，σ是本文根据经验值设置的能保持化简前后图谱可视化视觉效果的推荐化简系数(默认值为1.2)，然后，在每个
聚类结果中按照采样率sgi进行随机节点采样，并删除采样的节点及其关联的连边，得到化简后的数据资产图谱。
[0075][0076][0077]
为了便于理解，以某公司的数据资产图谱作为具体实施例，加以介绍。如图7-a所示，该图谱为中型图谱，包含589个节点和1099条连边，其中等价子图类型主要是图1中的g1(34个)、g2(33个)、g3(12个)和g6(20个)。经过本发明的化简方法，化简后的图谱节点为457个，连边为863条，化简率分别是22.41％和21.47％，并且各类型子图结构在数量上明显减少。通过图7-a和7-b的虚线圈内部结构进行视觉感受上的对比，7-a为原来的数据资产图谱，其虚线圈内部结构可以划分为三个类，即最外围扇形的节点类、中间的长条形的节点类，以及最右边的围成一圈的节点类，经过化简后，7-b的虚线圈内部结构均进行了有效简化，同时保留了原始的结构特性，整个图谱视觉复杂度有所降低，节点和连边之间的重叠明显减少，并且化简前后资产图的心理地图没有变化，布局更加清晰，簇结构之间的连接关系更加明显。
[0078]
本发明相对于现有技术，具有如下的优点及效果：提供的数据资产图谱化简方法能够有效地减少图谱视觉密集区域下的冗余结构，在不影响图谱整体拓扑特性的同时突出图谱主要结构特征，明显提高分析人员对图谱的探索分析过程，有助于重要数据资产结构的识别和探索，适合推广应用。
[0079]
在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0080]
尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种基于神经网络优化学习的水下航行器目标检测方法

一种数据资产图谱化简方法

相关文献

最热文献