一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种数据资产图谱化简方法

2022-11-13 23:44:08 来源:中国专利 TAG:

技术特征:
1.一种数据资产图谱化简方法,其特征在于,包括:获取原始的数据资产图谱,包括以数据资产作为普通节点,以及数据资产间的关联关系构成的连边;从普通节点中提取核节点集合与非核节点集合,并随机以一个非核节点开始进行递归遍历,构建普通节点分组集合;对普通节点分组集合进行粗过滤得到候选子图集合,对候选子图集合进行遍历划分,筛选出同类型的子图;将数据资产图谱中的子图塌陷成子图节点,并进行同源判断,插入虚拟节点与同源的子图节点连接,将插入虚拟节点后的数据资产图谱输入sdne图嵌入模型,得到普通节点和子图节点的节点嵌入向量;利用dbscan聚类算法对得到的节点嵌入向量进行聚类,对所有的聚类结果进行节点和连边的异质判断,划分同类节点和噪音节点;计算所有聚类结果的采样率,根据采样率在所有聚类结果中进行随机采样,删除采样节点和关联的连边,得到化简后的数据资产图谱。2.根据权利要求1的方法,其特征在于,从普通节点中提取核节点集合与非核节点集合,并随机以一个非核节点开始进行递归遍历,构建普通节点分组集合,具体为:找出数据资产图图中度大于3的普通节点作为候选核节点集合;求解每一个候选核节点度数减去候选核节点之间互连的度数,若相减之后度数仍大于3则归为核节点,此外若候选核节点中度数大于6,则也归为核节点,由此构成核节点集合,剩下的普通节点构成非核节点集合;随机访问一个非核节点,从该非核节点开始进行深度优先的递归遍历,在同一个深度优先递归过程中,遍历的所有普通节点分成一组,在每一个深度优先递归过程中,遇到核节点或已遍历过的普通节点则停止深度遍历,递归到上一层普通节点进行下一次遍历,直到没有普通节点遍历时结束该轮递归遍历,得到一个普通节点分组集合。3.根据权利要求2的方法,其特征在于,对普通节点分组集合进行粗过滤得到候选子图集合,对候选子图集合进行遍历划分,筛选出同类型的子图,具体为:遍历普通节点分组集合,若普通节点分组集合中普通节点数量大于4或者小于等于1,则跳过至下一个普通节点分组集合,将余下的普通节点分组构成候选子图集合sts;遍历候选子图集合sts,按照式(1)进行子图类型判断,其中count(sts
i
)表示普通节点分组i中普通节点的个数,表示节点j的去核度数为k,将筛选出的同一种类型的子图打上相同的标签,构成同类型的子图;
4.根据权利要求3的方法,其特征在于,将数据资产图谱中的子图塌陷成子图节点,并进行同源判断,插入虚拟节点与同源的子图节点连接,将插入虚拟节点后的数据资产图谱输入sdne图嵌入模型,得到普通节点和子图节点的节点嵌入向量,具体为:将子图塌陷成子图节点,若子图节点拥有相同的上游端节点,且对应的子图标签相同,则子图同源;插入虚拟节点,将同源子图对应的子图节点与相同的虚拟节点相连,把插入虚拟节点后的数据资产图谱作为sdne图嵌入模型的输入,得到所有普通节点和子图节点的节点嵌入向量。5.根据权利要求4的方法,其特征在于,利用dbscan聚类算法对得到的节点嵌入向量进行聚类,对所有的聚类结果进行节点和连边的异质判断,划分同类节点和噪音节点,具体为:粗聚类,利用dbscan聚类算法对得到的节点嵌入向量进行聚类,得到聚类结果;细划分,在同一个聚类结果中,对节点和连边进行同质或异质判断,在同一个聚类结果中,对于每类同质的普通节点而言,如果其数量大于等于阈值£,则划分到同一类,否则为噪音节点;在同一个聚类结果中,对于子图节点,根据内部的节点和连边是否为同质进行判断,如果子图节点同质且同质的子图节点的数量大于等于阈值£,则将子图节点内部的普通节点划分到同一类,否则为噪音节点。6.根据权利要求5的方法,其特征在于,计算所有聚类结果的采样率,根据采样率在所有聚类结果中进行随机采样,删除采样节点和关联的连边,得到化简后的数据资产图谱,具体为:利用公式(2)计算出聚类结果的采样率sg
i
,其中e
i
表示非噪音节点占全节点比值,计算方式如公式(3)所示,σ是根据经验值设置的保持化简前后图谱可视化视觉效果的推荐化简系数,在每个聚类结果中按照采样率sg
i
进行随机节点采样,并删除采样的节点及其关联的连边,得到化简后的数据资产图谱连边,得到化简后的数据资产图谱

技术总结
本发明保护一种数据资产图谱化简方法,对数据资产图谱提取核节点集合与非核节点集合,构建普通节点分组集合;进行粗过滤和遍历划分筛选出同类型的子图;子图塌陷成子图节点并进行同源判断,插入虚拟节点与同源的子图节点连接,通过SDNE图嵌入模型处理得到节点嵌入向量;利用DBSCAN聚类算法进行聚类,对聚类结果进行异质判断,划分同类节点和噪音节点;计算所有聚类结果的采样率,在所有聚类结果中随机采样,删除采样节点和关联的连边,得到化简后的数据资产图谱。本发明有效减少图谱视觉密集区域下的冗余结构,在不影响图谱整体拓扑特性的同时突出图谱主要结构特征,明显提高对图谱的探索分析过程,有助于重要数据资产结构的识别和探索。别和探索。别和探索。


技术研发人员:陈运鹏 唐健恒 吴幻 董航成 周千超 赵勇 陈晓慧 赵颖 周芳芳
受保护的技术使用者:中南大学
技术研发日:2022.07.27
技术公布日:2022/11/11
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献