一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于属性增强表征学习的多元图数据库可视化检索方法与流程

2022-02-20 13:37:47 来源:中国专利 TAG:


1.本发明属于信息技术领域,尤其是图检索技术领域,具体涉及一种基于属性增强表征学习的多元图数据库可视化检索方法。


背景技术:

2.随着图数据管理技术的发展,大量图数据集被广泛收集以满足许多领域中与数据相关的研究和应用,如自然科学、商业关系和知识衍生。图检索是一种基于各种相似性度量从大量图数据集中检索出所需图的探索性方法。
3.结构一直是图检索的首要考虑因素,结构相似性是根据拓扑结构特征或者嵌入向量来度量的。例如,在化合物数据库中,生物化学家通常根据结构相似性检索并匹配所需的化合物。对于图的深度结构表示,除了传统的图相似性度量,如最大公共子图和最小编辑距离,还使用图核和图表征学习等来度量图的相似性。
4.在实际的应用场景中,图中节点的属性非常丰富,这对于图检索也很重要,例如,在基于蛋白质相互作用的网络中,生物学家可以通过考虑蛋白质的属性更准确地识别蛋白质复合物;在大型移动电话网络中,如果将用户配置文件、交互模式和通话记录等属性综合考虑,分析人员可以快速有效定位犯罪嫌疑人并发现犯罪团伙。可以看出,将结构和属性融合成一个综合模型将有助于可靠的图检索。然而,在图检索过程中同时考虑结构和属性特征仍具有一下三个方面的挑战:(1)结构和属性是两种完全不同的、异构的特征,以至于他们很难以一种统一的方式表示。因此,构建结构和属性综合模型以产生更好的检索结果是一项重要的挑战。(2)图查询语言是一种常用的图检索方法。然而,它是很难学习和使用的,特别是对于那些非专家用户。因此,提供可视化的图检索接口为非专家用户构造检索图的结构和属性特征是一种可行方式。(3)在结构和属性融合的基础上,通过图检索模型检索出大量的候选图后,有必要提供定量比较和可视化评估设计,使用户能够评估和确定哪一个候选图最能代表他们的需求。


技术实现要素:

5.本发明的目的是提供一种基于属性增强表征学习的多元图数据库可视化检索方法。
6.本发明方法的技术方案是:
7.步骤(1)利用图表征学习模型学习得到高维结构向量sm;提取多元图的多维属性特征,形成属性向量am;sm和am转换后拼接得到高维结构-属性融合向量cm;m=1,2,

,m,m为大规模图数据库中多元图的总数量;
8.步骤(2)将所有高维结构-属性融合向量投影到二维空间,根据向量间欧式距离进行聚类,获得图检索结果;
9.步骤(3)集成步骤交互设计和可视化设计,实现大规模多元图数据库检索。
10.进一步,步骤(1)具体是:
11.(1-1)利用图表征学习模型graph2vec,将大规模图数据库中所有多元图数据转换为高维结构向量集s={s1,s2,

,sm},sm为大规模图数据库中第m个多元图的高维结构向量;其中,sm=(s
m1
,s
m2
,

,s
mn
),s
mn
为高维结构向量sm中的第n个数值,n=1,2,

,n,n为高维结构向量sm的维数;
12.(1-2)利用数理统计方法,提取多元图的多维属性特征,并形成属性向量:
13.多元图的多维属性特征包括宏观属性特征和微观属性特征,宏观属性特征值通过直接统计图的全局特征得到,微观属性特征值通过直接加总或者平均每个节点的属性值得到;将宏观属性特征值和微观属性特征值进行拼接,所有多元图构成属性向量集a={a1,a2,

,am},am为大规模图数据库中第m个多元图的属性向量,m=1,2,

,m;其中,am=(a
m1
,a
m2
,

,a
mt
),a
mt
为属性向量am中的第t个属性值,t=1,2,

,t,t为属性向量am的维度,即所提取的多元图的属性总数量;
14.(1-3)利用典型相关分析(cca)算法,将步骤(1-1)学习得到的高维结构向量sm和步骤(1-2)提取到的属性向量am转换为一对维度相同的新向量s
′m和a
′m,将其直接拼接得到高维结构-属性融合向量cm=[s
′m,a
′m],cm很好地保留了结构和属性特征。
[0015]
再进一步,步骤(2)具体是:
[0016]
(2-1)使用t-sne降维算法,将所有高维结构-属性融合向量{cm}投影到二维空间中,得到二维结构-属性融合向量集{c
′m},m=1,2,

,m;
[0017]
(2-2)使用基于距离的k-means聚类算法,对得到的二维结构-属性融合向量集{c
′m},根据向量之间的欧式距离进行聚类;
[0018]
(2-3)在指定某个图为目标图后,使用k-nn分类算法,检索出与该目标图最相似的k个图作为检索结果,通过计算对应的二维结构-属性融合向量之间的欧式距离得到图之间的相似性。
[0019]
更进一步,步骤(3)具体是:
[0020]
(3-1)提供两种定义目标图的交互方式:基于导航和聚类视图的方式,基于特征定义的方式;
[0021]
所述的基于导航和聚类视图的方式,是提供两种多元图数据库的概览图,以帮助用户快速识别感兴趣的图并通过点击概览图中的点来指定对应的目标图;概览图包括二维属性散点图和投影视图:二维属性散点图是以笛卡尔坐标的形式展示,x轴和y轴分别指定不同的属性以展示多元图数据在两种属性特征上的分布情况;投影视图展示步骤(2-2)得到的聚类结果,被聚为不同类的多元图被映射为不同颜色的散点,帮助用户快速找到有价值的聚类和异常值;
[0022]
所述的基于特征定义的方式,是通过提供结构面板和属性面板帮助用户定义所需结构和属性的新目标图;对于结构面板,提供两种方式指定目标图:一是手动绘制,通过添加或删除节点或边的操作来绘制目标图的结构;二是基于模板绘制,通过直接选择使用结构模板再通过删除添加节点或边来调整结构模板以绘制结构目标图;对于属性面板,通过拖动滑条设置目标图相关属性的范围;
[0023]
(3-2)通过一组可视化视图从结构和属性两个方面对检索结果进行可视化评估:
[0024]
通过目标视图展示目标图的结构特征,通过候选视图展示检索结果的结构特征,结合目标视图和候选视图中的节点链接图可以比较目标图与检索结果的结构相似性;通过
平行坐标视图展示目标图和检索结果的多维属性值并比较其属性相似度;投影视图展示步骤(2-2)得到的聚类结果,被聚为不同类的多元图被映射为不同颜色的散点,根据散点在投影视图中的距离比较对应图的结构和属性综合的相似性;
[0025]
(3-3)集成步骤(3-1)的交互设计和步骤(3-2)的可视化设计,实现大规模多元图数据库检索,支持检索结构和属性均相似的多元图并可视化评估和比较检索结果。
[0026]
本发明方法利用图表征学习模型和数理统计方法提取多元图的结构和属性特征,并结合其特征提取结果,利用典型相关分析建立基于属性增强的图表征学习模型,将学习到的结构向量和属性向量融合到一个综合嵌入空间中,既很好地保留了结构和属性特征,又最大化了结构和属性特征之间的相关性;并将高维结构-属性融合向量投影到二维空间中并聚类,进而构建一种基于距离的图检索模型。本发明通过利用节点链接图和平行坐标视图分别从结构相似度和属性相似度对检索结果进行可视化评估,并设计交互帮助用户构建目标图实现检索以及比较检索结果。本发明方法实现了一个基于属性增强表征学习的多元图数据库可视化检索工具,使用户能够轻松地构建图检索并可视化评估和比较图检索的结果。
附图说明
[0027]
图1为本发明的流程示意图;
[0028]
图2为基于导航和聚类方式的二维属性散点图;
[0029]
图3为基于导航和聚类方式的投影视图;
[0030]
图4是基于特征定义的方式示意图;
[0031]
图5是可视化评估视图示意图。
具体实施方式
[0032]
如图1所示,基于属性增强表征学习的多元图数据库可视化检索方法,具体步骤是:
[0033]
步骤(1)利用图表征模型和数理统计方法分别提取多元图的结构和属性特征,并结合其特征提取结果,利用典型相关分析建立基于属性增强的图表征学习模型,将学习到的结构向量和属性向量融合到一个综合嵌入空间中得到高维结构-属性融合向量。具体是:
[0034]
(1-1)利用图表征学习模型graph2vec,将大规模图数据库中所有多元图数据转换为高维结构向量集s={s1,s2,

,sm},sm为大规模图数据库中第m个多元图的高维结构向量,m=1,2,

,m,m为大规模图数据库中多元图的总数量;其中,sm=(s
m1
,s
m2
,

,s
mn
),s
mn
为高维结构向量sm中的第n个数值,n=1,2,

,n,n为高维结构向量sm的维数。
[0035]
(1-2)利用数理统计方法,提取多元图的多维属性特征,并形成属性向量:
[0036]
多元图的多维属性特征包括宏观属性特征和微观属性特征,宏观属性特征值通过直接统计图的全局特征得到,微观属性特征值通过直接加总或者平均每个节点的属性值得到;将宏观属性特征值和微观属性特征值进行拼接,所有多元图构成属性向量集a={a1,a2,

,am},am为大规模图数据库中第m个多元图的属性向量,m=1,2,

,m;其中,am=(a
m1
,a
m2
,

,a
mt
),a
mt
为属性向量am中的第t个属性值,t=1,2,

,t,t为属性向量am的维度,即所提取的多元图的属性总数量。
[0037]
(1-3)利用典型相关分析(cca)算法,将步骤(1-1)学习得到的高维结构向量sm和步骤(1-2)提取到的属性向量am转换为一对维度相同的新向量s
′m和a
′m,将其直接拼接得到高维结构-属性融合向量cm=[s
′m,a
′m],cm很好地保留了结构和属性特征。
[0038]
步骤(2)利用t-sne和k-means将得到的高维结构-属性融合向量投影到二维空间中并聚类,进而利用k-nn算法构建一种基于距离的图检索模型。具体是:
[0039]
(2-1)使用t-sne降维算法,将所有高维结构-属性融合向量{cm}投影到二维空间中,得到二维结构-属性融合向量集{c
′m},m=1,2,

,m。
[0040]
(2-2)使用基于距离的k-means聚类算法,对得到的二维结构-属性融合向量集{c
′m},根据向量之间的欧式距离进行聚类。
[0041]
(2-3)在指定某个图为目标图后,使用k-nn分类算法,检索出与该目标图最相似的k个图作为检索结果,通过计算对应的二维结构-属性融合向量之间的欧式距离得到图之间的相似性。
[0042]
步骤(3)集成步骤交互设计和可视化设计,实现大规模多元图数据库检索。具体是:
[0043]
(3-1)提供两种定义目标图的交互方式:基于导航和聚类视图的方式,基于特征定义的方式。
[0044]
基于导航和聚类视图的方式,是提供两种多元图数据库的概览图,以帮助用户快速识别感兴趣的图并通过点击概览图中的点来指定对应的目标图;概览图包括二维属性散点图和投影视图:如图2所示,二维属性散点图是以笛卡尔坐标的形式展示,x轴和y轴分别指定不同的属性以展示多元图数据在两种属性特征上的分布情况;如图3所示,投影视图展示步骤(2-2)得到的聚类结果,被聚为不同类的多元图被映射为不同颜色的散点,帮助用户快速找到有价值的聚类和异常值。这两种概览图都有助于用户快速找到有价值的聚类或异常值,从中选择目标图进行检索。
[0045]
如图4所示,基于特征定义的方式,是通过提供结构面板和属性面板帮助用户定义所需结构和属性的新目标图;对于结构面板,提供两种方式指定目标图:一是手动绘制,通过添加或删除节点或边的操作来绘制目标图的结构;二是基于模板绘制,通过直接选择使用结构模板再通过删除添加节点或边来调整结构模板以绘制结构目标图;对于属性面板,通过拖动滑条设置目标图相关属性的范围值的范围。
[0046]
(3-2)检索结果同时保留了结构和属性两种特征。为了说明本发明的有效性,分别从结构相似度和属性相似度两个方面对检索结果进行可视化评估与定量比较。
[0047]
如图5所示,可视化评估的具体方法:提供一组可视化视图从结构相似度和属性相似度两个方面对检索结果进行可视化评估:
[0048]
结构相似度相关的视图包括目标视图和候选视图,其中目标视图以节点链接图的形式详细展示目标图的结构;匹配结果中的所有图都以节点链接图的形式展示在候选视图中,用户可以通过拖动候选视图右侧的滑块来浏览所有检索结果,单击候选图时,其相似结构信息会展示在目标视图中,供用户检查详细信息。
[0049]
通过平行坐标视图来展示检索结果和目标图的属性相似度。检索结果在平行坐标视图中显示为蓝线,目标图显示为红线,为了更清楚地显示每个属性上值的分布,我们沿对应每个属性值的每个轴添加一个热图,其中宽度和颜色都对穿过相应位置的线的数量进行
编码,穿过轴上的线越多,则该位置的热图的宽度越宽,颜色越红,该设计以更好地揭示候选图和目标图之间的属性相似度。
[0050]
投影视图来展示检索结果和目标图的结构和属性综合的相似度,在投影视图中,展示步骤(2-2)得到的聚类结果,被聚为不同类的多元图被映射为不同颜色的散点,散点之间的距离映射对应多元图在结构和属性综合的相似度,距离越近相似度越高,目标图对应的点高亮为红色点,检索结果对应的点高亮为白色点,因此根据散点在投影视图中的距离可以比较对应检索结构与目标图的结构和属性综合的相似性。
[0051]
(3-3)集成步骤(3-1)的交互设计和步骤(3-2)的可视化设计,实现大规模多元图数据库检索,支持检索结构和属性均相似的多元图并可视化评估和比较检索结果。
[0052]
该方法有效性评估如下:
[0053]
通过定量比较来评估我们提出的基于属性增强表征学习的多元图数据库检索模型的有效性和适用性。采用2个多元图数据集(genealogy dataset、co-author network dataset)进行评价。如下表所示,将本发明的多元图检索方法“our”与纯结构检索方法“str”(通过图表征学习技术graph2vec来度量图的相似性,而不考虑图的属性特征);纯属性检索方法“attr”(基于图的多维属性来度量图的相似性,而不考虑图的结构特征);直接拼接检索方法“dc”(直接拼接高维结构向量和低维属性向量,然后联合降维以度量图的相似性);间接拼接检索方法“idc”(先将高维结构向量和低维属性向量简化到一个统一的维度,在将它们拼接起来以度量图的相似性)这四种基础图检索方法进行了比较。
[0054][0055]
在不同聚类数量k下,使用以上两个指标:结构相似度“str-sim”和属性相似度“attr-sim”比较不同方法的结果。从表中可以看出在家谱数据集中,本发明方法在结构相似度方面优于str、attr、dc和idc。在k指定为20时,本发明方法略差于str和dc,但是随着k值的增加,我们方法的性能明显优于其他方法。在属性相似度方面,本发明方法不如attr,而优于str、dc和idc,这表明本发明方法结合了图的结构和属性信息,在结构和属性相似性之间取得了平衡。此外,在结构相似性和属性相似性方面,本发明方法几乎优于dc和idc,这证明本发明方法有效地克服了传统融合方法的缺点。在合著网络数据集中,本发明方法在属性相似度方面出乎意料地超越了attr,这表明本发明方法保留了结构和属性特征之间的相关信息。综合上述结果表明,本发明方法有效保持了结构和属性的相似性。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献