一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于迭代深度图学习的网络对齐方法、装置及计算机设备

2022-07-13 12:42:18 来源:中国专利 TAG:


1.本技术涉及网络对齐技术领域,特别是涉及一种基于迭代深度图学习的网络对齐方法、装置及计算机设备。


背景技术:

2.网络是一种自然但强大的结构,能够捕捉许多领域中不同实体之间的关系,如社交网络、引用网络、生物信息网络。网络分析,也称为网络科学,几十年来一直受到广泛关注,至今仍是一个极具吸引力的领域。虽然对单个网络的分析对于各种应用(例如,链路预测、社区检测、用户建模)至关重要,但如果不考虑图之间的关系(例如,图聚类、图对齐),就无法回答一些问题。这突出了比较图分析的必要性,这是网络科学的一个子领域,旨在分析两个或多个图之间的相似性。在本文中,解决比较图分析中的一个主要问题,网络对齐 (network alignment,na),即识别不同网络中的节点对应关系的问题。
3.网络对齐是两个图之间配对节点的问题,使得配对节点在结构和语义上相似。网络对齐在各个领域的许多应用中起着重要的作用。例如,有大量用户在不同的社交网络中拥有账户,网络对齐可以应用于通过不同的社交网络媒体连接相同的用户,如图1所示。网络对齐所建立的用户对应关系可以缓解通过信息融合分析单个社交网络的稀疏性问题,有利于链路预测和跨域推荐等应用。网络对齐还可以帮助基于现有的垂直或跨语言知识库构建更紧凑的知识图,从而获得更好的知识推理。在生物信息学中,对齐来自不同物种的蛋白质-相互作用网络已被广泛研究,以确定共同的功能结构。
4.然而网络对齐面临着与效率、合并信息的丰富性、网络本身存在的噪声和对齐约束的严格性相关的挑战。网络对齐通常被描述为二分图的最大匹配问题。然而,它的许多变体,如最大公共子图问题,都是np难问题。因此,许多方法采用矩阵分解公式,例如isorank、final和regal。这种谱方法无法处理非常大的网络,因为所需的计算工作量随着网络的大小而快速增长。因此,网络表示学习方法被提出,例如pale、deeplink和cenalp。这些基于网络表示学习的对齐技术可以利用图嵌入的可伸缩性来处理大型网络,但是这些方法只依赖拓扑信息,因此仍然容易受到结构噪声的影响,而这在现实网络中却是非常常见的。


技术实现要素:

5.基于此,有必要针对上述技术问题,提供一种能够有效缓解网络中存在的结构噪声问题的基于迭代深度图学习的网络对齐方法、装置及计算机设备。
6.一种基于迭代深度图学习的网络对齐方法,所述方法包括:
7.获取用于训练的两个网络数据集,各所述网络数据集均包括代表不同实体的多个节点的合集,以及代表两实体之间关系的边的合集,且两个所述网络数据集中存在匹配关系的两节点之间具有锚链;
8.将两个所述网络数据集输入网络对齐模型中进行训练,直至得到具备将两个网络进行对齐的已训练的网络对齐模型,其中,所述网络对齐模型包括迭代深度图学习网络以
及对齐预测网络,所述迭代深度图学习网络用于对网络数据集中的网络结构进行优化后得到更新网络,所述对齐预测网络根据所述更新网络进行网络对齐预测;
9.获取待对齐的两个网络数据集,将这两个网络数据集输入已训练的网络对齐模型中进行预测,以得到两个网络中具有匹配关系的节点对。
10.在其中一实施例中,在所述迭代深度图学习网络中,分别对输入的两个网络数据集进行图学习得到对应的图结构,并基于图神经网络学习图结构中节点嵌入,再将得到的节点嵌入带入图学习中进行迭代计算以对图结构进行优化更新,直到得到的更新图结构满足预设条件。
11.在其中一实施例中,在所述对齐预测网络中,分别计算其中一更新网络结构中的各节点分别与另一更新网络结构中各节点的距离,根据两个节点之间的距离进行对齐预测。
12.在其中一实施例中,计算两个节点之间的距离采用以下公式:
[0013][0014]
在上式中,ui和vj分别表示来自不同更新网络的节点,f(x,y)=||x-y||1,其中,ui和vj表示节点的嵌入,d表示嵌入的维数。
[0015]
在其中一实施例中,在对所述网络对齐模型进行训练时包括:
[0016]
根据预测损失函数以及采用随机梯度下降的方式对所述对齐预测网络进行训练;
[0017]
根据图正则化损失函数、所述预测损失函数以及采用迭代方向传播的方式对所述迭代深度图学习网络进行训练。
[0018]
在其中一实施例中,所述预测损失函数为基于边际的排名损失函数:
[0019][0020]
在上式中,[x]

=max{0,x},s

(u,v)
表示通过重组(u,v)而构造的负节点对齐集,即用gs或g
t
中随机选择的节点替换u或v,其中gs表示其中一网络数据集,g
t
表示另一网络数据集,γ>0是分隔正节点对齐和负节点对齐的边界超参数,是嵌入的损失函数。
[0021]
一种基于迭代深度图学习的网络对齐装置,所述装置包括:
[0022]
训练数据获取模块,用于获取用于训练的两个网络数据集,各所述网络数据集均包括代表不同实体的多个节点的合集,以及代表两实体之间关系的边的合集,且两个所述网络数据集中存在匹配关系的两节点之间具有锚链;
[0023]
网络对齐模型训练模块,用于将两个所述网络数据集输入网络对齐模型中进行训练,直至得到具备将两个网络进行对齐的已训练的网络对齐模型,其中,所述网络对齐模型包括迭代深度图学习网络以及对齐预测网络,所述迭代深度图学习网络用于对网络数据集中的网络结构进行优化后得到更新网络,所述对齐预测网络根据所述更新网络进行网络对齐预测;
[0024]
网络对齐模块,用于获取待对齐的两个网络数据集,将这两个网络数据集输入已训练的网络对齐模型中进行预测,以得到两个网络中具有匹配关系的节点对。
[0025]
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理
器执行所述计算机程序时实现以下步骤:
[0026]
获取用于训练的两个网络数据集,各所述网络数据集均包括代表不同实体的多个节点的合集,以及代表两实体之间关系的边的合集,且两个所述网络数据集中存在匹配关系的两节点之间具有锚链;
[0027]
将两个所述网络数据集输入网络对齐模型中进行训练,直至得到具备将两个网络进行对齐的已训练的网络对齐模型,其中,所述网络对齐模型包括迭代深度图学习网络以及对齐预测网络,所述迭代深度图学习网络用于对网络数据集中的网络结构进行优化后得到更新网络,所述对齐预测网络根据所述更新网络进行网络对齐预测;
[0028]
获取待对齐的两个网络数据集,将这两个网络数据集输入已训练的网络对齐模型中进行预测,以得到两个网络中具有匹配关系的节点对。
[0029]
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
[0030]
获取用于训练的两个网络数据集,各所述网络数据集均包括代表不同实体的多个节点的合集,以及代表两实体之间关系的边的合集,且两个所述网络数据集中存在匹配关系的两节点之间具有锚链;
[0031]
将两个所述网络数据集输入网络对齐模型中进行训练,直至得到具备将两个网络进行对齐的已训练的网络对齐模型,其中,所述网络对齐模型包括迭代深度图学习网络以及对齐预测网络,所述迭代深度图学习网络用于对网络数据集中的网络结构进行优化后得到更新网络,所述对齐预测网络根据所述更新网络进行网络对齐预测;
[0032]
获取待对齐的两个网络数据集,将这两个网络数据集输入已训练的网络对齐模型中进行预测,以得到两个网络中具有匹配关系的节点对。
[0033]
上述基于迭代深度图学习的网络对齐方法、装置及计算机设备,通过在对两个网络进行对齐预测之前,还利用迭代深度图学习网络对网络结构进行更新,以缓解原来网络中存在的噪声问题。
附图说明
[0034]
图1为一个实施例中网络对齐框架的结构示意图;
[0035]
图2为一个实施例中基于迭代深度图学习的网络对齐方法的流程示意图;
[0036]
图3为一个实施例中迭代深度图学习框架的简单结构示意图;
[0037]
图4为一个实施例中迭代深度图学习网络的结构示意图;
[0038]
图5为一个实施例中对齐预测网络的结构示意图;
[0039]
图6为实验中网络对齐模型性能随嵌入维数变化情况示意图;
[0040]
图7为实验中网络对齐模型性能随训练集比例变化情况示意图;
[0041]
图8为实验中网络对齐模型性能随对齐迭代次数变化情况图;
[0042]
图9为一个实施例中基于迭代深度图学习的网络对齐装置的结构框图;
[0043]
图10为一个实施例中计算机设备的内部结构图。
具体实施方式
[0044]
为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对
本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
[0045]
如图2所示,提供了一种基于迭代深度图学习的网络对齐方法,包括以下步骤:
[0046]
步骤s100,获取用于训练的两个网络数据集,各所述网络数据集均包括代表不同实体的多个节点的合集,以及代表两实体之间关系的边的合集,且两个所述网络数据集中存在匹配关系的两节点之间具有锚链;
[0047]
步骤s110,将两个所述网络数据集输入网络对齐模型中进行训练,直至得到具备将两个网络进行对齐的已训练的网络对齐模型,其中,所述网络对齐模型包括迭代深度图学习网络以及对齐预测网络,所述迭代深度图学习网络用于对网络数据集中的网络结构进行优化后得到更新网络,所述对齐预测网络根据所述更新网络进行网络对齐预测;
[0048]
步骤s120,获取待对齐的两个网络数据集,将这两个网络数据集输入已训练的网络对齐模型中进行预测,以得到两个网络中具有匹配关系的节点对。
[0049]
在本实施例中,针对现有技术中基于网络表示学习的对齐技术利用图嵌入的可伸缩性来处理大型网络,但是这些方法只依赖拓扑信息,从而使得在进行网络对齐时任然容易受到网络结构噪声影响的问题。在本方法中,考虑到网络结构本身存在噪声的问题,提出了采用迭代深度图学习网络对原始网络进行图结构的学习以得到最优的更新网络结构,再基于更新网络结构采用对齐预测模型进行网络对齐的方法。
[0050]
其中,在迭代深度图学习网络中,以得到匹配下游的对齐预测任务的网络结构为目的,通过不停地迭代节点嵌入和网络结构,用学习到的更好的节点嵌入来学习更好的网络结构,而更好的网络结构表示也可以促使学到更好的节点嵌入,从这个过程中可以更新得到适合网络对齐的网络结构。通过迭代深度图学习方法得到更新后的网络结构,可以有效缓解网络本身存在的结构噪声的问题。之后,将更新后的两个网络再进行对齐,以实现网络对齐方法。
[0051]
进一步的,步骤s100和s110为训练网络对齐模型的步骤,而s120为应用已训练好的网络对齐模型。在本文中着重对步骤s100与s110进行阐述。
[0052]
在步骤s100中,用于训练网络对齐模型的为两个网络数据集,而网络对齐也就是在两个网络中寻找具有关系的两个实体。用于训练的两个网络分别可以表示为gs=(vs,es),g
t
=(v
t
,e
t
)。其中,gs表示源网络,g
t
表示目标网络,vs,v
t
是节点的集合,es,e
t
是边的集合,网络对齐的任务就是将gs中的节点映射到g
t
的节点。
[0053]
在本实施例中,网络对齐模型包括两个部分,其中的迭代深度图学习网络分别对输入的两个网络数据集进行图学习得到对应的图结构,并基于图神经网络学习图结构中节点嵌入,再将得到的节点嵌入带入图学习中进行迭代计算以对图结构进行优化更新,直到得到的更新图结构满足预设条件。
[0054]
具体的,图拓扑(graph topology)对于图神经网络(graph neural network, gnn)学习图节点嵌入至关重要。现有的大多数gnn方法都简单地假设输入图拓扑是完美的,但是这在实际中并不一定是正确的,因为现实世界中的图通常是有噪声的或是不完整的。更重要的是,所提供的输入图可能不适用于受监督的下游任务,因为大多数原始图都是从原始特征空间构建的,而原始特征空间可能无法反映高级特征变换后的“真实”图拓扑。以前的一些工作通过对先前学习到的节点嵌入采用自注意力(self-attention)机制来重新
评估邻域节点嵌入的重要性,从而缓解了这个问题,但是这些工作仍然假设原始图的连通性信息是无噪声的。
[0055]
为了处理潜在的噪声输入图,在本技术中采用的迭代深度图学习网络将问题描述为一个迭代学习问题,该问题联合学习图结构和gnn参数。迭代深度图学习网络的主要原理是基于更好的节点嵌入学习更好的图结构,同时,基于更好的图结构学习更好的节点嵌入,如图3所示。与大多数基于原始节点特征构建图的现有方法不同,gnn学习的节点嵌入(针对下游任务进行优化)可以为学习更好的图结构提供有用的信息。另一方面,新学习的图形结构可以帮助gnn 更好地学习节点嵌入的图形输入。而这里的图结构就是指的网络结构,因为网络结构均可以由多个节点以及边进行表征。
[0056]
迭代深度图学习是一种新的迭代方法,其目的是搜索一种隐式图结构,以增强下游预测任务的初始图结构。基于提出的停止准则,当学习的图结构接近优化图(相对于下游任务)时,迭代方法在每个小批量中动态停止。此外,图形构建过程可以以端到端的方式针对下游任务(对齐任务)进行优化。
[0057]
以前的方法将图学习问题建模为在图的边上学习联合离散概率分布,这些方法显示出了良好的性能。但是,由于它们是通过假设图形节点已知来优化边连接性,因此它们无法处理归纳设置(在测试期间使用新节点)。为了克服这个问题,在迭代深度图学习网络中将图结构学习问题转化为相似性度量学习,它将与用于对齐任务的预测模型联合训练。下面将具体介绍本文采用的图相似性度量学习方法。
[0058]
度量学习的常见方法包括余弦相似性(cosine similarity)、径向基函数(radialbasis function,rbf)核和注意机制(attention mechanism)。一个好的相似性度量函数应该是可学习的,并且表现力很强。虽然迭代深度图学习网络对各种相似性度量函数是不可知的,但在不丧失通用性的情况下,设计了加权余弦相似性作为度量函数,即s
ij
=cos(w

vi,w

vj),其中

表示哈德曼积(hadamardproduct),w是一个可学习的权重向量,其维数与输入向量vi和vj相同,并学习突出显示向量的不同维数。值得注意的是,这两个输入向量可以是原始节点特征或者是经过计算的节点嵌入。
[0059]
同时,为了稳定学习过程并提高表达能力,将相似性度量函数扩展到一个多头的版本。具体而言,就是使用m个权重向量,每个权重向量代表一个视角,使用上述相似性函数计算m个独立的相似性矩阵,并将其平均值作为最终相似性,公式如下所示:
[0060][0061]
在公式(1)中,计算第p个视角的两个输入向量vi和vj之间的余弦相似度,其中每个视角考虑的是在向量中捕获的语义的一部分。
[0062]
通常情况下,由相似性度量计算得出的邻接矩阵应该是非负的,但是s
ij
的范围在[-1,1]之间。此外,许多底层图结构比完全连通图要稀疏得多,因为完全连通图不仅计算昂贵,而且可能会引入噪声(即不重要的边)。因此,通过只考虑每个节点的ε邻域,继续从s中提取对称稀疏非负邻接矩阵a。具体来说,也就是屏蔽掉s中小于非负阈值ε的元素,将值设为0。
[0063]
虽然初始图可能会有噪声,但它通常仍然包含关于真实图拓扑的丰富而有用的信息。理想情况下,学习到的图结构a可以补充原始图拓扑a
(0)
,以针对对齐任务为gnns制定优
化图。因此,在温和假设优化图结构可能是初始图结构的“转移”的情况下,将学习的图与初始图相结合,公式如下所示:
[0064][0065]
在公式(2)中,l
(0)
=d
(0)-12a(0)d(0)-12
是初始图的归一化邻接矩阵。a
(t)
和a
(1)
分别是通过公式1计算出来的第t次和第1次迭代的两个邻接矩阵。对邻接矩阵进一步进行归一化,就得到f(a)
ij
=a
ij
/∑
jaij

[0066]
值得注意的是,a
(0)
是根据原始的节点特征x计算得到的,而a
(t)
则是根据先前更新的节点嵌入z
(t-1)
计算得出的,该节点嵌入z
(t-1)
是针对对齐预测任务进行优化得到的。因此,将最终学习的图结构作为它们的线性组合,通过超参数η来进行加权,从而将两者的优点结合起来。最后,再使用另一个超参数λ来平衡学习到的图结构和初始图结构之间的平衡。
[0067]
同时,图形学习框架与各种gnn架构(以节点特征矩阵和邻接矩阵作为输入来计算节点嵌入)和预测任务无关。在本实施例中的迭代深度图学习网络中采用了两层gcn,其中第一层(表示为gnn1)将原始节点特征x映射到中间嵌入空间,第二层(表示为gnn2)进一步将中间节点嵌入z映射到输出空间。
[0068]
同时,提出的图形学习框架与各种gnn架构(以节点特征矩阵和邻接矩阵作为输入来计算节点嵌入)和预测任务无关。在本文中,采用了两层gcn,其中第一层(表示为gnn1)将原始节点特征x映射到中间嵌入空间,第二层(表示为gnn2)进一步将中间节点嵌入z映射到输出空间。
[0069][0070]
在公式(3)中,σ(
·
)和分别是任务相关的输出函数和损失函数。在对齐预测任务中,σ(
·
)是softmax函数,是用于计算预测损失的交叉熵函数。 mp(
·
,
·
)是一个消息传递函数,并且在gcn中,用到了特征/嵌入矩阵f和规范化邻接矩阵(使用公式2得到的)。
[0071]
虽然将学习图a
(t)
与初始图a
(0)
相结合是逼近优化图的有效方法,但学习图a
(t)
的质量对提高最终图的质量起着重要作用。在实践中,控制生成的学习图a
(t)
的平滑度、连通性和稀疏性是非常重要的,它忠实地反映了关于初始节点属性x和下游任务的图拓扑。
[0072]
将特征矩阵x的每一列视为图信号。图信号的一个广泛采用的假设是值在相邻节点之间平滑变化。给定一个具有对称加权邻接矩阵a的无向图,一组n个图信号通常用狄里克莱能测量,公式如下:
[0073][0074]
在公式(4)中,tr(
·
)表示矩阵的迹,l=d-a是图拉普拉斯算子,d=∑
jaij
是度矩阵。可以看出,最小化ω(a,x)可以迫使相邻节点具有相似的特征,从而增强与a关联的图上的图信号的平滑性。
[0075]
但是,仅最小化平滑度损失将导致零解a=0。此外,还希望能够控制生成的图的稀
疏程度。因此,迭代深度图学习网络中在对学习的图施加额外的约束,公式如下所示:
[0076][0077]
在公式(5)中,||
·
||f表示矩阵的frobenius范数。第一项通过对数势垒惩罚不连通图的形成,第二项通过惩罚第一项的大程度来控制稀疏性。
[0078]
然后,将总体图的正则化损失定义为上述损失的总和,它能够控制学习图的平滑性、连通性和稀疏性,其中α、β和χ都是非负超参数。
[0079]
与之前基于图正则化损失或者任务相关预测损失直接优化邻接矩阵的工作相比,在迭代深度图学习网络中通过最小化结合任务预测损失和图正则化损失的混合损失函数,即来联合和迭代地学习图结构和gnn参数。综上,整体的迭代深度图学习网络,如图4所示。
[0080]
下文中算法1给出了迭代深度图学习网络中的完整算法。从算法1中可以看到,网络使用更新的节点嵌入(公式1)反复细化邻接矩阵,并使用更新的邻接矩阵细化节点嵌入(公式2和3),直到连续迭代中邻接矩阵之间的差值小于某个阈值。请注意,与全局使用固定数量的迭代相比,动态停止标准更为有利,尤其是对于小批量训练。在每次迭代中,计算结合任务相关预测损失和图正则化损失的混合损失。在所有迭代之后,总体损失将通过所有以前的迭代反向传播,以更新模型参数。
[0081][0082]
在利用迭代深度图学习网络对输入的两个网络的结构进行更新后,利用这两个更新后网络再采用对齐预测网络进行对齐,如图5所示,其中虚线表示锚链。其中更新后的网络其中节点并没有进行更新而是对其边进行了更新,使得更新后的网络结构更适合进行网络对齐。在对齐预测网络中,通过分别计算其中一更新网络结构中的各节点分别与另一更新网络结构中各节点的距离,根据两个节点之间的距离进行对齐预测。
[0083]
具体的,网络对齐是基于gcn表示空间的来自两个网络的节点之间的距离来预测的。对于gs中的节点ui和g
t
中的节点vj,用以下公式来计算它们之间的距离度量:
[0084][0085]
在公式(6)中,ui和vj分别表示来自不同更新网络的节点,f(x,y)=||x-y||1,其中,ui和vj表示节点的嵌入,d表示嵌入的维数。
[0086]
在距离度量中,对于两个网络中的等效节点,期望距离度量较小,而对于非等效节
点,则期望距离度量较大。对于gs中的特定实体ui,对齐方法就是计算ui与g
t
中所有节点之间的距离,并返回排序节点列表作为候选对齐。同样的,也可以从g
t
到gs执行对齐。
[0087]
在对对齐预测网络进行训练时,为了使齐预测网络能够在向量空间中尽可能接近地嵌入等效节点,使用一组已知节点对齐(即锚链)作为训练数据来训练网络,并且通过最小化以下基于边际的排名损失函数来执行模型训练:
[0088][0089]
在公式(7)中,[x]

=max{0,x},s

(u,v)
表示通过重组(u,v)而构造的负节点对齐集,即用gs或g
t
中随机选择的节点替换u或v,其中gs表示其中一网络数据集, g
t
表示另一网络数据集,γ>0是分隔正节点对齐和负节点对齐的边界超参数,是嵌入的损失函数。
[0090]
然后采用随机梯度下降(stochastic gradient descent,sgd)来最小化上述损失函数。并且,构造的损失函数也将用于迭代深度图学习网络的损失函数中,即以此学习更好的图结构。
[0091]
在步骤s120中,在得到训练好网络对齐模型后,就可以进行实际运用,将两个可对齐的网络输入至已训练的网络对齐模型后,对网络中具有相似特征的节点进行匹配,从而输出节点对。
[0092]
在本文中,还通过实验对本方法进行验证,具体内容包括:
[0093]
其中实验中采用的数据集包括douban online和douban offline数据集:豆瓣数据集包含从豆瓣社交网络收集的两个网络。一个网络是在线联系网络,显示谁在网站上跟踪谁,另一个网络是离线联系网络,使用用户在人们见面的社交活动中共同出现的方式构建。另一方面,离线网络有1118个用户,在线网络有3906个用户,包含所有离线用户。用户的位置用于构造节点属性。
[0094]
flickr和myspace数据集:flickr和myspace这两个子网进行处理。flickr 的子网包含6714个节点,myspace的子网包含10733个节点。用户的性别用于表示节点属性,并且只有部分事实(groundtruth)是可用于对齐的。
[0095]
allmovie和imdb数据集:allmovie网络是由rotten tomatoes构建的。两部电影有一个优势,如果它们至少有一个共同的演员,就可以将它们联系起来。 imdb网络的构建方式与imdb网站类似。对齐输出由胶片的标识构成,包含5176 个锚链。
[0096]
而以上各数据集的相关信息如表1所示:
[0097]
表1真实世界网络的数据信息
[0098][0099]
接下来对实验的相关设置进行介绍:
[0100]
衡量指标:在本实验中从预测角度和排名角度,使用最先进的指标评估网络对齐的性能。对于预测视角,采用success@q(又名accuracy@q),它指示前q 个候选中是否出现真正的正匹配。更具体地说,对于每个锚对在基本事实中,如果对齐得分为在对齐矩阵s的第行中的前q个最高值范围内,节点的对齐输出被记录为成功案例:
[0101][0102][0103]
在公式(8)和公式(9)中,success
ba
@q表示网络b/a中每个节点在网络 a/b中的测试集中的命中数,success@q是双向计数的平均值。
[0104]
从排名角度来说,使用平均精度均值map(mean average precision)(即成对设置下的mrr)作为衡量指标:
[0105][0106][0107]
在公式(10)和(11)中,ranki是指网络a/b中测试集中的第i个锚节点在网络b/a中的基本事实对应物的排名位置。和success@q一样,map也是双向计数的平均。在实验中,success@q中q的取值为1,5和10。
[0108]
一个好的网络对齐模型应该具有高的success@q值和map值。
[0109]
基线方法:在实验中,选择了6种具有代表性的方法:
[0110]
regal:是一种谱方法,它通过拓扑和节点的特征相似性对对齐矩阵进行建模,然后采用低秩矩阵近似加速。
[0111]
isorank:是一种谱方法,它利用同态原理假设在网络上传播成对节点相似性,该假设表示两个网络中的两个对应节点连接到相似的特征邻居。
[0112]
final:是一种谱方法,它定义了一个具有三个标准的模型,即结构一致性、节点特
征一致性和边缘特征一致性,以解决属性网络上的对齐问题。
[0113]
pale:是一种网络表示学习的技术,它通过最大化边节点的共现可能性来学习节点嵌入,然后应用线性或多层感知器(mlp)作为映射函数。
[0114]
cenalp:是一种网络表示学习的模型,它将网络对齐和链路预测任务统一到一个统一的模型中,该模型首先利用网络中定制的有偏随机行走策略,然后通过最大化行走中节点的共现可能性来学习节点嵌入。
[0115]
galign:是一种网络表示学习的模型,它提出了一种基于多阶嵌入模型的完全无监督网络对齐框架。该模型首先利用图卷积神经表示法学习每个节点的嵌入,并证明了该模型满足一致性约束。然后进一步设计了一种数据增强方法和一种细化机制,使模型自适应一致性违反和噪声。
[0116]
实验设置:对于本模型中的超参数,在三个数据集中,嵌入维数d设置为 {5,10,25,50,100,150,20}0,对齐预测的损失函数的边界超参数γ设置为1。
[0117]
可复现实验环境:结果平均超过10次运行,以减轻随机性。所有实验都在处理器为i7-9700k,内存为16gb的geforce rtx2080ti服务器上进行,并通过pytorch来实现。
[0118]
对齐性能:
[0119]
为了验证模型在网络对齐任务上的效果,将本文中的网络对齐模型与几种最先进的模型在三个真实世界数据集上进行比较,实验结果如表2所示。除了本模型之外的其他模型的实验结果是在其他文章中获取的。表2中的结果是将 80%的锚节点作为训练集,其余的作为测试集得到的。本文中提出的模型在数据集allmovie和imdb中,嵌入维数设置为200,而在数据集flickr和myspace和数据集douban online和douban offline中,嵌入维数设置为100。
[0120]
从实验结果中可以看出,模型在数据集allmovie和imdb上的表现要好于所有的基线模型,在数据集flickr和myspace上的表现略输于galign和cenalp 模型,而在数据集douban online和douban offline上表现更加一般。数据集 douban online和douban offline因为含有大量的属性信息,是三个数据集中节点属性信息最多的数据集,galign、final模型很好地利用了属性信息,而本文提出的模型只关注了网络中的结构信息,因此模型效果较这两个模型来说效果较差。但是在数据集allmovie和imdb以及数据集flickr和myspace中,属性信息较少,而本文提出的模型效果也更加突出,表明模型在更新网络结构之后确实可以提升效果。而与数据集flickr和myspace相比,数据集allmovie和imdb 的规模更大,而模型的效果在数据集allmovie和imdb上更加显著,说明模型能够有效处理大规模的现实网络。
[0121]
表3则进一步给出了训练集与测试集比例为0.2:0.8时的详细模型效果比较。在表3中,将本文提出的模型与galign在数据集allmovie和imdb和数据集flickr 和myspace的实验结果进行比较,实验结果表明在弱监督的方式下,本文模型仍旧具有鲁棒性和明显的优先性能。另一方面,本文提出的模型在数据集 allmovie和imdb上的效果要优于数据集flickr和myspace,说明在弱监督的方式下,模型在大规模数据集上的性能更加突出。
[0122]
表2在真实世界中的数据集上的网络对齐比较(训练集与测试集的比例为 0.8:0.2)
[0123][0124]
表3在真实世界中的数据集上的网络对齐比较(训练集与测试集的比例为 0.2:0.8)
[0125][0126]
参数性能:
[0127]
首先对模型的嵌入维数进行了研究,实验中将嵌入维数的值分别设置为5、 10、25、50、100、150、200,以探究嵌入维数对模型效果的影响,实验结果如图6所示。图6中,左图表示模型在三个数据集中的指标success@10随嵌入维数改变而产生的变化趋势,右图则表示的是指标map。从图中可以看出,在数据集flickr和myspace和数据集douban online和douban offline上时,success@10 和map指标在嵌入维数是100的时候达到最优,而在数据集allmovie和imdb 上,这两个指标则是在嵌入维数是200的时候达到最优值,这可能与数据集 allmovie和imdb的数据集规模较大有关。另一方面,在数据集flickr和myspace 中,模型效果随着嵌入维数的增加,模型效果会存在一定的波动,但是总体来说在嵌入维数是100的时候效果更佳突出。
[0128]
接着,为了探究不同的训练集与测试集比例对实验效果的影响,继续针对该参数
进行了实验,实验过程中训练集的比例从开始的0.1增加到0.9,每次增加0.1,实验结果如图7所示。同样的,左图表示的是指标success@10,右图是指标map。从图中可以看出,在三个数据集中,随着训练集比例的增加,模型的效果均得到了提升。对success@10指标来说,与其他两个数据集相比,在数据集flickr和myspace中,随训练集比例的增加,模型效果增强得最为明显。而对于map指标来说,则是在数据集allmovie和imdb上的效果提升更加明显。这可能是因为数据集flickr和myspace的边的数量相对节点数量来说在三个数据集里面时最少的,因此训练集比例的增加能够增加边的数量,从而提高模型的训练效果。
[0129]
最后,将对齐的迭代次数作为改变的参数进行实验,值得注意的是,这里的迭代次数不是迭代深度图学习中的迭代次数,而是对齐中的迭代次数。实验中,迭代次数分别设置为5、10、20、50、100、150,实验结果如图8所示。同样的,左图表示的是指标success@10,右图是指标map。从图中可以看出,在三个数据集中,模型均能在较少的迭代次数之内达到较好的效果。不同的是,在数据集flickr和myspace中,模型在迭代10次时就能达到最优值,之后随着迭代次数的增加,模型效果反而会降低。而在另外两个数据集上,模型效果在迭代次数为100时,模型效果基本达到最优,但随迭代次数的增加,模型效果仍会有细微的提升。这可能与数据集flickr和myspace的边数量相对节点数量来说过少有关。
[0130]
对于实验的总结:
[0131]
本文中提出的基于迭代深度图学习的网络对齐方法针对网络中存在的结构噪声问题,主要将目光瞄准于通过学习更好的网络结构和节点嵌入,并将学习到的新的网络进行对齐,以此来解决结构噪声对模型效果造成的影响。网络对齐模型首先通过迭代深度图学习方法更新迭代学习到更好的网络结构,迭代过程会根据对齐任务动态停止,然后针对学习到的新的网络,通过对齐预测方法将源/目标网络中的节点与目标/源网络中的节点对齐。模型框架中,迭代深度图学习中包含对齐预测任务的损失函数,而对齐预测任务则是以迭代深度图学习更新得到的网络结构为输入,模型的两部分相互成就,构成了基于迭代深度图学习的网络对齐方法。模型在3个数据集(6个现实网络)上进行了实验,实验结果表明,模型确实能够通过迭代学习更好的网络结构以提升模型效果。
[0132]
上述基于迭代深度图学习的网络对齐方法中,通过迭代学习,将学习到的更好的节点嵌入用于学习更好的网络结构,反之亦然(更好的网络结构促进学习更好的节点嵌入),通过这种方式缓解网络中原本存在的噪声问题。并且在基于迭代深度图学习的网络对齐模型中,通过将网络表示学习中的迭代深度图学习的方式学习到更新的网络结构之后,再使用对齐方法实现网络对齐,在对网络对齐模型进行训练时,迭代深度图学习网络中包含对齐预测任务的损失函数,而对齐预测任务则是以迭代深度图学习更新得到的网络结构为输入,两部分充分融合,使网络对齐模型成为一个有机的整体。本技术中的方法还通过真实数据集的实验,证明在大规模数据集中,基于迭代深度图学习的网络对齐方法在对齐任务上的表现优于最先进的模型,并且有效地缓解了网络中存在的结构噪声问题。
[0133]
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,
而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0134]
在一个实施例中,如图9所示,提供了一种基于迭代深度图学习的网络对齐装置,包括:训练数据获取模块200、网络对齐模型训练模块210和网络对齐模块220,其中:
[0135]
训练数据获取模块200,用于获取用于训练的两个网络数据集,各所述网络数据集均包括代表不同实体的多个节点的合集,以及代表两实体之间关系的边的合集,且两个所述网络数据集中存在匹配关系的两节点之间具有锚链;
[0136]
网络对齐模型训练模块210,用于将两个所述网络数据集输入网络对齐模型中进行训练,直至得到具备将两个网络进行对齐的已训练的网络对齐模型,其中,所述网络对齐模型包括迭代深度图学习网络以及对齐预测网络,所述迭代深度图学习网络用于对网络数据集中的网络结构进行优化后得到更新网络,所述对齐预测网络根据所述更新网络进行网络对齐预测;
[0137]
网络对齐模块220,用于获取待对齐的两个网络数据集,将这两个网络数据集输入已训练的网络对齐模型中进行预测,以得到两个网络中具有匹配关系的节点对。
[0138]
关于基于迭代深度图学习的网络对齐装置的具体限定可以参见上文中对于基于迭代深度图学习的网络对齐方法的限定,在此不再赘述。上述基于迭代深度图学习的网络对齐装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0139]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于迭代深度图学习的网络对齐方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
[0140]
本领域技术人员可以理解,图10中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0141]
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
[0142]
获取用于训练的两个网络数据集,各所述网络数据集均包括代表不同实体的多个节点的合集,以及代表两实体之间关系的边的合集,且两个所述网络数据集中存在匹配关系的两节点之间具有锚链;
[0143]
将两个所述网络数据集输入网络对齐模型中进行训练,直至得到具备将两个网络进行对齐的已训练的网络对齐模型,其中,所述网络对齐模型包括迭代深度图学习网络以及对齐预测网络,所述迭代深度图学习网络用于对网络数据集中的网络结构进行优化后得
到更新网络,所述对齐预测网络根据所述更新网络进行网络对齐预测;
[0144]
获取待对齐的两个网络数据集,将这两个网络数据集输入已训练的网络对齐模型中进行预测,以得到两个网络中具有匹配关系的节点对。
[0145]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
[0146]
获取用于训练的两个网络数据集,各所述网络数据集均包括代表不同实体的多个节点的合集,以及代表两实体之间关系的边的合集,且两个所述网络数据集中存在匹配关系的两节点之间具有锚链;
[0147]
将两个所述网络数据集输入网络对齐模型中进行训练,直至得到具备将两个网络进行对齐的已训练的网络对齐模型,其中,所述网络对齐模型包括迭代深度图学习网络以及对齐预测网络,所述迭代深度图学习网络用于对网络数据集中的网络结构进行优化后得到更新网络,所述对齐预测网络根据所述更新网络进行网络对齐预测;
[0148]
获取待对齐的两个网络数据集,将这两个网络数据集输入已训练的网络对齐模型中进行预测,以得到两个网络中具有匹配关系的节点对。
[0149]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程 rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限, ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步 dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram (esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus) 直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0150]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0151]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献