一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于聚类系数的叠加随机游走重力模型链路预测方法与流程

2021-12-14 23:45:00 来源:中国专利 TAG:


1.本发明涉及复杂网络技术领域,具体涉及一种基于聚类系数的叠加随机游走重力模型链路预测方法。


背景技术:

2.链路预测用于蛋白质网络预测、网络推荐、社交网络分析等领域,揭示网络的结构特性。其中广泛使用的基于结构相似性的方法分为基于局部信息的方法、基于路径的方法和基于随机游走的方法这三类方法。在真实的网络数据集上进行关于三类方法的对比实验,结果表明基于随机游走的方法具有较高的准确性,尤其是基于局部随机游走的方法具有更高的预测精确度。
3.在最近基于聚类系数的方法研究中发现,使用网络的聚类系数能有效提高链路预测的效果。在聚类系数的链路预测方法cclp的基础上,考虑邻居节点,提出一种结合节点度和聚类系数的链路预测方法ndcc,但存在考虑单层节点度信息不全面的问题,又提出结合二层节点tdncc,虽然该方法提高了基于局部信息的方法性能且比基于随机游走的方法性能较优,但不适于具有很多度和聚类系数均高的节点的网络。


技术实现要素:

4.本发明为解决现有基于聚类系数的方法存在考虑单层节点度信息不全面以及两层节点度和聚类系数的链路预测方法不适于具有很多度和聚类系数均高的节点的网络等问题,提供一种基于聚类系数的叠加随机游走重力模型链路预测方法。
5.步骤一、初始化网络g,所述g=(v,e);所述v为g的节点集合,节点总数为n,e为g的边集合,根据v和e获得g的邻接矩阵a,根据a获得g的最短路径矩阵d,连通度矩阵h以及节点间的公共邻居节点度总数矩阵b;
6.步骤二、计算网络g节点之间的基于聚类系数的随机游走转移概率;
7.构建网络g的基于聚类系数的随机游走转移概率矩阵,计算网络g中任意节点x与任意节点y的基于聚类系数的随机游走转移概率;
8.当网络g中节点x与节点y没有公共邻接节点时,则满足节点x的邻居节点集γ(x)与节点y的邻居节点集γ(y)的交集为空,即根据节点y的度区分粒子游走到节点x不同邻居节点的转移概率,根据节点x与节点y的连接情况,利用网络g的邻接矩阵a,定义转移概率为:
[0009][0010]
式中:a
xy
表示v中的节点x与节点y之间是否存在连接,如果a
xy
=1,则表示节点x与节点y之间存在边,如果a
xy
=0,则表示节点x与节点y之间不存在边;k
x
、k
y
分别表示节点x、节点y的度;
[0011]
当网络g中节点x与节点y有公共邻居节点时,将所述公共邻居节点的度与聚类系
数结合,则定义转移概率为:
[0012][0013]
式中:z表示节点x与节点y的公共邻居节点,即z∈γ(x)∩γ(y);k
z
表示公共邻居节点z的度;k
z

2表示删除节点x与节点y的公共邻居节点z的度;c
z
表示公共邻居节点z的聚类系数;表示所有公共邻居节点z对节点x到节点y转移概率的贡献;表示节点x与节点y的ra值;
[0014]
则定义网络g的基于聚类系数的随机游走转移概率为:
[0015][0016]
为保证转移概率矩阵s'=(s'
xy
)
n
×
n
中各行元素之和均为1,对所述转移概率矩阵进行标准化处理,获得基于聚类系数的随机游走转移概率矩阵p;
[0017]
步骤三、根据步骤二获得的基于聚类系数的随机游走转移概率矩阵p,改进叠加随机游走,计算网络g中节点x与节点y的基于叠加的局部随机游走转移概率;具体为:
[0018]
对所述网络g进行有限步数的局部随机游走,获得粒子从任意节点x开始随机游走t步到达网络g上其余节点的转移概率向量;
[0019]
设定节点x的初始资源分布为其对应的度k
x
,则节点x与节点y基于t步局部随机游走转移概率为
[0020]
将前t步的结果加和,获得节点x与节点y基于t步叠加的局部随机游走转移概率则基于t步叠加的局部随机游走转移概率矩阵为:
[0021]
步骤四、根据步骤一的最短路径矩阵d和步骤三获得的基于t步叠加的局部随机游走转移概率矩阵π
srw
,重定义重力模型参数;
[0022]
将网络g中节点x与节点y基于t步叠加的局部随机游走转移概率节点y与节点x基于t步叠加的局部随机游走转移概率分别作为节点x和节点y的质量,将节点x与节点y之间的最短路径d
xy
作为两者的距离;
[0023]
定义基于叠加随机游走的重力模型,计算网络g中节点x与节点y的叠加随机游走的重力模型节点相似性:
[0024][0025]
式中,h
xy
表示节点x与节点y之间的连通度,当节点x与节点y连通时,h
xy
为1,当节点x与节点y不连通时,h
xy
为0;则叠加随机游走的重力模型节点相似性矩阵为s=(s
xy
)
n
×
n

[0026]
根据所述叠加随机游走的重力模型节点相似性矩阵s,比较网络g中具有度和聚类系数均高的节点之间与不具有所述度和聚类系数均高的节点之间的相似性,实现对具有度和聚类系数均高的节点之间的链路预测。
[0027]
本发明有益效果:
[0028]
本发明所述的链路预测方法在斑马网络上取得了最好的链路预测效果。将本发明基于聚类系数的叠加随机游走重力模型链路预测方法(srwgc)和其他链路预测方法所得到的评价指标auc值进行对比,可以看到,srwgc方法的auc值对比其他方法在多数网络中有较为明显的提升,本发明方法的精确度明显高于其他方法。
[0029]
本发明所述的链路预测方法,在随机游走中结合网络局部节点的聚类系数,使该方法适于具有很多度和聚类系数均高的节点的网络,提高链路预测效果。
附图说明
[0030]
图1为本发明所述的基于聚类系数的叠加随机游走重力模型链路预测方法的流程图。
[0031]
图2为斑马网络的示意图。
[0032]
图3为基于聚类系数的随机游走转移概率矩阵p的效果图。
[0033]
图4为基于t步叠加的局部随机游走转移概率矩阵π
srw
的效果图。
[0034]
图5为叠加随机游走的重力模型节点相似性矩阵s的效果图。
[0035]
图6为本发明所述的基于随机游走的链路预测方法与其他方法在节点小于1000的网络上的auc值的效果图。
[0036]
图7为本发明所述的基于随机游走的链路预测方法与其他方法在节点大于1000的网络上的auc值的效果图。
具体实施方式
[0037]
具体实施方式一、结合图1说明本实施方式,经研究发现,基于局部随机游走的链路预测方法与基于局部信息的方法、基于路径的方法相比,预测精度较高,但节点间的转移概率仅考虑节点度局部信息,无法区分度和聚类系数均高的节点之间的相似性;节点的聚类系数可以反映邻居节点的聚集程度,可以提高链路预测的效果;网络中节点存在的吸引力可以有效地用于链路预测中。基于上述,本实施方式采用节点的聚类系数改进基于随机游走的转移概率,引入重力模型,提出一种基于聚类系数的叠加随机游走重力模型链路预测方法,实现对具有很多度和聚类系数均高的节点的网络的预测,该方法比基于局部信息的方法、基于路径的方法、基于随机游走的方法和基于聚类系数的方法预测效果都好。
[0038]
根据上述原理,本实施方式基于聚类系数的叠加随机游走重力模型链路预测方法,其实现步骤包括如下:
[0039]
一、初始化网络g=(v,e),其中,v为g的节点集合,节点总数为n,e为g的边集合,根据v和e得到g的邻接矩阵a,a中的元素a
xy
表示v中的节点x与节点y之间是否存在连接,如果a
xy
=1,则表示x与y之间存在边,如果a
xy
=0,则表示x与y之间不存在边。根据a得到g的最短路径矩阵d、连通度矩阵h、节点间的公共邻居节点度总数矩阵b;
[0040]
当网络g具有很多度和聚类系数均高的节点v'时,则其构成的节点集v'满足v'=
{v'|v'∈v,k
v'
>0.6
·
μaxdegree,c
v'
>0.6}且|v'|>0.1
·
n,其中|v'|表示v'的数量,k
v'
表示v'的度,μaxdegree表示g的最大度,c
v'
表示v'的聚类系数。
[0041]
二、结合节点的聚类系数和ra方法,构建g的基于聚类系数的随机游走转移概率矩阵,计算网络g中任意节点x与任意节点y的基于聚类系数的随机游走转移概率。
[0042]
当网络g中任意节点x与任意节点y没有公共邻接节点,满足x的邻居节点集γ(x)与y的邻居节点集γ(y)的交集为空时,即根据y的度可以区分粒子游走到x不同邻居节点的转移概率,考虑x与y的连接情况,利用网络g的邻接矩阵a,定义转移概率如下:
[0043][0044]
其中:a
xy
表示x与y是否连接;k
x
、k
y
分别表示x、y的度。
[0045]
当网络g中任意节点x与任意节点y有公共邻居节点时,这些公共邻居节点的聚类系数反映x和y周围节点的聚集程度,但不同的节点之间的公共邻居节点具有相同聚类系数时,不能区分开不同的节点之间的相似性,故将公共邻居节点的度与聚类系数结合;又ra方法能有效的反映x与y的公共邻居节点影响x到y的资源分配情况,则定义转移概率如下:
[0046][0047]
其中:z表示x与y的公共邻居节点,即z∈γ(x)∩γ(y);k
z
表示z的度;k
z

2表示删除x与y的z的度;c
z
表示z的聚类系数;表示所有公共邻居节点z对x到y转移概率的贡献;表示x与y的ra值;式中加1表示当所有公共邻居节点z对x到y转移概率的贡献为0时,保证转移概率s'
xy
不为0。
[0048]
综合上述,定义网络g的基于聚类系数的随机游走转移概率如下:
[0049][0050]
为保证转移概率矩阵s'=(s'
xy
)
n
×
n
中各行元素之和均为1,对其进行标准化处理,则基于聚类系数的随机游走转移概率矩阵如下:
[0051][0052]
三、利用基于聚类系数的随机游走转移概率矩阵p,改进叠加随机游走,计算网络g中任意节点x与任意节点y的基于叠加的局部随机游走转移概率。
[0053]
网络g进行有限步数的局部随机游走,充分结合g的结构特征,得到粒子从任意节点x开始随机游走t步到达g上其余节点的转移概率向量为:
[0054]
π
x
(t)=p
t
·
π
x
(t

1)
ꢀꢀ
(5)
[0055]
其中,π
x
(0)=e
x
表示粒子的初始状态,e
x
是一个1
×
n的行向量,该向量第x列处元素为1,其余全为0;p表示基于聚类系数的随机游走转移概率矩阵;t表示矩阵转置。
[0056]
假定任意节点x的初始资源分布为其对应的度k
x
,则x与任意节点y基于t步局部随机游走转移概率为:
[0057][0058]
将前t步的结果加和,得到任意节点x与任意节点y基于t步叠加的局部随机游走转移概率为:
[0059][0060]
则基于t步叠加的局部随机游走转移概率矩阵为
[0061]
四、利用网络g的基于t步叠加的局部随机游走转移概率矩阵π
srw
和最短路径矩阵d,重定义重力模型参数,设计基于叠加随机游走的重力模型,计算g中任意节点x与任意节点y的叠加随机游走的重力模型节点相似性。
[0062]
网络g中任意节点x与任意节点y之间的相似性随节点转移概率的增加而增加,随着节点距离的增加而减小。将g中x与y基于t步叠加的局部随机游走转移概率y与x基于t步叠加的局部随机游走转移概率分别作为x、y的质量,将x与y之间的最短路径d
xy
作为两者的距离。定义基于叠加随机游走的重力模型,计算网络g中任意节点x与任意节点y的叠加随机游走的重力模型节点相似性如下:
[0063][0064]
其中:h
xy
表示x与y之间的连通度,当x与y连通时,h
xy
为1,当x与y不连通时,h
xy
为0。
[0065]
则叠加随机游走的重力模型节点相似性矩阵为s=(s
xy
)
n
×
n

[0066]
五、使用基于叠加随机游走的重力模型,得到基于聚类系数的叠加随机游走重力模型链路预测方法(linkpredictionofsuperimposedrandomwalkgravity modelbasedonclusteringcoefficient,简称srwgc)。根据叠加随机游走的重力模型节点相似性矩阵s,分析网络g中具有度和聚类系数均高的节点之间与不具有所述度和聚类系数均高的节点之间的相似性比较,实现对具有度和聚类系数均高的节点之间的链路预测,证明对具有度和聚类系数均高的节点之间链路预测的有效性。
[0067]
六、选取11个网络,使用共同邻居方法cn、资源分配方法ra、局部路径方法lp、考虑全部路径方法katz、重启的随机游走方法rwr、叠加的局部随机游走方法srw、ndcc和tdncc对其进行链路预测,计算相应评价指标auc值,与srwgc的auc值进行对比。
[0068]
具体实施方式二、结合图1至图7说明本实施方式,基于聚类系数的叠加随机游走重力模型链路预测方法,该方法的具体实现过程为:
[0069]
1、获取斑马网络,得到网络的邻接矩阵a、最短路径矩阵d、连通度矩阵h、节点间的公共邻居节点度总数矩阵b。
[0070]
斑马网络g=(v,e),其中,v为g的节点集合,节点总数为27,e为g的边集合。根据v
和e这两个集合得到g的邻接矩阵a,根据a得到g的最短路径矩阵d、连通度矩阵h、节点间的公共邻居节点度总数矩阵,d中的元素d
xy
表示x到y经过的所有路径中边数最少的路径的边数,h中的元素h
xy
表示x与y之间是否连通,b中的元素b
xy
表示x与y之间的公共邻居节点的度之和。
[0071]
斑马网络的平均度为8.222,平均聚类系数为0.876,有27个节点,其中度大于11且聚类系数大于0.8的节点为14个,故该网络是具有很多度和聚类系数均高的节点的网络。
[0072]
2、计算斑马网络g中任意两个节点之间基于聚类系数的随机游走转移概率。
[0073]
如果b
xy
=0,即任意节点x与任意节点y之间没有公共邻居节点时,用公式(3)计算网络g中粒子从x到y的转移概率s'
xy
,如果b
xy
≠0,即任意节点x与任意节点y之间有公共邻居节点时,用公式(3)计算网络g中粒子从x到y的转移概率s'
xy

[0074]
将计算得到的转移概率矩阵s'=(s'
xy
)
27
×
27
用公式(4)进行标准化处理,得到基于聚类系数的随机游走转移概率矩阵p=(p
xy
)
27
×
27
如图3所示。
[0075]
3、计算斑马网络g中任意两个节点之间基于t步叠加的局部随机游走转移概率。
[0076]
迭代计算t步,将p代入公式(5)中,用公式(5)计算粒子从任意节点x开始随机游走t步到达g上其余26个节点的转移概率向量π
x
(t)。将π
x
(t)中的元素π
xy
(t)代入公式(6)中,计算网络g中x与任意节点y基于t步局部随机游走转移概率
[0077]
将计算的前t步加和,用公式(7)计算网络g中任意节点x与任意节点y基于t步叠加的局部随机游走转移概率得到其矩阵如图4所示。
[0078]
4、计算斑马网络g中任意两个节点之间叠加随机游走的重力模型节点相似性。
[0079]
和作为π
x
和π
y
,将其与d
xy
代入公式(8)中,用公式(8)计算任意节点x与任意节点y的叠加随机游走的重力模型节点相似性s
xy
,得到其矩阵如图5所示。
[0080]
5、通过叠加随机游走的重力模型节点相似性矩阵s,分析斑马网络中具有度和聚类系数均高的节点1与节点15之间与不具有所述度和聚类系数均高的节点16与节点23之间的相似性。
[0081]
srwgc充分考虑节点的度、聚类系数、节点之间的吸引力等结构特性,斑马网络中,节点1与节点15之间比节点16与节点23之间的公共邻居多且邻居节点之间的聚集程度大,在图5中,节点1与节点15之间相似性s
1,15
=0.4357,节点16与节点23之间相似性s
16,23
=0.0008,该方法对具有度和聚类系数均高的节点之间可以进行有效地链路预测。
[0082]
6、对斑马网络(zebra)、美国航空网络(usair)、秀丽隐杆线虫代谢网络(metabolic)、爵士音乐家合作网路(jazz)、秀丽隐杆线虫神经网络(ce)、加告兹语维基链接网络(wikipedialinkgag)、卡尔梅克语维基链接网络(wikipedialinkxal)、航空网络(usairport)、世界各地航班网络(openflights)、老挝语维基链接网络(wikipedialinklo)、政治博客网络(blogs),使用方法cn、ra、lp、katz、rwr、srw、ndcc和tdncc进行链路预测,计算相应评价指标auc数值,并和srwgc的auc值对比。
[0083]
将11个网络按照节点数是否大于1000分成两组,前5个为一组,后6个为一组。如图6和图7所示,它们表示两组网络上每种方法的auc值情况,坐标下轴表示不同的网络及其聚类系数,左轴表示auc值。与其他方法的auc值相比,srwgc方法在其中8个网络上表现最佳,
在metabolic、ce网络上排名第二、在wikipediagag网络上排名第三。
[0084]
在11个网络中,srwgc方法较cn、ra、lp、katz、ndcc、tdncc方法的auc值分别平均提高2.6%,1.4%,2.1%,1.8%,1.4%和1.2%。相对rwr和srw方法,srwgc方法对于不同聚集程度的网络的auc值表现各有差异,具体分析如下:
[0085]
zebra、wikipediaxal网络的平均度较高且平均聚类系数较高,wikipedialo网络平均度较高且平均聚类系数较低,都具有明显强连通子图,网络局部具有高聚集程度,srwgc方法与rwr和srw方法相比分别平均提高了0.9%和0.7%。
[0086]
虽然usair、jazz、usairport网络的平均度较高且平均聚类系数较高,openflights、blogs网络平均度较低且平均聚类系数较低,但网络整体聚集程度较为均匀,srwgc方法略优于rwr和srw方法,分别平均提高了0.5%和0.2%。
[0087]
metabolic、wikipediagag网络的平均度低且平均聚类系数较高,ce网络的平均度较高且平均聚类系数低,都不存在局部高聚集程度,网络整体聚集程度较低,rwr和srw方法表现最好,相对于srwgc方法分别平均高出0.2%和0.6%。
[0088]
srwgc方法与除rwr和srw方法的其他方法相比auc值最高,且对于具有很多度和聚集系数均高节点的网络,srwgc方法比rwr和srw方法表现更好,说明利用本发明方法得到的相似性中,随机选择一条边的相似性比随机选择的一条不存在的边的相似性高的概率值明显高于其他方法,即其精确度高于其他方法。
[0089]
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献