一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于节点重要性估计的在线社交网络拓扑推断算法

2022-09-04 09:01:10 来源:中国专利 TAG:


1.本发明属于大规模网络数据分析技术领域,具体涉及一种在线社交网络拓扑推断算法。


背景技术:

2.近年来,复杂网络在各个领域,都受到了广泛的研究和关注,并取得了丰富的成果。不管是复杂多变的社会系统,还是生物系统,信息系统,都可以将其抽象成网络模型,进而进行更深入的分析和研究。在以复杂网络为背景的研究工作中,由网络节点和连边组成的网络基本拓扑结构无疑是我们进行分析和探索的前提,然而在实际生活中,我们经常无法直接获得网络的拓扑结构,在这样的背景下,研究网络的拓扑推断问题具有重要的现实意义。
3.然而,随着大家隐私保护意识的增强,越来越多的平台选择不公开用户之间直接的关注关系,想要直接获取用户之间的关系数据变得越来越困难,这极大地限制了我们对在线社交网络的研究与分析。在实际生活中,人与人之间的交互是无处不在的,虽然节点之间直接的关系不易获取,但是疾病或信息传播之后的结果往往是很容易观察到的,因为通常我们很容易通过观察个体的行为表现看出它什么时候被感染或者接收到消息,但是很难观察到谁与他们有着直接关系并把疾病或者消息传递给他们。与此同时,由于疾病传播和信息传播的方向性和时效性,这些传播的结果中往往隐藏了大量的包含连边关系的信息。所以,研究如何通过容易观察到的动力学传播结果,来逆向地推断出无法观察到的网络拓扑结构这一问题在目前的社交网络研究领域有较大的需求,且可行性高。
4.学术界已经有许多关于网络拓扑推断算法的研究,针对社交网络,虽然节点之间直接的关系不易获取,但是疾病或信息传播之后的结果往往是很容易观察到的,所以,大多数的网络结构拓扑推断问题是认为节点之间的关系是完全未知的,依据节点在传播过程中或者传播结束之后的状态信息进行推断的。
5.发明人在进行基于信息传播的在线社交网络拓扑推断研究时发现,现有的工作往往忽略了真实在线社交网络的异质性,往往认为节点是等价的,这样统一的等价处理会使得丢失一部分重要的信息,导致拓扑推断算法的准确性有待提高。


技术实现要素:

6.鉴于以上情况,本发明的目的在于立足于在线社交网络,充分把握在线社交网络规模大,连边稀疏,异质性强的特点,提出基于节点重要性估计的在线社交网络拓扑推断算法,以提高推断准确性。
7.本发明提出的基于节点重要性估计的在线社交网络拓扑推断算法,具体步骤为:
8.步骤1:节点重要性估计。所述节点重要性是指节点在传播过程中的影响力,具体根据信息传播过程获得节点重要性;
9.步骤2:在不带有节点重要性的网络拓扑推断算法的基础上,设计节点重要性偏
置,更新遍历过程中的边缘增益,使用马尔可夫链-蒙特卡洛采样方法来解决似然函数最大化的问题;
10.步骤3:在没有任何网络先验知识的情形下,应用步骤1提出的节点重要性估计方法,代入步骤2的带有节点重要性的网络拓扑推断算法中,推断网络拓扑;在已经获取网络先验知识的情形下,提取节点重要性指标(例如出度等),代入步骤2的基于节点重要性估计的在线社交网络拓扑推断算法中,推断网络拓扑。
11.本发明中,步骤1的具体流程为:
12.步骤1-1:统计节点在t0时刻获得感染后t
max
时间段内获得消息的节点数目的增加量,记作从一定程度上反映了在t0时刻获得感染的节点的重要性;
13.步骤1-2:已知节点u在一次传播中的首达时间tu和传播时间t
max
以及这段时间内影响力分布遵循等待时间分布ρ(τ)。计算节点u在这段tu~tu t
max
时间段内的影响力
14.步骤1-3:计算所有在t0到t0 t
max
时间段内获得信息的节点的影响力总和w;
15.步骤1-4:在一次传播中,计算在t0时刻获得信息的所有节点的影响力
16.步骤1-5:估计出节点u在第c次传播中的重要性为
17.本发明中,步骤2的具体流程为:
18.步骤2-1:在独立级联模型中[1],获得在一层级联上推断网络拓扑的似然函数当考虑所有级联后,得到似然函数目标为使似然函数最大化;
[0019]
步骤2-2:估计节点u的重要性已知n个节点的重要性的均值和方差通过探查b(u)和和的函数关系,得到能够反映节点重要性的偏置b(u);
[0020]
步骤2-3:从一个空图开始,对每个节点对(u,v)遍历,考察当节点对连边状态改变时,似然函数的增减变化用边缘增益表示;获得遍历每一个节点对(u,v)时边缘增益的变化趋势和节点重要性之间的关系;
[0021]
步骤2-4:根据是否具有网络先验知识更新边缘增益;
[0022]
步骤2-5:利用马尔可夫链-蒙特卡洛采样方法来解决似然函数最大化的问题。
[0023]
本发明中,步骤3的具体流程为:
[0024]
步骤3-1:在没有任何网络先验知识的情形下,应用步骤1提出的节点重要性估计方法估计节点的影响力,再将其代入步骤2的带有节点重要性的网络拓扑推断算法中,推断网络拓扑;
[0025]
步骤3-2:在已经获取网络先验知识的前提下,提取节点重要性指标(例如出度、节点中心性、节点自身的性质等),代入步骤2的带有节点重要性的网络拓扑推断算法中,推断网络拓扑。
[0026]
本发明的创新点在于:本发明充分考虑了在线社交网络的异质性,提出了带有节点重要性的网络拓扑推断算法。为了应对任何关于节点重要性的先验信息都无法获取的情况,进一步提出了一种可以直接估计节点重要性的算法。本发明实现了在有无网络先验知
识下,都可以依托带有节点重要性的网络拓扑推断算法重构社交网络,并提高了推断的准确性。
附图说明
[0027]
图1为本发明获得信息的节点的影响力示意图。
[0028]
图2为本发明网络推断问题中的独立级联模型。
[0029]
图3为本发明网络推断问题中马尔可夫链-蒙特卡洛采样方法流程图。
[0030]
图4为算法1、2、3在不同级联下的网络拓扑推断准确率。
具体实施方式
[0031]
为了使本发明的上述目的和创新点能够更加容易理解,下面结合附图和具体实施方式对本发明作进一步详细的说明。
[0032]
步骤1:节点重要性估计。本发明提到的节点重要性是指节点在传播过程中的影响力,根据信息传播过程获得节点重要性。
[0033]
步骤1-1:已知要推断的网络具有n个节点,代表网络的节点集合。c
×
n维矩阵d=[d1,d2,

,dc]
t
表示观察到的传播结果,其中记录了每个节点在第c次传播中第一次获得信息的时刻。节点重要性估计算法的输入就是信息传播结果d=[d1,d2,

,dc]
t
和信息传播等待时间分布ρ(τ),而输出是每个节点的重要性:统计节点在t0时刻获得感染后t
max
时间段内获得消息的节点数目的增加量,记作从一定程度上反映了在t0时刻获得感染的节点的重要性。
[0034]
步骤1-2:设tu表示节点u在一次传播中的首达时间,节点u将信息传播出去的能力表现为持续时间t
max
;不妨认为节点u在tu到tu t
max
时间段内影响力为单位数值1,且在这段时间内影响力分布遵循等待时间分布ρ(τ)。对于在t0时刻之前获得信息的节点,如果它获得信息的是:t
0-δt,1≤δt<t
max
,那么它在tu到tu t
max
时间段内的影响力可以用公式(1)来计算:
[0035][0036]
其中,t
max-δt为权重,表示越早到达的信息权重越高。
[0037]
步骤1-3:所有在t0到t0 t
max
时间段内获得信息的节点的影响力总和w可以用公式(2)来计算:
[0038][0039]
其中,n
δt-代表在t
0-δt时刻新获得信息的节点数目,n
δt
代表在t0 δt时刻新获得信息的节点数,n0表示在t0时刻获得消息的节点数。
[0040]
步骤1-4:在一次传播中,用公式(3)来计算在t0时刻获得信息的所有节点的影响力:
[0041][0042]
为节点在t0时刻获得感染后t
max
时间段内获得消息的节点数目的增加量。
[0043]
步骤1-5:记估计出的节点u在第c次传播中的重要性为最终可以用公式(4)计算出节点u在所有传播中的影响力:
[0044][0045]
其中,du代表所有节点u参与的级联对应的传播结果,dc表示某个级联结果。计算u=1,2,

,n时的传播影响力,得到
[0046]
步骤2:带有节点重要性的网络拓扑推断。
[0047]
步骤2-1:采用独立级联模型(图2)[1],其中,网络上观察到一个级联结果dc的概率可以用公式(5)来表示:
[0048][0049]
其中,是节点u在第c次传播中获得信息的时刻,γ是信息传播经过的所有的路径的集合,ρ
uv
(τ)表示节点对(u,v)之间的等待时间分布,并用表示整个网络的等待时间分布。为似然函数。
[0050]
当考虑所有观察到的级联,可以得到公式(6):
[0051][0052]
本发明目标是利用传播结果d来推断网络拓扑需要找到一个拓扑使得似然函数达到最大值。
[0053]
步骤2-2:用表示估计的节点u重要性,用b(u)反映节点重要性的偏置项,如公式(7)所示:
[0054][0055]
这里,和分别代表全网络中估计的节点重要性的均值和方差,系数α控制引入节点重要性这一变量对网络推断的影响大小,系数β则控制重要节点相对于非重要节点对网络推断的影响。
[0056]
步骤2-3:从一个空图开始,对每个节点对(u,v)遍历,考察当节点对连边状态改变时,似然函数的增减变化,用边缘增益表示;每次操作,都计算接受概率表示;每次操作,都计算接受概率并按此概率来接受此次连边反转操作。如公式(8)所示,当节点对边缘增益是当添加连边(u,v)后似然函数的增加量,当节点对边缘增益是移除连边(u,v)后似然函数的增加量。将节点的异质性引入到网络推断的过程中,基于
不带有节点重要性的网络拓扑推断算法[2]获得公式(8):
[0057][0058]
(8)式表示,在时为边缘增益添加偏执项b(u),而在时,从边缘增益中减去偏执项b(u)。
[0059]
步骤2-4:若已知网络先验知识,节点重要性是固定的,边缘增益如公式(8)所示。若未知网络先验知识,节点重要性是估计得到的,存在一定的偏差,边缘增益更新为公式(9):
[0060][0061]
其中,ε
uv
服从正态分布的高斯白噪声,ε
uv
表示对估计误差的补偿。
[0062]
步骤2-5:利用马尔可夫链-蒙特卡洛采样方法来解决似然函数最大化的问题。在一次迭代中,网络中所有的节点对都会被遍历一次,每迭代max_lag次采样一次。m是采样次数,burn_in是达到稳定状态的迭代次数,达到稳定后再开始采样,参见图3。
[0063]
步骤3:根据有无网络先验知识,推断网络的拓扑。
[0064]
步骤3-1:在没有任何网络先验知识的情形下,应用步骤1提出的节点重要性估计方法,先估计出每个节点的影响力,再代入步骤2的带有节点重要性的网络拓扑推断算法中,推断网络拓扑。
[0065]
步骤3-2:在已经获取网络先验知识的前提下,提取节点重要性指标(例如出度、节点中心性、节点自身的性质等),代入步骤2的带有节点重要性的网络拓扑推断算法中,推断网络拓扑。
[0066]
本文使用一位用户的实际的twitter社交网络为实验对象,利用本发明算法进行评估。该网络包含1973个节点,分别选取不同的级联进行算法对比,同时探索级联数对算法准确率的影响。为方便阐述,将不考虑节点重要性的网络拓扑推断记为算法1,将节点度作为节点重要性进行网络拓扑推断记为算法2,将估计节点重要性用于网络拓扑推断的算法记为算法3.本实验中选取的参数为α=20,β=1,m=10,max_lag=10,burn_in=10,获得的实验结果如表1和图4所示。可以发现,级联的层数对推断准确率具有一定的影响。当考虑网络中节点的先验重要性时,网络的推断准确率明显高于未使用节点重要性推断的准确率;本文提出的节点重要性估计方法相比于先验的节点重要性知识,其准确率低一些,说明对节点重要性估计存在一定的偏差。
[0067]
表1,算法1、2、3在不同级联下的网络拓扑推断准确率。
[0068]

[0069]
参考文献:
[0070]
[1]kempe d,kleinberg j,tardosmaximizing the spread of influence through a social network[c]//proceedings of the ninth acm sigkdd international conference on knowledge discovery and data mining.2003:137-146.
[0071]
[2]li x,li x.reconstruction of stochastic temporal networks through diffusive arrival times[j].nature communications,2017,8(1):1-10.
[0072]
[3]barab
á
si a l,albert r.emergence of scaling in random networks[j].science,1999,286(5439):509-512.
[0073]
[4]mastrandrea r,fournet j,barrat a.contact patterns in a high school:a comparison between data collected using wearable sensors,contact diaries and friendship surveys[j].plos one,2015,10(9):e0136497。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献