一种基于k边连通分量在大型网络中搜索个性化影响力社区的方法与流程

2021-10-24 06:14:00 来源：中国专利 TAG：连通分量个性化影响力数据挖掘

1.本发明属于图数据挖掘技术领域，尤其涉及一种基于k边连通分量在大型网络中搜索个性化影响力社区的方法。

背景技术：

2.社区搜索是社交网络分析中的一个基本问题。社区搜索的目的是识别包含查询用户的重要社区(即，内聚子图)，是好友推荐、产品推广等个性化应用程序的重要工具。目前研究中已经提出了许多内聚子图模型，如k核、k式桁架和k边连通分量等。在社交网络中，用户通常与一个表示其在网络中的影响力的权重相关联。一个社区的影响力值定义为社区中节点的最小权重。近年来，影响力社区检测问题引起了广泛的关注。然而，目前并没有意向研究考虑到个性化的需求。本发明提出了基于k边连通分量的个性化影响力社区搜索问题，旨在通过不断删除影响社区影响力的节点来找出对应的个性化影响力社区。为了更好地处理大型网络，本发明基于二分思想提出了一种新颖的算法，从而可以批量地删除节点，显著缩减了搜索时间。基于k边连通分量在大型网络中搜索个性化影响力社区的方法对社交网络的研究具有极大的效益。

技术实现要素：

3.为了满足个性化的需求，本发明提出了一个新的问题，即个性化影响力k边连通分量(pike)搜索，来寻找社交网络中的个性化影响力社区。本发明采用广泛应用于社交网络分析的k边连通分量模型来度量子图的内聚性。给定一个待查询的图g和查询节点集q，个性化影响力社区pike是图g中具有最大影响力值的子图，它需要满足四个条件：1)包含q中的所有查询节点；2)满足k边连通分量约束，即移除某图中的任意k
‑
1条边后，该图中的任意两个节点仍是可达的；3)子图的影响力值是最大的；4)是极大的，即它的任何超图都不能满足前面三个条件。
4.该方法基于以下引理：对于图g的两个子图g1和g2，其中子图g1包含子图g2，且子图g1是子图g2和节点a的并集，如果节点a的影响力值小于子图g2的影响力值，那么子图g1的影响力值也小于子图g2的影响力值；
5.该方法包括以下步骤：
6.步骤一，计算图g中的所有k边连通分量；
7.步骤二，找出包含q中所有查询节点的一个k边连通分量：如果q不包含在任何一个k边连通分量中，则返回一个报错；否则将包含q的k边连通分量中所有影响力值小于q中查询节点的最小影响力值的剩余节点，按照影响力值升序排序存储在集合s中，如果s为空则返回当前的k边连通分量；
8.步骤三，基于二分法批量地删除节点：迭代地将s中的节点划分为两个集合d1和d2；d1包含s的前半部分的节点，即影响力值小的那部分节点，d2包含剩余的其他节点；根据
引理，从当前的k边连通分量中移除d1中的所有节点，计算并返回k边连通分量中剩余节点构成的子图中的所有k边连通分量，如果在返回的结果中有包含q的k边连通分量，则通过步骤二计算该k边连通分量对应的s集合，并重复执行步骤三；如果在返回的结果中没有包含q的k边连通分量，若d1中节点数不为1，则将d1作为新的s集合，在未移除d1的k边连通分量上重复执行步骤三，若上述d1中节点数为1，意味着未移除d1的k边连通分量为最终子图pike，将其输出。
9.进一步地，所述步骤一中，计算k边连通分量的方法具体为：首先创建一个空列表l并从原图g中随机挑选一个节点放入l中；之后迭代地进行如下操作：
10.将原本不在l内，并且与l中的所有节点在图g中能够形成边数最多的节点放入l的尾部；每加入一个新的节点进入l后，执行相应的查询和更新操作；
11.所述查询操作为：假设新加入的节点为u；在u加入l之前，l中的最新加入节点为v；若在此时l中的节点形成的子图中，u和v是k
‑
连通的，则进行更新操作；
12.所述更新操作为：将u和v合并成一个超级节点，并在后续操作中将超级节点作为一个节点进行处理；
13.继续上述过程直到图g中所有节点均加入到l并且执行相应查询和更新操作；
14.对于图g中最后加入l的两个节点u'和v'，如果u'和v'不是k
‑
连通的，将l中最后加入的节点从l中移除；
15.对当前包含超级节点的图重复上述所有步骤，最终每个超级节点中的所有节点形成的子图即为原图g中的一个k边连通分量。
16.本发明还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述基于k边连通分量在大型网络中搜索个性化影响力社区的方法的步骤。
17.本发明还提供一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述基于k边连通分量在大型网络中搜索个性化影响力社区的方法的步骤。
18.本发明的有益效果为：在社交网络中，用户通常与一个表示其在网络中的影响力值的权重相关联。影响力社区检测的目的不仅是要发现具有内聚性的社区，同时要求其有较大影响力值。其中社区的影响力值指的是该社区中所有节点的最小影响力值。而k边连通分量是衡量社区内聚性的常用模型。因此，本发明提出了基于k边连通分量的大型网络个性化影响力社区搜索问题，旨在识别包含给定查询节点的社区。此外，为了减少处理大型网络的成本，本发明开发了一种高效的基于二分法的查询方法，从而能在大型网络中快速找到包含指定节点的影响力值最大的社区并有效地缩减搜索成本。因此，本发明基于k边连通分量在大型网络中搜索个性化影响力社区的方法对社交网络的研究具有极大的效益。
附图说明
19.图1是本发明基于k边连通分量在大型网络中搜索个性化影响力社区的方法流程图；
20.图2是本发明实施例提供的个性化影响力社区二分搜索详细实现流程图；
21.图3是原始影响力网络示意图；
22.图4是对原始影响力网络计算2边连通分量后的示意图；
23.图5
‑
图7是对包含灰色目标节点的2边连通分量进行二分搜索的示意图；
24.图8是进行二分搜索之后的个性化影响力社区示意图。
具体实施方式
25.为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。
26.在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。
27.本技术提出一种基于k边连通分量在大型网络中搜索个性化影响力社区的方法，给定一个待查询的图g和查询节点集q，个性化影响力社区pike是图g中具有最大影响力值的子图，需要满足四个条件：1)包含q中的所有查询节点；2)满足k边连通分量约束，即移除某图中的任意k
‑
1条边后，该图中的任意两个节点仍是可达的；3)子图的影响力值是最大的；4)是极大的，即它的任何超图都不能满足前面三个条件。如图1、2所示，下面详细说明本发明方法的实现过程。
28.该方法基于以下引理：
29.对于图g的两个子图g1和g2，其中子图g1包含子图g2，且子图g1是子图g2和节点a的并集，如果节点a的影响力值小于子图g2的影响力值，那么子图g1的影响力值也小于子图g2的影响力值。
30.该方法包括以下步骤：
31.步骤一，计算图g中的所有k边连通分量；
32.在一个实施例中，计算k边连通分量的方法具体为：首先创建一个空列表l并从原图g中随机挑选一个节点放入l中；之后迭代地进行如下操作：
33.将原本不在l内，并且与l中的所有节点在图g中能够形成边数最多的节点放入l的尾部；每加入一个新的节点进入l后，执行相应的查询和更新操作；
34.所述查询操作为：假设新加入的节点为u；在u加入l之前，l中的最新加入节点为v；若在此时l中的节点形成的子图中，u和v是k
‑
连通的，则进行更新操作；
35.所述更新操作为：将u和v合并成一个超级节点，并在后续操作中将超级节点作为一个节点进行处理；
36.继续上述过程直到图g中所有节点均加入到l并且执行相应查询和更新操作；
37.对于图g中最后加入l的两个节点u'和v'，如果u'和v'不是k
‑
连通的，将l中最后加入的节点从l中移除；
38.对当前包含超级节点的图重复上述所有步骤，最终每个超级节点中的所有节点形成的子图即为原图g中的一个k边连通分量。
39.步骤二，找出包含q中所有查询节点的一个k边连通分量：如果q不包含在任何一个k边连通分量中，则返回一个报错；否则将包含q的k边连通分量中所有影响力值小于q中查询节点的最小影响力值的剩余节点，按照影响力值升序排序存储在集合s中，如果s为空则返回当前的k边连通分量。
40.步骤三，基于二分法批量地删除节点：迭代地将s中的节点划分为两个集合d1和d2；d1包含s的前半部分的节点，即影响力值小的那部分节点，d2包含剩余的其他节点；根据引理，从当前的k边连通分量中移除d1中的所有节点，计算并返回k边连通分量中剩余节点构成的子图中的所有k边连通分量，如果在返回的结果中有包含q的k边连通分量，则通过步骤二计算该k边连通分量对应的s集合，并重复执行步骤三；如果在返回的结果中没有包含q的k边连通分量，若d1中节点数不为1，则将d1作为新的s集合，在未移除d1的k边连通分量上重复执行步骤三，若d1中节点数为1，意味着未移除d1的k边连通分量为最终子图pike，将其输出。
41.以下以图3所示的原始待查询的图为示例描述本发明实现效果，其中深灰色的节点代表查询节点集q，即节点7、节点8和节点9。图4为步骤一利用k边连通分量算法计算出的子图，其中虚线表示由于不满足条件而被过滤掉的节点和边，节点15因不满足k边连通分量的约束而被删除。图5为步骤三中按照节点影响力值升序划分节点之后的结果图，其中d1中的节点用横条纹表示，d2中的节点用竖条纹表示。图6为步骤三中使用二分算法删除d1中所有节点后的子图。图7为d1中节点被删除后导致其他节点因不满足k边连通分量约束而被删除后的子图，此时在剩余图中比节点集合q权重小的点只有节点6，即s中只有节点6，此时移除节点6会导致查询节点被删除，因此停止当前操作并且返回上一过程得到的结果。图8为最终的结果。
42.此外，本发明从数据集网站snap下载了3个真实社交网络数据集，并基于这三个数据集进行了广泛的实验，以评估所提出的方法的有效性和高效性。为了评估所提出方法的性能，我们通过改变参数k、查询节点数|q|和查询节点的权重分布ω进行实验。对于每个设置，我们随机生成20个非空结果的查询，并运行算法10次以报告平均响应时间。所有程序均在标准的c 中实现，所有实验均在配备intel i5
‑
9600kf 3.7ghz cpu和64gb主内存的pc上进行。实验表明，本发明提出的方法与基线方法相比可以达到2个数量级的加速比。
43.在一个实施例中，提出了一种计算机设备，包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中基于k边连通分量在大型网络中搜索个性化影响力社区的方法中的步骤。
44.在一个实施例中，提出了一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述各实施例中基于k边连通分量在大型网络中搜索个性化影响力社区的方法中的步骤。其中，存储介质可以为非易失性存储介质。
45.本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(rom，read only memory)、随机存取存储器(ram，random access memory)、磁盘或光盘等。
46.以上所述仅是本发明的优选实施方式，虽然本发明已以较佳实施例披露如上，然而并非用以限定本发明。任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰，均仍属于本发明技术方
案保护的范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于可变形卷积的深度图补全方法与流程

一种基于k边连通分量在大型网络中搜索个性化影响力社区的方法与流程

相关文献

最热文献