一种信息传播预测方法、装置、电子设备以及存储介质

2022-12-13 23:11:01 来源：中国专利 TAG：

1.本发明涉及互联网技术领域，尤其是一种信息传播预测方法、装置、电子设备以及存储介质。

背景技术：

2.随着微信和微博等社交网络逐渐流行和普及，智能手机每天产生海量的个体信息，信息带有明确的个人资料、行为记录、地理位置等有价值的数据。研究社交信息在互联网中的传播特征，充分发挥数据价值，对预测网络舆情、提升电子商务效益等具有重要作用。
3.现有的信息传播预测方法，往往是理性而准确地把整个传播过程分解成各个不同部分，然后抽象出简单的传播模式和预测方法。实际的传播过程，相较于这种抽象模式要复杂和无序得多。信息转发行为是多因素共同作用的结果，现有技术未考虑多种特征结合的复杂性及量化方法，集中于某一方面预测个体转发行为，预测结果并不准确，无法评估影响用户行为的各个特征的重要性，难以准确预测社交网络的群体传播行为。

技术实现要素：

4.有鉴于此，本发明实施例提供一种准确性高的信息传播预测方法、装置、电子设备以及存储介质。
5.本发明实施例的一方面提供了一种信息传播预测方法，包括：
6.根据信息传播的源节点的信息，计算所述源节点与相关节点之间的兴趣相似性；
7.通过谱分割方法划分得到所述源节点的兴趣相似圈子，进而找到目标成员节点；
8.获取所述目标成员节点面对不同主题信息时候的k类群定义信息，并进行信息主题重叠的群体过滤计算，得到各个k类群的主题圈子；
9.正确识别不同节点基于不同主题信息的兴趣圈子；
10.根据所述兴趣相似性以及所述兴趣圈子，预测信息传播群体。
11.可选地，所述根据信息传播的源节点的信息，计算所述源节点与相关节点之间的兴趣相似性，包括：
12.配置所述源节点在目标社交平台中发布的初始信息，确定所述源节点的信息；
13.计算任意两个节点之间的兴趣相似性值；
14.计算任意两个节点之间的距离，确定目标个体对对应主题的兴趣强弱度；
15.根据谱平分方法，构建目标社交平台的无向图，并确定图的度矩阵和邻接矩阵；
16.根据目标节点与源节点之间的初始距离，结合目标节点传播信息的次数以及目标节点的朋友节点数量，计算所述目标节点相对于源节点的兴趣相似性。
17.可选地，所述通过谱分割方法划分得到所述源节点的兴趣相似圈子，进而找到目标成员节点，包括：
18.利用兴趣谱线图记录兴趣相似性值，把兴趣相似性值从小到大按顺序排列，用不
同位置的谱线代表不同的兴趣相似性值；
19.选取一个兴趣阈值对兴趣谱线图进行分割，判断谱线中的无主题圈子和有主题圈子；
20.根据无主题圈子和有主题圈子对应的两个近似对角矩阵，获取第二小特征值来划分不同兴趣相似性值的圈子；
21.根据不同兴趣相似性值中节点联系的紧密度，确定兴趣相似性值大于0.5的节点；
22.随机选择若干对兴趣相似性值大于0.5的节点，并对每一个节点利用兴趣谱线把网络划分为强兴趣和弱兴趣两个圈子，然后从两个圈子中任意选择一个节点的兴趣相似性值作为参考节点，计算其他节点与该参考节点出现在同一个圈子的概率，如果概率大于50％，则认为这些其他节点为感兴趣节点，否则为无兴趣节点，划分得到不同的兴趣相似性的其他圈子，得到网络的群体兴趣谱图；
23.获取兴趣边界值，根据兴趣边界值从兴趣谱线图的节点中选取差值最大的相邻节点，从中划分出强兴趣圈子和弱兴趣圈子；
24.对于目标社交平台中存在的多种不同种类的主题圈子，获取兴趣种类数量和网络节点总数，从兴趣谱线图中查找兴趣差值最大的一对相邻节点，进而得到多个兴趣相似圈子。
25.可选地，所述方法还包括：
26.选择出现频率仅次于源节点的传播节点作为下一个圈子划分的参考节点，其中，所述源节点是所有圈子中出现频率最高的节点；
27.计算其他节点在它所在圈子中出现的频率，将出现频率大于预设阈值的节点，看作是与参考节点在同一种主题圈子中，持续该过程找到该圈子的其他成员节点。
28.可选地，所述获取所述目标成员节点面对不同主题信息时候的k类群定义信息，包括：
29.当源节点与目标社交平台的其他节点均具有至少2种共同兴趣，并且曾经传播源节点发布的信息，则确认源节点与其他节点之间为完全连通状态；
30.将互相连接的节点数目为k的传播圈子作为k类群，当一个k类群可以通过若干个相连邻的k类群到达另一个k类群，确定两个k类群彼此连通；
31.获取想要在目标社交平台上查找的圈子的主题类型，确定网络中彼此连通的k类群构成的集合，进而确定要找的主题圈子；
32.其中，源节点与所有节点均可形成2类群，2类群之间的公共节点就是源节点，公共节点为0。
33.可选地，所述进行信息主题重叠的群体过滤计算，得到各个k类群的主题圈子，包括：
34.根据主题重叠性特征，采用迭代回归算法来查找朋友圈中的主题重叠圈子，从网络中各节点的度判断出网络中存在的全耦合网络的大小；
35.从网络中源节点出发，选择主题圈子类型，找到包含源节点的大小为s的k群；
36.当找到了网络中大小为s的k群时，逐步减小s的值，找到网络中大小不同的k群；
37.根据源节点，定义全连通节点的第一集合x和与所述第一集合中各个节点都相连的其他节点的第二集合y；
38.从第二集合y中移动一个节点到第一集合x，同时删除y中不再与x中的节点相连的节点；
39.从y中取出一个节点放在x中，得到一个最大的k群；
40.找到网络中的k群后，定位这些k群之间的重叠部分，构造基于k群的重叠矩阵；其中，重叠矩阵的行和列对应一个k群，对角线的元素表示相应的k群内的节点的数量，非对角线元素表示两个k群之间的公共部分的节点数量；
41.重叠矩阵对角线上小于k，非对角线小于k-2的元素设为0，其他元素设为1，得到一个(0，1)矩阵，作为k群主题圈子的连接矩阵。
42.本发明实施例的另一方面还提供了一种信息传播预测装置，包括：
43.第一模块，用于根据信息传播的源节点的信息，计算所述源节点与相关节点之间的兴趣相似性；
44.第二模块，用于通过谱分割方法划分得到所述源节点的兴趣相似圈子，进而找到目标成员节点；
45.第三模块，用于获取所述目标成员节点面对不同主题信息时候的k类群定义信息，并进行信息主题重叠的群体过滤计算，得到各个k类群的主题圈子；
46.第四模块，用于正确识别不同节点基于不同主题信息的兴趣圈子；
47.第五模块，用于根据所述兴趣相似性以及所述兴趣圈子，预测信息传播群体。
48.本发明实施例的另一方面还提供了一种电子设备，包括处理器以及存储器；
49.所述存储器用于存储程序；
50.所述处理器执行所述程序实现如前面所述的方法。
51.本发明实施例的另一方面还提供了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现如前面所述的方法。
52.本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前面的方法。
53.本发明的实施例根据信息传播的源节点的信息，计算所述源节点与相关节点之间的兴趣相似性；通过谱分割方法划分得到所述源节点的兴趣相似圈子，进而找到目标成员节点；获取所述目标成员节点面对不同主题信息时候的k类群定义信息，并进行信息主题重叠的群体过滤计算，得到各个k类群的主题圈子；正确识别不同节点基于不同主题信息的兴趣圈子；根据所述兴趣相似性以及所述兴趣圈子，预测信息传播群体。本发明提高了社交网络的群体传播行为的预测准确性。
附图说明
54.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
55.图1为本发明实施例提供的整体步骤流程图；
56.图2为本发明实施例提供的节点连接无向图；
57.图3为本发明实施例提供的基于兴趣相似性的谱分割方法的分割示意图；
58.图4为本发明实施例提供的k类群定义的示意图；
59.图5为本发明实施例提供的k类群主题圈子查找过程的示意图。
具体实施方式
60.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
61.针对现有技术存在的问题，本发明实施例的一方面提供了一种信息传播预测方法，包括：
62.根据信息传播的源节点的信息，计算所述源节点与相关节点之间的兴趣相似性；
63.通过谱分割方法划分得到所述源节点的兴趣相似圈子，进而找到目标成员节点；
64.获取所述目标成员节点面对不同主题信息时候的k类群定义信息，并进行信息主题重叠的群体过滤计算，得到各个k类群的主题圈子；
65.正确识别不同节点基于不同主题信息的兴趣圈子；
66.根据所述兴趣相似性以及所述兴趣圈子，预测信息传播群体。
67.可选地，所述根据信息传播的源节点的信息，计算所述源节点与相关节点之间的兴趣相似性，包括：
68.配置所述源节点在目标社交平台中发布的初始信息，确定所述源节点的信息；
69.计算任意两个节点之间的兴趣相似性值；
70.计算任意两个节点之间的距离，确定目标个体对对应主题的兴趣强弱度；
71.根据谱平分方法，构建目标社交平台的无向图，并确定图的度矩阵和邻接矩阵；
72.根据目标节点与源节点之间的初始距离，结合目标节点传播信息的次数以及目标节点的朋友节点数量，计算所述目标节点相对于源节点的兴趣相似性。
73.可选地，所述通过谱分割方法划分得到所述源节点的兴趣相似圈子，进而找到目标成员节点，包括：
74.利用兴趣谱线图记录兴趣相似性值，把兴趣相似性值从小到大按顺序排列，用不同位置的谱线代表不同的兴趣相似性值；
75.选取一个兴趣阈值对兴趣谱线图进行分割，判断谱线中的无主题圈子和有主题圈子；
76.根据无主题圈子和有主题圈子对应的两个近似对角矩阵，获取第二小特征值来划分不同兴趣相似性值的圈子；
77.根据不同兴趣相似性值中节点联系的紧密度，确定兴趣相似性值大于0.5的节点；
78.随机选择若干对兴趣相似性值大于0.5的节点，并对每一个节点利用兴趣谱线把网络划分为强兴趣和弱兴趣两个圈子，然后从两个圈子中任意选择一个节点的兴趣相似性值作为参考节点，计算其他节点与该参考节点出现在同一个圈子的概率，如果概率大于50％，则认为这些其他节点为感兴趣节点，否则为无兴趣节点，划分得到不同的兴趣相似性的其他圈子，得到网络的群体兴趣谱图；
79.获取兴趣边界值，根据兴趣边界值从兴趣谱线图的节点中选取差值最大的相邻节点，从中划分出强兴趣圈子和弱兴趣圈子；
80.对于目标社交平台中存在的多种不同种类的主题圈子，获取兴趣种类数量和网络节点总数，从兴趣谱线图中查找兴趣差值最大的一对相邻节点，进而得到多个兴趣相似圈子。
81.可选地，所述方法还包括：
82.选择出现频率仅次于源节点的传播节点作为下一个圈子划分的参考节点，其中，所述源节点是所有圈子中出现频率最高的节点；
83.计算其他节点在它所在圈子中出现的频率，将出现频率大于预设阈值的节点，看作是与参考节点在同一种主题圈子中，持续该过程找到该圈子的其他成员节点。
84.可选地，所述获取所述目标成员节点面对不同主题信息时候的k类群定义信息，包括：
85.当源节点与目标社交平台的其他节点均具有至少2种共同兴趣，并且曾经传播源节点发布的信息，则确认源节点与其他节点之间为完全连通状态；
86.将互相连接的节点数目为k的传播圈子作为k类群，当一个k类群可以通过若干个相连邻的k类群到达另一个k类群，确定两个k类群彼此连通；
87.获取想要在目标社交平台上查找的圈子的主题类型，确定网络中彼此连通的k类群构成的集合，进而确定要找的主题圈子；
88.其中，源节点与所有节点均可形成2类群，2类群之间的公共节点就是源节点，公共节点为0。
89.可选地，所述进行信息主题重叠的群体过滤计算，得到各个k类群的主题圈子，包括：
90.根据主题重叠性特征，采用迭代回归算法来查找朋友圈中的主题重叠圈子，从网络中各节点的度判断出网络中存在的全耦合网络的大小；
91.从网络中源节点出发，选择主题圈子类型，找到包含源节点的大小为s的k群；
92.当找到了网络中大小为s的k群时，逐步减小s的值，找到网络中大小不同的k群；
93.根据源节点，定义全连通节点的第一集合x和与所述第一集合中各个节点都相连的其他节点的第二集合y；
94.从第二集合y中移动一个节点到第一集合x，同时删除y中不再与x中的节点相连的节点；
95.从y中取出一个节点放在x中，得到一个最大的k群；
96.找到网络中的k群后，定位这些k群之间的重叠部分，构造基于k群的重叠矩阵；其中，重叠矩阵的行和列对应一个k群，对角线的元素表示相应的k群内的节点的数量，非对角线元素表示两个k群之间的公共部分的节点数量；
97.重叠矩阵对角线上小于k，非对角线小于k-2的元素设为0，其他元素设为1，得到一个(0，1)矩阵，作为k群主题圈子的连接矩阵。
98.本发明实施例的另一方面还提供了一种信息传播预测装置，包括：
99.第一模块，用于根据信息传播的源节点的信息，计算所述源节点与相关节点之间的兴趣相似性；
100.第二模块，用于通过谱分割方法划分得到所述源节点的兴趣相似圈子，进而找到目标成员节点；
101.第三模块，用于获取所述目标成员节点面对不同主题信息时候的k类群定义信息，并进行信息主题重叠的群体过滤计算，得到各个k类群的主题圈子；
102.第四模块，用于正确识别不同节点基于不同主题信息的兴趣圈子；
103.第五模块，用于根据所述兴趣相似性以及所述兴趣圈子，预测信息传播群体。
104.本发明实施例的另一方面还提供了一种电子设备，包括处理器以及存储器；
105.所述存储器用于存储程序；
106.所述处理器执行所述程序实现如前面所述的方法。
107.本发明实施例的另一方面还提供了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现如前面所述的方法。
108.本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前面的方法。
109.下面结合说明书附图，对本发明的具体实现过程进行详细描述：
110.本发明的目的在于为个体传播动力特征量化和信息传播过程的预测分析提供了方法。该方法存在以下特点：
111.1、结合复杂网络理论的社团发现的经典算法，提出了基于兴趣相似性计算的谱分割方法，在图中定义节点的距离与个体兴趣相似性的关系，通过laplace矩阵计算个体的兴趣相似性值；根据谱平分算法思想，定义了兴趣边界值的概念，根据不同兴趣程度对节点进行群体分类。
112.2、根据信息主题重叠性特征，提出k类群过滤算法，通过改进迭代回归算法和重叠矩阵，来查找朋友圈中的包含多种主题的兴趣圈子。
113.方法在量化用户对信息的兴趣程度、识别多兴趣主题的信息传播群体上体现了较好的效果。
114.本发明实施例以朋友圈作为目标社交平台为例，朋友圈作为微信最受用户欢迎的功能，是微信用户分享和传播消息的功能。朋友圈可以看作是由若干带有各类兴趣的个体共同组成的社交网络，在图论中可以看作是由许多彼此重叠、互相关联的主题圈子组成，类似微博的群的性质。在微信中，假设当源节点发送或分享一条消息到朋友圈，朋友们在不同时刻看到该消息，对消息感兴趣的人会以一定的概率对信息进行转发。本实施例把一个节点的朋友圈划分为若干个基于不同兴趣类型的主题圈子，其特征与复杂网络中的社团结构相似。整个朋友圈由若干个小圈子组成，每个小圈子包含了具有共同兴趣或传播因素的个体节点。如果把节点间的连接描述为信息传播的路径，在圈子内部，节点间的连接比较紧密，各个圈子之间的节点连接相对稀疏。由于个体的兴趣多样性，每个节点并不只属于某一个圈子。信息会优先在对信息产生强烈兴趣的圈子中传播，该圈子的节点转发或分享该信息的概率很大，但也可能会在其他的圈子中传播。
115.关于本发明的相关背景说明有以下：
116.1、信息传播主观因素分析：
117.社交网络中的个体是否会对信息进行转发或分享，是否接纳其他人的观点，由用户自身的自主性决定。自我决定理论认为人是积极的有机体，人们具有一种基本的内在的自我决定的能力，这种能力促使人凭借内在的兴趣来获取知识和技能，从而实现与社会环境的灵活适应。自我决定能力是个体在内在动机的驱动下，主动采取行动并不受外力影响和干预，做出选择所需要的能力和态度，强调人类行为在多大程度上是自愿或自我决定的，以及自我在动机过程中的能动作用。因此，可以把造成个体决定对信息进行传播动力的主观因素，归结为以下几点：
118.1)、角色相似性
119.朋友之间的社会角色或职业角色相似程度，如两个用户的职业和社会角色均为：教师、父亲、车主等。
120.2)、情感亲密程度
121.用户的社交关系亲密度或交流频繁程度，例如两个用户是交流较多的同事、关系非常好的朋友或亲人等，或者两个志同道合、经常聊天的朋友，这类用户的情感亲密度较高。
122.3)、兴趣相似性
123.朋友之间的对某种信息的主题的兴趣相似程度，例如两个用户的兴趣分别为，a：足球、汽车、钓鱼、电影、唱k；b:踢球、赛车、音乐、唱歌、跳舞。两个用户有若干种相同或相似的兴趣。
124.4)、经历经验相似性
125.用户对某种事件的经历或经验的相似程度，例如：用户a和用户b都去过云南丽江旅游，他们对云南旅游的消息存在经历的相似性。
126.5)、随机性
127.导致用户认同信息的观点或对信息产生兴趣的不可预知因素，如个人情感、突发事件、他人的影响、随机操作等。
128.由于兴趣相似性在动机内涵上一定程度包含了角色和经历相似性，因此把兴趣相似性作为主要的主观传播研究目标。
129.2、定义与假设：
130.随着微信的流行，越来越多的企业和机构加入微信阵营，进行精准传播和微信营销。研究发现，微信个人号分享和转发的信息的源节点，大多为公众服务号，而个人号原创的信息通常难以大范围传播。这与在微博中，影响力大的帐号容易造成大范围的信息传播的机理一致。本发明实施例应用图论的方法深入研究个体与信息传播的关系，把社交网络上的个体定义为节点，个体之间的好友关系则可以抽象地用节点之间的边来表示，信息只沿着边传播。本发明定义的信息传播源节点，泛指阅读了公众号分享的原创信息后，最快进行传播的个人节点(个体)。
131.3、兴趣相似性概述：
132.要判断朋友圈中的节点是否具有转发信息的兴趣，就需要先计算其他节点与源节点的兴趣相似性。每次消息传播时，需进行基于该消息f的兴趣相似性计算。为了定义兴趣相似性，可以把传播信息的个体源节点的兴趣值相似性设为1。兴趣相似性值为其他节点与源节点的兴趣值的比值，如某节点与源节点兴趣非常相似，相似性值达到0.85；另一节点与
源节点的兴趣完全不同，它的兴趣相似性值可以为0。但实际上，个体的兴趣不能仅用是或者否两种简单的布尔值度量。个体对事物的兴趣更多情况下是不同程度的，例如：个体a非常爱好滑雪，比较喜欢游泳，一般喜欢下象棋，需要一种计算相对程度的方法去度量每种兴趣。
133.网络中的两个节点的边长度，即源节点和朋友节点之间的距离越小，表示节点之间的兴趣相似性大；反之，距离越大，节点的兴趣相似性小。因此，可以根据兴趣相似值对应节点的距离关系来对传播过程构图。
134.4、主题重叠性概述
135.在微信朋友圈或微博中，每时每刻都会产生各种主题的消息，这与社交网络社会化、群体化的特点相符合。根据研究，引发传播的消息按照主题分类，可以分为以下几种：
136.1)、观点评论类：人生观点、主题、哲理、评论
137.2)、新闻事件类：新闻、事件
138.3)、兴趣事物类：旅游、运动、音乐、汽车
139.4)、个人分享类：自拍照片、视频、原创自发信息
140.5)、信息知识类：商品信息、广告、知识、技能等
141.在基于兴趣相似性对朋友圈进行兴趣相似圈子划分后，可以预测节点接触不同的消息后，对消息进行传播的可能性。源节点发布的每条消息，不一定都只归纳为某一种主题，经常会出现一条消息呈现多种主题的性质。例如：旅游和美食，汽车和赛车，军事和政治等等。如果这种主题多样性同时在传播中发挥影响，在图中呈现出节点之间有多条重叠的无向边，这种特性称为主题的重叠性。信息传播的因素为上文总结的5点。如果根据不同的主题分类和方法，每个节点会属于不同圈子，例如(汽车、运动、父亲、地产、新闻等)。理论上说，由于信息的分类无穷尽，传播也有随机因素，因此在朋友圈中，理论上不存在完全没有连接的两个节点。在这种情况下，很难单独地把这些圈子划分出来。为了预测真正传播的节点，采用派系过滤算法(cp)来分析互相重叠的主题圈子，并设计一种k类群过滤算法。
142.因此，本发明致力于从微观个体之间的兴趣角度，通过对个体兴趣的不同特征的定义，研究个体兴趣特征和信息主题差别，预测信息传播的演化过程。本发明同时引入影响社交网络信息传播的两种特征：个体兴趣的相似性和信息主题的重叠性。相似性反映了多个个体对某种主题表现出的倾向性的相似程度；而重叠性则是指信息中包含的多种主题分类，把这些主题抽取出来后，相互连接在一起的区域可能导致信息传播的特性。结合复杂网络理论的社团发现算法思想，提出了基于兴趣相似性的谱分割算法和基于重叠性的k类群过滤方法。兴趣相似性的谱分割算法，在图中定义节点的距离与个体兴趣相似性的关系，通过laplace矩阵计算个体的兴趣相似性值；算法提出兴趣边界值的概念，根据不同兴趣程度对节点进行群体分类。k类群过滤算法，通过迭代回归算法和重叠矩阵来查找朋友圈中的包含多种主题的兴趣圈子。计算过程考虑了个体根据自身和邻居个体对信息的兴趣和行为反应，来影响其内在的观点倾向性和外在的传播行为的特点。算法在量化用户对信息的兴趣程度、识别多兴趣主题的信息传播群体上体现了较好的效果。
143.如图1所示，本发明的整体实施过程包括以下步骤：
144.1、信息传播源节点的假设与定义；
145.2、计算源节点与其他节点之间的兴趣相似性；
146.3、应用谱分割方法思想划分兴趣相似圈子并找到其他成员节点；
147.4、针对节点面对不同主题信息的k类群定义；
148.5、信息主题重叠的群体过滤计算；
149.6、获得各个k群的主题圈子；
150.7、正确识别节点基于不同主题消息的兴趣圈子；
151.8、基于兴趣相似性与主题重叠性的信息传播群体识别与分析。
152.下面针对各个步骤的具体实现原理进行详细描述：
153.1.基于兴趣相似性计算的谱分割方法：
154.1)、个体兴趣相似性计算原理：
155.step1：当朋友圈中的源节点a分享一条消息f，设网络图g＝(v,e)，设当前朋友圈仅分为两个主题圈子：有主题圈子x和无主题圈子y，已知节点a和b分别属于这两个圈子。a为信息传播的源节点，b为a的邻居节点。设节点a发出包含主题a的信息f，则a对包含主题a的消息f的兴趣相似性值为1；而b相对a，对包含信息f包含的主题a的兴趣相似性值大于0则可能会进行信息传播，如果小于等于0，则b可能不会传播信息。
156.step2：设节点j与节点i的兴趣相似性值为l
ij
，则算法的基本流程如下：设l
xy
为在x的网络中的计算如式(1)所示：
[0157][0158]
step3：根据上述设定节点j与节点i的距离，反映了个体对某一主题的兴趣强弱度。设所有朋友节点距离源节点的初始距离均为l，如果j曾经转发主题为a的消息x次，则j与i的初始距离为l
x
；如果j从未转发主题为a的消息，则j与i的初始距离为l。n为j的朋友节点的数量，每个节点的距离为它的朋友节点的平均值。重复计算节点l
ij
的值直到达到需要的计算精度。
[0159]
step4：根据谱平分算法的基本思想，设社交网络为一个有m个节点连接的无向图g，设源节点1有朋友节点2和5，节点2有朋友节点1和5，节点3有朋友节点2和4，节点4有朋友节点3和6，节点5有朋友节点1，2，节点6有朋友节点4，如图2所示。g的laplace矩阵是一个m*m维的对称矩阵l。设l的对角线的元素a’ii
是节点i的度，其他非对角线上的元素a’ij
表示节点i与节点j是否有连接，如果是个体之间是朋友，则有连接，a’ij
＝1；如果个体之间不是朋友，则没有连接，a’ij
＝0。实际上l＝d-a，如式2所示。
[0160]
其中，d为图的度矩阵，a为图的邻接矩阵。
[0161][0162]
step5：根据以上的计算式(2)，则
[0163][0164]
step6：设节点的初始距离为0.5，设节点5曾经传播过主题a的消息2次，节点5的朋
友节点数量为3，根据计算式(1)进行计算：
[0165][0166]
则节点5相对于节点1的兴趣相似性为0.08，兴趣相似性较小。
[0167]
2)、基于兴趣相似的谱分割方法
[0168]
step1：设极端情况下，当节点i获得消息f的主题a，朋友圈网络仅存在有兴趣a和无兴趣b两个圈子。设一个兴趣阈值z(0《z《1)，当节点i的兴趣相似性值l
ij
》z，则认为它属于节点a的圈子；相反，l
ij
《z，节点j则属于节点b的圈子。利用兴趣谱线图记录兴趣相似性值，在小于等于1的范围内，把兴趣值从小到大按顺序排列，用不同位置的谱线代表不同的兴趣值。然后选取一个兴趣阈值z，对图谱进行分割，判断该阈值左边的谱线对应的节点无主题圈子，右边的节点属于有主题圈子。谱平分算法最大的缺陷在于每次只能将网络进行平分，但是判断个体对传播的信息是否具有相似的兴趣，却是一种有效的划分方法。根据谱平分算法的具体思想，一般使用第二小特征值作为兴趣阈值z。
[0169]
step2：有兴趣和无兴趣两个圈子对应的laplace矩阵对应两个近似对角矩阵。但是两种圈子之间的分界难以完全确定，除了最小特征值0外，在0附近还有1个比0大一点的特征值，称为第二小特征值。第二小特征向量中包含的元素对应的节点，一部分属于有主题圈子，一部分属于无主题圈子，因此把第二小特征值用于划分不同兴趣相似性值的圈子。
[0170]
step3：兴趣相似值较大的圈子内部的节点联系比较紧密，但圈子之间的节点联系相对松散。两个节点距离越远，分别属于两个不同圈子的概率就越大。由于在社交网络中，每个人的兴趣不同的可能性较大，设个体的兴趣相似性大于0.5时，就可以看作是兴趣相似性较高的节点，如图3所示。
[0171]
step4：首先，随机选择若干对兴趣相似性值大于0.5的节点，并对每一个节点利用兴趣谱线把网络划分为强兴趣和弱兴趣两个圈子。然后从中任意选择一个节点的兴趣相似性值作为参考节点，计算其他节点与该参考节点出现在同一个圈子的概率，如果概率大于50％，则认为这些其他节点为感兴趣节点，否则则为无兴趣节点。以此类推，在中间部分划分出不同的兴趣相似性的其他圈子。经过研究发现，朋友圈中的每个兴趣相似圈子之间的距离很接近，本发明提出用兴趣阈值z来选定划分对群体对信息有没有转发的兴趣。求出每个节点的兴趣相似值后，可以得到网络的群体兴趣谱图。只要在接近中间位置且兴趣值存在最大差值的两条谱线之间分开，就可以把圈子划分为有兴趣和无兴趣两个圈子。
[0172]
step5：在这个接近中点的位置，设存在一种兴趣边界值@，一般情况下。当网络节点总数为m时，@为30％，则圈子的大小大致为m/2 -30％。这样在兴趣谱图位于(m/2-30％，n/2 30％)的节点中选择差值最大的相邻的两个节点，然后从中间划分出强兴趣和弱兴趣两个圈子，如图3所示。例如：在源节点的朋友圈网络中随机选取若干对兴趣相似性值大于0.5的节点，例如100对，使用源节点作为参考节点，当其他节点与参考节点出现在一个主题圈子的概率超过50％，则可以认为这两个节点属于同一个兴趣相似圈子，如果概率低于50％，则认为他们属于不同的兴趣相似圈子。
[0173]
step6：朋友圈中同时存在多种不同种类的主题圈子，设其兴趣种类数量为n，当网络节点总数为m，@为40％。然后在兴趣谱图左右两边分别划分开，在这两个范围内分别寻找兴趣差值最大的一对相邻节点。兴趣谱图左边的坐标范围为(m/n-40％,m/n 40％)，右边的
坐标范围为(m-(m/n-40％)，m-(m/n 40％))。然后可以得到前后两个兴趣相似圈子，重复查找10次，可以得到20个兴趣相似圈子。
[0174]
传播源节点是所有圈子中出现频率最高的节点，因此选择出现频率仅次于源节点的传播节点作为下一个圈子划分的参考节点。计算其他节点在它所在圈子中出现的频率，将出现频率大于某个阈值的节点，看作是与参考节点在同一种主题圈子中，持续该过程找到该圈子的其他成员节点。
[0175]
2、基于主题重叠性的k类群过滤方法
[0176]
1)、k类群定义
[0177]
step1：设当传播源节点与朋友圈的其他节点均具有至少2种共同兴趣，并且曾经传播源节点发布的信息，称即其与其他节点之间为完全连通状态。
[0178]
step2：根据cp算法的定义，把这些互相连接的节点数目为k的传播圈子称为k类群，如果两个k类群有k-2个公共节点，称这两个k类群相邻。如果一个k类群可以通过若干个相连邻的k类群到达另一个k类群，确定称为两个k类群彼此连通。
[0179]
step3：假设目前要在朋友圈中寻找基于某几种主题的圈子，基于这种兴趣的情况下，网络中彼此连通的k类群构成的集合就是要找的主题圈子。
[0180]
step4：由于源节点与所有节点均可形成2类群，而2类群之间的公共节点就是源节点，公共节点为0。因此只考虑k》2的主题圈子，也就是朋友圈中，只存在3类以上的群。对于一个大小为s的全耦合朋友圈网络，从中任意挑选k个节点，都可以形成k类群，如图4所示：
[0181]
2)、主题重叠群体过滤
[0182]
step1：根据主题重叠性特征，采用迭代回归算法来查找朋友圈中的主题重叠圈子。首先从网络中各节点的度判断出网络中可能存在的全耦合网络的大小s。
[0183]
step2：从网络中源节点出发，选择主题圈子类型，找到包含源节点的大小为s的k群后，重复上面步骤继续查找直到网络中没有节点为止。
[0184]
step3：当找到了网络中大小为s的k群，逐步减小s的值，每次查找k＝s-1，继续查找，找到网络中大小不同的k群。
[0185]
step4：对于信息传播源节点v，定义了集合x和y，其中，x为包括节点a在内的全连通节点的集合。而y则为与x中各节点都相连的其他节点集合。为了避免重复选择节点，集合x和y中的节点名称均不相同。其k群查找算法如下：
[0186]
step5：集合x＝{从a出发的全连通节点}，y＝{x的相邻节点}，从y中移动一个节点到集合x，同时删除y中不再与x中的节点相连的节点。
[0187]
step4：如图5所示，集合x＝{a,b,c,d},y＝{e,f,g,h,i,j,k,l}。从y中取出一个节点放在x中，如果当x的k＝s，得到一个最大的k群，记录该群，然后返回递归第一步，继续寻找。
[0188]
step7：如果x的k未能达到s前y中k已经为0，则xy已经有一个k群的子集，停止计算，返回递归前一步。由此可计算出从源节点v出发大小为s的k群。
[0189]
step8：找到网络中的k群后，就可以发现这些k群之间的重叠部分，用于构造基于k群的重叠矩阵。矩阵的行和列对应一个k群，对角线的元素表示相应的k群内的节点的数量，非对角线元素表示两个k群之间的公共部分的节点数量。
[0190]
step9：由于k群主题圈子就是由k-2个节点的相邻k群构成的连通图。把原来的重
叠矩阵对角线上小于k，非对角线小于k-2的元素设为0，其他元素设为1，得到一个(0，1)矩阵，也就是k群主题圈子的连接矩阵，如式(3)所示。矩阵的连通部分分别表示各个k群的主题圈子。
[0191][0192]
综上所述，由于社交网络的信息传播过程带有个体和群体的兴趣相似性和信息的主题重叠性等特征，因此，本发明结合复杂网络理论的社团发现的经典算法，提出了基于兴趣相似性的谱分割算法和基于重叠性的k类群过滤方法，在量化用户对信息的兴趣程度、识别多兴趣主题的信息传播群体上体现了较好的效果。
[0193]
相较于现有技术，本发明的特点在于：
[0194]
1、基于兴趣相似性计算的谱分割方法：用图论的研究方法描述节点间的信息传播过程，面向移动社交网络分析消息的传播因素，提出个体的主观传播动力概念—兴趣相似性，以复杂网络的社团发现理论为基础，根据谱平分算法的思想，通过laplace矩阵计算获得个体的兴趣相似性值，划分多个兴趣圈子并找到圈子的其他成员。
[0195]
2、基于主题重叠性的k类群过滤方法：针对消息的多主题特征，结合派系过滤算法的特点，提出一种k类群过滤算法，通过迭代回归计算和重叠矩阵，识别出具有兴趣重叠特征的节点和多兴趣主题的圈子。
[0196]
相较于现有技术，本发明的优点在于：
[0197]
1、圈子识别正确率及自适应性高：在信息传播早期，传播节点数量较多，用于划分k类群圈子的正确率较高；随着传播节点数量减少，使用单一主题的传播方法更符合用户对信息的理解，也更有利于信息的扩散。
[0198]
2、传播节点数量变化预测的准确性高：在多主题传播过程中，兴趣边界值越大，计算次数越大，原则上划分出来的圈子数量越多，成为传播节点的概率高。
[0199]
3、传播群体预测分析的准确性高：个体兴趣的相似性促使信息传播可能性的增大，促进了群体传播现象的发生，谱分割算法可以在一定兴趣相似值范围内分割出传播和非传播意愿，推动群体传播现象的产生。
[0200]
在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本发明所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
[0201]
此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考
虑到在本发明中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
[0202]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0203]
在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
[0204]
计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(ram)、只读存储器(rom)、可擦除可编辑只读存储器(eprom或闪速存储器)、光纤装置以及便携式光盘只读存储器(cdrom)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。
[0205]
应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(pga)，现场可编程门阵列(fpga)等。
[0206]
在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0207]
尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。
[0208]
以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本技术权利要求所限定的范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：推荐方法、装置、服务器及存储介质与流程

一种信息传播预测方法、装置、电子设备以及存储介质

相关文献

最热文献