一种基于特定话题下的社交网络数据获取方法与流程

2023-02-04 12:47:39 来源：中国专利 TAG：

1.本发明涉及网络信息采集领域，尤其涉及一种基于特定话题下的社交网络数据获取方法。

背景技术：

2.随着移动互联网的快速发展，社交网络平台具有越来越丰富的功能和属性，以微信、微博为代表的社交网络平台日活跃用户数均在上亿规模。对社交网络数据进行深入研究，挖掘用户关系、社群研究、舆情监控和用户推荐等方面越来越成为学术界和产业界关注的焦点。
3.挖掘社交网络平台中的用户关系，提取潜在价值信息能够使社交网络平台产生重要的商业和社会效益。一般来说，社交网络上亿级的用户规模让用户研究很难精准到每一个人，从用户网络中挖掘出重点关注某个特定话题下的有代表性的关键用户或关键群体，并对他们进行分析和研究是进行用户分析研究的重要手段。但社交网络的用户数据在分析前需要进行采集、预处理和存储，以得到高质量的用户数据用于以上问题的分析。
4.我国专利申请号：cn202210381972.4，公开日：2022.05.10，公开了社交网络数据采集方法、装置及储存介质，s1获取初始社交网络用户，s2构建候选集合，s3预处理候选集合得到第一集合，s4计算每个社区加入其每个邻居社区时的收益度，并其加入邻居社区，s5判断社区的社区归属是否发生变化，若变化返回s4，反之进s6，s6选取监控节点，s7采集监控节点的信息，s8进行爬取任务，获取指定数据，s9解析指定数据获得目标数据并存放至数据库；能够在海量的社交网络用户节点中选择出社交网络传播信息的监控节点，实时感知社交网络中正在传播的舆情。克服现有“滚雪球”收据收集方法片面同质的问题，克服“关键字”收集方法无法实时感知网络舆情，只能事后分析的局限性。
5.但上述专利在实现对大规模社交网络环境下对关联用户社交网络的获取过程中，发现上述技术至少存在如下技术问题：已有的社交网络数据获取方法或因为较少考虑用户综合信息、社交网络拓扑结构等，或仅适用于特定小规模场景，导致了采集结果不准确、效率不高，在大规模社交网络环境下对关联用户社交网络数据的获取不完整，计算过程中未全面考虑用户在社交平台上的多维度参数，且未考虑采集时间间隔，在数据量过少时容易造成服务器资源浪费，在数据量过多时容易造成缓存溢出，甚至产生数据丢失的后果。

技术实现要素：

6.本发明的目的是为了解决现有的社交网络获取方法采集结果不准确、效率低、获取数据不完整、考虑维度不全面的缺陷，提供了一种采集结果准确、效率高、数据获取完整、考虑维度全面的基于特定话题下的社交网络数据获取方法。
7.本发明所述的一种基于特定话题下的社交网络数据获取方法，它包括如下步骤：
8.s1、根据目标用户自定义待关注的特定话题，生成特定话题下的社交关系判定请求，根据社交关系判定请求对每个目标用户在特定话题下的社交关系进行关联分析，获得
目标用户在特定话题下的社交网络数据；
9.s2、根据所述社交网络数据构建对应的基于特定话题的社交网络无向图；在所述社交网络无向图中，节点表示在该社交网络中的每个用户，边表示每两个相邻用户之间存在的社交行为关系；
10.s3、将所有用户的社交网络无向图进行连接，合成社交网络全信息无向图；
11.s4、根据所述社交网络全信息无向图判定相邻两个用户之间的社交关系，将目标用户发布的社交信息用二元组进行表示；将相邻两个用户之间的关系用三元组进行表示；
12.s5、对s4中所述的二元组和三元组进行无量纲化处理；获得目标用户发布社交信息的总次数和相邻两用户进行社交行为的总次数；
13.s6、根据相邻两用户之间的社交关系分别预设不同社交行为的权重，根据不同社交行为的权重以及目标用户发布社交信息的总次数和相邻两用户进行社交行为的总次数计算两个用户之间的社交关联度；
14.s7、根据关联用户的要素计算获得关联用户的影响力，根据影响力设立采集规则，采集关联用户针对特定话题的社交网络数据，并统计追踪热度；当采集的总数据量达到预设数量时，停止采集。
15.进一步地：在s1中，所述目标用户在特定话题下的社交网络数据包括但不限于用户id、用户名、用户简介、用户链接页面、关注数和/或粉丝数。
16.进一步地：在s2中，所述社交网络无向图的构建基于获取目标用户在该特定话题下的社交行为次数以及与该社交行为关联的用户id。
17.进一步地：在s4中，所述目标用户发布社交信息用二元组进行表示：《目标用户id，发布社交信息的次数》；所述目标用户与关联用户的关系用三元组进行表示：《目标用户id，关联用户id，两用户之间的社交行为的次数》。
18.进一步地：在s5中，所述目标用户发布社交信息的次数的具体获取方式包括如下步骤：
19.s51、预设时间周期和时间间隔，根据时间间隔将时间周期平均分成m个时间区间；
20.s52、根据目标用户在不同的时间区间内发布的社交信息的次数，将目标用户发布社交信息的时间映射到对应的时间区间内，从而获得目标用户在整个时间周期内发布社交信息的总次数。
21.进一步地：在s5中，所述相邻两用户进行社交行为的次数的具体获取方式包括如下步骤：
22.s53、预设时间周期和时间间隔，根据时间间隔将时间周期平均分成m个时间区间；
23.s54、根据目标用户被关联用户在不同的时间区间内进行社交行为的次数，将目标用户被关联用户在不同的时间区间内进行社交行为的时间映射到对应的时间区间内，从而获得目标用户在整个时间周期内被关联用户进行社交行为的总次数；
24.s55、将目标用户发布社交信息的总次数和目标用户被关联用户进行社交行为的总次数进行无量纲处理。
25.进一步地：在s7中，所述关联用户的要素包括活跃度、传播力和话题参与度。
26.进一步地：在s7中，所述统计追踪热度具体包括如下步骤：
27.s71、设立采集周期步长，评估一个采集周期内当前关联用户的活跃度；计算一个
采集周期内当前关联用户的传播力；设立自适应重访规则，根据当前关联用户的影响力计算对当前关联用户再次采集的重访时间间隔，根据所述重访时间间隔得到每个关联用户的下次采集时间；
28.s72、采集关联用户针对特定话题的社交网络数据，并根据重访时间间隔确定每个关联用户的下次采集时间和剩余采集次数，从而统计出未来时间段内需要采集的关联用户数量，即追踪热度。
29.本发明的有益效果是：本发明所述的一种基于特定话题下的社交网络数据获取方法，能够明确展示社交网络中用户之间的关系拓扑结构，从多个维度挖掘特定话题下用户之间的关联，既保证了社交网络数据采集的高效率和实时性，又避免了网络拥塞等问题的出现。
30.1、通过构建基于特定话题的社交网络全信息无向图，明确展示了社交网络中用户之间的关系拓扑结构，计算得到用户之间的社交关联度，充分考虑了用户之间的社交行为关系以及用户发布社交信息的特征，在大规模社交网络数据中从多个维度挖掘用户之间的关联，能够有效的体现社交关系强度的双向性及合理性；
31.2、通过引入用户的活跃度、传播力和话题参与度对用户在特定话题下的社交影响力进行评价，并应用自适应重访算法，得到对社交网络数据进行采集的动态间隔，评估社交网络数据获取的追踪热度，既保证了社交网络数据采集的高效率和实时性，既避免因数据过多造成缓存溢出、数据丢失的情况，合理化利用服务器资源，又避免了网络拥塞等问题的出现。
32.3、本发明的技术方案能够有效解决已有的社交网络数据获取方法或因为较少考虑用户综合信息、社交网络拓扑结构等，或仅适用于特定小规模场景，导致了采集结果不准确、效率不高，在大规模社交网络环境下对关联用户社交网络数据的获取不完整，计算过程中未全面考虑用户在社交平台上的多维度参数，且未考虑采集时间间隔，在数据量过少时容易造成服务器资源浪费，在数据量过多时容易造成缓存溢出，甚至产生数据丢失的后果，并且，上述系统或方法经过了一系列的效果调研，通过验证，最终能够明确展示社交网络中用户之间的关系拓扑结构，从多个维度挖掘特定话题下用户之间的关联，既保证了社交网络数据采集的高效率和实时性，又避免了网络拥塞等问题的出现。
附图说明
33.图1是一种基于特定话题下的社交网络数据获取方法步骤流程图；
34.图2是一种基于特定话题下的社交网络数据获取方法流程框图；
35.图3是实施例所述的社交网络数据的具体内容详情图；
36.图4是社交网络无向图。
具体实施方式
37.以下仅为本发明较佳的具体实施例，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。以下所述实施例仅用于解释本发明，而不能解释为对本发明的限制，本发明的保护范围应该以权利要求的保护范围为准。下面详细描述本发明的实施
例，为了便于描述本发明和简化描述，本发明的说明书中使用的技术术语应当做广义解读，包括但不限于本技术未提及的常规替换方案，同时包括直接实现方式和间接实现方式。
38.实施例1
39.结合图1-图4说明本实施例，本实施例公开的一种基于特定话题下的社交网络数据获取方法，它包括如下步骤：
40.s1、根据目标用户自定义待关注的特定话题，生成特定话题下的社交关系判定请求，根据社交关系判定请求对每个目标用户在特定话题下的社交关系进行关联分析，获得目标用户在特定话题下的社交网络数据；每一个社交网络对应一个社交网络数据，将社交网络数据进行结构化存储到数据库中，所述结构化方式包括以目标用户进行分类和社交网络平台进行分类的方式；对社交网络数据进行预处理，包括数据清洗、数据对齐等操作，所述预处理方法采用现有技术；所述目标用户在特定话题下的社交网络数据包括但不限于用户id、用户名、用户简介、用户链接页面、关注数和/或粉丝数。
41.s2、根据所述社交网络数据构建对应的基于特定话题的社交网络无向图；在所述社交网络无向图中，节点表示在该社交网络中的每个用户，边表示每两个相邻用户之间存在的社交行为关系；由用户自定义待关注的特定话题，生成特定话题下的社交关系判定请求，根据社交关系判定请求对每个目标用户在特定话题下的社交关系进行关联分析，根据每一个目标用户在特定话题下的社交网络数据构建对应的基于特定话题的社交网络无向图；在所述基于特定话题的社交网络无向图中，节点表示社交网络中的每个用户，边表示用户之间存在的社交行为关系，所述用户之间存在的社交行为关系可以是点赞、评论、转发等。将所有用户的社交网络无向图进行连接，合成社交网络全信息无向图。所述社交网络无向图的构建基于获取目标用户在该特定话题下的社交行为次数以及与该社交行为关联的用户id。
42.s3、将所有用户的社交网络无向图进行连接，合成社交网络全信息无向图；获取目标用户在各社交网络平台中特定话题下的数据资源，基于社交关系判定请求构建社交网络全信息无向图，通过构建基于特定话题的社交网络全信息无向图，明确展示了社交网络中用户之间的关系拓扑结构；
43.s4、根据所述社交网络全信息无向图判定相邻两个用户之间的社交关系，将目标用户发布的社交信息用二元组进行表示；将相邻两个用户之间的关系用三元组进行表示；
44.s5、对s4中所述的二元组和三元组进行无量纲化处理；获得目标用户发布社交信息的总次数和相邻两用户进行社交行为的总次数；
45.s6、根据相邻两用户之间的社交关系分别预设不同社交行为的权重，根据不同社交行为的权重以及目标用户发布社交信息的总次数和相邻两用户进行社交行为的总次数计算两个用户之间的社交关联度；充分考虑了用户之间的社交行为关系以及目标用户发布社交信息的特征，在大规模社交网络数据中从多个维度挖掘目标用户之间的关联，能够有效的体现社交关系强度的双向性及合理性；
46.s7、根据关联用户的要素计算获得关联用户的影响力，根据影响力设立采集规则，采集关联用户针对特定话题的社交网络数据，并统计追踪热度；当采集的总数据量达到预设数量时，停止采集。所述关联用户的要素包括活跃度、传播力和话题参与度。通过引入目
标用户的活跃度、传播力和话题参与度对目标用户在特定话题下的社交影响力进行评价，并应用自适应重访算法，得到对社交网络数据进行采集的动态间隔，评估社交网络数据获取的追踪热度，既保证了社交网络数据采集的高效率和实时性，又避免了网络拥塞等问题的出现。
47.实施例2
48.结合实施例1说明本实施例，本实施例公开的一种基于特定话题下的社交网络数据获取方法，在s4中，根据社交网络全信息无向图判定社交关系，所述目标用户发布社交信息用二元组进行表示：《目标用户id，发布社交信息的次数》；所述目标用户与关联用户的关系用三元组进行表示：《目标用户id，关联用户id，两用户之间的社交行为的次数》。
49.作为一个具体实施例，在知乎平台上，获取目标用户在多个社交网络特定话题下的社交网络数据资源，所获取的社交网络数据资源具体内容如图3所示；以知乎平台的目标用户“最美的唐诗”为例，获取目标用户“最美的唐诗”在知乎平台“军事”、“历史”、“社会”话题下的社交网络数据，所述社交网络数据包括用户id、用户名、用户简介、用户链接页面、关注数、粉丝数等信息；其中，用户链接页面中还包括动态、回答、文章、专栏等信息。获取与目标用户“最美的唐诗”在“军事”、“历史”、“社会”话题下进行赞同、评论、分享、收藏、喜欢等社交行为的关联用户id，以及社交行为次数，构成社交网络无向图，如图4所示。
50.实施例3
51.结合实施例1说明本实施例，本实施例公开的一种基于特定话题下的社交网络数据获取方法，在s5中，所述目标用户发布社交信息的次数的具体获取方式包括如下步骤：
52.s51、预设时间周期st和时间间隔til，根据时间间隔til将时间周期平均分成m个时间区间；
53.s52、p表示目标用户在不同时间区间内发布社交信息的次数，根据目标用户在不同的时间区间内发布的社交信息的总次数将目标用户发布社交信息的时间映射到对应的时间区间内，从而获得目标用户在整个时间周期内发布社交信息的总次数。设立一个时间周期st，以预设的时间间隔til将时间周期均分成m个时间区间，p表示目标用户在不同时间区间内发布社交信息的次数，将目标用户发布社交信息的时间映射到不同的时间区间，计算得到目标用户发布社交信息的次数统计，具体计算公式为：
[0054][0055]
其中，tn表示目标用户发布社交信息的时间，t0表示时间区间的开始时间，表示向下取整，mod表示取模运算。
[0056]
实施例4
[0057]
结合实施例1说明本实施例，本实施例公开的一种基于特定话题下的社交网络数据获取方法，在s5中，所述相邻两用户进行社交行为的次数的具体获取方式包括如下步骤：
[0058]
s53、预设时间周期st和时间间隔til，根据时间间隔til将时间周期平均分成m个时间区间；
[0059]
s54、p’表示目标用户被关联用户进行社交行为的次数，根据目标用户被关联用户
在不同的时间区间内进行社交行为的次数将目标用户被关联用户在不同的时间区间内进行社交行为的时间映射到对应的时间区间内，从而获得目标用户在整个时间周期内被关联用户进行社交行为的总次数。
[0060]
设立一个时间周期st，以预设的时间间隔til将时间周期均分成m个时间区间，p
′
表示目标用户被关联用户进行社交行为的次数，将目标用户被关联用户进行社交行为的时间映射到不同的时间区间，计算得到社交行为的次数统计，具体计算公式为：
[0061][0062]
其中，t
′n表示产生社交行为的时间，t0表示时间区间的开始时间。
[0063]
s55、将目标用户发布社交信息的总次数p和目标用户被关联用户进行社交行为的总次数p’进行无量纲处理；
[0064]
作为一个具体实施例，对发布社交信息的次数p和社交行为的次数p
′
进行归一化处理，具体公式为：
[0065][0066][0067]
其中，表示归一化处理后的目标用户发布社交信息的次数，表示归一化处理后的目标用户被关联用户进行社交行为的次数，p
max
和p
min
分别表示不同时间区间内目标用户发布社交信息次数的最大值和最小值，p
′
max
和p
′
min
分别表示不同时间区间内目标用户被关联用户进行社交行为次数的最大值和最小值。
[0068]
作为一个具体实施例，对发布社交信息的次数p和社交行为的次数p
′
进行标准化处理，具体公式为：
[0069][0070][0071]
其中，表示标准化处理后的目标用户发布社交信息的次数，表示标准化处理后的目标用户被关联用户进行社交行为的次数，e(p)和d(p)分别表示m个时间区间内目标用户发布社交信息的次数均值和标准差，e(p
′
)和d(p
′
)分别表示m个时间区间内目标用户被关联用户进行社交行为次数的均值和标准差。
[0072]
根据用户之间存在的关系分别设立不同社交行为的权重，作为一个具体实施例，设立点赞的权重为ω1、评论的权重为ω2、转发的权重为ω3，依次设立其他社交行为的权重；根据不同社交行为的权重以及目标用户发布社交信息的次数和目标用户被关联用户进行社交行为的次数计算两个用户之间的社交关联度，具体计算公式如下：
[0073][0074][0075]
其中，sr表示社交关联度，n表示两个用户之间存在n种社交行为，ωi表示第i种社交行为的权重，i∈[1，n]，st表示两个用户的总社交次数，表示目标用户对关联用户产生社交行为的次数，表示关联用户对目标用户产生社交行为的次数，表示目标用户发布社交信息的次数，表示关联用户发布社交信息的次数，δ表示强度因子，μ1表示目标用户关注的用户，μ2表示关联用户关注的用户，表示目标用户的粉丝数，表示关联用户的粉丝数，是指两个用户中产生社交行为较少一方的社交次数在总社交次数中的占比，用于表征社交次数对社交关联度的影响；用于表征社交信息发布次数对社交关联度的影响。
[0076]
作为一个具体实施例，设立赞同的权重为0.3、评论的权重为0.35、分享的权重为0.2、收藏的权重为0.1、喜欢的权重为0.05，目标用户“最美的唐诗”发布“军事”、“历史”、“社会”话题下的社交信息的次数为101，目标用户“最美的唐诗”在“军事”、“历史”、“社会”话题下被关联用户“旅途”进行社交行为的次数为9，根据上述公式计算得到两个用户之间的社交关联度：
[0077][0078]
通过构建基于特定话题的社交网络全信息无向图，明确展示了社交网络中用户之间的关系拓扑结构，计算得到用户之间的社交关联度，充分考虑了用户之间的社交行为关系以及目标用户发布社交信息的特征，在大规模社交网络数据中从多个维度挖掘用户之间的关联，能够有效的体现社交关系强度的双向性及合理性。
[0079]
实施例5
[0080]
结合实施例1说明本实施例，本实施例公开的一种基于特定话题下的社交网络数据获取方法，在s7中，所述统计追踪热度具体包括如下步骤：
[0081]
s71、设立采集周期步长，评估一个采集周期内当前关联用户的活跃度；计算一个采集周期内当前关联用户的传播力；设立自适应重访规则，根据当前关联用户的影响力计算对当前关联用户再次采集的重访时间间隔，根据所述重访时间间隔得到每个关联用户的下次采集时间；采集关联用户的社交网络数据，为了提高采集效率，根据关联用户的活跃度、传播力和话题参与度得到关联用户的影响力，根据影响力设立采集规则，高效采集关联用户针对特定话题的社交网络数据，并统计追踪热度；
[0082]
根据社交关联度将与目标用户相连的其他用户进行排序，设立关联阈值，从其他用户中选取社交关联度符合关联阈值的用户，称为关联用户。所述采集规则的具体方法如下：
[0083]
设立采集周期步长，评估一个采集周期内当前关联用户的活跃度，具体计算公式为：
[0084][0085]
其中，h表示关联用户的活跃度的量化值，p表示当前关联用户在一个采集周期内发布社交信息的次数，h表示当前关联用户在一个采集周期内产生社交行为的次数，pj表示第j个关联用户在一个采集周期内发布社交信息的次数，hj表示第j个关联用户在一个采集周期内产生社交行为的次数，m表示筛选出的与用户有边相连的关联用户的总数，其中包括当前关联用户和第j个关联用户，j∈[1，m]。
[0086]
计算一个采集周期内当前关联用户的传播力，具体计算公式为：
[0087][0088][0089]
其中，c表示关联用户的传播力的量化值，ωi表示第i种社交行为的权重，cr表示当前关联用户发布的第r条社交信息被其他用户进行社交行为的次数，r表示当前关联用户发布的社交信息的总数，r∈[1，r]，c
sb
表示m个关联用户所发布的社交信息被进行社交行为的次数均值，表示第j个关联用户发布的第r个社交信息被进行社交行为的次数。
[0090]
设立话题参与度，所述话题参与度用于表征当前关联用户对当前特定话题的参与情况，包括发布社交信息数量和进行社交行为次数；根据关联用户的活跃度、传播力和话题参与度计算当前关联用户的影响力，具体计算公式为：
[0091]
y＝w1×
h w2×
c w3×g[0092]
其中，y表示当前关联用户的影响力，f表示当前关联用户的粉丝数，g表示当前关联用户对特定话题的参与度，w1、w2、w3分别为各个因子的系数，其和为1。值得注意的是，在需要关注某个特定话题时，可根据上述方法计算关联用户的影响力；若在日常社交网络数据获取中，无需关注特定话题时，可设定w3＝0，w1 w2＝1。
[0093]
设立自适应重访算法，根据当前关联社交主体的影响力计算对当前关联用户进行再次采集的重访时间间隔，具体计算公式为：
[0094][0095][0096][0097]
其中，t表示对当前关联用户进行再次采集的重访时间间隔，k表示调节系数，t
′
表示上一次采集的时间间隔，表示其他关联用户采集的时间间隔均值，||
·
||2表示二范数，ys表示m个关联用户的影响力均值，t表示当前为第t次采集当前关联用户，j表示当前关联用户能连续被采集的最大次数，yj表示第j个关联用户的影响力，y
max
和y
min
分别表示m个关联用户中影响力的最大值和最小值，表示向上取整。
[0098]
s72、采集关联用户针对特定话题的社交网络数据，为了提高采集效率，根据重访时间间隔确定每个关联用户的下次采集时间和剩余采集次数，采集关联用户针对特定话题的社交网络数据，并根据重访时间间隔确定每个关联用户的下次采集时间和剩余采集次数，从而统计出未来时间段内需要采集的关联用户数量，即追踪热度。从而即实现了对关联用户在特定话题下的社交网络数据的高效采集，又可以实时了解追踪热度，预留足够的网络资源，避免出现网络拥塞等问题。当采集的总数据量达到预设数量时，停止采集。
[0099]
作为一个具体实施例，根据关联用户的活跃度、传播力和话题参与度得到当前关联用户的影响力，以关联用户“旅途”为例，活跃度为0.23，传播力为0.847，针对话题“社会”的参与度为0.73，设立活跃度、传播力和话题参与度的权重分别为0.25、0.35、0.4，则关联用户“旅途”的影响力为0.646，根据重访时间间隔计算公式得到距离下一次采集的时间间隔为32min。根据本实施例所述的重访时间间隔确认每次的采集时间进行社交网络数据采集，使得连续多次采集获得的数据量的波动方差小于1，每次采集数据量相差不大，避免因数据过多造成缓存溢出、数据丢失的情况，合理化利用服务器资源。而对比文件社交网络数据采集方法、装置及储存介质中是根据爬虫调度器根据监控节点产生数据进行爬取任务，获取爬取任务的指定数据，并未明确爬虫调度器的采集频率，因此无法避免当数据产生量过少时对服务器资源的浪费，以及当数据产生量过多时出现数据丢失的情况。
[0100]
通过引入用户的活跃度、传播力和话题参与度对用户在特定话题下的社交影响力进行评价，并应用自适应重访算法，得到对社交网络数据进行采集的动态间隔，评估社交网络数据获取的追踪热度，保证了社交网络数据采集的高效率和实时性，既避免因数据过多造成缓存溢出、数据丢失的情况，合理化利用服务器资源，又避免了网络拥塞等问题的出现。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：自动驾驶RGBIR图像重采样方法、系统、终端及介质与流程

一种基于特定话题下的社交网络数据获取方法与流程

相关文献

最热文献