一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于用户动态图表征不一致性的网络水军行为预警方法与流程

2022-03-26 04:45:13 来源:中国专利 TAG:


1.本发明属于网络安全领域,更为具体地讲,涉及一种基于动态图神经网络的网络水军行为预警方法。


背景技术:

2.随着互联网和大数据技术的发展,社交媒体用户剧增,网络安全变得至关重要。网络水军是随着互联网社交媒体而兴起的一种恶意引领舆论方向的异常个体或团体。他们伪装成正常用户,活跃在电子商务网站、论坛、微博等社交媒体平台中。大批量的水军在网络中针对指定内容发表、评论、转发特定内容,以达到快速传播和影响正常用户判断的目的。网络水军以获利为目的,发表大量有目的不实言论,对其他用户造成了严重的影响。传统方法常通过简单的统计或静态网络分析进行水军异常行为的检测,没有有效利用社交网络的动态信息,同时很难进行实时检测和预警,从而在早期对网络水军行为实行干预,降低网络水军带来的不利因素。本

技术实现要素:
提出了一种基于用户动态图表征的网络水军行为预警方法。
发明内容
3.本发明的目的在于克服现有技术的不足,提供一种基于用户动态图表征不一致性的网络水军行为预警方法,以实现对网络实体异常行为的检测与提前预警。
4.为实现上述发明目的,本发明所述的基于用户动态图表征的网络水军行为预警方法,其特征包括以下步骤:
5.(1)、收集目标社交网络连续时间段内的用户发帖内容,点赞、转发,评论、好友关系等信息;
6.(2)、用户发帖的文本信息清洗和预处理,然后对预处理过的信息进行情感分析,将其发帖内容分为赞同、反对、中立三种;
7.(3)、按照一定时间粒度将收集到的信息划分为多个时间段,对每个时间段,根据对社交发帖内容的点赞、评论、转发关系,将该时间段内涉及到的用户建模成一个网络图;
8.(4)、按照时间顺序,分析每一张图的用户行为特征,使用动态图神经网络对用户进行行为表征,结合目标用户和其周围用户的行为模式,预测下一个时间片用户的行为模式;
9.(5)、按照时间顺序,对于每一个时间段内用户,利用长短期记忆网络,在不考虑该时间段内社交活动对该用户行为模式影响的情况下,预测下一个时间片用户的行为特征;
10.(6)、将用户下一个时间片的真实行为模式,第(4)步和第(5)步中预测的行为模式纳入考虑,如果对于某个用户,下一个时间片行为模式与第(4)步行为预测结果相似性小于与第(5)步行为模式相似性的阈值,将其标记为疑似水军。
11.(7)、按照时间顺序,统计每一张图的用户总体行为特征,并与疑似水军用户的行为特征进行比较,若相似度高于上一个时间段,则怀疑该话题可能受到了网络水军的影响,
从而对网络水军行为实现预警;
12.(8)、对于最近的一个时间段,若所有用户的总体行为分布收敛到被多次标记为疑似水军的用户的行为特征,则可以判断该话题受到了网络水军行为的影响,并且识别出水军用户。
13.本发明内容是这样实现的。
14.本发明是一种基于用户动态图表征不一致性的网络水军行为预警方法,利用动态图神经网络,针对一段时间内的话题情感偏移情况检测该话题是否受到水军的影响,与此同时通过用户行为的不一致性确定实现对水军类型用户的识别。本发明将持续收集手机社交媒体上用户的发帖和互动内容,然后进行时间分组,获取不同时间段的社交媒体内用户的行为,之后建立动态图神经网络,分别基于用户的社交关系和用户的行为模式,预测用户下一个时间段的行为模式并表示为向量,通过两个向量的差异,我们定义用户行为的一致性,从而发现疑似水军的用户。与此同时,通过对社交网络整体话题情感的演化进行建模,可以判断该网络话题是否有水军的影响以及评估水军影响的程度。本发明能够综合高度疑似水军的用户和话题演化的特征,实现网络水军的检测功能。此外,本发明采用的网络舆论检测系统,可以通过对话题情感的变化过程进行建模,从而在水军产生实质影响前实现水军的发现和预警。
附图说明
15.图1是本发明基于用户动态图表征不一致性的网络水军行为预警方法一种具体实施方式流程图;
16.图2是本发明中,动态网络图的示意图;对每个时间段内,存在社交活动的用户之间都会建立连边;
17.图3是本发明中,通过动态神经网络预测用户下一时刻观点的示意图;该方法用户和其社交对象的历史观点对下一时间段的用户观点进行建模。
18.图4是本发明中,通过长短期时序网络预测用户下一时刻观点的示意图,该方法仅仅基于用户自身的历史观点对下一时间段的用户观点进行建模。
具体实施方式
19.下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
20.图1是本发明基于用户动态图表征不一致性的网络水军行为预警方法的一种具体实施方式流程图。
21.在本实施例中,如图1所示,本发明基于用户动态图表征不一致性的网络水军行为预警方法包括以下步骤:
22.s1:社交网络数据收集
23.网络数据来源包括常见的社交网络,如:微博、豆瓣、知乎、今日头条、论坛数据等。
24.收集的数据包括社交网络用户发布和互动信息,如,发帖的文本数据,用户好友信息,点赞,转发,评论等信息。
25.以知乎数据为例,收集一段时间知乎内活跃用户的用户名,用户之间的好友信息,用户发知乎的内容,对任意知乎点赞的用户名,其它用户评论的文字内容等。
26.收集的时间粒度可以按需设定,考虑到当今互联网话题的演化速度,出于水军行为的识别、预警等任务需求的考虑,可以使用小时级或者日级的时间粒度收集社交网络数据较为合适。
27.s2:评论文字信息的预处理
28.在具体实施过程中,文本的预处理可以利用开源工具实现。通常的步骤包括:标点符号的删除、分词处理、停用词的删除、关键词的提取、词组分析、词性标注,从而得到包含作者观点信息的关键词词组,以及相应的词频向量,同时避免无关词语对后续任务的干扰。
29.s3:文本情感分析和用户情感分类
30.在一个话题中,不同用户之间的观点往往也有较大分歧并且呈现出多样性的。为进一步刻画用户的观点,需要社交网络用户发布的信息对用户在当前时间片内的观点打上标签,从而将用户的观点分为k个类别(比如支持、中立、反对)。在具体实施过程中,文本观点分类可以使用基于情感词典的文本观点分类模型实现,而用户的观点分类可以通过用户在这一个时间段内发言和互动的情况来定义,具体实施步骤为:
31.3.1)、将每一条知乎正文或评论经过s2处理之后得到的文本数据记为di,收集到的所有的文本数据经过预处理之后构成一个集合d={d1,d2,

,dn}。利用基于情感字典匹配的模型,可以将收集的所有文本数据分类成总共k种观点t={t1,t2,

,tk},同时得到文本di属于各个观点的分布同时,选取最可能的观点作为该文本的观点。
32.3.2)对每个用户分别处理,如果一个用户i在该时间段t内发表过文本信息,则使用来表示该用户持有各种观点的可能性,其中n为该用户在这段时间内发表的文本的条数;如果一个用户i在该时间段内没有发表过任何文本信息,则利用本时间段内该用户点赞的知乎文本的观点对该用户的观点进行建模其中m是该用户点赞操作的次数;如果一个用户在该时间段内同时存在发表信息和点赞操作,则利用权重α对其观点进行融合用权重α对其观点进行融合如果一个用户i在该段时间内没有任何互动操作或没有发表任何信息,则该用户在当前时间片必不可能扮演水军角色,故复用该用户上一个时间片的观点分布,使其历史信息得以保留,如果这是第一个时间段,则认为该用户属于任意观点的可能性相同。在这一时间段内,取y
t,i
中概率最大的观点作为用户i在时间段t内的观点。
33.s4:按照时间片切分信息,构成动态网络图
34.在具体实施过程中,可以根据需求,按照一定的时间粒度将所有收集到的文本数据按照时间顺序进行分割得到t个时间段。之后将每个时间段内的数据构建成一张网络快照,记第t张快照为g
t

35.构建网络快照g
t
的步骤包括:
36.4.1)获取第t个时间段包含的所有文本数据和对应的用户,分别对每个观点下的所有文本数据通过s3经过观点分类。
37.如图三中网络快照所示,对每一个观点对应的所有的知乎内容和评论进行以下操作:
38.4.2)将所有的用户作为网络快照g
t
的所有节点,用户的属性记为该用户在这一段时间内所发表和点赞的所有文本的关键词出现频率所构成的向量。
39.4.3)基于之前获取的好友信息,对于所有是好友的用户之间,建立连边。
40.4.4)基于之前获取的互动信息,对于所有互动操作(包括点赞和评论)涉及的两个用户之间,建立连边。
41.4.5)对于每一个用户,随机采样一定百分比β的其他用户建立连边,模拟用户在未互动情况下的浏览操作,对该类操作的影响进行建模。
42.在具体实施过程中,可以根据知乎数量和知乎互动数量,调整β的取值。
43.将所有的网络快照按照时间进行排序,就得到了时序网络图g={g1,g2,

,g
t
}。
44.s5:社交网络时序分析,分析社交网络互动对用户观点的影响
45.建立动态图神经网络,对于s4获取的网络快照g
t
预测用户下一个时刻的观点。该操作的目的是评估社交网络对于用户观点的影响。
46.在本实例的第t个时间段,对用户下一个时刻的观点进行预测的具体方法是:
47.5.1)获取网络g
t
的用户属性矩阵和邻接矩阵,其中用户属性矩阵即由s4.2所述的所有用户的词频行向量构成的矩阵,而邻接矩阵的构造方法则是,对于所有n个用户,如果用户u和v之间在s4中建立了连边,则给邻接矩阵的第(u,v)个元素赋值为1,否则赋值为0。
48.5.2)利用动态图神经网络,通过已收集的信息对该用户在下一个时间片的观点进行建模:
[0049][0050][0051][0052][0053]ht 1,u
=o
t 1,u

tanh(c
t 1,u
)
[0054][0055]
其中x
t,u
是用户u当前时间段的词频向量,h
t,u
、c
t,u
则是动态图神经网络在上一时间段t-1,对用户u计算得到的隐表征(第一个时间段两者值都为零),则是对下一时间段该用户观点分布的估计,则是参数wf在g
t
上执行的图卷积操作,

则是逐元素乘积(hadamard product),σ(
·
)是激活函数。
[0056]
5.3)对比基于时间段t的数据估计得到的和基于时间段t 1的数据估计得到的y
t 1
,使用kl散度(kullback-leibler divergence)评估两者的差异性:
[0057][0058]
该结果表示了预测的目标用户u的观点分布与其真实观点分布的偏离程度,其可以用于训练动态图神经网络,同时也是后续过程中判断该用户是否是水军的重要指标。
[0059]
s6:用户行为时序分析,分析用户观点的变化趋势
[0060]
建立循环神经网络,利用已经获取的某一用户u的词频向量集合估计用户观点的变化趋势。
[0061]
以长短期记忆网络(lstm)为例,在任务的第t个时间段,对用户下一个时刻的观点进行预测的具体方法是:
[0062][0063][0064][0065][0066][0067][0068][0069]
其中c
t
和h
t
是上一个时间段计算得到的隐表征,则是基于lstm对下一个时刻用户u的观点所属类别的一个预测。此时同样可以使用kl散度评估预测的偏差值,并且用这一结果训练长短期记忆网络。
[0070]
s7:用户总体观点分布建模
[0071]
本方法需要利用用户总体观点的变化情况对社交网络受水军形象的程度进行评估。在本实例中,在t时间段内,用户总体观点y
t
被定义为所有用户观点分布的平均值。
[0072]
s8:水军行为检测及水军用户识别
[0073]
本方法通过比较首尾时间段的用户观点分布的偏移和用户行为预测结果的不确定性实现水军行为的检测和水军用户的识别。
[0074]
给定若干个时间段组成的时序网络图具体方法如下所示:
[0075]
8.1)对于给定的时间段序列{t1,t2,

,t
t
},我们通过首末时间段的kl散度衡量用
户观点分布的偏移程度,若超过给定值θ,则认为在这一段时间内,话题的观点受到了网络水军行为的显著影响,其中θ是人为设定的阈值。
[0076]
8.2)对于每一个时间点t∈[t1,t
t
]的一个用户u,定义对其行为预测结果的不确定性为因为普通用户的观点通常会因为其参与的社交活动而受到其他用户的影响,故基于动态图神经网络的预测结果会更准确,即比较小,因此普通用户的通常为负值,相对的,网络水军用户因为更多地受到自身利益的影响,尽管这类用户在社交网络上表现活跃,但是基于动态图神经网络对其观点进行建模是不准确的,而基于lstm对其观点建模则比较精确,因此网络水军用户的通常是正值。本发明认为阈值大于一个百分位数的用户都是疑似水军用户,并将这类用户加入集合其中百分位数是一个人为设定的阈值。
[0077]
8.3)对于存在网络水军行为的时序网络图,本方法认定其话题会受到网络水军行为的影响从而向网络水军所表达的观点靠拢,因此取t
t
时间段的用户u,通过kl散度度量该用户的观点分布和总体的观点分布认为距离小于给定阈值φ,并且在疑似水军集合中的用户是水军用户。
[0078]
8.4)由于本方法仅需要存储历史时间点的所有用户观点的总体分布{y1,y2,

,y
t
},并维护一个疑似水军用户的集合,故本方法可以实现低存储空间开销的实时的网络水军行为检测和网络水军用户识别能力。
[0079]
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献