异质图元路径自动评估的恶意账号检测方法及装置

2022-10-26 17:38:50 来源：中国专利 TAG：

1.本发明属于图神经网络技术领域，具体涉及一种异质图元路径自动评估的恶意账号检测方法及装置。

背景技术：

2.使用图神经网络的方法检测恶意账号，根据账号之间的点赞、评论、关注等多种交互构建账号与账号之间的连接关系，有效地利用账号之间的关联信息。相较于传统机器学习算法只利用账号自身的特征，由于增加了账号之间的关联信息，通过邻域聚合的操作，实现了潜在恶意账号的挖掘，提高了模型性能的上限。现阶段，针对图神经网路的研究大部分是同质图，只能表达不同实体之间的一种关系。异质图神经网络模型相比于同质图神经网络模型，能够表达不同实体之间的多种关系，在复杂的场景中比同质图神经网络具有更好的性能。近年来，越来越多的工作转向对异质图神经网络的研究。
3.2018年，liu等人提出了gem，第一个用于检测支付宝恶意账户的异构图神经网络方法，根据攻击者的两个基本弱点，即设备聚集和活动聚集，自适应地从异质账户-设备图中学习分辨性嵌入。对于由各种类型的节点组成的异质图。rao等人提出了一个动态异构图神经网络框架来捕获可疑大规模注册，可以有效的预测可疑账号。2019年，wang等人提出了异质图注意力网络(heterogeneous graph neural network，han)，利用元路径来模拟高阶邻近性。han提出了一种注意机制来学习不同邻居的权重，通过语义级注意来区分元路径的不同，从而得到特定任务的语义特定的节点嵌入的最优加权组合。2020年，zhang等人在提出的多维异质图网络由k个单视图属性图组成。设计k个元路径提取用户之间的相关性，然后使用gcn来学习每个视图属性图的嵌入，最后通过注意力机制融合。在不同的黑客论坛的数据收集上进行了综合实验，通过与其他方法的比较，验证了模型在识别黑客方面的有效性。
4.尽管异质图神经网络的应用提高了恶意账号检测的准确率，但是异质图神经网络依赖人工设计任务相关的元路径，元路径对图神经网络提取和聚合图中节点特征的效果有巨大的影响。设计不合理的元路径，会极大的影响模型的检测性能。好的元路径的设计，需要较高的领域专业知识。由于账号、帖子、社区等实体的特征在不同的特征空间，无法对聚合的路径进行评估。

技术实现要素：

5.针对现有技术中存在的缺陷，本发明提出一种异质图元路径自动评估的恶意账号检测方法及装置，解决了异质图恶意账号检测方法中，元路径需要人工设计的问题。
6.为解决上述技术问题，本发明采用以下的技术方案：
7.本发明提供了一种异质图元路径自动评估的恶意账号检测方法，包含以下步骤：
8.获取社交媒体网络的信息，构建社交网络关系异质图；
9.在异质图神经网络的每一层进行账号、帖子和社区不同类型实体特征投影；
10.在异质图神经网络的每一层进行账号、帖子和社区不同类型实体节点类型内聚合；
11.在异质图神经网络的每一层进行账号、帖子和社区不同类型实体节点类型间聚合；
12.通过计算异质图神经网络元路径的得分，发现最优的元路径，从而进行恶意账号检测。
13.进一步地，所述获取社交媒体网络的信息，构建社交网络关系异质图，包括：
14.获取社交媒体网络的账号、帖子和社区不同类型实体的信息，构建社交网络关系异质图；所述社交网络关系异质图中包含账号、帖子和社区三种不同类型的节点，以及账号发表帖子和帖子属于社区两种不同类型的边。
15.进一步地，若账号发表了帖子，则在账号与帖子节点之间构建边；若帖子在社区发表，则在帖子与社区节点之间构建边；账号节点的特征向量是从注册时长、性别和年龄属性信息中提取的特征；帖子节点的特征向量是从帖子的文本属性信息中提取的特征；社区节点的特征向量是从社区的主题和社区发帖量属性信息中提取的特征。
16.进一步地，所述在异质图神经网络的每一层进行账号、帖子和社区不同类型实体特征投影，包括：
17.首先从不同类型的实体中选择一种作为目标对象，再定义特定关系的投影矩阵，将异构邻居对象的隐藏表示投射到与目标对象类型对应的公共语义空间中；还对每个目标对象类型定义了自投影矩阵，将目标对象的表示也投影到公共语义空间中；
18.然后将不同类型的邻居对象的表示通过特定关系的投影矩阵投射到一个新的公共语义空间中，同时，使用自投影矩阵将上一层输出的目标对象的自身特征也投影到这个空间。
19.进一步地，所述在异质图神经网络的每一层进行账号、帖子和社区不同类型实体节点类型内聚合，包括：
20.对于每种类型的邻居，通过相应的邻接矩阵对其投影后的特征进行聚合，形成若干个临时的特征，即：目标对象自身的投影特征和聚合的各种类型的邻居的投影特征，每种特征都从不同的方面反映了目标对象的特性。
21.进一步地，所述在异质图神经网络的每一层进行账号、帖子和社区不同类型实体节点类型间聚合，包括：
22.首先，通过不同的参数将目标对象的自身投影特征映射为注意力的键值，也通过不同的参数将邻居的聚合特征映射为相应的键值；
23.然后，通过一个小型的非线性神经网络将键值映射为注意力系数；
24.通过softmax函数将注意力系数归一化，利用归一化的注意力系数，将若干个临时特征聚合起来，形成目标对象本层输出的新特征；
25.最后，损失函数定义为每个对象类型下所有被标记对象的交叉熵之和，通过反向梯度传播算法使损失值减小，实现对异质图神经网络的优化。
26.进一步地，所述通过计算异质图神经网络元路径的得分，发现最优的元路径，包括：
27.特定目标对象的元路径的重要性分数是通过将以该对象结束的所有路径实例的
分数相加得到的，路径实例的分数是通过乘以沿着路径的对象之间的选择概率计算得到，路径中对象的选择概率是计算节点类型间聚合时该对象注意力系数的值；通过计算元路径的得分，异质图神经网络端到端地自动评估所有可能的元路径的重要性，发现对于当前任务最优的元路径。
28.本发明还提供了一种异质图元路径自动评估的恶意账号检测装置，包括：
29.社交网络关系异质图构建模块，用于获取社交媒体网络的信息，构建社交网络关系异质图；
30.特征投影模块，用于在异质图神经网络的每一层进行账号、帖子和社区不同类型实体特征投影；
31.节点类型内聚合模块，用于在异质图神经网络的每一层进行账号、帖子和社区不同类型实体节点类型内聚合；
32.节点类型间聚合模块，用于在异质图神经网络的每一层进行账号、帖子和社区不同类型实体节点类型间聚合；
33.元路径得分计算模块，用于通过计算异质图神经网络元路径的得分，发现最优的元路径，从而进行恶意账号检测。
34.与现有技术相比，本发明具有以下优点：
35.本发明的一种异质图元路径自动评估的恶意账号检测方法，通过构建含有账号、帖子和社区等不同类型实体的社交网络关系异质图，将账号、帖子和社区等不同类型的对象投射到与目标对象类型对应的公共语义空间中，然后进行对象级聚合和类型级聚合，完成社交网络关系异质图中元路径的搜索和挖掘，实现元路径得分的自动评估，解决了异质图恶意账号检测方法中，元路径需要人工设计的问题。
附图说明
36.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
37.图1是本发明实施例的异质图元路径自动评估的恶意账号检测方法的流程示意图；
38.图2是本发明实施例的社交网络关系异质图的结构示意图；
39.图3是本发明实施例的异质图元路径自动评估示意图；
40.图4是本发明实施例的异质图元路径自动评估的恶意账号检测装置的结构框图，图中41表示社交网络关系异质图构建模块，42表示特征投影模块，43表示节点类型内聚合模块，44表示节点类型间聚合模块，45表示元路径得分计算模块。
具体实施方式
41.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员
在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。
42.图神经网络是一种新型的神经网络，不仅能够使用对象的特征，还可以有效地利用对象之间的关系。如图1所示，本实施例的一种异质图元路径自动评估的恶意账号检测方法，包含以下步骤：
43.步骤s11，获取社交媒体网络的信息，构建社交网络关系异质图。
44.具体的，使用网络爬虫或其他方式，获取社交媒体网络的账号、帖子和社区等不同类型实体的信息，构建社交网络关系异质图。所述社交网络关系异质图中包含账号、帖子和社区三种不同类型的节点，以及账号发表帖子和帖子属于社区两种不同类型的边。若账号发表了帖子，则在账号与帖子节点之间构建边；若帖子在社区发表，则在帖子与社区节点之间构建边。账号节点的特征向量是从注册时长、性别和年龄等属性信息中提取的特征；帖子节点的特征向量是从帖子的文本属性信息中提取的特征(例如，可以使用词袋法，统计所有帖子中关键词出现的频次，作为帖子的特征向量)；社区节点的特征向量是从社区的主题和社区发帖量等属性信息中提取的特征。
45.步骤s12，在异质图神经网络的每一层进行账号、帖子和社区不同类型实体特征投影。
46.对于账号、帖子和社区等不同类型实体，选择一种作为目标对象。考虑到在社交网络关系异质图中，对于不同类型的对象，其特征位于不同的语义空间中，并且特征通常有着不同的分布。为了使这些不同类型的对象特征具有可比性，定义了特定关系的投影矩阵，将异构邻居对象(与目标对象不同类别)的隐藏表示投射到与目标对象类型对应的公共语义空间中；还对每个目标对象类型定义了自投影矩阵，将目标对象的表示也投影到公共语义空间中。
47.如图2所示，账号、帖子、社区三种类型的节点，分别使用圆、三角和矩形表示，图中的连线显示了账号类型为a的节点所有可能的元路径。将不同类型的邻居对象的表示通过特定关系的投影矩阵投射到一个新的公共语义空间中：y
φ
→
ψ
=h
φ
·wφ
→
ψ
；同时，使用自投影矩阵将上一层输出的目标对象的自身特征也投影到这个空间：y
ψ
→
ψ
＝h
ψ
·wψ
→
ψ
，其中，和分别表示和的表征矩阵，φ属于ψ的邻域，w
ψ
→
ψ
和w
φ
→
ψ
分别代表自投影矩阵和特定关系的投影矩阵。
48.步骤s13，在异质图神经网络的每一层进行账号、帖子和社区不同类型实体节点类型内聚合(类型内聚合也称对象级聚合)。
49.考虑到邻接矩阵a
ψ-φ
表示ψ类别的目标对象与φ类别的邻居对象之间的邻接关系，将邻接矩阵可用于在每个目标对象的邻居对象之间进行类型内聚合。
50.如图3所示，对于每种类型的邻居，通过相应的邻接矩阵对其投影后的特征进行聚合：z
φ
→
ψ
＝a
φ
→
ψ
·yφ
→
ψ
。自身的投影特征不需要执行对象级聚合：z
ψ
→
ψ
＝y
ψ
→
ψ
。至此，形成若干个临时的特征，即：目标对象自身的投影特征和聚合的各种类型的邻居的投影特征，每种特征都从不同的方面反映了目标对象的特性。
51.步骤s14，在异质图神经网络的每一层进行账号、帖子和社区不同类型实体节点类型间聚合(类型间聚合也称类型级聚合)。
52.类型级聚合通过使用类型级注意机制来学习不同类型的邻居对目标对象的重要性，并对对象级聚合结果进行类型级聚合。为了学习更全面的特征表示，需要对来自不同类
型邻居对象的表示进行融合。对于目标对象，来自不同类型邻居对象的信息可能会对特定任务产生不同的影响。利用注意力机制将这些临时的特征聚合起来，从而全面地刻画目标对象的特性。
53.首先，通过不同的参数将目标对象的自身投影特征映射为注意力的键值，也通过不同的参数将邻居的聚合特征映射为相应的键值：k
ψ
→
ψ
＝z
ψ
→
ψ
·wψ
，k
φ
→
ψ
＝z
φ
→
ψ
·wψ
，k
ψ
→
ψ
和k
φ
→
ψ
分别表示ψ类别和φ类别分别映射到的目标对象(ψ类别)的键值，w
ψ
表示目标类别为ψ时神经网络的可学习参数。
54.然后，通过一个小型的非线性神经网络将键值映射为注意力系数：
55.e
self-ψ
＝elu(k
ψ
→
ψ
·wψ
)
56.e
φ
→
ψ
＝elu(k
φ
→
ψ
·wψ
)
57.其中，e
self-ψ
和e
φ-ψ
分别表示ψ类别和φ类别的注意力系数。
58.通过softmax函数将注意力系数归一化：
[0059][0060]
利用归一化的注意力系数，将若干个临时特征聚合起来，形成目标对象本层输出的新特征：
[0061][0062]
最后，损失函数定义为每个对象类型下所有被标记对象的交叉熵之和：
[0063][0064]
其中，φ
ψ
表示中具有标签的对象，c
ψ
表示中所有的对象类别，表示对象i在类别j上的损失值，可以通过交叉熵损失函数计算得到。表示对象i在类别j上的概率，通过输出的特征经过线性层(mlp)得到。通过反向梯度传播算法使损失值减小，实现对异质图神经网络模型的优化。
[0065]
步骤s15，通过计算异质图神经网络元路径的得分，发现最优的元路径，从而进行恶意账号检测。
[0066]
特定目标对象的元路径的重要性分数是通过将以该对象结束的所有路径实例的分数相加得到的，路径实例的分数是通过乘以沿着路径的对象之间的选择概率计算得到，路径中对象的选择概率是步骤s14中计算节点类型间聚合时该对象注意力系数的值；通过计算元路径的得分，异质图神经网络可以端到端地自动评估所有可能的元路径的重要性，发现对于当前任务最优的元路径，通过使用最优的元路径，可以提高模型的性能，增加恶意账号检测的准确率。
[0067]
与上述异质图元路径自动评估的恶意账号检测方法相应地，如图4所示，本实施例还提出一种异质图元路径自动评估的恶意账号检测装置，包括：
[0068]
社交网络关系异质图构建模块41，用于获取社交媒体网络的信息，构建社交网络关系异质图；
[0069]
特征投影模块42，用于在异质图神经网络的每一层进行账号、帖子和社区不同类
型实体特征投影；
[0070]
节点类型内聚合模块43，用于在异质图神经网络的每一层进行账号、帖子和社区不同类型实体节点类型内聚合；
[0071]
节点类型间聚合模块44，用于在异质图神经网络的每一层进行账号、帖子和社区不同类型实体节点类型间聚合；
[0072]
元路径得分计算模块45，用于通过计算异质图神经网络元路径的得分，发现最优的元路径，从而进行恶意账号检测。
[0073]
本发明可以实现社交网络关系异质图中元路径的自动搜索和挖掘，解决了异质图恶意账号检测方法中，元路径需要人工设计的问题。
[0074]
需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。
[0075]
最后需要说明的是：以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：电力工程安全质量评价指标权重确定方法与装置与流程

异质图元路径自动评估的恶意账号检测方法及装置

相关文献

最热文献