基于用户行为轮廓聚类的异常检测方法和系统

2022-04-27 06:36:13 来源：中国专利 TAG：

1.本发明涉及计算机技术领域，尤其是基于用户行为轮廓聚类的异常检测方法和系统。

背景技术：

2.内部用户异常行为检测一直是组织内部重点关注的问题，相较于外部威胁攻击，内部用户异常行为重点指那些受信任的用户群体所作出的对组织有害的行为，诸如身份盗窃、机密数据窃取等等，内部用户异常行为具有隐蔽性、多元性等特点，因此对其的检测难度也越来越大。现今，在对内部用户的行为进行异常检测时，通常集中在针对单一用户构建行为模式检测其个体行为是否异常，其忽略了用户行为是否偏离群体行为模式，此方法通常导致较高的误报率。

技术实现要素：

3.有鉴于此，为了解决上述技术问题，本发明的目的是提供基于用户行为轮廓聚类的异常检测方法和系统。
4.本发明实施例采用的技术方案是：
5.基于用户行为轮廓聚类的异常检测方法，包括：
6.获取用户集合的历史行为数据；所述用户集合包括至少两个用户；
7.根据预设间隔的时间窗口对所述历史行为数据进行第一划分处理，并对第一划分处理结果进行多元行为模式学习，得到每一所述时间窗口的第一用户行为轮廓；
8.分别对所述第一用户行为轮廓进行第一聚类，确定每一所述时间窗口对应的正常行为模式以及异常行为模式；
9.根据所述历史行为数据、每一所述时间窗口对应的所述正常行为模式以及所述异常行为模式，生成正常行为模式库和恶意行为模式库；
10.根据所述正常行为模式库以及所述恶意行为模式库对待检测用户进行检测，得到检测结果。
11.进一步，所述获取用户集合的历史行为数据，包括：
12.获取所述用户集合所有行为域的日志数据并进行合并；所述行为域包括访问网页行为、发送邮件行为、登陆或登出设备行为、连接或断开移动设备行为以及查看文件行为中的至少两种；
13.将合并后的日志数据按照时间顺序进行排序，生成历史行为日志文件，得到所述历史行为数据。
14.进一步，所述根据预设间隔的时间窗口对所述历史行为数据进行第一划分处理，包括：
15.根据预设间隔的时间窗口对所述历史行为数据进行第一划分，得到每一所述时间窗口的行为特征向量；每一所述行为特征向量具有多个维度的特征，所述特征表征用户的
行为属性值；
16.对所述行为特征向量进行预处理。
17.进一步，所述对所述行为特征向量进行预处理，包括：
18.进行标准化处理；所述标准化处理为当所述时间窗口中所述行为特征向量的维度数量少于预设维度，对所述时间窗口的所述行为特征向量进行补零操作，将补零操作结果中所述特征均为0的维度确定为目标维度，删除所述目标维度，计算各个所述维度的所述特征之间的相关性并将相关性大于等于预设相关性阈值的所述特征去除；
19.对标准化处理结果中每一维度的特征进行归一化处理。
20.进一步，所述对第一划分处理结果进行多元行为模式学习，得到每一所述时间窗口的第一用户行为轮廓，包括：
21.对预处理后的行为特征向量进行dbscan聚类，得到每一所述时间窗口的若干第一类别；
22.根据每一所述第一类别对应的特征进行均值处理，确定每一所述时间窗口中每一所述第一类别对应的特征向量中心；
23.分别计算每一所述时间窗口的所述第一类别中特征的数量与预处理后的所述时间窗口的行为特征向量中所有特征的数量的比例；
24.根据所述比例以及所述特征向量中心生成每一所述时间窗口的第一用户行为轮廓。
25.进一步，所述分别对所述第一用户行为轮廓进行第一聚类，确定每一所述时间窗口对应的正常行为模式以及异常行为模式，包括：
26.分别对所述第一用户行为轮廓进行第一聚类，得到每一所述时间窗口的第二类别；
27.获取每一所述第二类别中所述特征向量中心的第一数量；
28.将所述第一数量大于等于预设阈值的第二类别作为正常行为模式，并将所述第一数量小于所述预设阈值的第二类别作为异常行为模式。
29.进一步，所述根据所述历史行为数据、每一所述时间窗口对应的所述正常行为模式以及所述异常行为模式，生成正常行为模式库和恶意行为模式库，包括：
30.从所述历史行为数据中确定对应的用户在每一所述时间窗口下的原始行为日志记录；所述原始行为日志记录包括所有行为域中的原始行为；
31.确定属于所述异常行为模式的原始行为是否为恶意行为，根据确定为所述恶意行为的原始行为生成恶意行为模式库；
32.根据属于所述正常行为模式以及属于所述异常行为模式且非所述恶意行为的原始行为，生成正常行为模式库。
33.进一步，所述根据所述正常行为模式库以及所述恶意行为模式库对待检测用户进行检测，得到检测结果，包括第一方式或者第二方式：
34.第一方式：
35.当所述待检测用户不存在历史数据，获取当前行为特征向量，计算所述当前行为特征向量与所述正常行为模式库的第一相似度以及与所述恶意行为模式库的第二相似度；
36.当所述第一相似度大于等于相似度阈值，确定所述当前行为特征向量为正常行为
模式；
37.当所述第二相似度大于等于所述相似度阈值，确定所述当前行为特征向量为异常行为模式；
38.当所述第一相似度以及所述第二相似度均大于等于所述相似度阈值，获取所述当前行为特征向量出现在所述时间窗口内的概率，根据所述概率以及所述比例的比较结果，确定所述当前行为特征向量为正常行为模式或异常行为模式；
39.当所述第一相似度以及所述第二相似度均小于所述相似度阈值，确定所述当前行为特征向量是否为恶意行为以确定所述当前行为特征向量为正常行为模式或异常行为模式；
40.第二方式：
41.当所述待检测用户存在历史数据，根据预设间隔的所述时间窗口对所述历史数据进行第二划分处理，并对第二划分处理结果进行多元行为模式学习，得到每一所述时间窗口的第二用户行为轮廓，所述第二用户行为轮廓包括多个维度的维度元素，所述维度元素表征待检测用户的行为属性值；
42.分别计算每一所述维度元素与所述正常行为模式库的第一欧氏距离，以及计算每一所述第二用户行为轮廓与所述恶意行为模式库的第二欧氏距离；
43.将所述第一欧氏距离大于等于距离阈值的维度元素确定为正常行为模式，将所述第二欧氏距离大于等于距离阈值的维度元素确定为异常行为模式，确定所述第一欧氏距离以及所述第二欧氏距离均小于距离阈值的维度元素是否为恶意行为，以确定该维度元素为正常行为模式或异常行为模式。
44.本发明实施例还提供一种基于用户行为轮廓聚类的异常检测系统，包括：
45.获取模块，用于获取用户集合的历史行为数据；所述用户集合包括至少两个用户；
46.处理模块，用于根据预设间隔的时间窗口对所述历史行为数据进行第一划分处理，并对第一划分处理结果进行多元行为模式学习，得到每一所述时间窗口的用户行为轮廓；
47.聚类模块，用于分别对所述用户行为轮廓进行第一聚类，确定每一所述时间窗口对应的正常行为模式以及异常行为模式；
48.生成模块，用于根据所述历史行为数据、每一所述时间窗口对应的所述正常行为模式以及所述异常行为模式，生成正常行为模式库和恶意行为模式库；
49.检测模块，用于根据所述正常行为模式库以及所述恶意行为模式库对待检测用户进行检测，得到检测结果。
50.本发明的有益效果是：通过获取用户集合的历史行为数据，用户集合包括至少两个用户，根据预设间隔的时间窗口对历史行为数据进行第一划分处理，并对第一划分处理结果进行多元行为模式学习，得到每一时间窗口的第一用户行为轮廓，分别对第一用户行为轮廓进行第一聚类，确定每一时间窗口对应的正常行为模式以及异常行为模式；根据历史行为数据、每一时间窗口对应的正常行为模式以及异常行为模式，生成正常行为模式库和恶意行为模式库，在最大程度利用用户个人历史行为数据的前提下，还进行了用户集合行为模式的挖掘，从而构建了用户集合的正常行为模式库以及恶意行为模式库，因此根据正常行为模式库以及恶意行为模式库对待检测用户进行更加有效地检测，得到误报率和漏
报率更低的检测结果。
附图说明
51.图1为本发明基于用户行为轮廓聚类的异常检测方法的步骤流程示意图。
具体实施方式
52.为了使本技术领域的人员更好地理解本技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分的实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本技术保护的范围。
53.本技术的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
54.在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。
55.如图1所示，本发明实施例提供一种基于用户行为轮廓聚类的异常检测方法，包括步骤s100-s500：
56.s100、获取用户集合的历史行为数据。
57.本发明实施例中，用户集合包括至少两个用户，为一个用户群体。
58.可选地，步骤s100包括步骤s110-s120：
59.s110、获取用户集合所有行为域的日志数据并进行合并。
60.可选地，以cert数据集为例，行为域可以包括多个原始行为，例如访问网页行为、发送邮件行为、登陆或登出设备行为、连接或断开移动设备行为以及查看文件行为，其他实施例中可以包括上述行为的一种、两种或者多种。具体地，可以通过每一用户的用户id为索引，提取该用户id所有行为域的日志数据并进行合并。
61.s120、将合并后的日志数据按照时间顺序进行排序，生成历史行为日志文件，得到历史行为数据。
62.可选地，在日志数据合并之后，将合并后的日志数据按照时间顺序进行排序，生成历史行为日志文件，从而得到历史行为数据。
63.s200、根据预设间隔的时间窗口对历史行为数据进行第一划分处理，并对第一划分处理结果进行多元行为模式学习，得到每一时间窗口的第一用户行为轮廓。
64.可选地，步骤s200中的根据预设间隔的时间窗口对历史行为数据进行第一划分处理，包括步骤s211-s212：
65.s211、根据预设间隔的时间窗口对历史行为数据进行第一划分，得到每一时间窗
口的行为特征向量。
66.可选地，时间窗口的数量以及预设间隔可以根据需要设定，本发明实施例中以8个时间窗口为例，预设间隔即每一时间窗口的时间长度，以3个小时为例，因此一天中的8个时间窗口分别为：[00:00:00-03:00:00)，[03:00:00-06:00:00)，[06:00:00,09:00:00)，[09:00:00-12:00:00)，[12:00:00,15:00:00)，[15:00:00-18:00:00)，[18:00:00-21:00:00)，[21:00:00-24:00:00)。具体地，根据多个时间窗口对历史行为数据进行第一划分，得到每一时间窗口的行为特征向量，能够从较细粒度得出用户在指定时间窗口内的行为特性，例如用户登录设备的时间可能大多集中在第三个时间窗口，登出设备的时间可能大多集中在第七个时间窗口，并且方便对不同时间窗口中的行为以及行为属性的频率特性和统计特性进行统计。可选地，本发明实施例中在第一划分的过程还包括对每一时间窗口中的行为的特性进行频率统计，例如以十种行为特性为例进行说明而不限于该十种行为的特性，具体地为：访问网页次数、访问网站的类型次数、查看文件次数、登陆设备次数、注销设备次数、连接移动设备次数、断开移动设备次数、发送邮件次数、发送邮件的附件平均数、发送邮件的平均字节数，因此行为特征向量包括多维(本发明实施例中为十维)的特征，十种特征分别表征上述十种的用户的行为之一，即表征用户的行为属性值。
[0067]
s212、对行为特征向量进行预处理。
[0068]
需要说明的是，预处理结果即为预处理后的行为特征向量或者称为第一划分处理结果。
[0069]
可选地，步骤s212包括步骤s2121-s2122：
[0070]
s2121、进行标准化处理。
[0071]
可选地，标准化处理包括但不限于以下的一种或多种，最终得到标准化处理结果：1)当所述时间窗口中所述行为特征向量的维度数量少于预设维度，对所述时间窗口的所述行为特征向量进行补零操作；2)将补零操作结果中所述特征均为0的维度确定为目标维度，删除所述目标维度；3)计算各个所述维度的所述特征之间的相关性并将相关性大于等于预设相关性阈值的所述特征去除，具体地：
[0072]
1)、当某一时间窗口内的行为特征向量的维度数量少于预设维度，例如时间窗口[12:00:00,15:00:00)没有查看文件次数的维度对应的特征向量，即该时间窗口内没有发生查看文件的行为，则进行补零操作，使得查看文件次数的维度对应的特征向量为0，从而每一时间窗口内的行为特征向量都具有统一的维度；
[0073]
2)、例如当某一时间窗口中特征“访问网页次数”均为0，说明该时间窗口中不具有该行为，此时目标维度删除。
[0074]
3)、使用pearson相关系数计算各个维度的特征之间的相关性，将相关性大于等于预设相关性阈值的特征进行去除，即去除冗余特征。
[0075]
s2122、对标准化处理结果中每一维度的特征进行归一化处理。
[0076]
具体地，对标准化处理结果中每一维度的特征进行数据z-score归一化处理操作，具体公式为：
[0077][0078]
其中，x为标准化处理结果中特征的原始值，μ为该特征所在维度的所有特征的均
值，σ为该特征所在维度的所有特征的标准差，x’为归一化处理后的特征，即预处理结果。
[0079]
本发明实施例中，行为特征向量还可以包括对应的时间窗口索引，具体地行为特征向量为其中t代表时间窗口内的特征的总数，j为行为特征向量的索引，代表行为特征向量在该时间窗口内的时间窗口索引，表示十维的特征。例如，时间窗口索引为日期，该日期索引代表了用户在该天的该时间窗口(eg：00:00:00-03:00:00)内的行为特征向量为aj。
[0080]
可选地，步骤s200中的对第一划分处理结果进行多元行为模式学习，得到每一时间窗口的第一用户行为轮廓，包括步骤s221-s224：
[0081]
s221、对预处理后的行为特征向量进行dbscan聚类，得到每一时间窗口的若干第一类别。
[0082]
需要说明的是，每一个时间窗口进行同样的处理，即可以得到每一时间窗口对应的处理结果。本发明实施例中，对预处理后的行为特征向量即第一划分处理结果进行dbscan聚类，具体为对特征进行dbscan聚类。dbscan聚类算法通过设定参数min_samples、eps和距离计算方法，对样本集中紧密相连的点聚为一类，参数min_samples和eps指定了样本点之间紧密相连的程度：eps参数指定样本点的eps领域，其表示以样本点为圆心，以eps为半径的圆；min_samples指定样本点的eps邻域需要包含的最少其他样本点的数量；dbscan聚类算法的这两个参数直接影响聚类的类别数和效果，该工作需要从给定样本集的数据本身特性中自适应地寻找最优参数解。
[0083]
具体地，在进行dbscan聚类后，离群点/噪声点单独作为只包含一个样本点的类别存在，而其他的特征被分类，得到每一时间窗口的若干第一类别。
[0084]
s222、根据每一第一类别对应的特征进行均值处理，确定每一时间窗口中每一第一类别对应的特征向量中心。
[0085]
可选地，根据每一第一类别下对应的特征进行均值处理，即计算特征的均值(向量)，从而确定每个第一类别的聚类中心，即特征向量中心(特征中心)，得到量)，从而确定每个第一类别的聚类中心，即特征向量中心(特征中心)，得到其中，m代表该时间窗口内的第一类别的总数，i表示第一类别索引，代表第一类别的聚类中心(特征向量中心)。
[0086]
s223、分别计算每一时间窗口的第一类别中特征的数量与预处理后的时间窗口的行为特征向量中所有特征的数量的比例。
[0087]
可选地，比例的计算公式为：
[0088][0089]
其中，ki表示第i个第一类别的特征的数量，代表预处理后的时间窗口的行为特征向量中所有特征的数量；bi表示第i个第一类别的比例，通过多次计算即可以得到每一第一类别对应的比例。
[0090]
s224、根据比例以及特征向量中心生成每一时间窗口的第一用户行为轮廓。
[0091]
可选地，第一用户行为轮廓(多元行为模式向量)c为：
[0092]
[0093]
其中，userid为该第一类别所属的用户id，表示在该第一类别中行为特征向量aj的时间窗口索引所构成的列表，该列表的长度为ki，即为bi。可以理解的是，最终可以得到每一时间窗口即8个时间窗口对应的第一用户行为轮廓(或称为多元行为模式向量)。
[0094]
s300、分别对第一用户行为轮廓进行第一聚类，确定每一时间窗口对应的正常行为模式以及异常行为模式。
[0095]
具体地，步骤s300包括步骤s310-s330：
[0096]
s310、分别对第一用户行为轮廓进行第一聚类，得到每一时间窗口的第二类别。
[0097]
可选地，分别对每一时间窗口对应的第一用户行为轮廓进行第一聚类，得到每一时间窗口的第二类别。其中，进行第一聚类的方法包括但不限于相似度聚类算法。
[0098]
s320、获取每一第二类别中特征向量中心的第一数量。
[0099]
s330、将第一数量大于等于预设阈值的第二类别作为正常行为模式，并将第一数量小于预设阈值的第二类别作为异常行为模式。
[0100]
具体地，获取每一第二类别中特征向量中心的第一数量，即第二类别的类别规模，当第一数量(类别规模)大于等于预设阈值，即该第二类别为正常行为模式，或者称为用户群体正常行为模式；而当第一数量(类别规模)小于预设阈值，即该第二类别为异常行为模式，或者称为用户群体异常行为模式。需要说明的是，预设阈值根据实际聚类结果进行设定；正常行为模式与异常行为模式都通过对应的第二类别的聚类中心向量表示，类似上述的特征向量中心的表示方法。可以理解的是，最终可以得到八个时间窗口对应的正常行为模式以及异常行为模式。
[0101]
s400、根据历史行为数据、每一时间窗口对应的正常行为模式以及异常行为模式，生成正常行为模式库和恶意行为模式库。
[0102]
可选地，步骤s400包括步骤s410-s430，其中s420、s430不限定执行顺序：
[0103]
s410、从历史行为数据中确定对应的用户在每一时间窗口下的原始行为日志记录。
[0104]
具体地，根据第一用户行为轮廓(多元行为模式向量)中的userid读取历史行为数据，具体为该用户id对应的用户的历史行为日志文件，根据获取该用户的历史行为日志文件中对应的各个时间窗口下的原始行为日志记录(行为域的日志数据)，从而确定原始行为日志记录中所有行为域中用户的原始行为。
[0105]
s420、确定属于异常行为模式的原始行为是否为恶意行为，根据确定为恶意行为的原始行为生成恶意行为模式库。
[0106]
可选地，可以根据第二类别确定哪些原始行为属于异常行为模式的原始行为，然后包括但不限于设置恶意阈值，当属于异常行为模式的某一时间窗口下的某一原始行为超过恶意阈值，则认为是恶意行为，否则为非恶意行为，将所有属于恶意行为的原始行为构建恶意行为模式库。
[0107]
s430、根据属于正常行为模式以及属于异常行为模式且非恶意行为的原始行为，生成正常行为模式库。
[0108]
可选地，可以根据第二类别确定哪些原始行为属于正常行为模式的原始行为，并
将属于正常行为模式的原始行为以及非恶意行为的原始行为构建正常行为模式库。可以理解的是，恶意行为模式库由各个时间窗口下用户群体的恶意行为构成，正常行为模式库由各个时间窗口下用户群体的非恶意行为以及属于正常行为模式的原始行为构成。可选地，恶意行为模式库以及正常行为模式库中的内容可以以特征的形式存在。
[0109]
s500、根据正常行为模式库以及恶意行为模式库对待检测用户进行检测，得到检测结果。
[0110]
可选地，步骤s500包括s510或者s520，s510或者s520，不限定执行顺序：
[0111]
s510包括步骤s5101、s5102、s5103、s5104、s5105中的至少之一：
[0112]
s5101、当待检测用户不存在历史数据，获取当前行为特征向量，计算当前行为特征向量与正常行为模式库的第一相似度以及与恶意行为模式库的第二相似度；
[0113]
可选地，当待检测用户为新用户而不存在历史数据，则获取表征待检测用户当前行为特征向量，计算正常行为模式库中的正常行为模式对应的特征向量中心与当前行为特征向量的第一相似度，以及计算恶意行为模式库中的异常行为模式对应的特征向量中心与当前行为特征向量的第二相似度。
[0114]
s5102、当第一相似度大于等于相似度阈值，确定当前行为特征向量为正常行为模式。
[0115]
需要说明的是，相似度阈值可以根据需要进行设定。可选地，当确定当前行为特征向量为正常行为模式，还可以将该当前行为特征向量加入到正常行为模式库中，更新正常行为模式库。
[0116]
s5103、当第二相似度大于等于相似度阈值，确定当前行为特征向量为异常行为模式。
[0117]
可选地，当确定当前行为特征向量为异常行为模式，还可以将该当前行为特征向量加入到恶意行为模式库中，更新恶意行为模式库。
[0118]
s5104、当第一相似度以及第二相似度均大于等于相似度阈值，获取当前行为特征向量出现在时间窗口内的概率，根据概率以及比例的比较结果，确定当前行为特征向量为正常行为模式或异常行为模式。
[0119]
可选地，当第一相似度以及第二相似度均大于等于相似度阈值，获取当前行为特征向量出现在当前行为特征向量所在的时间窗口内的频率与概率，将该概率分别与正常行为模式库中的比例(称为第一比例)以及恶意行为模式库中的比例(称为第二比例)进行比较，得到比较结果。例如，当概率相对第一比例更接近第一比例，则确定前行为特征向量为正常行为模式或者概率小于等于第一比例则属于正常行为模式，否则属于异常行为模式。
[0120]
s5105、当第一相似度以及第二相似度均小于相似度阈值，确定当前行为特征向量是否为恶意行为以确定当前行为特征向量为正常行为模式或异常行为模式。
[0121]
若当第一相似度以及第二相似度均小于相似度阈值，即不属于任何一类已有正常行为模式与异常行为模式，则根据类似步骤s420的方法，确定当前行为特征向量是否为恶意行为，如果是则确定当前行为特征向量为异常行为模式，否则确定当前行为特征向量为正常行为模式。
[0122]
s520包括步骤s5201-s5203：
[0123]
s5201、当待检测用户存在历史数据，根据预设间隔的时间窗口对历史数据进行第二划分处理，并对第二划分处理结果进行多元行为模式学习，得到每一时间窗口的第二用户行为轮廓，第二用户行为轮廓包括多个维度的维度元素，维度元素表征待检测用户的行为属性值。
[0124]
可选地，当待检测用户存在历史数据，历史数据即存在历史的原始行为，根据预设间隔的时间窗口对历史数据进行第二划分处理，即通过步骤s211-s212的方法对历史数据进行第二划分处理，然后通过步骤s221-s224的方法对第二划分处理结果进行多元行为模式学习，得到每一时间窗口的第二用户行为轮廓。需要说明的是，第二用户行为轮廓包括多个维度的维度元素，维度元素表征待检测用户的行为属性值，维度元素相当于上述的特征向量中心。
[0125]
s5202、分别计算每一维度元素与正常行为模式库的第一欧氏距离，以及计算每一第二用户行为轮廓与恶意行为模式库的第二欧氏距离。
[0126]
具体地，计算每一维度元素与正常行为模式库中对应的特征向量中心的第一欧氏距离，以及计算每一维度元素与恶意行为模式库中对应的特征向量中心的第二欧氏距离。
[0127]
s5203、将第一欧氏距离大于等于距离阈值的维度元素确定为正常行为模式，将第二欧氏距离大于等于距离阈值的维度元素确定为异常行为模式，确定第一欧氏距离以及第二欧氏距离均小于距离阈值的维度元素是否为恶意行为，以确定该维度元素为正常行为模式或异常行为模式。
[0128]
具体地，将第一欧氏距离大于等于距离阈值的维度元素确定为正常行为模式，并更新正常行为模式库，将第二欧氏距离大于等于距离阈值的维度元素确定为异常行为模式，并更新恶意行为模式库。需要说明的是，当第一欧氏距离以及第二欧氏距离均小于距离阈值，即不属于任意一类别的行为模式，此时则根据类似步骤s420的方法，确定第一欧氏距离以及第二欧氏距离均小于距离阈值的维度元素是否为恶意行为，如果是则确定该维度元素为异常行为模式，更新恶意行为模式库，否则确定该维度元素为正常行为模式，并更新正常行为模式库。
[0129]
综上，本发明实施例的基于用户行为轮廓聚类的异常检测方法具有以下效果：
[0130]
1.相对传统的针对单个用户行为分析，本发明实施例考虑用户个人历史行为习惯的同时，还构建了用户群体正常行为模式库以及恶意行为模式库，能够降低检测的漏报率和误报率；
[0131]
2.相对传统的使用基于用户角色行为相似性或背景知识、心理特征因素的相似性前提下，通过大量的人力获取与计算相关用户的背景知识构建相似行为模式，本发明实施例不依赖于与用户相关的背景知识、心理特征因素的前提与假设的情况，二使用数据行为驱动的方法，发现与用户群体行为偏离的异常用户行为，大大减少了检测的复杂性；
[0132]
3.传统的针对相似背景或直接进行用户群体行为聚类的方法，其忽略了用户个人的数据构造对聚类规模的影响，且其在很大程度上压缩了用户个人数据所带来的信息量，其在确定可疑用户范围之后还需要进一步取可疑用户的历史行为数据进行分析，本发明实施例先针对每个用户个人提取多元行为模式向量，再对所有用户的多元行为模式向量聚类，在最大程度利用用户个人行为数据的前提下，挖掘用户群体的正常行为模式以及异常行为模式，大大提高了检测的效率性和有效性；
[0133]
4.相比于传统只使用用户单域行为特征进行用户异常行为的检测，本发明实施例构造了关于用户的多维的特征向量，更能体现用户的行为习惯；
[0134]
5.本发明实施例可依据多个不同的时间窗口构建用户的多元正常行为模式以及异常行为模式，具有多元性和体现了更细粒度的异常行为检测。
[0135]
本发明实施例还提供一种基于用户行为轮廓聚类的异常检测系统，包括：
[0136]
获取模块，用于获取用户集合的历史行为数据；用户集合包括至少两个用户；
[0137]
处理模块，用于根据预设间隔的时间窗口对历史行为数据进行第一划分处理，并对第一划分处理结果进行多元行为模式学习，得到每一时间窗口的用户行为轮廓；
[0138]
聚类模块，用于分别对用户行为轮廓进行第一聚类，确定每一时间窗口对应的正常行为模式以及异常行为模式；
[0139]
生成模块，用于根据历史行为数据、每一时间窗口对应的正常行为模式以及异常行为模式，生成正常行为模式库和恶意行为模式库；
[0140]
检测模块，用于根据正常行为模式库以及恶意行为模式库对待检测用户进行检测，得到检测结果。
[0141]
上述方法实施例中的内容均适用于本装置实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
[0142]
本发明实施例还提供了一种电子设备，电子设备包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现前述实施例的基于用户行为轮廓聚类的异常检测方法。本发明实施例的电子设备包括但不限于手机、平板电脑、电脑及车载电脑等任意智能终端。
[0143]
上述方法实施例中的内容均适用于本设备实施例中，本设备实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
[0144]
本技术的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0145]
应当理解，在本技术中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“a和/或b”可以表示：只存在a，只存在b以及同时存在a和b三种情况，其中a，b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。
[0146]
在本技术所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0147]
以上，以上实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：支持动态操作和多用户存储证明的实用云存储方法及系统

基于用户行为轮廓聚类的异常检测方法和系统

相关文献

最热文献