一种异常用户识别方法、装置、电子设备及存储介质与流程

2021-10-30 01:48:00 来源：中国专利 TAG：电子设备欺诈识别装置异常

1.本技术涉及反欺诈业务的技术领域，特别是涉及一种异常用户识别方法、装置、电子设备及存储介质。

背景技术：

2.为实现吸引用户、促销商品等目的，网络中的活动类业务越来越多。为提高活动类业务的安全性，保证运营商的利益，活动类业务中异常用户识别方法受到了越来越多的关注。
3.目前，活动类业务中异常用户识别方法中，主要采用有监督的算法，识别活动类业务中的异常用户。该方法中，难以对异常原因进行准确归因，难以定性用户异常原因。

技术实现要素：

4.本发明实施例的目的在于提供一种异常用户识别方法、装置及电子设备，以解决异常情况难解释的问题。具体技术方案如下：
5.第一方面，本技术实施例提供了一种异常用户识别方法，所述方法包括：
6.从用户的原始流量数据中提取多个预设异常原因维度的特征，得到多个归因特征；
7.确定每个所述归因特征偏离预设均值的预设标准差的个数，作为每个所述归因特征对应的偏差；
8.基于每个所述预设异常原因维度的权重，对每个所述归因特征对应的偏差进行加权求和，得到异常融合指标；
9.基于所述异常融合指标和预设融合阈值，确定所述用户的第一异常检测结果，所述第一异常检测结果指示所述用户是否为疑似异常用户。
10.可选的，所述基于所述异常融合指标和预设融合阈值，确定所述用户的第一异常检测结果的步骤，包括：
11.若所述异常融合指标大于等于所述预设融合阈值，则确定所述用户的第一异常检测结果指示所述用户为疑似异常用户；
12.若所述异常融合指标小于所述预设融合阈值，则确定所述用户的第一异常检测结果指示所述用户为正常用户。
13.可选的，所述方法还包括：
14.对所述原始流量数据进行归一化和标准化处理，确定第一特征向量；
15.将所述第一特征向量输入到预设自编码器，得到所述原始流量数据的第二特征向量，所述预设自编码器为利用正常用户的流量数据进行训练得到的自编码器；
16.确定所述第一特征向量和所述第二特征向量之间的重构误差；
17.基于所述重构误差和预设误差阈值，确定所述用户的第二异常检测结果，所述第二异常检测结果指示所述用户是否为疑似异常用户；
18.根据所述第一异常检测结果和所述第二异常检测结果，确定第三异常检测结果，所述第三异常检测结果指示所述用户是否为异常用户。
19.可选的，所述基于所述重构误差和预设误差阈值，确定所述用户的第二异常检测结果的步骤，包括：
20.若所述重构误差大于等于预设误差阈值，则确定所述用户的第二异常检测结果指示所述用户为疑似异常用户；
21.若所述重构误差小于所述预设误差阈值，则确定所述用户的第二异常检测结果指示所述用户为正常用户。
22.可选的，所述根据所述第一异常检测结果和所述第二异常检测结果，确定所述第三异常检测结果的步骤，包括：
23.基于所述第一异常检测结果的第一预设重要程度，以及所述第二异常检测结果的第二预设重要程度，对所述第一异常检测结果和所述第二异常检测结果进行加权融合，得到融合策略值；
24.若所述融合策略值大于等于预设策略阈值，则确定所述用户的第三异常检测结果指示所述用户为异常用户；
25.若所述融合策略值小于所述预设策略阈值，则确定所述用户的第三异常检测结果指示所述用户为正常用户。
26.可选的，当所述第三异常检测结果指示所述用户为异常用户时，所述方法还包括：
27.基于偏差大于预设归因阈值的归因特征，确定导致所述用户异常的原因。
28.可选的，当所述第一异常检测结果和/或所述第二异常检测结果指示所述用户为疑似异常用户，且所述第三异常检测结果指示所述用户是正常用户时，所述方法还包括：
29.输出指示所述用户为暂不可解释的疑似异常用户的告警信息。
30.第二方面，本技术实施例提供了一种异常用户识别装置，所述装置包括：
31.提取单元，用于从用户的原始流量数据中提取多个预设异常原因维度的特征，得到多个归因特征；
32.第一确定单元，用于确定每个所述归因特征偏离预设均值的预设标准差的个数，作为每个所述归因特征对应的偏差；
33.加权单元，用于基于每个所述预设异常原因维度的权重，对每个所述归因特征对应的偏差进行加权求和，得到异常融合指标；
34.第二确定单元，用于基于所述异常融合指标和预设融合阈值，确定所述用户的第一异常检测结果，所述第一异常检测结果指示所述用户是否为疑似异常用户。
35.可选的，所述第二确定单元，具体用于：
36.若所述异常融合指标大于等于所述预设融合阈值，则确定所述用户的第一异常检测结果指示所述用户为疑似异常用户；
37.若所述异常融合指标小于所述预设融合阈值，则确定所述用户的第一异常检测结果指示所述用户为正常用户。
38.可选的，所述装置还包括：
39.第三确定单元，用于对所述原始流量数据进行归一化和标准化处理，确定第一特征向量；
40.输入单元，用于将所述第一特征向量输入到预设自编码器，得到所述原始流量数据的第二特征向量，所述预设自编码器为利用正常用户的流量数据进行训练得到的自编码器；
41.第四确定单元，用于确定所述第一特征向量和所述第二特征向量之间的重构误差；
42.第五确定单元，用于基于所述重构误差和预设误差阈值，确定所述用户的第二异常检测结果，所述第二异常检测结果指示所述用户是否为疑似异常用户；
43.第六确定单元，用于根据所述第一异常检测结果和所述第二异常检测结果，确定第三异常检测结果，所述第三异常检测结果指示所述用户是否为异常用户。
44.可选的，所述第五确定单元，具体用于：
45.若所述重构误差大于等于预设误差阈值，则确定所述用户的第二异常检测结果指示所述用户为疑似异常用户；
46.若所述重构误差小于所述预设误差阈值，则确定所述用户的第二异常检测结果指示所述用户为正常用户。
47.可选的，所述第六确定单元，具体用于：
48.基于所述第一异常检测结果的第一预设重要程度，以及所述第二异常检测结果的第二预设重要程度，对所述第一异常检测结果和所述第二异常检测结果进行加权融合，得到融合策略值；
49.若所述融合策略值大于等于预设策略阈值，则确定所述用户的第三异常检测结果指示所述用户为异常用户；
50.若所述融合策略值小于所述预设策略阈值，则确定所述用户的第三异常检测结果指示所述用户为正常用户。
51.可选的，所述装置还包括：
52.第七确定单元，用于当所述第三异常检测结果指示所述用户为异常用户时，基于偏差大于预设归因阈值的归因特征，确定导致所述用户异常的原因。
53.可选的，所述装置还包括：
54.输出单元，用于当所述第一异常检测结果和/或所述第二异常检测结果指示所述用户为疑似异常用户，且所述第三异常检测结果指示所述用户是正常用户时，输出指示所述用户为暂不可解释的疑似异常用户的告警信息。
55.第三方面，本技术实施例提供了一种电子设备，包括处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，所述处理器被所述机器可执行指令促使：实现上述任一异常用户识别方法步骤。
56.第四方面，本技术实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一异常用户识别方法步骤。
57.第五方面，本技术实施例提供了一种计算机程序，当其在计算机上运行时，使得计算机执行上述任一异常用户识别方法步骤。
58.本技术实施例有益效果：
59.本技术实施例提供的技术方案中，从原始流量数据中提取多个预设异常原因维度
的归因特征，对归因特征融合，进而基于融合的归因特征，确定用户的第一异常检测结果。由于归因特征为预设异常原因维度的特征，即归因特征为由预设异常原因导致用户异常时的特征，因此，基于归因特征，确定用户异常时，可以对异常用户的异常原因进行解释，解决了异常情况难解释的问题。
60.当然，实施本技术的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
61.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。
62.图1为本技术实施例提供的异常用户识别方法的第一种流程示意图；
63.图2为本技术实施例提供的一种高斯分布曲线示意图；
64.图3为本技术实施例提供的异常用户识别方法的第二种流程示意图；
65.图4为本技术实施例提供的异常用户识别方法的第三种流程示意图；
66.图5为本技术实施例提供的预设自编码器的一种结构图；
67.图6为本技术实施例提供的异常用户识别方法的第四种流程示意图；
68.图7为本技术实施例提供的预设自编码器的训练方法的一种流程示意图；
69.图8为本技术实施例提供的异常用户识别方法的第五种流程示意图；
70.图9为本技术实施例提供的异常用户识别装置的第一种结构示意图；
71.图10为本技术实施例提供的异常用户识别装置的第二种结构示意图；
72.图11为本技术实施例提供的电子设备的一种结构示意图。
具体实施方式
73.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
74.目前，网络中的活动类业务越来越多，活动类业务以h5(hyper text markup language 5，超级文本标记语言5)页面展示，其具有业务形态差异大、活动周期短等特点。具体的不同的活动类业务，其玩法和主题不完全相同，这使得活动类业务的形态差异较大，此外，活动类业务的活动周期比较短，一般在一周左右。
75.基于上述活动类业务的特性，传统的基于专家经验的反欺诈方法，难以适应复杂多变的业务形态和刷量形式，一些未知欺诈行为容易躲避防御系统，致使活动经费受到损失。
76.例如，相关技术中采用的有监督算法，由于无法提取到有效的用户样本数据，异常用户的识别无先验参考。这导致现有的异常用户识别方法，无法准确的识别出各类活动类业务中异常用户。此外，活动类业务中异常用户的特征也会随业务形态的变化而变化，这进
一步降低了现有的异常用户识别方法识别出各类活动类业务中异常用户的准确度。
77.另外，相关技术中采用的有监督算法，难以对异常原因进行准确归因，难以定性用户异常原因。
78.为解决异常情况难解释的问题，本技术实施例提供了一种异常用户识别方法，该方法可以应用于服务器，个人计算机(personal computer，pc)、平板等电子设备。
79.下面通过具体实施例，对本技术实施例提供的异常用户识别方法进行详细说明。
80.参见图1，图1为本技术实施例提供的异常用户识别方法的第一种流程示意图，该方法包括如下步骤：
81.步骤s11，从用户的原始流量数据中提取多个预设异常原因维度的特征，得到多个归因特征；
82.步骤s12，确定每个归因特征偏离预设均值的预设标准差的个数，作为每个归因特征对应的偏差；
83.步骤s13，基于每个预设异常原因维度的权重，对每个归因特征对应的偏差进行加权求和，得到异常融合指标；
84.步骤s14，基于异常融合指标和预设融合阈值，确定用户的第一异常检测结果，第一异常检测结果指示用户是否为疑似异常用户。
85.本技术实施例提供的技术方案中，从原始流量数据中提取多个预设异常原因维度的归因特征，对归因特征融合，进而基于融合的归因特征，确定用户的第一异常检测结果。由于归因特征为预设异常原因维度的特征，即归因特征为由预设异常原因导致用户异常时的特征，因此，基于归因特征，确定用户异常时，可以对异常用户的异常原因进行解释，解决了异常情况难解释的问题。
86.为便于描述，下面以电子设备为执行主体进行说明，并不起限定作用。
87.上述步骤s11中，预设异常原因维度为在用户异常时可解释异常原因的特征维度，该预设异常原因维度的异常是由预设异常原因导致的。相应的，归因特征为由预设异常原因导致用户异常时的特征。
88.电子设备中设置了多个预设异常原因维度。电子设备获取到用户的原始流量数据后，对于每个预设异常原因维度，从原始流量数据中，提取该预设异常原因维度的特征，作为该预设异常原因维度的归因特征。多个预设异常原因维度，电子设备提取到多个归因特征。
89.在本技术的一个实施例中，用户的原始流量数据可以预先存储在用户设备中。在需要判断当前用户是否异常时，电子设备从用户设备中获取用户的原始流量数据。
90.在本技术的另一个实施例中，用户在访问活动类业务时，在网络中实时产生流量数据。进而电子设备可实时获取用户的原始流量数据。
91.本技术实施例中，电子设备还可以采用其他方式获取用户的原始流量数据，例如，其他电子设备向该电子设备定时传输用户的原始流量数据等，对此不做具体限定。
92.上述步骤s12中，归因特征的分布满足高斯分布，高斯分布的异常值是分布在高斯分布尾部的数据点，如图2所示的高斯分布曲线。
93.本技术实施例中，在提取到多个归因特征后，电子设备利用预设高斯混合模型(gaussian mixture model，gmm)，确定每个归因特征偏离预设均值的预设标准差的个数，
作为每个归因特征对应的偏差。可以理解的，电子设备标准化度量值(z
‑
score)度量归因特征与归因特征均值偏离的程度。标准化度量值的具体表达式如下：
94.z＝(x
‑
μ)/σ
95.其中，z表示归因特征对应的偏差，x表示归因特征，μ表示预设均值，σ表示预设标准差。
96.上述步骤s13中，电子设备中预先设置了每个预设异常原因维度的权重。在得到每个归因特征对应的偏差后，电子设备根据预设异常原因维度的权重，，对每个归因特征对应的偏差进行加权求和，得到异常融合指标。
97.例如，电子设备可以利用如下公式，确定异常融合指标：
[0098][0099]
其中，m表示异常融合指标，λ
j
表示预设异常原因维度j的权重，z
j
表示预设异常原因维度j的归因特征对应的偏差。
[0100]
再例如，为增加计算得到的异常融合指标的平滑性，进而提高异常用户检测的准确性，电子设备还可以利用如下公式，确定异常融合指标：
[0101][0102]
其中，m表示异常融合指标，λ
j
表示预设异常原因维度j的权重，z
j
表示预设异常原因维度j的归因特征对应的偏差。
[0103]
本技术实施例中，为了统一不同用户的衡量指标，简化异常用户检测的复杂度，上述多个预设异常原因维度j的权重的和值为1，如下公式所示。
[0104][0105]
其中，λ
j
表示预设异常原因维度j的权重。
[0106]
上述步骤s14中，电子设备中预先设置了融合阈值，即预设融合阈值。预设融合阈值的大小可以根据实际需求进行设定。
[0107]
电子设备在计算出的异常融合指标之后，将计算出的异常融合指标与预设融合阈值进行比较，确定用户是否为疑似异常用户，进而得到第一异常检测结果，第一异常检测结果指示用户是否为疑似异常用户。
[0108]
在本技术的一个实施例中，电子设备在得到第一异常检测结果后，可以输出第一异常检测结果，以便用户进一步确定用户是为异常用户，提高了异常用户检测的准确度。
[0109]
基于上述异常用户识别方法，本技术实施例提供了一种异常用户识别方法。参见图3，图3为本技术实施例提供的异常用户识别方法的第二种流程示意图，该方法中，步骤s14可以细化为如下步骤：
[0110]
步骤s141，若异常融合指标大于等于预设融合阈值，则确定用户的第一异常检测结果指示用户为疑似异常用户；
[0111]
步骤s142，若异常融合指标小于预设融合阈值，则确定用户的第二异常检测结果
指示用户为正常用户。
[0112]
本技术实施例提供的技术方案中，电子设备判断异常融合指标是否大于等于预设融合阈值，以确定用户的第一异常检测结果是否指示用户为疑似异常用户，便于后续对异常用户的判断。
[0113]
上述步骤s141中，电子设备将异常融合指标与预设融合阈值进行对比，若异常融合指标大于等于预设融合阈值，则确定用户的第一异常检测结果指示用户为疑似异常用户。
[0114]
上述步骤s142中，电子设备将异常融合指标与预设融合阈值进行对比，若异常融合指标小于预设融合阈值，则确定用户的第一异常检测结果指示用户为正常用户。
[0115]
基于上述异常用户识别方法，本技术实施例提供了一种异常用户识别方法，参见图4，图4为本技术实施例提供的异常用户识别方法的第三种流程示意图，该方法还可以包括如下步骤：
[0116]
步骤s15，对原始流量数据进行归一化和标准化处理，确定第一特征向量；
[0117]
步骤s16，将第一特征向量输入到预设自编码器，得到原始流量数据的第二特征向量，预设自编码器为利用正常用户的流量数据进行训练得到的自编码器；
[0118]
步骤s17，确定第一特征向量和第二特征向量之间的重构误差；
[0119]
步骤s18，基于重构误差和预设误差阈值，确定用户的第二异常检测结果，第二异常检测结果指示用户是否为疑似异常用户；
[0120]
步骤s19，根据第一异常检测结果和第二异常检测结果，确定第三异常检测结果，第三异常检测结果指示用户是否为异常用户。
[0121]
本技术实施例提供的技术方案中，从用户的原始流量数据中提取多个预设流量维度的特征，得到第一特征向量，并将第一特征向量输入预设自编码器，得到原始流量数据的第二特征向量，并确定第一特征向量和第二特征向量之间的重构误差。由于预设自编码器采用的是无监督的算法，在没有先验参考和大量的用户样本数据情况下，依然可以准确地识别出异常用户，且活动类业务中异常用户的特征虽然会随业务形态的变化而变化，但异常用户特征服从的分布始终不同于正常用户特征的分布，预设自编码器正好可以利用该特点识别异常用户，进而提高了活动类业务中异常用户的识别准确度。
[0122]
另外，综合考虑了第一异常检测结果和第二异常检测结果，来确定用户是否为异常用户，进一步提高了异常用户检测的准确性。
[0123]
上述步骤s15中，电子设备中在获取到原始流量数据后，电子设备可直接对原始流量数据进行归一化和标准化处理，得到第一特征向量。归一化和标准化处理可以使得杂乱的原始流量数据按照统一的标准排布，便于后续准确的识别异常用户。
[0124]
上述步骤s16中，电子设备中预先设置了自编码器，即预设自编码器。该预设自编码器的结构如图5所示。预设自编码器包含encoder(编码器)、decoder(解码器)和code(代码)层。其中，编码器主要用于发现给定的原始数据的压缩表示，解码器则主要用于重建输入的原始数据。该自编码器中，解码器强迫编码器选择最有信息量的特征，最终保存在代码层。以图5为例，假设原始数据维度为10，编码器包括2层，分别为输入层和编码层，解码器包括2层，分别为解码层和输出层，代码层有3个节点，也就是，原始数据经编码器处理后被降到3维。解码器对降维后的数据进行原始数据重建，得到10维的输出数据。本技术实施例中，
上述从输入到输出的过程，也可以用于对原始数据进行降噪。
[0125]
预设自编码器为利用正常用户的流量数据进行训练得到的自编码器。对于预设自编码器的训练过程，下面会进行详细介绍，此次不作展说明。
[0126]
本技术实施例中，在获取到第一特征向量后，电子设备将第一特征向量输入预设自编码器，预设自编码器对第一特征向量进行降维后重建，得到原始流量数据的第二特征向量。第二特征向量包括的预设流量维度和第一特征向量包括的预设流量维度相同。
[0127]
具体可以为，电子设备将第一特征向量输入预设自编码器，通过预设自编码器中的encoder对第一特征向量进行降维，再经由decoder对降维后的第一特征向量进行还原，重新得到与第一特征向量维度相同的第二特征向量。
[0128]
上述步骤s17中，在得到第二特征向量后，电子设备对比第一特征向量和第二特征向量，确定第一特征向量和第二特征向量之间的重构误差。
[0129]
在本技术的一个实施例中，电子设备可利用如下公式确定第一特征向量和第二特征向量之间的重构误差：
[0130]
j(θ)＝l(x,x
r
)
[0131]
其中，j(θ)表示重构误差，x为第一特征向量，x
r
为第二特征向量，l()表示重构误差的度量方式。本技术实施例中，l()可以采用l1范数的度量方式，也可以采用l2范数的度量方式，对此不作限定。
[0132]
上述步骤s18中，电子设备中预先设置了误差阈值，即预设误差阈值。预设误差阈值的大小可以根据实际需求进行设定。例如，预设误差阈值可以为0.1、0.11、0.15等。
[0133]
电子设备在计算出的重构误差之后，将计算出的重构误差与预设误差阈值进行比较，确定用户是否为异常用户，进而得到第二异常检测结果，第二异常检测结果指示用户是否为疑似异常用户。
[0134]
在本技术的一个实施例中，电子设备在得到第二异常检测结果后，可以输出第二异常检测结果，以便用户进一步确定用户是为异常用户，提高了异常用户检测的准确度。
[0135]
基于上述异常用户识别方法，本技术实施例提供了一种异常用户识别方法，参见图6，图6为本技术实施例提供的异常用户识别方法的第四种流程示意图，该方法中，步骤s18可以细化为如下步骤：
[0136]
步骤s181，若重构误差大于等于预设误差阈值，则确定用户的第二异常检测结果指示用户为疑似异常用户；
[0137]
步骤s182，若重构误差小于预设误差阈值，则确定用户的第二异常检测结果指示用户为正常用户。
[0138]
本技术实施例提供的技术方案中，直接比较重构误差和预设误差阈值的大小，确定用户是否为疑似异常用户，提高了异常用户检测的效率。
[0139]
上述步骤s181中，电子设备将重构误差与预设误差阈值进行对比。因为预设自编码器学习了正常用户的流量数据的特征，即经预设自编码器处理，正常用户的输入特征向量和输出特征向量重构误差小于预设误差阈值。因此，若比较结果为：重构误差大于等于预设误差阈值，则电子设备确定用户为疑似异常用户，将指示用户为疑似异常用户的异常检测结果作为用户的第二异常检测结果。
[0140]
上述步骤s182中，电子设备将重构误差与预设误差阈值进行对比。若比较结果为：
重构误差小于预设误差阈值，则电子设备确定用户为正常用户，将指示用户为正常用户的异常检测结果作为用户的第二异常检测结果。
[0141]
上述步骤s19中，电子设备根据第一异常检测结果和第二异常检测结果，确定出用户的第三异常检测结果，用于指示用户是否为异常用户。
[0142]
在本技术的一个实施例中，电子设备中可以预先设置了策略阈值，即预设策略阈值。预设策略阈值的大小可根据实际需求进行设定。
[0143]
基于第一异常检测结果的第一预设重要程度，以及第二异常检测结果的第二预设重要程度，对第一异常检测结果和第二异常检测结果进行加权融合，得到融合策略值。若融合策略值大于等于预设策略阈值，则确定用户的第三异常检测结果指示用户为异常用户；若融合策略值小于所述预设策略阈值，则确定用户的第三异常检测结果指示所述用户为正常用户。
[0144]
一个示例中，电子设备可以利用如下公式，确定第一异常检测结果和第二异常检测结果的融合策略值：
[0145]
y
out
＝ay
a
(1
‑
α)y
g
[0146]
其中，y
out
表示融合策略值，y
a
表示第一异常检测结果的特征值，y
g
表示第二异常检测结果的特征值，当第一异常检测结果指示用户为疑似异常用户时，y
a
为第一预设值，当第一异常检测结果指示用户为正常用户时，y
a
为第二预设值；当第二异常检测结果指示用户为疑似异常用户时，y
g
为第一预设值，当第二异常检测结果指示用户为正常用户时，y
g
为第二预设值，α表示预设折中因子。其中，α即为上述第一预设重要程度，(1
‑
α)即为上述第二预设重要程度。
[0147]
第一预设值和第二预设值可根据实际需求进行设定。例如，第一预设值为1，第二预设值为0；或者，第一预设值为0，第二预设值为1。
[0148]
上述预设折中因子可根据实际需求进行设定。其中，当α越趋近于0时，对召回要求越高，也就是，第二异常检测结果越重要。反之则对解释要求越高，也就是，第一异常检测结果越重要。
[0149]
电子设备在得到融合策略值后，比较融合策略值和预设策略阈值的大小。若比较结果为：融合策略值大于等于预设策略阈值，则电子设备可确定用户为异常用户，将指示用户为异常用户的异常检测结果作为用户的第三异常检测结果。若比较结果为：融合策略值小于预设策略阈值，则电子设备可确定用户为正常用户，将指示用户为正常用户的异常检测结果作为用户的第三异常检测结果。
[0150]
可选的，第一预设值为1，第二预设值为0。当预设策略阈值为1中，只有第一异常检测结果和第二异常检测结果均指示用户为疑似异常用户，y
out
才会大于等于预设策略阈值，也就是，确定用户为异常用户；否则，将确定用户为正常用户。此时，可确定最终的异常用户集合为：第一异常检测结果指示为异常用户的用户集合和第二异常检测结果指示为异常用户的用户集合的交集。具体可以表示为：
[0151]
φ
out
＝φ
a
∩φ
g
[0152]
其中，φ
out
表示第三异常检测结果指示为异常用户的用户集合，φ
a
表示第一异常检测结果指示为异常用户的用户集合，φ
g
表示第二异常检测结果指示为异常用户的用户集合。
[0153]
本技术实施例提供的技术方案中，根据第一异常检测结果和第二异常检测结果分别确定y
a
、y
g
的值，并根据预设折中因子决定y
a
和y
g
的权重来确定融合策略值，并判断融合策略值是否大于等于预设策略阈值，来确定用户的第三异常检测结果是否指示用户为异常用户。根据预设折中因子调整y
a
和y
g
的权重，使根据第一异常检测结果和第二异常检测结果确定出的第三异常检测结果指示的异常用户更加精准。
[0154]
在本技术的一个实施例中，在得到第一异常检测结果和第二异常检测结果之后，若第一异常检测结果指示用户为疑似异常用户，不论第二异常检测结果指示用户是否为疑似异常用户，则电子设备可直接确定指示用户为异常用户的第三异常检测结果。否则，确定指示用户为正常用户的第三异常检测结果。
[0155]
在本技术的另一个实施例中，在得到第一异常检测结果和第二异常检测结果之后，若第二异常检测结果指示用户为疑似异常用户，不论第一异常检测结果指示用户是否为疑似异常用户，则电子设备可直接确定指示用户为异常用户的第三异常检测结果。否则，确定指示用户为正常用户的第三异常检测结果。
[0156]
本技术实施例中，还可以采用其他方式确定第三异常检测结果，对此不进行限定。
[0157]
在本技术的一个实施例中，电子设备中预先设置了归因阈值，即预设归因阈值。预设归因阈值的大小可根据实际需求进行设定。
[0158]
本技术实施例中，如图2所示，在3σ以内的数据总体占比达到了99.73％，在该范围外的数据可认为存在异常。这种情况下，预设归因阈值可以为3。
[0159]
电子设备在得到归因特征对应的偏差之后，基于偏差大于预设归因阈值的归因特征，确定用户的异常特征向量。具体可以为：
[0160]
对于每个归因特征，比较该归因特征对应的偏差与预设归因阈值的大小。若该归因特征对应的偏差大于等于预设归因阈值，则电子设备可确定该归因特征为异常特征。若该归因特征对应的偏差小于预设归因阈值，则电子设备可确定该归因特征为正常特征。由异常特征组成异常特征向量。该异常特征向量中，每个归因特征对应的异常原因均为导致该用户异常的原因。
[0161]
本技术实施例提供的技术方案中，判断单维归因特征对应的偏差是否大于预设归因阈值，以确定当前单维可解释性归因特征是否为异常特征，进而确定用户的异常原因，实现用户异常的归因。
[0162]
在本技术的一个实施例中，当出现如下任一种情况时，电子设备可以输出指示用户为暂不可解释的疑似异常用户的告警信息。
[0163]
情况一，第一异常检测结果指示用户为疑似异常用户，第二异常检测结果指示用户为疑似异常用户，第三异常检测结果指示用户是正常用户；
[0164]
情况二，第一异常检测结果指示用户为正常用户，第二异常检测结果指示用户为疑似异常用户，第三异常检测结果指示用户是正常用户；
[0165]
情况三，第一异常检测结果指示用户为疑似异常用户，第二异常检测结果指示用户为正常用户，第三异常检测结果指示用户是正常用户。
[0166]
另外，当出现上述任一种情况时，管理人员还可以对该用户进行离线分析，并进行经验沉淀后，反馈至专家知识库。以便后续电子设备基于专家知识库提取归因特征，进而提高后续对用户异常的归因。
[0167]
为便于理解，本技术实施例中可以采用如下公式表示暂不可解释的疑似异常用户。
[0168]
φ
feedback
＝φ
a
∪φ
g
‑
φ
out
[0169]
其中，φ
feedback
表示暂不可解释的疑似异常用户集合，φ
out
表示第三异常检测结果指示为异常用户的用户集合，φ
a
表示第一异常检测结果指示为异常用户的用户集合，φ
g
表示第二异常检测结果指示为异常用户的用户集合。电子设备可以输出针对φ
feedback
中用户的告警信息。
[0170]
另外，本技术实施例中，对自编码器和基于归因特征对应的偏差确定用户是否为异常用户的模块进行了有机整合，并形成了闭环反馈体系，最终解决检测模型的冷启动问题，可以实现从容应对未知异常检测情况。
[0171]
基于上述异常用户识别方法，本技术实施例还提供了一种预设自编码器的训练方法，具体参见图7，图7为本技术实施例提供的预设自编码器的训练方法的一种流程示意图，该方法包括如下步骤：
[0172]
步骤s71，获取预设样本集，该预设样本集包括样本正常用户的样本流量数据；
[0173]
步骤s72，对样本流量数据进行归一化和标准化处理，得到第一样本特征向量；
[0174]
步骤s73，将第一样本特征向量输入预设自编码器，得到样本流量数据的第二样本特征向量；
[0175]
步骤s74，基于第一样本特征向量和第二样本特征向量，确定样本正常用户对应的重构误差；
[0176]
步骤s75，根据上述样本正常用户对应的重构误差和预设误差阈值，确定预设自编码器是否收敛；若是，则执行步骤s76；若否，则执行步骤s77；
[0177]
本技术实施例中，若样本正常用户对应的重构误差大于等于预设误差阈值，则可确定预设自编码器未收敛；若样本正常用户对应的重构误差小于预设误差阈值，则可确定预设自编码器收敛。
[0178]
步骤s76，结束预设自编码器的训练；
[0179]
步骤s77，调整预设自编码器的参数，并返回步骤s73。
[0180]
本技术实施例中，预设自编码器可以采用相关技术对原始的输入数据进行降维并还原。自编码器中使用了非线性激活函数，能够获取对原始的输入数据更丰富的特征表达。另外，采用上述训练过程训练预设自编码器结束后，利用该训练好的预设自编码器，可以进一步提高异常用户检测的准确性。
[0181]
下面结合图8对本技术实施例提供的异常用户识别方法进行详细说明。
[0182]
步骤s81，离线/实时获取用户的原始流量数据。
[0183]
步骤s82，利用预设自编码器，确定疑似异常用户。
[0184]
本技术实施例中，利用预设自编码器确定疑似异常用户，可解决召回的问题，得到覆盖较全的异常用户。
[0185]
步骤s83，利用预设高斯混合模型，确定疑似异常用户。
[0186]
本技术实施例中，利用预设高斯混合模型确定疑似异常用户，可解决异常归因的问题，得到可解释的异常用户。
[0187]
步骤s84，对步骤s82和s83得到疑似异常用户进行融合，获得可解释性异常的异常
用户检测结果和暂不可解释性异常的异常用户检测结果。
[0188]
步骤s85，对暂不可解释性异常的异常用户检测结果进行离线分析和经验沉淀，反馈至专家知识库中。
[0189]
本技术实施例中，通过整合预设自编码器和gmm，不仅能够同时兼顾异常检测的召回和可解释问题，通过超参α调节召回和解释两者的平衡，还具有通用性异常检测和自适应识别能力，可作为异常识别基础模型，在实际业务场景中快速完成冷启动和自适应识别，能有效降低启动成本，降低开发时间，提升项目效率。通过上述方式能够召回的可解释性异常在90％以上。对于剩余10％异常，进行离线分析和经验沉淀，使得异常检测得到反馈提升，实现反馈闭环。
[0190]
上述步骤s81
‑
s85部分的描述相对简单，具体可参见上述图1
‑
8部分的描述。
[0191]
与上述异常用户识别方法相对应，本技术实施例还提供了一种异常用户识别装置，参见图9，该异常用户识别装置包括：
[0192]
提取单元91，用于从用户的原始流量数据中提取多个预设异常原因维度的特征，得到多个归因特征；
[0193]
第一确定单元92，用于确定每个归因特征偏离预设均值的预设标准差的个数，作为每个归因特征对应的偏差；
[0194]
加权单元93，用于基于每个预设异常原因维度的权重，对每个归因特征对应的偏差进行加权求和，得到异常融合指标；
[0195]
第二确定单元94，用于基于异常融合指标和预设融合阈值，确定用户的第一异常检测结果，第一异常检测结果指示用户是否为疑似异常用户。
[0196]
可选的，第二确定单元94，具体可以用于：
[0197]
若异常融合指标大于等于预设融合阈值，则确定用户的第一异常检测结果指示用户为疑似异常用户；
[0198]
若异常融合指标小于预设融合阈值，则确定用户的第一异常检测结果指示用户为正常用户。
[0199]
可选的，如图10所示，上述异常用户识别装置还可以包括：
[0200]
第三确定单元95，用于对原始流量数据进行归一化和标准化处理，确定第一特征向量；
[0201]
输入单元96，用于将第一特征向量输入到预设自编码器，得到原始流量数据的第二特征向量，预设自编码器为利用正常用户的流量数据进行训练得到的自编码器；
[0202]
第四确定单元97，用于确定第一特征向量和第二特征向量之间的重构误差；
[0203]
第五确定单元98，用于基于重构误差和预设误差阈值，确定用户的第二异常检测结果，第二异常检测结果指示用户是否为疑似异常用户；
[0204]
第六确定单元99，用于根据第一异常检测结果和第二异常检测结果，确定第三异常检测结果，第三异常检测结果指示用户是否为异常用户。
[0205]
可选的，第五确定单元98，具体可以用于：
[0206]
若重构误差大于等于预设误差阈值，则确定用户的第二异常检测结果指示用户为疑似异常用户；
[0207]
若重构误差小于预设误差阈值，则确定用户的第二异常检测结果指示用户为正常
用户。
[0208]
可选的，第六确定单元99，具体可以用于：
[0209]
基于第一异常检测结果的第一预设重要程度，以及第二异常检测结果的第二预设重要程度，对第一异常检测结果和第二异常检测结果进行加权融合，得到融合策略值；
[0210]
若融合策略值大于等于预设策略阈值，则确定用户的第三异常检测结果指示用户为异常用户；
[0211]
若融合策略值小于预设策略阈值，则确定用户的第三异常检测结果指示用户为正常用户。
[0212]
可选的，上述异常用户识别装置还可以包括：
[0213]
第七确定单元，用于当第三异常检测结果指示用户为异常用户时，基于偏差大于预设归因阈值的归因特征，确定导致用户异常的原因。
[0214]
可选的，上述异常用户识别装置还可以包括：
[0215]
输出单元，用于当第一异常检测结果和/或第二异常检测结果指示用户为疑似异常用户，且第三异常检测结果指示用户是正常用户时，输出指示用户为暂不可解释的疑似异常用户的告警信息。
[0216]
本技术实施例提供的技术方案中，从原始流量数据中提取多个预设异常原因维度的归因特征，对归因特征融合，进而基于融合的归因特征，确定用户的第一异常检测结果。由于归因特征为预设异常原因维度的特征，即归因特征为由预设异常原因导致用户异常时的特征，因此，基于归因特征，确定用户异常时，可以对异常用户的异常原因进行解释，解决了异常情况难解释的问题。
[0217]
与上述异常用户识别方法对应，本技术实施例还提供了一种电子设备，如图11所示，包括处理器111和机器可读存储介质112，机器可读存储介质112存储有能够被处理器111执行的机器可执行指令，处理器被机器可执行指令促使：实现上述异常用户识别方法的任一步骤。
[0218]
机器可读存储介质可以包括随机存取存储器(random access memory，ram)，也可以包括非易失性存储器(non
‑
volatile memory，nvm)，例如至少一个磁盘存储器。可选的，机器可读存储介质还可以是至少一个位于远离前述处理器的存储装置。
[0219]
处理器可以是通用处理器，包括中央处理器(central processing unit，cpu)、网络处理器(network processor，np)等；还可以是数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现场可编程门阵列(field
‑
programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0220]
在本技术提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，计算机程序被处理器执行时实现上述任一异常用户识别方法的步骤。
[0221]
在本技术提供的又一实施例中，还提供了一种计算机程序，当其在计算机上运行时，使得计算机执行上述实施例中任一异常用户识别方法步骤。
[0222]
在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序
产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本技术实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，dvd)、或者半导体介质(例如固态硬盘solid state disk(ssd))等。
[0223]
需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0224]
本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质和计算机程序实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
[0225]
以上所述仅为本技术的较佳实施例，并非用于限定本技术的保护范围。凡在本技术的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本技术的保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种异常用户识别方法、装置、电子设备及存储介质与流程

相关文献

最热文献