一种异常检测方法、装置及计算机存储介质与流程

2022-04-16 13:06:49 来源：中国专利 TAG：

1.本技术涉及数据安全技术领域，尤其涉及一种异常检测方法、装置及计算机存储介质。

背景技术：

2.近年来，随着互联网的普及，业务系统存储着大量的用户敏感信息，在信息领域中数据安全越来越受到管理者的关注。用户敏感信息泄漏的原因具有多种，除了黑客攻击、病毒感染、网站漏洞等常见原因，还包括一些人为故意的窃取及泄漏。
3.在业务系统运行过程中，通过日志审计去了解工作人员的操作行为是防止敏感信息泄露的重要手段。然而，目前的日志审计方法存在一些缺陷，比如，一方面，通常采用预设阈值对操作频次是否异常进行判断的，但是阈值的设定需要丰富的业务经验，而且统一的阈值将无法满足差异性的业务需求；另一方面，如果被审计的日志来源于不同的系统或者不同的单位时，目前的日志审计方法没有考虑地域间的业务差异；再一方面，在根据历史数据进行建模时，目前需要对所有账号进行统一分析及审计，并没有考虑到各账号自身的行为特征，导致目前日志审计方法的准确性不高。

技术实现要素：

4.本技术提供了一种异常检测方法、装置及计算机存储介质，能够充分考虑不同地域的业务情况差异和不同行为主体的自身特征差异，从而可以提高日志审计结果的准确性。
5.本技术的技术方案是这样实现的：
6.第一方面，本技术提供了一种异常检测方法，该方法包括：
7.获取待检测日志；其中，所述待检测日志中包含当前检测周期中多个行为主体在目标业务系统的操作行为信息；
8.对所述待检测日志进行统计分析，确定目标行为主体对应的操作行为指标数据；其中，所述目标行为主体是所述多个行为主体中的一个；
9.利用至少两个预设模型对所述操作行为指标数据分别进行处理，获得至少两个输出结果；其中，所述至少两个预设模型包括第一模型和第二模型，所述第一模型用于结合所述目标行为主体的地域特征确定所述目标行为主体是否异常的输出结果，所述第二模型用于结合所述目标行为主体的历史操作行为指标数据确定所述目标行为主体是否异常的输出结果；
10.根据所述至少两个输出结果，确定所述目标行为主体是否存在异常。
11.第二方面，本技术提供了一种异常检测装置，该异常检测装置包括获取单元、统计单元、检测单元和确定单元，其中，
12.获取单元，配置为获取待检测日志；其中，所述待检测日志中包含当前检测周期中多个行为主体在目标业务系统的操作行为信息；
13.统计单元，配置为对所述待检测日志进行统计分析，确定目标行为主体对应的操作行为指标数据；其中，所述目标行为主体是所述多个行为主体中的一个；
14.检测单元，配置为利用至少两个预设模型对所述操作行为指标数据分别进行处理，获得至少两个输出结果；其中，所述至少两个预设模型包括第一模型和第二模型，所述第一模型用于结合所述目标行为主体的地域特征确定所述目标行为主体是否异常的输出结果，所述第二模型用于结合所述目标行为主体的历史操作行为指标数据确定所述目标行为主体是否异常的输出结果；
15.确定单元，配置为根据所述至少两个输出结果，确定所述目标行为主体是否存在异常。
16.第三方面，本技术提供了一种异常检测装置，该异常检测装置包括存储器和处理器；其中，
17.所述存储器，用于存储能够在所述处理器上运行的计算机程序；
18.所述处理器，用于在运行所述计算机程序时，执行如第一方面所述方法的步骤。
19.第四方面，本技术提供了一种计算机存储介质，该计算机存储介质存储有异常检测程序，该异常检测程序被至少一个处理器执行时实现如第一方面所述方法的步骤。
20.本技术实施例提供了一种异常检测方法、装置及计算机存储介质，通过获取待检测日志；其中，所述待检测日志中包含当前检测周期中多个行为主体在目标业务系统的操作行为信息；对所述待检测日志进行统计分析，确定目标行为主体对应的操作行为指标数据；其中，所述目标行为主体是所述多个行为主体中的一个；利用至少两个预设模型对所述操作行为指标数据分别进行处理，获得至少两个输出结果；其中，所述至少两个预设模型包括第一模型和第二模型，所述第一模型用于结合所述目标行为主体的地域特征确定所述目标行为主体是否异常的输出结果，所述第二模型用于结合所述目标行为主体的历史操作行为指标数据确定所述目标行为主体是否异常的输出结果；根据所述至少两个输出结果，确定所述目标行为主体是否存在异常。这样，通过第一模型能够实现结合地域特征对目标行为主体进行异常检测，考虑了地域间的业务差异；另外，通过第二模型能够实现结合历史操作行为指标数据对目标行为主体进行异常检测，考虑了不同行为主体的自身特征差异，从而提高了日志审计结果的准确性。
附图说明
21.图1为本技术实施例提供的一种异常检测方法的流程示意图。
22.图2为本技术实施例提供的一种日志审计系统的流程架构示意图。
23.图3为本技术实施例提供的另一种异常检测方法的流程示意图。
24.图4为本技术实施例提供的又一种异常检测方法的流程示意图。
25.图5为本技术实施例提供的一种异常检测装置的组成结构示意图。
26.图6为本技术实施例提供的另一种异常检测装置的组成结构示意图。
27.图7为本技术实施例提供的一种异常检测装置的具体硬件结构示意图。
28.图8为本技术实施例提供的一种日志审计系统的组成结构示意图。
具体实施方式
29.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述。
30.相关技术中，基于日志审计的异常检测方法包括以下几种：(1)通过多关键字和正则表达式匹配进行异常检测；(2)将日志分为结构化和非结构化两个部分，利用层次聚类进行异常检测；(3)部分技术方案通过日志管理分析模块，根据预设的关联规则库进行日志数据关联分析，根据关联分析结果对日志数据进行分类入库或进行异常检测告警；(4)基于用户行为日志，通过统计规则，进行自动化报表分析，以简便、高效的方式自动化生成报表，并进行日志的异常审计。
31.然而，对于以上异常检测方法，存在以下的缺点：
32.(1)根据预设阈值进行审计频次异常的情况，例如操作频次、网际协议地址(internet protocol，ip)切换频次等的判断，一方面阈值的设定需要丰富的业务经验；另一方面，如果操作日志来源于不同的业务系统，统一的阈值无法满足差异性的业务需求；
33.(2)当操作日志来源于不同的系统或者不同单位时，各种异常检测方法没有考虑系统或单位间的差异；
34.(3)基于历史数据进行建模时，对所有账号进行统一的分析及审计，没有考虑各账号自身的行为特征。
35.基于此，本技术实施例提供了一种异常检测方法，通过获取待检测日志；其中，所述待检测日志中包含当前检测周期中多个行为主体在目标业务系统的操作行为信息；对所述待检测日志进行统计分析，确定目标行为主体对应的操作行为指标数据；其中，所述目标行为主体是所述多个行为主体中的一个；利用至少两个预设模型对所述操作行为指标数据分别进行处理，获得至少两个输出结果；其中，所述至少两个预设模型包括第一模型和第二模型，所述第一模型用于结合所述目标行为主体的地域特征确定所述目标行为主体是否异常的输出结果，所述第二模型用于结合所述目标行为主体的历史操作行为指标数据确定所述目标行为主体是否异常的输出结果；根据所述至少两个输出结果，确定所述目标行为主体是否存在异常。这样，通过第一模型能够实现结合地域特征对目标行为主体进行异常检测，考虑了地域间的业务差异；另外，通过第二模型能够实现结合历史操作行为指标数据对目标行为主体进行异常检测，考虑了不同行为主体的自身特征差异，从而提高了日志审计结果的准确性。
36.下面将结合附图对本技术各实施例进行详细说明。
37.在本技术的一实施例中，参见图1，其示出了本技术实施例提供的一种异常检测方法的流程示意图，如图1所示，该方法可以包括：
38.s101：获取待检测日志；
39.需要说明的是，业务系统在运行过程中，工作人员的操作行为通常会产生大量日志信息，通过操作日志去了解工作人员的操作行为是防止内部违规行为的重要手段之一。因此，本技术实施例通过对操作日志进行分析，判断行为主体(即工作人员)是否存在如人为查询泄露隐私信息的违规事件，从而防止客户信息的内部泄露。
40.基于此，首先需要从目标业务系统内提取出待检测日志。由于异常检测方法是以周期为单位进行的，比如一天、一周或者一月，也就是说，待检测日志包含所有在当前操作
周期内访问该服务器的行为主体信息以及具体的操作行为信息。
41.s102：对所述待检测日志进行统计分析，确定目标行为主体对应的操作行为指标数据；
42.需要说明的是，所述目标行为主体是所述多个行为主体中的一个。
43.由于待检测日志中可能包含有多个行为主体的操作信息，而实际分析时对每一个行为主体均需要进行单独分析。因此，在获得待检测日志后，需要统计出对应于每一个行为主体的操作行为指标数据，然后利用操作行为指标数据进行后续操作，以确定该行为主体是否异常，而作为检测对象的行为主体即为目标行为主体。
44.需要说明的是，对于业务系统而言，不同的工作人员通过自己的授权账号进行访问和操作，从而在业务系统中留下痕迹。换句话说，从业务系统中提取到的待检测日志中记录了大量操作行为和操作行为相关的信息。通过日志分析技术，能够识别出具体的操作行为、操作账号以及操作时间等；然后针对目标行为主体进行统计得到对应于目标行为主体的操作行为指标数据。
45.待检测日志中记录了大量操作行为和操作行为相关的信息，因此，在一些实施例中，所述步骤s102，具体可以包括：
46.对所述待检测日志进行解析操作，得到待检测信息；
47.对于目标行为主体，基于预设行为指标对所述待检测信息进行统计分析，得到操作行为指标数据；其中，所述预设行为指标包括但不限于以下几项：操作频次、非工作时间操作频次、在线时长、服务端ip地址个数和客户端ip地址个数。
48.需要说明的是，实际使用中，步骤s102可以细化为两个步骤，第一步，对获取的待检测日志进行解析操作，以获取待检测信息；第二步，对于提取到的关键信息进行分类和统计，从而得到对应于目标行为主体的操作行为指标数据。另外，基于程序节约性原则，在统计操作行为指标数据时，可以同时得到对应于多个行为主体的操作行为指标数据。
49.需要说明的是，根据实际应用需求，设置作为检验变量的一些行为指标，例如操作频次、非工作时间操作频次、在线时长、服务端ip地址个数和客户端ip地址个数等。对于目标行为主体，从待检测日志中统计出该目标行为主体对应于预设行为指标的数据，就得到了操作行为指标数据。这样，通过操作行为指标数据，可以判断目标行为主体是否为异常行为主体。
50.示例性地，对于待检测日志，首先利用日志解析技术得到以下信息：数据来源单位、系统编码、行为主体身份标识号(identity document，id)、操作id、操作时间、服务端ip、客户端ip、操作对象是否涉敏和操作对象id；然后，以行为主体id作为分组变量(即分别针对不同的行为主体id进行统计)，根据预设行为指标统计得到操作行为指标数据。操作行为指标数据包括但不限于：数据来源单位、系统编码、行为主体id、周期标识(以天为周期时，即为操作日期)、操作频次、非工作时间操作频次、在线时长(分钟)、服务端ip地址个数、客户端ip地址个数。
51.s103：利用至少两个预设模型对所述操作行为指标数据分别进行处理，获得至少两个输出结果；
52.需要说明的是，所述至少两个预设模型包括第一模型和第二模型，所述第一模型用于结合所述目标行为主体的地域特征确定所述目标行为主体是否异常的输出结果，所述
第二模型用于结合所述目标行为主体的历史操作行为指标数据确定所述目标行为主体是否异常的输出结果。
53.需要说明的是，由于不同行为主体的操作数据本身就包括多种差异，比如大型集团公司可能具有分布于不同省份的多个子公司，对于不同地域的子公司而言，其业务内容、审计开展情况均有所差异，导致不同地域的行为主体的数据存在差异；另外，不同行为主体本身的工作内容和操作习惯也具有差异。因此，仅采用统一规则对所有行为主体进行审计时结果的准确性不高。基于此，可以采用多个预设模型分别从不同的角度关注行为主体的日志数据，从而更加全面性的对行为主体是否异常进行判断。
54.在本技术实施例中，至少两个预设模型包括第一模型和第二模型，其中，第一模型已经充分考虑了不同地域间工作人员的业务内容或其他制度的差异，纳入了不同地域的环境变量特征，即对于目标行为主体，将结合该目标行为主体所在地域的环境变量构建异常检测模型，然后对该目标行为主体进行分析。应理解，不同地域是一个宏观概念，其实质含义是“不同行为主体所在的宏观环境不同所导致的差异”，因此，不同地域也可以引申为不同系统、同一公司的不同部门或者不同单位。
55.另一方面，第二模型从行为主体的时序特征入手，建立了时间变量下的针对每一行为主体的异常筛查模型，即对于目标行为主体，将结合该目标行为主体的历史操作行为指标特征构建异常检测模型，例如，行为主体之前的操作频率较低，在某一周期操作频率突然增加但并未超过第一模型的异常阈值，这时第一模型并不能筛选出该行为主体，然而实际上该行为主体是潜在的异常对象，有必要对该行为主体进行核查，而应用第二模型可将其筛选出。
56.还需要说明的是，异常检测本身是一个周期重复性过程，在多次异常检测的过程中，可以采用相同的预设模型，也可以针对每次日志审计都采用新的预设模型。后一种方法能够充分考虑不同时间周期中行为主体的工作内容变化所带来的差异，但是所需要的处理量较大，可以根据实际的审计需求进行选用。
57.在一种具体实施方案中，在每次进行异常检测时，都会根据最新的历史数据生成最新的预设模型。也就是说，在所述基于预设模型对所述操作行为指标数据进行检测之前，该方法还包括：获取历史数据集；其中，所述历史数据集中至少包括上一检测周期中多个行为主体对应的多个指标数据和多个结果标签；基于所述历史数据集，训练得到第一模型和第二模型。
58.实际使用中，工作人员的工作内容、操作行为会随着时间进行变化。因此，在每次进行异常检测之前，都根据最新的历史数据生成预设模型，能够提高日志审计的准确性。历史数据集一般是面板数据，即在时间序列上取多个截面，在这些截面上同时选取样本观测值所构成的样本数据。也就是说，历史数据集实际是指多个历史操作周期内的数据。
59.在本技术实施例中，历史数据集包括了上一检测周期中多个行为主体对应的多个操作行为指标数据和多个结果标签。为了达到最好的拟合效果，在利用预设模型对操作行为指标数据进行检测之前，获取包含有上一检测周期中数据的历史数据集，也即最新的历史数据，然后根据历史数据集生成预设模型。这样，预设模型是随着时间进行变化的，始终包含了已经完成的最近一次检测周期中的数据。
60.需要说明的是，预设模型可以采用多种方法进行建模，因此，在一些实施例中，所
述第一模型包括多层逻辑回归模型，所述第二模型包括多层逻辑回归模型。
61.需要说明的是，第一模型和第二模型可以采用多层逻辑(logistic)回归模型，也可以采用其他形式的模型，比如文档主体生成模型(latent dirichlet allocation，lda)、正则匹配关系式模型以及神经网络模型等，而且第一模型和第二模型两者之间可以采用不同形式的模型，本技术实施例不作限定。
62.进一步地，在一些实施例中，第一模型为多层logistic回归模型，在所述利用至少两个预设模型对所述操作行为指标数据进行处理，获得至少两个输出结果之前，该方法还可以包括：
63.对第一历史数据集进行模型训练，得到第一训练模型；其中，所述第一历史数据集是基于所述目标行为主体的地域特征所确定的历史数据集合，且所述第一历史数据集包括与所述地域特征相同的多个行为主体的历史操作行为指标数据，所述第一训练模型包括多个第一训练参数，所述第一训练参数是所述第一训练模型中的模型系数；
64.利用所述第一历史数据集对多个第一训练参数进行训练，得到多个第一参数模型；
65.将所述第一训练模型和所述多个第一参数模型确定为所述第一模型。
66.需要说明的是，第一历史数据集是指来自于不同省份的多个行为主体的行为指标数据(即第一指标数据)和结果标签(第一结果标签)，行为指标数据是指行为主体的非工作时间操作频次、客户端ip地址个数、服务端ip地址个数等操作行为相关的指标，结果标签是指该行为主体是否为异常行为主体，例如，将异常行为主体的结果标签设置为1，正常主体的结果标签设置为0。行为指标数据和结果标签的具体内容和赋值可以根据实际审计需求进行确定，本技术实施例不作限定。
67.另外，由于第一模型用于指示宏观概念上的不同地域的行为主体的异常特征，也可以引申为不同部门、不同系统的行为主体的异常特征，在这种情况下，第一历史数据集则是来自于不同部门/系统的多个行为主体的行为指标数据和结果标签。
68.需要说明的是，多层模型主要应用于具有层级结构的数据。例如，原始数据来源于不同地域的多个行为主体产生的操作日志，其中各行为主体的数据受到宏观层面(不同省份的业务特征，如省内是否建立日志异常行为审计机制)和微观层面(各个行为主体本身行为特征)的影响。此时，应用多层logistic回归模型可以将不同层次的变量信息和随机误差考虑进来，从而提高模型的准确性。
69.当采用多层思想来构建第一模型时，第一模型包括第一训练模型和第一参数模型。其中，第一训练模型是通过将第一指标数据作为输入值，将第一结果标签作为输出值构建得到的，应理解，构建得到的第一训练模型中包括了多个拟合参数(即第一训练参数)；之后，以多个第一训练参数作为输出值，以第一指标数据作为输入值，可构建得到多个第一参数模型。也就是说，在实际使用时，第一参数模型的输出值将作为第一训练模型的参数。
70.由于第一训练模型中可能包括有多个第一训练参数(第一训练参数的个数需要根据第一训练模型的构建原理来确定)，所以第二参数模型实际上具有多个，也就是说，第一训练模型和多个第一参数模型构成了第一模型。应理解，多个第二参数模型在拟合过程中存在相互影响的关系，属于一个整体，并非是互相独立的。
71.另外，在本技术实施例中，操作行为指标数据中又包含多个种类的指标，如非工作
时间操作频次、客户端ip地址个数、服务端ip地址个数和是否具有省内审计机制等，由于第一训练模型和第一参数模型建立的意义并不相同，所以可以选取第一指标数据中不同种类指标进行组合，分别作为第一训练模型和第一参数模型的自变量。
72.这样，通过多层思想构建第一模型，能够纳入随机效应，考虑到了不同地域中实际业务以及数据情况的差异，提高检测结果的准确性。
73.还需要说明的是，在第一模型构建完成后，还需要对第一模型进行优化操作，保证第一模型用于异常检测时的准确性。因此，在一些实施例中，在所述将所述第一训练模型和所述多个第一参数模型确定为所述第一模型之后，该方法还可以包括：
74.对所述第一模型进行调优操作，得到调优后的第一模型；
75.获取所述调优后的第一模型的第一显著水平值，判断所述第一显著水平值是否符合第一预设标准；
76.在所述第一显著水平值符合第一预设标准的情况下，将所述调优后的第一模型确定为所述第一模型。
77.需要说明的是，在利用第一历史数据集训练第一模型后，对第一模型进行调优操作，然后获得调优后的第一模型的第一显著水平值，第一显著水平表示该模型用于检测第一历史数据集时的显著性结果。如果第一显著水平值不符合第一预设标准，则说明调优后的第一模型并不具有统计学意义，则需要进一步对第一模型进行优化，直到第一显著水平值满足要求。另外，第一预设标准是根据第一模型的建模原理来确定的，一般来说，当第一显著水平值低于显著性阈值时，认为第一显著水平值符合第一预设标准。
78.还需要说明的是，在得到第一模型后，也可以先对模型进行显著性判断，然后决定是否需要进行调优操作。调优操作依赖于算法设计人员的经验，算法设计人员需要凭借经验选择合适的模型优化方法对进行调优操作，常见的模型优化方法包括调整输入参数的种类和数量、更改赋值方法、约束条件等。
79.第二模型可以为多层logistic回归模型。因此，在一些实施例中，在所述利用至少两个预设模型对所述操作行为指标数据进行处理，获得至少两个输出结果之前，该方法还可以包括：
80.对第二历史数据集进行模型训练，得到第二训练模型；其中，所述第二历史数据集包括多个行为主体的历史操作行为指标数据，所述第二训练模型包括多个第二训练参数，所述第二训练参数是所述第二训练模型中的模型系数；
81.利用所述第二历史数据集对多个第二训练参数进行训练，得到多个第二参数模型；
82.将所述第二训练模型和所述多个第二参数模型确定为所述第二模型。
83.需要说明的是，由于第二模型和第一模型的含义不同，所以需要用不同于第一历史数据集的第二历史数据集构建第二模型，第二历史数据集是指来自于不同检测周期中多个行为主体的行为指标数据(即第二指标数据)和结果标签(第二结果数据)，一般来说，第二历史数据集至少包括30个周期以上的数据，才能够达到较好的拟合效果。同第一历史数据集相似，行为指标数据和结果标签的具体内容和赋值可以根据实际审计需求进行确定，本技术实施例不作限定。
84.第二模型同样可以采用多层思想来构建，所以，第二模型同样包括第二训练模型
和第二参数模型，具体地，第二模型的构建方法可参照第一模型，即以所述第二指标数据作为模型输入，以所述第二结果标签作为模型输出，训练得到第二训练模型；其中，所述第二训练模型包括多个第二训练参数；以所述第二指标数据作为输入，以多个第二训练参数作为输出，训练得到多个第二参数模型，将第二训练模型和所有的第二参数模型确定为所述第二模型。
85.还需要说明的是，在第二模型构建完成后，还需要对第二模型进行优化操作，保证第二模型用于验证时的准确性。因此，在一些实施例中，在所述将所述第二训练模型和所述多个第二参数模型确定为所述第二模型之后，所述方法还包括：
86.对所述第二模型进行调优操作，得到调优后的第二模型；
87.获取所述调优后的第二模型的第二显著水平值，判断所述第二显著水平值是否符合第二预设标准；
88.在所述第二显著水平值符合第二预设标准的情况下，将所述调优后的第二模型确定为所述第二模型。
89.需要说明的是，第二模型同样需要进行优化过程，以使得第二模型的显著性符合要求，具体的优化操作可以参照前述，在此不作赘述。
90.这样，根据至少两个预设模型，分别将操作行为指标数据作为输入值，可以得到至少两个输出结果，从而更加综合性的对行为主体进行判断，提高日志审计的准确性。
91.s104：根据所述至少两个输出结果，确定所述目标行为主体是否存在异常。
92.需要说明的是，根据来自于不同预设模型的至少两个输出结果，可以对所述目标行为主体进行判断，从而确定所述目标行为主体是否存在异常，最终完成异常检测。另外，根据至少两个输出结果对所述目标行为主体进行判断的过程可以包括多种，例如，如果有一个输出结果超过临界值则认为目标行为主体存在异常，或者所有输出结果均超过临界值才认为目标行为主体存在异常，本实施例不作限定。
93.还需要说明的是，如果至少两个预设模型包括第一模型和第二模型，在一些实施例中，所述至少两个输出结果包括第一输出结果和第二输出结果；所述利用至少两个预设模型对所述操作行为指标数据分别进行处理，获得至少两个输出结果，具体可以包括：
94.将所述目标行为主体的操作行为指标数据输入所述第一模型中，得到第一拟合概率值；根据所述第一拟合概率值与第一临界阈值的比较结果，确定所述第一输出结果；其中，所述第一拟合概率值表示通过所述第一模型计算得到的所述目标行为主体的异常概率值；
95.将所述目标行为主体的操作行为指标数据和所述目标行为主体的历史操作行为指标数据输入所述第二模型中，得到第二拟合概率值；根据所述第二拟合概率值与第二临界阈值的比较结果，确定所述第二输出结果；其中，所述第二拟合概率值表示通过所述第二模型计算得到的所述目标行为主体的异常概率值；
96.相应地，所述根据所述至少两个输出结果，确定所述目标行为主体是否存在异常，具体可以包括：
97.对所述第一输出结果和所述第二输出结果进行加权计算，得到综合异常概率值；
98.在所述综合异常概率值大于异常临界值的情况下，确定所述目标行为主体存在异常。
99.需要说明的是，将目标行为主体的操作行为指标数据输入到第一模型中计算得到第一拟合概率，将目标行为主体的操作行为指标数据和历史操作行为指标数据输入到第二模型中，计算得到第二拟合概率值。由于第一模型和第二模型是两个相对独立的模型，所以第一拟合概率值和第二拟合概率值在统计学意义上的含义并不相同，也并不属于相同维度的数据。因此，可以进一步根据第一拟合概率值确定第一输出结果，根据第二拟合概率值确定第二输出结果，这个过程可以理解为将第一输出结果和第二输出结果进行统一的过程，以使得第一拟合概率值和第二拟合概率值转换为同一维度的参数，以进行后续运算。
100.需要说明的是，第一输出结果代表着利用第一模型判断目标行为主体是否异常，第二输出结果代表着利用第二模型判断目标行为主体是否异常，因此，通过给第一输出结果和第二输出结果进行加权求和，能够综合第一模型和第二模型的判断结果，得到更为全面的综合异常概率值。若综合异常概率值大于异常临界值，则确定所述目标行为主体存在异常。在此，异常临界值是根据实际审计需求进行设定的，比如在安全性要求较高的情况下，异常临界值可以设定的较低；在安全性要求较低的情况下，异常临界值就可以设定的较高。
101.还需要说明的是，第一输出结果和第二输出结果的权值可以是相同的，也可以是不同。在一种可行的情况中，第一输出结果取值为1或0，1代表异常，0代表正常。在这种情况下，异常概率值越高，目标行为主体的异常可能性越大。这些赋值和设定都可以根据实际使用需求进行调整，即第一输出结果也可以设置为1代表正常，0代表异常，此时，异常概率值越低，则目标行为主体的异常可能性越大。
102.第一输出结果可以定性确定。因此，在一些实施中，所述根据所述第一拟合概率值与第一临界阈值的比较结果，确定第一输出结果，具体可以包括：
103.将所述第一拟合概率值与第一临界阈值进行比较；
104.在所述第一拟合概率值大于第一临界阈值的情况下，确定所述第一输出结果为1；
105.在所述第一拟合概率值小于或等于第一临界阈值的情况下，确定所述第一输出结果为0。
106.需要说明的是，作为一种可行的实施方法，第一输出结果可以定性确定，即在第一拟合概率值大于第一临界阈值的情况下，将第一输出结果确定为1，否则确定为0。在此，第一临界阈值本身是模型的一部分，即对于第一模型来说，其第一临界阈值是在建模时确定好的。一般来说，第一临界阈值可以设置为0.5。
107.类似的，第二输出结果也可以定性确定。因此，在一些实施例中，所述根据所述第二拟合概率值与第二临界阈值的比较结果，确定第二输出结果，具体可以包括：
108.将所述第二拟合概率值与第二临界阈值进行比较；
109.在所述第二拟合概率值大于第二临界阈值的情况下，确定所述第二输出结果为1；
110.在所述第二拟合概率值小于或等于第二临界阈值的情况下，确定所述第二输出结果为0。
111.需要说明的是，第二输出结果可以通过类似于第一输出结果的方法确定，即在第一拟合概率值大于第一临界阈值的情况下，将对应于第一输出结果确定为1，否则确定为0。
112.对于第一模型和第二模型来说，均是利用相关数据进行建模得到的，在此基础上，还可以参考审计人员的业务经验，进一步提高审计结果的准确性。因此，在一些实施例中，
所述预设模型还包括第三模型，该方法还可以包括：
113.利用所述第三模型对所述操作行为指标数据进行处理，获得第三输出结果；其中，所述第三模型用于结合预设业务阈值确定所述目标行为主体是否异常的输出结果；
114.相应地，所述根据所述至少两个输出结果，确定所述目标行为主体是否存在异常，包括：
115.对所述第一输出结果、所述第二输出结果和第三输出结果进行加权计算，得到综合异常概率值；
116.在所述综合异常概率值大于异常临界值的情况下，确定所述目标行为主体存在异常。
117.需要说明的是，第三模型用于指示根据业务经验确定所述目标行为主体是否异常。也就是说，根据审计人员的实际审计经验构建第三模型，通过第三模型对操作行为指标数据进行检验，能够从业务经验的角度给出异常与否的判断，增加了审计结果的准确性。
118.在预设模型还包括第三模型的情况下，需要纳入第三输出结果来判断目标行为主体是否为异常行为主体。一种可行的方法是，对第一输出结果、第二输出结果和第三输出结果分别进行赋权，然后加权求和得到异常概率值，通过将异常概率值与异常临界值进行比较，从而判断所述目标行为主体是否为异常行为主体。这样，综合考虑了不同地域、不同时间周期和已有的审计经验对目标行为主体进行审计，能够提高审计结果的准确性。
119.第三模型可以采用阈值判断的模式。因此，在一些实施例中，所述利用所述第三模型对所述操作行为指标数据进行处理，获得第三输出结果，具体可以包括：
120.将所述操作行为指标数据与所述预设业务阈值进行比较；
121.在所述操作行为指标数据大于所述预设业务阈值的情况下，确定所述第三输出结果为1；
122.在所述操作行为指标数据小于或等于所述预设业务阈值的情况下，确定所述第三输出结果为0。
123.需要说明的是，第三模型可以采用阈值判断的模式，即根据以往审计人员的业务经验，分别制定行为指标阈值。例如，操作次数阈值、操作时间阈值、在线时长阈值等，然后通过将目标行为人员的操作行为指标数据与这些阈值相比较(例如，如果高于对应的阈值，则第三输出结果赋值为1；否则，第三输出结果赋值为0)，从而获得第三输出结果。
124.进一步地，在一些实施例中，在确定所述目标行为主体存在异常的情况下，该方法还可以包括：
125.接收所述目标行为主体存在异常的核实结果；其中，所述核实结果表示用户对所述目标行为主体是否存在异常的确认结果；
126.基于所述核实结果，为所述目标行为主体设置结果标签；其中，所述结果标签用于表征所述目标行为主体是否属于异常行为主体。
127.需要说明的是，虽然通过预设模型能够初步筛选出异常行为主体，但是由于模型并不一定完美，所以可能会存在误判的情形。因此，在确定所述目标行为主体存在异常之后，可以上报给审计人员(或目标行为主体的主管领导)，由审计人员(或目标行为主体的主管领导)对该目标行为主体进行人工核实，获得核实结果。然后基于核实结果，为所述目标行为主体设置结果标签，以便于后续周期中，利用历史数据拟合生成模型时利用结果标签
生成该目标行为主体的结果数据，这样模型生成时始终采用的是真实结果，能够提高下一周期模型拟合时的准确性。
128.示例性的，以1天作为检测周期，每次检测前，都利用最新的历史数据训练得到第一模型、第二模型，采用第一模型、第二模型和已有的第三模型对当天的日志数据进行分析；如果某一行为主体被判定为异常行为主体，则上报给工作人员，由工作人员对该行为主体进行人工核实；如果核实结果为该行为主体确是为异常行为主体，则将对该目标行为主体设置结果标签，具体可以为在该目标行为主体对应的操作行为指标数据中设置结果数据为1；如果核实结果为非异常行为主体，则不设置结果数据或者设置结果数据为0。这样，在下一检测周期时，前一天的日志数据将作为最新历史数据的一部分，由于经过了核实操作，其中的结果数据都代表了真实结果，能够使模型拟合更加准确。
129.需要说明的是，在本实施例中，因为每次检测都是以“目标行为主体”进行检测的，一个行为主体即代表一个账号个体。具体的，在第二模型的计算过程中，需要根据目标行为主体的历史操作行为指标数据和当前操作行为指标数据进行比较，这样考察的是该账号个体的历史变化趋势，所以能够从账号个体维度进行分析。也就是说，第一模型对应地域(或单位、业务)维度，第二模型对应账号个体维度，第三模型对应审计人员的业务经验，从而达到“基于面板数据从业务、单位、账号个体多个维度分别建立异常检测模型，降低对审计人员业务经验的依赖，但也不完全摒弃业务经验”的效果。
130.综上所述，本方案结合业务经验、各省审计业务开展情况的差异、各账号性质的差异，同时使用省间异常检测模块、纵向发展异常检测模块和业务阈值模块，多管齐下，提高基于操作行为的日志审计结果的精准度。也就是说，本方案充分考虑了各业务分组操作频次的分布差异和各行为主体历史操作频次分布差异，同时使用业务经验阈值模块、纵向动态阈值设定模块和横向动态阈值设定模块，综合性的提高日志审计结果的精准度。
131.本技术实施例提供一种异常检测方法，通过获取待检测日志；其中，所述待检测日志中包含当前检测周期中多个行为主体在目标业务系统的操作行为信息；对所述待检测日志进行统计分析，确定目标行为主体对应的操作行为指标数据；其中，所述目标行为主体是所述多个行为主体中的一个；利用至少两个预设模型对所述操作行为指标数据分别进行处理，获得至少两个输出结果；其中，所述至少两个预设模型包括第一模型和第二模型，所述第一模型用于结合所述目标行为主体的地域特征确定所述目标行为主体是否异常的输出结果，所述第二模型用于结合所述目标行为主体的历史操作行为指标数据确定所述目标行为主体是否异常的输出结果；根据所述至少两个输出结果，确定所述目标行为主体是否存在异常。这样，通过第一模型能够实现结合地域特征对目标行为主体进行异常检测，考虑了地域间的业务差异；另外，通过第二模型能够实现结合历史操作行为指标数据对目标行为主体进行异常检测，考虑了不同行为主体的自身特征差异，从而提高了日志审计结果的准确性。除此之外，本技术的技术方案还能够在每次检测前根据最新的历史数据生成并优化预设模型，从而达到持续优化预设模型的效果，进一步提高了日志审计结果的准确性。
132.在本技术的另一实施例中，参见图2，其示出了本技术实施例提供的一种日志审计系统的流程架构示意图，如图2所示，该系统架构包括八大模块，分别为操作日志提取模块201、行为指标生成模块202、行为主体异常标记模块203、省间异常检测模块204、纵向发展异常检测模块205、业务阈值模块206、审计结果输出模块207和审计结果反馈模块208；其
中，
133.操作日志提取模块201，用于获取各行为主体的操作日志信息；
134.需要说明的是，操作日志提取模块201的主要功能是获取各行为主体操作的关键信息。
135.示例性的，参见表1，其示出了本技术实施例提供的一种操作日志提取的关键字段表。如表1所示，对于待检测日志，可以根据字段名称提取出以下信息：(1)数据来源单位，字段名称为pv，指使用系统的行为主体的组织归属，例如：集团公司的各子公司，一个公司的各部门等，根据不同的业务场景，实际意义不同；(2)系统编码，字段名称为systemcode，指操作日志来源的业务系统；(3)行为主体id，字段名称为accountid，用于识别一个具体的行为主体；(4)操作id，字段名称为operationid，用于标识操作日志内的一次操作；(5)操作时间，字段名称为operationtime，是指行为主体进行一次操作的具体时间；(6)服务端ip，字段名称为serverip，是指行为主体访问的敏感信息所在的服务器ip地址；(7)客户端ip，字段名称为clientip，是指行为主体所使用的ip地址；(8)操作对象id，字段名称为objectid，是能够定位到一个数据信息的最小模块；(9)操作对象是否涉敏，字段名称为ifsensitive，是指数据信息是否包含敏感内容的标识，如果数据信息包含敏感内容则取值为1，否则取值为0。
136.表1
137.序号字段名称中文字段1pv数据来源单位2systemcode系统编码3accountid行为主体id4operationid操作id5operationtime操作时间6serverip服务端ip7clientip客户端ip8ifsensitive操作对象是否涉敏9objectid操作对象id
138.行为指标生成模块202，用于统计各行为主体在指定周期内的操作行为指标；
139.需要说明的是，行为指标生成模块的主要功能，是用于统计各行为主体在指定周期内进行敏感数据内容操作的行为指标。以数据来源单位、系统编码、行为主体id为分组字段(相当于获取不同行为主体的操作行为指标数据)，统计其在统计周期(默认为一天，可根据实际需要进行调整)内的操作行为指标，操作行为指标包括但不限于操作频次、非工作时间操作频次、在线时长(分钟)、访问的服务端ip地址个数和使用的客户端ip地址个数等，其中，一个不重复的操作id计一次操作。参见表2，其示出了本技术实施例提供的统计后操作行为指标表。如表2所示，经过行为指标生成模块202的计算，输出的关键信息包括：数据来源单位、系统编码、行为主体id、周期标识(以天为周期时，即为操作日期)、操作频次、非工作时间操作频次、在线时长(分钟)、服务端ip地址个数、客户端ip地址个数。
140.表2
[0141][0142][0143]
行为主体异常标记模块203，用于采集各行为主体是否属于异常行为主体的结果标签。
[0144]
需要说明的是，行为主体异常标记模块203的功能主要在于结合业务经验，提供初始的异常行为主体样本。同时在后续审计流程实现过程，持续采集检测结果反馈模块反馈的行为主体实际异常结果标签。该模块采集的数据，为后续省间异常检测模块和纵向发展异常检测模型提供标记数据，从而建立多层logistic回归模型训练。
[0145]
省间异常检测模块204，用于根据不同省份的业务特征，使用一个周期的截面数据，输出第一疑似对象；
[0146]
需要说明的是，省间异常检测模块204，相当于利用第一历史数据集建立第一模型，并且通过第一模型对操作行为指标数据进行检测，该模块的核心是利用多层logistic回归思想所建立的省间异常检测模型(相当于前述的第一模型)。
[0147]
多层统计模型主要应用于具有层级结构的数据，如采集到的原始数据来源于各个省份行为主体产生的操作日志，其中各主体的行为受到宏观层面(不同省份的业务特征，如省内是否建立日志异常行为审计机制)和微观层面(各个行为主体本身行为特征，如操作频次、在线时长、服务端ip地址个数等操作行为指标)的影响，并且不同的行为主体归属于不同的省份。
[0148]
该模块将不同层次的变量信息和随机误差考虑进来，建立多层logistic回归模型作为省间异常检测模型，提高模型的精准性。
[0149]
多层logistic回归模型的建立方法如下：
[0150]
第一层公式(相当于前述的第一训练模型)：
[0151][0152]
其中，p
ij
表示第j个单位的第i个行为主体属于异常操作行为主体的概率，x1对应操作行为指标生成模块中的操作频次，x2对应非工作时间操作频次，x3对应在线时长，x4对应服务端ip地址个数，x5对应客户端ip地址个数。
[0153]
第二层公式(相当于前述的第一参数模型)：
[0154]
β
0j
＝γ
00
γ
01w1j
μ
0j
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0155]
β
1j
＝γ
10
γ
11w1j
μ
1j
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0156]
β
2j
＝γ
20
γ
21w1j
μ
2j
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0157]
β
3j
＝γ
30
γ
31w1j
μ
3j
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0158]
β
4j
＝γ
40
γ
41w1j
μ
4j
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0159]
β
5j
＝γ
50
γ
51w1j
μ
5j
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0160]
其中，w
1j
为单位j的水平2变量——该单位是否有日常异常行为审计机制，取值为1代表是，0代表否，μ
1j
为扰动项。
[0161]
多层logistic回归模型中，如式(1)所示，将传统的第一层固定截距和第一层固定斜率，替换为第一层随机截距β
0j
和随机斜率β
kj
；与第一层随机系数相对应的是多个第二层方程，如式(2)所示，其中扰动项的作用是提高模型的鲁棒性，仅在拟合过程中存在，拟合完成后的模型中则不存在该项。在这些方程中，第一层随机回归系数变成了应变量(即输出量)。
[0162]
多层logistic回归模型通过两个步骤进行估计：第一步，分别在每个观察单位(即省份)中进行第一层的回归运算，即同样的回归模型在j个单位中运行j次，产生j组回归系数，组成j个第一层截距和斜率的数据集，如公式(1)所示。第二步，将第一层随机回归系数看作是第二层变量(如w
1j
)的函数，生成第二层方程或宏观模型，如公式(2)-(7)所示。
[0163]
综上所述，多层统计模型的应用，将常规logistic中的固定效应模型替换为随机效应模型，拟合得到各省的操作行为指标对异常结果的影响各不相同，这个过程考虑了各省实际业务及数据情况的差异。
[0164]
在本技术的又一实施例中，参见图3，其示出了本技术实施例提供的另一种异常检测方法的流程示意图，如图3所示，省间异常检测模块的工作流程包括以下步骤：
[0165]
s301：利用操作行为指标截面数据进行logistic回归模型的拟合；
[0166]
需要说明的是，操作行为指标截面数据(相当于第一历史数据集)，是指来自于多个省份的上一操作周期的历史数据，其中包括了行为指标数据和结果数据，从而利用行为指标数据作为输入值，以结果数据作为输出结果，拟合得到多层logistic回归模型。
[0167]
s302：对拟合得到的logistic回归模型进行模型调优；
[0168]
需要说明的是，在获得logistic回归模型后，可以根据业务经验或者既定调优规则对模型进行调优；
[0169]
s303：判断调优后的logistic回归模型的模型显著性是否满足要求；
[0170]
在这里，对于步骤s303，如果判断结果为是，则执行步骤s304；如果判断结果为否，则返回执行步骤s302；
[0171]
需要说明的是，利用调优后的logistic回归模型，对操作行为指标界面数据进行判断，并且将模型输出结果与真实结果进行比较，获得模型显著性。如果模型显著性满足要求，即该logistic回归模型具有统计学意义，可以用于后续判断；如果该模型显著性不满足要求，即该logistic回归模型不具有统计学意义，需要再次进行调优。
[0172]
s304：利用多层logistic回归模型检测各省份业务特征数据，得到对应于目标行为主体的拟合p值；
[0173]
需要说明的是，实际使用中，可以将各省份业务特征数据按照规定的格式输入，然后拟合得到的多层logistic回归模型中，这样模型会对每一个行为主体计算得到该主体的
拟合p值。
[0174]
s305：判断p值是否大于p0；
[0175]
这里，对于步骤s305，如果判断结果为是，则执行步骤s306；如果判断结果为否，则执行步骤s307。
[0176]
需要说明的是，当利用拟合后的模型完成对异常行为主体的概率值预测后，进一步将概率值与异常行为主体的临界值p0进行比较，如果某一行为主体的异常概率大于p0，则将其识别为第一疑似对象，即y
i1
＝1，否则不作为异常行为主体输出，即y
i1
＝0。
[0177]
s306：该目标行为主体为第一疑似对象，令y
i1
＝1。
[0178]
需要说明的是，如果拟合的到p值大于临界值，则该目标行为主体的数据存在异常，可以将该目标行为主体为第一疑似对象，同时令y
i1
＝1，y
i1
即为前述的第一输出结果。
[0179]
s307：该目标行为主体非第一疑似对象，令y
i1
＝0。
[0180]
需要说明的是，如果拟合的到p值不大于临界值，则该目标行为主体的数据不存在异常，则该目标行为主体并非为第一疑似对象，可以令y
i1
＝0。
[0181]
本技术实施例提供一种异常检测方法，对前述实施例的具体实现进行了详细阐述，从中可以看出，通过第一模型能够实现结合地域特征对目标行为主体进行异常检测，考虑了地域间的业务差异；另外，通过第二模型能够实现结合历史操作行为指标数据对目标行为主体进行异常检测，考虑了不同行为主体的自身特征差异，从而提高了日志审计结果的准确性。除此之外，本技术实施例的技术方案还能够在每次检测前根据最新的历史数据生成并优化预设模型，从而达到持续优化预设模型的效果，进一步提高了日志审计结果的准确性。
[0182]
这样，通过省间异常检测模块204，可以在纳入不同地域业务差异的情况下，根据不同账号的所属地域的行为特征来判断该账号主体是否为异常行为主体。在利用省间异常检测模块204对提取的行为指标数据进行分析之后，还可以利用纵向发展异常检测模块205对提取的行为指标数据在此进行分析，以提高审计结果的准确性。
[0183]
纵向发展异常检测模块205，用于使用历史周期行为指标和个体特征指标，输出第二疑似对象；
[0184]
需要说明的是，所谓纵向数据，指的是对相同几个个体进行多次测量后得到的数据。这样的数据可看作是多层数据或分级结构，其中多次测量嵌套于个体对象内。因而，研究对象在各时点的测量可看作是低维级单位，测量的个体则可以看作是高维级的单位。这样，就可以通过多层统计模型来分析纵向数据，应用于纵向数据的多层统计模型又称为发展模型(相当于前述的第二模型)。
[0185]
相对于传统模型，第二模型的优点如下：首先，在随机缺失的前提下，发展模型能够处理非平衡数据和不完整数据，能够通过最大似然或限制性最大似然方法对全部可用数据进行模型估计。所以，无需将那些带有缺失观察值的研究对象剔除，也不用对缺失的观察值进行填补。其次，发展模型的灵活性较强，它除了能应对各研究对象重复测量次数不同的情况，还能应用在重复测量时间间隔不等的情况下。最后，在建立发展模型时，研究对象内的观察值不受相互独立这一条件的限制，也不用考虑限制性假设。
[0186]
第二模型的第一层模型(相当于前述的第二训练模型)为：
[0187][0188]
其中p
it
为个体i在第t为周期为异常行为主体的概率，为p
it
的logit连接函数。x
kit
表示个体i在第t个周期统计到的第k个行为指标，即前述操作行为指标生成模块中输出的操作频次、在线时长等行为指标，ε
it
为扰动项。
[0189]
第二模型的第二层是个体间模型(相当于前述的第二参数模型)，一般为：
[0190]
β
kj
＝γ
k0
γ
k1
x
1i
μ
kj
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)
[0191]
其中γ
k1
表示第一层模型的第k个随机效应系数，x
1i
表示第i个个体的第二层指标，即个体是否属于程序账号。
[0192]
发展模型将常规logistic中的固定效应模型替换为随机效应模型，拟合得到各个主体操作行为指标对其异常结果的影响各不相同，这个过程考虑各主体是否程序账号的性质差异。
[0193]
在本技术的再一实施例中，参见图4，其示出了本技术实施例提供的又一种异常检测方法的流程示意图，如图4所示，纵向发展异常检测模块20的工作流程至少包括以下步骤：
[0194]
s401：利用操作行为指标历史数据进行logistic回归模型的拟合；
[0195]
需要说明的是，操作行为指标历史数据，是指来自于多个周期的历史据，其中包括了行为指标数据和结果数据，从而利用行为指标数据作为输入值，以结果数据作为输出结果，拟合得到多层logistic回归模型作为纵向发展模型。
[0196]
s402：对拟合得到的logistic回归模型进行模型调优；
[0197]
需要说明的是，在获得logistic回归模型后，可以根据业务经验或者既定调优规则对模型进行调优；
[0198]
s403：判断调优后的logistic回归模型的模型显著性是否满足要求；
[0199]
在这里，对于步骤s403，如果判断结果为是，则执行步骤s404；如果判断结果为否，则返回执行步骤s402；
[0200]
需要说明的是，利用调优后的logistic回归模型，对操作行为指标界面数据进行判断，并且将模型输出结果与真实结果进行比较，获得模型显著性。如果模型显著性满足要求，即该logistic回归模型具有统计学意义，可以用于后续判断；如果该模型显著性不满足要求，即该logistic回归模型不具有统计学意义，需要在此进行调优。
[0201]
s404：利用多层logistic回归模型检测个体特征变量，得到对应于目标行为主体的拟合p值；
[0202]
需要说明的是，利用建立好的多层logistic回归模型检测个体特征变量，得到对应于目标行为主体的p值，根据p值判断该行为主体是否异常。
[0203]
s405：判断p值是否大于p1；
[0204]
这里，对于步骤s405，如果判断结果为是，则执行步骤s406；如果判断结果为否，则执行步骤s407。
[0205]
需要说明的是，当拟合多层logistic第二检测模型完成异常行为主体概率值预测后，进一步将概率值与异常行为主体的临界值p1进行比较，如果某一行为主体的异常概率
大于p1，则将其识别为第二疑似对象，输出y
i2
＝1，否则不作为异常行为主体输出，即y
i2
＝0。y
i2
即为前述的第二输出结果。
[0206]
s406：该目标行为主体为第二疑似对象，同时令y
i2
＝1。
[0207]
需要说明的是，当p值高于p1，可认为目标行为主体为第二疑似对象；否则，认为目标行为主体为正常主体。其中，p1是针对于第二模型的临界阈值。
[0208]
s407：该目标行为主体非第二疑似对象，令y
i2
＝0。
[0209]
需要说明的是，如果拟合的到p值不大于临界值，则该目标行为主体的数据不存在异常，则该目标行为主体并非为第二疑似对象，可以令y
i2
＝0。
[0210]
本技术实施例提供一种异常检测方法，对前述实施例的具体实现进行了详细阐述，通过第一模型能够实现结合地域特征对目标行为主体进行异常检测，考虑了地域间的业务差异；另外，通过第二模型能够实现结合历史操作行为指标数据对目标行为主体进行异常检测，考虑了不同行为主体的自身特征差异，从而提高了日志审计结果的准确性。除此之外，本技术实施例的技术方案还能够在每次检测前根据最新的历史数据生成并优化预设模型，从而达到持续优化预设模型的效果，进一步提高了日志审计结果的准确性。
[0211]
这样，通过纵向发展异常检测模块205，可以在纳入不同账号主体行为差异的情况下，根据不同账号的纵向时间特征来判断该账号主体是否为异常行为主体。
[0212]
业务阈值模块206，用于从业务经验出发，构建业务模型，输出第三疑似对象；
[0213]
需要说明的是，业务阈值模块的主要功能是基于业务经验，将明显处于正常业务阈值区间的操作频次纳入免审计的范围，在后续纵向和横向动态阈值模块之前设定一个业务阈值范围，结合业务经验提高整个审计流程的精准度。
[0214]
业务阈值模块206依赖于审计人员对数据单位、业务系统的经验积累，能够定义出一个正常的业务阈值范围。如果审计人员的业务经验丰富，可以给出一个业务阈值范围更小、准确性更高的范围，提高该模型在整个审计流程发挥的作用；如果审计人员的业务经验相对欠缺，则可以给出一个范围更大的业务阈值区间，更大程度上依赖于后续的动态阈值模块。
[0215]
例如，根据业务经验，如果客户关系管理软件(customer relationship management，crm)的系统前台，一个账号一天操作次数大于1500次，非工作时间操作频次大于500次，服务端ip地址个数大于10个，客户端ip地址大于15个，则该行为主体则作为第三疑似对象输出，此处的1500次、500次、10个等即为业务阈值，可根据业务经验进行调整。如果业务阈值模块识别个体i在该周期内为异常行为主体，则y
i3
＝1，否则y
i3
＝0。
[0216]
审计结果输出模块207，用于对第一、第二、第三疑似对象进行加权，输出每个个体在本周期是否存在异常操作的结果，并将结果通报给各单位；
[0217]
需要说明的是，检测结果输出模块的主要功能是对前面各模块的结果进行加权计算，如式(10)所述，最终输出个体在该周期的操作行为是否异常的标签。
[0218]
yi＝ω1y
i1
ω2y
i2
ω3y
i3
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(10)
[0219]
其中ω1，ω2，ω3分别为省间异常检测模型、纵向发展异常检测模型和第三模型结果对应的权重。yi为个体i最后的异常行为主体概率，如果yi大于0.5，则认为该主体为本周期的异常行为主体，否则为不是异常行为主体。
[0220]
示例性地，参见表3，其示出了本技术实施例提供的一种检测结果输出信息表。如
表3所示，审计结果输出模块207输出的信息包括：数据来源单位、业务系统编码、行为主体id、操作周期标识、操作频次、是否第一疑似对象、是否第二疑似对象、是否第三疑似对象、是否异常行为主体。其中，第一疑似对象、第二疑似对象和第三疑似对象分别代表着目标业务主体在省间异常检测模型、发展模型和业务阈值模型中被视为异常对象。异常行为主体代表着目标业务主体在省间异常检测模型、发展模型和业务阈值模型的综合判断下被视为异常对象。
[0221]
表3
[0222]
序号字段名称中文字段1pv数据来源单位2systemcode系统编码3accountid行为主体id4period周期标识5fisrt_illegal是否第一疑似对象6second_illegal是否第二疑似对象7third_illegal是否第三疑似对象8illegal_accoun是否异常账号
[0223]
审计结果反馈模块208，用于对检测结果输出模块的结果进行反馈，由各省的审计员对各异常行为主体进行核实后，反馈是否属于真正的异常行为主体；
[0224]
需要说明的是，该模块的主要功能用于各单位业务人员核实收到的异常行为结果，对结果进行确认，反馈相应的主体是否属于异常行为主体；反馈结果由行为主体异常标记模块203进行接收，用于下一轮模型的优化。
[0225]
目前，相关技术方案中虽然提到了日志审计系统，但并未对其中的审计模块进行具体的设计；或者通过所有行为主体的历史操作行为，利用关联规则探索出异常的行为模式，再将新出现的行为模式与异常模式进行匹配，以达到识别异常的目的；或者采用指纹算法、机器学习算法建立模型，完成日志审计相关工作。相关技术要么利用的是业务经验，要么是通过历史数据建立统一的日志审计模型，并没有将业务经验和数据挖掘技术进行结合，也没有在日志审计过程中考虑各业务场景、行为主体个体间的差异。而本技术同时结合了业务经验、业务场景差异和个体行为差异，结合业务阈值模块、省间异常检测模块和纵向发展异常检测模块，综合审计发现异常操作行为，并进一步利用审计结果反馈模块和行为主体异常标记模块，持续采集行为主体异常标签，持续优化审计系统的核心功能模块。
[0226]
综上所述，本技术实施提供了一种基于面板数据和多层logistic回归模型的日志审计系统，基于多层logistic的省间异常检测模块，以及基于多层logistic的纵向发展异常检测模块，具有以下几个显著优点：
[0227]
(1)综合了业务经验、统计分析、异常检测算法多方面的信息进行异常检测；
[0228]
(2)纵向发展异常检测模块，考虑了行为主体的账号性质特征，有针对性地为各行为主体构建了差异性的异常检测模型；
[0229]
(3)省间异常检测模块，考虑了各省审计业务开展情况的差异，为不同的省份构建随机效应异常检测模型，提高了各省异常检测结果的准确性；
[0230]
(4)检测结果反馈模块和行为主体异常标记模块的引入，为持续优化审计系统的
核心功能模块提供了便利。
[0231]
基于此，本技术实施例提供一种异常检测方法，对前述实施例的具体实现进行了详细阐述，从中可以看出，通过第一模型能够实现结合地域特征对目标行为主体进行异常检测，考虑了地域间的业务差异；另外，通过第二模型能够实现结合历史操作行为指标数据对目标行为主体进行异常检测，考虑了不同行为主体的自身特征差异，从而提高了日志审计结果的准确性。除此之外，本技术实施例的技术方案还能够在每次检测前根据最新的历史数据生成并优化预设模型，从而达到持续优化预设模型的效果，进一步提高了日志审计结果的准确性。
[0232]
本技术的再一实施例中，参见图5，其示出了本技术实施例提供的一种异常检测装置50的组成结构示意图，如图5所示，该异常检测装置50包括获取单元501、统计单元502、检测单元503和确定单元504，其中，
[0233]
获取单元501，配置为获取待检测日志；其中，所述待检测日志中包含当前检测周期中多个行为主体在目标业务系统的操作行为信息；
[0234]
统计单元502，配置为对所述待检测日志进行统计分析，确定目标行为主体对应的操作行为指标数据；其中，所述目标行为主体是所述多个行为主体中的一个；
[0235]
检测单元503，配置为利用至少两个预设模型对所述操作行为指标数据分别进行处理，获得至少两个输出结果；其中，所述至少两个预设模型包括第一模型和第二模型，所述第一模型用于结合所述目标行为主体的地域特征确定所述目标行为主体是否异常的输出结果，所述第二模型用于结合所述目标行为主体的历史操作行为指标数据确定所述目标行为主体是否异常的输出结果；
[0236]
确定单元504，配置为根据所述至少两个输出结果，确定所述目标行为主体是否存在异常。
[0237]
在一些实施例中，所述至少两个输出结果包括第一输出结果和第二输出结果；检测单元503，具体配置为将所述目标行为主体的操作行为指标数据输入所述第一模型中，得到第一拟合概率值；根据所述第一拟合概率值与第一临界阈值的比较结果，确定所述第一输出结果；其中，所述第一拟合概率值表示通过所述第一模型计算得到的所述目标行为主体的异常概率值；将所述目标行为主体的操作行为指标数据和所述目标行为主体的历史操作行为指标数据输入所述第二模型中，得到第二拟合概率值；根据所述第二拟合概率值与第二临界阈值的比较结果，确定所述第二输出结果；其中，所述第二拟合概率值表示通过所述第二模型计算得到的所述目标行为主体的异常概率值；相应地，确定单元504，具体配置为对所述第一输出结果和所述第二输出结果进行加权计算，得到综合异常概率值；在所述综合异常概率值大于异常临界值的情况下，确定所述目标行为主体存在异常。
[0238]
在一些实施例中，检测单元503，还可以配置为将所述第一拟合概率值与第一临界阈值进行比较；在所述第一拟合概率值大于第一临界阈值的情况下，确定所述第一输出结果为1；在所述第一拟合概率值小于或等于第一临界阈值的情况下，确定所述第一输出结果为0。
[0239]
在一些实施例中，检测单元503，还可以配置为将所述第二拟合概率值与第二临界阈值进行比较；在所述第二拟合概率值大于第二临界阈值的情况下，确定所述第二输出结果为1；在所述第二拟合概率值小于或等于第二临界阈值的情况下，确定所述第二输出结果
为0。
[0240]
在一些实施例中，所述至少两个预设模型还包括第三模型；检测单元503，还可以配置为利用所述第三模型对所述操作行为指标数据进行处理，获得第三输出结果；其中，所述第三模型用于结合预设业务阈值确定所述目标行为主体是否异常的输出结果；相应地，确定单元504，还可以配置为对所述第一输出结果、所述第二输出结果和第三输出结果进行加权计算，得到综合异常概率值；在所述综合异常概率值大于异常临界值的情况下，确定所述目标行为主体存在异常。
[0241]
在一些实施例中，检测单元503，还可以配置为将所述操作行为指标数据与所述预设业务阈值进行比较；在所述操作行为指标数据大于所述预设业务阈值的情况下，确定所述第三输出结果为1；在所述操作行为指标数据小于或等于所述预设业务阈值的情况下，确定所述第三输出结果为0。
[0242]
在一些实施例中，如图6所示，该异常检测装置50还可以包括核实单元505，配置为接收所述目标行为主体存在异常的核实结果；其中，所述核实结果表示用户对所述目标行为主体是否存在异常的确认结果；基于所述核实结果，为所述目标行为主体设置结果标签；其中，所述结果标签用于表征所述目标行为主体是否属于异常行为主体。
[0243]
在一些实施例中，该异常检测装置50还可以包括建模单元506，配置为对第一历史数据集进行模型训练，得到第一训练模型；其中，所述第一历史数据集是基于所述目标行为主体的地域特征所确定的历史数据集合，且所述第一历史数据集包括与所述地域特征相同的多个行为主体的历史操作行为指标数据，所述第一训练模型包括多个第一训练参数，所述第一训练参数是所述第一训练模型中的模型系数；利用所述第一历史数据集对多个第一训练参数进行训练，得到多个第一参数模型；将所述第一训练模型和所述多个第一参数模型确定为所述第一模型。
[0244]
在一些实施例中，建模单元506，还可以配置为对所述第一模型进行调优操作，得到调优后的第一模型；获取所述调优后的第一模型的第一显著水平值，判断所述第一显著水平值是否符合第一预设标准；在所述第一显著水平值符合第一预设标准的情况下，将所述调优后的第一模型确定为所述第一模型。
[0245]
在一些实施例中，建模单元506，还可以配置为对第二历史数据集进行模型训练，得到第二训练模型；其中，所述第二历史数据集包括多个行为主体的历史操作行为指标数据，所述第二训练模型包括多个第二训练参数，所述第二训练参数是所述第二训练模型中的模型系数；利用所述第二历史数据集对多个第二训练参数进行训练，得到多个第二参数模型；将所述第二训练模型和所述多个第二参数模型确定为所述第二模型。
[0246]
在一些实施例中，建模单元506，还可以配置为对所述第二模型进行调优操作，得到调优后的第二模型；获取所述调优后的第二模型的第二显著水平值，判断所述第二显著水平值是否符合第二预设标准；在所述第二显著水平值符合第二预设标准的情况下，将所述调优后的第二模型确定为所述第二模型。
[0247]
在一些实施例中，所述第一模型包括多层logistic回归模型，所述第二模型包括多层logistic回归模型。
[0248]
可以理解地，在本实施例中，“单元”可以是部分电路、部分处理器、部分程序或软件等等，当然也可以是模块，还可以是非模块化的。而且在本实施例中的各组成部分可以集
成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。
[0249]
所述集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时，可以存储在一个计算机可读取存储介质中，基于这样的理解，本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或processor(处理器)执行本实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read only memory，rom)、随机存取存储器(random access memory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0250]
因此，本实施例提供了一种计算机存储介质，该计算机存储介质存储有异常检测程序，所述异常检测程序被至少一个处理器执行时实现前述实施例中任一项所述的方法的步骤。
[0251]
基于上述的一种异常检测装置50的组成以及计算机存储介质，参见图7，其示出了本技术实施例提供的一种异常检测装置50的具体硬件结构示例，如图7所示，所述异常检测装置50可以包括：通信接口601、存储器602和处理器603；各个组件通过总线设备604耦合在一起。可理解，总线设备604用于实现这些组件之间的连接通信。总线设备604除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图7中将各种总线都标为总线设备604。其中，通信接口601，用于在与其他外部网元之间进行收发信息过程中，信号的接收和发送；
[0252]
存储器602，用于存储能够在处理器603上运行的计算机程序；
[0253]
处理器603，用于在运行所述计算机程序时，执行：
[0254]
获取待检测日志；其中，所述待检测日志中包含当前检测周期中多个行为主体在目标业务系统的操作行为信息；
[0255]
对所述待检测日志进行统计分析，确定目标行为主体对应的操作行为指标数据；其中，所述目标行为主体是所述多个行为主体中的一个；
[0256]
利用至少两个预设模型对所述操作行为指标数据分别进行处理，获得至少两个输出结果；其中，所述至少两个预设模型包括第一模型和第二模型，所述第一模型用于结合所述目标行为主体的地域特征确定所述目标行为主体是否异常的输出结果，所述第二模型用于结合所述目标行为主体的历史操作行为指标数据确定所述目标行为主体是否异常的输出结果；
[0257]
根据所述至少两个输出结果，确定所述目标行为主体是否存在异常。
[0258]
可以理解，本技术实施例中的存储器602可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，rom)、可编程只读存储器(programmable rom，prom)、可擦除可编程只读存储器(erasable prom，eprom)、电可擦除可编程只读存储器(electrically eprom，eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory，ram)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的ram可用，例如静态随机存取存储器
(static ram，sram)、动态随机存取存储器(dynamic ram，dram)、同步动态随机存取存储器(synchronous dram，sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram，ddrsdram)、增强型同步动态随机存取存储器(enhanced sdram，esdram)、同步链动态随机存取存储器(synchronous link dram，sldram)和直接内存总线随机存取存储器(direct rambus ram，drram)。本技术描述的设备和方法的存储器602旨在包括但不限于这些和任意其它适合类型的存储器。
[0259]
而处理器603可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器603中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器603可以是通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现场可编程门阵列(field programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器602，处理器603读取存储器602中的信息，结合其硬件完成上述方法的步骤。
[0260]
可以理解的是，本技术描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(application specific integrated circuits，asic)、数字信号处理器(digital signal processing，dsp)、数字信号处理设备(dsp device，dspd)、可编程逻辑设备(programmable logic device，pld)、现场可编程门阵列(field-programmable gate array，fpga)、通用处理器、控制器、微控制器、微处理器、用于执行本技术所述功能的其它电子单元或其组合中。
[0261]
对于软件实现，可通过执行本技术所述功能的模块(例如过程、函数等)来实现本技术所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
[0262]
可选地，作为另一个实施例，处理器603还配置为在运行所述计算机程序时，执行前述实施例中任一项所述的方法的步骤。
[0263]
基于上述异常检测装置50的组成以及硬件结构示意图，参见图8，其示出了本技术实施例提供的另一种日志审计系统70的组成结构示意图。如图8所示，该日志审计70至少包括前述实施例中任一项所述的异常检测装置50。对于系统70而言，这样，通过第一模型和第二模型分别对操作行为指标数据进行检测，考虑了不同地域的业务情况差异和多个历史检测周期下行为主体的特征差异，提高了日志审计结果的准确性；另外，本技术实施例的技术方案还能够在每次检测前根据最新的历史数据生成并优化预设模型，从而达到持续优化预设模型的效果，进一步提高了日志审计结果的准确性。
[0264]
以上所述，仅为本技术的较佳实施例而已，并非用于限定本技术的保护范围。
[0265]
需要说明的是，在本技术中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，
而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0266]
上述本技术实施例序号仅仅为了描述，不代表实施例的优劣。
[0267]
本技术所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。
[0268]
本技术所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。
[0269]
本技术所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。
[0270]
以上所述，仅为本技术的具体实施方式，但本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应以所述权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种涉税风险企业识别方法及装置与流程

一种异常检测方法、装置及计算机存储介质与流程

相关文献

最热文献