一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于隔离算法的异常数据检测方法

2022-04-16 15:20:35 来源:中国专利 TAG:


1.本发明涉及数据处理技术领域,尤其涉及基于隔离算法的异常数据检测方法。


背景技术:

2.在数据挖掘中,异常检测对不匹配预期模式或数据集中其他项目的项目、事件或观测值的识别,通常异常项目会转变成银行欺诈、结构缺陷、医疗问题、文本错误等类型的问题,异常也被称为离群值、新奇、噪声、偏差和例外,特别是在检测滥用与网络入侵时,有趣性对象往往不是罕见对象,但却是超出预料的突发活动,这种模式不遵循通常统计定义中把异常点看作是罕见对象,于是许多异常检测方法将对此类数据失效,除非进行了合适的聚集,相反,聚类分析算法可能可以检测出这些模式形成的微聚类;因此,发明出基于隔离算法的异常数据检测方法变得尤为重要;
3.经检索,中国专利号cn202110815076.x公开了数据异常检测方法,该发明虽然能够快速精准定位到数据异常,实现了对于业务核心指标的智能预警能力,但是需要人工设置参数以及人工建模,不方便用户对计算机中的异常数据进行检测;此外,现有的基于隔离算法的异常数据检测方法违规软件处理效率慢,无法有效的保证计算机的安全性;为此,我们提出基于隔离算法的异常数据检测方法。


技术实现要素:

4.本发明的目的是为了解决现有技术中存在的缺陷,而提出的基于隔离算法的异常数据检测方法。
5.为了实现上述目的,本发明采用了如下技术方案:
6.基于隔离算法的异常数据检测方法,该检测方法具体步骤如下:
7.(1)收集并筛选数据:对计算机数据进行收集,并对收集的数据进行数据分类,同时分别生成数据黑名单以及数据白名单对数据进行记录,同时对两组名单数据进行实时更新;
8.(2)构建学习神经网络以进行参数设置:将数据黑名单上的数据分为训练集和测试集,并通过训练样本对学习神经网络进行训练,再用测试样本对训练得到的学习神经网络进行数据验证,并获取最佳参数;
9.(3)对数据进行数据隔离:参数设置完成后,构建隔离模型并将参数导入隔离模型中,同时将数据黑名单中的数据导入隔离模型中进行隔离检测,并将其中检测出的异常数据进行记录,同时构建风险管控数据库对相关软件进行监控;
10.(4)对异常数据进行溯源处理并记录:依次对检测出的异常数据进行数据溯源,并对溯源结果进行判断分类,同时对分类完成的异常数据进行二次分析,并将分析结果反馈给用户;
11.(5)修复异常数据并反馈用户:对风险指数高的异常数据进行数据修复处理,同时生成修复日志,并将修复日志上传至云端服务器进行存储,将修复信息上传至共享平台进
行数据共享。
12.作为本发明的进一步方案,步骤(1)中所述数据分类具体步骤如下:
13.步骤一:收集计算机中所有软件数据,并将其按照系统软件数据以及应用软件数据进行分类;
14.步骤二:将系统软件数据录入数据白名单中,将应用软件数据录入数据黑名单中,同时将相关软件名称分别录入两组名单中;
15.步骤三:将两组名单记录的软件名称按照名称首字母a~z进行排序,同时将各组软件数据与相关软件名称进行关联。
16.作为本发明的进一步方案,步骤(2)中所述数据验证具体步骤如下:
17.第一步:统计数据黑名单中的数据总量n,并从中中选择一个数据作为验证数据;
18.第二步:用数据黑名单中剩余的数据拟合一个测试模型,并用最先被排除的那个验证数据来验证测试模型的精度;
19.第三步:对测试模型的平均路径长度进行计算,其具体计算公式如下:
[0020][0021]
其中,c(n)代表平均路径长度,h(n-1)代表调和数,n代表数据黑名单中的数据总量。
[0022]
作为本发明的进一步方案,步骤(3)中所述隔离检测具体步骤如下:
[0023]
s1.1:隔离模型随机选择一个属性a,并随机选择该属性的一个值v;
[0024]
s1.2:根据属性a对每组数据进行分类,并递归的构建隔离树,同时分别构建max表以及min表;
[0025]
s1.3:当a<v的软件数据录入min表中,当a≥c的软件数据录入max表中;
[0026]
s1.4:对分类完成的数据进行预测,并对预测结果进行归一化处理,其具体计算公式如下:
[0027][0028]
其中,s(x,n)代表数据x在由n个数据构成的隔离树的异常指数,h(x)代表用来标准化数据x的路径长度,e(h(x))代表数据x在一批孤立树中的路径长度的期望;
[0029]
s1.5:当e(h(x))

c(n)时,s

0.5,即数据x的路径平均长度与树的平均路径长度相近时,则不能区分是不是异常;当e(h(x))

0时,s

1,即x的异常分数接近1时,则判定为异常数据;当e(h(x))

n-1时,s

0,则判定为正常数据。
[0030]
作为本发明的进一步方案,步骤(4)中所述判断分类具体步骤如下:
[0031]
s2.1:依据数据黑名单对异常数据对应的软件进行提取,并构建反馈名单记录各组软件名称;
[0032]
s2.2:收集软件许可规则,并构建规则判断库,同时将反馈名单中的软件导入构建规则判断库中,将不符合许可规则的软件强制停止运行,并将各组软件运行状态录入数据黑名单中。
[0033]
作为本发明的进一步方案,步骤(5)中所述修复处理具体步骤如下:
[0034]
s3.1:与方案共享平台通信连接,并提取相应处理方案,同时将提取出的处理方案
反馈给用户;
[0035]
s3.2:用户选择处理方案,计算机依据用户选择的处理方案对异常数据进行修复,并生成修复日志记录修复时间以及数据信息。
[0036]
相比于现有技术,本发明的有益效果在于:
[0037]
1、该基于隔离算法的异常数据检测方法,计算机自行统计数据黑名单中的数据总量,并从中中选择一个数据作为验证数据后,用数据黑名单中剩余的数据拟合一个测试模型,并用最先被排除的那个验证数据来验证测试模型的精度,同时对测试模型的平均路径长度进行计算,构建隔离模型随机选取一个属性以及值,根据属性对每组数据进行分类,并递归的构建隔离树,并通过隔离算法对各组数据进行异常判断,无需人工设置参数且不需要人工建模,能够方便用户对计算机中的异常数据进行检测,提高用户异常处理效率,操作简单;
[0038]
2、该基于隔离算法的异常数据检测方法,计算机依据数据黑名单对异常数据对应的软件进行提取,并构建反馈名单记录各组软件名称,同时收集软件许可规则,并构建规则判断库,同时将反馈名单中的软件导入构建规则判断库中,将不符合许可规则的软件强制停止运行,同时抓取相应异常数据处理方案并由用户进行选择,依据用户选择的方案对异常数据进行处理修复,能够快速对不符合许可规则的软件进行中断处理,有效的保证计算机的安全性,同时节省用户处理方案设计时间。
附图说明
[0039]
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
[0040]
图1为本发明提出的基于隔离算法的异常数据检测方法的流程框图。
具体实施方式
[0041]
实施例1
[0042]
参照图1,基于隔离算法的异常数据检测方法,本实施例具体公开了一种隔离检测方法:
[0043]
收集并筛选数据:对计算机数据进行收集,并对收集的数据进行数据分类,同时分别生成数据黑名单以及数据白名单对数据进行记录,同时对两组名单数据进行实时更新。
[0044]
具体的,计算机自行对所有软件数据机型收集,并将其按照系统软件数据以及应用软件数据进行分类,分类完成后,将系统软件数据录入数据白名单中,将应用软件数据录入数据黑名单中,同时将相关软件名称分别录入两组名单中,并将两组名单记录的软件名称按照名称首字母a~z进行排序,同时将各组软件数据与相关软件名称进行关联。
[0045]
构建学习神经网络以进行参数设置:将数据黑名单上的数据分为训练集和测试集,并通过训练样本对学习神经网络进行训练,再用测试样本对训练得到的学习神经网络进行数据验证,并获取最佳参数。
[0046]
具体的,计算机自行统计数据黑名单中的数据总量n,并从中中选择一个数据作为验证数据后,用数据黑名单中剩余的数据拟合一个测试模型,并用最先被排除的那个验证数据来验证测试模型的精度,同时对测试模型的平均路径长度进行计算。
[0047]
需要进一步说明的是,其具体平均路径长度计算公式如下:
[0048][0049]
其中,c(n)代表平均路径长度,h(n-1)代表调和数,n代表数据黑名单中的数据总量。
[0050]
对数据进行数据隔离:参数设置完成后,构建隔离模型并将参数导入隔离模型中,同时将数据黑名单中的数据导入隔离模型中进行隔离检测,并将其中检测出的异常数据进行记录,同时构建风险管控数据库对相关软件进行监控。
[0051]
具体的,隔离模型随机从数据黑名单中选择一个属性a,并随机选择该属性的一个值v,隔离模型根据属性a对每组数据进行分类,并递归的构建隔离树,同时分别构建max表以及min表,当a<v的软件数据录入min表中,当a≥c的软件数据录入max表中,对分类完成的数据进行预测,并对预测结果进行归一化处理。
[0052]
需要进一步说明的是,其具体归一化计算公式如下:
[0053][0054]
其中,s(x,n)代表数据x在由n个数据构成的隔离树的异常指数,h(x)代表用来标准化数据x的路径长度,e(h(x))代表数据x在一批孤立树中的路径长度的期望。
[0055]
需要进一步说明的是,其判断标准具体为:当e(h(x))

c(n)时,s

0.5,即数据x的路径平均长度与树的平均路径长度相近时,则不能区分是不是异常;当e(h(x))

0时,s

1,即x的异常分数接近1时,则判定为异常数据;当e(h(x))

n-1时,s

0,则判定为正常数据。
[0056]
实施例2
[0057]
参照图1,基于隔离算法的异常数据检测方法,除与上述实施例相同的部件外,本实施例具体公开了一种判断分类方法:
[0058]
对异常数据进行溯源处理并记录:依次对检测出的异常数据进行数据溯源,并对溯源结果进行判断分类,同时对分类完成的异常数据进行二次分析,并将分析结果反馈给用户。
[0059]
具体的,计算机依据数据黑名单对异常数据对应的软件进行提取,并构建反馈名单记录各组软件名称,同时收集软件许可规则,并构建规则判断库,同时将反馈名单中的软件导入构建规则判断库中,将不符合许可规则的软件强制停止运行,并将各组软件运行状态录入数据黑名单中。
[0060]
修复异常数据并反馈用户:对风险指数高的异常数据进行数据修复处理,同时生成修复日志,并将修复日志上传至云端服务器进行存储,将修复信息上传至共享平台进行数据共享。
[0061]
具体的,计算机与方案共享平台通信连接,并提取相应处理方案,同时将提取出的处理方案反馈给用户,用户选择处理方案,计算机依据用户选择的处理方案对异常数据进行修复,能够快速对不符合许可规则的软件进行中断处理,有效的保证计算机的安全性,同时节省用户处理方案设计时间,并生成修复日志记录修复时间以及数据信息。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献