一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种监控数据异常的检测方法、装置、设备及可读介质与流程

2021-11-03 14:54:00 来源:中国专利 TAG:

所述测试集/待检测数据输入所述异常检测模型,以得到异常检测结果。
8.在一些实施方式中,提取所述训练集中样本点的小波包分解特征与统 计特征以构建所述监控数据的特征集包括:提取所述训练集中样本点的小 波包分解特征以表述所述监控数据的瞬时变化;提取所述训练集中样本点 的统计特征以表述所述监控数据的整体变化。
9.在一些实施方式中,提取所述训练集中样本点的小波包分解特征以表 述所述监控数据的瞬时变化包括:基于三层小波包分解将每个样本点的通 频带分解为八个频带,所述频带表述所述监控数据的瞬时变化信息。
10.在一些实施方式中,提取所述训练集中样本点的统计特征以表述所述 监控数据的整体变化包括:提取所述训练集中样本的统计特征,所述统计 特征包括由最大值、最小值、均值、中位数、标准差、均方值和能量值构 成的七维特征向量。
11.在一些实施方式中,基于卡方检验对所述特征集中的特征进行选择以 排除冗余特征,得到最终训练集还包括:基于卡方检验对所述特征集中的 特征进行选择以排除冗余特征,并使用自适应过采样的方法对特征集进行 增强以平衡正常样本与异常样本的比例,得到最终训练集。
12.在一些实施方式中,采集监控数据,基于滑动窗口对所述监控数据进 行分割以得到训练集和测试集/待检测数据包括:通过采集工具采集云平台 的监控数据,并对异常点进行标注;基于滑动窗口对所述监控数据进行分 割以滤除所述监控数据中的缺失点,并分别为正常样本和异常样本进行标 记。
13.在一些实施方式中,基于所述最终训练集对集成学习模型进行训练以 得到异常检测模型包括:基于极端梯度提升算法和所述最终训练集对集成 学习模型进行训练以得到异常检测模型。
14.本发明实施例的另一方面,还提供了一种监控数据异常的检测装置, 包括:第一模块,配置用于采集监控数据,并基于滑动窗口对所述监控数 据进行分割以得到训练集和测试集/待检测数据;第二模块,配置用于提取 所述训练集中样本点的小波包分解特征与统计特征以构建所述监控数据的 特征集,并基于卡方检验对所述特征集中的特征进行选择以排除冗余特征, 得到最终训练集;第三模块,配置用于基于所述最终训练集对集成学习模 型进行训练以得到异常检测模型;以及第四模块,配置用于将所述测试集/ 待检测数据输入所述异常检测模型,以得到异常检测结果。
15.本发明实施例的再一方面,还提供了一种计算机设备,包括:至少一 个处理器;以及存储器,存储器存储有可在处理器上运行的计算机指令, 指令由处理器执行时实现上述方法的步骤。
16.本发明实施例的再一方面,还提供了一种计算机可读存储介质,计算 机可读存储介质存储有被处理器执行时实现如上方法步骤的计算机程序。
17.本发明具有以下有益技术效果:使用小波包分解特征与统计特征,提 取时序数据中的瞬时变化与整体变化,并使用卡方检验对特征进行选择, 排除了冗余特征带来的影响,之后使用自适应过采样的方法对特征样本集 进行增强,增强了异常检测模型的泛化能力,提高了单维监控数据异常检 测的准确率。
附图说明
18.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对 实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地, 下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员 来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实 施例。
19.图1为本发明提供的监控数据异常的检测方法的实施例的示意图;
20.图2为本发明提供的监控数据异常的检测方法的实施例的流程示意图;
21.图3为本发明提供的小波包分解的二叉树示意图;
22.图4为本发明提供的监控数据异常的检测装置的实施例的示意图;
23.图5为本发明提供的计算机设备的实施例的示意图;
24.图6为本发明提供的计算机可读存储介质的实施例的示意图。
具体实施方式
25.为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实 施例,并参照附图,对本发明实施例进一步详细说明。
26.需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述 均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一
”ꢀ“
第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实 施例对此不再一一说明。
27.基于上述目的,本发明实施例的第一个方面,提出了监控数据异常的 检测方法的实施例。图1示出的是本发明提供的监控数据异常的检测方法 的实施例的示意图。如图1所示,本发明实施例包括如下步骤:
28.s01、采集监控数据,并基于滑动窗口对监控数据进行分割以得到训练 集和测试集/待检测数据;
29.s02、提取训练集中样本点的小波包分解特征与统计特征以构建监控数 据的特征集,并基于卡方检验对特征集中的特征进行选择以排除冗余特征, 得到最终训练集;
30.s03、基于最终训练集对集成学习模型进行训练以得到异常检测模型; 以及
31.s04、将测试集/待检测数据输入异常检测模型,以得到异常检测结果。
32.在本实施例中,适用于多种云平台基础架构的性能优化,例如x86,arm 及mips平台均可适用。图2示出了本发明提供的监控数据异常的检测方法 的实施例的流程示意图,如图2所示,流程包含了数据特征提取、特征选 择、特征提取、xgboost(extreme gradient boosting,极限梯度提升)模型 训练与检测。其中,监控数据预处理包含了监控数据缺失点填充,基于滑 动窗口的数据分割,训练集与测试集划分;特征提取提取样本点中的小波 包分解特征与统计特征,构造异常检测的特征集;特征选择与增强使用卡 方检验对提取的特征进行选择,并使用adasyn(adaptive syntheticsampling,自适应综合过采样)算法对特征数据集进行增强,平衡正常样本 与异常样本的比例;xgboost模型训练与参数优化使用训练集训练xgboost 模型,并对模型参数进行网格搜索,确定模型的最优参数,完成模型训练; xgboost模型异常检测对测试集或线上数据提取小波包分解特征与统计特 征,将特征输入训练好的模型中,输出异常检测结果。
33.在本发明的一些实施例中,提取训练集中样本点的小波包分解特征与 统计特征
以构建监控数据的特征集包括:提取训练集中样本点的小波包分 解特征以表述监控数据的瞬时变化;提取训练集中样本点的统计特征以表 述监控数据的整体变化。
34.在本实施例中,在一个时间序列中,时序数据变化有随机性,所以在 进行特征工程是既要考虑时序的瞬时变化,又要考虑数据的整体变化。使 用小波包变换与统计学特征来描述时序数据的特点,小波包变换表述数据 的瞬时变化,统计学特征描述时序数据的整体离散特征。
35.小波变换是时域分析的代表方法,具有多分辨率特性,小波变换只对 信号的低频部分做进一步分解而对高频部分不再继续分解,这对于包含大 量瞬时信息的时序监控数据来说是不够的。而小波包变换不仅可以分解时 序数据的低频部分,也可以分解数据中的高频部分,所以这种分解方式是 一种更精细时序数据分解方法,提高了时序数据的时域分辨率。
36.在本发明的一些实施例中,提取训练集中样本点的小波包分解特征以 表述监控数据的瞬时变化包括:基于三层小波包分解将每个样本点的通频 带分解为八个频带,频带表述监控数据的瞬时变化信息。
37.在本实施例中,图3示出的是本发明提供的小波包分解的二叉树示意 图,如图3所示,小波包分解可用一个完整的二叉树描述,在一个三层的 小波包分解过程中,每个节点表示一个通频带,数字表示小波包的分解层 数,经过小波包分解不但可以覆盖所有原始信号频带,还可以在任意多尺 度分解信号,得到全面的局部信息。经过三层小波包分解后,可以得到时 序数据的8个频带,使用每个频带上的能量特征作为时频特征,特征计算 表述为:
38.其中j表示小波分解后的相应频带,n为数据点数,n
i
表示 各个频带上的系数。时序数据包含了瞬时变化与整体变化,本文中通过小 波包分析提取时序数据的瞬时变化信息,并进行描述,之后需要提取时序 数据的整体变化信息。
39.在本发明的一些实施例中,提取训练集中样本点的统计特征以表述监 控数据的整体变化包括:提取训练集中样本的统计特征,统计特征包括由 最大值、最小值、均值、中位数、标准差、均方值和能量值构成的七维特 征向量。
40.在本实施例中,统计的特点是描述数据的数量性与总体性,可以反映 数据的数量特征,而不是着眼于个别数据,因此本文使用统计特征来描述 样本数据的整体变化。本文中提取的统计特征向量有最大值、最小值、均 值、中位数、标准差、均方值、能量值,构成统计特征维度为7维特征向 量。
41.在本发明的一些实施例中,基于卡方检验对特征集中的特征进行选择 以排除冗余特征,得到最终训练集还包括:基于卡方检验对特征集中的特 征进行选择以排除冗余特征,并使用自适应过采样的方法对特征集进行增 强以平衡正常样本与异常样本的比例,得到最终训练集。
42.在本实施例中,提取了数据的小波包变换特征与统计特征,对数据样 本从瞬时与整体两个角度进行描述,但需要知道特征中各个维度对分类任 务的影响程度,由此可以排除冗余特征,减少特征维度,本发明选用卡方 检验对各维度特征进行判定。卡方检验是一种用途很广的特征选择方法, 主要比较两个及两个以上样本及两个分类之间的关联性。使
用卡方检验来 测试提取的小波包分解特征和统计特征与正常样本、异常样本分类间的关 联性,公式如下:
43.其中a代表实际值,t代表理论值。
44.在本实施例中,使用的数据中包含的异常样本与正常样本比例失衡, 异常样本比例过少,对于分类任务而言,极易造成模型不可用。研究认为, 两类样本比例为1:1时,分类效果最佳,而本文中的数据,正常样本与异常 样本比例达到了将近20:1。因此本文使用adasyn算法平衡正常样本与异 常样本比例。adasyn算法的思想为在异常样本周围计算其k近邻,并对 其k近邻中包含正常样本的比例为权值,依据权值计算合成样本数,并在 异常样本k近邻中随机选择异常样本,公式如下:
45.s=x (x
z

x)*λ,λ∈[0,1],其中x
z
为k近邻中选择的随机样本,x为异常 样本,s为合成样本,λ为随机因子。
[0046]
在本发明的一些实施例中,采集监控数据,基于滑动窗口对监控数据 进行分割以得到训练集和测试集/待检测数据包括:通过采集工具采集云平 台的监控数据,并对异常点进行标注;基于滑动窗口对监控数据进行分割 以滤除监控数据中的缺失点,并分别为正常样本和异常样本进行标记。
[0047]
在本实施例中,以使用的训练数据为云平台四个月的监控数据为例, 监控数据采集工具为telegraf,使用其自带插件cpu、disk、mem采集,采 集周期为60s。采集的数据包含cpu、内存等关键性能指标的监控数据。异 常点使用机器识别与人工判定的方式标注。基于滑动窗口的方式对数据进 行分割,滤除数据中的缺失点,并添加数据标签,正常样本标签为0,异常 样本标签为1。共提取出样本数据总数为21542,其中正常样本总数为20074, 异常样本数为1468。
[0048]
在本发明的一些实施例中,基于最终训练集对集成学习模型进行训练 以得到异常检测模型包括:基于极端梯度提升算法和最终训练集对集成学 习模型进行训练以得到异常检测模型。
[0049]
在本实施例中,xgboost算法全称为极端梯度提升算法,是一种基于 集成学习的弱学习算法。弱分类器即为比随机猜测略好但准确率不高的分 类器。xgboost的核心在于在分类器中不断添加特征分裂树,每一棵树就 相当于一个弱分类器,将这些树进行集成组合,使得xgboost模型拥有较 好的泛化能力。这种树模型不止能提升拟合效果,也能在一定程度上解决 样本分布不均的问题。
[0050]
在本实施例中,输入xgboost模型的数据为{(x1,y1),(x2,y2),...,(x
m
,y
m
)}, 其中x为根据样本提取的特征,y为标签,正常样本标签为0,异常样本标 签为1。xgboost模型的输出可以表述为:
[0051]
其中,f
k
(x)表示第k个弱学习器,在xgboost模型中弱学 习器中的总量为k个。这k个弱分类器,为了组成强分类器,需要最小化函 数:
[0052]
其中l(
·
)为损失函数,ω(
·
)为 正则化函数。正则化项中t为树的叶子节点个数,w为叶子节点的权值,γ 和λ为正则项中的
超参数。在每一轮迭代时,只对第t棵回归树的目标函数 进行优化:
[0053]
其中为前t

1棵树对应样本x
i
的输 出,f
t
(x
i
)是当前树的输出。对目标函数进行泰勒展开,保留式中的一次项 与二次项,得到目标的近似值为:
[0054][0055]
其中:
[0056]
为每个样本在损失函数上的一阶导 数与二阶数,i∈i
j
表示每个映射到第j个叶子节点上的样本数据。
[0057]
对w
j
求导等于0,求得w
j
的最优解:
[0058]
将带入原目标函数得到:
[0059]
其中t为叶子节点数量。
[0060]
通过以上的迭代,可以找到树的最优分裂变量和切分值。使用寻找 具有最佳结构的树并将其添加到模型中,利用贪心算法来找到最优树结构。
[0061]
通过特征提取、特征选择、xgboost模型训练后可生成异常检测模型, 提取测试集或者线上数据小波包分解特征与统计特征,并根据训练时的特 征选择结果剔除冗余特征。将特征输入训练好的模型中,得出异常检测结 果。
[0062]
需要特别指出的是,上述监控数据异常的检测方法的各个实施例中的 各个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组 合变换之于监控数据异常的检测方法也应当属于本发明的保护范围,并且 不应将本发明的保护范围局限在实施例之上。
[0063]
基于上述目的,本发明实施例的第二个方面,提出了一种监控数据异 常的检测装置。图4示出的是本发明提供的监控数据异常的检测装置的实 施例的示意图。如图4所示,本发明实施例包括如下模块:第一模块s41, 配置用于采集监控数据,并基于滑动窗口对监控数据进行分割以得到训练 集和测试集/待检测数据;第二模块s42,配置用于提取训练集中样本点的 小波包分解特征与统计特征以构建监控数据的特征集,并基于卡方检验对 特征集中的特征进行选择以排除冗余特征,得到最终训练集;第三模块s43, 配置用于基于最终训练集对集成学习模型进行训练以得到异常检测模型; 以及第四模块s44,配置用于将测试集/待检测数据输入异常检测模型,以 得到异常检测结果。
[0064]
基于上述目的,本发明实施例的第三个方面,提出了一种计算机设备。 图5示出的是本发明提供的计算机设备的实施例的示意图。如图5所示, 本发明实施例包括如下装置:至少一个处理器s51;以及存储器s52,存储 器s52存储有可在处理器上运行的计算机指令s53,指令由处理器执行时实 现以上方法的步骤。
[0065]
本发明还提供了一种计算机可读存储介质。图6示出的是本发明提供 的计算机可读存储介质的实施例的示意图。如图6所示,计算机可读存储 介质存储s61有被处理器执行时执行如上方法的计算机程序s62。
[0066]
最后需要说明的是,本领域普通技术人员可以理解实现上述实施例方 法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,监 控数据异常的检测方法的程序可存储于一计算机可读取存储介质中,该程 序在执行时,可包括如上述各方法的实施例的流程。其中,程序的存储介 质可为磁碟、光盘、只读存储记忆体(rom)或随机存储记忆体(ram) 等。上述计算机程序的实施例,可以达到与之对应的前述任意方法实施例 相同或者相类似的效果。
[0067]
此外,根据本发明实施例公开的方法还可以被实现为由处理器执行的 计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算 机程序被处理器执行时,执行本发明实施例公开的方法中限定的上述功能。
[0068]
此外,上述方法步骤以及系统单元也可以利用控制器以及用于存储使 得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实 现。
[0069]
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性 逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两 者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意 性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种 功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系 统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现 的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范 围。
[0070]
在一个或多个示例性设计中,功能可以在硬件、软件、固件或其任意 组合中实现。如果在软件中实现,则可以将功能作为一个或多个指令或代 码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介 质包括计算机存储介质和通信介质,该通信介质包括有助于将计算机程序 从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或 专用计算机访问的任何可用介质。作为例子而非限制性的,该计算机可读 介质可以包括ram、rom、eeprom、cd

rom或其它光盘存储设备、 磁盘存储设备或其它磁性存储设备,或者是可以用于携带或存储形式为指 令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专 用处理器访问的任何其它介质。此外,任何连接都可以适当地称为计算机 可读介质。例如,如果使用同轴线缆、光纤线缆、双绞线、数字用户线路 (dsl)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它 远程源发送软件,则上述同轴线缆、光纤线缆、双绞线、dsl或诸如红外 线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的,磁 盘和光盘包括压缩盘(cd)、激光盘、光盘、数字多功能盘(dvd)、软 盘、蓝光盘,其中磁盘通常磁性地再现数据,而光盘利用激光光学地再现 数据。上述内容的组合也应当包括在计算机可读介质的范围内。
[0071]
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要 求限定的本
发明实施例公开的范围的前提下,可以进行多种改变和修改。 根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以 任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式 描述或要求,但除非明确限制为单数,也可以理解为多个。
[0072]
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况, 单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用 的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有 可能组合。
[0073]
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优 劣。
[0074]
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以 通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储 于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器, 磁盘或光盘等。
[0075]
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例 性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这 些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术 特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多 其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的 精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含 在本发明实施例的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献