一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种数据状态检测方法、装置和存储介质与流程

2022-05-18 03:36:47 来源:中国专利 TAG:


1.本技术涉及网络安全技术领域,尤其涉及一种数据状态检测方法、装置和存储介质。


背景技术:

2.在互联网中,网络蠕虫传播、分布式拒绝服务(distributed denial of service,ddos)攻击、僵尸网络攻击和硬件故障等情况的发生,通常会造成异常流量。异常流量往往会导致网络阻塞、网络设备的中央处理器(central processing unit,cpu)与内存爆满等,甚至于网络瘫痪。
3.相关技术中,一般是通过人工凭经验设定阈值等方法,对历史流量进行划分并标注标签,从而采用有监督的机器学习算法训练得到用于检测异常流量的模型,以避免异常流量带来的危害。
4.但是,这种依赖于人工经验的训练方式,会存在人工标注错误等问题,无法保证模型检测异常流量的准确性,容易导致检出率低的情况。


技术实现要素:

5.本技术提供一种数据状态检测方法、装置和存储介质,用于解决如何准确的检测数据状态的技术问题。
6.为达到上述目的,本技术采用如下技术方案:
7.第一方面,提供一种数据状态检测方法,包括:在获取第一流量数据,并确定用于表示第一流量数据的统计特征的第一特征数据后,可以将第一特征数据输入至检测模型中,以得到状态检测值。其中,第一流量数据包括:位于当前时刻之前的第一时间段的流量数据和当前时刻的流量数据。状态检测值用于表示当前时刻的流量数据的数据状态。检测模型为基于用于表示第二流量数据的统计特征的第二特征数据训练得到的。第二流量数据包括:位于当前时刻之前的第二时间段的流量数据。
8.可选的,第一特征数据包括:第一流量数据在第一时间长度内的最大值、最小值、均值、方差和平方和。第一流量数据在第二时间长度内的自相关系数和变异系数。第一流量数据在第三时间长度内的累计流量和平均值。第二特征数据包括多个样本特征数据。一个样本特征数据包括:第二流量数据在一个第一时间长度内的最大值、最小值、均值、方差和平方和。第二流量数据在一个第二时间长度内的自相关系数和变异系数。第二流量数据在一个第三时间长度内的累计流量和平均值。
9.可选的,该数据状态检测方法,还包括:获取第二流量数据。确定第二流量数据的第二特征数据。基于第二特征数据,训练得到检测模型。
10.可选的,基于第二特征数据,训练得到检测模型的方法,具体包括:从第二特征数据中,确定多个样本集合。一个样本集合包括目标数量的样本特征数据。目标数量为预设数量范围内的任意数量。对每个样本集合,均执行二叉树构建操作,以得到多个二叉树。将多
个二叉树组成的二叉树森林确定为检测模型。
11.可选的,将第一特征数据输入至检测模型中,以得到状态检测值的方法,具体包括:确定第一特征数据在每个二叉树中的叶子结点的层次值,以得到与多个二叉树一一对应的多个层次值。将多个层次值的平均值确定为状态检测值。
12.可选的,第一流量数据和第二流量数据的五元组信息相同。
13.可选的,该数据状态检测方法,还包括:当状态检测值小于或者等于预设期望值时,确定数据状态为异常状态。当状态检测值大于预设期望值时,确定数据状态为正常状态。
14.可选的,确定数据状态为异常状态之后,该数据状态检测方法还包括:输出与异常状态对应的告警信息。
15.第二方面,提供一种数据状态检测装置,包括:获取单元和处理单元。获取单元,用于获取第一流量数据。第一流量数据包括:第一时间段的流量数据和当前时刻的流量数据。第一时间段位于当前时刻之前。处理单元,用于确定获取单元获取到的第一流量数据的第一特征数据。第一特征数据用于表示第一流量数据的统计特征。处理单元,还用于将第一特征数据输入至检测模型中,以得到状态检测值。状态检测值用于表示当前时刻的流量数据的数据状态。检测模型为基于第二流量数据的第二特征数据训练得到的。第二流量数据包括:位于当前时刻之前的第二时间段的流量数据。第二特征数据用于表示第二流量数据的统计特征。
16.可选的,第一特征数据包括:第一流量数据在第一时间长度内的最大值、最小值、均值、方差和平方和。第一流量数据在第二时间长度内的自相关系数和变异系数。第一流量数据在第三时间长度内的累计流量和平均值。第二特征数据包括多个样本特征数据。一个样本特征数据包括:第二流量数据在一个第一时间长度内的最大值、最小值、均值、方差和平方和。第二流量数据在一个第二时间长度内的自相关系数和变异系数。第二流量数据在一个第三时间长度内的累计流量和平均值。
17.可选的,获取单元,还用于获取第二流量数据。处理单元,还用于确定获取单元获取到的第二流量数据的第二特征数据。处理单元,还用于基于第二特征数据,训练得到检测模型。
18.可选的,处理单元,具体用于:从第二特征数据中,确定多个样本集合。一个样本集合包括目标数量的样本特征数据。目标数量为预设数量范围内的任意数量。对每个样本集合,均执行二叉树构建操作,以得到多个二叉树。将多个二叉树组成的二叉树森林确定为检测模型。
19.可选的,处理单元,具体用于:确定第一特征数据在每个二叉树中的叶子结点的层次值,以得到与多个二叉树一一对应的多个层次值。将多个层次值的平均值确定为状态检测值。
20.可选的,第一流量数据和第二流量数据的五元组信息相同。
21.可选的,处理单元,还用于当状态检测值小于或者等于预设期望值时,确定数据状态为异常状态。处理单元,还用于当状态检测值大于预设期望值时,确定数据状态为正常状态。
22.可选的,该数据状态检测装置,还包括:输出单元。输出单元,用于输出与异常状态
对应的告警信息。
23.第三方面,提供一种数据状态检测装置,包括存储器和处理器;存储器用于存储计算机执行指令,处理器与存储器通过总线连接;当数据状态检测装置运行时,处理器执行存储器存储的计算机执行指令,以使数据状态检测装置执行如第一方面的数据状态检测方法。
24.该数据状态检测装置可以是网络设备,也可以是网络设备中的一部分装置,例如网络设备中的芯片系统。该芯片系统用于支持网络设备实现第一方面及其任意一种可能的实现方式中所涉及的功能,例如,接收、确定、分流上述数据处理方法中所涉及的数据和/或信息。该芯片系统包括芯片,也可以包括其他分立器件或电路结构。
25.第四方面,提供一种计算机可读存储介质,其特征在于,计算机可读存储介质包括计算机执行指令,当计算机执行指令在计算机上运行时,使得计算机执行如第一方面的数据状态检测方法。
26.需要说明的是,上述计算机指令可以全部或者部分存储在第一计算机可读存储介质上。其中,第一计算机可读存储介质可以与数据状态检测装置的处理器封装在一起的,也可以与数据状态检测装置的处理器单独封装,本技术对此不作限定。
27.在本技术中,上述数据状态检测装置的名字对设备或功能模块本身不构成限定,在实际实现中,这些设备或功能模块可以以其他名称出现。只要各个设备或功能模块的功能和本技术类似,属于本技术权利要求及其等同技术的范围之内。
28.本技术的这些方面或其他方面在以下的描述中会更加简明易懂。
29.本技术提供的技术方案至少带来以下有益效果:
30.基于上述任一方面,本技术中,在获取第一流量数据,并确定第一流量数据的第一特征数据后,由于第一流量数据包括位于当前时刻之前的第一时间段的流量数据和当前时刻的流量数据,且第一特征数据用于表示第一流量数据的统计特征,且第二特征数据用于表示所述第二流量数据的统计特征,因此,可以将第一特征数据输入至基于第二流量数据的第二特征数据训练得到的检测模型中,以得到状态检测值。其中,状态检测值用于表示当前时刻的流量数据的数据状态。第二流量数据包括:位于当前时刻之前的第二时间段的流量数据。
31.这样一来,相比于现有技术中,基于人工经验结合有监督的机器学算法,训练得到用于检测数据状态的模型的方法,本技术可以基于流量数据的统计特征、对比特征和拟合特征中的至少一项,采用无监督的机器学习算法训练得到用于检测数据状态的模型,避免了人工操作可能出现的失误等情况,从而提高了检测数据状态的准确性。
附图说明
32.图1为本技术实施例提供的一种数据状态检测系统的结构示意图;
33.图2为本技术实施例提供的又一种数据状态检测系统的结构示意图;
34.图3为本技术实施例提供的通信装置的一种硬件结构示意图;
35.图4为本技术实施例提供的通信装置的又一种硬件结构示意图;
36.图5为本技术实施例提供的一种数据状态检测方法的流程示意图一;
37.图6为本技术实施例提供的一种数据状态检测方法的流程示意图二;
38.图7为本技术实施例提供的一种数据状态检测方法的流程示意图三;
39.图8为本技术实施例提供的一种数据状态检测方法的流程示意图四;
40.图9为本技术实施例提供的一种数据状态检测方法的流程示意图五;
41.图10为本技术实施例提供的一种数据状态检测方法的流程示意图六;
42.图11为本技术实施例提供的一种数据状态检测装置的结构示意图。
具体实施方式
43.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
44.需要说明的是,本技术实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本技术实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
45.为了便于清楚描述本技术实施例的技术方案,在本技术实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分,本领域技术人员可以理解“第一”、“第二”等字样并不是在对数量和执行次序进行限定。
46.此外,本技术实施例和权利要求书及附图中的术语“包括”和“具有”不是排他的。例如,包括了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块,还可以包括没有列出的步骤或模块。
47.如背景技术中所述,相关技术中,一般是通过人工凭经验设定阈值等方法,对历史流量数据进行划分并标注标签,从而采用有监督的机器学习算法训练得到用于检测异常流量数据的模型,以避免异常流量数据带来的危害。
48.但是,这种依赖于人工经验的训练方式,会存在人工标注错误等问题,无法保证模型检测异常流量数据的准确性,容易导致检出率低的情况。
49.针对上述问题,本技术实施例提供了一种数据状态检测方法,在获取第一流量数据,并确定第一流量数据的第一特征数据后,由于第一流量数据包括位于当前时刻之前的第一时间段的流量数据和当前时刻的流量数据,且第一特征数据用于表示第一流量数据的统计特征,且第二特征数据用于表示所述第二流量数据的统计特征,因此,可以将第一特征数据输入至基于第二流量数据的第二特征数据训练得到的检测模型中,以得到状态检测值。其中,状态检测值用于表示当前时刻的流量数据的数据状态。第二流量数据包括:位于当前时刻之前的第二时间段的流量数据。
50.这样一来,相比于现有技术中,基于人工经验结合有监督的机器学算法,训练得到用于检测数据状态的模型的方法,本技术可以基于流量数据的统计特征、对比特征和拟合特征中的至少一项,采用无监督的机器学习算法训练得到用于检测数据状态的模型,避免了人工操作可能出现的失误等情况,从而提高了检测数据状态的准确性。
51.该数据状态检测方法适用于数据状态检测系统。图1示出了该数据状态检测系统100的一种结构。如图1所示,该数据状态检测系统100包括:数据状态检测装置101和待检测
设备102。数据状态检测装置101可以和待检测设备102之间通信连接。
52.可选的,图1中的数据状态检测装置101和/或待检测设备102可以是服务器,也可以是终端,还可以是其他用于对数据进行检测的电子设备。
53.可选的,当数据状态检测装置101和/或待检测设备102为服务器时,服务器可以是单独的服务器,或者,也可以是由多个服务器构成的服务器集群。部分实施方式中,服务器集群还可以是分布式集群。本技术实施例对此不作任何限制。
54.当数据状态检测装置101和待检测设备102均为服务器时,数据状态检测装置101可以是待检测设备102内部用于对数据进行检测的功能模块,也可以是与待检测设备102相互独立设置的独立服务器,本技术对此不作具体限定。
55.为了便于理解,本技术主要以数据状态检测装置101和待检测设备102独立设置为例进行说明。
56.容易理解的是,当数据状态检测装置101为待检测设备102内部的功能模块时,数据状态检测装置101和待检测设备102之间的通信方式为服务器内部模块之间的通信。这种情况下,二者之间的通信流程与“数据状态检测装置101和待检测设备102相互独立的情况下,二者之间的通信流程”相同。
57.可选的,当数据状态检测装置101和/或待检测设备102为终端时,终端可以为指向用户提供语音和/或数据连通性的设备,具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备。无线终端可以经无线接入网(radio access network,ran)与一个或多个核心网进行通信。无线终端可以是移动终端,如具有移动终端的计算机,也可以是便携式、袖珍式、手持式、计算机内置的移动装置,它们与无线接入网交换语言和/或数据,例如,手机、平板电脑、笔记本电脑、上网本、个人数字助理(personal digital assistant,pda)。本技术实施例对此不作任何限制。
58.可选的,如图2所示,为该数据状态检测系统100的另一种结构。该数据状态检测系统100还可以包括:多个节点设备103。数据状态检测装置101还可以分别和多个节点设备103之间通信连接。
59.其中,数据状态检测装置101和多个节点设备103可以构成用于实现分布式计算和存储的系统。多个节点设备103可以共同为数据状态检测装置101提供分布式计算服务和分布式存储服务。
60.节点设备103可以是物理机,也可以是运行在物理机上的主机(host),虚拟机(virtual machine)或者容器。应理解,虚拟机和容器都需要部署在物理机上。
61.为了便于理解,本技术主要以图1所示的数据状态检测系统100为例进行说明。
62.数据状态检测系统100中的数据状态检测装置101和待检测设备102的基本硬件结构类似,都包括图3或图4所示通信装置所包括的元件。下面以图3和图4所示的通信装置为例,介绍数据状态检测装置101和待检测设备102的硬件结构。
63.如图3所示,为本技术实施例提供的通信装置的一种硬件结构示意图。该通信装置包括处理器21,存储器22、通信接口23、总线24。处理器21,存储器22以及通信接口23之间可以通过总线24连接。
64.处理器21是通信装置的控制中心,可以是一个处理器,也可以是多个处理元件的统称。例如,处理器21可以是一个通用中央处理单元(central processing unit,cpu),也
可以是其他通用处理器等。其中,通用处理器可以是微处理器或者是任何常规的处理器等。
65.作为一种实施例,处理器21可以包括一个或多个cpu,例如图3中所示的cpu0和cpu1。
66.存储器22可以是只读存储器(read-only memory,rom)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,ram)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory,eeprom)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
67.一种可能的实现方式中,存储器22可以独立于处理器21存在,存储器22可以通过总线24与处理器21相连接,用于存储指令或者程序代码。处理器21调用并执行存储器22中存储的指令或程序代码时,能够实现本技术下述实施例提供的数据状态检测方法。
68.在本技术实施例中,对于数据状态检测装置101和待检测设备102而言,存储器22中存储的软件程序不同,所以数据状态检测装置101和待检测设备102实现的功能不同。关于各设备所执行的功能将结合下面的流程图进行描述。
69.另一种可能的实现方式中,存储器22也可以和处理器21集成在一起。
70.通信接口23,用于通信装置与其他设备通过通信网络连接,所述通信网络可以是以太网,无线接入网,无线局域网(wireless local area networks,wlan)等。通信接口23可以包括用于接收数据的接收单元,以及用于发送数据的发送单元。
71.总线24,可以是工业标准体系结构(industry standard architecture,isa)总线、外部设备互连(peripheral component interconnect,pci)总线或扩展工业标准体系结构(extended industry standard architecture,eisa)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
72.需要指出的是,图3中示出的结构并不构成对该通信装置的限定,除图3所示部件之外,该通信装置可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
73.图4示出了本技术实施例中通信装置的另一种硬件结构。如图4所示,通信装置可以包括处理器31以及通信接口32。处理器31与通信接口32耦合。
74.处理器31的功能可以参考上述处理器21的描述。此外,处理器31还具备存储功能,可以起上述存储器22的功能。
75.通信接口32用于为处理器31提供数据。该通信接口32可以是通信装置的内部接口,也可以是通信装置对外的接口(相当于通信接口23)。
76.需要指出的是,图3(或图4)中示出的结构并不构成对通信装置的限定,除图3(或图4)所示部件之外,该通信装置可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
77.下面结合附图对本技术实施例提供的数据状态检测方法进行详细介绍。
78.本技术实施例提供的数据状态检测方法包括:数据状态检测装置获取第二流量数据后,确定第二流量数据的第二特征数据,并基于第二特征数据,训练得到检测模型的流程
(简称为“检测模型训练流程”)和数据状态检测装置获取到包括有当前时刻的流量数据的第一流量数据后,确定第一流量数据的第一特征数据,并根据第一特征数据和检测模型,从而得到状态检测值,以确定当前时刻的流量数据的数据状态的流程(简称为“数据状态检测流程”)。
79.下面先对“检测模型训练流程”进行描述。
80.如图5所示,“检测模型训练流程”包括:s501-s503。
81.s501、数据状态检测装置获取第二流量数据。
82.具体的,在训练检测模型时,数据状态检测装置可以获取用于记录待检测设备在位于当前时刻之前的,第二时间段内产生的流量数据的日志文件,并按照预设读取规则读取日志文件,从而确定五元组信息相同的数据流在第二时间段内不同时刻产生的流量大小信息。
83.接着,数据状态检测装置可以按照预设数据格式,将五元组信息相同的数据流在第二时间段内不同时刻产生的流量大小信息存储为第二流量数据。
84.可选的,数据状态检测装置可以预先配置有存储模块。存储模块可以存储有,用于记录待检测设备在第二时间段内产生的流量数据的日志文件。当需要获取待检测设备在第二时间段内的日志文件时,数据状态检测装置可以从存储模块中,读取待检测设备在第二时间段内的日志文件。
85.可选的,流量大小信息可以用于表示同一时刻内,五元组信息相同的数据流的上行流量和下行流量之和。其中,五元组信息包括数据流的传输层协议、源网际协议地址(internet protocol address,ip地址)、源端口、目的ip地址和目的端口。
86.可选的,预设读取规则可以根据日志文件的文件格式确定。
87.可选的,预设数据格式可以是json(javascript object notation)数据格式,也可以是其他便于存储的数据格式。
88.s502、数据状态检测装置确定第二流量数据的第二特征数据。
89.具体的,在获取第二流量数据后,数据状态检测装置可以确定第二流量数据的第二特征数据,以用于训练检测模型。
90.其中,第二特征数据用于表示第二流量数据的统计特征。第二特征数据包括多个样本特征数据。
91.一个样本特征数据包括:第二流量数据在一个第一时间长度内的最大值、最小值、均值、方差和平方和。第二流量数据在一个第二时间长度内的自相关系数和变异系数。第二流量数据在一个第三时间长度内的累计流量和平均值。
92.具体的,数据状态检测装置可以根据最大值公式,确定第二流量数据在一个第一时间长度内的最大值。最大值公式为:
93.x
max
=max(xi)。
94.其中,xi为第二流量数据在一个第一时间长度内的n个流量数据中的任意一个,x
max
为n个流量数据中的最大值。
95.数据状态检测装置可以根据最小值公式,确定第二流量数据在一个第一时间长度内的最小值。最大值公式为:
96.x
min
=min(xi)。
97.其中,xi为第二流量数据在一个第一时间长度内的n个流量数据中的任意一个,x
min
为n个流量数据中的最小值。
98.数据状态检测装置可以根据平均值公式,确定第二流量数据在一个第一时间长度内的平均值。平均值公式为:
[0099][0100]
其中,n为第二流量数据在一个第一时间长度内的流量数据的数量,xi为第二流量数据在一个第一时间长度内的n个流量数据中的任意一个,为n个流量数据中的平均值。
[0101]
数据状态检测装置可以根据方差公式,确定第二流量数据在一个第一时间长度内的方差。方差公式为:
[0102][0103]
其中,n为第二流量数据在一个第一时间长度内的流量数据的数量,xi为第二流量数据在一个第一时间长度内的n个流量数据中的任意一个,为n个流量数据中的平均值,s2第二流量数据在一个第一时间长度内的方差。
[0104]
数据状态检测装置可以根据平方和公式,确定第二流量数据在一个第一时间长度内的平方和。平方和公式为:
[0105][0106]
其中,n为第二流量数据在一个第一时间长度内的流量数据的数量,为第二流量数据在一个第一时间长度内的n个流量数据中的任意一个流量数据的平方,m为n个流量数据的平均和。
[0107]
数据状态检测装置可以根据自相关系数公式,确定第二流量数据在一个第二时间长度内的自相关系数。自相关系数公式为:
[0108][0109]
其中,m为第二流量数据在一个第二时间长度内的流量数据的数量,h为大于0、且小于m的阶数,xj为m个流量数据中的任意一个,u为m个流量数据的平均值,l为第二流量数据在一个第二时间长度内的自相关系数。
[0110]
数据状态检测装置可以根据变异系数公式,即确定第二流量数据在一个第二时间长度内的变异系数。变异系数公式为:
[0111][0112]
其中,z2为第二流量数据在一个第二时间长度内的m个流量数据的方差,为m个流量数据的平均值,cv为第二流量数据在一个第二时间长度内的变异系数。
[0113]
需要说明的是,第一时间长度用于表示流量数据在短期内的随机性和突发性。例如,第一时间长度可以是1个小时,也可以24个小时。第二时间长度和第三时间长度用于表示流量数据在中长期内的稳定性和周期性。例如,第二时间长度可以是1个月,也可以是6个月。第三时间长度可以是1周,也可以是2周。并且,第一时间长度、第二时间长度和第三时间长度均不超过第二时间段的时间长度。
[0114]
s503、数据状态检测装置基于第二特征数据,训练得到检测模型。
[0115]
可选的,数据状态检测装置基于第二特征数据,训练得到检测模型时,可以采用孤立森林(isolation forest,iforest)算法,也可以采用k均值聚类算法(k-means clustering algorithm,k-means算法),还可以采用其他便于检测数据状态的无监督的机器学习算法。
[0116]
具体的,当采用iforest算法时,数据状态检测装置可以从第二特征数据中,确定多个子样本。一个子样本可以包括预设数量范围内的任意数量的样本特征数据。
[0117]
接着,数据状态检测装置可以根据每个子样本构建一个二叉树,以得到与多个子样本一一对应的多个二叉树,并将多个二叉树组成的二叉树森林确定为检测模型。
[0118]
在一种可以实现的方式中,结合图5,如图6所示,在上述s503中,数据状态检测装置基于第二特征数据,训练得到检测模型的方法,包括:s601-s603。
[0119]
s601、数据状态检测装置从第二特征数据中,确定多个样本集合。
[0120]
其中,一个样本集合包括目标数量的样本特征数据。目标数量为预设数量范围内的任意数量。
[0121]
可以理解的是,多个样本集合的数量较大时,检测模型检测数据状态的准确性也会随之增加。
[0122]
可选的,预设数量范围可以由人工凭经验设定。应理解,预设数量范围的最大值应不超过多个样本特征数据的总数。
[0123]
示例性的,预设第二特征数据中包括有a、b、c、d和e共5个样本特征数据,预设数量范围为3至5。则目标数量可以是3,也可以是4,还可以是5。一个样本集合可以包括a、b和c3个样本特征数据,也可以包括a、c和e3个样本特征数据,还可以包括a、b、d和e4个样本特征数据。
[0124]
s602、数据状态检测装置对每个样本集合,均执行二叉树构建操作,以得到多个二叉树。
[0125]
其中,二叉树构建操作包括:数据状态检测装置将当前节点内,当前多个样本特征数据中分割特征对应的特征值小于或等于分割参数的样本特征数据放入当前节点的左子节点,当前多个样本特征数据中分割特征对应的特征值大于分割参数的样本特征数据放入当前节点的右子节点。当前节点为二叉树中的任意节点。直至二叉树的高度等于预设高度,或者二叉树中的所有叶子节点仅包括一个样本特征数据。应理解,初始当前节点为根节点。初始当前多个样本为一个样本集合中包括的目标数量的样本特征数据。
[0126]
当前节点的分割特征为第二流量数据在一个第一时间长度内的最大值、最小值、均值、方差和平方和,以及第二流量数据在一个第二时间长度内的自相关系数和变异系数,以及第二流量数据在一个第三时间长度内的累计流量和平均值共计9个维度的特征数据中的任意一个维度的特征数据。
[0127]
当前节点的分割参数为一个样本集合中各样本特征数据与分割特征对应的特征值中的任意一个。
[0128]
s603、数据状态检测装置将多个二叉树组成的二叉树森林确定为检测模型。
[0129]
具体的,在得到多个二叉树后,数据状态检测装置可以将多个二叉树组成二叉树森林,并将该二叉树森林确定为检测模型。
[0130]
采用上述方法训练好检测模型之后,可以根据检测模型和获取到的包括有当前时刻的流量数据的第一流量数据,得到状态检测值,以确定当前时刻的流量数据的数据状态。下面对“数据状态检测流程”进行描述。
[0131]
如图7所示,“数据状态检测流程”,包括:s701-s703。
[0132]
s701、数据状态检测装置获取第一流量数据。
[0133]
其中,第一流量数据包括:第一时间段的流量数据和当前时刻的流量数据。第一时间段位于当前时刻之前。
[0134]
需要说明的是,为了保证检测数据状态的准确性,第一流量数据和第二流量数据的五元组信息相同,以实现基于一个数据流的历史流量数据,检测该一个数据流的当前流量数据的数据状态是否异常。
[0135]
可选的,数据状态检测装置获取第一流量数据的方法,可以参考s501中,数据状态检测装置获取第二流量数据的方法,在此不再赘述。
[0136]
s702、数据状态检测装置确定第一流量数据的第一特征数据。
[0137]
其中,第一特征数据用于表示第一流量数据的统计特征。
[0138]
第一特征数据包括:第一流量数据在第一时间长度内的最大值、最小值、均值、方差和平方和。第一流量数据在第二时间长度内的自相关系数和变异系数。第一流量数据在第三时间长度内的累计流量和平均值。
[0139]
需要说明的是,在第一流量数据中,第一时间长度、第二时间长度和第三时间长度的最后时刻均为当前时刻。
[0140]
可选的,数据状态检测装置确定第一流量数据的第一特征数据的方法,可以参考s502中,数据状态检测装置确定第二流量数据的第二特征数据的方法,在此不再赘述。
[0141]
s703、数据状态检测装置将第一特征数据输入至检测模型中,以得到状态检测值。
[0142]
具体的,在确定第一流量数据的第一特征数据后,为了确定当前时刻的流量数据的数据状态,数据状态检测装置可以将第一特征数据输入至检测模型中,以得到状态检测值。
[0143]
其中,状态检测值用于表示当前时刻的流量数据的数据状态。
[0144]
在一种可以实现的方式中,结合图7,如图8所示,在上述s703中,数据状态检测装置将第一特征数据输入至检测模型中,以得到状态检测值的方法,包括:s801-s802。
[0145]
s801、数据状态检测装置确定第一特征数据在每个二叉树中的叶子结点的层次值,以得到与多个二叉树一一对应的多个层次值。
[0146]
应理解,第一特征数据在一个二叉树中的叶子结点的层次值与该一个二叉树的高度的差值,可以描述第一特征数据与该一个二叉树的偏离程度。
[0147]
s802、数据状态检测装置将多个层次值的平均值确定为状态检测值。
[0148]
具体的,为了更准确的描述第一特征数据在二叉树森林中的偏离程度,数据状态检测装置可以将多个层次值的平均值确定为状态检测值。
[0149]
在一种可以实现的方式中,结合图7,如图9所示,在上述s703之后,该数据状态检测方法,还包括:s901-s902。
[0150]
s901、当状态检测值小于或者等于预设期望值时,数据状态检测装置确定数据状态为异常状态。
[0151]
具体的,当状态检测值小于或者等于预设期望值时,数据状态检测装置可以确定第一特征数据与正常数据的特征数据的相似度较低,从而确定数据状态为异常状态。
[0152]
可选的,预设期望值可以由人工凭经验设置。预设期望值用于表示确定一个数据的数据状态为正常状态时,该一个数据的特征数据与正常数据的特征数据的最低相似度。
[0153]
s902、当状态检测值大于预设期望值时,数据状态检测装置确定数据状态为正常状态。
[0154]
具体的,当状态检测值大于预设期望值时,数据状态检测装置可以确定第一特征数据与正常数据的特征数据的相似度较高,从而确定数据状态为正常状态。
[0155]
需要说明的是,步骤s901和步骤s902为将状态检测值和预设期望值相比较后,得到的两种不同结果。应理解,当执行s901时,则不执行s902。当执行s902时,则不执行s901。
[0156]
在一种可以实现的方式中,结合图9,如图10所示,在上述s901之后,该数据状态检测方法,还包括:s1001。
[0157]
s1001、数据状态检测装置输出与异常状态对应的告警信息。
[0158]
具体的,在确定数据状态为异常状态后,数据状态检测装置可以输出与异常状态对应的告警信息,以便于工作人员及时地进行处理。
[0159]
可选的,数据状态检测装置输出告警信息的方式可以是向指定账户发送邮件、短信等方式,也可以是输出预设的语音内容、网页弹窗等方式,或者其他便于工作人员接收到的方式,本技术实施例对此不作限定。
[0160]
本技术实施例中,在获取第一流量数据,并确定第一流量数据的第一特征数据后,由于第一流量数据包括位于当前时刻之前的第一时间段的流量数据和当前时刻的流量数据,且第一特征数据用于表示第一流量数据的统计特征,且第二特征数据用于表示所述第二流量数据的统计特征,因此,数据状态检测装置可以将第一特征数据输入至基于第二流量数据的第二特征数据训练得到的检测模型中,以得到状态检测值。其中,状态检测值用于表示当前时刻的流量数据的数据状态。第二流量数据包括:位于当前时刻之前的第二时间段的流量数据。
[0161]
这样一来,相比于现有技术中,基于人工经验结合有监督的机器学算法,训练得到用于检测数据状态的模型的方法,本技术可以基于流量数据的统计特征、对比特征和拟合特征中的至少一项,采用无监督的机器学习算法训练得到用于检测数据状态的模型,避免了人工操作可能出现的失误等情况,从而提高了检测数据状态的准确性。
[0162]
上述主要从方法的角度对本技术实施例提供的方案进行了介绍。为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本技术能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
[0163]
本技术实施例可以根据上述方法示例对终端进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。可选的,本技术实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以
有另外的划分方式。
[0164]
如图11所示,为本技术实施例提供的一种数据状态检测装置的结构示意图。该数据状态检测装置可以用于执行如图5至图10所示的数据状态检测方法。图11所示数据状态检测装置包括:获取单元1101和处理单元1102。
[0165]
获取单元1101,用于获取第一流量数据。第一流量数据包括:第一时间段的流量数据和当前时刻的流量数据。第一时间段位于当前时刻之前。例如,结合图7,获取单元1101可以用于执行s701。
[0166]
处理单元1102,用于确定获取单元1101获取到的第一流量数据的第一特征数据。第一特征数据用于表示第一流量数据的统计特征。例如,结合图7,处理单元1102可以用于执行s702。
[0167]
处理单元1102,还用于将第一特征数据输入至检测模型中,以得到状态检测值。状态检测值用于表示当前时刻的流量数据的数据状态。检测模型为基于第二流量数据的第二特征数据训练得到的。第二流量数据包括:位于当前时刻之前的第二时间段的流量数据。第二特征数据用于表示第二流量数据的统计特征。例如,结合图7,处理单元1102可以用于执行s703。
[0168]
可选的,第一特征数据包括:第一流量数据在第一时间长度内的最大值、最小值、均值、方差和平方和。第一流量数据在第二时间长度内的自相关系数和变异系数。第一流量数据在第三时间长度内的累计流量和平均值。第二特征数据包括多个样本特征数据。一个样本特征数据包括:第二流量数据在一个第一时间长度内的最大值、最小值、均值、方差和平方和。第二流量数据在一个第二时间长度内的自相关系数和变异系数。第二流量数据在一个第三时间长度内的累计流量和平均值。
[0169]
可选的,获取单元1101,还用于获取第二流量数据。例如,结合图5,获取单元1101可以用于执行s501。
[0170]
处理单元1102,还用于确定获取单元1101获取到的第二流量数据的第二特征数据。例如,结合图5,处理单元1102可以用于执行s502。
[0171]
处理单元1102,还用于基于第二特征数据,训练得到检测模型。例如,结合图5,处理单元1102可以用于执行s503。
[0172]
可选的,处理单元1102,具体用于:
[0173]
从第二特征数据中,确定多个样本集合。一个样本集合包括目标数量的样本特征数据。目标数量为预设数量范围内的任意数量。例如,结合图6,处理单元1102可以用于执行s601。
[0174]
对每个样本集合,均执行二叉树构建操作,以得到多个二叉树。例如,结合图6,处理单元1102可以用于执行s602。
[0175]
将多个二叉树组成的二叉树森林确定为检测模型。例如,结合图6,处理单元1102可以用于执行s603。
[0176]
可选的,处理单元1102,具体用于:
[0177]
确定第一特征数据在每个二叉树中的叶子结点的层次值,以得到与多个二叉树一一对应的多个层次值。例如,结合图8,处理单元1102可以用于执行s801。
[0178]
将多个层次值的平均值确定为状态检测值。例如,结合图8,处理单元1102可以用
于执行s802。
[0179]
可选的,第一流量数据和第二流量数据的五元组信息相同。
[0180]
可选的,处理单元1102,还用于当状态检测值小于或者等于预设期望值时,确定数据状态为异常状态。例如,结合图9,处理单元1102可以用于执行s901。
[0181]
处理单元1102,还用于当状态检测值大于预设期望值时,确定数据状态为正常状态。例如,结合图9,处理单元1102可以用于执行s902。
[0182]
可选的,该数据状态检测装置,还包括:输出单元1103。
[0183]
输出单元1103,用于输出与异常状态对应的告警信息。例如,结合图10,输出单元1103可以用于执行s1001。
[0184]
本领域技术人员应该可以意识到,在上述一个或多个示例中,本技术所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机可读存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
[0185]
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
[0186]
在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0187]
以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以权利要求的保护范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献