一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

时间序列数据异常检测方法、装置、设备及存储介质与流程

2021-12-14 21:07:00 来源:中国专利 TAG:


1.本公开涉及数据处理技术领域,具体而言,涉及一种时间序列数据异常检测方法、装置、设备及可读存储介质。


背景技术:

2.现实生活中经过统计可得到一些具有复杂关联的时间序列指标,在每个时间点都对应一个指标或一组指标数据,各个时间点之间的样本数据没有必然的联系。例如某地区国内生产总值(gross domestic product,gdp)等经济指标,受影响因素众多,历史年份的指标值对当前年份的指标具有一定影响。在对地区发展做出一些决策时,会对历史年份该地区发展情况的相关指标进行分析,例如gdp,人口,就业人数等等,对指标数据进行异常检测,检测出异常的历史时间点,并分析异常原因,从而提供准确的决策支持。
3.通常进行异常检测的指标类别众多,且各指标的情况差别较大。例如,经济指标包括宏观的社会消费品总额,居民消费结构各个部分,各行业固定资产投资,各类商品出口金额等,类目总量有成百上千种,不同类指标之间差异大。相关技术中对不同时间序列指标进行异常检测时通常采用统一模型算法,而利用统一模型对多种类别指标进行异常检测的准确性较低。
4.如上所述,如何提供对多种类别时间序列指标进行异常检测的准确性成为亟待解决的问题。
5.在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。


技术实现要素:

6.本公开的目的在于提供一种时间序列数据异常检测方法、装置、设备及可读存储介质,至少在一定程度上提高对多种类别时间序列指标进行异常检测的准确性。
7.本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
8.根据本公开的一方面,提供一种时间序列数据异常检测方法,包括:获取时间序列数据,所述时间序列数据为连续时间点中各个时间点对应的指标数据的序列;根据所述各个时间点对应的指标数据获得近邻关联性特征,所述近邻关联性特征用于表示所述各个时间点的多个近邻时间点中各个近邻时间点对应的指标数据与所述各个时间点对应的指标数据之间的关联性;基于所述近邻关联性特征对所述多个近邻时间点对应的多个指标数据进行降维处理,获得所述各个时间点对应的关联近邻数据;对所述连续时间点对应的多个所述关联近邻数据进行划分以从所述连续时间点中确定指标数据异常的时间点。
9.根据本公开的一实施例,所述时间序列数据包括所述各个时间点对应的多个相似区域的指标数据;所述获取时间序列数据包括:获取所述各个时间点对应的第一预定区域的指标数据;获取所述各个时间点对应的第二预定区域的指标数据;在所述第一预定区域
的指标数据与所述第二预定区域的指标数据的相似度大于预设阈值时,获得所述多个相似区域,所述多个相似区域包括所述第一预定区域和所述第二预定区域。
10.根据本公开的一实施例,所述近邻关联性特征包括第一维度和第二维度,所述第一维度为近邻时间点序列,所述第二维度为与所述近邻时间点序列对应的信息增益序列;所述根据所述各个时间点对应的指标数据获得近邻关联性特征包括:获取所述各个时间点的各个近邻时间点对应的指标数据;基于所述各个时间点对应的指标数据和所述各个时间点的各个近邻时间点对应的指标数据计算所述近邻时间点序列对应的所述信息增益序列。
11.根据本公开的一实施例,所述基于所述近邻关联性特征对所述多个近邻时间点对应的多个指标数据进行降维处理包括:基于所述近邻关联性特征从所述多个近邻时间点中确定所述各个时间点的关联近邻时间点;根据所述各个时间点的关联近邻时间点确定降维后的指标数据维度;通过主成分分析方法将多个近邻时间点对应的多个指标数据降维到所述降维后的指标数据维度。
12.根据本公开的一实施例,所述根据所述各个时间点的关联近邻时间点确定降维后的指标数据维度包括:基于所述近邻关联性特征根据所述各个时间点的关联近邻时间点确定降维后的指标数据维度。
13.根据本公开的一实施例,所述基于所述近邻关联性特征对所述多个近邻时间点对应的多个指标数据进行降维处理包括:基于所述近邻关联性特征从所述多个近邻时间点中确定所述各个时间点的关联近邻时间点;所述获得所述各个时间点对应的关联近邻数据包括:获得所述各个时间点的关联近邻时间点对应的指标数据为降维后的所述关联近邻数据。
14.根据本公开的一实施例,所述对所述连续时间点对应的多个所述关联近邻数据进行划分以从所述连续时间点中确定指标数据异常的时间点包括:根据所述连续时间点对应的多个所述关联近邻数据获得孤立树;基于所述孤立树分别获得所述连续时间点对应的各个所述关联近邻数据的异常值;获得异常值大于预设阈值关联近邻数据对应的时间点为指标数据异常的时间点。
15.根据本公开的再一方面,提供一种时间序列数据异常检测装置,包括:数据获取模块,用于获取时间序列数据,所述时间序列数据为连续时间点中各个时间点对应的指标数据的序列;关联性特征提取模块,用于根据所述各个时间点对应的指标数据获得近邻关联性特征,所述近邻关联性特征用于表示所述各个时间点的多个近邻时间点中各个近邻时间点对应的指标数据与所述各个时间点对应的指标数据之间的关联性;指标降维模块,用于基于所述近邻关联性特征对所述多个近邻时间点对应的多个指标数据进行降维处理,获得所述各个时间点对应的关联近邻数据;异常检测模块,用于对所述连续时间点对应的多个所述关联近邻数据进行划分以从所述连续时间点中确定指标数据异常的时间点。
16.根据本公开的一实施例,所述时间序列数据包括所述各个时间点对应的多个相似区域的指标数据;所述数据获取模块,还用于获取所述各个时间点对应的第一预定区域的指标数据;获取所述各个时间点对应的第二预定区域的指标数据;所述数据获取模块,还包括相似区域聚合模块,用于在所述第一预定区域的指标数据与所述第二预定区域的指标数据的相似度大于预设阈值时,获得所述多个相似区域,所述多个相似区域包括所述第一预定区域和所述第二预定区域。
17.根据本公开的一实施例,所述近邻关联性特征包括第一维度和第二维度,所述第一维度为近邻时间点序列,所述第二维度为与所述近邻时间点序列对应的信息增益序列;所述关联性特征提取模块还用于:获取所述各个时间点的各个近邻时间点对应的指标数据;基于所述各个时间点对应的指标数据和所述各个时间点的各个近邻时间点对应的指标数据计算所述近邻时间点序列对应的所述信息增益序列。
18.根据本公开的一实施例,所述指标降维模块还用于:基于所述近邻关联性特征从所述多个近邻时间点中确定所述各个时间点的关联近邻时间点;根据所述各个时间点的关联近邻时间点确定降维后的指标数据维度;通过主成分分析方法将多个近邻时间点对应的多个指标数据降维到所述降维后的指标数据维度。
19.根据本公开的一实施例,所述指标降维模块还用于基于所述近邻关联性特征根据所述各个时间点的关联近邻时间点确定降维后的指标数据维度。
20.根据本公开的一实施例,所述指标降维模块还用于基于所述近邻关联性特征从所述多个近邻时间点中确定所述各个时间点的关联近邻时间点;获得所述各个时间点的关联近邻时间点对应的指标数据为降维后的所述关联近邻数据。
21.根据本公开的一实施例,所述异常检测模块,还用于:根据所述连续时间点对应的多个所述关联近邻数据获得孤立树;基于所述孤立树分别获得所述连续时间点对应的各个所述关联近邻数据的异常值;获得异常值大于预设阈值关联近邻数据对应的时间点为指标数据异常的时间点。
22.根据本公开的再一方面,提供一种设备,包括:存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令,所述处理器执行所述可执行指令时实现如上述任一种方法。
23.根据本公开的再一方面,提供一种计算机可读存储介质,其上存储有计算机可执行指令,所述可执行指令被处理器执行时实现如上述任一种方法。
24.本公开的实施例提供的时间序列数据异常检测方法,通过根据各个时间点对应的指标数据获得近邻关联性特征,基于近邻关联性特征对多个近邻时间点对应的多个指标数据进行降维处理,获得各个时间点对应的关联近邻数据,对连续时间点对应的多个关联近邻数据进行划分以从所述连续时间点中确定指标数据异常的时间点,从而可筛选与各个时间点的指标关联性较强的近邻时间点指标数据作为异常检测的对象,以提高对具有不同近邻关联性的多种指标数据的异常检测的准确性。
25.应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
26.通过参照附图详细描述其示例实施例,本公开的上述和其它目标、特征及优点将变得更加显而易见。
27.图1示出本公开实施例中一种系统结构的示意图。
28.图2示出本公开实施例中一种时间序列数据异常检测方法的流程图。
29.图3a是根据一示例性实施例示出的一种用于获得异常检测数据的区域聚合方法的流程图。
30.图3b根据一示例性实施例示出了金融业地区生产总值相似度热力图。
31.图3c示出了2000年份至2018份眉山市企业所得税税收收入指标曲线。
32.图3d示出了2000年份至2018份达州市企业所得税税收收入指标曲线。
33.图3e示出了2000年份至2018份遂宁市企业所得税税收收入指标曲线。
34.图3f示出了2000年份至2018份绵阳市企业所得税税收收入指标曲线。
35.图3g示出了四城市企业所得税税收收入指标相似度聚类图。
36.图4a是根据一示例性实施例示出的一种用于异常检测的特征降维方法的流程图。
37.图4b根据一实施例示出了一种左右子树划分的示意图。
38.图4c根据一实施例示出了房地产业近5年的重要性直方图。
39.图4d根据一实施例示出了建筑业近5年的重要性直方图。
40.图4e根据图4c示出了房地产总值近邻时间点数据降维散点图。
41.图5是根据一示例性实施例示出的另一种特征降维方法的流程图。
42.图6a是根据一示例性实施例示出的一种异常点判断方法的流程图。
43.图6b根据一实施例示出了一种样本切割过程示意图。
44.图6c根据一实施例示出了另一种样本切割过程示意图。
45.图6d根据一实施例示出了一种孤立树的示意图。
46.图6e根据一实施例示出了四川省普通高等学校专任教师数量随时间变化图及对应异常得分图。
47.图7是根据一示例性实施例示出的一种时间序列数据异常检测装置的框图。
48.图8是根据一示例性实施例示出的另一种时间序列数据异常检测装置的框图。
49.图9示出本公开实施例中一种电子设备的结构示意图。
具体实施方式
50.现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施例使得本公开将更加全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
51.此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、装置、步骤等。在其它情况下,不详细示出或描述公知结构、方法、装置、实现或者操作以避免喧宾夺主而使得本公开的各方面变得模糊。
52.此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。符号“/”一般表示前后关联对象是一种“或”的关系。
53.在本公开中,除非另有明确的规定和限定,“连接”等术语应做广义理解,例如,可
以是电连接或可以互相通讯;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本公开中的具体含义。
54.如上所述,某类指标的各个时间点之间的样本数据没有必然的联系,历史年份的指标值对当前年份的指标具有一定影响,在进行历史年份指标分析以进行异常检测时需要考虑全局的发展趋势。而不同类别的指标的影响当前年份指标的历史年份可能不同,因此采用统一模型进行异常检测的准确率较低。因此,本公开提供了一种时间序列数据异常检测方法,通过根据各个时间点对应的指标数据获得近邻关联性特征,基于近邻关联性特征对多个近邻时间点对应的多个指标数据进行降维处理,获得各个时间点对应的关联近邻数据,对连续时间点对应的多个关联近邻数据进行划分以从所述连续时间点中确定指标数据异常的时间点,从而可筛选与各个时间点的指标关联性较强的近邻时间点指标数据作为异常检测的对象,以提高对具有不同近邻关联性的多种指标数据的异常检测的准确性。
55.图1示出了可以应用本公开的时间序列数据异常检测方法或时间序列数据异常检测装置的示例性系统架构10。
56.如图1所示,系统架构10可以包括终端设备102、网络104、服务器106和数据库108。终端设备102可以是具有显示屏并且支持输入、输出的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机、可穿戴设备、虚拟现实设备、智能家居等等。网络104用以在终端设备102和服务器106之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。服务器106可以是提供各种服务的服务器或服务器集群等。数据库108可以为置于服务器上的大型数据库软件,也可以为安装在计算机上的小型数据库软件,用于存储、管理数据。
57.用户可以使用终端设备102通过网络104与服务器106和数据库108交互,以接收或发送数据等。例如用户在终端设备102导入指标数据列表,通过网络104将指标数据上传到服务器106上以进行异常分析,或通过网络104将指标数据上传到数据库108进行存储。又例如用户通过网络104从数据库108中获取多个地区的同类指标数据,在终端设备102上进行处理获得相似区域。
58.在服务器106也可通过网络104从数据库108接收数据或向数据库108发送数据等。例如服务器106可为后台处理服务器,用于通过网络104从数据库108获取待进行异常检测的指标数据。又例如服务器106可用于对通过网络104从数据库108获取多个地区的同类指标数据并进行区域聚合,将聚合后的指标数据通过网络104传输至数据库108进行存储。
59.应该理解,图1中的终端设备、网络、服务器和数据库的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络、服务器和数据库。
60.图2是根据一示例性实施例示出的一种时间序列数据异常检测方法的流程图。如图2所示的方法例如可以应用于上述系统的服务器端,也可以应用于上述系统的终端设备。
61.参考图2,本公开实施例提供的方法20可以包括以下步骤。
62.在步骤s202中,获取时间序列数据,时间序列数据为连续时间点中各个时间点对应的指标数据的序列。连续时间点可为连续的年份,指标数据的序列可为连续的年份中各个年份对应的指标数据,例如从1970年至2019年共50个年份中,各个年份的四川省普通高等学校专职任课教师的人数。连续时间点也可为连续的月、季度、半年等等,例如,从2000年2019年连续的各季度的房地产固定资产投资额的指标数据的序列。
63.在一些实施例中,例如,对以年份为时间点的指标数据进行统计时,若仅有一些近年的指标数据,则待进行异常检测的一个区域的时间序列数据量较少,如区域的经济相关指标:gdp、毕业人数等等,部分指标可能在2000年后开始统计,则单个指标历史值是非常少的,一个地区的历史参考值仅有20个,并且对当年年份有关联的数据的可能就是近三年数据,因此获得后续用于时序特征建模、异常点划分的样本量较少,导致异常检测的准确度降低。可在获取时间序列数据时,将指标数据相似的区域的数据进行聚合,具体实施方式可参照图3a至图3g,此处不予详述。
64.在步骤s204中,根据各个时间点对应的指标数据获得近邻关联性特征,近邻关联性特征用于表示各个时间点的多个近邻时间点中各个近邻时间点对应的指标数据与各个时间点对应的指标数据之间的关联性。指标时序异常通常定义为与近期指标值差距大的点可能是异常,因此可先获得各时间点的指标数据的近邻时间点的指标数据以提取近邻关联性特征,例如可抽取每个时间点前1-5年的数据,用于提取近邻关联性特征。
65.在一些实施例中,例如,可使用基尼系数计算近邻时间点的指标对于当前时间点的指标之间的关联性(重要性),再根据近邻关联性获得近邻关联性特征。
66.在一些实施例中,例如,可通过信息增益衡量近邻时间点的指标对于当前时间点的指标之间的关联性(重要性),再根据近邻关联性获得近邻关联性特征,具体实施方式可参照图4a至图4d,此处不予详述。
67.在步骤s206中,基于近邻关联性特征对多个近邻时间点对应的多个指标数据进行降维处理,获得各个时间点对应的关联近邻数据。通过关联性特征提取后,可获得对各个时间点的指标影响较大的近邻时间点,即关联性较强(或更为重要)的近邻时间点,可对这些近邻时间点的指标数据进行降维处理,可将各个时间点对应的n(n为大于2的正整数)个近邻时间点的n维指标数据降为2维,获得各个时间点对应的2维的关联近邻数据。
68.在步骤s208中,对连续时间点对应的多个关联近邻数据进行划分以从连续时间点中确定指标数据异常的时间点。获得各个时间点对应的关联近邻数据点后,可对这些数据点进行划分以进行异常检测。
69.在一些实施例中,例如,可通过隔离森林作为异常检测模型,对关联近邻数据点进行划分,具体实施方式可参照图6a至图6d,此处不予详述。
70.在另一些实施例中,例如可基于统计学的方法构建一个概率分布模型,并计算各个数据点的2维特征符合该模型的概率,把具有低概率的对象视为异常点,如特征工程中的robustscaler方法等等。再例如可基于聚类的方法来做异常点检测,如果聚类后发现某些聚类簇的数据样本量比其他簇少很多,而且这个簇里数据的特征均值分布之类的值和其他簇也差异很大,这些簇里的样本点可认为是异常点,如birch聚类算法、dbscan密度聚类算法等等。
71.根据本公开实施例提供的时间序列数据异常检测方法,通过根据各个时间点对应的指标数据获得近邻关联性特征,基于近邻关联性特征对多个近邻时间点对应的多个指标数据进行降维处理,获得各个时间点对应的关联近邻数据,对连续时间点对应的多个关联近邻数据进行划分以从所述连续时间点中确定指标数据异常的时间点,从而可筛选与各个时间点的指标关联性较强的近邻时间点指标数据作为异常检测的对象,以提高对具有不同近邻关联性的多种指标数据的异常检测的准确性。
72.图3a是根据一示例性实施例示出的一种用于获得异常检测数据的区域聚合方法的流程图。图3a可作为图2中所示的步骤s202在一实施例中的处理过程。对以年份为时间点的指标数据进行统计时,待进行异常检测的一个区域指标历史数据可能较少的,可通过图3a至图3g的实施方式对相似区域的数据进行聚合,以扩充样本量。如图3a所示的方法例如可以应用于上述系统的服务器端,也可以应用于上述系统的终端设备。
73.参考图3a,本公开实施例提供的方法30可以包括以下步骤。
74.在步骤s302中,获取各个时间点对应的第一预定区域的指标数据。
75.在步骤s304中,获取各个时间点对应的第二预定区域的指标数据。区域聚合的目的是依据少量数据,借助相似区域的历史状况,辅助目标区域进行异常检测。第一预定区域和第二预定区域可为两个情况较为类似的省份、城市、县等等,例如在对四川省的经济指标数据进行异常检测时,四川省的金融业的地区生产总值仅包括近20年中各年份的数据,可以借助四川省省会成都市的同指标数据,或经济状况相近的重庆市的同指标数据辅助进行决策。
76.在步骤s306中,在第一预定区域的指标数据与第二预定区域的指标数据的相似度大于预设阈值时,获得多个相似区域,多个相似区域包括第一预定区域和第二预定区域。
77.在一些实施例中,例如,可采用余弦(cosine)相似度度量不同区域的历史指标的相似度。如将第一预定区域表示为i,将第一预定区域的指标序列表示为向量x
i
,第二预定区域表示为j,将第二预定区域的指标序列表示为向量x
j
,其中第一预定区域的指标与第二预定区域的指标对应的时间点相同,即第一预定区域的指标序列与第二预定区域的指标序列的向量长度相同,则第一预定区域与第二预定区域的相似度s
i,j
可由下式计算:
[0078][0079]
其中,表示区域i和区域j的内积,||x
i
||表示区域i的指标向量x
i
的二范式,||x
j
||表示区域j的指标向量x
j
的二范式,以区域i的二范式为例,计算公式为:
[0080][0081]
式中,k表示向量x
i
的长度,k为正整数。
[0082]
在计算获得各个区域的指标之间的余弦相似度之后,可获得区域相似度的热力图,以将各个区域之间指标的相似程度直观地进行显示。例如,图3b示出了金融业地区生产总值相似度热力图。如图3b所示,分别计算出乐山市、内江市、南充市、四川省、宜宾市、德阳市、成都市、泸州市、绵阳市、自贡市中每两个城市之间的金融业地区生产总值指标的余弦相似度得分,将这些得分以热力图的形式显示出来,可以看出,对于金融业生产总值,与四川省最相似的是成都市和德阳市。成都市是四川省会,成都的金融生产指标直接影响着四川省的指标。
[0083]
在另一些实施例中,例如,也可利用地区指标的相似度矩阵进行聚类,通过聚类效果获得预定区域的相似区域。如图3c-图3g所示,图3c示出了2000年份至2018份眉山市企业所得税税收收入指标曲线,图3d示出了2000年份至2018份达州市企业所得税税收收入指标
曲线,图3e示出了2000年份至2018份遂宁市企业所得税税收收入指标曲线,图3f示出了2000年份至2018份绵阳市企业所得税税收收入指标曲线,从图中我们可以看出,绵阳和遂宁的波动规律相似,眉山和达州的波动规律相似;图3g示出了四城市企业所得税税收收入指标相似度聚类图,从聚类效果上可以看出眉山和达州距离最近,绵阳和遂宁距离最近。
[0084]
在步骤s308中,获取各个时间点对应的多个相似区域的指标数据。区域聚合的目的是依据少量数据,借助相似区域的历史状况,辅助目标区域进行异常检测。例如对于四川省数据量少,我们可以借助四川省省会成都市,以及经济状况相近的重庆市辅助进行决策。
[0085]
根据本公开实施例提供的区域聚合方法,在每个区域的历史数据较少时,根据历史指标的曲线进行相似性区域的聚合,借助相似区域辅助建模,有效解决了目标区域数据量少的问题,提高了后续进行异常检测的准确度。
[0086]
图4a是根据一示例性实施例示出的一种用于异常检测的特征降维方法的流程图。图4a可作为图2中所示的步骤s206在一实施例中的处理过程。如图4a所示的方法例如可以应用于上述系统的服务器端,也可以应用于上述系统的终端设备。
[0087]
参考图4a,本公开实施例提供的方法40可以包括以下步骤。
[0088]
在步骤s402中,获取各个时间点的各个近邻时间点对应的指标数据。指标时序异常通常定义为与近期指标值差距大的点可能是异常,例如将每个年份近1-5年为近邻时间点,判断每个时间点近5年的数据与该时间点之间的关联性是否有异常变动。
[0089]
在步骤s404中,基于各个时间点对应的指标数据和各个时间点的各个近邻时间点对应的指标数据计算近邻时间点序列对应的信息增益序列。可通过信息增益衡量近邻时间点与对应时间点数据之间的关联性。
[0090]
在一些实施例中,例如,将如每个年份近1-5年的近邻时间点表示为c
p
∈{c0,c1,c2,c3,c4},p∈{0,1,2,3,4},则可通过下式计算每个c
p
对应的信息增益i
p
:,
[0091][0092]
式中y
k
表示指标序列中第k个指标值,q表示指标序列数据集合,表示各个时间段的近邻时间点c
p
的指标值的均值,中和分别表示指标序列数据按照划分的左子树数据集和右子树数据集,y
k

为左子树数据集或右子树数据集中的数据,为左子树数据集或右子树数据集中的数据的均值。图4b中根据一实施例示出了一种左右子树划分的示意图。如图4b所示,在时,中的数据y1至y6都比小,中的数据y1至y6都比大。根据式(3)信息增益的计算方式,可得出每个近邻时间点与对应时间点的关联性,即每个近邻时间点的重要性。图4c中根据一实施例示出了房地产业近5年的重要性直方图。图4d中根据一实施例示出了建筑业近5年的重要性直方图。如图4c所示,对于房地产生产总值的指标,近三年的值对当前值贡献最大,时间相隔越久,特征重要性下降越快。不同经济指标重要的特征不同,如图4d所示,对于建筑业来说,近1年和之前第5年影响最大,说明建筑行业具有周期性,周期性特征影响比较大。也可根据图3a的方法进行区域聚合获得聚合数据,则对应式(3)中的指标总数量k应为一个区域的指标数乘以聚合区域数。
[0093]
在步骤s406中,基于近邻关联性特征从多个近邻时间点中确定各个时间点的关联
近邻时间点。近邻关联性特征包括第一维度和第二维度,第一维度为近邻时间点序列,第二维度为与近邻时间点序列对应的信息增益序列。以图4c为例,选取近三年c0,c1,c2为关联近邻时间点,对应的信息增益序列{i0,i1,i2}为{0.7
×
106,1.18
×
106,1.35
×
106}。
[0094]
在步骤s408中,根据各个时间点的关联近邻时间点确定降维后的指标数据维度。基于近邻关联性特征根据各个时间点的关联近邻时间点确定降维后的指标数据维度。
[0095]
在一些实施例中,例如,若近邻关联性特征的序列长度为3,即关联近邻时间点为3个,可确定降维后的指标数据为3维,具体实施方式可参照图5,此处不予详述。
[0096]
在一些实施例中,例如,若采用主成分分析方法进行降维,可先确定降维后的指标数据为2维,然后对关联近邻时间点的指标数据(如3维指标数据)进行降维操作。
[0097]
在步骤s410中,通过主成分分析方法将多个近邻时间点对应的多个指标数据降维到降维后的指标数据维度。例如可将关联近邻时间点的指标数据通过线性变换转换为2维数据,变换后的两个维度的含义与指标本身含义无关,用于表示关联近邻时间点与对应时间点的指标数据的关联情况。
[0098]
在一些实施例中,例如,可将降维后的数据在二维坐标系中可视化显示,获得二维数据散点图。图4e根据图4c示出了房地产总值近邻时间点数据降维散点图。如图4e所示,地区房地产总值除了少数地区的一些时间点异常,总体呈现聚集的簇状结构,表明大部分地区的大部分时间,房地产规律是相近的。可根据散点图获取与大部分数据点距离较远的点为异常点。
[0099]
根据本公开实施例提供的近邻时间点数据降维方法,对关联性特征通过信息增益进行度量,筛选出更重要的近邻时间点,综合考虑特征之间相关性,进行相关特征整合,消除噪音特征保留关键特征,提高了进行异常检测的准确性。
[0100]
图5是根据一示例性实施例示出的另一种特征降维方法的流程图。图5可作为图2中所示的步骤s206在另一实施例中的处理过程。如图5所示的方法例如可以应用于上述系统的服务器端,也可以应用于上述系统的终端设备。
[0101]
步骤s502,基于近邻关联性特征从多个近邻时间点中确定各个时间点的关联近邻时间点。以图4d为例,选取近一年c0和之前第五年c4为关联近邻时间点,对应的信息增益序列{i0,i4}为{5.8
×
106,1.5
×
106,1.35
×
106}。
[0102]
步骤s504,获得各个时间点的关联近邻时间点对应的指标数据为降维后的关联近邻数据。以图4d为例,可直接选取近一年c0和之前第五年c4的建筑业地区生产总值指标数据作为降维后的(时间,指标)2维数据,也可将在其二维坐标系中可视化显示,获得二维数据散点图,以便找出异常数据点。
[0103]
图6a是根据一示例性实施例示出的一种异常点判断方法的流程图。图6a可作为图3中所示的步骤s308在一实施例中的处理过程。如图6a所示的方法例如可以应用于上述系统的服务器端,也可以应用于上述系统的终端设备。
[0104]
参考图6a,本公开实施例提供的方法60可以包括以下步骤。
[0105]
步骤s602,根据连续时间点对应的多个关联近邻数据获得孤立树。可通过孤立森林来描述降维后的关联近邻数据。首先从关联近邻数据中随机选取n个样本点作为孤立树的根节点,(从二维中)随机指定一个维度,在当前根节点数据范围内,随机产生一个切割点,该切割点产生于当前节点数据中指定维度的最大值和最小值之间;此切割点的选取生
成了一个超平面,将当前根节点数据空间切分为2个子空间,把指定维度下小于切割点的点放在当前根节点的左分支,把大于切割点的点放在当前根节点的右分支;在当前根节点的左分支节点和右分支节点递归前两步,不断构造新的叶子节点,直至叶子节点上只有一个数据(无法再继续切割)或树已经生长到了所设定的高度。
[0106]
在一些实施例中,例如,图6b根据一实施例示出了一种样本切割过程示意图,图6c根据一实施例示出了另一种样本切割过程示意图,如图6b、图6c所示,相比于z
i
点,z0点可用更少步骤分割开。图6d根据一实施例示出了一种孤立树的示意图,如图6d所示,x、y分别表示两个维度的值,树中(8.7,9.2)节点可对应z0点。
[0107]
步骤s604,基于孤立树分别获得连续时间点对应的各个关联近邻数据的异常值。孤立树构建完成后,可对各关联近邻数据仅预测,即看数据落在哪个叶子节点。可使用平均路径长度来度量各样本点的异常程度,路径长度为孤立树的根节点到叶子节点所经过的边的数量。n个样本点中样本点(x,y)的异常得分u(x,n)可由下式计算:
[0108][0109][0110]
式中,其中h(x)是路径长度,表示从孤立树的根结点遍历到叶子结点x总共需要的路径长度,e(h(x))表示对关联近邻数据进行多次采样获得多棵隔离树对应的叶子结点x的路径长度平均值。q(n)表示采样样本数为n时路径长度的均值,用来对根结点样本x的路径长度h(x)进行标准化处理。h(n-1)为调和数,当n确定时为定值。
[0111]
步骤s606,获得异常值大于预设阈值关联近邻数据对应的时间点为指标数据异常的时间点。
[0112]
在一些实施例中,例如,图6e根据一实施例示出了四川省普通高等学校专任教师数量随时间变化图及对应异常得分图,如图6e所示,横轴表示年份,上图纵轴表示教师数量,下图纵轴表示异常得分,可以看到教师数量骤降和骤升的时间点即为可能的异常。与横轴平行的虚线表示预设阈值,可根据异常得分占比计算获得。例如图6e中设置的阈值为3%,即异常得分前3%的节点,可以判断为异常。a点和b点属于突降,c点属于突升,前期在波动上升或下降,突然发生教师人数大幅降低或上升,则可认为此类情况为识别出的异常点。
[0113]
根据本公开实施例提供的异常检测方法,对关联近邻数据点基于孤立树计算异常得分,并根据异常得分筛选出可能异常的时间点,相较于直接在指标维度设置阈值判断异常的方法更为准确。
[0114]
图7是根据一示例性实施例示出的一种时间序列数据异常检测装置的框图。如图7所示的装置例如可以应用于上述系统的服务器端,也可以应用于上述系统的终端设备。
[0115]
参考图7,本公开实施例提供的装置70可以包括数据获取模块702、关联性特征提取模块704、指标降维模块706和异常检测模块708。
[0116]
数据获取模块702可用于获取时间序列数据,时间序列数据为连续时间点中各个时间点对应的指标数据的序列。
[0117]
关联性特征提取模块704可用于根据各个时间点对应的指标数据获得近邻关联性
特征,近邻关联性特征用于表示各个时间点的多个近邻时间点中各个近邻时间点对应的指标数据与各个时间点对应的指标数据之间的关联性。
[0118]
指标降维模块706可用于基于近邻关联性特征对多个近邻时间点对应的多个指标数据进行降维处理,获得各个时间点对应的关联近邻数据。
[0119]
异常检测模块708可用于对连续时间点对应的多个关联近邻数据进行划分以从连续时间点中确定指标数据异常的时间点。
[0120]
图8是根据一示例性实施例示出的另一种时间序列数据异常检测装置的框图。如图8所示的装置例如可以应用于上述系统的服务器端,也可以应用于上述系统的终端设备。
[0121]
参考图8,本公开实施例提供的装置80可以包括数据获取模块802、关联性特征提取模块804、指标降维模块806和异常检测模块808,其中数据获取模块802包括相似区域聚合模块8022。
[0122]
数据获取模块802可用于获取时间序列数据,时间序列数据为连续时间点中各个时间点对应的指标数据的序列。时间序列数据包括各个时间点对应的多个相似区域的指标数据。
[0123]
数据获取模块802还可用于获取各个时间点对应的第一预定区域的指标数据;获取各个时间点对应的第二预定区域的指标数据。
[0124]
相似区域聚合模块8022还可用于在第一预定区域的指标数据与第二预定区域的指标数据的相似度大于预设阈值时,获得多个相似区域,多个相似区域包括第一预定区域和第二预定区域。
[0125]
关联性特征提取模块804可用于根据各个时间点对应的指标数据获得近邻关联性特征,近邻关联性特征用于表示各个时间点的多个近邻时间点中各个近邻时间点对应的指标数据与各个时间点对应的指标数据之间的关联性。近邻关联性特征包括第一维度和第二维度,第一维度为近邻时间点序列,第二维度为与近邻时间点序列对应的信息增益序列。
[0126]
关联性特征提取模块804还可用于获取各个时间点的各个近邻时间点对应的指标数据;基于各个时间点对应的指标数据和各个时间点的各个近邻时间点对应的指标数据计算近邻时间点序列对应的信息增益序列。
[0127]
指标降维模块806可用于基于近邻关联性特征对多个近邻时间点对应的多个指标数据进行降维处理,获得各个时间点对应的关联近邻数据。
[0128]
指标降维模块806还可用于基于近邻关联性特征从多个近邻时间点中确定各个时间点的关联近邻时间点;根据各个时间点的关联近邻时间点确定降维后的指标数据维度;通过主成分分析方法将多个近邻时间点对应的多个指标数据降维到降维后的指标数据维度。
[0129]
指标降维模块806还可用于基于近邻关联性特征根据各个时间点的关联近邻时间点确定降维后的指标数据维度。
[0130]
指标降维模块806还可用于基于近邻关联性特征从多个近邻时间点中确定各个时间点的关联近邻时间点;获得各个时间点的关联近邻时间点对应的指标数据为降维后的关联近邻数据。
[0131]
异常检测模块808可用于对连续时间点对应的多个关联近邻数据进行划分以从连续时间点中确定指标数据异常的时间点。
[0132]
异常检测模块808还可用于:根据连续时间点对应的多个关联近邻数据获得孤立树;基于孤立树分别获得连续时间点对应的各个关联近邻数据的异常值;获得异常值大于预设阈值关联近邻数据对应的时间点为指标数据异常的时间点。
[0133]
本公开实施例提供的装置中的各个模块的具体实现可以参照上述方法中的内容,此处不再赘述。
[0134]
图9示出本公开实施例中一种电子设备的结构示意图。需要说明的是,图9示出的设备仅以计算机系统为示例,不应对本公开实施例的功能和使用范围带来任何限制。
[0135]
如图9所示,设备900包括中央处理单元(cpu)901,其可以根据存储在只读存储器(rom)902中的程序或者从存储部分908加载到随机访问存储器(ram)903中的程序而执行各种适当的动作和处理。在ram 903中,还存储有设备900操作所需的各种程序和数据。cpu901、rom 902以及ram 903通过总线904彼此相连。输入/输出(i/o)接口905也连接至总线904。
[0136]
以下部件连接至i/o接口905:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至i/o接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。
[0137]
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(cpu)901执行时,执行本公开的系统中限定的上述功能。
[0138]
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。
[0139]
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0140]
描述于本公开实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括数据获取模块、关联性特征提取模块、指标降维模块和异常检测模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,数据获取模块还可以被描述为“向所连接的数据库服务器获取时间序列数据的模块”。
[0141]
作为另一方面,本公开还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:获取时间序列数据,时间序列数据为连续时间点中各个时间点对应的指标数据的序列;根据各个时间点对应的指标数据获得近邻关联性特征,近邻关联性特征用于表示各个时间点的多个近邻时间点中各个近邻时间点对应的指标数据与各个时间点对应的指标数据之间的关联性;基于近邻关联性特征对多个近邻时间点对应的多个指标数据进行降维处理,获得各个时间点对应的关联近邻数据;对连续时间点对应的多个关联近邻数据进行划分以从连续时间点中确定指标数据异常的时间点。
[0142]
以上具体地示出和描述了本公开的示例性实施例。应可理解的是,本公开不限于这里描述的详细结构、设置方式或实现方法;相反,本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献