一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据处理方法、装置和电子设备与流程

2022-02-19 23:40:14 来源:中国专利 TAG:


1.本技术涉及数据处理技术领域,尤其涉及一种数据处理方法、装置和电子设备。


背景技术:

2.随着大数据时代的到来,日常生活和工作中经常会涉及到大量需要处理的数据。
3.很多情况下,获取到的数据中会存在一些异常数据,而异常数据会影响到数据分析的准确度,因此,如何能够确定出数据中存在的异常数据是本领域技术人员需要解决的技术问题。


技术实现要素:

4.本技术提供了一种数据处理方法、装置和电子设备。
5.其中,一种数据处理方法,包括:
6.基于目标数据,确定所述目标数据包括的多个属性特征的数据,所述目标数据属于能够采用二维表形式表示的指定类型数据;
7.挖掘所述目标数据中不同属性特征的数据之间的关联关系,得到至少一组关联关系规则,每组关联关系规则包括:至少两个属性特征内的数据所需满足的关联规则;
8.其中,所述关联关系规则用于确定所述指定类型数据中存在的异常数据。
9.在一种可能的实现方式中,所述挖掘所述目标数据中不同属性特征的数据之间的关联关系,得到至少一组关联关系规则,包括:
10.按照设定的置信度,并利用数据挖掘算法挖掘所述目标数据中不同属性特征之间的关联关系,得到至少一组关联关系规则。
11.在又一种可能的实现方式中,所述按照设定的置信度,并利用数据挖掘算法挖掘所述目标数据中不同属性特征之间的关联关系,得到至少一组关联关系规则,包括:
12.利用数据挖掘算法对所述目标数据中各组数据进行频繁项集挖掘,得到挖掘出的符合设定置信度的多个频繁项集,每组数据对应所述目标数据转换出的二维表中的一行数据;
13.利用所述数据挖掘算法分析所述多个频繁项集中存在的不同属性特征之间的关联关系,得到至少一组关联关系规则。
14.在又一种可能的实现方式中,所述挖掘所述目标数据中不同属性特征的数据之间的关联关系,得到至少一组关联关系规则,包括:
15.针对目标数据中的每种属性特征组合,统计所述属性特征组合下处于相同组内的数据相等的相等概率,所述目标数据包括至少一个属性特征组合,所述属性特征组合包括所述目标数据中的两个属性特征,每组数据对应所述目标数据转换出二维表中的一行数据;
16.确定所述相等概率高于概率阈值的至少一个目标属性特征组合,得到所述目标属性特征组合对应的相等规则,所述目标属性特征组合的相等规则表征所述属性特征组合内
的两个属性中属于相同组的数据相等。
17.在又一种可能的实现方式中,所述统计所述目标数据中每个属性特征组合内处于相同组的数据相等的相等概率,包括:
18.基于所述目标数据中的各属性特征下的数据,确定所述目标数据中两两属性特征之间相关度;
19.确定相关度高于相关度阈值的至少一个候选属性特征组合,所述候选属性特征组合包括相关度高于相关度阈值的两个属性特征;
20.分别统计每个所述候选属性特征组合内处于相同组的数据相等的相等概率。
21.在又一种可能的实现方式中,在基于所述目标数据中的各属性特征下的数据,确定所述目标数据中两两属性特征之间相关度之前,还包括:
22.确定所述目标数据中数据为非数值型数据的属性特征,将所述非数值型数据的属性特征内的非数值型数据转换为数值型数据。
23.在又一种可能的实现方式中,还包括:
24.依据所述至少一组关联关系规则,确定属于所述指定类型数据的待检测数据中存在的异常数据,所述待检测数据与所述目标数据包含的属性特征相同。
25.其中,一种数据处理装置,包括:
26.数据确定单元,用于基于目标数据,确定所述目标数据包括的多个属性特征的数据,所述目标数据属于能够采用二维表形式表示的指定类型数据;
27.数据挖掘单元,用于挖掘所述目标数据中不同属性特征的数据之间的关联关系,得到至少一组关联关系规则,每组关联关系规则包括:至少两个属性特征内的数据所需满足的关联规则;其中,所述关联关系规则用于确定所述指定类型数据中存在的异常数据。
28.在一种可能的实现方式中,所述数据挖掘单元,包括:
29.算法挖掘单元,用于按照设定的置信度,并利用数据挖掘算法挖掘所述目标数据中不同属性特征之间的关联关系,得到至少一组关联关系规则。
30.其中,一种电子设备,包括:处理器和存储器;
31.其中,处理器用于执行如上任意一项所述的数据处理方法;
32.所述存储器用于存储所述处理器执行操作所需的程序。
33.由以上可知,本技术会挖掘该目标数据中不同属性特征的数据之间的关联关系,确定出该目标数据中存在的至少一组关联关系规则。由于每组关联关系规则包括至少两个属性特征内的数据所需满足的关联规则,且由于关联关系规则通过对属于指定类型数据的目标数据进行挖掘所得到,使得关联关系规则具有针对指定类型数据的通用性,因此,基于关联关系规则可以分析检测出指定类型数据中存在的异常数据。
附图说明
34.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
35.图1示出了本技术实施例提供的一种数据处理方法的一种流程示意图;
36.图2示出了本技术实施例提供的一种数据处理方法的又一种流程示意图;
37.图3示出了本技术实施例提供的一种数据处理方法的又一种流程示意图;
38.图4示出了本技术实施例提供的一种数据处理方法的又一种流程示意图;
39.图5示出了本技术实施例提供的一种数据处理方法的又一种流程示意图;
40.图6示出了本技术实施例提供的一种数据处理装置的一种组成结构示意图;
41.图7示出了本技术实施例提供的一种电子设备的一种组成结构示意图。
具体实施方式
42.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
43.如图1所示,其示出了本技术一种数据处理方法一个实施例的流程示意图,本实施例的方法可以包括:
44.s101,基于目标数据确定目标数据包括的多个属性特征的数据。
45.其中,目标数据属于能够采用二维表形式表示的指定类型数据。也就是说,该目标数据的具体形式可以为二维表的表格数据,也可以是采用其他形式呈现但是能够转换为二维表的数据。
46.如,目标数据为一份表格数据;或者是,可以采用表格形式存储的结构化数据或者非结构化数据。
47.指定类型数据用于表征目标数据属于的数据类别,该指定类型可以规定了数据中包含的属性特征的数量和种类。如,指定类型数据可以能够转换为二维表且包括有指定的属性特征的数据。
48.例如,指定数据类型可以为同一个网站在不同实际时间段生成的访问记录数据,由于不同时刻生成的访问记录数据中包含的字段相同,因此,不同访问数据记录均属于相同类型的表格数据。
49.又比如,属于指定类型数据的数据可以为包含相同字段的学生管理数据等。
50.其中,属性特征是目标数据在一种属性维度上的数据表现。具体的,目标数据中的属性特征对应的是采用二维表表示该目标数据的情况下,目标数据中的字段。
51.可以理解的是,目标数据可以包括多条数据,每条数据对应目标数据转换出的二维表中的一行记录。
52.s102,挖掘目标数据中不同属性特征的数据之间的关联关系,得到至少一组关联关系规则。
53.其中,每组关联关系规则包括:至少两个属性特征内的数据所需满足的关联规则。可以理解的是,至少两个属性特征对应的关联规则实际上就是基于这至少两个属性特征的关联关系确定出的关联规则。
54.可以理解的是,至少两个属性特征之间的关联规则可以是至少两个属性特征之间所满足的数据关系规则或者逻辑关系规则。其中,确定出每组关联关系规则均适用于目标数据中任意一组的数据,即每组数据中该至少两个属性特征之间均满足该关联规则。
55.其中,目标数据可以包括多组的数据(也可以称为多条数据),每组数据(每条数据)对应的是目标数据转换出二维表中的一行数据。
56.如,关联关系规则为至少两个属性特征的特征值相同。那么对于目标数据中任意一组数据而言,该组数据内这至少两个属性特征上的特征值应该相同。
57.又如,关联关系规则可以为属性特征a与属性特征b之和等于属性特征c。相应的,对于任意一组数据而言,该组数据内属性特征a的取值与属性特征b上的取值之和应该等于属性特征c上的取值。
58.又如,关联关系规则可以为:在属性特征1等于s1、属性特征2等于s2的情况下,属性特征3等于s3。
59.可以理解的是,由于目标数据属于指定类型数据,而通过对目标数据进行关联关系的挖掘,实际上是挖掘出该类指定类型数据中不同属性特征之间所需满足的关联关系规则。基于此,本技术中确定出的关联关系规则可以用于确定该种指定类型数据中存在的异常数据。
60.进一步的,本技术还可以依据至少一组关联关系规则,确定属于指定类型数据的待检测数据中存在的异常数据,其中,该待检测数据与所述目标数据包含的属性特征相同。该待检测数据可以为目标数据,也可以为目标数据之外的一份数据。
61.如,可以基于该至少一组关联关系规则,检测目标数据中是否存在不满足关联关系规则的数据,而目标数据中存在不满足关联关系规则的数据就属于异常数据。例如,假设挖掘出的关联关系规则为属性特征a的值与属性特征b的值应该相等,但是目标数据中某条数据中这两个属性特征之间的值并不相等,则说明该条数据上这两个属性特征的数据是异常数据。
62.又如,还可以基于该至少一组关联规则对目标数据之外且同属于指定类型数据的一份数据进行异常数据检测。
63.由以上可知,本技术会挖掘该目标数据中不同属性特征的数据之间的关联关系,确定出该目标数据中存在的至少一组关联关系规则。由于每组关联关系规则包括至少两个属性特征内的数据所需满足的关联规则,且由于关联关系规则通过对属于指定类型数据的目标数据进行挖掘所得到,使得关联关系规则具有针对指定类型数据的通用性,因此,基于关联关系规则可以分析检测出指定类型数据中存在的异常数据。
64.可以理解的是,挖掘目标数据存在的关联关系规则的具体方式可以有多种可能。下面以几种情况为例进行说明。
65.在一种可能的情况中,本技术可以按照设定的置信度,并利用数据挖掘算法挖掘该目标数据中不同属性特征之间的关联关系,得到至少一组关联关系规则。
66.其中,置信度为设定一个阈值,具体可以根据需要设定。
67.数据挖掘算法可以为任意能够挖掘数据中隐含关系的关联规则挖掘算法。如,数据挖掘算法可以为apriori算法或者fpgrowth算法等。
68.针对该种可能的情况,下面结合一种具体实现方式进行介绍。
69.如图2所示,其示出了本技术一种数据处理方法又一个实施例的流程示意图,本实施例的方法可以包括:
70.s201,基于目标数据确定目标数据包括的多个属性特征的数据。
71.该步骤可以参见前面实施例的相关介绍,在此不再赘述。
72.s202,利用数据挖掘算法对该目标数据中各组数据进行频繁项集挖掘,得到挖掘出的符合设定置信度的多个频繁项集。
73.如前面所述,每组数据对应目标数据转换出的二维表中的一行数据。
74.而频繁项集的定义为:有一系列集合,这些集合有些相同的元素,集合中同时出现频率高的元素形成一个子集,满足一定阈值条件(即置信度),就是频繁项集。在本技术中,频繁项集是指在目标数据的多组数据中出现次数满足置信度的一些数据项形成的集合。
75.通过置信度体现出一个数据出现后,另一个数据出现的概率。
76.根据采用的数据挖掘算法的不同,挖掘频繁项集具体实现过程也会有所不同,本技术对此不加限制。
77.可以理解的是,在频繁项集挖掘之前,为了能够体现出目标数据中每个数据项所属的属性特征,也避免由于不同属性特征下相同数值而频繁项集挖掘的干扰,本技术会将目标数据中每个数据项转换为具有属性特征的数据项,具体的,数据项可以转换为数据项所属的属性特征 数据项。
78.其中,每个数据项为目标数据中一个属性特征下的一个数据值。
79.如,目标数据为二维表为例,对于二维表中某行中字段t下的数据为aaa,那么需要将该数据转换为字段taaa。
80.s203,利用数据挖掘算法分析该多个频繁项集中存在的不同属性特征之间的关联关系,得到至少一组关联关系规则。
81.其中,每组关联关系规则包括:至少两个属性特征内的数据所需满足的关联规则。关联关系规则用于确定所述指定类型数据中存在的异常数据。
82.由于数据挖掘算法也可以称为关联关系挖掘算法,通过该数据挖掘算法对挖掘出的频繁项集进行分析,可以确定频繁项集中不同属性特征的数据项之间存在的关联关系,从最终得到不同属性特征之间存在的关联关系。
83.可以理解的是,由于数据挖掘算法较为成熟且能够更为准确和全面分析出一份数据中不同属性特征之间的关联关系,因此,本实施例借助数据挖掘算法来挖掘目标数据中存在的关联关系规则,能够较为全面、准确和高效的挖掘出目标数据中存在的关联关系规则,从而有利于基于挖掘出的关联关系规则较为全面和准确的分析出指定类型数据中存在的异常数据。
84.为了便于理解,下面以目标数据为一份二维表为例,对利用数据挖掘算法确定二维表中不同字段之间的关联关系规则的过程进行说明。
85.如图3所示,其示出了本技术一种数据处理方法一个实施例的流程示意图,本实施例的方法可以包括:
86.s301,获得二维表,确定该二维表的各行以及各字段的数据。
87.该二维表属于指定类型数据的二维表,如,该二维表可以为学生家庭信息记录表。
88.s302,针对二维表中每个数据项,将该数据项转换为由字段与数据项拼接后的数据,得到转换后的二维表。
89.其中,二维表中每个数据项就是一个二维表中一个数据,是指由行和列唯一确定的一个数据。如,二维表中第一行第一列的数据是一个数据项,而二维表中第一行第二列的
数据也是一个数据项。
90.其中,将字段与数据项进行拼接之后得到的数据既能够反映出该数据的具体值,又能够反映出该数据所属的字段,通过该种转换可以避免不同字段下数据项相同而被认为是频繁出现的数据。
91.例如,二维表中第二行且字段s中的数据项为100,则可以转换为字段s100。
92.s303,按照设定的置信度,利用数据挖掘算法对转换后的二维表中各行数据进行频繁项集挖掘,得到挖掘出的符合置信度的多个频繁项集。
93.可以理解的是,由于二维表中的数据已经经过转换,因此,在对转换后的二维表中各行数据进行频繁项集挖掘的过程中,只有字段以及数据项均相同且频繁出现的数据才可能会被识别为属于频繁项集中的频繁项。
94.s304,利用该数据挖掘算法分析该多个频繁项集中存在的不同字段之间的关联关系,得到至少一组字段的关联关系规则。
95.其中,每组字段可以包括至少两个字段,因此,每组字段的关联关系规则就是该组字段内至少两个字段内的数据之间所满足的关联关系规则。
96.例如,一组字段的关联关系规则可以为:当字段s1=b1且字段s3=v1的时候,字段s6=f1。
97.可以理解的是,图3是以目标数据为二维表为例说明,可以理解的是,如果目标数据为其他能够转换为二维表形式的数据,那么也可以将目标数据转换为二维表之后,采用图3实施例的方法来挖掘关联关系规则。
98.在本实施例中,挖掘出的关联关系规则同样用于确定与该二维表以及与该二维表同属于该指定类型数据的其他二维表中存在的异常数据。与该二维表属于同类型的其他二维表之间均包括相同的字段。
99.例如,二维表为二年级一班的学生成绩表,该表具有字段:学生姓名、出现年月、年龄、数学成绩、语文成绩以及总分等字段。那么假设基于该学生成绩表挖掘出的关联关系规则包括关联关系规则:出生年月为#年#月,则年龄等于10岁。
100.那么结合以上两个关联关系规则,如果某个学生的出生年月为#年#月,而其年龄不等于10岁,则说明该学生表该学生的年龄这一字段的数据存在异常。
101.类似的,如果二年级二班的学生成绩表与上面的成绩表为数据类型相同的数据表,且其同样具有字段:学生姓名、出现年月、年龄、数学成绩、语文成绩以及总分等字段,那么可以利用该关联关系规则,对二年级二班的学生成绩表进行异常检测,以检测出年龄与出生年月不匹配的异常数据。
102.下面结合图4对本技术挖掘目标数据中不同属性特征的数据之间的关联关系的又一种可能的情况进行介绍。
103.如图4所示,其示出了本技术一种数据处理方法的又一种流程示意图,本实施例的方法可以包括:
104.s401,基于目标数据确定目标数据包括的多个属性特征的数据。
105.其中,目标数据属于能够采用二维表形式表示的指定类型数据。
106.该步骤可以参见前面实施例的相关介绍,在此不再赘述。
107.s402,针对目标数据中的每种属性特征组合,统计该属性特征组合下处于相同组
内的数据相等的相等概率。
108.其中,目标数据包括至少一个属性特征组合,属性特征组合包括目标数据中的两个属性特征。
109.如前面所述,每组数据(也称为每条数据)对应目标数据转换出二维表中的一行数据。
110.可以理解的是,对于任意一组数据而言,且包括属于该目标数据中多个不同属性特征下的数据。而对于同一个属性特征组合,该属性特征组合下处于同一个组内的数据实际上就是,该组数据中属于该属性特征组合对应的各属性特征的数据。
111.举例说明,假设属性特征组合包括属性特征s1和属性特征s2,那么可以针对每个组的数据,确定该组内属性特征s1的数据和属性特征s2的数据就是该属性特征组合下属于同一个组的数据。
112.其中,为了便于区分,将属性特征组合下处于相同组内的数据相等的概率称为相等概率。
113.一个属性特征组合对应的相等概率反映的是目标数据中该数据特征组合下数据相同的组出现的概率,而该概率也就是该属性特征组合中各属性特征的数据相等的组,与目标数据中所有组的总数之比。
114.仍以上面属性特征组合包括属性特征s1和属性特征s2为例,针对每个组的数据,可以先检测该组内属性特征s1的数据和属性特征s2的数据是否相同,并最终统计出所有组中这两个属性特征的数据相等的组的相等组数量。结合该相等组数量以及目标数据表中所有组的总数,可以确定这两个属性特征处于相同组内的数据相同的概率,即相等概率。
115.可以理解的是,如果目标数据中的数据量较大或者目标数据中属性特征的种类较多,那么逐个分析每种属性特征组合对应的相等概率必然会导致数据处理量过大。
116.为了减少数据处理量,本技术还可以基于目标数据中的各属性特征下的数据,确定目标数据中两两属性特征之间相关度。
117.其中,两个属性特征之间的相关度为基于这两个属性特征下的数据计算出的相关度。
118.在此基础上,可以确定相关度高于相关度阈值的至少一个候选属性特征组合,候选属性特征组合包括相关度高于相关度阈值的两个属性特征。相应,可以分别统计每个候选属性特征组合内处于相同行的数据相等的相等概率。
119.可以理解的是,在本技术中主要确定的关联关系规则为两个属性特征之间的相等规则,由于相关度高于相关度阈值的两个属性特征才可能会相等,因此,本技术只需要分析相关度高于相关度阈值的两个属性特征组成的属性特征组合所对应的相等概率。
120.其中,该相关度阈值可以根据需要设定,对此不加限制。
121.可选的,考虑到目标数据中某些数据可能是字符串形式等非数值形式的数据,因此,为了便于计算不同属性特征之间的相关度,本技术还可以确定目标数据中数据为非数值型数据的属性特征,将非数值型数据的属性特征内的非数值型数据转换为数值型数据。后续结合目标数据为二维表的情况进行详细说明,在此不再赘述。
122.s403,确定相等概率高于概率阈值的至少一个目标属性特征组合,得到目标属性特征组合对应的相等规则。
123.其中,该概率阈值可以根据需要设定,如概率阈值可以为90%等,对此不加限制。
124.为了便于区分,将对应的相等概率高于概率阈值的属性特征组合成为目标属性特征组合。
125.目标属性特征组合的相等规则表征属性特征组合内的两个属性特征中属于相同组内的数据相等。
126.可以理解的是,对于一个属性特征组合而言,如果该属性特征组合对应的相等概率为该属性特征组合中两个属性特征相同的组的占比,该占比越高,则说明这两个属性特征下处于同一组的数据是相等的可能性越高。基于此,在该属性特征组合对应的相等概率超过设定的概率阈值时,则可以确定该属性特征组合内的两个属性特征中属于相同组内的数据相等。
127.例如,假设概率阈值为90%,目标数据中包括100条数据。如果100条数据中有92条数据的字段1与字段2内的数据相等,则字段1与字段2组成的字段组合对应的相等概率为92%,该相等概率超过概率阈值,那么可以认为目标数据中任意一个条数据中属于该字段1的数据与属于字段2的数据是相等数据。
128.可以理解的是,在确定出目标属性特征组合的相等规则之后,可以基于目标属性特征组合的相等规则,检测待检测数据中存在的异常数据。如,如果待检测数据中属于同一个组以及目标属性组合对应的两个属性特征下的两个数据不相等,则说明这待检测数据中该组内的这两个属性特征下的数据存在异常。
129.为了便于理解图4的实施例,下面以目标数据为一份二维表为例,对挖掘出该二维表中的相等规则的过程进行说明。
130.如图5所示,其示出了本技术一种数据处理方法一个实施例的流程示意图,本实施例的方法可以包括:
131.s501,获得二维表。
132.该二维表中包括多行以及多列数据,其中,二维表中每列对应一个字段。
133.s502,确定二维表中数据为非数值型数据的字段,将该字段下非数值型数据转换为数值型数据。
134.其中,非数值型数据可以为字符串数据等不属于采用数字表示的数值。
135.在本技术中,将非数值型数据转换为数值型数据的目的仅仅是为了后续便于计算两个字段之间的相关性。
136.其中,将一个字段下的非数值型数据转换为数值型数据的方式可以有多种,只要保证仍能够区分出该字段下各个数据即可。
137.如,对于某一个数据为非数值型数据的字段而言,根据该字段下包含的数值的种类,分别对不同种类的数值分配一个在该字段内表征该数值的唯一标识数值即可。
138.为了便于理解,下面结合一个二维表的例子,对转换二维表中非数值型数据的字段下各个数据的过程进行说明。
139.如表1为一个二维表。
140.表1
[0141][0142][0143]
在表1中包括第一列为各个记录的标识号。如,表1中包含17行数据,也就是17个记
录,这17个记录依次标记为记录1到记录17。
[0144]
同时,表1中包括8个字段,如字段可以包括:systema.column1以及systema.column2等。每个字段所在的列中的各个数据就是该字段下的各个数据。
[0145]
由表1可见,表1中每个字段下的数据均字符形式,而非数值型数据,因此,需要分别对每个字段下的数据进行数据转换。
[0146]
在此基础上,针对每个字段而言,对这个字段下不同种类的数据依次编号,使得该字段下每种数据对应一种编码。
[0147]
相应的,按照该字段下每种数据与编码之间的关系,将该字段下的各行的数据分别转换为该数据对应的编码。
[0148]
如由表1转换后的二维表可以如表2所示。
[0149]
表2
[0150][0151]
对比表1和表2可知,对于每个字段而言,表2中该字段下的一个数值就表征了该字段下原本的数据,如,以字段“systema.column1”为例,该字段包含的数据只有b1和b2这两
种,那么可以该字段下每个位置上的b1可以转换为数字0,而将每个b2转换为数字1。对于其他字段也类似,不再赘述。
[0152]
当然,表1和表2仅仅是一种二维表转换的示例说明,对于通过其他方式将非数值型数据转换为数值型数据的方式也同样适用于本实施例,对此不加限制。
[0153]
s503,基于该二维表中的各属性特征下的数据,确定二维表中两两字段之间相关度。
[0154]
如,每个字段下的各个数据可以组成一个矩阵,对于任意两个字段,可以计算这两个字段各自对应的矩阵之间的相关度,从而得到这两个字段之间的相关度。
[0155]
s504,确定相关度高于相关度阈值的至少一个候选字段组合。
[0156]
其中,每个候选字段组合包括相关度高于相关度阈值的两个字段。
[0157]
s505,分别统计每个候选字段组合内处于相同行的数据相等的相等概率。
[0158]
如,以表2为例,可以统计systema.column1和systema.column2中哪些行的数据相等,得到这两个字段中相同行相等的数量,然后统计相同等的数据占总行数的比值就是相等概率。
[0159]
s506,从至少一个候选字段组合中,确定相等概率高于概率阈值的至少一个目标字段组合,得到目标字段组合对应的相等规则。
[0160]
目标字段组合的相等规则表征目标字段组合内的两个字段中属于相同行的数据相等。
[0161]
如,表2经过如上分析可以得到systema.column1、systemb.column2、systemc.column1这三个字段之间任意两个字段内相同行的数据相同。
[0162]
在得到该相等规则之后,可以对该待检测的二维表进行异常检测,如果待检测的二维表中属于目标字段组合内的两个字段下的某行数据不相等,则说明这两个字段下该行的数据存在异常。
[0163]
其中,待检测的二维表可以为挖掘出相等规则的这一二维表,或者与该二维表属于相同类型的二维表。
[0164]
例如,假设经过多个目标字段组合对应的相等规则可以得到systema.column1=systemb.column2=systemc.column1,那么结合这一规则检测表1可知,表1中,可知表1中第10行且属于systemb.column2这一字段的数据“value9”与systema.column1以及systemc.column1这两个字段在第10行的数据不相等,则该第10行且属于systemb.column2这一字段的数据“value9”为异常数据。
[0165]
对应本技术的一种数据处理方法,本技术还提供了一种数据处理装置。
[0166]
如图6所示,其示出了一种数据处理装置的一种组成结构示意图,该装置可以包括:
[0167]
数据确定单元601,用于基于目标数据,确定所述目标数据包括的多个属性特征的数据,所述目标数据属于能够采用二维表形式表示的指定类型数据;
[0168]
数据挖掘单元602,用于挖掘所述目标数据中不同属性特征的数据之间的关联关系,得到至少一组关联关系规则,每组关联关系规则包括:至少两个属性特征内的数据所需满足的关联规则;其中,所述关联关系规则用于确定所述指定类型数据中存在的异常数据。
[0169]
在一种可能的实现方式中,数据挖掘单元,包括:
[0170]
算法挖掘单元,用于按照设定的置信度,并利用数据挖掘算法挖掘所述目标数据中不同属性特征之间的关联关系,得到至少一组关联关系规则。
[0171]
在又一种可能的实现方式中,该算法挖掘单元,包括:
[0172]
项集挖掘单元,用于利用数据挖掘算法对所述目标数据中各组数据进行频繁项集挖掘,得到挖掘出的符合设定置信度的多个频繁项集,每组数据对应所述目标数据转换出的二维表中的一行数据;
[0173]
规则分析单元,用于利用所述数据挖掘算法分析所述多个频繁项集中存在的不同属性特征之间的关联关系,得到至少一组关联关系规则。
[0174]
在本技术的又一种可能的实现方式中,该数据挖掘单元,包括:
[0175]
概率确定单元,用于针对目标数据中的每种属性特征组合,统计所述属性特征组合下处于相同组内的数据相等的相等概率,所述目标数据包括至少一个属性特征组合,所述属性特征组合包括所述目标数据中的两个属性特征,每组数据对应所述目标数据转换出二维表中的一行数据;
[0176]
规则确定单元,用于确定所述相等概率高于概率阈值的至少一个目标属性特征组合,得到所述目标属性特征组合对应的相等规则,所述目标属性特征组合的相等规则表征所述属性特征组合内的两个属性中属于相同组的数据相等。
[0177]
在一种可能的实现方式中,概率确定单元,包括:
[0178]
相关度计算单元,用于针对目标数据中的每种属性特征组合,基于所述目标数据中的各属性特征下的数据,确定所述目标数据中两两属性特征之间相关度;
[0179]
组合确定单元,用于确定相关度高于相关度阈值的至少一个候选属性特征组合,所述候选属性特征组合包括相关度高于相关度阈值的两个属性特征;
[0180]
概率统计单元,用于分别统计每个所述候选属性特征组合内处于相同组的数据相等的相等概率。
[0181]
在一种可选方式中,该装置还包括:
[0182]
数据转换单元,用于在相关度计算单元确定所述目标数据中两两属性特征之间相关度之前,还包括:
[0183]
确定所述目标数据中数据为非数值型数据的属性特征,将所述非数值型数据的属性特征内的非数值型数据转换为数值型数据。
[0184]
在本技术以上任意一个装置的实施例中,该装置还包括:
[0185]
异常检测单元,用于依据所述至少一组关联关系规则,确定属于所述指定类型数据的待检测数据中存在的异常数据,所述待检测数据与所述目标数据包含的属性特征相同。
[0186]
又一方面,本技术还提供了一种电子设备,如图7所示,其示出了该电子设备的一种组成结构示意图,该电子设备可以为任意类型的电子设备,该电子设备至少包括存储器701和处理器702;
[0187]
其中,处理器701用于执行如上任意一个实施例中的数据处理方法。
[0188]
该存储器702用于存储处理器执行操作所需的程序。
[0189]
可以理解的是,该电子设备还可以包括显示单元703以及输入单元704。
[0190]
当然,该电子设备还可以具有比图7更多或者更少的部件,对此不加限制。
[0191]
另一方面,本技术还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上任意一个实施例所述的数据处理方法。
[0192]
本技术还提出了一种计算机程序,该计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机程序在电子设备上运行时,用于执行如上任意一个实施例中的数据处理方法。
[0193]
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。同时,本说明书中各实施例中记载的特征可以相互替换或者组合,使本领域专业技术人员能够实现或使用本技术。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0194]
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系字段要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确字段出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0195]
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
[0196]
以上仅是本技术的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本技术的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献