一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据检测方法、装置、设备及计算机存储介质与流程

2022-11-23 08:42:03 来源:中国专利 TAG:


1.本技术属于大数据平台技术领域,尤其涉及一种数据检测方法、装置、设备及计算机存储介质。


背景技术:

2.在企业级大数据平台系统上,洁净、结构清晰的高质量数据是企业级大数据平台省级系统开发数据产品、提供数据服务、发挥大数据价值的必要前提,是企业数据资产管理的关键因素。
3.数据质量的保障一般通过建设数据质量检测和监控系统来实现,其中,数据质量的告警定义和规则通常根据人工经验来设置,一般都是根据数据的波动范围来进行设置,例如,数据环比变化在0-5%之间认为是正常波动,不进行告警,变化在5%-10%之间为一般告警,变化在10%-20%之间为重要告警,大于20%为严重告警等。
4.但根据人工经验设置参数的方式来实现数据质量检测与告警,很多情况下不太准确,与业务数据的实际情况不相符;还可能有一些重要因素没有被考虑到,比如数据本身的业务重要性以及数据对象本身在整个数据处理流程中的位置;并且企业数据经常会发生许多变化,如数据之间的关系变化、数据正常的日常波动等。因此,根据人工经验设置参数的方式来实现数据质量检测与告警准确性低,容易出现误报、漏报的情况,加大了数据质量问题处理的难度和复杂性,降低了数据质量管理的效率。


技术实现要素:

5.本技术实施例提供一种数据检测方法、装置、设备及计算机存储介质,能够至少解决现有技术中数据质量检测准确性低的问题。
6.第一方面,本技术实施例提供一种数据检测方法,方法包括:
7.获取多个待检测数据和检测规则,所述检测规则包括检测信息;
8.计算所述多个待检测数据的局部稀疏率,所述局部稀疏率表示所述多个待检测数据为异常数据的概率;
9.从所述多个待检测数据中去除所述局部稀疏率大于或等于修剪因子的待检测数据,得到多个目标数据,所述修剪因子为所有所述多个待检测数据的局部稀疏率的近似平均;
10.计算所述多个目标数据的局部稀疏系数;
11.将所述局部稀疏系数大于第一阈值的目标数据确定为异常数据;
12.根据所述检测信息对所述异常数据进行检测,得到数据检测结果。
13.在一种可选的实施方式中,计算所述多个待检测数据的局部稀疏率,具体包括:
14.将所述多个待检测数据中的每个数据依次确定为目标待检测数据;
15.对每个目标待检测数据,分别执行以下步骤:
16.获取所述目标待检测数据与任一非目标待检测数据之间的第一距离,所述非目标
待检测数据为所述多个待检测数据中除所述目标待检测数据以外的其他待检测数据;
17.将与所述目标待检测数据的第一距离小于或等于第二阈值的非目标待检测数据,组成第一数据集;
18.基于所述第一数据集和所述第一距离,计算所述目标待检测数据的局部稀疏率。
19.在一种可选的实施方式中,计算所述多个目标数据的局部稀疏系数,具体包括:
20.将所述多个目标数据中的每个数据依次确定为第一目标数据;
21.对每个第一目标数据,分别执行以下步骤:
22.计算所述第一目标数据的局部稀疏率和任一非第一目标数据的局部稀疏率,所述非第一目标数据为所述多个目标数据中除所述第一目标数据以外的其他目标数据;
23.将与所述第一目标数据的距离小于或等于第三阈值的非第一目标数据,组成第二数据集;
24.基于所述第一目标数据的局部稀疏率、所述任一非第一目标数据的局部稀疏率和所述第二数据集,计算所述第一目标数据的局部稀疏系数。
25.在一种可选的实施方式中,检测规则还包括告警规则;
26.在所述根据所述检测信息对所述异常数据进行检测,得到数据检测结果之后,所述方法还包括:
27.在所述数据检测结果指示所述异常数据为目标异常数据的情况下,根据所述告警规则,生成告警信息。
28.在一种可选的实施方式中,检测规则还包括告警方式信息;
29.在所述根据所述告警规则,生成告警信息之后,所述方法还包括:
30.根据所述告警方式信息,输出所述告警信息。
31.在一种可选的实施方式中,在所述根据所述告警规则,生成告警信息之后,所述方法还包括:
32.将所述告警信息发送给抽取-转换-装载etl平台,以使所述etl平台进行相应处理。
33.第二方面,本技术实施例提供了一种数据检测装置,该装置包括:
34.获取模块,用于获取多个待检测数据和检测规则,所述检测规则包括检测信息;
35.概率计算模块,用于计算所述多个待检测数据的局部稀疏率,所述局部稀疏率表示所述多个待检测数据为异常数据的概率;
36.修剪模块,用于从所述多个待检测数据中去除所述局部稀疏率大于或等于修剪因子的待检测数据,得到多个目标数据,所述修剪因子为所有所述多个待检测数据的局部稀疏率的近似平均;
37.系数计算模块,用于计算所述多个目标数据的局部稀疏系数;
38.确定模块,用于将所述局部稀疏系数大于第一阈值的目标数据确定为异常数据;
39.检测模块,用于根据所述检测信息对所述异常数据进行检测,得到数据检测结果。
40.在一种可选的实施方式中,检测规则还包括告警规则;
41.该装置还包括:
42.生成模块,用于在所述数据检测结果指示所述异常数据为目标异常数据的情况下,根据所述告警规则,生成告警信息。
43.第三方面,本技术实施例提供了一种电子设备,设备包括:处理器以及存储有计算机程序指令的存储器;
44.处理器执行计算机程序指令时实现如第一方面的任一项实施例中所示的数据检测方法。
45.第四方面,本技术实施例提供了一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现第一方面的任一项实施例中所示的数据检测方法。
46.本技术实施例的数据检测方法、装置、设备及计算机存储介质,通过获取多个待检测数据和检测规则,计算多个待检测数据的局部稀疏率,然后从多个待检测数据中去除局部稀疏率大于或等于修剪因子的待检测数据,得到多个目标数据,再计算多个目标数据的局部稀疏系数,将局部稀疏系数大于第一阈值的目标数据确定为异常数据,然后根据检测信息对异常数据进行检测,得到数据检测结果。这样,通过修剪因子去除大量不可能异常的待检测数据,再通过局部稀疏系数确定剩余的各目标数据是否异常,可以大大提高数据检测的准确性,降低数据质量问题处理的难度和复杂性,提高数据质量管理的效率。
附图说明
47.为了更清楚地说明本技术实施例的技术方案,下面将对本技术实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
48.图1是根据一示例性实施例示出的一种数据检测方法的流程示意图;
49.图2是根据一示例性实施例示出的一种模型训练方法的流程示意图;
50.图3是根据一示例性实施例示出的另一种数据检测方法的流程示意图;
51.图4是根据一示例性实施例示出的一种数据检测系统的结构示意图;
52.图5是根据一示例性实施例示出的一种数据检测装置的结构示意图;
53.图6是根据一示例性实施例示出的一种电子设备的结构示意图。
具体实施方式
54.下面将详细描述本技术的各个方面的特征和示例性实施例,为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本技术进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本技术,而不是限定本技术。对于本领域技术人员来说,本技术可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本技术的示例来提供对本技术更好的理解。
55.需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
56.图1示出了本技术一个实施例提供的一种数据检测方法的流程示意图。
57.如图1所示,该数据检测方法的执行主体可以为数据检测装置,具体可以包括如下步骤:
58.s110,获取多个待检测数据和检测规则;
59.s120,计算多个待检测数据的局部稀疏率;
60.s130,从多个待检测数据中去除所述局部稀疏率大于或等于修剪因子的待检测数据,得到多个目标数据;
61.s140,计算多个目标数据的局部稀疏系数;
62.s150,将局部稀疏系数大于第一阈值的目标数据确定为异常数据;
63.s160,根据检测信息对异常数据进行检测,得到数据检测结果。
64.由此,通过获取多个待检测数据和检测规则,计算多个待检测数据的局部稀疏率,然后从多个待检测数据中去除局部稀疏率大于或等于修剪因子的待检测数据,得到多个目标数据,再计算多个目标数据的局部稀疏系数,将局部稀疏系数大于第一阈值的目标数据确定为异常数据,然后根据检测信息对异常数据进行检测,得到数据检测结果。这样,通过修剪因子去除大量不可能异常的待检测数据,再通过局部稀疏系数确定剩余的各目标数据是否异常,可以大大提高数据检测的准确性,降低数据质量问题处理的难度和复杂性,提高数据质量管理的效率。
65.下面对上述步骤进行详细说明,具体如下所示:
66.关于s110,本技术实施例中,检测规则可以包括检测信息,也可以包括告警规则和告警方式信息,还可以包括规则信息、检查细项和异常监控指标。其中,检测信息可以包括检查对象、检查频度、检查时间和检查方式;告警方式信息可以包括告警方式,例如,短信、邮件、语音通知、派发运维工单等方式;规则信息可以包括规则名称、规则类型、问题等级、规则权重、规则状态、规则描述和创建时间;检查细项可以包括数据量异常突变、空值校验、重复校验、格式校验、参照校验、值域校验、一致性校验、逻辑校验、关系校验和异常波动校验,异常监控指标可以包括异常数据总量、存在空值数据量、存在重复数据量和数据异常波动情况等。该检测规则可作为数据检测的依据,该检测信息可用于确定异常数据是否为目标异常数据,该告警规则可用于生成告警信息,该告警方式信息可用于确定告警方式。检测规则可以从数据质量检测规则配置获取。此外,多个待检测数据可以从数据质量检测对象库中获取。
67.关于s120,局部稀疏率可以表示多个待检测数据为异常数据的概率,局部稀疏率越小,异常的可能性越大。可以通过计算每个待检测数据的局部稀疏率,确定该待检测数据为异常数据的概率。
68.基于此,在一种可选实施方式中,s120具体可以包括:
69.将多个待检测数据中的每个数据依次确定为目标待检测数据;
70.对每个目标待检测数据,分别执行以下步骤:
71.获取目标待检测数据与任一非目标待检测数据之间的第一距离;
72.将与目标待检测数据的第一距离小于或等于第二阈值的非目标待检测数据,组成第一数据集;
73.基于第一数据集和第一距离,计算目标待检测数据的局部稀疏率。
74.这里,非目标待检测数据可以为多个待检测数据中除目标待检测数据以外的其他待检测数据,第一距离可以为目标待检测数据与任一非目标待检测数据之间的实际距离,第一数据集可以为与目标待检测数据的第一距离小于或等于第二阈值的非目标待检测数据的集合,该第一距离和第一数据集可用于计算目标待检测数据的局部稀疏率,局部稀疏率的计算公式可以为:
[0075][0076]
其中,p可以为目标待检测数据,o可以为任一非目标待检测数据,k可以为第二阈值,lsrk(p)可以为目标待检测数据p的局部稀疏率,nk(p)可以为与目标待检测数据p的距离小于或等于k的所有非目标待检测数据的集合,dis(p,o)可以为目标待检测数据p与非目标待检测数据o的实际距离。
[0077]
如此,通过上述方法确定目标待检测数据的局部稀疏率,可以确定目标待检测数据为异常数据的概率。
[0078]
关于s130,目标数据可以为从多个待检测数据中去除局部稀疏率大于或等于修剪因子的待检测数据后剩余的多个待检测数据。将局部稀疏率不小于修剪因子的待检测数据从多个待检测数据中剪除,可以减少计算负担。修剪因子可以为所有多个待检测数据的局部稀疏率的近似平均,修剪因子的计算公式可以为:
[0079][0080]
其中,p可以为目标待检测数据,o可以为任一非目标待检测数据,k可以为第二阈值,pf可以为修剪因子,nk(p)可以为与目标待检测数据p的距离小于或等于k的所有非目标待检测数据的集合,dis(p,o)可以为目标待检测数据p与非目标待检测数据o的实际距离。
[0081]
关于s140,局部稀疏系数可用于确定目标数据是否为异常数据。
[0082]
基于此,在一种可选实施方式中,s140具体可以包括:
[0083]
将多个目标数据中的每个数据依次确定为第一目标数据;
[0084]
对每个第一目标数据,分别执行以下步骤:
[0085]
计算第一目标数据的局部稀疏率和任一非第一目标数据的局部稀疏率;
[0086]
将与第一目标数据的距离小于或等于第三阈值的非第一目标数据,组成第二数据集;
[0087]
基于第一目标数据的局部稀疏率、任一非第一目标数据的局部稀疏率和第二数据集,计算第一目标数据的局部稀疏系数。
[0088]
这里,非第一目标数据可以为多个目标数据中除第一目标数据以外的其他目标数据,第二数据集可以为与第一目标数据的距离小于或等于第三阈值的非第一目标数据的集合。该第一目标数据的局部稀疏率、任一非第一目标数据的局部稀疏率和第二数据集可用于计算第一目标数据的局部稀疏系数,局部稀疏系数的计算公式可以为:
[0089]
[0090]
其中,p可以为第一目标数据,o可以为任一非第一目标数据,k可以为第三阈值,lsck(p)可以为第一目标数据p的局部稀疏系数,lsrk(p)可以为第一目标数据p的局部稀疏率,lsrk(o)可以为非第一目标数据o的局部稀疏率,nk(p)可以为与目标待检测数据p的距离小于或等于k的所有非目标待检测数据的集合。
[0091]
如此,通过上述方法确定第一目标数据的局部稀疏系数,可以确定第一目标数据是否为异常数据。
[0092]
关于s150,异常数据可以为局部稀疏系数大于第一阈值的目标数据。
[0093]
关于s160,数据检测结果可以为指示异常数据是否为目标异常数据的信息。可以根据检测信息,也即检查对象、检查频度、检查时间和检查方式等,对异常数据进行检测,确定异常数据是否为目标异常数据。
[0094]
除此之外,在一种可选的实施方式中,检测规则还可以包括告警规则,在s160之后,该方法还可以包括:
[0095]
在数据检测结果指示异常数据为目标异常数据的情况下,根据告警规则,生成告警信息。
[0096]
这里,告警信息可以为提醒数据异常的信息,该告警信息可以由告警生成器生成。告警生成器根据数据质量检测引擎输出的数据检测结果和告警规则生成相应的告警信息,该告警信息还可以包括告警类型,告警类型可以分为无告警、一般告警、重要告警、严重告警四个等级。
[0097]
在一个具体例子中,数据质量检测引擎输出的数据检测结果指示数据a为目标异常数据,告警生成器根据告警规则确定目标异常数据a对应的告警类型为一般告警,然后根据该目标异常数据及其对应的告警类型生成告警信息。
[0098]
如此,在数据检测结果指示异常数据为目标异常数据的情况下,根据告警规则,生成告警信息,可以使生成的告警信息更精细,更有针对性。
[0099]
基于此,在一种可选的实施方式中,检测规则还可以包括告警方式信息,在根据告警规则,生成告警信息之后,该方法还可以包括:
[0100]
根据告警方式信息,输出告警信息。
[0101]
这里,可以根据告警方式信息中目标异常数据对应的告警方式,输出该告警信息。
[0102]
在一个具体例子中,可以通过短信、邮件、语音通知、派发运维工单等方式提醒数据存在异常,以使告警信息接收方暂停后续作业,等待人工干预或直接终止作业。
[0103]
如此,根据告警方式输出告警信息,可以提醒工作人员数据出现异常,以便工作人员进行相应操作,减少损失。
[0104]
另外,在一种可选的实施方式中,在根据告警规则,生成告警信息之后,该方法还可以包括:
[0105]
将告警信息发送给抽取-转换-装载etl平台,以使etl平台进行相应处理。
[0106]
这里,可以将告警信息发送给etl平台,由etl平台对异常作业采取相应处理措施。
[0107]
如此,将告警信息发送给etl平台,可以使etl平台对异常作业采取相应处理措施,减少损失。
[0108]
此外,通常采用基于密度的异常检测算法(local outlier factor,lof)进行异常样本检测,但这类方法将样本与近邻之间的距离以及近邻个数这两个参数结合起来,得到
该样本处的“密度”,根据密度大小来判断样本是否异常。但该lof方法存在两个主要问题:其一,计算样本的可达距离需要计算该样本与其所有近邻的距离比较,计算代价高;其二,需要计算各样本的局部异常因子,而异常样本所占比例极小,因此这种处理策略并不尽如人意。
[0109]
因此,本技术实施例采用基于密度的优化的局部稀疏系数(local sparsity coefficient,lsc)异常检测模型,结合历史数据,挖掘潜在数据异常。如表1所示,通过对lof方法和lsc模型输出的采集异常点进行人工确认,从异常判断准确性及模型运行时长两个方面进行两种方法的评估分析。可以明显看出,经过优化的lsc方法在准确率方面明显好于lof方法,同时计算用时缩短明显。
[0110]
表1-lof方法和lsc方法对比表
[0111][0112]
如图2所示,该lsc模型的训练方法可以包括s210-s270,下面对此进行详细解释。
[0113]
s210,获取各区域的时间序列。
[0114]
这里,可以获取个区域的时间序列可以使输出的预测结果按照该时间序列输出。
[0115]
s220,样本数据预处理。
[0116]
这里,可以对样本数据进行预处理,滤除干扰信息。
[0117]
s230,设置并调节局部稀疏率和修剪因子。
[0118]
这里,可以计算样本数据的局部稀疏率和修剪因子,为避免重复,具体计算公式在此不在赘述。在lsc模型未达到最优时,调整修剪因子。
[0119]
s240,对样本数据集进行修剪。
[0120]
这里,可以去除局部稀疏率大于或等于修剪因子的样本数据,缩减样本数据集。
[0121]
s250,将修剪后的样本数据集输入到lsc模型。
[0122]
这里,修剪后的样本数据集包括样本数据和样本数据对应的目标结果,将修剪后的样本数据集输入至lsc模型,得到样本数据对应的预测结果,根据预测结果和目标结果,确定lsc模型的损失函数值。
[0123]
s260,检验lsc模型是否达到最优?
[0124]
这里,在损失函数值不满足训练停止条件的情况下,确定lsc模型未达到最优,故返回执行s230,在损失函数值满足训练停止条件的情况下,确定lsc模型达到最优,故执行s270。
[0125]
s270,输出最终预测结果。
[0126]
这里,输出lsc模型达到最优时,得到的最终预测结果。
[0127]
为了更好地描述整个方案,基于上述实施例,举一个具体例子,如图3所示,该数据检测方法可以包括s310-s370,下面对此进行详细解释。
[0128]
s310,lsc模型训练。
[0129]
这里,在通过lsc模型进行数据检测之前,需要先对lsc模型进行训练,为避免重复,具体训练方法在此不再赘述。
[0130]
s320,获取多个待检测数据和检测规则。
[0131]
这里,可以从数据质量检测对象库中获取待检测数据,从数据质量检测规则配置中获取检测规则。
[0132]
s330,通过经训练的lsc模型进行数据检测。
[0133]
这里,可以将多个待检测数据输入到经训练的lsc模型中,进行数据检测,确定异常数据,为避免重复,基于lsc模型的具体检测方法在此不再赘述。
[0134]
s340,对异常数据进行检测。
[0135]
这里,可以根据检测规则中的检测信息对异常数据进行检测,得到数据检测结果。
[0136]
s350,是否存在目标异常数据?
[0137]
这里,若存在目标异常数据,则执行s360,若不存在目标异常数据,则结束。
[0138]
s360,生成告警信息。
[0139]
这里,若存在目标异常数据,则根据该目标异常数据对应的告警规则,生成告警信息。
[0140]
s370,输出告警信息。
[0141]
这里,生成告警信息之后,可以根据告警方式信息,输出该告警信息。
[0142]
基于上述数据检测方法,在一种可能的实施例中,存在一种数据检测系统,如图4所示,该数据检测系统包括:数据质量检测配置410、数据质量检测对象库420、数据质量检测引擎430、元数据信息库440、数据采集平台450、数据对象信息存储库460、模型训练器470、告警生成器480和告警输出器490。
[0143]
其中,数据质量检测配置410,可以用于向数据质量检测引擎430提供检测数据对
象,也即待检测数据,的录入和检测规则、检测方式、闭环管控方式设置等,为数据质量检测引擎提供检测对象和检测目标。
[0144]
数据质量检测对象库420,可以用于向数据质量检测引擎430提供待检测数据。
[0145]
数据质量检测引擎430,可以用于根据配置的待检测数据的检查频度、检查时间和数据检查方式及具体检查规则,执行检查动作,输出数据检测结果。具体的,可以将该数据检测结果输出给告警生成器480,也可以将该数据检测结果输出给数据对象信息存储库460。
[0146]
元数据信息库440,可以用于向数据对象信息存储库460提供元数据信息,作为模型训练的样本数据。
[0147]
数据采集平台450,可以用于向数据对象信息存储库460提供采集日志信息,作为模型训练的样本数据。
[0148]
数据对象信息存储库460,可以用于存储元数据信息和采集日志信息,还可以用于存储检测规则、检测执行信息、检测结果及待检测数据对应的业务信息,并将该存储元数据信息和采集日志信息作为模型训练样本发送给模型训练器470。其中,检测执行信息可以包括执行的规则信息、得到的数据对象相关指标统计、异常数据明细和异常指标数据统计信息;检测结果可以包括天的检测结果以及历史一段周期的检测结果,例如,检测结果保存周期可以为六个月;待检测数据对应的业务信息可以包括数据业务分类、数据与其他数据的关系、数据存储位置等。
[0149]
模型训练器470,可以用于根据获取到的训练样本对模型进行训练,输出训练样本的检测结果。
[0150]
告警生成器480,可以用于在数据检测结果指示存在目标异常数据的时生成告警信息。
[0151]
告警输出器490,可以用于输出告警信息。
[0152]
由此,通过获取多个待检测数据和检测规则,计算多个待检测数据的局部稀疏率,然后从多个待检测数据中去除局部稀疏率大于或等于修剪因子的待检测数据,得到多个目标数据,再计算多个目标数据的局部稀疏系数,将局部稀疏系数大于第一阈值的目标数据确定为异常数据,然后根据检测信息对异常数据进行检测,得到数据检测结果。这样,通过修剪因子去除大量不可能异常的待检测数据,再通过局部稀疏系数确定剩余的各目标数据是否异常,可以大大提高数据检测的准确性,降低数据质量问题处理的难度和复杂性,提高数据质量管理的效率。
[0153]
基于相同的发明构思,本技术还提供了一种数据检测装置。下面结合图5对本技术实施例提供的数据检测装置进行详细说明。
[0154]
图5是根据一示例性实施例示出的一种数据检测装置的结构框图。
[0155]
如图5所示,该数据检测装置5可以包括:
[0156]
获取模块501,用于获取多个待检测数据和检测规则,所述检测规则包括检测信息;
[0157]
概率计算模块502,用于计算所述多个待检测数据的局部稀疏率,所述局部稀疏率表示所述多个待检测数据为异常数据的概率;
[0158]
修剪模块503,用于从所述多个待检测数据中去除所述局部稀疏率大于或等于修
剪因子的待检测数据,得到多个目标数据,所述修剪因子为所有所述多个待检测数据的局部稀疏率的近似平均;
[0159]
系数计算模块504,用于计算所述多个目标数据的局部稀疏系数;
[0160]
确定模块505,用于将所述局部稀疏系数大于第一阈值的目标数据确定为异常数据;
[0161]
检测模块506,用于根据所述检测信息对所述异常数据进行检测,得到数据检测结果。
[0162]
在一个实施例中,概率计算模块502具体可以用于:
[0163]
将多个待检测数据中的每个数据依次确定为目标待检测数据;
[0164]
对每个目标待检测数据,分别执行以下步骤:
[0165]
获取目标待检测数据与任一非目标待检测数据之间的第一距离,非目标待检测数据为多个待检测数据中除目标待检测数据以外的其他待检测数据;
[0166]
将与目标待检测数据的第一距离小于或等于第二阈值的非目标待检测数据,组成第一数据集;
[0167]
基于第一数据集和所述第一距离,计算目标待检测数据的局部稀疏率。
[0168]
在一个实施例中,系数计算模块504具体可以用于:
[0169]
将所述多个目标数据中的每个数据依次确定为第一目标数据;
[0170]
对每个第一目标数据,分别执行以下步骤:
[0171]
计算所述第一目标数据的局部稀疏率和任一非第一目标数据的局部稀疏率,所述非第一目标数据为所述多个目标数据中除所述第一目标数据以外的其他目标数据;
[0172]
将与所述第一目标数据的距离小于或等于第三阈值的非第一目标数据,组成第二数据集;
[0173]
基于所述第一目标数据的局部稀疏率、所述任一非第一目标数据的局部稀疏率和所述第二数据集,计算所述第一目标数据的局部稀疏系数。
[0174]
在一个实施例中,检测规则还包括告警规则,该装置还可以包括:
[0175]
生成模块507,用于在数据检测结果指示异常数据为目标异常数据的情况下,根据告警规则,生成告警信息。
[0176]
在一个实施例中,检测规则还包括告警方式信息,该装置还可以包括:
[0177]
输出模块508,用于根据告警方式信息,输出告警信息。
[0178]
在一个实施例中,该装置还可以包括:
[0179]
发送模块509,用于将告警信息发送给抽取-转换-装载etl平台,以使etl平台进行相应处理。
[0180]
由此,通过获取多个待检测数据和检测规则,计算多个待检测数据的局部稀疏率,然后从多个待检测数据中去除局部稀疏率大于或等于修剪因子的待检测数据,得到多个目标数据,再计算多个目标数据的局部稀疏系数,将局部稀疏系数大于第一阈值的目标数据确定为异常数据,然后根据检测信息对异常数据进行检测,得到数据检测结果。这样,通过修剪因子去除大量不可能异常的待检测数据,再通过局部稀疏系数确定剩余的各目标数据是否异常,可以大大提高数据检测的准确性,降低数据质量问题处理的难度和复杂性,提高数据质量管理的效率。
[0181]
图6是根据一示例性实施例示出的一种电子设备的结构示意图。
[0182]
如图6所示,该电子设备6能够实现根据本技术实施例中的数据检测方法以及数据检测装置的电子设备的示例性硬件架构的结构图。该电子设备可以指代本技术实施例中的电子设备。
[0183]
该电子设备6可以包括处理器601以及存储有计算机程序指令的存储器602。
[0184]
具体地,上述处理器601可以包括中央处理器(cpu),或者特定集成电路(application specific integrated circuit,asic),或者可以被配置成实施本技术实施例的一个或多个集成电路。
[0185]
存储器602可以包括用于信息或指令的大容量存储器。举例来说而非限制,存储器602可包括硬盘驱动器(hard disk drive,hdd)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(universal serial bus,usb)驱动器或者两个及其以上这些的组合。在合适的情况下,存储器602可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器602可在综合网关设备的内部或外部。在特定实施例中,存储器602是非易失性固态存储器。在特定实施例中,存储器602包括只读存储器(rom)。在合适的情况下,该rom可以是掩模编程的rom、可编程rom(prom)、可擦除prom(eprom)、电可擦除prom(eeprom)、电可改写rom(earom)或闪存,或者两个或及其以上这些的组合。
[0186]
处理器601通过读取并执行存储器602中存储的计算机程序指令,以实现图1所示实施例中的方法,并达到相应技术效果,为简洁描述在此不再赘述。
[0187]
在一个实施例中,该电子设备6还可包括收发器603和总线604。其中,如图6所示,处理器601、存储器602和收发器603通过总线604连接并完成相互间的通信。
[0188]
总线604包括硬件、软件或两者。举例来说而非限制,总线可包括加速图形端口(agp)或其他图形总线、增强工业标准架构(eisa)总线、前端总线(fsb)、超传输(ht)互连、工业标准架构(isa)总线、无限带宽互连、低引脚数(lpc)总线、存储器总线、微信道架构(mca)总线、外围控件互连(pci)总线、pci-express(pci-x)总线、串行高级技术附件(sata)总线、视频电子标准协会局部(vlb)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线804可包括一个或多个总线。尽管本技术实施例描述和示出了特定的总线,但本技术考虑任何合适的总线或互连。
[0189]
本技术实施例还提供了一种计算机存储介质,所述计算机存储介质中存储有计算机可执行指令,所述计算机可执行指令用于实现本技术实施例所记载的数据检测方法。
[0190]
在一些可能的实施方式中,本技术提供的方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算机设备上运行时,所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本技术各种示例性实施方式的方法中的步骤,例如,所述计算机设备可以执行本技术实施例所记载的数据检测方法。
[0191]
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0192]
本技术是参照根据本技术的方法、设备和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程信息处理设备的处理器以产生一个机器,使得通过计算机或其他可编程信息处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0193]
这些计算机程序指令也可存储在能引导计算机或其他可编程信息处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0194]
这些计算机程序指令也可装载到计算机或其他可编程信息处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0195]
显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献