一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种数据质量的检测方法、装置、电子设备及存储介质与流程

2022-11-19 09:39:04 来源:中国专利 TAG:


1.本技术属于大数据领域,具体涉及一种数据质量的检测方法、装置、电子设备及存储介质。


背景技术:

2.现有的数据质量检测系统采用全量数据采集的方式,将待监控的数据从数据仓库等结构化数据源中采集至数据质量检测系统,现有的数据质量检测系统依托于hadoop生态的计算引擎对数据质量检测系统中的数据进行处理计算,并将提供一个作为监控数据存储平台的存储系统,存储从结构化数据源中获取的全量数据。
3.但是,上述的数据质量检测系统采用全量数据采集的方式,在数据采集、数据存储和数据计算时占用了大量的配置资源,使得在数据质量检测的过程中存在系统负荷过大的问题。


技术实现要素:

4.本技术实施例提供一种数据质量的检测方法、装置、电子设备及存储介质,能够解决数据质量检测的过程中系统负荷过大的问题。
5.第一方面,本技术实施例提供了一种数据质量的检测方法,该方法包括:按照预设的采样比例,从待检测数据集中采样得到目标数据集,其中,所述目标数据集中,每个目标数据包括至少一个字段,每个所述字段对应至少一个目标字段数据;根据每个所述字段所对应的目标字段数据中的异常数据的数量,确定每个所述字段所对应的数据异常率;根据至少一个所述字段对应的数据异常率,确定所述待检测数据集的数据质量。
6.第二方面,本技术实施例提供了一种数据质量的检测装置,该装置包括:采样模块,用于按照预设的采样比例,从待检测数据集中采样得到目标数据集,其中,所述目标数据集中,每个目标数据包括至少一个字段,每个所述字段对应至少一个目标字段数据;第一确定模块,用于根据每个所述字段所对应的目标字段数据中的异常数据的数量,确定每个所述字段所对应的数据异常率;第二确定模块,用于根据至少一个所述字段对应的数据异常率,确定所述待检测数据集的数据质量。
7.第三方面,本技术实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
8.第四方面,本技术实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
9.在本技术实施例中,通过按照预设的采样比例,从待检测数据集中采样得到目标数据集,其中,目标数据集中,每个目标数据包括至少一个字段,每个字段对应至少一个目标字段数据;根据每个字段所对应的目标字段数据中的异常数据的数量,确定每个字段所对应的数据异常率;根据至少一个字段对应的数据异常率,确定待检测数据集的数据质量,
这样,通过采样的方式从待检测数据集中获取目标数据集,并能够根据采样得到的目标数据集中每个目标数据所对应的字段的数据异常率计算出待检测数据集的数据质量,避免了采集全量数据进行数据质量检测所带来的存储资源紧张、系统负荷过大等问题,节省了资源,大大减轻了数据检测系统进行数据质量检测的压力,提升了系统部署运维、日常数据质量检测的效率。
附图说明
10.图1是本技术实施例提供的一种数据质量的检测方法的流程示意图;
11.图2是本技术实施例提供的一种数据质量的检测装置的结构示意图;
12.图3是本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
13.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
14.本技术的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
15.下面结合附图,通过具体的实施例及其应用场景对本技术实施例提供的一种数据质量的检测方法、装置、电子设备及存储介质进行详细地说明。
16.图1示出本发明的一个实施例提供的一种数据质量的检测方法,该方法可以由电子设备执行,该电子设备可以包括:服务器和/或终端设备。换言之,该方法可以由安装在电子设备的软件或硬件来执行,该方法包括如下步骤:
17.步骤102:按照预设的采样比例,从待检测数据集中采样得到目标数据集。
18.具体的,在采样得到目标数据集之前,管理员可以根据待检测数据集的数据特点、数据规模和自身需求等自定义采样比例,在此,不对预设采样比例进行具体限定。
19.在确定采样比例之后可以根据该采样比例在待检测数据集中进行采样得到目标数据集,其中,从待检测数据集中按照采样比例进行采样,可以是随机采样,也可以是按照自定义规则进行采样,自定义规则可以由用户进行设定,即,可以根据用户的需求按照预设采样比例进行采样,例如,自定义规则可以为从待检测数据集中按照顺序获取与预设采样比例对应的数据作为目标数据集,或者自定义规则可以为,从待检测数据集中,按照预设采样比例获取不相邻的数据作为目标数据集。从待检测数据集中采样得到目标数据集,目标数据集中的每个目标数据均包括至少一个字段,每个字段对应至少一个目标字段数据。
20.作为一个示例,假设待检测数据集为某小学一个班级学生各学科考试成绩单数据集,该考试成绩单数据集包括每个学生的语文成绩数据、数学成绩数据,假设该班级共有50
名学生,且预设采样比例为20%,则可以从该成绩单数据集中,随机采样10名学生的语文成绩数据和数学成绩数据作为目标数据集,其中,任意一名学生的语文成绩数据和数学成绩数据即为一条目标数据,并且根据待检测数据集的数据类型,可以确定目标数据集中的字段即为“语文成绩”字段和“数学成绩”字段,并且目标数据集中的“语文成绩”字段对应的目标字段数据即为该10名学生的语文成绩数据,目标数据集中的“数学成绩”字段对应目标字段数据即为该10个数学成绩数据。
21.步骤104:根据每个所述字段所对应的目标字段数据中的异常数据的数量,确定每个所述字段所对应的数据异常率。
22.具体的,在采样得到目标数据集之后,可以获取目标数据集中每个字段所对应的目标字段数据中异常数据的数量,并根据每个字段所对应的异常数据的数量,确定每个字段所对应的异常数据的数量占该字段所对应的是目标字段数据的比例,该比例即为该字段所对应的数据异常率。
23.作为一个示例,若目标数据集中包括字段“语文成绩”和“数学成绩”,若字段“语文成绩”对应10个学生的语文成绩数据,该10个学生的语文成绩数据即为“语文成绩”字段所对应的10个目标字段数据,若字段“数学成绩”对应有10个学生的数学成绩数据,该10个学生的数学成绩数据即为“数学成绩”字段所对应的10个目标字段数据,若该10个学生的语文成绩数据中存在5个异常语文成绩数据,则可以确定,字段“语文成绩”所对应的目标字段数据中异常数据的数量为5个,则字段“语文成绩”所对应的数据异常率即为50%,若10个学生的数学成绩数据中存在2个异常数学成绩数据,则可以确定,字段“数学成绩”所对应的目标字段数据中异常数据的数量为2个,则字段“数学成绩”所对应的数据异常率即为20%。
24.此外,异常数据的确定方式可以预先进行设置,作为一个示例,若目标字段数据为数值数据,则判断目标字段数据是否为异常数据的方式可以为:若目标字段数据的数值大于预设数值阈值,则确定该大于预设数值阈值的目标字段数据为异常数据;作为另一个示例,若目标字段数据为字符数据,则判断目标字段数据是否为异常数据的方式可以为:若目标字段数据的字符个数大于预设个数阈值,则确定该大于预设个数阈值的目标字段数据为异常数据。上述异常数据的确定方式仅为示例,可以根据需求或数据类型预先进行设置,在此不对异常数据的确定方式进行具体限定。
25.此外,在采样得到目标数据集之后,可以将目标数据集存储至预设的clickhouse数据库,clickhouse数据库是基于在线分析处理查询(online analytical processing,olap)mpp架构的列式存储数据库,能够使用结构化查询语言(structured query languags,sql)查询实时生成分析数据报告具体的,可以通过预设的基于olap引擎的clickhouse数据库从待检测数据集中采样得到目标数据集,可以将该目标数据集存储至预先设置的基于olap引擎的clickhouse数据库中。在获取到目标数据集之后,可以根据预设的结构化查询语言sql计算得到目标数据集中每个字段所对应的数据异常率,该结构化查询语言sql的作用即为查找字段所对应的目标字段数据中的异常数据的数据,并根据字段所对应的异常数据的数量计算每个字段所对应的数据异常率。
26.可以由管理员预先设置用于确定数据异常率的sql,也可以将待检测数据集的元数据发送至预设的数据管理系统,管理员可以在质量管理系统根据待检测数据的元数据设置计算字段异常率的结构化查询语言的片段,管理员设置的sql片段都可以存储至预设的
关系型数据库中,上述的用于确定每个字段所对应的数据异常率的sql由管理员根据需求进行设定,在此不做具体限定。
27.这样,通过预设的clickhouse数据库根据每个字段所对应的目标字段数据的数量和异常数据的数量,确定每个字段所对应的数据异常率,由于clickhouse数据库在海量数据从存储和技算上有较高的性能,通过clickhouse数据库基于预设的结构化查询语句sql能够高效率地计算得到目标数据集中的每个字段所对应的数据异常率,减轻了数据检测系统进行数据质量检测的压力,提升了系统部署运维、日常数据质量检测的效率。
28.步骤106:根据至少一个所述字段对应的数据异常率,确定所述待检测数据集的数据质量。
29.具体的,在确定目标数据集中的至少一个字段所对应的数据异常率之后,可以通过对目标数据集中的至少一个字段所对应的数据异常率进行汇总计算,输出待检测数据集的数据质量,该待检测数据集的数据质量可以是待检测数据的数据异常率,也可以是根据目标数据集中的至少一个字段所对应的数据异常率得到的针对待检测数据集的质量评分,应理解,为了进一步提高计算数据异常率的准确度,可以通过对目标数据集中的每一个字段所对应的数据异常率进行汇总计算,输出待检测数据集的数据质量,在已确定目标数据集中的至少一个字段所对应的数据异常率,确定待检测数据集的数据质量的方式可以由管理员根据实际需求进行设定。
30.作为一个示例,例如可以获取目标数据集中所有字段对应的数据异常率的平均值,根据该平均值,确定待检测数据集的数据质量评分,例如,若得到目标数据集的所有字段对应的数据异常率的平均值为0,则待检测数据集的数据质量评分为100分,若得到目标数据集的所有字段对应的数据异常率的平均值为大于0且小于10%,则待检测数据集的数据质量评分为90分,若得到目标数据集的所有字段对应的数据异常率的平均值为大于10%小于20%,则待检测数据集的数据质量评分为80分,以此类推,接续上述步骤104的示例,在目标数据集中,字段“语文成绩”所对应的数据异常率为50%,字段“数学成绩”所对应的数据异常率为20%,则目标数据集中“语文成绩”字段、“数学成绩”字段对应的数据异常率的平均值为35%,则待检测数据集的数据质量评分为60分。
31.上述待检测数据集的数据质量的确定方式仅为示例,待检测数据集的数据质量的确定方式可以预先根据需求进行设定,在此不做具体限定。
32.本发明实施例提供的一种数据质量的检测方法,通过按照预设的采样比例,从待检测数据集中采样得到目标数据集,其中,目标数据集中,每个目标数据包括至少一个字段,每个字段对应至少一个目标字段数据;根据每个字段所对应的目标字段数据中的异常数据的数量,确定每个字段所对应的数据异常率;根据至少一个字段对应的数据异常率,确定待检测数据集的数据质量,这样,通过采样的方式从待检测数据集中获取目标数据集,并能够根据采样得到的目标数据集中每个目标数据所对应的字段的数据异常率计算出待检测数据集的数据质量,避免了采集全量数据进行数据质量检测所带来的存储资源紧张问题、系统负荷过大等问题,节省了资源,大大减轻了数据检测系统进行数据质量检测的压力,提升了系统部署运维、日常数据质量检测的效率。
33.在一种实现方式中,所述按照预设的采样比例,从待检测数据集中采样得到目标数据集,包括:
34.将所述待检测数据集映射为数据表形式的结构化数据,其中,所述结构化数据以行为单位,各行数据包括的字段相同;所述的结构化数据指的是数据在一个记录文件里面以固定格式存在的数据,一般特点是:以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的;所述结构化数据中包括所述目标数据以及每个所述目标数据所对应的至少一个所述字段;
35.按照所述预设的采样比例对所述数据表形式的结构化数据进行采样,以得到所述目标数据集。
36.具体的,若要对待检测数据集进行数据质量检测,可以首先根据待检测数据集,映射一个数据表形式的结构化数据,该结构化数据与待检测数据集中的数据相同,该结构化数据中的每行数据包括至少一个字段,该结构化数据中包括上述的待采样的目标数据以及每个目标数据所对应的至少一个所述字段,通过配置数据同步任务可以接入该结构化数据,并可以按照预设的采样比例,从该结构化数据中进行采样得到目标数据集,目标数据的数量由预设的采样比例与待检测数据集中数据的数量决定,预设的采样比例可以预先按照需求进行设定,在此,不对预设的采样比例和目标数据的数量进行限定,目标数据集中的字段可以通过获取待检测数据集中的元数据来确定,元数据又称中介数据、中继数据,为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能,通过对采集的元数据进行分析,可以得到待检测数据的描述数据,进而得到目标数据集对应的字段。
37.作为一个示例,假设待检测数据集为某小学一个班级某个小组学生各学科考试成绩单数据集,该考试成绩单数据集(待检测数据集)包括每个学生的语文成绩数据、数学成绩数据,假设该班级共有10名学生,假设该10名学生为a、b、c、d、e、f、g、h、i,j,即待检测数据集中包括该10名学生的语文成绩及数学成绩,则可以将该待检测数据集映射为一个如下表所示的数据表形式的结构化数据。
[0038][0039][0040]
则根据该待检测数据集的元数据可以确定目标数据集包括的字段为“语文成绩”字段和“数学成绩”字段,假设预设采样比例为30%,则可以从上述的数据表形式的结构化
数据中随机获取3个学生的语文成绩数据和数学成绩数据,或者按顺序获取3个学生的语文成绩数据和数学成绩数据,例如,根据预设采样比例随机获取到3个学生的语文成绩数据和数学成绩数据为:学生a的语文成绩数据(98)和数学成绩数据(96)、学生h的语文成绩数据(79)和数学成绩数据(97)、学生c的语文成绩数据(65)和数学成绩数据(92),则得到的目标数据集即为下表所示:
[0041]
标识id语文成绩数学成绩a9896h7997c6592
[0042]
其中,字段“语文成绩”所对应的目标字段数据为98、79、65,字段“数学成绩”所对应的目标字段数据为96、97、92。
[0043]
这样,通过将待检测数据集映射成为数据表形式的结构化数据,再从该结构化数据中采样得到目标数据集,能够快速的从数据表形式的结构化数据中采样得到目标数据以及每个目标数据所对应的至少一个字段,提高了采样效率。
[0044]
在一种实现方式中,在所述根据每个所述字段所对应的目标字段数据中的异常数据的数量,确定每个所述字段所对应的数据异常率之前,还包括:
[0045]
针对每个所述字段,将每个所述字段所对应的至少一个目标字段数据中符合预设的异常数据规则的目标字段数据确定为异常数据;
[0046]
确定每个所述字段所对应的异常数据的数量。
[0047]
具体的,针对目标数据集中的每个字段所对应的目标字段数据,可以通过预设的异常数据规则确定每个字段所对应的目标字段数据中异常数据的数量,每个字段所对应的预设的异常数据规则可以为同一个,应理解,为了检测每个字段所对应的异常数据的数量的准确性,也可以针对每个字段所对应的目标字段数据设置一个预设的异常数据规则,即,针对目标数据集中的任意一个字段,可以根据其对应的异常数据规则确定该字段所对应的目标字段数据中异常数据的数量。
[0048]
其中,异常数据规则可以根据需求进行设定,例如,若目标字段数据为数值数据,则异常数据规则可以为:若目标字段数据的数值大于预设数值阈值,则确定该大于预设数值阈值的目标字段数据为异常数据;若目标字段数据为字符数据,则异常数据规则可以为:若目标字段数据的字符个数大于预设个数阈值,则确定该大于预设个数阈值的目标字段数据为异常数据。上述异常数据规则仅为示例,在此不对异常数据规则进行具体限定。
[0049]
作为一个示例,例如下表所示的目标数据集:
[0050]
语文成绩数学成绩9813010283928296160
[0051]
假设目标数据集中,字段“语文成绩”所对应的异常数据规则为低于0或者大于100的语文成绩数据,则该语文成绩数据为异常数据,则此时可以确定字段“语文成绩”所对应的目标字段数据中的异常数据为“102”,该目标字段数据中的异常数据的数量为1个,假设
字段“数学成绩”所对应的异常数据规则为低于0或者大于120的数学成绩数据为异常数据,则此时可以确定字段“数学成绩”所对应目标字段数据中的异常数据为“130”和“160”,该目标字段数据中的异常数据的数量为2个。
[0052]
这样,针对每个字段,将每个字段所对应的至少一个目标字段数据中符合预设的异常数据规则的目标字段数据确定为异常数据;能够准确地得到目标数据集中每个字段所对应目标字段数据中异常数据的数量,方便了后续通过每个字段所对应的目标字段数据中异常数据的数量计算每个字段所对应的数据异常率。
[0053]
在一种实现方式中,所述根据至少一个所述字段对应的数据异常率,确定所述待检测数据集的数据质量,包括:
[0054]
根据至少一个所述字段所对应的数据异常率和/或预设的数据质量评分规则,确定所述待检测数据集的数据质量。
[0055]
具体的,在获取到目标数据集中每个字段所对应的数据异常率后,可以根据至少一个字段所对应的数据异常率和/或预设的数据质量评分规则,确定待检测数据集的数据质量,其中,数据质量评分规则可以根据需求预先进行设定,该质量评分规则可以是根据目标数据集中每个字段所对应的数据异常率确定待检测数据集的数据异常率,将待检测数据集的数据异常率作为待检测数据集的数据质量,也可以根据目标数据集中的每个字段所对应的平均数据异常率进行评分,在此不对数据质量评分规则进行具体限定。
[0056]
上述步骤106示出的示例即为根据目标数据集中的每个字段所对应的平均数据异常率对待检测数据集中的数据进行评分,将该评分作为待检测数据集的数据质量。
[0057]
作为另一种数据质量的确定方式,可以通过每个字段所对应的权重值以及每个字段所对应的数据异常率计算待检测数据集的平均数据异常率,并将该待检测数据集的平时数据异常率作为待检测数据集的数据质量,例如,若目标数据集中包括4个目标数据,且该4个目标数据均对应4个字段:字段“a”、字段“b”、字段“c”、字段“d”,且字段“a”、字段对应的数据异常率为40%,字段“b”对应的数据异常了为20%、字段“c”对应的数据异常率为60%、字段“d”对应的数据异常率为10%,且,字段a对应的权重值为0.2,字段b对应的权重值为0.3,字段c对应的权重值为0.1,字段d对应的权重值为0.4,则可以确定待检测数据集的平均数据异常率为60%。
[0058]
这样,通过根据至少一个所述字段所对应的数据异常率和/或预设的数据质量评分规则,确定所述待检测数据集的数据质量,能够通过采样的目标数据中的数据异常率和/或预设的数据质量评分规则确定待检测数据集的数据质量,避免了采集全量数据进行数据质量检测所带来的存储资源紧张、系统负荷过大等问题,大大减轻了数据检测系统进行数据质量检测的压力,提升了系统部署运维、日常数据质量检测的效率。
[0059]
在一种实现方式中,所述方法还包括;
[0060]
将所述每个所述字段所对应的数据异常率和所述待检测数据集的数据质量发送至预设的数据管理系统进行显示;和/或,
[0061]
将所述每个所述字段所对应的数据异常率和所述待检测数据集的数据质量发送至预设的关系型数据库进行存储。
[0062]
具体的,可以将目标数据集中的至少一个字段所对应的数据异常率和待检测数据集的数据质量发送至预设的数据管理系统进行显示,方便了管理员查看待检测数据的数据
质量。
[0063]
将目标数据集中的至少一个字段所对应的数据异常率和待检测数据集的数据质量发送至预设的关系型数据库进行存储,方便了数据异常率的存储,这样,使得管理员可以随时从关系型数据库中调取待检测数据集的数据质量和目标数据集所对应的字段的数据异常率,方便了管理员查看待检测数据集的数据质量和目标数据集所对应的字段的数据异常率。
[0064]
需要说明的是,本技术实施例提供的数据质量的检测方法,执行主体可以为数据质量的检测装置。本技术实施例中以数据质量的检测装置执行数据质量的检测方法为例,说明本技术实施例提供的数据质量的检测装置。
[0065]
图2是根据本发明实施例的数据质量的检测装置的结构示意图。如图2所示,数据质量的检测装置200包括:采样模块210、第一确定模块220和第二确定模块230。
[0066]
采样模块210,用于按照预设的采样比例,从待检测数据集中采样得到目标数据集,其中,所述目标数据集中,每个目标数据包括至少一个字段,每个所述字段对应至少一个目标字段数据;第一确定模块220,用于根据每个所述字段所对应的目标字段数据中的异常数据的数量,确定每个所述字段所对应的数据异常率;第二确定模块230,用于根据至少一个所述字段对应的数据异常率,确定所述待检测数据集的数据质量。
[0067]
在一种实现方式中,所述采样模块210,所述采样模块,用于:将所述待检测数据集映射为数据表形式的结构化数据,其中,所述结构化数据以行为单位,各行数据包括的字段相同,所述结构化数据中包括所述目标数据以及每个所述目标数据所对应的至少一个所述字段;按照所述预设的采样比例对所述结构化数据表中的数据进行采样,以得到所述目标数据集。
[0068]
在一种实现方式中,第一确定模块220,还用于:针对每个所述字段,将每个所述字段所对应的至少一个目标字段数据中符合预设的异常数据规则的目标字段数据确定为异常数据;确定每个所述字段所对应的异常数据的数量。
[0069]
在一种实现方式中,第二确定模块230,用于:根据至少一个所述字段所对应的数据异常率和/或预设的数据质量评分规则,确定所述待检测数据集的数据质量。
[0070]
在一种实现方式中,所述检测装置200,还包括存储模块240,用于将所述每个所述字段所对应的数据异常率和所述待检测数据集的数据质量发送至预设的数据管理系统进行显示;和/或,将所述每个所述字段所对应的数据异常率和所述待检测数据集的数据质量发送至预设的关系型数据库进行存储。
[0071]
本技术实施例中的数据质量的检测装置可以是装置,也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,umpc)、上网本或者个人数字助理(personal digital assistant,pda)等,非移动电子设备可以为服务器、网络附属存储器(network attached storage,nas)、个人计算机(personal computer,pc)、电视机(television,tv)、柜员机或者自助机等,本技术实施例不作具体限定。
[0072]
本技术实施例中的数据质量的检测装置可以为具有操作系统的装置。该操作系统可以为安卓(android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本申
请实施例不作具体限定。
[0073]
本技术实施例提供的数据质量的检测装置能够实现图1的方法实施例中实现的各个过程,为避免重复,这里不再赘述。
[0074]
可选地,如图3所示,本技术实施例另提供一种电子设备300,包括处理器301和存储器302,存储器302上存储有可在所述处理器301上运行的程序或指令,该程序或指令被处理器301执行时实现:按照预设的采样比例,从待检测数据集中采样得到目标数据集,其中,所述目标数据集中,每个目标数据包括至少一个字段,每个所述字段对应至少一个目标字段数据;根据每个所述字段所对应的目标字段数据中的异常数据的数量,确定每个所述字段所对应的数据异常率;根据至少一个所述字段对应的数据异常率,确定所述待检测数据集的数据质量。
[0075]
在一种实现方式中,将所述待检测数据集映射为结构化数据表,其中,所述结构化数据表包括所述目标数据以及每个所述目标数据所对应的至少一个所述字段;按照所述预设的采样比例对所述结构化数据表中的数据进行采样,以得到所述目标数据集。
[0076]
在一种实现方式中,在所述根据每个所述字段所对应的目标字段数据中的异常数据的数量,确定每个所述字段所对应的数据异常率之前,还包括:针对每个所述字段,将每个所述字段所对应的至少一个目标字段数据中符合预设的异常数据规则的目标字段数据确定为异常数据;确定每个所述字段所对应的异常数据的数量。
[0077]
在一种实现方式中,根据至少一个所述字段所对应的数据异常率和/或预设的数据质量评分规则,确定所述待检测数据集的数据质量。
[0078]
在一种实现方式中,所述方法还包括:将所述每个所述字段所对应的数据异常率和所述待检测数据集的数据质量发送至预设的数据管理系统进行显示;和/或,将所述每个所述字段所对应的数据异常率和所述待检测数据集的数据质量发送至预设的关系型数据库进行存储。
[0079]
具体执行步骤可以参见上述数据质量的检测方法实施例的各个步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。
[0080]
需要说明的是,本技术实施例中的电子设备包括:服务器、终端或除终端之外的其他设备。
[0081]
以上电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,例如,输入单元,可以包括图形处理器(graphics processing unit,gpu)和麦克风,显示单元可以采用液晶显示器、有机发光二极管等形式来配置显示面板。用户输入单元包括触控面板以及其他输入设备中的至少一种。触控面板也称为触摸屏。其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
[0082]
存储器可用于存储软件程序以及各种数据。存储器可主要包括存储程序或指令的第一存储区和存储数据的第二存储区,其中,第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外,存储器可以包括易失性存储器或非易失性存储器,或者,存储器可以包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,rom)、可编程只读存储器(programmable rom,prom)、可擦除可编程只读存储器(erasable prom,eprom)、电可擦除
可编程只读存储器(electrically eprom,eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory,ram),静态随机存取存储器(static ram,sram)、动态随机存取存储器(dynamic ram,dram)、同步动态随机存取存储器(synchronous dram,sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram,ddrsdram)、增强型同步动态随机存取存储器(enhanced sdram,esdram)、同步连接动态随机存取存储器(synch link dram,sldram)和直接内存总线随机存取存储器(direct rambus ram,drram)。
[0083]
处理器可包括一个或多个处理单元;可选的,处理器集成应用处理器和调制解调处理器,其中,应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作,调制解调处理器主要处理无线通信信号,如基带处理器。可以理解的是,上述调制解调处理器也可以不集成到处理器中。
[0084]
本技术实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述数据质量的检测方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
[0085]
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如rom、ram、磁碟或者光盘等。
[0086]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本技术实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
[0087]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本技术各个实施例所述的方法。
[0088]
上面结合附图对本技术的实施例进行了描述,但是本技术并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本技术的启示下,在不脱离本技术宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本技术的保护之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献