数据质量处理方法、装置、存储介质以及计算机终端与流程

2022-03-02 00:57:00 来源：中国专利 TAG：

1.本发明涉及数据处理领域，具体而言，涉及一种数据质量处理方法、装置、存储介质以及计算机终端。

背景技术：

2.目前，计算数据质量一般过程为选择数据源，构建数据质量检测规则，选择检测规则构建数据质量作业，生成调度任务并执行，然后将结果持久化，最后形成大盘，这个过程存在一个问题，在指标调度的过程中模型要对所有的数据进行计算，所以对于流式数据进行模型执行需要重复对源数据进行消费，甚至不同质量指标需要消费多次，从而造成资源的浪费。
3.针对上述的问题，目前尚未提出有效的解决方案。

技术实现要素：

4.本发明实施例提供了一种数据质量处理方法、装置、存储介质以及计算机终端，以至少解决相关技术中由于重复消费数据而导致资源浪费的技术问题。
5.根据本发明实施例的一个方面，提供了一种数据质量处理方法，包括：获取多个目标组件的第一指标，其中，多个目标组件用于对数据源中的原始数据进行处理，并存储至数据仓库；获取数据仓库中已经存储的多条目标数据的消息摘要，其中，消息摘要用于表征相应目标数据在数据源中的存储位置；基于多条目标数据的消息摘要，生成多条目标数据的第二指标；基于第一指标和第二指标，生成数据仓库的数据质量。
6.可选地，基于多条目标数据的消息摘要，生成多条目标数据的第二指标包括：获取每条目标数据的时间戳，其中，时间戳用于表征目标数据存储至数据源的时间；基于消息摘要和时间戳对多条目标数据进行桶聚合，得到多个数据桶；基于每个数据桶包含的至少一条数据的消息摘要，生成每个数据桶的第三指标；基于多个数据桶的第三指标，得到第二指标。
7.可选地，消息摘要包括：网络地址，文件标识、文件偏移量和数据长度，网络地址用于表征存储有相应目标数据的数据源的网络地址，文件标识用于表征存储有相应目标数据的文件的标识，偏移量用于表征采集相应目标数据的过程中所读取的文件的偏移量。
8.可选地，基于消息摘要和时间戳对多条目标数据进行桶聚合，得到多个数据桶包括：对时间戳进行取整处理，得到处理后的时间戳；基于网络地址、文件标识和处理后的时间戳对多条目标数据进行桶聚合，得到多个数据桶。
9.可选地，基于每个数据桶包含的至少一条数据的消息摘要，生成每个数据桶的第三指标包括：基于至少一条数据的时间戳，生成第一子指标，其中，第一子指标用于表征至少一条数据的产生是否及时；基于至少一条数据的文件偏移量和数据长度，生成第二子指标，其中，第二子指标用于表征至少一条数据的完整程度；基于至少一条数据的文件偏移量，生成第三子指标，其中，第三子指标用于表征至少一条数据的准确程度；基于第一子指
可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在设备执行上述的数据质量处理方法。
20.根据本发明实施例的另一方面，还提供了一种计算机终端，包括：处理器和存储器，所述处理器用于运行程序，其中，所述程序运行时执行上述的数据质量处理方法。
21.在本发明实施例中，首先获取多个目标组件的第一指标，其中，多个目标组件用于对数据源中的原始数据进行处理，并存储至数据仓库，然后获取数据仓库中已经存储的多条目标数据的消息摘要，其中，消息摘要用于表征相应目标数据在数据源中的存储位置，基于多条目标数据的消息摘要，生成多条目标数据的第二指标，最后基于第一指标和第二指标，生成数据仓库的数据质量，实现了减少对目标数据进行多次消费的目的。容易注意到的是，通过在目标数据对应的消息摘要上进行多种形式的指标计算，不但可以随时获取任何时期任何范围的指标，同时也可以根据该消息摘要进行异常定位，找到异常发生的位置和原因，避免由于重复计算目标数据来定位异常造成资源的浪费，进而解决了相关技术中由于重复消费数据而导致资源浪费的技术问题。
附图说明
22.此处所说明的附图用来提供对本发明的进一步理解，构成本技术的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：
23.图1是根据本发明实施例的一种数据质量方法的流程图；
24.图2是根据本发明实施例的一种过程质量中多个目标组件对应的第一指标的示意图；
25.图3是根据本发明实施例的一种第一指标的示意图；
26.图4是根据本发明实施例的一种数据分层情况的示意图；
27.图5是根据本发明实施例的一种数据质量评价的指标框架；
28.图6是根据本发明实施例的一种存储容器的桶聚合模型的示意图；
29.图7是根据本发明实施例的一种数据质量装置的示意图。
具体实施方式
30.为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。
31.需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
32.根据本发明实施例，提供了一种数据质量处理方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
33.图1是根据本发明实施例的一种数据质量方法的流程图，如图1所示，该方法包括如下步骤：
34.步骤s102，获取多个目标组件的第一指标。
35.其中，多个目标组件用于对数据源中的原始数据进行处理，并存储至数据仓库。
36.上述的多个目标组件可以为采集组件、缓存组件、集成清洗组件。其中，采集组件采用守护进程与工作进程双进程模式，实现采集日志自采集，进程探活等能力，守护进程用于执行特定的系统任务，工作进程双进程模式指同时运行两个进程。缓存组件、清洗组件采用jmxexport(jmx to prometheus exporter，获取进程信息的组件)的形式将各种指标直接下沉到指标库。
37.在一种可选的实施例中，如图2所示为过程质量中多个目标组件对应的第一指标，其中，第一指标可以是过程质量中的多个目标组件的第一指标。采集组件对应的指标可以为ip(internet protocol，网络互联协议)机器失联、bns(baidu naming service，百度名字服务)机器失联、僵尸进程、重复进程、进程崩溃、文件监控、bns扩容、采集失败、采集重复、配置问题、超大日志、未执行的采集、未完成的采集。缓存组件可以包括一级缓存、二级缓存，一级缓存对应的指标可以为主从切换、硬件损坏、热点问题、消费迟滞、幂等性；二级缓存对应的指标可以为主从切换、硬件损坏、热点问题、消费迟滞、幂等性；集成清洗组件对应的指标可以为资源不足、解析异常、进程异常、出入口监控。
38.在另一种可选的实施例中，目标组件涉及数据层和数据计算层两个层，如图3为第一指标的示意图；所示，数据采集层中的第一指标为配置管理、守护进程、实时采集、异常监控。数据计算层中第一指标涉及三个方面，第一个方面为流程方面，其中，流程方面涉及设计层面和运行层面，设计层面指探索、分析，运行层面指cicd (continuous integration continuous deployment，持续集成)和监控；第二个方面为控制方面，其中，控制方面涉及流程调度、资源调度、meta(标签)管理；第三个方面为数据方面，其中，数据方面指实时计算、离线计算、异常处理、规则引擎，数据方面包含数据清洗组件，即，可视化的data pipeline(数据进程)。
39.在另一种可选的实施例中，可以根据数据的冷热程度逻辑上将数据仓库分为热、温、冷和冰四层数仓，其数据分层情况如图2所示，以上交付质量计算模型经过兼容性改造后可应用于该应用场景的各种数仓。
40.在又一种可选的实施例中，可以根据数据的冷热程度逻辑上将数据仓库分为热、温、冷和冰四层数仓，其数据分层情况如图4所示。
41.步骤s104，获取数据仓库中已经存储的多条目标数据的消息摘要。
42.其中，消息摘要用于表征相应目标数据在数据源中的存储位置。
43.上述的存储位置可以为存储该目标数据的机器。
44.在一种可选的实施例中，消息摘要可以通过特定的格式生成，其中，消息摘要可以包含有目标数据在数据源中的存储位置、目标数据的标识、目标数据的偏移量以及目标
数据的大小。
45.在另一种可选的实施例中，通过获取数据仓库中已经存储的多条目标数据的消息摘要，可以将多条目标数据标准化，能够根据消息摘进行多种形式的指标计算，以便随时获取任何时期任何范围的指标，避免在计算不同质量指标时，需要对多条目标数据进行消费，从而造成资源的浪费。
46.步骤s106，基于多条目标数据的消息摘要，生成多条目标数据的第二指标。
47.上述的第二指标可以为日志通用的基础质量指标，例如完整性、时效性、丢失率、重复率、准确性等。如图5所示为数据质量评价的指标框架。
48.在一种可选的实施例中，可以采用桶聚合的方式将多条目标消息按照消息摘要中对应的时间聚合到不同的数据桶中，然后再根据每个数据桶中消息摘要所记载的数据大小和偏移量计算得到多条目标数据的第二指标。
49.上述的消息摘要的定义参考如下：
50.logsummary＝(ip inode offset logsize)
51.式中的ip表示某台机器的ipv4地址，inode表示linux系统下某个文件的唯一标识，offset表示采集过程中的所读取文件的偏移量，logsize表示所采集的某条消息的消息大小。
52.在一种可选的实施例中，可以构建一个性能较好的采集程序，以确保每条消息都会携带ip、inode、offset、logsize字段。通过目标数据对应的消息摘要可以唯一确定某条消息具体位于哪台机器上、哪个特定文件、哪个文件对应偏移量，以便确定目标数据的时效性、丢失率、重复率。
53.其中，完整性评价指标包括数据元素完整性和数据记录完整性，时效性评价指标包括基于时间段的正确性、基于时间点及时性、时序性，准确性评价指标包括数据内容正确性、数据格式合规性、数据重复率、数据唯一性、脏数据出现率。
54.在另一种可选的实施例中，可以利用上述的第二指标进行动态数据流和静态数据集的数据质量计算。具体的，可以采取动静态阈值、自定义规则模板、定时调度等方案进行指标计算和生产。
55.步骤s108，基于第一指标和第二指标，生成数据仓库的数据质量。
56.在一种可选的实施例中，可以将数据质量分为过程质量和交付质量两种场景，也即上述的第一指标对应的过程质量场景和上述的第二指标对应的交付质量场景，其中，过程质量主要依据数据量自身指标实现组件级别异常发现，交付质量主要依据各层数据仓库的预计算能力进行已交付数据的通用指标计算，通过这两个指标，能够对数据仓库的数据质量进行监控。
57.在另一种可选的实施例中，在生成数据仓库的数据质量之后，可以通过数据质量进行监控，进行异常发现并发现数据问题，可以定位问题根因，一旦发现异常值或者数据质量突然恶化的情况，便可根据数据产生的逻辑找到产生数据的业务环节，然后采用流程改善中的相关分析方法对业务进行完善，并完成数据质量加固。以指导数据质量持续提升，从而达到系统化的服务等级协议。
58.在又一种可选的实施例中，通过生成数据仓库的数据质量，可以达到异常可发现、异常可朔源、异常可恢复的目的，其中，异常可发现包括：a、发现丢失、重复、延迟， b、知道
丢了多少、重了多少、延迟了多少，c、异常可感知，以logid为维度通知到责任人；异常可溯源包括：a、知道在哪里丢的，哪里重的，哪里延迟的，b、知道数据为什么丢、重、延迟的；异常可恢复可以包括：a、丢了的数据能找回，b、重复的数据能感知，c、延迟的数据能恢复。
59.通过上述步骤，首先获取多个目标组件的第一指标，其中，多个目标组件用于对数据源中的原始数据进行处理，并存储至数据仓库，然后获取数据仓库中已经存储的多条目标数据的消息摘要，其中，消息摘要用于表征相应目标数据在数据源中的存储位置，基于多条目标数据的消息摘要，生成多条目标数据的第二指标，最后基于第一指标和第二指标，生成数据仓库的数据质量，实现了减少对目标数据进行多次消费的目的。容易注意到的是，通过在目标数据对应的消息摘要上进行多种形式的指标计算，不但可以随时获取任何时期任何范围的指标，同时也可以根据该消息摘要进行异常定位，找到异常发生的位置和原因，避免由于重复计算目标数据来定位异常造成资源的浪费，进而解决了相关技术中由于重复消费数据而导致资源浪费的技术问题。
60.可选地，基于多条目标数据的消息摘要，生成多条目标数据的第二指标包括：获取每条目标数据的时间戳，其中，时间戳用于表征目标数据存储至数据源的时间；基于消息摘要和时间戳对多条目标数据进行桶聚合，得到多个数据桶；基于每个数据桶包含的至少一条数据的消息摘要，生成每个数据桶的第三指标；基于多个数据桶的第三指标，得到第二指标。
61.上述的时间戳可以为每条数据对应的落地时间，也即每条数据存储到磁盘的时间。
62.在一种可选的实施例中，可以按照每条目标数据的时间戳将每条目标数据对应的消息摘要进行桶聚合，得到多个数据桶(bucket)，其中，每个数据桶中存储有不同时间段的目标消息。进一步地，在将多条目标数据进桶聚合之后，可以根据每个桶中的每条目标数据对应的消息摘要生成每个数据桶的第三指标。具体的，可以根据每条消息摘要中的地址、标识、偏移量以及消息大小进行指标计算，生成每个桶的第三指标，通过将数据分散至每个桶中，可以实现并行处理，从而提高处理的速度；在获取到多个数据桶的第三指标之后，可以将将多个数据桶的第三指标进行合并，得到上述的第二指标。
63.需要说明的是，可以将已经下沉到数仓中的所有消息根据ip、inode和时间按照小时取整进行桶聚合，具体的，按照每个数据存储到磁盘的时间进行桶聚合。
64.如图6所示为一种存储容器的桶聚合模型。首先对多个目标数据进行桶聚合，得到包含有不同时段的多个桶，并计算每个桶对应的第三指标，并基于多个第三指标得到上述的第二指标。
65.可选地，消息摘要包括：网络地址，文件标识、文件偏移量和数据长度，网络地址用于表征存储有相应目标数据的数据源的网络地址，文件标识用于表征存储有相应目标数据的文件的标识，偏移量用于表征采集相应目标数据的过程中所读取的文件的偏移量。
66.上述的网络地址ip，文件标识为inode，文件偏移量为offset，数据长度为logsize 字段。
67.在一种可选的实施例中，通过消息摘要中的网络地址可以很快的定位到消息摘要对应的目标数据所在的机器中，以便对该目标数据进行处理；通过消息摘要中的文件标识能够标识该消息摘要对应的目标数据的文件，以便在到达目标数据对应的网路地址时可
以根据文件标识快速的定位与目标数据对应的目标文件；通过消息摘要中的文件偏移量可以确定目标数据对应的目标文件的地址偏移量；通过上述的数据长度可以确定目标数据的大小。
68.可选地，基于消息摘要和时间戳对多条目标数据进行桶聚合，得到多个数据桶包括：对时间戳进行取整处理，得到处理后的时间戳；基于网络地址、文件标识和处理后的时间戳对多条目标数据进行桶聚合，得到多个数据桶。
69.由于数据的存储时间不一定为整数，因此，可以先将消息摘要中的时间戳进行取整处理，得到处理后的时间戳，便于对目标数据的桶聚合。
70.在一种可选的实施例中，在对时间戳进行取整处理，得到处理后的时间戳时，可以快速的根据处理后的时间戳将目标数据进行时间分类，根据目标数据的时间聚合成多个数据桶，从而时间对多个目标数据的桶聚合。
71.可选地，基于每个数据桶包含的至少一条数据的消息摘要，生成每个数据桶的第三指标包括：基于至少一条数据的时间戳，生成第一子指标，其中，第一子指标用于表征至少一条数据的产生是否及时；基于至少一条数据的文件偏移量和数据长度，生成第二子指标，其中，第二子指标用于表征至少一条数据的完整程度；基于至少一条数据的文件偏移量，生成第三子指标，其中，第三子指标用于表征至少一条数据的准确程度；基于第一子指标、第二子指标和第三子指标，得到第三指标。
72.上述的第一子指标为数据的时效性，上述的第二子指标为数据的完整性，上述的第三子指标为数据的准确性。
73.在一种可选的实施例中，第一子指标可以用来描述数据的产生和供应是否及时，通过将各个阶段时间放入schema(架构)中，以便分阶段分组件的计算时间延迟。通过一个通用的延迟时间模型，来计算目标数据的时效性。其中，第一子指标可以包括采集时延和处理时延。
74.在另一种可选的实施例中，通过对数据的文件偏移量和数据长度进行计算，可以得到上述的第二子指标，也即，判断数据是否完整，具体的，通过文件偏移量和数据长度可以确定出一个完整性比率，根据该完整性比率可以表示数据的完整程度。
75.在另一种可选的实施例中，第三子指标可以通过数据的重复率和唯一性来确定。进一步地，可以通过各个数据在数据桶中的偏移量和该数据桶中的偏移量来确定上述的重复率，可以在得到重复率的基础上来确定上述的唯一性，进而根据重复率和唯一性确定出数据的准确性。
76.在又一种可选的实施例中，结合第一子指标、第二子指标和第三子指标可以得到每个数据桶对应的第三指标。
77.可选地，基于至少一条数据的时间戳，生成第一子指标包括：获取每条数据的第一时间和第二时间，其中，第一时间用于表征从数据源中采集相应数据的时间，第二时间用于表征将相应数据存储至数据仓库的时间；基于至少一条数据的第一时间和时间戳，得到每个数据桶的第一时延；基于至少一条数据的第二时间和时间戳，得到每个数据桶的第二时延；基于第一时延和第二时延，得到第一子指标。
78.上述的第一时延可以为采集时延；上述的第二时延可以为处理时延。
79.上述的时间戳为将数据聚合到数据桶时的时间。
80.在一种可选的实施例中，可以获取数据在被采集时的第一时间和数据在被存储时的第二时间，在获取到第一时间之后，可以将数据桶中的所有数据的采集时间进行平均，得到采集时间的平均值，然后根据第一时间平均值和时间戳的差值来确定每个数据桶的第一时延。可以在获取到第二时间之后，可以将数据桶中所有数据存储至数据仓库的时间进行平均，得到存储时间的平均值，然后根据第二时间平均值和时间戳的差值来确定每个数据桶的第二时延。
81.进一步地，可以结合第一时延和第二时延对数据的时效性进行评价，即得到上述的第一子指标。
82.可选地，基于至少一条数据的第一时间和时间戳，得到第一时延包括：获取至少一条数据的第一时间的平均值，得到第一时间平均值；获取至少一条数据的时间戳的平均值，得到第二时间平均值；获取第一时间平均值和第二时间平均值的差值，得到第一时延。
83.在一种可选的实施例中，可以通过avg_time_collect表示根据桶聚合之后所有消息被采集的时间的平均值，avg_time_business表示根据桶聚合之后所有消息落地时间的平均值，即，上述的时间戳的平均值，也即第二时间平均值，取两者之差即为对应某台机器、某个文件对应的数据的采集的平均延迟情况，即采集时延，在根据这些基础指标进行上钻，便可以得到不同维度的延迟指标情况。
84.如下式为通过第一时间平均值和第二时间平均值得到第一时延的内容：
85.timeliness＝avg_time_collect-avg_time_business
86.其中，timeliness为第一时延，avg_time_collect为第一时间平均值， avg_time_business为第二时间平均值。
87.可选地，基于至少一条数据的第二时间和时间戳，得到第二时延包括：获取至少一条数据的第二时间的平均值，得到第三时间平均值；获取至少一条数据的时间戳的平均值，得到第二时间平均值；获取第三时间平均值和第二时间平均值的差值，得到第二时延。
88.在一种可选的实施例中，数据下沉到数据仓库后通过消息摘要计算处理时延，该公式中avg_time_process表示根据桶聚合之后所有消息下沉到数据仓库时间的平均值，avg_time_business表示根据桶聚合之后所有消息落地时间的平均值，取两者之差即为对应某台机器、某个文件对应的数据的落地的平均延迟情况，即落地时延，在根据这些基础指标进行上钻，便可以得到不同维度的延迟指标情况，如获取某台机器上的所有消息的落地时延便可轻易获取。
89.如下式为通过第三时间平均值和第二时间平均值得到第一时延的内容：
90.timeliness＝avg_time_process-avg_time_business
91.其中，timeliness为第二时延，avg_time_process为第三时间平均值， avg_time_business为第二时间平均值。
92.可选地，基于至少一条数据的文件偏移量和数据长度，生成第二子指标包括：基于文件偏移量对至少一条数据进行去重处理，得到处理后的数据；获取处理后的数据的数据长度之和，得到长度和值；获取至少一条数据的文件偏移量中的最大偏移量和最小偏移量；获取最大偏移量和最小偏移量的差值，得到第一差值；获取第一差值与最大偏移量对应的数据长度的差值，得到第二差值；获取长度和值和第二差值的比值，得到第二子指标。
93.在一种可选的实施例中，首先通过sum(unique_of_offset_of_bucket’message_
取至少一条数据的数量，得到第一数值；基于文件偏移量对至少一条数据进行去重处理，得到处理后的数据；获取处理后的数据的数量，得到第二数值；获取第一数值和第二数值的比值，得到目标比值；获取目标比值和第二预设值的差值，得到第三差值；获取第三差值和第一预设值的乘积，得到重复率。
107.上述的第二预设值为1。
108.在一种可选的实施例中，可以获取至少一条数据的数量，得到文件偏移量的数量，也即上述的第一数值，可以根据文件偏移量对至少一条数据进行去重处理，得到处理后的数据的数量，得到去重后的文件偏移的数量，也即上述的第二数值，获取到第一数据和第二数值的比值，可以确定出重复数据所占的比例，之后可以获取目标比值和第二预设值的差值，得到第三差值，并根据第三差值和第一预设值的乘积，得到重复率。
109.可选地，基于第一指标和第二指标，生成数据仓库的数据质量包括：基于第一指标确定多个目标组件是否出现异常，得到第一质量；基于第二指标生成第二质量；基于第一质量和第二质量，得到数据质量。
110.上述的第一质量可以为过程质量，上述的第二质量可以为交付质量。
111.在一种可选的实施例中，可以将过程质量和交付质量的各个指标进行抽象，得到一个一个质量分的计算模型，用以表示某段时间的sla(服务质量)指标。
112.可选地，基于第二指标生成第二质量包括：获取多个数据桶的第二时延的平均值，得到第一指标平均值；获取多个数据桶的第二子指标的平均值，得到第二指标平均值；获取多个数据桶的重复率的平均值，得到第三指标平均值；基于第一指标平均值、第二指标平均值和第三指标平均值，生成第二质量。
113.上述的第二时延的平均值为
114.如下式所示为质量分的内容：
[0115][0116]
其中，为第一指标平均值，为第二指标平均值，为第三指标平均值。
[0117]
上式中分别将完整性、准确性、时效性相关指标趋近与100％的值相乘，这里可以表现出在任意其它两种指标一定的情况下其它一种指标越是趋近于100％质量分越高，在时效性中利用(10-((avg(last_time_process)-avg(last_timestamp))/(1000*3600)))计算处理延迟在10小时内的指标，可以表示在完整性和准确性一定的情况下时间延迟越是接近于0其对应质量分越高，时间越大质量分越低。
[0118]
通过本技术可以将数据质量计算中相对统一的指标进行抽象，形成标准指标，避免在后续模型中进行二次指标设计和资源消耗，有效的解决了指标设计难，异常发现难以及流式数据中多指标计算带来的多次消费从而导致的资源浪费问题，整个方法对热温冷
冰层数据仓库均具备兼容性和实际应用能力。本技术的关键方面在于对每条日志赋予一个类似于自然人的身份证号的消息摘要，数据有下沉需求时，通过标准的技术手段将该摘要进行透传，从而保证摘要信息留存在数据存在的整个生命周期，并在该摘要之上进行多种形式的指标计算，不但可以随时获取任何时期任何范围的指标亦可根据该指标进行异常定位，找到异常发生的位置和原因。
[0119]
另外，通过构建一种数据质量计算模型和评价体系，低成本实现对任何切片方式的基于文本类的大数据分布式归集结果进行计算，从而解决分布式归集的数据丢失、数据重复、数据延迟、数据无法对账等痛点问题，基于各种数据仓库的预计算能力对每条数据所在实例和对应的文件唯一标识根据其所在实例、源文件进行桶聚合，实现数据的丢失率、重复率和时效性等指标的生产、存储和异常发现，通过为每一条日志提供消息摘要(logsummary)，可以避免传统计算方式资源消耗较高、不同切片方式导致的噪声和异常抖动等问题。
[0120]
实施例2
[0121]
根据本技术实施例，还提供一种数据质量处理装置，该装置可以执行时行数实施例的数据处理方法，具体实现方式和优选应用场景与上述实施例相同，在此不做赘述。
[0122]
图7是根据本发明实施例的一种数据质量处理装置的示意图，如图7所示，该装置包括：
[0123]
第一获取模块102，用于获取多个目标组件的第一指标，其中，多个目标组件用于对数据源中的原始数据进行处理，并存储至数据仓库；
[0124]
第二获取模块104，用于获取数据仓库中已经存储的多条目标数据的消息摘要，其中，消息摘要用于表征相应目标数据在数据源中的存储位置；
[0125]
第一生成模块106，用于基于多条目标数据的消息摘要，生成多条目标数据的第二指标；
[0126]
第二生成模块108，用于基于第一指标和第二指标，生成数据仓库的数据质量。
[0127]
可选地，第一生成模块还用于获取每条目标数据的时间戳，其中，时间戳用于表征目标数据存储至数据源的时间；基于消息摘要和时间戳对多条目标数据进行桶聚合，得到多个数据桶；基于每个数据桶包含的至少一条数据的消息摘要，生成每个数据桶的第三指标；基于多个数据桶的第三指标，得到第二指标。
[0128]
可选地，该装置中消息摘要包括：网络地址，文件标识、文件偏移量和数据长度，网络地址用于表征存储有相应目标数据的数据源的网络地址，文件标识用于表征存储有相应目标数据的文件的标识，偏移量用于表征采集相应目标数据的过程中所读取的文件的偏移量。
[0129]
可选地，第一生成模块还用于对时间戳进行取整处理，得到处理后的时间戳；基于网络地址、文件标识和处理后的时间戳对多条目标数据进行桶聚合，得到多个数据桶。
[0130]
可选地，第一生成模块还用于基于至少一条数据的时间戳，生成第一子指标，其中，第一子指标用于表征至少一条数据的产生是否及时；基于至少一条数据的文件偏移量和数据长度，生成第二子指标，其中，第二子指标用于表征至少一条数据的完整程度；基于至少一条数据的文件偏移量，生成第三子指标，其中，第三子指标用于表征至少一条数据的准确程度；基于第一子指标、第二子指标和第三子指标，得到第三指标。
[0131]
可选地，第一生成模块还用于获取每条数据的第一时间和第二时间，其中，第一时间用于表征从数据源中采集相应数据的时间，第二时间用于表征将相应数据存储至数据仓库的时间；基于至少一条数据的第一时间和时间戳，得到每个数据桶的第一时延；基于至少一条数据的第二时间和时间戳，得到每个数据桶的第二时延；基于第一时延和第二时延，得到第一子指标。
[0132]
可选地，第一生成模块还用于获取至少一条数据的第一时间的平均值，得到第一时间平均值；获取至少一条数据的时间戳的平均值，得到第二时间平均值；获取第一时间平均值和第二时间平均值的差值，得到第一时延。
[0133]
可选地，第一生成模块还用于获取至少一条数据的第二时间的平均值，得到第三时间平均值；获取至少一条数据的时间戳的平均值，得到第二时间平均值；获取第三时间平均值和第二时间平均值的差值，得到第二时延。
[0134]
可选地，第一生成模块还用于基于文件偏移量对至少一条数据进行去重处理，得到处理后的数据；获取处理后的数据的数据长度之和，得到长度和值；获取至少一条数据的文件偏移量中的最大偏移量和最小偏移量；获取最大偏移量和最小偏移量的差值，得到第一差值；获取第一差值与最大偏移量对应的数据长度的差值，得到第二差值；获取长度和值和第二差值的比值，得到第二子指标。
[0135]
可选地，第一生成模块还用于基于至少一条数据的文件偏移量，得到每个数据桶的重复率；获取第一预设值和每个数据桶的重复率的差值，得到每个数据桶的唯一性指标；基于重复率和唯一性指标，得到第三子指标。
[0136]
可选地，第一生成模块还用于获取至少一条数据的数量，得到第一数值；基于文件偏移量对至少一条数据进行去重处理，得到处理后的数据；获取处理后的数据的数量，得到第二数值；获取第一数值和第二数值的比值，得到目标比值；获取目标比值和第二预设值的差值，得到第三差值；获取第三差值和第一预设值的乘积，得到重复率。
[0137]
可选地，第二生成模块还用于基于第一指标确定多个目标组件是否出现异常，得到第一质量；基于第二指标生成第二质量；基于第一质量和第二质量，得到数据质量。
[0138]
可选地，第二生成模块还用于获取多个数据桶的第二时延的平均值，得到第一指标平均值；获取多个数据桶的第二子指标的平均值，得到第二指标平均值；获取多个数据桶的重复率的平均值，得到第三指标平均值；基于第一指标平均值、第二指标平均值和第三指标平均值，生成第二质量。
[0139]
实施例3
[0140]
根据本发明实施例，还提供了一种计算机可读存储介质，计算机可读存储介质包括存储的程序，其中，在程序运行时控制计算机可读存储介质所在设备执行上述实施例1中的数据质量处理方法。
[0141]
实施例4
[0142]
根据本发明实施例，还提供了一种计算机终端，包括：处理器和存储器，处理器用于运行程序，其中，程序运行时执行上述实施例1中的数据质量处理方法。
[0143]
上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
[0144]
在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
[0145]
在本技术所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。
[0146]
作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0147]
另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0148]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0149]
以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种后量子多节点门限签名方法及系统与流程

数据质量处理方法、装置、存储介质以及计算机终端与流程

相关文献

最热文献