一种数据处理方法、计算机可读存储介质及电子设备与流程

2022-12-03 02:30:39 来源：中国专利 TAG：

1.本技术涉及大数据处理技术领域，特别涉及一种数据处理方法、计算机可读存储介质及电子设备。

背景技术：

2.当前，对于机器学习算法的模型训练过程主要包括如下过程：获取训练样本；依据训练目的对训练样本设置标签；将训练样本和标签对应地输入到所选的机器学习算法中进行训练；经过大量训练样本的迭代训练后可得到最终模型。
3.由于训练样本的数据量非常大，不可避免的要通过多种渠道去获得。例如，对语音信号进行训练时，与语音信号相关的样本数据可以来自不同视频网站、不同影视作品或用户录制音频等；对图像进行训练时，与图像相关的样本数据可以来自于不同素材网站或者用户拍摄等。以上，直接从不同来源获取的样本数据可能具有不同的格式。
4.在模型训练时，对于输入的训练样本有一定的要求，因此，需要对获取到的样本数据进行数据清洗从而得到符合训练要求的训练样本。但是，对于不同格式的样本数据，是不能采用相同的数据清洗规则进行清洗的，例如对于文本格式的数据清洗规则中需设置全局过滤条件和数据依赖条件，而对于语音格式或图片格式的数据清洗规则中，就不需要设置上述设置，这就导致面对海量的样本数据时，数据清洗的效率通常比较低。

技术实现要素：

5.本技术要解决的是现有技术中对大量样本数据进行数据清洗时，存在的清洗效率低的技术问题，为此，本技术提出了一种数据处理方法、计算机可读存储介质及电子设备。
6.针对上述技术问题，本技术提供如下技术方案：
7.第一方面，本技术一些实施例中提供一种数据处理方法，包括：获取待清洗数据及待清洗数据的属性标识，属性标识用于表示待清洗数据的来源和/或格式；根据属性标识和训练任务的需求确定待清洗数据的至少一个清洗规则；根据至少一个清洗规则对待清洗数据进行清洗，得到清洗结果数据；将清洗结果数据存储至与属性标识和训练任务的需求对应的第一存储路径下。
8.一些实施例中的数据处理方法中，根据至少一个清洗规则对待清洗数据进行清洗，得到清洗结果数据，包括：清洗规则包括多个清洗规则时，根据属性标识和训练任务的需求对清洗规则进行排序；根据排序，对待清洗数据按照多个清洗规则依次进行清洗，其中，前一个清洗规则清洗完成后得到的数据作为当前清洗规则中需要被清洗的数据，最后一个清洗规则清洗完成后得到的数据作为清洗结果数据。
9.一些实施例中的数据处理方法中，在获取待清洗数据及待清洗数据的属性标识，属性标识用于表示待清洗数据的来源和/或格式之前，该方法还包括：从至少一个来源处获取原始数据；根据原始数据的格式将原始数据划分为与格式对应的设定大小的数据块；以全部的数据块作为待清洗数据。
10.一些实施例中的数据处理方法中，根据原始数据的格式将原始数据划分为与格式对应的设定大小的数据块，包括：根据数据块的来源将数据块存储至与来源对应的第二存储路径下；其中，不同来源的数据块对应于不同的第二存储路径。
11.一些实施例中的数据处理方法中，获取待清洗数据及待清洗数据的属性标识，包括：从每一个第二存储路径获取其路径下存储的数据块，并将数据块存储至与属性标识对应的第三存储路径下。
12.一些实施例中的数据处理方法中，从每一个第二存储路径获取其中存储的数据块，并将数据块存储至与属性标识对应的第三存储路径下，包括：通过并行的多个下载进程，将每一个第二存储路径下的数据块存储至对应的第三存储路径下。
13.一些实施例中的数据处理方法，通过并行的多个下载进程，将每一个第二存储路径下的数据块存储至对应的第三存储路径下，包括：获取每一个第二存储路径下存储的数据块数量；获取用于从每一个第二存储路径下获取数据块的下载进程数；根据数据块数量和并行下载进程数，确定每一下载进程需要下载的数据块；启动并行的多个下载进程，每一个下载进程将其需要下载的数据块下载至对应的第三存储路径下，其中，每一个下载进程下载至少一个数据块，不同的下载进程并行下载数据块。
14.一些实施例中的数据处理方法中，根据至少一个清洗规则对待清洗数据进行清洗，得到清洗结果数据，包括：响应于任意一个数据块下载至第三存储路径下，根据至少一个清洗规则对第三存储路径下已下载的数据块进行清洗并得到清洗结果数据。
15.一些实施例中的数据处理方法中，响应于任意一个数据块下载至第三存储路径下，根据至少一个清洗规则对第三存储路径下已下载的数据块进行清洗并得到清洗结果数据之前，该方法还包括：根据下载进程数为每一个清洗规则配置多至少一个清洗进程，使清洗进程与下载进程一一对应。
16.一些实施例中的数据处理方法中，还包括：将清洗结果数据聚合后存储至与属性标识和训练任务的需求对应的第四存储路径下。
17.一些实施例中的数据处理方法中，还包括：将清洗结果数据和/或聚合后的清洗结果数据上传至与属性标识和训练任务的需求对应的第五存储路径下。
18.第二方面，本技术一些实施例中还提供一种数据处理装置，包括：数据获取模块，获取待清洗数据及待清洗数据的属性标识，属性标识用于表示待清洗数据的来源和/或格式；清洗规则确定模块，根据属性标识和训练任务的需求确定待清洗数据的至少一个清洗规则；清洗模块，根据至少一个清洗规则对待清洗数据进行清洗，得到清洗结果数据；存储模块，将清洗结果数据存储至与属性标识和训练任务的需求对应的第一存储路径下。
19.第三方面，本技术一些实施例中还提供一种计算机可读存储介质，存储介质中存储由设备执行的程序代码，程序代码包括用于执行如以上第一方面中任一项的数据处理方法。
20.第四方面，本技术一些实施例中还提供一种电子设备，电子设备包括至少一个处理器和至少一个存储器，至少一个存储器中存储有程序指令，至少一个处理器用于调用该程序指令以执行如以上第一方面中任一项的数据处理方法。
21.本技术的技术方案相对现有技术具有如下技术效果：
22.本技术提供的数据处理方法、计算机可读存储介质及电子设备，获取到待清洗数
据之后，根据待清洗数据的属性标识和训练任务的需求确定待清洗数据的至少一个清洗规则，直接利用确定好的清洗规则对待清洗数据进行清洗，从而能够使清洗结果数据符合数据的来源和/或格式的需求，还能够满足训练任务的需求，确保机器学习算法训练时，对于不同来源、不同格式的海量数据也可以快速、高效地完成清洗。
附图说明
23.下面将通过附图详细描述本技术中优选实施例，将有助于理解本技术的目的和优点，其中:
24.图1为本技术一个实施例所述数据处理方法的流程图；
25.图2为本技术一个实施例所述待清洗数据依据三次清洗规则执行清洗时的过程示意图；
26.图3为本技术一个实施例所述待清洗数据的获取流程示意图；
27.图4为本技术一个实施例所述待清洗数据获取和执行三次清洗时的过程示意图；
28.图5为本技术一个实施例所述数据块的下载进程和清洗进程的执行方式示意图；
29.图6为本技术一个实施例所述数据处理装置的结构框图；
30.图7为本技术一个实施例所述电子设备的硬件连接关系示意图。
具体实施方式
31.下面将结合附图对本技术的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
32.在本技术的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本技术和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本技术的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。
33.在本技术的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本技术中的具体含义。
34.此外，下面所描述的本技术不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
35.本技术以下的方案，提供了一种数据处理方案，可用于对多种来源、多种格式的样本数据进行清洗，而且清洗规则能够根据样本数据的属性标识以及训练任务的需求确定，因此，只要确定了样本数据的属性标识和需求，就能够快速完成数据的清洗。从而能够解决现有技术中对不同来源和格式的数据进行清洗时效率低下的问题。
36.本实施例提供一种数据处理方法，可应用于执行数据清洗的集群系统中的主节点中，如图1所示，方法可包括如下步骤：
37.s101：获取待清洗数据及待清洗数据的属性标识，属性标识用于表示待清洗数据
的来源和/或格式。待清洗数据可以具有不同来源，例如不同网站、用户自制等，待清洗数据的格式包括多种，例如图像数据的格式有jpeg、tiff和raw等，视频数据的格式有mpg、dat和mp4等，音频数据的格式有wma、mp3和mpeg等，文本数据的格式有ascll、mime、txt等。在一些情形下，如果来源确定的话，可能格式也是能够确定的，此时属性标识中包括来源即可。在一些情形下，如果待清洗的数据的来源可能不会对于数据清洗产生特殊的影响，则此时属性标识也可以只包含格式。一般情形下，待清洗数据的来源是多元化的，待清洗数据的格式也是各种各样，此时属性标识包括来源和格式，从这两个维度对数据清洗的过程进行设计。
38.s102：根据属性标识和训练任务的需求确定待清洗数据的至少一个清洗规则。其中，训练任务的需求可以由用户根据其实际模型训练所应用的场景进行确定。以待清洗数据为语音数据为例，对于语音数据的来源和格式来说，通常有很多不同的清洗规则，在这许多的清洗规则中，还进一步根据不同的训练任务，对语音数据的清洗规则进行选择，例如，针对语音数据的发声主体的年龄进行判断或者针对语音数据所要表达的含义进行判断，这两种训练任务就会存在不同的清洗规则。前一个训练任务可能对于语音数据中的关键词清晰程度并不关心，而后一种情况就要求能够识别出清晰的关键字信息。在实际实现时，用户能够根据实际需求对清洗规则进行确认即可。
39.s103：根据至少一个清洗规则对待清洗数据进行清洗，得到清洗结果数据。当清洗规则确定之后，就能够依据清洗规则执行数据清洗操作，且最终得到的清洗结果数据是能够满足训练任务的需求的。
40.s104：将清洗结果数据存储至与属性标识和训练任务的需求对应的第一存储路径下。该第一存储路径可以按照逻辑地址的形式体现，该第一存储路径可以由用户指定，也可以预先定义并存储好。当用户需要执行训练任务时，可以调用该清洗结果数据，例如将其作为训练样本数据。
41.以上实施例中的方案，获取到待清洗数据之后，根据待清洗数据的属性标识和训练任务的需求确定待清洗数据的至少一个清洗规则，直接利用确定好的清洗规则对待清洗数据进行清洗，从而能够使清洗结果数据符合数据的来源和/或格式的需求，还能够满足训练任务的需求，能够满足机器学习算法在训练时对于海量数据快速、高效清洗的需要。
42.如前，本实施例提供的数据处理方法，清洗规则的确定会同时考虑到待清洗数据的来源和格式，还会考虑到训练任务的需求。当清洗规则包括多个时，根据属性标识和训练任务的需求对清洗规则的排序；待清洗数据根据排序依次按照多个清洗规则进行清洗，其中，前一个清洗规则清洗完成后的数据作为当前清洗规则的待清洗数据。以图2所示的数据处理流程为例，其中包括待清洗数据100、三个清洗规则：第一清洗规则201、第二清洗规则202、第三清洗规则203，第一清洗规则201从待清洗数据100获取第一待清洗数据s1(假设为文本格式)，执行完清洗之后得到第一次清洗数据s2(例如：第一清洗规则为将所有不同编码格式的文件转化为统一编码格式的文件，如将txt，csv等格式的文件统一改写为相同schema的json文件，第一次清洗数据s2即为具有统一格式的文件)，第一次清洗数据s2可与待清洗数据100存放到相同或不同的存放空间均可；第二清洗规则202获取第一次清洗数据s2，执行完清洗之后得到第二次清洗数据s3(例如：对每一个文件应用相同的过滤规则进行过滤，将不符合规则的文件过滤掉，并重新写入新的文件，即第二次清洗数据s3均满足相同的过滤规则)，第二次清洗数据s3可与待清洗数据100存放到相同或不同的存放空间均可；
第三清洗规则203获取到第二次清洗数据s3，执行完清洗之后得到第三次清洗数据s4(例如：读取每一个文件中的每一行数据，对关键字进行全局去重，去重的方法可借助redis事务，通过redis事务判断要去重的关键字是否存在，如果存在则过滤掉该条数据，即第三次清洗数据s4的文本中不再有重复的关键字)，第三次清洗数据s4作为清洗结果数据可与待清洗数据100存放到相同或不同的存放空间均可。
43.通过本方案，清洗规则的选择、清洗规则的数量和顺序等，都是可以配置的，从而使本技术具有更广的应用范围。
44.在一些实施例中提供的数据处理方法，如图3和图4所示，在步骤s101之前还可以包括：
45.s1001：从至少一个来源处获取原始数据。来源可以是网络上的不同网站，影视作品、电子唱片等，如图4所示，以来源a-d作为示意性说明，实际并不限于四个来源。原始数据即直接从来源处请求得到的数据。
46.s1002：根据原始数据的格式将原始数据划分为与格式对应的设定大小的数据块；以全部的数据块s0作为后来的待清洗数据100。其中，数据块的设定大小可以根据信息含量来确定，一般情况下相同大小的文本数据包含的信息量会更大一些，视频数据包含的信息量会较小，在进行数据块的划分时，可尽量使不同格式的数据块所包含的信息量差异不要过大。同时，为了便于将本方法应用于海量数据的处理而又具有较高的效率，数据块的大小也不宜太小。举例来说，可以选择文本格式的数据块大小为100g，语音格式的数据块大小为1t，视频格式的数据块大小为10t，当然，可以根据待清洗的数据量的多少、系统的处理效率等因素对设定大小进行选择，不限于上述举例说明。
47.本方案中，通过将待清洗数据以数据块的方式进行清洗，且数据块的大小根据格式来确定，方便了待清洗数据在后续处理过程中的调取和存储，使数据处理过程更便捷，也进一步提高了数据清洗的效率。
48.进一步地，步骤s1002中包括：根据数据块的来源将数据块存储至与来源对应的第二存储路径101下，第二存储路径101可以与第一存储路径采用相同的表示方式，即按照逻辑地址的形式体现；其中，不同来源的数据块对应于不同的第二存储路径101。需要说明的是，在相同来源的原始数据中，可能会包含不同格式的原始数据，此时可以根据数据块的大小、命名等方式对数据块的格式进行区分即可，即每一来源得到的数据块的数量和格式都是依据其实际情况确定的。本方案中，将相同来源的数据块存储在相同存储路径下，相应地，不同来源的存储路径有所不同，如此方便了原始数据的存储，也提高了后续数据处理的过程的便捷性。
49.另外，在一些优选的方案中，上述的步骤s101可以包括：从每一个第二存储路径101下获取其路径下存储的数据块，并将数据块存储至对应的第三存储路径下。即，将每一来源的待清洗数据的数据块，可以先临时的存储于第二存储路径下，之后在将其转移至第三存储路径，如此可及时释放第二存储路径，使其能够连续从来源处获取原始数据并存储。而，为了能够提高数据清洗的效率，在将数据块从第二存储路径转移到第三存储路径的过程中，可以通过并行的多个下载进程将每一个第二存储路径下的数据块存储至对应的第三存储路径下，并行下载数据块的方式具有更高的下载效率。具体地，可以通过如下方式执行：
50.s1011：获取每一个第二存储路径下存储的数据块数量。如前，不同来源对应的第二存储路径下，其存储的数据块的格式和数量并不相同。
51.s1012：获取用于从每一个第二存储路径下获取数据块的下载进程数。对于计算机来说，将数据从临时的第二存储路径转移至第三存储路径下，就相当于执行数据的下载操作，此处的并行下载进程数可根据系统的处理能力和数据块的大小进行选择。
52.s1013：根据数据块数量和下载进程数，确定每一下载进程需要下载的数据块；
53.s1014：启动并行的多个下载进程，使得每一个下载进程将其需要下载的数据块下载至对应的第三存储路径下，其中，每一个下载进程下载至少一个数据块，不同的下载进程并行下载数据块。
54.在具体实现时，每个下载进程和数据块都可以被分配一个不同的序号，下载进程的序号与数据块的序号进行对应，从而便于分配，每个下载进程在被分配了要下载的数据块之后就会依据格式将数据块中的数据下载到对应的存储路径下。每个下载进程可以下载一个或多个的数据块，例如序号为1号的下载进程被配置为下载序号为0号、49号和99号的三个数据块，序号为2号的下载进程被配置为下载序号为1号、50号和100号的三个数据块，序号为3的下载进程被配置为下载序号为2号和51号的两个数据块等。
55.在通过并行下载进程将数据块快速下载至第三存储路径时，为了提高数据清洗的效率，在步骤s103中，可以通过如下方式实现：响应于任意一个数据块下载到第三存储路径下，根据至少一个清洗规则对第三存储路径下的已下载的数据块进行清洗并得到清洗结果数据。即，针对任一数据块来说，其下载过程和清洗过程按照串行处理方式执行，任一数据块完成下载后就可立即对其进行清洗。进一步优选地，如图5所示，在一些方案中，s103的步骤中：根据下载进程为每一清洗规则配置至少一个清洗进程，使清洗进程与下载进程一一对应。当任意一个下载进程将其需要下载的数据块完全下载至对应的第三存储路径下之后，清洗规则中对应的清洗进程对完全下载的数据块进行清洗并得到清洗结果数据。即，执行数据清洗时，也通过并行的多个清洗进程对数据块进行清洗，以提高数据清洗效率。从图5中可以看出，针对同一数据块来说，将数据块从第二存储路径下载至第三存储路径的步骤和对数据块的清洗步骤为串行处理方式，存在先后关系，需要先完成数据块的下载之后再执行清洗，而在执行下载步骤时的多个进程、执行清洗步骤时的多个进程均为并行执行的，实现更高的数据处理效率。假设在第二存储路径中共有150个数据块，数据块的序号分别是1-150，下载进程和清洗进程的均为m个(本方案中m＝50)，下载进程和清洗进程的序号分别是1-50，则每个下载进程和清洗进程需处理3个数据块，比如1号下载进程处理1号、51号和101号数据块，2号下载进程处理2号、52号和102号数据块，以此类推，50号下载进程处理50号、100号和150号数据块。1号下载进程依次连续地下载1号、51号和101号数据块，在1号数据块被下载完成后，1号清洗进程就立即开始执行1号数据块的数据清洗，在51号数据块被下载完成后，1号清洗进程就立即开始执行51号数据块的数据清洗，在101号数据块被下载完成后，1号清洗进程就立即开始执行101号数据块的数据清洗。如果清洗规则包括多个，则执行在前一次清洗操作的1号清洗进程完成清洗后，执行当前的清洗操作的1号清洗进程立即对前一次清洗操作得到的数据进行清洗，依次类推，直到最后一次清洗规则中的1号清洗进程完成数据清洗。显然，在1号清洗进程对1号数据块执行数据清洗时，1号下载进程可能正在下载51号数据块。而对于1-50号数据，理论上是被1-50号下载进程同时启动并行下载
的。本方案中，通过在上述过程中设置多线程并行的方式，实现数据转移的多线程进行和数据清洗的多线程进行，能够极大的提高数据清洗的效率。
56.以上方案中提供的数据处理方法，主要涉及到了待清洗数据的获取和清洗过程。在实际应用场景中，还可以根据用户需要设置数据聚合和数据上传的步骤。即以上方法还可以包括如下步骤：
57.s105：将清洗结果数据聚合后存储至与属性标识和训练任务的需求对应的第四存储路径下。
58.s106：将清洗结果数据和/或聚合后的清洗结果数据上传至与属性标识和训练任务的需求对应的第五存储路径下。
59.数据聚合时可以选择已有的聚合函数实现，结合清洗结果数据的格式选择恰当的聚合函数，如前，待清洗数据在执行清洗时，考虑到了来源和格式，那么得到的清洗结果数据在进行聚合时，目的也是依据来源和格式将第一存储路径下的不同清洗结果数据关联起来。而聚合后的数据可单独存储至第四传输路径下，假设存在步骤s106，可方便s106执行上传步骤。而步骤s106上传的数据可以为步骤s104中的清洗结果数据，也可以为步骤s105中的聚合后的清洗结果数据，也可以不设置数据上传的这一步骤。上述步骤s105和s106可依据用户的需要进行配置。
60.如图6所示，本实施例提供一种数据处理装置，包括：
61.数据获取模块61，获取待清洗数据及待清洗数据的属性标识，属性标识用于表示待清洗数据的来源和/或格式。
62.清洗规则确定模块62，根据属性标识和训练任务的需求确定待清洗数据的至少一个清洗规则。
63.清洗模块63，根据至少一个清洗规则对待清洗数据进行清洗，得到清洗结果数据。
64.存储模块64，将清洗结果数据存储至与属性标识和训练任务的需求对应的第一存储路径下。
65.以上的数据处理装置，获取到待清洗数据之后，根据待清洗数据的属性标识和训练任务的需求确定待清洗数据的至少一个清洗规则，直接利用确定好的清洗规则对待清洗数据进行清洗，从而能够使清洗结果数据符合数据的来源和/或格式的需求，还能够满足训练任务的需求，能够满足机器学习算法在训练时对于海量数据快速、高效清洗的需要。
66.优选地，上述数据处理装置还包括原始数据处理模块，从至少一个来源处获取原始数据，根据原始数据的格式将原始数据划分为与格式对应的设定大小的数据块；以全部的数据块作为后来的待清洗数据。来源可以是网络上的不同网站，影视作品、电子唱片等，原始数据即直接从来源处请求得到的数据。本方案中，数据块的大小根据格式来确定，方便了待清洗数据在后续处理过程中的调取和存储，使数据处理过程更便捷，也进一步提高了数据清洗的效率。以上方案中，原始数据处理模块还用于根据数据块的来源将数据块存储至与来源对应的第二存储路径下，本方案中，将相同来源的数据块存储在相同存储路径下，相应地，不同来源的存储路径有所不同，如此方便了原始数据的存储，也提高了后续数据处理的过程的便捷性。
67.以上方案中，数据获取模块61，从第二存储路径中的每一个第二存储路径获取其中存储的数据块，并将数据块存储至与属性标识对应的第三存储路径下。将每一来源的待
清洗数据的数据块，可以先临时的存储于第二存储路径下，之后在将其转移至第三存储路径，如此可及时释放第二存储路径，使其能够连续从来源处获取原始数据并存储。具体地，数据获取模块61中通过并行的多个下载进程将每一个第二存储路径下的数据块存储至对应的第三存储路径下，以提高数据块的转移速率。
68.进一步地，数据获取模块61，获取每一个第二存储路径下存储的数据块数量；获取用于从每一个第二存储路径下获取数据块的下载进程数；根据数据块数量和下载进程数，确定每一下载进程需要下载的数据块；启动多个下载进程，使得每一下载进程将其需要下载的数据块下载至对应的第三存储路径下，其中，每一个下载进程下载至少一个数据块，不同的下载进程并行下载数据块。并行下载的方式能够提高数据下载的效率。相应地，清洗模块63，响应于任意一个数据块下载到第三存储路径下，根据至少一个清洗规则对第三存储路径下的已下载的数据块进行清洗并得到清洗结果数据。即，针对任一数据块来说，其下载过程和清洗过程按照串行处理方式执行，任一数据块完成下载后就可立即对其进行清洗。具体地，清洗模块63，根据下载进程为每一清洗规则配置至少一个清洗进程，使清洗进程与下载进程一一对应。当任意一个下载进程将其需要下载的数据块完全下载至对应的第三存储路径下之后，清洗规则中对应的清洗进程对完全下载的数据块进行清洗并得到清洗结果数据。通过在上述过程中设置多线程并行的方式，实现数据转移的多线程进行和数据清洗的多线程进行，能够极大的提高数据清洗的效率。
69.进一步地，以上数据处理装置还包括数据聚合模块和/或数据上传模块，数据聚合模块将清洗结果数据聚合后存储至与属性标识和训练任务的需求对应的第四存储路径下；数据上传模块将清洗结果数据和/或聚合后的清洗结果数据上传至与属性标识和训练任务的需求对应的第五存储路径下。上述模块可依据用户的需要进行配置，使数据处理装置能够满足更广泛的需求。
70.本技术一些实施例中还提供一种计算机可读存储介质，计算机可读存储介质中存储由设备执行的程序代码，程序代码包括用于执行以上任一方法实施例中的方案提供的数据处理方法。
71.本技术一些实施例还提供一种电子设备，如图7所示，电子设备包括至少一个处理器71和至少一个存储器72，至少一个存储器72中存储有程序指令，至少一个处理器71用于调用程序指令以执行以上任一项方法实施例方案的数据处理方法。电子设备还可以包括：输入装置73和输出装置74。处理器71、存储器72、输入装置73和输出装置74可以通信连接。存储器72作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器71通过运行存储在存储器72中的非易失性软件程序、指令以及模块，从而执行各种功能应用以及数据处理，即实现上述任一方案提供的数据处理方法。本设备具有较高的数据清洗效率，且清洗规则、数据聚合、数据上传等步骤是可以根据需要进行配置的，具有很好的扩展性。
72.显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本技术的保护范围之中。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：文本摘要生成方法、装置、设备以及存储介质

一种数据处理方法、计算机可读存储介质及电子设备与流程

相关文献

最热文献