数据处理的方法和装置与流程

2021-12-07 20:47:00 来源：中国专利 TAG：

1.本发明涉及计算机技术领域，尤其涉及一种数据处理的方法和装置。

背景技术：

2.随着数据仓库的规模越来越大，其每天需要运行成千上万的数据处理任务。如何对数据仓库运行的这些数据处理任务进行合理的分级，区分出哪些数据处理任务是重要的、哪些数据处理任务是次要的，进而采取对应的数据处理方案，将直接影响到仓库数据的稳定性和数据的可信度。
3.目前，对数据仓库运行的数据处理任务划分等级的方式主要是决策者(人工)根据自身经验，主观判断数据处理任务的重要程度，然后为数据处理任务划分等级，然后根据人工确定出的数据处理任务的等级，确定数据处理任务的处理策略。
4.在实现本发明过程中，发明人发现现有技术中至少存在如下问题：
5.现有的数据处理任务的等级划分方式主要依靠经验，导致数据处理任务的等级确定的效率以及准确率较低，从而导致为数据处理任务确定出的处理策略不合理，影响用户体验。

技术实现要素：

6.有鉴于此，本发明实施例提供一种数据处理的方法和装置，能够构建出任务等级模型，以有效地提高数据处理任务的等级确定的效率和准确率，从而使为数据处理任务确定出的处理策略比较合理，提高了用户体验。
7.为实现上述目的，根据本发明实施例的一个方面，提供了一种数据处理的方法，包括：
8.采集多个数据处理样本，所述数据处理样本具有多个特征属性和对应的等级，其中，所述等级指示了所述数据处理样本的处理优先级；
9.针对所述数据处理样本，判断其每一个所述特征属性的属性值是否缺失，如果是，则为所述特征属性填补对应的属性值；
10.利用具有完整属性值和对应的等级的数据处理样本训练分类模型，得到任务等级模型；
11.利用所述任务等级模型，确定新数据处理任务的等级，根据所述新数据处理任务的等级，确定所述新数据处理任务的处理策略。
12.优选地，数据处理的方法，进一步包括：将多个所述数据处理样本划分到完整数据集合和缺失数据集合，其中，划分到所述完整数据集合中的数据处理样本具有完整的属性值，划分到所述缺失数据集合中的数据处理样本具有缺失的属性值；
13.针对所述缺失数据集合中的每一个所述数据处理样本的每一个特征属性，执行判断所述特征属性的属性值是否缺失的步骤。
14.优选地，数据处理的方法，进一步包括：
15.根据所述数据处理样本的所述多个特征属性对应的属性值，为所述数据处理样本生成预设位数的编码；
16.根据所述数据处理样本的编码，将所述完整数据集合划分为至少一个编码集合，其中，属于同一编码集合中的所有数据处理样本对应的编码相等；
17.为所述特征属性填补对应的属性值的步骤，包括：
18.根据所述缺失数据集合中数据处理样本对应的编码，为所述缺失数据集合中数据处理样本匹配对应的目标编码集合；
19.根据所述目标编码集合对应的所述数据处理样本的属性值，填补所述缺失数据集合中数据处理样本所缺失的属性值。
20.优选地，
21.根据所述数据处理样本中每一个所述特征属性的属性值，为每一个所述特征属性生成预设位数的第一签名值，其中，所述第一签名值中的每一位值属于预设数值范围内的值；
22.根据所述特征属性对应的预设权重和每一个所述特征属性对应的所述第一签名值，计算所述数据处理样本对应的编码。
23.优选地，为所述数据处理样本生成预设位数的编码的步骤，包括：
24.根据所述数据处理样本中每一个所述特征属性的属性值，为每一个所述特征属性生成预设位数的签名值；
25.根据预设的置换策略，对所述签名值中的每一位数值进行数值置换；
26.根据所述特征属性对应的预设权重和每一个所述特征属性对应的数值置换后的结果，计算所述数据处理样本对应的编码。
27.优选地，所述置换策略，包括：
28.将数值零置换为第一值，将非零的数值置换为第二值。
29.优选地，在利用具有完整属性值的数据处理样本和对应的等级训练分类模型步骤之前，进一步包括：
30.基于处理过所述属性值的数据处理样本，计算每一个所述特征属性的信息增益；
31.根据每一个所述特征属性的信息增益，选出多个目标特征属性；
32.利用具有完整属性值的数据处理样本和对应的等级训练分类模型的步骤，包括：
33.利用具有完整的所述目标特征属性的属性值的数据处理样本训练分类模型。
34.优选地，计算每一个所述特征属性对应的信息增益的步骤，包括：
35.针对每一个所述特征属性，
36.利用所述多个数据处理样本中所述特征属性对应的属性值的概率，计算第一信息熵；
37.根据所述特征属性对应的属性值，对所述数据处理样本进行分类；
38.根据分类的结果中每一类别的概率和所述特征属性对应的属性值的概率，计算第二信息熵；
39.利用所述第一信息熵和所述第二信息熵，计算所述特征属性对应的信息增益。
40.优选地，
41.所述多个目标特征属性，包括：执行数据处理任务的服务时长、执行数据处理任务
所需的递归子任务数量以及执行数据处理任务的使用次数中的任意两个或三个。
42.优选地，数据处理的方法，进一步包括：设置数据处理顺序表，所述数据处理顺序表用于按照处理先后顺序存储数据处理任务；
43.确定所述新数据处理任务的处理策略的步骤，包括：
44.根据所述新数据处理任务所具有的等级，将所述新数据处理任务插入所述数据处理顺序表；
45.根据所述数据处理顺序表的存储顺序，处理所述数据处理顺序表存储的新数据处理任务。
46.优选地，数据处理的方法，进一步包括：为每一个所述等级分配对应的监控方案，所述监控方案包括不同等级对应的监控时间间隔；
47.确定所述新数据处理任务的处理策略的步骤，包括：
48.根据不同等级对应的监控时间间隔，对所述新数据处理任务进行监控；
49.当监控的结果指示所述新数据处理任务达到处理时限和/或所述新数据处理任务对应的上一等级的数据处理任务处理完成，处理所述新数据处理任务。
50.第二方面，本发明实施例提供一种数据处理的装置，包括：采集单元、填补单元、训练单元以及处理单元，其中，
51.所述采集单元，用于采集多个数据处理样本，所述数据处理样本具有多个特征属性和对应的等级，其中，所述等级指示了所述数据处理样本的处理优先级；
52.所述填补单元，用于针对所述采集单元采集到的所述数据处理样本，判断其每一个所述特征属性的属性值是否缺失，如果是，则为所述特征属性填补对应的属性值；
53.所述训练单元，用于利用所述采集单元采集到的以及所述填补单元得到的具有完整属性值的数据处理样本和对应的等级训练分类模型，得到任务等级模型；
54.所述处理单元，用于利用所述训练单元得到任务等级模型，确定新数据处理任务的等级，根据所述新数据处理任务的等级，确定所述新数据处理任务的处理策略。
55.上述发明中的一个实施例具有如下优点或有益效果：一般来说，基于训练出的任务等级模型可借助计算资源对数据处理任务进行等级划分，与人工划分相比，本发明实施例提供的方案能够有效地提高数据处理任务的等级划分效率。另外，由于训练分类模型所使用的数据处理样本的特征属性的属性值的完整性，将直接影响训练出的任务等级模型的准确性，本技术方案对特征属性缺失的属性值进行填补，保证了训练分类模型所使用的数据处理样本具有完整属性值，从而训练出比较准确的任务等级模型，从而有效地提高数据处理任务的等级的准确性，那么，按照等级，确定数据处理任务的处理策略，使数据处理规划比较合理，从而提高用户体验。
56.上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
57.附图用于更好地理解本发明，不构成对本发明的不当限定。其中：
58.图1是根据本发明实施例的数据处理的方法的主要流程的示意图；
59.图2是根据本发明实施例的填补数据处理样本的特征属性所缺失的属性值的主要
流程的示意图；
60.图3是根据本发明实施例的生成预设位数的编码的主要流程的示意图；
61.图4是根据本发明实施例的选出多个目标特征属性的主要流程的示意图；
62.图5是根据本发明实施例的任务等级模型部分结构的示意图；
63.图6是根据本发明实施例的确定新数据处理任务的处理策略的主要流程的示意图；
64.图7是根据本发明实施例的确定新数据处理任务的处理策略的主要流程的示意图；
65.图8是根据本发明实施例的数据处理的装置的主要单元的示意图；
66.图9是本发明实施例可以应用于其中的示例性系统架构图；
67.图10是适于用来实现本发明实施例的服务器的计算机系统的结构示意图。
具体实施方式
68.以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
69.图1是根据本发明实施例的一种数据处理的方法，如图1所示，该数据处理的方法可包括如下步骤：
70.s101：采集多个数据处理样本，数据处理样本具有多个特征属性和对应的等级，其中，等级指示了数据处理样本的处理优先级；
71.s102：针对数据处理样本，判断其具有的每一个特征属性的属性值是否缺失，如果是，则执行s103；否则，执行s104；
72.s103：为该特征属性填补对应的属性值；
73.s104：利用具有完整属性值和对应的等级的数据处理样本训练分类模型，得到任务等级模型；
74.s105：利用任务等级模型，确定新数据处理任务的等级；
75.s106：根据新数据处理任务的等级，确定新数据处理任务的处理策略。
76.其中，步骤s101采集的多个数据处理样本可以为接收用户通过终端发送的，也可以为现有的数据仓库中采集。
77.其中，数据处理样本是指，数据仓库已经处理完成的、具有处理优先级或等级的数据处理任务。
78.其中，特征属性是指能够表征数据处理任务特征或特性的信息，比如，数据处理任务名称、数据处理任务类型、数据处理任务限制使用cpu大小、数据处理任务限制使用内存大小、任务版本、是否报警、执行数据处理任务所需的服务时长、执行数据处理任务所需递归子任务数量以及执行数据处理任务所需的数据仓库模型的使用次数等。
79.其中，属性值是指，数值化后的特征属性的取值。该数值化可以根据预设的数值化规则来完成。
80.其中，任务等级模型可为通过id3算法得到的决策树，即上述训练分类模型具体可
为，采用id3算法为多个数据处理样本生成对应的决策树。
81.一般来说，基于训练得到的任务等级模型可借助计算资源对任务进行等级划分，与人工划分相比，本发明实施例提供的方案能够有效地提高数据处理任务的等级划分效率。另外，由于训练分类模型所使用的数据处理样本的特征属性的属性值的完整性，将直接影响训练出的任务等级模型的准确性，本技术方案对特征属性缺失的属性值进行填补，保证了训练分类模型所使用的数据处理样本具有完整属性值，从而训练出比较准确的任务等级模型，从而有效地提高数据处理任务的等级的准确性，那么，按照等级，确定数据处理任务的处理策略，使数据处理规划比较合理，从而提高用户体验。
82.在本发明实施例中，上述数据处理的方法可进一步包括：将多个数据处理样本划分到完整数据集合和缺失数据集合，其中，划分到完整数据集合中的数据处理样本具有完整的属性值，划分到缺失数据集合中的数据处理样本具有缺失的属性值；针对缺失数据集合中的每一个数据处理样本的每一个特征属性，执行判断特征属性对应的属性值是否缺失的步骤。通过将不同的数据处理样本划分到完整数据集合和缺失数据集合，而仅针对缺失数据集合中的数据处理样本进行属性值补充，有效地降低了判断过程的工作量，节省计算资源。
83.其中，多个特征属性可如下表1所示。
84.表1
[0085][0086]
其中，服务时长是指数据仓库为数据处理任务服务的时长；递归子任务数量是指，数据仓库执行数据处理任务过程中所需要执行的递归子任务的数量；数据仓库模型使用次
数是指，一段时间内使用数据仓库模型执行某一数据处理任务的次数。
[0087]
在本发明实施例中，如图2所示，数据处理的方法可进一步包括如下步骤：
[0088]
s201：根据数据处理样本的多个特征属性对应的属性值，为数据处理样本生成预设位数的编码；
[0089]
s202：根据数据处理样本的编码，将完整数据集合划分为至少一个编码集合，其中，属于同一编码集合中的所有数据处理样本对应的编码相等；
[0090]
s203：根据缺失数据集合中数据处理样本对应的编码，为缺失数据集合中数据处理样本匹配对应的目标编码集合；
[0091]
s204：根据目标编码集合对应的数据处理样本的属性值，填补缺失数据集合中数据处理样本所缺失的属性值。
[0092]
其中，针对缺失数据集合中的每一个数据处理样本可执行上述步骤s203和步骤s204。
[0093]
其中，步骤s203和步骤s204是为缺失属性值得特征属性填补对应的属性值的一种具体实现方式。
[0094]
其中，编码是指固定位数的数字串。
[0095]
其中，上述s201的具体实现方式可以有两种：
[0096]
第一种实现方式：
[0097]
针对数据处理样本的多种特征属性的组合，执行：利用该多种特征属性的组合所包括的特征属性对应的属性值，为该数据处理样本生成对应的预设位数的编码。
[0098]
比如，数据处理样本包括有特征属性a、b、c、d、e，则数据处理样本的多种特征属性的组合可如特征属性a和特征属性b组合；特征属性a和特征属性c组合；特征属性a、特征属性b以及特征属性c组合；特征属性a、b、c、d、e组合等。对于特征属性a和特征属性b组合，利用特征属性a的属性值和特征属性b的属性值，为该数据处理样本生成对应的预设位数的编码；对于特征属性a、特征属性b以及特征属性c组合，利用特征属性a对应的属性值、特征属性b对应的属性值以及特征属性c对应的属性值，为该数据处理样本生成对应的预设位数的编码等。
[0099]
第二种实现方式：
[0100]
利用数据处理样本的多种特征属性中的每一种特征属性对应的属性值，为该数据处理样本生成对应的预设位数的编码。
[0101]
其中，第二种实现方式是第三种实现方式的一个特例。比如，数据处理样本包括有特征属性a、b、c、d、e，则利用数据处理样本的特征属性a对应的属性值、特征属性b对应的属性值、特征属性c对应的属性值、特征属性d对应的属性值以及特征属性e对应的属性值，为该数据处理样本生成对应的预设位数的编码。
[0102]
第二种实现方式简化了为数据处理样本生成预设位数的编码的过程，能够有效地减少对计算资源的消耗。
[0103]
一个优选地实施例，选择第一种实现方式来为数据处理样本生成对应的预设位数的编码，这样一个数据处理样本对应多个预设位数的编码，通过第一种实现方式得到的数据处理样本对应的预设位数的编码，能够更好地对数据处理样本按照特征属性划分编码集合，以保证后续匹配结果的准确性。
[0104]
其中，步骤s203的具体实施方式可以有两种：
[0105]
一个实施例中，为缺失数据集合中数据处理样本匹配对应的目标编码集合的实施方式：查找与缺失数据集合中数据处理样本的编码相同的目标编码集合。
[0106]
该种实施方式可针对上述实施例提供的为数据处理样本生成预设位数的编码的第一种实现方式。
[0107]
另一个实施例中，为缺失数据集合中数据处理样本匹配对应的目标编码集合的实施方式：查找与缺失数据集合中数据处理样本的编码差值最小的目标编码集合。
[0108]
该种实施方式可针对上述实施例提供的为数据处理样本生成预设位数的编码的第二种实现方式。
[0109]
通过将完整数据集合划分为至少一个编码集合，其中，属于同一编码集合中的所有数据处理样本对应的编码相等，实现了将相近的数据处理样本划分到同一个编码集合中，后续为缺失数据集合中的每一个数据处理样本匹配对应的目标编码集合的目的是，为缺失数据集合中的每一个数据处理样本查找其最接近的编码集合，即缺失数据集合中的数据处理样本与其最接近的编码集合中的数据处理样本包括的属性值很接近，那么，在后续根据目标编码集合数据处理样本的属性值，填补数据处理样本的特征属性所缺失的属性值，能够有效地提高填补的属性值的准确性。
[0110]
在本发明一个实施例中，为数据处理样本生成预设位数的编码可包括：根据数据处理样本中每一个特征属性的属性值，为每一个特征属性生成预设位数的第一签名值，其中，第一签名值中的每一位值属于预设数值范围内的值；根据特征属性对应的预设权重和每一个特征属性对应的第一签名值，计算数据处理样本对应的编码。
[0111]
其中，预设数值范围可以为[-1，1]。通过该预设数值范围的限定，避免单一特征属性影响过大的情况，均衡各个特征属性。
[0112]
其中，生成预设位数的第一签名值可以采用哈希算法实现。比如，特征属性为服务时长，该服务时长对应的属性值为a，通过哈希算法将该属性值a转换为预设位数的签名值(比如，0001)。
[0113]
比如，利用数据处理样本中的特征属性a、b、c以及e，计算数据处理样本的编码。其中，每一个特征属性对应的签名值可为：a
→
0，0，0，1；b
→
0，0，1，0；c
→
0，0，1，1；e
→
0，1，0，1；比如，特征属性对应的预设权重可为，特征属性a对应的权重为1；特征属性b对应的权重为3；特征属性c对应的权重为1；特征属性d对应的权重为3；相应地，计算数据处理样本的编码的具体过程：每一个特征属性对应的数值中的每一位乘以权重得到每一个特征属性对应的签名值的加权结果，将各个特征属性的加权结果中相同位上的数值加和得到编码的对应位上的数值；各个特征属性的加权结果中相同位上的数值加和是指，特征属性a的加权结果中的第一位的数值、特征属性b的加权结果中的第一位的数值、特征属性c的加权结果中的第一位的数值以及特征属性e的加权结果中的第一位的数值之间相加，得到的结果为编码中的第一位数值；特征属性a的加权结果中的第二位的数值、特征属性b的加权结果中的第二位的数值、特征属性c的加权结果中的第二位的数值以及特征属性e的加权结果中的第二位的数值之间相加，得到的结果为编码中的第二位数值；依次类推，特征属性a的加权结果中的第四位(最后一位)的数值、特征属性b的加权结果中的第四位(最后一位)的数值、特征属性c的加权结果中的第四位(最后一位)的数值以及特征属性e的加权结果中的第四位(最
后一位)的数值之间相加，得到的结果为编码中的第四位(最后一位)数值。以一个具体实例说明，具体如下所示：
[0114][0115]
在本发明一个实施例中，如图3所示，为数据处理样本生成预设位数的编码可包括如下步骤：
[0116]
s301：根据数据处理样本中每一个特征属性的属性值，为每一个特征属性生成预设位数的第二签名值；
[0117]
该生成预设位数的第二签名值可以采用哈希算法实现。比如，特征属性为服务时长，该服务时长对应的属性值为a，通过哈希算法将该属性值a转换为预设位数的签名值(比如，0001)。
[0118]
s302：根据预设的置换策略，对第二签名值中的每一位数值进行数值置换；
[0119]
其中，该置换策略可包括：将数值零置换为第一值，将非零的数值置换第二值，该第一值和第二值可为用户设定。比如，第一值为-1，第二值为1，上述属性值a转换出的签名值0001，通过该步骤，分别对第一位0，第二位0，第三位0以及第四位1进行数值置换，置换的结果为：-1，-1，-1，1。
[0120]
s303：根据特征属性对应的预设权重和每一个特征属性对应的数值置换后的结果，计算数据处理样本的编码。
[0121]
比如，利用数据处理样本中的特征属性a、b、c以及e，计算数据处理样本的编码。其中，通过步骤s301得到的每一个特征属性对应的签名值可为：a
→
0，0，0，1；b
→
0，0，1，0；c
→
0，0，1，1；e
→
0，1，0，1；比如，特征属性对应的预设权重可为，特征属性a对应的权重为1；特征属性b对应的权重为3；特征属性c对应的权重为1；特征属性d对应的权重为3；相应地，计算数据处理样本的编码的具体过程：每一个特征属性对应的数值置换后的结果中的每一位乘以权重得每一个特征属性对应的签名值的加权结果，将各个特征属性的加权结果中相同位上的数值加和得到编码的对应位上的数值；比如，特征属性a对应的数值置换后的结果(-1，-1，-1，1)对应的加入权重结果为(-1，-1，-1，1)；特征属性b对应的数值置换后的结果(-1，-1，1，-1)对应的加入权重结果为(-3，-3，3，-3)；特征属性c对应的数值置换后的结果(-1，-1，1，1)对应的加入权重结果为(-1，-1，1，1)；特征属性e对应的数值置换后的结果(-1，1，-1，1)对应的加入权重结果为(-3，3，-3，3)。各个特征属性的加权结果中相同位上的数值加和是指，特征属性a的加权结果中的第一位的数值、特征属性b的加权结果中的第一位的数值、特征属性c的加权结果中的第一位的数值以及特征属性e的加权结果中的第一位的数值之间相加，得到的结果为编码中的第一位数值；特征属性a的加权结果中的第二位的数值、特征属性b的加权结果中的第二位的数值、特征属性c的加权结果中的第二位的数值以及特征属性e的加权结果中的第二位的数值之间相加，得到的结果为编码中的第二位数值；依次类推，特征属性a的加权结果中的第四位(最后一位)的数值、特征属性b的加权结果中的第四位(最后一位)的数值、特征属性c的加权结果中的第四位(最后一位)的数值以及特
征属性e的加权结果中的第四位(最后一位)的数值之间相加，得到的结果为编码中的第四位(最后一位)数值。以一个具体实例说明上述步骤s301至步骤s303的实现方式，具体如下所示：
[0122][0123][0124]
通过上述将属性值转换为对应的编码的过程，能够使相近的数据处理样本具有相同的编码，使编码集合划分比较简便。
[0125]
在本发明实施例中，如图4所示，在利用多个特征属性对应的属性值训练等级模型步骤之前可进一步包括如下步骤：
[0126]
s401：基于处理过属性值的数据处理样本，计算每一个特征属性对应的信息增益；
[0127]
s402：根据每一个特征属性对应的信息增益，选出多个目标特征属性。
[0128]
相应地，在上述实施例基础上，利用多个特征属性对应的属性值训练等级模型的步骤可包括：利用多个目标特征属性对应的属性值训练分类模型。
[0129]
通过选择影响比较大的目标特征属性能够有效地减少训练等级模型的资源占用，在保证得到的任务等级模型的准确性的同时，降低模型构建成本。
[0130]
其中，计算每一个特征属性对应的信息增益的步骤可包括：针对每一个特征属性，执行：利用特征属性对应的属性值的概率，计算第一信息熵；根据特征属性对应的属性值，对数据处理样本进行分类；根据分类的结果中每一个等级所占的比例和特征属性对应的属性值的概率，计算第二信息熵；利用第一信息熵和第二信息熵，计算特征属性对应的信息增益。
[0131]
其中，可通过下述计算公式(1)，计算第一信息熵；
[0132][0133]
其中，h
sj
表征第j个特征属性对应的第一信息熵；p
ij
表征第j个特征属性对应的第i个属性值的概率；n表征第j个特征属性对应的属性值的个数。
[0134]
其中，可通过下述计算公式(2)，计算第二信息熵；
[0135][0136]
其中，h
sj
′
表征第j个特征属性对应的第二信息熵；k
g
表征分类的结果中第g个等级中第j个特征属性的属性值所占的比例；p
ijg
第g个等级中第j个特征属性对应的第i个属性值的概率；n
g
表征第g个等级中第j个特征属性对应的属性值的个数；m表征分类的个数。
[0137]
其中，第g个等级所占的比例是指，第g个等级中某一特征属性(如：第j个特征属性)的属性值(如第i个属性值)的个数占第j个特征属性对应的所有属性值个数(即n)的比
例比如，第g个等级中某一特征属性对应的属性值的个数为40个，该特征属性对应的所有属性值个数为100个(即n＝100)，则对于该特征属性来说，第g个等级所占的比例为0.4，即k
g
＝0.4。
[0138]
相应地，利用下述计算公式(3)，计算特征属性对应的信息增益。
[0139]
计算公式(3)：
[0140]
h
j
＝h
sj-h
sj
′ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0141]
其中，h
j
表征第j个特征属性对应的信息增益。
[0142]
在本发明一个实施例中，多个目标特征属性可包括：执行数据处理任务的服务时长、执行数据处理任务所需的递归子任务数量以及执行数据处理任务需的数据仓库模型的使用次数中的任意两个或三个。如图5所示，得到的一种任务等级模型可包括执行数据处理任务的服务时长、执行数据处理任务所需的递归子任务数量以及执行任务所需的数据仓库模型的使用次数。其中，数量高、数量低以及数量中等代表递归子任务数据量的属性值(在使用过程中还可将这些属性值数值化，即转换为对应的数值，比如，数量高对应2，数量低对应0，数量中等对应1)；a、b、c、d代表服务时长的属性值；高、中、低代表使用次数的属性值(在使用过程中还可将这些属性值数值化，即转换为对应的数值，比如，高对应10，低对应-1，中对应5)；l1、l2以及l3代表数据处理任务等级，其中，l1的处理优先级高于l2，l2的处理优先级高于l3。
[0143]
基于准确性较高的任务等级模型确定数据处理任务的等级，能够使数据处理任务的等级确定比较准确，从而更好地管理数据仓库中的各种等级的数据处理任务。
[0144]
比如，基于图5示出的部分任务等级模型对待划分任务进行划分，一个新数据处理任务其递归子任务数据量的属性值为数量低、使用次数的属性值为高，则该新数据处理任务对应的任务等级为l1。
[0145]
在本发明实施例中，确定新数据处理任务的处理策略可以有两种具体实现方式。
[0146]
实现方式一：
[0147]
数据处理的方法可进一步包括：设置数据处理顺序表，数据处理顺序表用于按照处理先后顺序存储数据处理任务；相应地，如图6所示，确定新数据处理任务的处理策略可包括如下步骤：
[0148]
s601：根据新数据处理任务所具有的等级，将新数据处理任务插入数据处理顺序表；
[0149]
该步骤具体实现方式可以有两种：
[0150]
第一种：根据新数据处理任务所具有的等级，在数据处理顺序表中查找具有该等级的其他数据处理任务所在的区域，将该新数据处理任务添加到查找到的区域中的最后位置；
[0151]
第二种：根据新数据处理任务所具有的等级，在数据处理顺序表中查找具有该等级的其他数据处理任务所在的区域，在该查找到的区域中，如果包括多个其他数据处理任务，则确定相邻的两个其他数据处理任务，该相邻的两个其他数据处理任务中的一个的处理绝限早于该新数据处理任务的处理绝限，另一个的处理绝限晚于该新数据处理任务的处理绝限，将新数据处理任务插入到该相邻的两个其他数据处理任务之间；如果包括一个其
他数据处理任务，则比对该新数据处理任务的处理绝限和其他数据处理任务的处理绝限，比对结果为新数据处理任务的处理绝限早于其他数据处理任务的处理绝限，则将该新数据处理任务插入其他数据处理任务之前；比对结果为新数据处理任务的处理绝限晚于其他数据处理任务的处理绝限，将该新数据处理任务插入其他数据处理任务之后。
[0152]
s602：根据数据处理顺序表的存储顺序，处理数据处理顺序表存储的新数据处理任务。
[0153]
实现方式二：
[0154]
数据处理的方法可进一步包括：为每一个所述等级分配对应的监控方案，该监控方案包括不同等级对应的监控时间间隔；相应地，如图7所示，确定新数据处理任务的处理策略可包括如下步骤：
[0155]
s701：根据监控方案包括不同等级对应的监控时间间隔，对新数据处理任务进行监控；
[0156]
该步骤具体实施方式：根据不同等级对应的监控时间间隔，对新数据处理任务进行监控。
[0157]
s702：当监控的结果指示新数据处理任务达到处理时限和/或新数据处理任务对应的上一等级的数据处理任务处理完成，处理新数据处理任务。
[0158]
如图8所示，本发明实施例提供一种数据处理的装置800，该任务数据处理的装置800可包括：采集单元801、填补单元802、训练单元803以及处理单元804，其中，
[0159]
采集单元801，用于采集多个数据处理样本，数据处理样本具有多个特征属性和对应的等级，其中，等级指示了数据处理样本的处理优先级；
[0160]
填补单元802，用于针对采集单元801采集到的数据处理样本，判断其每一个特征属性的属性值是否缺失，如果是，则为特征属性填补对应的属性值；
[0161]
训练单元803，用于利用采集单元801采集到的以及填补单元802得到的具有完整属性值和对应的等级的数据处理样本训练分类模型，得到任务等级模型；
[0162]
处理单元804，用于利用训练单元803得到任务等级模型，确定新数据处理任务的等级，根据新数据处理任务的等级，确定新数据处理任务的处理策略。
[0163]
在本发明实施例中，如图8所示，数据处理的装置800可进一步包括：划分单元805，其中，
[0164]
划分单元805，用于将多个数据处理样本划分到完整数据集合和缺失数据集合，其中，划分到完整数据集合中的数据处理样本具有完整的属性值，划分到缺失数据集合中的数据处理样本具有缺失的属性值；
[0165]
填补单元802，用于针对划分单元804划分出的缺失数据集合中的每一个数据处理样本对应的每一个数据处理样本，执行判断特征属性对应的属性值是否缺失的步骤。
[0166]
在本发明实施例中，如图8所示，数据处理的装置800可进一步包括：转换单元806，其中，
[0167]
转换单元806，用于根据数据处理样本的多个特征属性对应的属性值，为数据处理样本生成预设位数的编码；根据数据处理样本的编码，将完整数据集合划分为至少一个编码集合，其中，属于同一编码集合中的所有数据处理样本对应的编码相等；
[0168]
填补单元802，进一步用于根据缺失数据集合中数据处理样本对应的编码，为缺失
数据集合中数据处理样本匹配对应的目标编码集合；根据目标编码集合对应的数据处理样本的属性值，填补缺失数据集合中数据处理样本所缺失的属性值。
[0169]
在本发明实施例中，转换单元806，进一步用于根据数据处理样本中每一个特征属性的属性值，为每一个特征属性生成预设位数的第一签名值，其中，第一签名值中的每一位值属于预设数值范围内的值；根据特征属性对应的预设权重和每一个特征属性对应的第一签名值，计算数据处理样本对应的编码。
[0170]
在本发明实施例中，转换单元806，进一步用于根据数据处理样本中每一个特征属性的属性值，为每一个特征属性生成预设位数的第二签名值；根据预设的置换策略，对第二签名值中的每一位数值进行数值置换；根据特征属性对应的预设权重和每一个特征属性对应的数值置换后的结果，计算数据处理样本对应的编码。
[0171]
在本发明实施例中，转换单元806中预先设置的置换策略可包括：将数值零置换为第一值，将非零的数值置换为第二值。
[0172]
在本发明实施例中，训练单元803，进一步用于基于处理过属性值的数据处理样本，计算每一个特征属性的信息增益；根据每一个特征属性的信息增益，选出多个目标特征属性；利用具有完整的目标特征属性的属性值的数据处理样本训练分类模型。
[0173]
在本发明实施例中，训练单元803，进一步用于针对每一个特征属性，利用多个数据处理样本中特征属性对应的属性值的概率，计算第一信息熵；根据特征属性对应的属性值，对数据处理样本进行分类；根据分类的结果中每一个等级所占的比例和特征属性对应的属性值的概率，计算第二信息熵；利用第一信息熵和第二信息熵，计算特征属性对应的信息增益。
[0174]
在本发明实施例中，多个目标特征属性可包括：执行数据处理任务的服务时长、执行数据处理任务所需的递归子任务数量以及执行数据处理任务所需的数据仓库模型的使用次数中的任意两个或三个。
[0175]
在本发明实施例中，处理单元804，进一步用于设置数据处理顺序表，数据处理顺序表用于按照处理先后顺序存储数据处理任务；根据新数据处理任务所具有的等级，将新数据处理任务插入数据处理顺序表；根据数据处理顺序表的存储顺序，处理数据处理顺序表存储的新数据处理任务。
[0176]
在本发明实施例中，处理单元804，进一步用于为每一个等级分配对应的监控方案，监控方案包括不同等级对应的监控时间间隔；根据不同等级对应的监控时间间隔，对新数据处理任务进行监控；当监控的结果指示新数据处理任务达到处理时限和/或新数据处理任务对应的上一等级的数据处理任务处理完成，处理新数据处理任务。
[0177]
图9示出了可以应用本发明实施例的数据处理的方法或数据处理的装置的示例性系统架构900。
[0178]
如图9所示，系统架构900可以包括终端设备901、902、903，网络904、服务器905以及数据仓库906。网络904用以在终端设备901、902、903和服务器905之间、服务器905和数据仓库之间提供通信链路的介质。网络904可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。
[0179]
用户可以使用终端设备901、902、903通过网络904与服务器905交互，终端设备901、902、903发送数据处理样本给服务器905或者，服务器905将任务等级模型发送给终端
设备901、902、903，以供用户查阅该任务等级模型的结构等。
[0180]
终端设备901、902、903可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。以供用户人工查验数据处理样本。
[0181]
数据仓库906通过网络904与服务器905交互，数据仓库906接收服务器905发送的任务等级模型，以对自身的数据处理任务进行等级划分或者，数据仓库906发送数据处理任务的信息给服务器905，服务器利用构建出的任务等级模型为数据处理任务分配对应的等级，并将等级发送给数据仓库906，以使数据仓库906对数据处理任务对应的等级进行标记等。
[0182]
服务器905可以是提供各种服务的服务器，例如基于数据处理样本构建任务等级模型、基于任务等级模型对数据处理任务进行等级划分等。管理服务器可以对数据处理样本中的多个特征属性进行分析等处理，并将处理结果(例如任务等级模型或等级
--
仅为示例)反馈给数据仓库906。
[0183]
需要说明的是，本发明实施例所提供的数据处理的方法一般由服务器905执行，相应地，数据处理的装置一般设置于服务器905中。
[0184]
应该理解，图9中的终端设备、网络、服务器和数据仓库的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络、服务器和数据仓库。
[0185]
下面参考图10，其示出了适于用来实现本发明实施例的服务器的计算机系统1000的结构示意图。图10示出的服务器仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。
[0186]
如图10所示，计算机系统1000包括中央处理单元(cpu)1001，其可以根据存储在只读存储器(rom)1002中的程序或者从存储部分1008加载到随机访问存储器(ram)1003中的程序而执行各种适当的动作和处理。在ram 1003中，还存储有系统1000操作所需的各种程序和数据。cpu 1001、rom 1002以及ram 1003通过总线1004彼此相连。输入/输出(i/o)接口1005也连接至总线1004。
[0187]
以下部件连接至i/o接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至i/o接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。
[0188]
特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(cpu)1001执行时，执行本发明的系统中限定的上述功能。
[0189]
需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不
限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、rf等等，或者上述的任意合适的组合。
[0190]
附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0191]
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括采集单元、填补单元、训练单元以及处理单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，采集单元还可以被描述为“采集多个数据处理样本的单元”。
[0192]
作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：采集多个数据处理样本，数据处理样本具有多个特征属性和对应的等级，其中，等级指示了数据处理样本的处理优先级；针对数据处理样本，判断其具有的每一个特征属性的属性值是否缺失，如果是，则为特征属性填补对应的属性值；利用具有完整属性值和对应的等级的数据处理样本训练分类模型，得到任务等级模型；利用任务等级模型，确定新数据处理任务的等级；根据新数据处理任务的等级，确定新数据处理任务的处理策略。
[0193]
根据本发明实施例的技术方案，基于训练出的任务等级模型可借助计算资源对数据处理任务进行等级划分，与人工划分相比，本发明实施例提供的方案能够有效地提高数据处理任务的等级划分效率。另外，由于训练分类模型所使用的数据处理样本的特征属性的属性值的完整性，将直接影响训练出的任务等级模型的准确性，本技术方案对特征属性
缺失的属性值进行填补，保证了训练分类模型所使用的数据处理样本具有完整属性值，从而训练出比较准确的任务等级模型，从而有效地提高数据处理任务的等级的准确性，那么，按照等级，确定数据处理任务的处理策略，使数据处理规划比较合理，从而提高用户体验。
[0194]
上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：房源推荐方法及装置、计算机程序产品、存储介质与流程

数据处理的方法和装置与流程

相关文献

最热文献