数据处理方法、装置、电子设备和存储介质与流程

2022-03-09 01:56:08 来源：中国专利 TAG：

1.本公开涉及计算机技术领域，尤其涉及设备应用领域中的数据处理方法、装置、电子设备和存储介质。

背景技术：

2.目前，在建模场景中，使用机器学习和深度学习的模型，数据的稳定性是需要考虑到的因素，不仅需要最大限度提高离线建模效果，还要保证模型的上线效果。

技术实现要素：

3.本公开提供了一种用于数据处理的方法、装置、设备以及存储介质。
4.根据本公开的一方面，提供了一种数据处理的方法。该方法包括：对第一原始数据集进行分箱处理，得到多个分箱结果，其中，每个分箱结果用于表示第一原始数据集所对应的离散数据；基于多个分箱结果确定第一原始数据集中每个数据的目标指标，其中，每个数据的目标指标用于衡量对应的数据的非稳定性；基于每个数据的目标指标对第一原始数据集进行筛选，得到目标数据集。
5.根据本公开的另一方面，还提供了另一种数据处理装置。该装置包括：分箱单元，用于对第一原始数据集进行分箱处理，得到多个分箱结果，其中，每个分箱结果用于表示第一原始数据集所对应的离散数据；确定单元，用于基于多个分箱结果确定第一原始数据集中每个数据的目标指标，其中，每个数据的目标指标用于衡量对应的数据的非稳定性；筛选单元，用于基于每个数据的目标指标对第一原始数据集进行筛选，得到目标数据集。
6.根据本公开的另一方面，还提供了一种电子设备。该电子设备可以包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开实施例的数据处理方法。
7.根据本公开的另一方面，还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开实施例的数据处理方法。
8.根据本公开的另一方面，还提供了一种计算机程序产品，可以包括计算机程序，计算机程序在被处理器执行时实现本公开实施例的数据处理方法。
9.应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
10.附图用于更好地理解本方案，不构成对本公开的限定。其中：
11.图1是根据本公开实施例的一种数据处理方法的流程图；
12.图2是根据本公开实施例中的不稳定性特征的分布变化的示意图；
13.图3是根据本公开实施例的一种特征筛选验证的流程图；
14.图4是根据本公开实施例的一种数据集的切分方式的示意图；
15.图5是根据本公开实施例的一种特征筛选方法在已有的一个数据集上表现的示意图；
16.图6是根据本公开实施例的一种数据处理装置的示意图；
17.图7是根据本公开实施例的一种数据处理的方法的电子设备的框图。
具体实施方式
18.以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
19.图1是根据本公开实施例的一种数据处理方法的流程图。如图1所示，该方法可以包括以下步骤：
20.步骤s102，对第一原始数据集进行分箱处理，得到多个分箱结果，其中，每个分箱结果用于表示第一原始数据集所对应的离散数据。
21.在本公开上述步骤s102提供的技术方案中，第一原始数据集可以为原始数据特征，可以包括类别特征和连续特征，其中，类别特征可以为性别、学历等，连续特征可以为收入等。
22.可选地，分箱处理可以为利用等距、等频、以及依据特征重要度(xgboost)等树模型训练过程中的特征分裂值作为分箱依据，进行分箱处理。其中，针对不同信贷场景的数据分布差异，多种分箱方式都会进行尝试，最终对比提升效果，取其最优。
23.可选地，分箱处理作为一种常见的连续特征离散化的方式，可以为将连续特征、属性或变量转换或划分为离散数据，因此，每个分箱结果用于表示第一原始数据集所对应的离散数据。需要说明的是，离散特征无需分箱，离散特征也即类别特征，比如，学历有高中、本科、研究生，那么这三个取值其实就是三个分箱。
24.可选地，根据实际需求，选取提升效果最优的分箱方式，从而对第一原始数据集进行分箱处理，得到第一原始数据集所对应的离散数据。
25.步骤s104，基于多个分箱结果确定第一原始数据集中每个数据的目标指标，其中，每个数据的目标指标用于衡量对应的数据的非稳定性。
26.在本公开上述步骤s104提供的技术方案中，目标指标可以为特征的跨时间不稳定性指标，又可以称为特征波动指标，用于衡量对应的数据的非稳定性，可以用讯息散度(kullback-leibler divergence，简称为kl)计算。
27.可选地，利用讯息散度计算每个分箱结果的目标指标，从而得到第一原始数据集中每个数据的非稳定性。
28.步骤s106，基于每个数据的目标指标对第一原始数据集进行筛选，得到目标数据集。
29.在本公开上述步骤s106提供的技术方案中，可以按照经验设定要移除的不稳定特征值，从而实现对于第一原始数据集的筛选，移除稳定性较低的第一原始数据集的分箱结果，得到稳定性较高的目标数据集。
30.举例而言，将每个分箱结果的目标指标进行从高到低的排序，根据业务经验分别移除前10、20、30和40个，从而完成对第一原始数据集的筛选，得到目标数据集。
31.通过上述步骤s102至步骤s106，对第一原始数据集进行分箱处理，得到多个分箱结果，其中，每个分箱结果用于表示第一原始数据集所对应的离散数据；基于多个分箱结果确定第一原始数据集中每个数据的目标指标，其中，每个数据的目标指标用于衡量对应的数据的非稳定性；基于每个数据的目标指标对第一原始数据集进行筛选，得到目标数据集。也就是说，本公开通过对第一原始数据集进行分箱处理得到多个分箱结果，基于多个分箱结果确定第一原始数据集中每个数据的目标指标，基于每个数据的目标指标对第一原始数据集进行筛选，从而筛选掉不稳定的特征，进而达到了有效对不稳定特征进行筛选的技术效果，解决了无法有效对不稳定特征进行筛选的技术问题。
32.下面对该实施例的上述方法进行进一步地详细介绍。
33.作为一种可选的实施方式，该方法还包括：基于多个分箱结果确定第一原始数据集中每个数据的目标指标包括：确定多个分箱结果之间的差异信息，其中，差异信息用于表示第一原始数据集的波动程度；基于差异信息确定每个数据的目标指标。
34.在该实施例中，差异信息可以为特征的分箱之间正样本率(pos_rate)的单调性差异，其中，分布之间的差异可以用来衡量特征波动大小；正样本率用于表示多个分箱结果的特征的分布。
35.举例而言，计算多个分箱结果的正样本率，将计算的正样本率作为分箱结果特征的分布，通过计算多个分箱结果之间的正样本率的差异来衡量特征波动的大小，通过讯息散度计算得到每个数据的目标指标。
36.作为一种可选的实施方式，该方法还包括：确定多个分箱结果之间的差异信息包括：基于每个分箱结果的正样本率，确定差异信息，其中，正样本率为每个分箱结果中的正样本数占每个分箱结果中的总样本数的比例。
37.在该实施例中，正样本率为每个分箱结果中的正样本数占每个分箱结果中的总样本数的比例。
38.可选地，利用改进的加权的讯息散度计算，得到每个分箱结果的正样本率，通过计算多个分箱结果之间的正样本率的差异来，确定差异信息，利用确定差异信息，衡量特征波动的大小。
39.需要说明的是，由于传统的讯息散度计算是衡量两个离散概率分布，每个离散区间的权重都是相同，但是第一原始数据集进行分箱(等频分箱除外)之后，有些箱体的样本数量很小，此时计算出来的正样本率(badrate)不具有统计意义，因此，本公开对该计算过程进行改进，用箱体的样本占总样本的比例作为该箱体的权重，再进行讯息散度的计算，从而弱化箱体样本太少带来的影响，可以为：
[0040][0041]
作为一种可选的实施方式，该方法还包括：差异信息包括多个分箱结果的正样本率在不同时间区间对应的数据集之间的对比信息。
[0042]
可选地，对某个特征进行分箱后的正样本率分布在不同时间区间的数据集的差异对比，从而得到带差异信息。
[0043]
作为一种可选的实施方式，该方法还包括：确定每个分箱结果的目标权重，其中，目标权重为每个分箱结果中的样本数占多个分箱结果中的样本数的比例；确定多个分箱结果之间的差异信息包括：确定每个分箱结果中的样本数小于第一阈值，则基于每个分箱结果的目标权重确定差异信息。
[0044]
在该实施例中，目标权重可以为每个分箱结果中的样本数占多个分箱结果中的总样本数的比例。
[0045]
可选地，根据实际情况，设定第一阈值，若每个分箱结果中的样本数小于等于第一阈值，则基于每个分箱结果的目标权重确定差异信息，从而弱化箱体样本太少带来的影响；若每个分箱结果中的样本数大于第一阈值，则使用传统的讯息散度来确定差异信息。
[0046]
作为一种可选的实施方式，该方法还包括：将第二原始数据集中重要度大于第二阈值的数据，确定为第一原始数据集中的数据。
[0047]
在该实施例中，第二原始数据集可以为全量特征，可以为大数据平台根据用户基本信息和网络行为等加工的特征，全量特征的维度一般较大，通常有几十万维的程度，不能对所有特征计算稳定性，因此设定第二阈值用来进行数据的筛选，第二阈值可以为根据实际需求提前设定的数据，可以用带有特征重要度的模型先预训练，得到第二原始数据集中重要度大于第二阈值的数据，即特征重要度排序靠前的几百个特征，将第二原始数据集中重要度大于第二阈值的数据，作为第一原始数据集中的数据。其中，第一原始数据集又可以称为候选集合，可以用feature_set_all表示。
[0048]
作为一种可选的实施方式，该方法还包括：基于每个数据的目标指标对第一原始数据集进行筛选，得到目标数据集包括：对每个数据的目标指标进行排序，得到多个目标指标；在第一原始数据集中，筛除掉位于多个目标指标中的目标排序位的目标指标对应的数据，得到目标数据集。
[0049]
可选地，对第一原始数据集中每个根据特征类型进行等频、等距、梯度提升算法分裂值分箱后计算得到多个目标指标，将多个目标指标从高到低排序，筛除掉位于多个目标指标中的目标排序位的目标指标对应的数据，从而得到目标数据集，其中，目标数据集可以用feature_set_rm_x表示，x的含义指移出稳定值最高的前x个，x是一个整数值，可以为根据业务经验设定的整数值，也可以为用户根基自己需要设定的整数值。
[0050]
举例而言，根据每个特征的目标指标进行从高到低排序，可以根据业务经验分别移除top-10、20、30、40的特征后，作为新的目标数据集feature_set_rm_x，x取10，20，30，40，然后用新的特征集合重新训练，其中，top-x的含义是前x个。
[0051]
作为一种可选的实施方式，该方法还包括：基于目标数据中的训练集训练得到目标模型；基于目标数据中的验证集调整目标模型的模型参数；基于目标数据中的测试集测试目标模型的性能。
[0052]
在该实施列中，训练集可以用train表示，用于训练目标模型；验证集可以用valid表示，用于调整目标模型的模型参数；测试集可以用test表示，用于测试目标模型的性能。
[0053]
举例而言，使用训练集、验证集和测试集反复训练，得到训练到最佳的目标模型，之后可以利用训练到最佳的目标模型输出特征重要度，取重要度高的特征对这些特征的不稳定指标进行计算。
[0054]
作为一种可选的实施方式，该方法还包括：第一原始数据集为用于得到目标模型
的原始特征值。
[0055]
在该实施例中，第一原始数据集可以包括训练集、验证集和测试集，通过对第一原始数据集进行切分，得到训练集、验证集和测试集，基于训练集、验证集和测试集得到目标模型的原始特征值。
[0056]
举例而言，对第一原始数据集进行了切分，生成三个数据对应的建立清单(id_set_list)，根据建立清单，将第一原始数据集分成了训练集、验证集和测试集。
[0057]
下面结合优选的实施例对本公开实施例的上述技术方案进行进一步地举例介绍。
[0058]
近些年来，在金融风控的建模场景中，习惯性的使用各种机器学习、深度学习的模型，代替传统的评分卡对用户信用风险进行评估，模型和特征的稳定性是金融风控场景中必须考虑的因素，不仅需要最大限度提高离线建模效果，还要保证模型的上线效果。因此，从特征稳定性的角度，需要一些规则或者方法过滤掉在跨时间维度上不稳定的特征，以达到保证离线指标不下降&线上效果稳定的目的。
[0059]
常用评估稳定性的方式主要是群体稳定性指标(population stability index，简称为psi)，是指每个样本的模型评分在训练集(train_set)和跨时间测试集(oot_set)分布的差异，这是一种衡量模型的稳定性的指标，以及特征层面的稳定性指标(characteristic stability index，简称为csi)，用来衡量特征层面的跨时间变化。上述的两种方式都是无监督的量化。
[0060]
图2是根据本公开实施例中的一种不稳定性特征的分布变化的示意图，如图2所示。不稳定性特征主要分为几类：(1)在训练数据集中覆盖率较高，在测试集中该特征覆盖率降低；(2)在训练集中，特征分箱正样本率呈现某种单调性，但在测试集中，该特征的单调性改变，比如图2所示，正样本率在最左边明显单调递增，但在右边两个数据集上单调性减弱。
[0061]
图2通过对某个特征进行分箱后的pos_rate(正样本率)分布在不同时间区间的数据集的差异对比，能直观看出该特征的分箱之间正样本率的单调性具有差异，不稳定的特征可以理解为噪声，即使该特征在训练集中具有很强的区分度，也会给模型的训练带来干扰。
[0062]
因此，本公开提出一种新的特征不稳定性量化方法来筛选特征，又称信贷风控联合建模，本公开包括：
[0063]
(1)计算分布差异时对特征的分箱方式：针对不同信贷场景的数据分布差异，从常用的等距、等频、以及依据xgboost模型中选择提升效果最优的训练模型，将模型训练过程中的特征分裂值作为分箱，同时考虑将缺失值单独作为一个分箱进行计算；
[0064]
(2)经过(1)中的分箱后，对每个分箱中计算正样本率(pos_rate)作为该特征的分布，通过计算分布之间的差异来衡量特征波动大小的方式，包括kl散度，以及改进的加权的kl散度计算特征量化指标；
[0065]
(3)根据计算出来的特征量化指标制定筛选规则；
[0066]
从而实现了对特征进行不稳定量化指标计算，并筛除掉不稳定特征，从而提高模型在跨时间数据集的预测效果。
[0067]
本公开的核心部分包含分箱方式和分布差异量化计算和数据的筛选，可以为：
[0068]
一，分箱方式：对特征值分箱很大程度影响分布的计算，在现有的特征中，特征的
统计分布规律有正态分布，长尾分布等，长尾分布的连续性特征对于分箱边界非常不均匀，因此需要结合多种分箱方式进行实验，离散特征无需进行分箱；其中，特征可以分为类别特征和连续特征，类别特征比如性别、学历；连续特征比如收入等，特征值分箱指的是选取某一特征，然后设定不同的范围，从而实现对上述特征的分箱；需要注意的是，离散特征、也叫类别特征，比如，学历有高中、本科、研究生，那么这三个取值其实就是三个分箱，因此，离散特征无需进行分箱。
[0069]
二，分布差异量化计算：根据特定分箱的正样本率计算分布差异用到讯息散度，但是传统的讯息散度的计算是衡量两个离散概率分布，每个离散区间的权重都是相同，但是通过(一)中进行分箱(等频分箱除外)之后，有些箱体的样本数量很小，计算出来的正样本率(badrate)不具有统计意义，因此，用箱体的样本占总样本的比例作为该箱体的权重，再进行讯息散度的计算，这样的处理方式能够弱化箱体样本太少带来的影响，其中，讯息散度计算公式如下：
[0070][0071]
三，数据的筛选。
[0072]
第一步，利用全量特征进行模型训练，调参模型至当前特征的最佳，将xgboost的入模特征作为特征不稳定计算的候选集合(feature_set_all)，其中，全量特征是指大数据平台根据用户基本信息和网络行为等加工的特征，全量特征的维度一般较大，通常有几十万维的程度，因此不能对所有特征计算稳定性，做法是用xgboost等带有特征重要度的模型先预训练，得到特征重要度排序靠前的几百个特征，然后对这几百个特征进行不稳定性计算以及筛除。
[0073]
第二步，对特征不稳定计算的候选集合中每个根据特征类型进行等频、等距、xgboost分裂值分箱后计算不稳定指标。
[0074]
第三步，根据每个特征的不稳定值进行从高到低排序，根据业务经验分别移除不稳定值最高的前10、20、30、40的特征后，作为新的特征不稳定计算的候选集合(feature_set_rm_x)，其中，x取10，20，30，40，然后用新的特征集合重新训练。
[0075]
第四步，对不同的筛除结果进行效果可视化对比，从中选取最佳筛选作为新的特征集合，其中，最佳筛选的准则是最终模型在跨时间测试数据集上的分类指标。
[0076]
下面对本公开作进一步介绍。
[0077]
如图3所示，图3是根据本公开实施例的一种特征筛选验证的流程图，本公开包括了数据切分、模型预训练、特征不稳定性计算、筛除特征以及指标评估五个部分。
[0078]
s301，输入原始数据集。
[0079]
利用大数据资料清单(gen_set_list.py)对原始数据集进行切分。
[0080]
s302，训练建立清单、验证建立清单和测试建立清单。
[0081]
利用大数据资料清单对原始数据集进行切分，生成了三个数据集中对应的建立清单(id_set_list)，根据中id_set_list分成了三部分数据集，即，跨时间测试建立清单集(out of time_set_list，简称为oot_set_list)、训练建立清单集(train_set_list)和测试建立清单集(test_set_list)。
[0082]
s304，输入原始数据集。
[0083]
利用跨时间测试建立清单集、训练建立清单集和测试建立清单集对原始数据进行切分。
[0084]
s305，生成训练集、验证集和测试集。
[0085]
利用跨时间测试建立清单集、训练建立清单集和测试建立清单集对原始数据进行切分，生成训练集、验证集和测试集。
[0086]
s306，特征重要性排序表(imp.file.csv)
[0087]
根据每个特征的不稳定值进行从高到低排序。
[0088]
s307，计算特征波动指标。
[0089]
模拟oot，计算特征的跨时间波动指标，其中，模拟oot是为了避免在计算特征不稳定性时，泄露了真实oot的信息，对最终模型在真实oot上的分类效果有干扰。波动指标是一个具体的数值，目前没有一个确定的阈值来判定超过多少不稳定，因此根据从大到小排序来筛除值最大的那些特征，特征波动指标衡量了特征的不稳定性，等价于不稳定性指标。
[0090]
s308，过滤规则。
[0091]
根据业务经验设定过滤规则。
[0092]
s309，多个待筛除特征表。
[0093]
根据设定的过滤规则确定多个待筛除特征表。
[0094]
s310，训练集、验证集和测试集的候选集合。
[0095]
将xgboost的入模特征作为特征不稳定计算，从而得到训练集的候选集合(train.libsvm)、验证集的候选集合(test.libsvm)和测试集的候选集合(oot.libsvm)。
[0096]
s311，获取新的特征集合。
[0097]
将训练集、验证集和测试集的候选集合中的待筛除特征列表进行筛除，得到新的特征集合。
[0098]
s312，输出的特征重要度取重要度高的特征。
[0099]
训练到最佳之后，利用模型输出的特征重要度取重要度高的特征对这些特征的不稳定指标计算。
[0100]
下面对数据集的切分方式进行具体介绍。图4是根据本公开实施例的一种数据集的切分方式的示意图，如图4所示。在筛除特征阶段因为需要计算跨时间的差异且不能用到未来的真实的跨时间测试集(oot_real)的信息，因此需要单独切分一个测试集来作为对比的数据集，其中，真实的跨时间测试集是用来最终测试模型分类效果的数据集。
[0101]
可选地，在训练评估阶段将训练集切分为8，测试集切分为2。
[0102]
图5是根据本公开实施例的一种特征筛选方法在已有的一个数据集上表现的示意图，如图5所示，控制过拟合的前提下模型区分度(kolmogorov-smirnov，简称为ks)提升大约1％，其中，模型区分度在金融风控里用的比较多，因为其计算方式和金融风控业务(通过尽量多的好客户，拒绝尽量多的坏客户)吻合，用于体现分类模型的分类能力。
[0103]
本公开，利用等距、等频、以及依据xgboost等树模型训练过程中的特征分裂值作为分箱依据，同时将缺失值单独作为一个分箱进行计算正样本率，得到每个原始数据特征在训练集和测试集上的分箱上的分布，利用改进的加权的kl散度计算该分布的差异，定义该差异指标为特征的跨时间不稳定性指标，根据该指标的排序从而制定筛选规则，筛除掉不稳定特征，进而实现提高模型在跨时间数据集的预测准确性的技术效果，解决模型在跨
时间数据集预测的准确性低的技术问题。
[0104]
本公开实施例还提供了一种用于执行图1所示实施例的数据处理方法的数据处理装置。
[0105]
图6是根据本公开实施例的一种数据处理装置的示意图。如图6所示，该数据处理装置60可以包括：分箱单元61、确定单元62和筛选单元63。
[0106]
分箱单元61，用于对第一原始数据集进行分箱处理，得到多个分箱结果，其中，每个分箱结果用于表示第一原始数据集所对应的离散数据。
[0107]
确定单元62，用于基于多个分箱结果确定第一原始数据集中每个数据的目标指标，其中，每个数据的目标指标用于衡量对应的数据的非稳定性。
[0108]
筛选单元63，用于基于每个数据的目标指标对第一原始数据集进行筛选，得到目标数据集。
[0109]
可选地，确定单元62包括：第一确定模块，用于基多个分箱结果确定第一原始数据集中每个数据的目标指标包括：确定多个分箱结果之间的差异信息，其中，差异信息用于表示第一原始数据集的波动程度。
[0110]
可选地，确定单元62包括：第二确定模块，用于确定多个分箱结果之间的差异信息包括：基于每个分箱结果的正样本率，确定差异信息，其中，正样本率为每个分箱结果中的正样本数占每个分箱结果中的总样本数的比例。
[0111]
可选地，分箱单元61包括：第一分箱模块，用于差异信息包括多个分箱结果的正样本率在不同时间区间对应的数据集之间的对比信息。
[0112]
可选地，确定单元62包括：第一确定模块，用于确定每个分箱结果的目标权重，其中，目标权重为每个分箱结果中的样本数占多个分箱结果中的样本数的比例；
[0113]
可选地，确定单元62包括：第二确定模块，用于确定多个分箱结果之间的差异信息包括：确定每个分箱结果中的样本数小于第一阈值，则基于每个分箱结果的目标权重确定差异信息。
[0114]
可选地，确定单元62包括：第三确定模块，用于将第二原始数据集中重要度大于第二阈值的数据，确定为第一原始数据集中的数据。
[0115]
可选地，筛选单元63包括：第一筛选单元，用于基于每个数据的目标指标对第一原始数据集进行筛选，得到目标数据集包括：对每个数据的目标指标进行排序，得到多个目标指标；在第一原始数据集中，筛除掉位于多个目标指标中的目标排序位的目标指标对应的数据，得到目标数据集。
[0116]
可选地，该装置还包括：处理单元，用于基于目标数据中的训练集训练得到目标模型；基于目标数据中的验证集调整目标模型的模型参数；基于目标数据中的测试集测试目标模型的性能。
[0117]
可选地，确定单元62包括：第四确定模块，用于第一原始数据集为用于得到目标模型的原始特征值。
[0118]
在该实施例的装置中，通过对第一原始数据集进行分箱处理得到多个分箱结果，基于多个分箱结果确定第一原始数据集中每个数据的目标指标，基于每个数据的目标指标对第一原始数据集进行筛选，从而筛选掉不稳定的特征，进而达到了有效对不稳定特征进行筛选的技术效果，解决了无法有效对不稳定特征进行筛选的技术问题。
[0119]
本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。
[0120]
根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
[0121]
本公开的实施例提供了一种电子设备，该电子设备可以包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开实施例的数据处理方法。
[0122]
可选地，上述电子设备还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。
[0123]
根据本公开的实施例，本公开还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开实施例的数据处理方法。
[0124]
可选地，在本实施例中，上述非易失性存储介质可以被设置为存储用于执行以下步骤的计算机程序：
[0125]
s1，对第一原始数据集进行分箱处理，得到多个分箱结果，其中，每个分箱结果用于表示第一原始数据集所对应的离散数据；
[0126]
s2，基于多个分箱结果确定第一原始数据集中每个数据的目标指标，其中，每个数据的目标指标用于衡量对应的数据的非稳定性；
[0127]
s3，基于每个数据的目标指标对第一原始数据集进行筛选，得到目标数据集。
[0128]
可选地，在本实施例中，上述非瞬时计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0129]
根据本公开的实施例，本公开还提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现以下步骤：
[0130]
s1，对第一原始数据集进行分箱处理，得到多个分箱结果，其中，每个分箱结果用于表示第一原始数据集所对应的离散数据；
[0131]
s2，基于多个分箱结果确定第一原始数据集中每个数据的目标指标，其中，每个数据的目标指标用于衡量对应的数据的非稳定性；
[0132]
s3，基于每个数据的目标指标对第一原始数据集进行筛选，得到目标数据集。
[0133]
图7是根据本公开实施例的一种数据处理的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0134]
如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(rom)702中
的计算机程序或者从存储单元708加载到随机访问存储器(ram)703中的计算机程序，来执行各种适当的动作和处理。在ram 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、rom702以及ram703通过总线704彼此相连。输入/输出(i/o)接口705也连接至总线704。
[0135]
设备700中的多个部件连接至i/o接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0136]
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如方法数据处理方法。例如，在一些实施例中，方法数据处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由rom 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到ram703并由计算单元701执行时，可以执行上文描述的数据处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行数据处理方法。
[0137]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、复杂可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0138]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0139]
在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0140]
为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0141]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)和互联网。
[0142]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。
[0143]
应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。
[0144]
上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：数据处理方法、装置、电子设备以及存储介质与流程

数据处理方法、装置、电子设备和存储介质与流程

相关文献

最热文献