一种数据处理方法、装置及设备与流程

2021-11-22 18:15:00 来源：中国专利 TAG：

1.本技术涉及数据处理技术领域，特别涉及一种数据处理方法、装置及设备。

背景技术：

2.随着计算机技术的飞速发展与大数据时代的到来，互联网信息技术已经广泛应用到社会的各行各业，并有力地推动这些行业的发展。例如，在普惠金融领域，大数据以及各种金融科技技术正在帮助人们预测各类风险，从而有效规避风险，实现行业的健康以及持续发展。然而，随着科技的不断发展，金融行业中与风险相关的数据呈现指数级增长，为了更准确地计量风险或预测风险，通常会根据各类风险的关键指标数据建立风险预测模型。
3.现有技术中，为了使建立的风险预测模型更加稳定，通常通过等频分箱、等聚分箱或k
‑
means聚类分箱的方式对连续变量进行离散化。然而，由于等频分箱、等聚分箱后特征分布的相似度比不上k
‑
means聚类分箱，而k
‑
means聚类分箱极易受异常值的影响，从而无法获得准确分箱结果，进而影响风险预测准确度。
4.因此，业内亟需一种可以解决上述技术问题的技术方案。

技术实现要素：

5.本说明书实施例提供了一种数据处理方法、装置及设备，可以提高分箱准确度，进而提高风险预测准确度。
6.本说明书提供的一种数据处理方法、装置及设备是包括以下方式实现的。
7.一种数据处理方法，包括：获取指标数据；其中，所述指标数据包括同一指标对应多个属性值；确定所述指标数据的分布信息；基于所述分布信息，剔除所述指标数据中的异常值，获得第一指标数据；对所述第一指标数据进行分箱处理，获得分箱结果。
8.一种数据处理装置，包括：获取模块，用于获取指标数据；其中，所述指标数据包括同一指标对应多个属性值；确定模块，用于确定所述指标数据的分布信息；剔除模块，用于基于所述分布信息，剔除所述指标数据中的异常值，获得第一指标数据；分箱模块，用于对所述第一指标数据进行分箱处理，获得分箱结果。
9.一种数据处理设备，包括至少一个处理器以及存储计算机可执行指令的存储器，所述处理器执行所述指令时实现本说明书实施例中任意一个方法实施例的步骤。
10.一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时实现本说明书实施例中任意一个方法实施例的步骤。
11.本说明书提供的一种数据处理方法、装置及设备。一些实施例中可以获取指标数据；其中，指标数据包括同一指标对应多个属性值；确定指标数据的分布信息。还可以基于分布信息，剔除指标数据中的异常值，获得第一指标数据，对第一指标数据进行分箱处理，获得分箱结果。由于在对指标数据进行分箱处理前，对指标数据中包括的异常值进行了相应检验和分析，并对异常值单独分箱，从而可以解决现有技术中由于分箱受噪声影响导致分箱结果不准确的问题。
附图说明
12.此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，并不构成对本说明书的限定。在附图中：
13.图1是本说明书提供的一种数据处理方法的一个实施例的流程示意图；
14.图2是本说明书提供的一种数据处理装置的一个实施例的模块结构示意图；
15.图3是本说明书提供的一种数据处理服务器的一个实施例的硬件结构框图。
具体实施方式
16.为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书中的一部分实施例，而不是全部的实施例。基于本说明书中的一个或多个实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书实施例保护的范围。
17.下面以一个具体的应用场景为例对本说明书实施方案进行说明。具体的，图1是本说明书提供的一种数据处理方法的一个实施例的流程示意图。虽然本说明书提供了如下述实施例或附图所示的方法操作步骤或装置结构，但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者部分合并后更少的操作步骤或模块单元。
18.本说明书提供的一种实施方案可以应用到客户端、服务器等中。所述客户端可以包括终端设备，如智能手机、平板电脑等。所述服务器可以包括单台计算机设备，也可以包括多个服务器组成的服务器集群，或者分布式系统的服务器结构等。
19.需要说明的是，下述实施例描述并不对基于本说明书的其他可扩展到的应用场景中的技术方案构成限制。具体的一种实施例如图1所示，本说明书提供的一种数据处理方法的一种实施例中，所述方法可以包括以下步骤。
20.s0：获取指标数据；其中，所述指标数据包括同一指标对应多个属性值。
21.其中，指标可以表示衡量目标对象的一个属性。每个指标可以对应多个属性值。如，年龄指标对应的属性值可以包括1岁、7岁、21岁、68岁等，企业注册地指标对应的属性值可以包括北京、上海、广州、苏州等。每个指标对应的多个属性值可以是数值型、类别型、离散型、连续型等。
22.一些实施场景中，在所述获取指标数据前，可以先获取各个应用场景对应的指标数据集。其中，指标数据集中可以包括多条指标数据，每条指标数据可以包括多个属性值。
23.一些实施场景中，获取各个应用场景对应的指标数据集时，可以从预设数据库或存储器中拉取相关数据，然后进行加工处理，从而获得指标数据集。其中，预设数据库可以包括oracle数据库、mysql数据库等。
24.例如，以机构对公客户的贷前风控场景为例，从预设数据库或存储器中拉取的相关数据可以包括客户工商信息数据、税务数据、财务数据、申请的金融产品信息数据、信贷信息数据、交易数据、复杂网络信息数据等。以企业信贷风险场景为例，从预设数据库或存储器中拉取的相关数据可以包括企业的工商税务信息、财务数据、司法行政数据、担保信息数据等。以个人信贷风险场景为例，从预设数据库或存储器中拉取的相关数据可以包括个人身份信息、多头借贷数据、行为数据、社交网络信息等。当然，上述只是进行示例性说明，
本说明书实施例不限于上述举例，所属领域技术人员在本技术技术精髓的启示下，还可能做出其它变更，但只要其实现的功能和效果与本技术相同或相似，均应涵盖于本技术保护范围内。
25.由于对于一个机器学习任务，给定了属性集(不同指标)，其中某些属性可能对于机器学习来说很关键，但有些属性意义就不大，因此，在从预设数据库或存储器中拉取各个场景的相关数据后，对相关数据进行加工处理变得比较重要。
26.一些实施场景中，在从预设数据库或存储器中拉取各个场景的相关数据后，对相关数据进行加工处理的方式可以包括指标衍生、指标筛选、数据清洗等。其中，指标衍生也可以称为特征构造。指标衍生可以发掘指标在不同时间切片下的不同统计描绘信息，从中提炼出有价值的信息从而进行预测模型的开发。对当前学习任务有用的属性或者指标，可以称为相关指标，对当前学习任务没用的属性或者指标，称为无关指标。从给定的属性集合中选出相关指标子集的过程为指标筛选。例如，以信用风险特征为例，好的指标可以具备以下优势：(1)当宏观经济因素稳定、监管政策稳定、客群分布稳定、金融产品营销稳定时，指标的分布也需要稳定；(2)指标与信用风险的关联关系要符合风控业务逻辑；(3)未来的违约与非违约客群在指标上的分布需要显著不同。数据清洗可以初步过滤掉数据中噪声信息，提高后续对数据的处理结果。
27.一些实施场景中，指标衍生的方式可以包括求和、比例、频率、平均等。例如，过去一段时间内对公客户在不同平台申贷次数总和、过去一段时间内对公客户流出资金总和/流入资金总和、过去一段时间内对公客户跨行交易频次、过去一段时间内对公客户净利润月平均值等。当然，上述只是进行示例性说明，指标衍生的方式不限于上述举例，所属领域技术人员在本技术技术精髓的启示下，还可能做出其它变更，但只要其实现的功能和效果与本技术相同或相似，均应涵盖于本技术保护范围内。
28.一些实施场景中，在对各个场景的相关数据进行加工处理后，可以获得各个场景对应的指标数据集。进而，在需要对某一条或多条指标数据进行处理(如分箱处理等)时，可以直接根据指标名称从对应的指标数据集中获取相应指标数据，从而提高后续数据处理效率。
29.s2：确定所述指标数据的分布信息。
30.一些实施场景中，在获取指标数据后，可以进一步确定指标数据的分布信息。其中，分布信息可以表示指标数据的分布情况，例如，可以包括正态分布、非正态分布等。
31.一些实施场景中，所述确定所述指标数据的分布信息，可以包括：对所述指标数据进行正态性检验，确定所述指标数据的分布信息。
32.例如一些实施场景中，可以对每条指标数据做qq plot检验，判断其是否为正态分布。其中，qq plot可以用于直观验证一组数据是否来自某个分布，或者验证某两组数据是否来自同一(族)分布。qq plot通常可以用来检验数据是否来自于正态分布。
33.当然，上述只是进行示例性说明，检验数据是否为正态分布的方式不限于上述举例，如还可以通过直方图、偏度与峰度等方式，所属领域技术人员在本技术技术精髓的启示下，还可能做出其它变更，但只要其实现的功能和效果与本技术相同或相似，均应涵盖于本技术保护范围内。
34.s4：基于所述分布信息，剔除所述指标数据中的异常值，获得第一指标数据。
35.一些实施场景中，在确定指标数据的分布信息后，还可以基于分布信息，剔除指标数据中的异常值，获得第一指标数据。其中，第一指标数据中包括的属性值是从指标数据对应的多个属性值中剔除异常属性值后剩余属性值。
36.一些实施场景中，所述基于所述分布信息，剔除所述指标数据中的异常值，获得第一指标数据，可以包括：在确定所述指标数据满足正态分布的情况下，确定所述指标数据对应的置信区间；剔除所述置信区间外的属性值，获得第一指标数据。其中，置信区间是指由样本统计量所构造的总体参数的估计区间。在统计学中，一个概率样本的置信区间(confidence interval)是对这个样本的某个总体参数的区间估计。置信区间是一种常用的区间估计方法，所谓置信区间就是分别以统计量的置信上限和置信下限为上下界构成的区间。
37.例如一些实施场景中，对每条指标数据做qq plot检验判断其是否为正态分布后，如果分布信息是正态分布，则可以计算指标数据在极端情况下的置信区间，即预设的置信水平下的区间的阈值，然后根据该阈值找出阈值以外的极端值(即异常值)进行剔除，从而获得第一指标数据。其中，置信水平可以理解为是置信度。预设的置信水平可以是95％、90％等，具体可以根据实际场景设定。
38.一些实施场景中，所述基于所述分布信息，剔除所述指标数据中的异常值，获得第一指标数据，还可以包括：在确定所述指标数据不满足正态分布的情况下，计算所述指标数据中每个属性值对应的hill估计值；基于每个属性值的顺序信息和hill估计值，构建hill图；选取所述hill图中满足预设条件区域的起点的横坐标，获得第一阈值；将大于所述第一阈值的横坐标对应的属性值剔除，获得第一指标数据。其中，hill估计值也可以称为极值指数的hill估计。hill估计是一种很便捷的阈值选取方法。通过计算hill估计值可以为后续确定第一阈值提供保证。
39.一些实施场景中，所述计算所述指标数据中每个属性值对应的hill估计值，可以包括：将指标数据中的多个属性值进行排序，获得排序后的属性值；基于所述排序后的属性值，利用预设方式计算每个属性值对应的hill估计值。
40.一些实施场景中，可以通过下述方式计算每个属性值对应的hill估计值：
[0041][0042]
其中，x
1,n
、x
2,n
、
…
、x
n,n
表示排序后的n个属性值，h
k,n
表示x
k,n
对应的hill估计值，k、j表示序号，1≤k≤n
‑
1。
[0043]
例如一些实施场景中，对每条指标数据做qq plot检验判断其是否为正态分布后，如果分布信息是非正态分布，则可以将同一个指标对应的属性值{x1，x2，
…
,x
n
，}按升序排列，获得排序后属性值{x
1,n
，x
2,n
，
…
,x
n,n
}，其中，x
1,n
≤x
2,n
≤
…
≤x
n,n
。进一步，可以根据上述公式(1)计算每个属性值对应的hill估计值。
[0044]
一些实施场景中，在获得每个属性值对应的hill估计值后，可以获得点集{(k,h
k,n
)；1≤k≤n
‑
1}，进一步，可以利用基于该点集构造曲线，其中，构造的曲线可以称为hill图。hill图可以用于选取阈值。
[0045]
一些实施场景中，在构建hill图后，可以通过观察图中hill估计值的变化，选择满足预设条件区域的起点的横坐标作为第一阈值。进一步，可以将大于第一阈值的横坐标所
对应的属性值剔除，从而获得第一指标数据。其中，预设条件区域可以是hill图中稳定部分(或相对稳定部分、呈现平稳线性状态)对应的区间。
[0046]
一些实施场景中，可以将从指标数据中剔除出的异常值作为一个类别进行保存。
[0047]
s6：对所述第一指标数据进行分箱处理，获得分箱结果。
[0048]
一些实施场景中，在基于分布信息剔除指标数据中的异常值，获得第一指标数据后，可以对第一指标数据进行分箱处理，获得分箱结果。其中，数据分箱可以将相似度高的样本归为一组。分箱可以把连续变量离散化，即获得离散特征。离散特征可以包括以下优点：(1)离散特征的增加和减少都很容易，易于模型的快速迭代；(2)离散化后的特征对异常数据有很强的鲁棒性，比如一个特征是年龄大于20岁是1，否则是0，如果特征没有离散化，一个异常数据“年龄90岁”会给模型造成很大的干扰；(3)逻辑回归属于广义线性模型，表达能力受限，单变量离散化为n个后，每个变量有单独的权重，相当于为模型引入了非线性，从而可以提升模型表达能力，加大拟合效果；(4)特征离散化后，模型会更稳定，例如对客户年龄离散化，把20岁至30岁作为一个区间，不会因为一个客户年龄长了一岁就变成一个完全不同的人，而且特征离散化以后，可以起到简化逻辑回归模型的作用，降低模型过拟合的风险；(5)可以将所有变量变换到相似的尺度上。
[0049]
一些实施场景中，所述对所述第一指标数据进行分箱处理，获得分箱结果，可以包括：确定目标分箱数；基于所述目标分箱数，利用k
‑
means算法对所述第一指标数据进行聚类，获得分类结果；根据所述分类结果，确定所述第一指标数据对应的分箱区间。当然，上述只是进行示例性说明，进行聚类的方式不限于上述举例，所属领域技术人员在本技术技术精髓的启示下，还可能做出其它变更，但只要其实现的功能和效果与本技术相同或相似，均应涵盖于本技术保护范围内。
[0050]
一些实施场景中，可以利用拐点法确定每个指标的目标分箱数(也可以称为聚类个数)，然后根据k
‑
means算法对指标数据进行分箱操作。
[0051]
一些实施场景中，在确定目标分箱数后，可以将第一指标数据对应的每个属性值作为一个样本，然后随机选取与目标分箱数相同数量的样本作为中心，并为剩下的样本寻找距离最近的中心点，据此把它们划分为几个类别。进一步，在每一个类别中，可以选择新的中心点，并重复上述过程，直到中心点不再变化，分类结束，获得分类结果。其中，分类结果中包括的类别数与目标分箱数相同数量，每个类别中可以包括一个或多个属性值。
[0052]
一些实施场景中，在获得分类结果后，可以根据分类结果为设置分箱区间。
[0053]
一些实施场景中，对于数值型指标数据，分箱区间可以是若干有限的几个分段。例如，将企业注册年限分为小于5年，5年至10年，10年至20年，大于20年等。
[0054]
一些实施场景中，对于类别型指标数据，如果属性值个数很多，分箱区间可以是将其合并为个数较少的几个分段。例如，将企业注册地省份分为{北，上，广}，{黑，吉，辽}，{江，浙，沪}，{闽，粤，湘}等。
[0055]
当然，上述只是进行示例性说明，分箱区间不限于上述举例，所属领域技术人员在本技术技术精髓的启示下，还可能做出其它变更，但只要其实现的功能和效果与本技术相同或相似，均应涵盖于本技术保护范围内。
[0056]
一些实施场景中，在获得分箱结果后，还可以包括：基于每个指标数据对应的所述分箱结果，确定预测机构违约的特征指标。
[0057]
一些实施场景中，所述基于每个指标数据对应的所述分箱结果，确定预测机构违约的特征指标，包括：基于每个指标数据对应的所述分箱结果，计算每个指标的iv值；根据每个指标的iv值，确定预测机构违约的特征指标。其中，iv的全称是information value。iv值可以用来表示指标对目标预测的贡献程度，即指标的预测能力。通常，iv值越高，表示该指标的预测能力越强，信息贡献程度越高。当然，上述只是进行示例性说明，还可以通过计算每个指标的woe(证据权重)来确定预测机构违约的特征指标，所属领域技术人员在本技术技术精髓的启示下，还可能做出其它变更，但只要其实现的功能和效果与本技术相同或相似，均应涵盖于本技术保护范围内。
[0058]
一些实施场景中，根据每个指标的iv值，确定预测机构违约的特征指标，可以包括：根据每个指标的iv值对所有指标进行排序，然后从中选择满足预设条件的指标作为预测机构违约的特征指标。其中，预设条件可以是排序前3、排序前5、iv值大于0.3等，本说明书对此不做限定。
[0059]
一些实施场景中，所述预测机构违约的特征指标至少可以包括下述之一：机构的盈利能力指标、偿债能力指标、运营能力指标、机构每月资金流变化指标、机构所在行业景气度指数。
[0060]
本说明书实施例中，在获得分箱结果后，进行iv值的筛选，可以缩减指标规模，减少数据冗余，从而形成全局最优的指标体系。
[0061]
一些实施场景中，在确定预测机构违约的特征指标后，可以将其作为重要风险指示变量加以展示。每个特征指标也可以根据其每一箱的坏账率和占全量数据的比例，设定风险警戒阈值，然后应用到信审场景中或者监管体系之中。
[0062]
一些实施场景中，所述确定预测机构违约的特征指标后，还可以包括：获取样本数据集；其中，所述样本数据集中包括多个机构对应的样本数据，每个样本数据包括特征指标对应的数据和机构违约信息；利用所述样本数据集对预设模型进行训练，获得违约预测模型。其中，预设模型可以是逻辑回归模型、神经网络模型等。
[0063]
由于逻辑回归模型具有以下优点：(1)可解释性强，变量之间的关系是线性可加关系，也可对最终分值和每个变量分别设定风险阈值；(2)结构简单，输入变量对目标变量的影响是容易获得；(3)模型的测试、部署、监控、调优等工作相对简单，工程化相对容易的优点。而其他机器学习模型由于数据输入与结果输出全是黑箱操作，可解释性差，所有本说明书实施例中预设模型优选逻辑回归模型。
[0064]
一些实施场景中，所述获得违约预测模型后，还可以包括：获取目标机构的特征指标对应的数据；根据目标机构的特征指标对应的数据和所述违约预测模型，确定所述目标机构的违约信息。其中，目标机构可以是需要预测风险的机构。
[0065]
本说明书实施例中，通过对每条指标数据的分布情况先做分析，再针对不同情况将异常值单独分为一箱，然后再对剩下的属性值进行分箱操作，这样，异常值在其它聚类分箱法中是被忽略的，从而可以解决现有技术中分箱过程中易受噪声影响的问题，获得准确分箱结果。
[0066]
本说明书实施例，可以应用于机器学习算法建模选择风险关键指标的前期特征变量预处理阶段。
[0067]
当然，上述只是进行示例性说明，本说明书实施例不限于上述举例，所属领域技术
人员在本技术技术精髓的启示下，还可能做出其它变更，但只要其实现的功能和效果与本技术相同或相似，均应涵盖于本技术保护范围内。
[0068]
从以上的描述中，可以看出，本技术实施例可以获取指标数据；其中，指标数据包括同一指标对应多个属性值；确定指标数据的分布信息。还可以基于分布信息，剔除指标数据中的异常值，获得第一指标数据，对第一指标数据进行分箱处理，获得分箱结果。由于在对指标数据进行分箱处理前，对指标数据中包括的异常值进行了相应检验和分析，并对异常值单独分箱，从而可以解决现有技术中由于分箱受噪声影响导致分箱结果不准确的问题。
[0069]
本说明书中上述方法的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参照即可，每个实施例重点说明的都是与其他实施例的不同之处。相关之处参见方法实施例的部分说明即可。
[0070]
基于上述所述一种数据处理方法，本说明书一个或多个实施例还提供一种数据处理装置。所述的装置可以包括使用了本说明书实施例所述方法的系统(包括分布式系统)、软件(应用)、模块、组件、服务器、客户端等并结合必要的实施硬件的装置。基于同一创新构思，本说明书实施例提供的一个或多个实施例中的装置如下面的实施例所述。由于装置解决问题的实现方案与方法相似，因此本说明书实施例具体的装置的实施可以参见前述方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。
[0071]
具体地，图2是本说明书提供的一种数据处理装置的一个实施例的模块结构示意图，如图2所示，本说明书提供的一种数据处理装置可以包括：获取模块120，确定模块122，剔除模块124，分箱模块126。
[0072]
获取模块120，可以用于获取指标数据；其中，所述指标数据包括同一指标对应多个属性值；
[0073]
确定模块122，可以用于确定所述指标数据的分布信息；
[0074]
剔除模块124，可以用于基于所述分布信息，剔除所述指标数据中的异常值，获得第一指标数据；
[0075]
分箱模块126，可以用于对所述第一指标数据进行分箱处理，获得分箱结果。
[0076]
一些实施场景中，在所述获取指标数据前，可以先获取各个应用场景对应的指标数据集。其中，指标数据集中可以包括多条指标数据，每条指标数据可以包括多个属性值。
[0077]
一些实施场景中，获取各个应用场景对应的指标数据集时，可以从预设数据库或存储器中拉取相关数据，然后进行加工处理，从而获得指标数据集。其中，预设数据库可以包括oracle数据库、mysql数据库等。
[0078]
一些实施场景中，在从预设数据库或存储器中拉取各个场景的相关数据后，对相关数据进行加工处理的方式可以包括指标衍生、指标筛选、数据清洗等。一些实施场景中，指标衍生的方式可以包括求和、比例、频率、平均等。
[0079]
一些实施场景中，所述确定模块122，可以包括：
[0080]
检验单元，可以用于对所述指标数据进行正态性检验，确定所述指标数据的分布信息。
[0081]
一些实施场景中，可以对每条指标数据做qq plot检验，判断其是否为正态分布。其中，qq plot可以用于直观验证一组数据是否来自某个分布，或者验证某两组数据是否来自同一(族)分布。qq plot通常可以用来检验数据是否来自于正态分布。当然，上述只是进行示例性说明，检验数据是否为正态分布的方式不限于上述举例，如还可以通过直方图、偏度与峰度等方式，所属领域技术人员在本技术技术精髓的启示下，还可能做出其它变更，但只要其实现的功能和效果与本技术相同或相似，均应涵盖于本技术保护范围内。
[0082]
一些实施场景中，所述剔除模块124，可以包括：
[0083]
第一确定单元，可以用于在确定所述指标数据满足正态分布的情况下，确定所述指标数据对应的置信区间；
[0084]
第一剔除单元，可以用于剔除所述置信区间外的属性值，获得第一指标数据。
[0085]
一些实施场景中，所述剔除模块124，还可以包括：
[0086]
计算单元，可以用于在确定所述指标数据不满足正态分布的情况下，计算所述指标数据中每个属性值对应的hill估计值；
[0087]
构建单元，可以用于基于每个属性值的顺序信息和hill估计值，构建hill图；
[0088]
第一获得单元，可以用于选取所述hill图中满足预设条件区域的起点的横坐标，获得第一阈值；
[0089]
第二获得单元，可以用于将大于所述第一阈值的横坐标对应的属性值剔除，获得第一指标数据。
[0090]
一些实施场景中，所述计算所述指标数据中每个属性值对应的hill估计值，可以包括：将指标数据中的多个属性值进行排序，获得排序后的属性值；基于所述排序后的属性值，利用预设方式计算每个属性值对应的hill估计值。
[0091]
一些实施场景中，可以通过下述方式计算每个属性值对应的hill估计值：
[0092][0093]
其中，x
1,n
、x
2,n
、
…
、x
n,n
表示排序后的n个属性值，h
k,n
表示x
k,n
对应的hill估计值，k、j表示序号，1≤k≤n
‑
1。
[0094]
一些实施场景中，所述分箱模块126，可以包括：
[0095]
第二确定单元，可以用于确定目标分箱数；
[0096]
第三获得单元，用于基于所述目标分箱数，利用k
‑
means算法对所述第一指标数据进行聚类，获得分类结果；
[0097]
第三确定单元，用于根据所述分类结果，确定所述第一指标数据对应的分箱区间。
[0098]
一些实施场景中，可以利用拐点法确定每个指标的目标分箱数(也可以称为聚类个数)，然后根据k
‑
means算法对指标数据进行分箱操作。
[0099]
一些实施场景中，在确定目标分箱数后，可以将第一指标数据对应的每个属性值作为一个样本，然后随机选取与目标分箱数相同数量的样本作为中心，并为剩下的样本寻找距离最近的中心点，据此把它们划分为几个类别。进一步，在每一个类别中，可以选择新的中心点，并重复上述过程，直到中心点不再变化，分类结束，获得分类结果。其中，分类结果中包括的类别数与目标分箱数相同数量，每个类别中可以包括一个或多个属性值。
[0100]
一些实施场景中，在获得分类结果后，可以根据分类结果为设置分箱区间。
[0101]
一些实施场景中，在获得分箱结果后，还可以包括：基于每个指标数据对应的所述分箱结果，确定预测机构违约的特征指标。
[0102]
一些实施场景中，所述基于每个指标数据对应的所述分箱结果，确定预测机构违约的特征指标，可以包括：基于每个指标数据对应的所述分箱结果，计算每个指标的iv值；根据每个指标的iv值，确定预测机构违约的特征指标。
[0103]
一些实施场景中，所述预测机构违约的特征指标至少可以包括下述之一：机构的盈利能力指标、偿债能力指标、运营能力指标、机构每月资金流变化指标、机构所在行业景气度指数。
[0104]
一些实施场景中，所述确定预测机构违约的特征指标后，还可以包括：获取样本数据集；其中，所述样本数据集中包括多个机构对应的样本数据，每个样本数据包括特征指标对应的数据和机构违约信息；利用所述样本数据集对预设模型进行训练，获得违约预测模型。
[0105]
一些实施场景中，所述获得违约预测模型后，还可以包括：获取目标机构的特征指标对应的数据；根据目标机构的特征指标对应的数据和所述违约预测模型，确定所述目标机构的违约信息。
[0106]
需要说明的，上述所述的装置根据方法实施例的描述还可以包括其他的实施方式，具体的实现方式可以参照相关方法实施例的描述，在此不作一一赘述。
[0107]
本说明书还提供一种数据处理设备的实施例，包括处理器及用于存储处理器可执行指令的存储器，所述指令被所述处理器执行时实现包括以下步骤：获取指标数据；其中，所述指标数据包括同一指标对应多个属性值；确定所述指标数据的分布信息；基于所述分布信息，剔除所述指标数据中的异常值，获得第一指标数据；对所述第一指标数据进行分箱处理，获得分箱结果。
[0108]
需要说明的，上述所述的设备根据方法或装置实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照相关方法实施例的描述，在此不作一一赘述。
[0109]
本说明书所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例，图3是本说明书提供的一种数据处理服务器的一个实施例的硬件结构框图，该服务器可以是上述实施例中的数据处理装置或数据处理设备。如图3所示，服务器10可以包括一个或多个(图中仅示出一个)处理器100(处理器100可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器200、以及用于通信功能的传输模块300。本领域普通技术人员可以理解，图3所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，服务器10还可包括比图3中所示更多或者更少的组件，例如还可以包括其他的处理硬件，如数据库或多级缓存、gpu，或者具有与图3所示不同的配置。
[0110]
存储器200可用于存储应用软件的软件程序以及模块，如本说明书实施例中的数据处理方法对应的程序指令/模块，处理器100通过运行存储在存储器200内的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器200可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器200可进一步包括相对于处理器100远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、
局域网、移动通信网及其组合。
[0111]
传输模块300用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中，传输模块300包括一个网络适配器(network interface controller，nic)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输模块300可以为射频(radio frequency，rf)模块，其用于通过无线方式与互联网进行通讯。
[0112]
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。
[0113]
本说明书提供的上述实施例所述的方法或装置可以通过计算机程序实现业务逻辑并记录在存储介质上，所述的存储介质可以计算机读取并执行，实现本说明书实施例所描述方案的效果。所述存储介质可以包括用于存储信息的物理装置，通常是将信息数字化后再以利用电、磁或者光学等方式的媒体加以存储。所述存储介质可以包括：利用电能方式存储信息的装置如，各式存储器，如ram、rom等；利用磁能方式存储信息的装置如，硬盘、软盘、磁带、磁芯存储器、磁泡存储器、u盘；利用光学方式存储信息的装置如，cd或dvd。当然，还有其他方式的可读存储介质，例如量子存储器、石墨烯存储器等等。
[0114]
本说明书提供的上述数据处理方法或装置实施例可以在计算机中由处理器执行相应的程序指令来实现，如使用windows操作系统的c 语言在pc端实现、linux系统实现，或其他例如使用android、ios系统程序设计语言在智能终端实现，以及基于量子计算机的处理逻辑实现等。
[0115]
需要说明的是说明书上述所述的装置、设备、系统根据相关方法实施例的描述还可以包括其他的实施方式，具体的实现方式可以参照对应方法实施例的描述，在此不作一一赘述。
[0116]
本技术中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参照即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于硬件程序类实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
[0117]
为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书一个或多个时可以把部分模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。
[0118]
本发明是参照根据本发明实施例的方法、装置、设备、系统的流程图和/或方框图来描述的。应理解可由计算机程序指令实现，可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框
中指定的功能。
[0119]
本领域技术人员应明白，本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。
[0120]
以上所述仅为本说明书一个或多个实施例的实施例而已，并不用于限制本本说明书一个或多个实施例。对于本领域技术人员来说，本说明书一个或多个实施例可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在权利要求范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种镜像的更新方法、装置、设备及介质与流程

一种数据处理方法、装置及设备与流程

相关文献

最热文献