基于GBDT算法与逻辑回归模型的企业违约风险评估方法设备及介质与流程

2022-05-21 02:42:44 来源：中国专利 TAG：

基于gbdt算法与逻辑回归模型的企业违约风险评估方法设备及介质
技术领域
1.本技术涉及金融信贷技术领域，尤其涉及一种基于gbdt算法与逻辑回归模型的企业违约风险评估方法、设备及介质。

背景技术：

2.小微企业在我国经济与社会发展过程中占有重要地位，其在推动经济发展、增加财政收入、提供社会就业岗位方面起着非常重要的作用。但是小微企业在发展过程中，却面临着诸多问题，其中融资困难是困扰小微企业发展的重要问题之一，日益引起社会的高度重视。
3.小微企业融资困难，不仅与小微企业自身条件有关，也与经济发展水平、金融机构信贷条件密切相关。从商业银行角度来看，商业银行为了避免不良贷款的发生，违约风险评价是决定银行是否提供信贷的重要参考因素，而银行的信用风险评价体系主要针对的对象是大中型企业，并不适合小微企业。
4.小微企业的特点是企业数量众多、资产规模较小、符合担保要求的抵押质押品少。现有的商业银行的违约风险评价体系并没有建立适用于小微企业的风险评价指标体系与评估模型，这就造成了目前小微企业融资困难的情况。
5.另一方面，由于小微企业自身存在抗风险能力弱，生命周期短，经营比较单一，市场淘汰率高等问题，也是商业银行在提供信贷服务时难以做出准确的决策，无法避免贷款风险，这也加剧了小微企业融资困难的情况。
6.基于此种现状，现在迫切需要开发一种合理的、有效的适用于小微企业的风险评估指标体系和评估模型，构建基于gbdt算法与逻辑回归模型的企业违约风险评估方法，既能够帮助小微企业缓解融资困难的问题，又能够辅助商业银行做出正确的贷款决策，最大限度地避免贷款风险。

技术实现要素：

7.本说明书实施例提供了一种基于gbdt算法与逻辑回归模型的企业违约风险评估方法、设备及介质，用于解决现有技术中的如下技术问题：现有的基于线下对企业进行数据尽调、专家根据经验评估企业违约风险的方法，具有评估指标体系不完善、评估效率低、结果准确性差的问题，难以有效的识别企业违约风险概率，避免贷款风险。
8.本说明书实施例采用下述技术方案：
9.本说明书实施例一方面提供了一种基于gbdt算法与逻辑回归模型的企业违约风险评估方法，其中，所述方法包括：
10.获取多个样本企业的企业经营数据，其中，所述企业经营数据为第三方主体存储的与样本企业有关的数据，且所述企业经营数据包括以下至少一种：工商管理数据、征信数据、互联网数据；
11.对各种所述企业经营数据进行处理，得到与每种企业经营数据对应的标准化数据，计算与每种标准化数据对应的woe值与iv值，并根据所述woe值对变量进行数值区间的划分，根据所述iv值对变量进行筛选；
12.将完成数值区间划分与筛选的变量作为输入数据集，采用gbdt算法进行训练，构造出适用于逻辑回归模型的入模变量；
13.将所述入模变量输入至逻辑回归模型，构建企业违约风险评估模型；
14.获取待评估企业的企业经营数据，采用所述企业违约风险评估模型对所述待评估企业进行评估，得到待评估企业的违约风险评估结果。
15.优选地，所述对各种所述企业经营数据进行处理，得到与每种企业经营数据对应的标准化数据，包括：
16.对所述企业经营数据进行规范化处理得到原始数据，其中，所述规范化处理包括以下至少一项：将所述企业经营数据进行融合对齐，去除所述企业经营数据中的噪声数据和/或冗余数据；
17.对所述原始数据进行计算处理，将所述原始数据中的字符型数据转化成数值型数据；
18.对计算处理后的所述原始数据进行标准化处理，消除所述原始数据的量纲，得到标准化数据。
19.优选地，采用大数据etl技术对所述企业经营数据进行规范化处理得到原始数据。
20.优选地，采用z-score标准化方法对计算处理后的所述原始数据进行标准化处理，消除所述原始数据的量纲，得到标准化数据。
21.优选地，基于gbdt算法与逻辑回归模型的企业违约风险评估方法还包括：
22.根据预定义的违约风险标准对所述多个样本企业进行划分，将所述多个样本企业划分为正常企业与具有违约风险的企业，其中，所述预定义的违约风险标准包括以下至少一项：逾期、企业在金融黑名单中、企业在失信企业名单中、企业欠税、企业经营异常。
23.优选地，基于gbdt算法与逻辑回归模型的企业违约风险评估方法还包括：
24.获取样本企业的多种企业经营数据，若所述多种企业经营数据中的一种或几种数据缺失，则获取该种企业经营数据缺失的原因；
25.根据数据缺失的原因判断该种企业经营数据对构建企业风险评估模型的影响，若该种企业经营数据在多个样本企业中缺失率大于60％，则对该种企业经营数据进行剔除。
26.优选地，基于gbdt算法与逻辑回归模型的企业违约风险评估方法还包括：
27.采用roc曲线对构建的所述企业风险评估模型进行评价；和/或
28.采用auc值对构建的所述企业风险评估模型进行评价。
29.优选地，基于gbdt算法与逻辑回归模型的企业违约风险评估方法还包括：
30.通过将分值表示为比率对数的线性表达式来定义评分卡的分值刻度，将所述企业违约风险评估模型得到的待评估企业的违约风险评估结果转换成评分卡结果。
31.本说明书实施例另一方面提供了一种基于gbdt算法与逻辑回归模型的企业违约风险评估的设备，其中，包括：
32.至少一个处理器；以及，
33.与所述至少一个处理器通信连接的存储器；其中，
34.所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：
35.获取多个样本企业的企业经营数据，其中，所述企业经营数据为第三方主体存储的与样本企业有关的数据，且所述企业经营数据包括以下至少一种：工商管理数据、征信数据、互联网数据；
36.对各种所述企业经营数据进行处理，得到与每种企业经营数据对应的标准化数据，计算与每种标准化数据对应的woe值与iv值，并根据所述woe值对变量进行数值区间的划分，根据所述iv值对变量进行筛选；
37.将完成数值区间划分与筛选的变量作为输入数据集，采用gbdt算法进行训练，构造出适用于逻辑回归模型的入模变量；
38.将所述入模变量输入至逻辑回归模型，构建企业违约风险评估模型；
39.获取待评估企业的企业经营数据，采用所述企业违约风险评估模型对所述待评估企业进行评估，得到待评估企业的违约风险评估结果。
40.本说明书实施例还提供了一种基于gbdt算法与逻辑回归模型的企业违约风险评估的非易失性计算机存储介质，存储有计算机可执行指令，其中，所述计算机可执行指令设置为：
41.获取多个样本企业的企业经营数据，其中，所述企业经营数据为第三方主体存储的与样本企业有关的数据，且所述企业经营数据包括以下至少一种：工商管理数据、征信数据、互联网数据；
42.对各种所述企业经营数据进行处理，得到与每种企业经营数据对应的标准化数据，计算与每种标准化数据对应的woe值与iv值，并根据所述woe值对变量进行数值区间的划分，根据所述iv值对变量进行筛选；
43.将完成数值区间划分与筛选的变量作为输入数据集，采用gbdt算法进行训练，构造出适用于逻辑回归模型的入模变量；
44.将所述入模变量输入至逻辑回归模型，构建企业违约风险评估模型；
45.获取待评估企业的企业经营数据，采用所述企业违约风险评估模型对所述待评估企业进行评估，得到待评估企业的违约风险评估结果。
46.本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果：
47.1、本说明书实施例示例的基于gbdt算法与逻辑回归模型的企业违约风险评估方法，通过获取、整合第三方主体对样本企业的工商管理数据、征信数据、互联网数据等多种企业经营数据，将这些数据进行多步骤处理得到标准化数据，使用woe值以及iv值进行对标准化数据进行变量分箱及变量筛选，使用gbdt算法作为逻辑回归模型的前置算法，由gbdt算法构造出新的变量组合特征，输入到逻辑回归模型构建得到企业违约风险评估模型，最后由企业违约风险评估模型对待评估企业进行评估给出评估结果，识别企业的违约风险概率，有效地降低了信用贷款坏账率。本说明书实施例示例的上述方法，其中，企业经营数据采用第三方提供的数据能够更真实、公正地反映企业的经营现状和信用风险，利用第三方数据搭建企业违约风险评估模型，其评估结果的可信度和可参考度大大提升，而gbdt算法可以对模型的特征进行组合，进而选择出对模型贡献度更大的特征，同时对特征的重要性进行分析，对模型的预测结果给出合理解释。
48.2、本说明书实施例示例的基于gbdt算法与逻辑回归模型的企业违约风险评估方法，不同于传统的基于线下尽调数据、专家经验来评估企业违约风险的方法，采用由第三方主体存储的与样本企业有关的工商管理数据、征信数据、互联网数据等企业经营数据，能够更真实、公正地反映企业的经营现状和信用风险，上述数据经过多源数据融合，采用大数据etl技术对多源数据进行数据合并、数据对齐、数据融合等操作，并在多源数据融合基础之上建立企业多维指标体系，拓宽了企业违约风险评估模型的分析场景，更适用于没有积累违约样本数据情况下的企业客群预测分析。
49.3、本说明书实施例示例的基于gbdt算法与逻辑回归模型的企业违约风险评估方法，采用gbdt算法可以对构建企业违约风险评估模型的特征变量进行组合，进而选择出对模型贡献度更大的变量，同时对变量的重要性进行分析，从而得到了适用于逻辑回归模型的入模变量。同时，采用逻辑回归模型构建企业违约风险评估模型，逻辑回归模型是一种用于分类问题的监督学习模型，无需进行数据假设，可以直接通过样本企业的资料和行为数据来拟合回归模型，得到回归系数，从而构建企业违约风险评估模型，用以预测企业违约概率，并计算企业的信用评分。
50.4、本说明书实施例示例的基于gbdt算法与逻辑回归模型的企业违约风险评估方法，对实际的信贷评估系统的建立，具有很好的可行性,采用roc曲线或auc值验证了企业违约风险评估模型具有较好的预测能力和泛化能力。
附图说明
51.此处所说明的附图用来提供对本技术的进一步理解，构成本技术的一部分，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
52.图1为本说明书实施例提供的基于gbdt算法与逻辑回归模型的企业违约风险评估方法的一种流程示意图；
53.图2为本说明书实施例提供的构建企业违约风险评估模型的一种流程示意图；
54.图3为本说明书实施例提供的企业违约风险评估模型的一种roc曲线图。
具体实施方式
55.为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本技术技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本技术一部分实施例，而不是全部的实施例。基于说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
56.为了便于本领域技术人员更好地理解本技术的技术方案，下面对本技术涉及的部分概念进行说明。
57.1)迹象权数
58.迹象权数的全称为weight of evidence，简写为woe。woe值表示的实际上是“当前分箱中违约客户占所有违约客户的比例”和“当前分组中正常客户占所有违约客户的比例”的差异。woe值可以用来衡量分箱后违约用户和正常用户的差异程度，woe值越大，表示这个分箱中违约用户和正常用户的差异程度越大，用户的违约概率越大。
59.2)信息值
60.信息值的全称为information value，简写为iv。当分箱样本占总体样本较小时，也会导致woe值很大，在这种情况下会导致数据的失真影响模型的预测精度。因此在变量分箱之后还需要计算变量的iv值，利用iv值筛选变量，可以度量变量的预测能力。
61.3)迭代的决策树算法
62.迭代的决策树算法的全称为gradient boosting decision tree，简写为gbdt。迭代的决策树算法又称为multiple additiveregression tree，简写为mart。迭代的决策树算法由多棵决策树组成。决策树的学习过程，就是使用训练集的样本特征，对数据进行划分，得到每个节点的叶子节点的预测结果。同时该算法又基于boosting算法的思想，每次迭代都在减少残差的方向新建一颗决策树，不断迭代提高预测的准确性。
63.4)逻辑回归模型
64.逻辑回归模型是以逻辑回归建立的传统评分卡模型，是使用最广泛、频次最高的模型。逻辑回归模型是一种用于分类问题的监督学习模型，无需进行数据假设，可以直接通过用户的资料和行为数据来拟合回归模型，得到回归系数，从而预测用户违约概率，并计算用户的信用评分。逻辑回归的主要思路其实是在线性回归的基础上增加了函数，利用该函数单调可微的性质将线性回归的预测值转化为取值范围在(0,1)的值，并通过设定阈值从而使得逻辑回归可以处理二分类问题，在本发明实施例中的二分类问题比如可以使正常用户与违约用户的分类。
65.5)roc曲线
66.很多二元分类器会产生一个概率预测值，而非仅仅是0-1预测值。可使用某个临界点(例如0.5)，以划分哪些预测为1，哪些预测为0。得到二元预测值后，可以构建一个混淆矩阵来评价二元分类器的预测效果。所有的训练数据都会落入这个矩阵中，而对角线上的数字代表了预测正确的数目，即true positive true negative。同时可以相应算出tpr(真正率或称为灵敏度)和tnr(真负率或称为特异度)。
67.如果选择一系列的临界点，就会得到一系列的tpr和tnr，将这些值对应的点连接起来，就构成了roc曲线。roc曲线表名这个分类器的性能水平，还能方便比较不同分类器的性能。在绘制roc曲线的时候，习惯上是使用1-tnr作为横坐标即fpr，tpr作为纵坐标。
68.6)auc值
69.auc值被定义为roc曲线下的面积，由于roc曲线一般都处于y＝x这条直线的上方，所以auc的取值范围在0.5和1之间。使用auc值作为评价标准时，对应auc更大的分类器效果更好。
70.以下结合附图，详细说明本技术各实施例提供的技术方案。图1为本说明书实施例提供的基于gbdt算法与逻辑回归模型的企业违约风险评估方法的一种流程示意图。
71.如图1所示，基于gbdt算法与逻辑回归模型的企业违约风险评估方法包括：
72.获取多个样本企业的企业经营数据，其中，所述企业经营数据为第三方主体存储的与样本企业有关的数据，且所述企业经营数据包括以下至少一种：工商管理数据、征信数据、互联网数据；
73.对各种所述企业经营数据进行处理，得到与每种企业经营数据对应的标准化数据，计算与每种标准化数据对应的woe值与iv值，并根据所述woe值对变量进行数值区间的划分，根据所述iv值对变量进行筛选；
74.将完成数值区间划分与筛选的变量作为输入数据集，采用gbdt算法进行训练，构造出适用于逻辑回归模型的入模变量；
75.将所述入模变量输入至逻辑回归模型，构建企业违约风险评估模型；
76.获取待评估企业的企业经营数据，采用所述企业违约风险评估模型对所述待评估企业进行评估，得到待评估企业的违约风险评估结果。
77.本实施例示例的基于gbdt算法与逻辑回归模型的企业违约风险评估方法，通过获取、整合第三方主体对样本企业的工商管理数据、征信数据、互联网数据等多种企业经营数据，将这些数据进行多步骤处理得到标准化数据，使用woe值以及iv值进行对标准化数据进行变量分箱及变量筛选，使用gbdt算法作为逻辑回归模型的前置算法，由gbdt算法构造出新的变量组合特征，输入到逻辑回归模型构建得到企业违约风险评估模型，最后由企业违约风险评估模型对待评估企业进行评估给出评估结果，识别企业的违约风险概率，有效地降低了信用贷款坏账率。本说明书实施例示例的上述方法，其中，企业经营数据采用第三方提供的数据能够更真实、公正地反映企业的经营现状和信用风险，利用第三方数据搭建企业违约风险评估模型，其评估结果的可信度和可参考度大大提升，而gbdt算法可以对模型的特征进行组合，进而选择出对模型贡献度更大的特征，同时对特征的重要性进行分析，对模型的预测结果给出合理解释。
78.在本实施例中，所述对各种所述企业经营数据进行处理，得到与每种企业经营数据对应的标准化数据，包括：
79.对所述企业经营数据进行规范化处理得到原始数据，其中，所述规范化处理包括以下至少一项：将所述企业经营数据进行融合对齐，去除所述企业经营数据中的噪声数据和/或冗余数据；
80.对所述原始数据进行计算处理，将所述原始数据中的字符型数据转化成数值型数据；
81.对计算处理后的所述原始数据进行标准化处理，消除所述原始数据的量纲，得到标准化数据。
82.进一步地，在本实施例中，采用大数据etl技术对所述企业经营数据进行规范化处理得到原始数据。采用z-score标准化方法对计算处理后的所述原始数据进行标准化处理，消除所述原始数据的量纲，得到标准化数据。
83.本实施例示例的基于gbdt算法与逻辑回归模型的企业违约风险评估方法，不同于传统的基于线下尽调数据、专家经验来评估企业违约风险的方法，采用由第三方主体存储的与样本企业有关的工商管理数据、征信数据、互联网数据等企业经营数据，能够更真实、公正地反映企业的经营现状和信用风险，上述数据经过多源数据融合，采用大数据etl技术对多源数据进行数据合并、数据对齐、数据融合等操作，并在多源数据融合基础之上建立企业多维指标体系，拓宽了企业违约风险评估模型的分析场景，更适用于没有积累违约样本数据情况下的企业客群预测分析。
84.在本实施例中，基于gbdt算法与逻辑回归模型的企业违约风险评估方法还包括：
85.根据预定义的违约风险标准对所述多个样本企业进行划分，将所述多个样本企业划分为正常企业与具有违约风险的企业，其中，所述预定义的违约风险标准包括以下至少一项：逾期、企业在金融黑名单中、企业在失信企业名单中、企业欠税、企业经营异常。
86.在本实施例中，基于gbdt算法与逻辑回归模型的企业违约风险评估方法还包括：
87.获取样本企业的多种企业经营数据，若所述多种企业经营数据中的一种或几种数据缺失，则获取该种企业经营数据缺失的原因；
88.根据数据缺失的原因判断该种企业经营数据对构建企业风险评估模型的影响，若该种企业经营数据在多个样本企业中缺失率大于60％，则对该种企业经营数据进行剔除。
89.在本实施例中，基于gbdt算法与逻辑回归模型的企业违约风险评估方法还包括：
90.采用roc曲线对构建的所述企业风险评估模型进行评价；和/或
91.采用auc值对构建的所述企业风险评估模型进行评价。
92.本实施例示例的基于gbdt算法与逻辑回归模型的企业违约风险评估方法，对实际的信贷评估系统的建立，具有很好的可行性,采用roc曲线或auc值验证了企业违约风险评估模型具有较好的预测能力和泛化能力，对实际的信贷风险监控和相关风控平台的建设具有重要的参考价值。银行风控部门可以通过本模型预测的结果进行二次筛选，作为其审批策略的组成部分，从而防范不良贷款的出现。
93.在本实施例中，基于gbdt算法与逻辑回归模型的企业违约风险评估方法还包括：
94.通过将分值表示为比率对数的线性表达式来定义评分卡的分值刻度，将所述企业违约风险评估模型得到的待评估企业的违约风险评估结果转换成评分卡结果。
95.本实施例示例的基于gbdt算法与逻辑回归模型的企业违约风险评估方法伴随企业海量数据的汇聚、大数据风控建模方法的引进、企业评估指标的不断丰富、序列特征的添加以及多种算法的融合，本实施例提出的方法更适用于大数据海量企业数据的业务场景。
96.为便于对本发明的理解，下面对上述基于gbdt算法与逻辑回归模型的企业违约风险评估方法的具体实施方式做进一步地描述，如图2所示：
97.首先，以小微企业为研究对象，获取多家样本企业的企业经营数据。其中，样本企业的数量至少在一千家以上。每个样本企业的企业经营数据包括但不限于企业的工商管理数据、第三方征信数据、政府数据及互联网数据等。
98.构建企业违约风险评估模型的目的、任务在于对小微企业进行区分，划分为没有违约风险的企业，即正常企业，与具有违约风险的企业。
99.因此，在构建企业违约风险评估模型前，先要预定义具有违约风险的标准。在本实施例中，“违约”不限于逾期，还可以是企业在金融黑名单、失信企业名单内，企业是欠税户，企业具有经营异常情况等。
100.根据预定义的具有违约风险的标准对多家样本企业进行划分，得到其中一部分企业是正常企业，另外一部分企业是具有违约风险的企业。
101.同时，在获取样本企业的各种企业经营数据时，可能出现其中的一种或几种数据缺失的情况，需要从业务角度获知数据缺失的原因。然后根据数据缺失的原因判断缺失的数据对构建企业风险评估模型的影响。如果在多个样本企业中，该种数据的缺失率较大，则可以对该种企业经营数据进行剔除，或者酌情使用。
102.在获取了多个样本企业的各种企业经营数据之后，利用大数据etl技术高效处理多源数据，将工商管理数据、征信数据及互联网数据进行融合对齐，去除其中的噪声数据、冗余数据，得到每个样本企业的原始数据，为每个样本企业建立数据库。
103.数据库中的大部分原始数据是字符型数据，无法用于建模，因此需要对原始数据
进行计算处理，将字符型数据转化成可以运用到逻辑回归模型中的数值型数据。
104.然后，对计算处理后的原始数据进行标准化处理，消除原始数据的量纲，得到标准化数据，利用标准化数据进行数据分析。数据的无量纲化处理，即标准化处理，主要解决的是数据的可比性问题，即各指标值都处于同一个数量级别上，才可以进行综合测评分析。
105.在本实施例中，采用z-score标准化方法，将数据的原始值x使用z-score标准化到x'。z-score标准化方法是基于数据的均值和标准差进行数据的标准化的。z-score标准化方法适用于变量的最大值和最小值未知的情况，或有超出取值范围的离群数据的情况。
106.标准化数据＝(原始数据-均值)/标准差
107.在得到多个样本企业的各种标准化数据之后，计算各类标准化数据的woe值与iv值。
108.可以选用离散型变量对各种标准化数据进行描述，计算与每种标准化数据对应的woe值与iv值。在本实施例中，选用离散型变量进行企业违约风险评估模型开发，主要原因如下：
109.(1)离散型变量有助于处理极端值或是样本数量较少的变量；
110.(2)非线性的因变量可应用于线性模型；
111.(3)离散型变量可协助模型开发人员了解各变量与目标事件的趋势关系；
112.(4)开发单位可预先知悉发生目标事件的开发样本及其概略的行为特质。
113.当然可以理解的是，根据需要的不同也可以选用连续型变量，这两种变量类型都适用于对企业违约风险评估模型的开发。
114.利用分析数据观察变量在不同期间的稳定程度，以及对目标事件的预测能力大小，通常根据每一个变量的woe值和iv值，综合考虑稳定性、预测能力及业务认知后，进行入模变量的筛选，同时各变量数值区间的划分。
115.其中，变量的woe值是对变量分箱，即数值区间划分，的一种方法。一开始先根据各变量数据的高低切分为较细的组别。分组的原则是组间差异大，组内差异小。分组占率不宜低于5％，各组中必须同时拥有正常企业与具有违约风险的企业。
116.woe值的计算公式为：
[0117][0118]
具有违约风险的企业占比率高于正常企业时，woe值为负数。woe值的绝对值越高，表示该组内正常企业与具有违约风险的企业的区隔程度越高。各组之间的woe值应尽可能拉开并呈现由低到高(或由高到低、正u型、倒u型)趋势，具体结果需结合业务需求。
[0119]
iv值可以协助模型开发人员了解各变量对于目标事件的单一预测能力的高低，借以挑选出高预测能力的变量进行开发。
[0120]
iv值的计算公式为：
[0121][0122]
iv值的判断标准为：
[0123]
iv预测能力《0.02无预测能力
0.02～0.10弱预测能力0.10(含)～0.30中预测能力≥0.30高预测能力
[0124]
在本实施例中，筛选出iv值大于0.30的具有良好风险预测能力的指标变量。
[0125]
由于逻辑回归模型对数据质量要求较高，易受到缺陷数据的影响。因此，在本实施例中，数据在完成woe值和iv值的计算后，还需要采用gbdt算法，进行特征组合。完成分箱、筛选的变量将作为输入数据集，通过gbdt训练出n棵树，构造出新的组合特征，即最终的入模变量。
[0126]
gbdt建模，首先要初始化第一个基学习器，它是一个只有根节点的树。然后建立m个基学习器，计算出损失函数的负梯度在当前模型的值，将它作为残差的估计。接下来创建一颗回归树cart来拟合这个残差。然后在拟合后的树的叶子节点找到一个尽可能的减小损失的的值。最后更新学习器。
[0127]
gbdt算法的步骤为：
[0128]
初始化损失函数：
[0129][0130]
对于第m轮迭代，当m《＝m时，执行(a)-(d)，其中(m＝1,2,...,m)。
[0131]
(a)计算残差：
[0132][0133]
(b)对残差r拟合一颗回归树，得到第m颗树的叶节点区域r，其中(j＝1,2，......,j)。
[0134]
(c)对j＝1,2，......,j，线性搜索出损失函数的最小值：
[0135][0136]
(d)更新f(x)：
[0137][0138]
得到回归树：
[0139][0140]
将采用gbdt算法构造出的新组合特征，即入模变量，输入到逻辑回归模型中构建企业违约风险评估模型。
[0141]
对于需要进行企业违约风险评估的小微企业，可以采用企业违约风险评估模型对其进行评估，得到最后的违约风险评估结果。
[0142]
构建企业违约风险评估模型，包括以下步骤：
[0143]
(a)定义模型：二分类问题，即将待评估企业分为正常企业或具有违约风险的企业，问题的概率与自变量之间的关系图往往是一个s型曲线，可以采用sigmoid函数实现，因此将sigmoid函数定义为：
[0144][0145]
函数的定义域为全体实数，值域在[0,1]之间，x轴在0点对应的结果为0.5。当x取值足够大的时候，可以看成0或1两类问题，大于0.5可以认为是1类问题，反之是0类问题，而刚好是0.5，则可以划分至0类或1类。
[0146]
对于0-1型变量，y＝1的概率分布公式定义如下：
[0147]
p(y＝1)＝p
[0148]
y＝0的概率分布公式定义如下：
[0149]
p(y＝0)＝1-p
[0150]
而实际应用中，概率p与因变量往往是非线性的，为了解决该类问题，在本实施例中，引入了logit变换，使得logit(p)与自变量之间存在线性相关的关系，构建得到的企业违约风险评估模型定义如下：
[0151][0152]
通过推导，概率p变换如下，这与sigmoid函数相符，也体现了概率p与因变量之间的非线性关系：
[0153][0154]
通过验证，构建得到的企业违约风险评估模型的精确率为80.44％，召回率为95.55％，说明构建得到的企业违约风险评估模型的二分类效果优良，能够将绝大部分的正常企业和具有违约风险的企业进行区别。
[0155]
本实施例示例的基于gbdt算法与逻辑回归模型的企业违约风险评估方法，采用gbdt算法可以对构建企业违约风险评估模型的特征变量进行组合，进而选择出对模型贡献度更大的变量，同时对变量的重要性进行分析，从而得到了适用于逻辑回归模型的入模变量。同时，采用逻辑回归模型构建企业违约风险评估模型，逻辑回归模型是一种用于分类问题的监督学习模型，无需进行数据假设，可以直接通过样本企业的资料和行为数据来拟合回归模型，得到回归系数，从而构建企业违约风险评估模型，用以预测企业违约概率，并计算企业的信用评分。
[0156]
基于gbdt算法与逻辑回归模型构建的企业违约风险评估模型对信贷风险的预测效果优于logistic回归单一模型。准确度越高，模型将正常企业视为具有违约风险的企业的错误率越低。较高的召回率表明，本实施例构建的企业违约风险评估模型将有较低的错误率，即将具有违约风险的企业认作为正常企业。结果表明，本实施例构建的企业违约风险评估模型在风险评估的准确率和召回率上有显著提高。同时，通过gbdt的特征组合可以得到较好的结果，模型输出的风险评估概率值更为有效，融合模型可以提高风险预测的准确性。
[0157]
本实施例示例的基于gbdt算法与逻辑回归模型构建的企业违约风险评估模型，可
以采用roc曲线和auc值来评价优劣。
[0158]
本实施例示例的基于gbdt算法与逻辑回归模型的企业违约风险评估方法，还可以采用评分卡的分值对企业违约风险评估模型得到的待评估企业的违约风险评估结果进行直观的展示。
[0159]
评分卡设定的分值刻度可以通过将分值表示为比率对数的线性表达式来定义，即可表示为下式：
[0160]
score＝a
–
blog(odds)＝基础分各变量得分
[0161][0162]
其中，a和b是常数。式中的负号可以使得违约概率越低，得分越高。通常情况下，这是分值的理想变动方向，即高分值代表低风险，低分值代表高风险。
[0163]
式中的常数a、b的值可以通过将两个已知或假设的分值带入计算得到。通常情况下，需要设定两个假设：
[0164]
(1)给某个特定的比率设定特定的预期分值；
[0165]
(2)确定比率翻番的分数(pdo)。
[0166]
根据以上的分析，首先假设比率为x的特定点的分值为p，则比率为2x的点的分值应该为p pdo。代入式中，可以得到如下两个等式：
[0167]
p＝a-blog(x)
[0168]
p-pdo＝a-blog(2x)
[0169]
根据事先的假设，通过解方程组确定a/b值。
[0170]
在前面的流程中已得到每个变量的woe值和各变量的logistic回归模型的系数，那么每条记录的违约和正常概率比的对数就可以得到。由于此时所有变量都用woe转换进行了转换，可以将这些自变量中的每一个都写(θiω
ij
)δ
ij
的形式，即：
[0171]
score＝a-b{θ0 (θ1ω
11
)δ
11
(θ2ω
12
)δ
12

…
(θ2ω
21
)δ
21
(θ2ω
22
)δ
22

…
(θ
x
ω
x2
)δ
x1
(θ
x
ω
x2
)δ
x2

…
}
[0172]
式中ω
ij
为第i行第j个变量的woe值，为已知变量；θi为逻辑回归方程中的系数，为已知变量；δ
ij
为二元变量，表示变量i是否取第j个值。
[0173]
上式可重新表示为：
[0174]
score＝(a-bθ0)
–
(bθ1ω
11
)δ
11-(bθ1ω
12
)δ
12
‑…‑
(bθ
x
ω
x1
)δ
x1-(bθ
x
ω
x2
)δ
x2
‑…
[0175]
此式即为最终评分卡公式。
[0176]
通过上述评分卡公式，可以将企业违约风险评估模型得到的待评估企业的违约风险评估结果进行计算，得到评分卡分值，从而显示待评估企业的违约风险概率。
[0177]
实施例一
[0178]
选取样本企业27196家，根据预定义的具有违约风险的标准对这些企业进行划分，得到其中正常企业21083家，具有违约风险的企业6113家。
[0179]
以每个样本企业的营业时长数据为例，首先获得存储在第三方主体中的样本企业的营业时长数据，然后数据进行规范化处理、计算处理以及标准化处理，从而得到营业时长的标准化数据。计算营业时长标准化数据的woe值，利用woe值，对营业时长变量进行区间划分。
[0180]
利用woe值对变量进行分箱有两个要求：
[0181]
(1)分组数占总样本数不宜低于5％，各组中必须同时拥有好坏样本。
[0182]
(2)各组之间的woe值应尽可能拉开并呈现由低到高(或由高到低、正u型、倒u型)趋势。
[0183]
表1：第一次分箱
[0184][0185][0186]
表2：第二次分箱
[0187]
营业时长各组总数总占率违约件违约件占率正常件正常件占率woe《-0.776725070.09218267430.00049075725040.1187686765.488983066-0.7767～-0.622749930.1835931753360.05496482946570.2208888681.390966206-0.6227～-0.545025240.0928077661760.02879110123480.111369351.352785808-0.5450～-0.455024770.0910795713850.06298053320920.0992268650.454583113-0.4550～-0.319925050.0921091345130.08391951619920.0944837070.118569215-0.3199～-0.146024960.0917782036000.0981514818960.089930276-0.08747735-0.1460～0.2325030.0920355937500.12268935117530.08314756-0.3890386990.23～0.725524970.0918149739710.15884181315260.072380591-0.7859706340.7255～ ∞46940.17259891223790.3891706223150.109804108-1.265319921合计27196161131210831 [0188]
根据以上两次分箱情况可以看出，第一次分箱的woe值较密集，且数值分布呈现波浪式上升下降趋势，不符合要求；第二次分箱得到的woe值相对分散，且数值分布呈现由高到底的趋势，说明随着企业营业时长的增加，坏样本出现的概率逐渐递增。
[0189]
同时，计算营业时长的iv值为1.447006916，结合iv值的判断标准，可知营业时长具有高预测能力，因此将营业时长作为评估企业违约风险的特征变量。
[0190]
采用相同的方法对样本企业的其他经营数据进行处理，完成变量的分箱及筛选。完成分箱、筛选的变量将作为输入数据集，通过gbdt训练出n棵树，构造出新的组合特征，即最终的入模变量。
[0191]
将最终的入模变量输入至逻辑回归模型，构建得到企业违约风险评估模型。
[0192]
采用roc曲线与auc值对企业违约风险评估模型进行检验。本实施例示例的企业违约风险评估模型建模的roc曲线，如图3所示，建模的auc值为0.77。因此，本实施例示例的企业违约风险评估模型的预测能力优良。
[0193]
本技术的一些实施例还提供了对应于图1的一种基于gbdt算法与逻辑回归模型的企业违约风险评估的设备，其中，包括：
[0194]
至少一个处理器；以及，
[0195]
与所述至少一个处理器通信连接的存储器；其中，
[0196]
所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：
[0197]
获取多个样本企业的企业经营数据，其中，所述企业经营数据为第三方主体存储的与样本企业有关的数据，且所述企业经营数据包括以下至少一种：工商管理数据、征信数据、互联网数据；
[0198]
对各种所述企业经营数据进行处理，得到与每种企业经营数据对应的标准化数据，计算与每种标准化数据对应的woe值与iv值，并根据所述woe值对变量进行数值区间的划分，根据所述iv值对变量进行筛选；
[0199]
将完成数值区间划分与筛选的变量作为输入数据集，采用gbdt算法进行训练，构造出适用于逻辑回归模型的入模变量；
[0200]
将所述入模变量输入至逻辑回归模型，构建企业违约风险评估模型；
[0201]
获取待评估企业的企业经营数据，采用所述企业违约风险评估模型对所述待评估企业进行评估，得到待评估企业的违约风险评估结果。
[0202]
本技术的一些实施例还提供了对应于图1的一种基于gbdt算法与逻辑回归模型的企业违约风险评估的非易失性计算机存储介质，存储有计算机可执行指令，其中，所述计算机可执行指令设置为：
[0203]
获取多个样本企业的企业经营数据，其中，所述企业经营数据为第三方主体存储的与样本企业有关的数据，且所述企业经营数据包括以下至少一种：工商管理数据、征信数据、互联网数据；
[0204]
对各种所述企业经营数据进行处理，得到与每种企业经营数据对应的标准化数据，计算与每种标准化数据对应的woe值与iv值，并根据所述woe值对变量进行数值区间的划分，根据所述iv值对变量进行筛选；
[0205]
将完成数值区间划分与筛选的变量作为输入数据集，采用gbdt算法进行训练，构造出适用于逻辑回归模型的入模变量；
[0206]
将所述入模变量输入至逻辑回归模型，构建企业违约风险评估模型；
[0207]
获取待评估企业的企业经营数据，采用所述企业违约风险评估模型对所述待评估企业进行评估，得到待评估企业的违约风险评估结果。
[0208]
本技术中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备和介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
[0209]
本技术实施例提供的设备和介质与方法是一一对应的，因此，设备和介质也具有与其对应的方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述设备和介质的有益技术效果。
[0210]
本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序
产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0211]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0212]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0213]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0214]
在一个典型的配置中，计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
[0215]
内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
[0216]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。
[0217]
还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0218]
以上所述仅为本技术的实施例而已，并不用于限制本技术。对于本领域技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本技术的权利要求范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：画报生成方法、装置、设备及存储介质与流程

基于GBDT算法与逻辑回归模型的企业违约风险评估方法设备及介质与流程

相关文献

最热文献