一种基于LightGBM的企业失信风险预测模型构建方法与流程

2022-12-13 21:11:20 来源：中国专利 TAG：

一种基于lightgbm的企业失信风险预测模型构建方法
技术领域
1.本发明涉及风控技术领域，具体的，涉及一种基于lightgbm的企业失信风险预测模型构建方法。

背景技术：

2.当前企业公共信用监管主要采用人工识别的方法，信用监管相关管理与督察人员利用专家知识，将已出现违法处罚的企业识别为高失信风险企业，该方法基于历史专家经验，能够较为准确的识别出高失信风险企业，但是该方法只能识别出有一定历史不良信息的高失信风险企业，对于无事先知识的企业则无法预判其失信风险，且近年来随着经济的蓬勃发展，企业数量呈爆炸式增长，主要依赖人力资源的人工识别方法已无法满足日益增长企业信用监管需要。

技术实现要素：

3.本发明的目的是解决现有技术针对无事先知识的企业缺乏风控的弊端，提出了一种基于lightgbm的企业失信风险预测模型构建方法，能够利用已有的企业数据信息高效、准确、全面的同时对众多企业失信风险进行快速预测，解决现有技术过于依赖人工、不智能、不全面、成本高的问题。
4.本发明实施例中提供的一种技术方案是，一种基于lightgbm的企业失信风险预测模型构建方法，包括如下步骤：s1、获取关联企业多维度公开数据信息；s2、将关联企业多维度公开数据信息存储至目标数据库；s3、采用极大保留策略对目标数据库中的企业信用数据特征进行初步删选；s4、对目标数据库中的数据进行清洗；s5、构建基于目标数据库的特征工程，并划分数据集；s6、构建基于lightgbm算法的企业失信风险预测模型，并采用训练集数据对其进行训练；s7、对企业失信风险预测模型进行进行评估和优化。
5.作为优选，所述关联企业多维度公开数据信息包括但不限于企业基础信息、企业经营信息、法人代表信息、企业纳税信息、企业行政处罚信息、企业纳税信息、企业裁判信息以及企业历史失信信息；关联企业多维度公开信息来源包括但不限于政府相关监管部门公开信息、企业历史失信信息、网络企业公开信息以及网络舆情信息；关联企业多维度公开信息的采集技术包括但不限于网络爬虫技术、相关数据库合法采集以及人工收集。
6.作为优选，s2中，将关联企业公开数据信息存储至目标数据库之前，需要执行以下步骤：采用etl技术对异源的关联企业公开数据信息进行抽取、转换、合并、加载至目标
数据库；其中，转换过程包括但不限于对不同来源、不同格式数据的格式统一。
7.作为优选，初步删选中，仅筛除绝对无关数据特征。
8.作为优选，s4、对目标数据库中的数据进行清洗，包括如下步骤：去除冗余数据特征，冗余数据特征包括但不限于目标数据库中重复数据的整合与去重、相近或重复特征的合并与删除；处理缺失数据，统计并计算每个数据特征的数据缺失率，对于数据缺失率大于缺失上限值q1的数据特征采用删除法，对数据缺失率小于缺失下限值q2的数据特征进行数据填充；处理异常数据，包括删除异常数据；类别标记，将存在失信历史的企业标记为正样本数据集，不存在失信历史的企业记为负样本数据集；数据标准化，采用z-score标准化方法统一连续型数值特征的量纲；采用独热编码技术对离散型类别特征进行标准化编码。
9.作为优选，数据填充方法包括但不限于均值填充法、0值填充法、热卡填充法、最近距离决定填充法。
10.作为优选，构建基于目标数据库的特征工程，包括：根据数据特征间的时间属性，对于正样本数据集仅保留企业发生失信行为前n年的历史数据；采用关联关系计算法，分别计算各个数据特征与企业失信行为间的关联关系，删除二者相关性为0的特征。
11.作为优选，划分数据集包括：采用随机抽取的方式划分训练集与验证集，其中训练集与验证集的数据比例为7：3。
12.作为优选，构建基于lightgbm算法的企业失信风险预测模型，包括：采用梯度提升决策树作为集成学习器，采用leaf-wise分裂策略作为集成学习器的分裂方法，在当前所有叶子节点中选择分裂收益最大的节点进行分裂；其中，采用基尼系数来度量当前各个叶子节点分裂收益；采用以下方式防止企业失信风险预测模型过拟合，包括：限制叶子节点最小样本数，当弱决策树学习器叶子节点是等于或小于限制时，叶子节点停止分裂；引入l2范数正则化；特征随机选择，在每轮训练中只随机选取样本数据特征空间集的固定大小的子集参与训练；训练样本随机，在每轮训练中只随机抽取训练数据集中固定数量的训练样本参与训练；早停止机制，当模型相较上轮训练没有达到预期提升时，停止训练。
13.采用验证数据集对企业失信风险预测模型进行评估，采用精确率、召回率与f1系数作为所述企业失信风险预测模型的评估指标，得到最优模型。
14.本发明的有益效果：本发明一种基于lightgbm的企业失信风险预测模型构建方法，构建的企业失信风险预测模型能够较为准确的预测企业失信风险，具有良好的稳定性、鲁棒性与业务可解释性，能够较好的辅助相关部门与人员对企业失信风险进行预判、管理
与督察。
15.上述发明内容仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
16.通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。
17.图1为本发明的一种基于lightgbm的企业失信风险预测模型构建方法的流程图。
具体实施方式
18.为使本发明的目的、技术方案以及优点更加清楚明白，下面结合附图和实施例对本发明作进一步详细说明，应当理解的是，此处所描述的具体实施方式仅是本发明的一种最佳实施例，仅用以解释本发明，并不限定本发明的保护范围，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
19.在更加详细地讨论示例性实施例之前，应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作(或步骤)可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤；所述处理可以对应于方法、函数、规程、子例程、子程序等等。
20.实施例：如图1所示，一种基于lightgbm的企业失信风险预测模型构建方法，包括如下步骤：s1、获取关联企业多维度公开数据信息；s2、将关联企业多维度公开数据信息存储至目标数据库；s3、采用极大保留策略对目标数据库中的企业信用数据特征进行初步删选；s4、对目标数据库中的数据进行清洗；s5、构建基于目标数据库的特征工程，并划分数据集；s6、构建基于lightgbm算法的企业失信风险预测模型，并采用训练集数据对其进行训练；s7、对企业失信风险预测模型进行进行评估和优化。
21.所述关联企业多维度公开数据信息包括但不限于企业基础信息、企业经营信息、法人代表信息、企业纳税信息、企业行政处罚信息、企业纳税信息、企业裁判信息以及企业历史失信信息；关联企业多维度公开信息来源包括但不限于政府相关监管部门公开信息、企业历史失信信息、网络企业公开信息以及网络舆情信息；关联企业多维度公开信息的采集技术包括但不限于网络爬虫技术、相关数据库合法采集以及人工收集。
22.s2中，将关联企业公开数据信息存储至目标数据库之前，需要执行以下步骤：
采用etl技术对异源的关联企业公开数据信息进行抽取、转换、合并、加载至目标数据库；其中，转换过程包括但不限于对不同来源、不同格式数据的格式统一。
23.初步删选中，仅筛除绝对无关数据特征。
24.s4、对目标数据库中的数据进行清洗，包括如下步骤：去除冗余数据特征，冗余数据特征包括但不限于目标数据库中重复数据的整合与去重、相近或重复特征的合并与删除；处理缺失数据，统计并计算每个数据特征的数据缺失率，对于数据缺失率大于缺失上限值q1(例如95％)的数据特征采用删除法，对数据缺失率小于缺失下限值q2(例如40％)的数据特征进行数据填充；处理异常数据，包括删除异常数据；类别标记，将存在失信历史的企业标记为正样本数据集，不存在失信历史的企业记为负样本数据集；数据标准化，采用z-score标准化方法统一连续型数值特征的量纲；采用独热编码技术对离散型类别特征进行标准化编码。
25.数据填充方法包括但不限于均值填充法、0值填充法、热卡填充法、最近距离决定填充法。
26.构建基于目标数据库的特征工程，包括：根据数据特征间的时间属性，对于正样本数据集仅保留企业发生失信行为前n年的历史数据；采用关联关系计算法，分别计算各个数据特征与企业失信行为间的关联关系，删除二者相关性为0的特征。针对特征数远小于样本集数量的情况，基于实际业务状况，构建企业高级信用特征，其中高级信用特征是由数据集中基本特征通过进一步计算所得。例，计算企业市值随时间的变化趋势，详细包括但不限于计算市值的增减，市值增减的比例，市值的同比与环比等；计算企业利润随时间的变化趋势，详细包括但不限于计算利润的增减、利润增减的比例、利润的同比与环比等。
27.划分数据集包括：采用随机抽取的方式划分训练集与验证集，其中训练集与验证集的数据比例为7：3。
28.构建基于lightgbm算法的企业失信风险预测模型，包括：采用梯度提升决策树作为集成学习器，采用leaf-wise分裂策略作为集成学习器的分裂方法，在当前所有叶子节点中选择分裂收益最大的节点进行分裂；其中，采用基尼系数来度量当前各个叶子节点分裂收益；采用以下方式防止企业失信风险预测模型过拟合，包括：限制叶子节点最小样本数，当弱决策树学习器叶子节点是等于或小于限制时，叶子节点停止分裂；引入l2范数正则化；特征随机选择，在每轮训练中只随机选取样本数据特征空间集的固定大小的子集参与训练；训练样本随机，在每轮训练中只随机抽取训练数据集中固定数量的训练样本参与训练；早停止机制，当模型相较上轮训练没有达到预期提升时，停止训练。
29.本实施例中，lightgbm是一种基于决策树算法的分布式梯度提升框架，采用直方
图算法来提高计算速度。
30.具体的，进行训练的目标是，训练一个模型使其可以较好的预测企业未来发生失信风险的可能性。
31.具体的，训练过程采用梯度提升决策树(gradient boosting decision tree，gbdt)为集成学习器，在gbdt的迭代中，每一轮的迭代目标就是找到一个弱决策树学习器，使得本轮的损失函数最小。
32.gbdt算法模型如下：其中，x为输入样本，h为分类回归树，w
t
为第t棵分类回归树的参数，α
t
为第t树的权重参数。
33.具体的，在弱决策树学习器的分裂方法上，采用leaf-wise分裂策略，在当前所有叶子节点中选择分裂收益最大的节点进行分裂。其中，采用基尼系数来度量当前各个叶子节点分裂收益。
34.基尼系数公式如下：其中，k为数据集中样本类型数，pi为第i类样本数量占总样本数量的比例。
35.具体的，对于过拟合问题，在模型训练过程中，主要采取以下策略进行避免：基于学习器深度限制，限制弱决策树学习器的深度，当弱决策树学习器深度等于或超过限制时，叶子节点停止分裂；限制叶子节点最小样本数，当弱决策树学习器叶子节点是等于或小于限制时，叶子节点停止分裂；引入l2范数正则化；特征随机选择，在每轮训练中只随机选取样本数据特征空间集的固定大小的子集参与训练；训练样本随机，在每轮训练中只随机抽取训练数据集中固定数量的训练样本参与训练；早停止机制，当模型相较上轮训练没有达到预期提升时，停止训练。
36.采用验证数据集对企业失信风险预测模型进行评估，采用精确率、召回率与f1系数作为所述企业失信风险预测模型的评估指标，得到最优模型。
37.具体的，采用验证数据集对企业失信风险预测模型进行评估，采用精确率、召回率、精确率与召回率的调和平均数即f1系数来对模型进行评估，不断对模型参数与数据训练特征进行调整，直至模型在测试训练集上得到相对满意结果，需要明确的是本实施例方法构建的企业失信风险与车模型输出的是企业失信的概率，输出值越大则表示模型预测该企业失信风险越高；其中，由于精确率与召回率呈负相关，因此采用f1系数平衡两者以保证模型的准确性与泛化能力，f1系数越大则说明模型性能越好。在本发明实例中当f1系数为0.6左右时模型效果较优，此时算法收敛且能较准确的计算出企业发生失信行为的风险。需要说明的是即使几个模型的计算结果中f1系数极为接近，但模型间的准确率与召回率的值也可能不同，几者并无绝对最优，本领域技术人员可根据实际业务情景选择合适的模型。
38.本实施例所述的企业失信风险预测模型，能够较为准确的识别出高失信风险企业，具有良好稳定性与鲁棒性，且模型本身具有较高的业务可解释性，在帮助相关公共信用
管理部门进行企业失信风险预判的同时，能够为公共信用业务监管提供进一步优化的方向，解决了传统企业公共信用监管难的问题，进一步推进了企业公共信用监管数据化、智能化。
39.以上所述之具体实施方式为本发明一种基于lightgbm的企业失信风险预测模型构建方法的较佳实施方式，并非以此限定本发明的具体实施范围，本发明的范围包括并不限于本具体实施方式，凡依照本发明之形状、结构所作的等效变化均在本发明的保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：应用软件操作控制方法、SDK、电子设备、及存储介质与流程

一种基于LightGBM的企业失信风险预测模型构建方法与流程

相关文献

最热文献