一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种企业信用评分方法及装置与流程

2022-11-14 16:07:48 来源:中国专利 TAG:


1.本发明涉及企业信用评分领域,具体提供一种企业信用评分方法及装置。


背景技术:

2.深度学习由神经网络衍生而来,通过模拟人脑学习和处理知识的能力,来实现具体模式的识别。相较于传统评分方法,深度学习并行分布处理能力强,分布存储及学习能力强,可以用在监督领域(分类、预测)和非监督领域(特征衍生),能够学习大量数据特征中错综复杂隐藏的特征关联及模式特征。基于深度学习的企业信用评分是深度学习技术在企业信用评分中的拓展应用之一,也为后期基于大量数据、特征运用深度学习技术进行企业风控领域中各类模型的建立奠定了基础。
3.企业信用评分是对企业进行信贷风险管控的重要环节之一,根据已有数据提供逾期概率指标参考,是以分数的形式来衡量风险几率的一种手段,通常评分越高越安全。企业信用评分建模常采用逻辑回归、决策树、组合模型的机器学习建模方法。随着人工智能技术在金融风控领域中应用的普及,以深度学习技术为主的信用评分模型也得到了广泛应用。信贷金融行业,以其小额分散的特点,用户更加下沉,更需要在贷款、审批、客户服务、贷后管理的各个环节不断完善智能化,降低自身风险。


技术实现要素:

4.本发明是针对上述现有技术的不足,提供一种实用性强的企业信用评分方法。
5.本发明进一步的技术任务是提供一种设计合理,安全适用的企业信用评分装置。
6.本发明解决其技术问题所采用的技术方案是:
7.一种企业信用评分方法,具有如下步骤:
8.s1、数据汇聚融合建立标准数据仓库;
9.s2、筛选企业信用评估指标;
10.s3、特征工程形成信用评估入模指标;
11.s4、深度学习模型建立;
12.s5、深度学习模型训练;
13.s6、入模特征重要性评估;
14.s7、企业评分形成。
15.进一步的,在步骤s1中,首先建立统一的数据标准规范对入库的多源数据进行规范化管理;其次,通过etl数据治理工具进行多源数据的治理加工,互联网数据存储数据定期拉取,实时接口数据通过内存进行处理,结合批流处理模式对数据进行数据加工处理、数据标准化、指标计算和轻特征挖掘;
16.最后,三方多源数据通过横纵向数据融合,融合汇聚到统一的数据仓库中,数据仓库存储多源数据融合之后的标准库数据、加工所得指标库和特征库。
17.进一步的,在步骤s2中,基于建立的企业多源数据标准库,建立覆盖三级层次的企
业标准库,基于标准库建立企业信用评估指标体系,其中三级指标为通过数据库表格抽取的具体的企业信用评估指标;二级指标是基于三级指标基础之上融入业务知识归类整理的企业信用评估指标类别;
18.一级指标为评估企业信用风险最终确定的评估维度,一级指标维度会用于企业画像的雷达图展示中,用以评估企业在各个细分维度上的信用风险情况。
19.进一步的,在步骤s3中,首先进行探索性数据分析,探索性数据分析主要包括对训练样本及海选指标进行简单的描述统计,经过对数据进行简单的统计分析之后,对特定指标数据进行数据切分,对数据的动态变化情况、某一特定条件下的取值情况进行深入的剖析;通过绘制单变量的直方图曲线、单变量与目标变量的关系曲线对入模样例指标进行可视化分析。
20.进一步的,在步骤s3中,然后进行数据清洗,采用randomforest随机森林方法对训练样本中的缺失指标进行填充,首先统计特征中存在缺失值的特征和不存在缺失值的特征列表,缺失特征中每一个缺失指标分别选做目标函数,特征变量和目标变量的非缺失值作为训练样例,用来训练randomforest模型,训练好的随机森林模型输出保存,用于预测缺失特征的缺失值。经过数据清洗、缺失值填充的训练样例进行z-score标准化处理,形成标准化后的训练向量,待神经网络结构确立后输入神经网络进行模型训练。
21.进一步的,在步骤s4中,首先,确定神经网络结构,再确定激活函数,最后确定权重搜索策略。
22.进一步的,在步骤s5中,深度学习网络的训练常采用tensorflow和keras的开源包来进行深度学习模型的训练,训练过程中通过绘制模型学习曲线来展示模型训练过程中损失函数、训练样例准确率、测试样例准确率伴随模型迭代过程的变化情况,用来判断模型的收敛情况。
23.进一步的,在步骤s6中,深度学习网络建设过程中会通过选用输入扰动特征的重要性来评估入模指标的重要性,对数据x的每一个特征,进行打乱,然后对新的x输入网络得到预测值,计算损失函数,作为该特征的重要性分数;
24.针对入模特征运用输入扰动特征的重要性来评估入模指标的重要性之后,入模特征按照扰动特征重要性从高到低排列,依次选择不同的阈值来筛选入模特征,针对筛选后的特征运用已确定的深度学习网络结构进行多次模型的训练,最终通过深度学习模型的训练效果确定最终的入模特征,最终确定最优的深度学习网络模型并输出模型保存。
25.进一步的,在步骤s7中,标准的评分卡转换方法有两种,一是基于woe转换的方法,通过woe值及逻辑回归模型预测所得特征的系数进行特征分值的计算;
26.二是基于模型预测所得的企业违约概率,根据违约概率进行标准分值的转换,深度学习网络预测企业的违约概率,通过标准评分卡转换方法将企业预测所得的企业违约概率转换成企业的标准评分;
27.最后,通过正态检验方法对训练样本的整体评分分布进行检验,针对评分分布不符合正态分布的评分结果通过分值调整、分值转换进行分布调整。
28.一种企业信用评分装置,包括:至少一个存储器和至少一个处理器;
29.所述至少一个存储器,用于存储机器可读程序;
30.所述至少一个处理器,用于调用所述机器可读程序,执行一种企业信用评分方法。
31.本发明的一种企业信用评分方法及装置和现有技术相比,具有以下突出的有益效果:
32.本发明构建了相对准确的企业信用评分模型运用深度学习技术对客户高维特征进行深入挖掘分析客户潜在风险,让信贷审批服务更加高效快捷。
附图说明
33.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
34.附图1是一种企业信用评分方法的流程示意图。
具体实施方式
35.为了使本技术领域的人员更好的理解本发明的方案,下面结合具体的实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。
36.下面给出一个最佳实施例:
37.如图1所示,本实施例中的一种企业信用评分方法,基于深度学习的企业信用评分模型的实现步骤主要包括:基于收集的企业数据、互联网数据、第三方接口数据进行数据汇聚、数据治理和数据融合,最终形成融合后的标准数据存储于数据仓库中的标准库中。
38.基于标准库筛选企业信用评估指标,建立覆盖三层的企业信用评估指标体系;基于海选的信用评估指标进行特征清洗、特征筛选,确定最终入模指标;将深度学习与逻辑回归相融合建立深度学习神经网络结构包括网络结构、激活函数、权重搜索策略等;基于形成的模型训练向量以及建立好的深度学习模型训练企业信用评估模型,针对模型进行迭代调优,最终确立最优模型;基于最优模型预测企业违约概率,基于违约概率对企业进行标准评分卡转换,形成企业标准评分,检验企业评分分布情况,形成最终的企业信用评分。
39.具体步骤如下:
40.s1、数据汇聚融合建立标准数据仓库;
41.企业的多源数据覆盖企业政府数据包括工商、公积金、社保、发改委、银保监、行政处罚等信息,企业的互联网数据包括电商数据、上市信息、认定信息、网店信息、法律诉讼、失信被执行、招投标等信息,企业的第三方数据包括企业工商信息、人员信息、人企关系数据等信息;首先建立统一的数据标准规范对入库的多源数据进行规范化管理;其次,通过etl等数据治理工具进行多源数据的治理加工,互联网数据等可存储数据定期拉取,实时接口数据通过内存进行处理,结合批流处理模式对数据进行数据加工处理、数据标准化、指标计算、轻特征挖掘等;最后,三方多源数据通过横纵向数据融合,融合汇聚到统一的数据仓库中,数据仓库存储多源数据融合之后的标准库数据、加工所得指标库、特征库等信息。
42.s2、筛选企业信用评估指标;
43.基于建立的企业多源数据标准库,建立覆盖三级层次的企业标准库,基于标准库
建立企业信用评估指标体系。其中三级指标为通过数据库表格抽取的具体的企业信用评估指标,如近一年获得海关企业等级次数、企业实缴资本、存续时长、人员规模、是否列入黑名单、近一年守合同重信用评级次数等;二级指标是基于三级指标基础之上融入业务知识归类整理的企业信用评估指标类别,例如风险、法定代表人、关联关系、管理层、行业、合法、经营、区域等;一级指标为评估企业信用风险最终确定的评估维度,例如偿债、行业、经营、履约、区域、现金流、营运等指标,一级指标维度会用于企业画像的雷达图展示中,用以评估企业在各个细分维度上的信用风险情况。
44.s3、特征工程形成信用评估入模指标;
45.基于企业多源数据筛选的海选指标需要经过探索性数据分析、数据清洗、变量选择、变量衍生等多个流程最终形成模型训练所需的入模特征。
46.1)探索性数据分析
47.探索性数据分析主要包括对训练样本及海选指标进行简单的描述统计,分析各指标的方差、均值、中位数、数据分布等,经过对数据进行简单的统计分析之后,对特定指标数据(时间序列、某一个时期、某一个国家、指标随时间推移的变化数据等)进行数据切分,对数据的动态变化情况、某一特定条件下的取值情况进行深入的剖析;通过绘制单变量的直方图曲线、单变量与目标变量的关系曲线等对入模样例指标进行可视化分析。
48.2)数据清洗
49.数据清洗首先对指标中的无效值进行处理,对部分可量化指标进行数值量化;然后对入模指标进行缺失值统计,去除缺失值大于60%的训练指标;针对剩余指标进行同值率的统计,去除属性只有一个值的特征,去除属性同值率大于60%的指标;去除探索性数据分析中确定不合理的指标;针对剩余评估指标进行vif共线性分析,去除相关特征;根据样本特征缺失占比对训练样本进行特征缺失比率计算,去除特征缺失占比大于50%的训练样本;针对指标异常值采用箱型图的四分位距(iqr)方法进行异常值检测,根据上四分位数标准筛选部分指标的异常值,筛选出的异常值当做缺失值用特定数值
“‑
999”进行填充。
50.采用randomforest随机森林方法对训练样本中的缺失指标进行填充,首先统计特征中存在缺失值的特征和不存在缺失值的特征列表,缺失特征中每一个缺失指标分别选做目标函数,特征变量和目标变量的非缺失值作为训练样例,用来训练randomforest模型,训练好的随机森林模型输出保存,用于预测缺失特征的缺失值。经过数据清洗、缺失值填充的训练样例进行z-score标准化处理,形成标准化后的训练向量,待神经网络结构确立后输入神经网络进行模型训练。
51.s4、深度学习模型建立;
52.深度学习模型的网络结构很多,可采用的有全连接mlp网络、cnn卷积网络等,建模过程主要包括神经网络结构的确定(包括输入层节点数、隐层层数、隐层节点数、隐层联结状态)、激活函数、神经网络权重寻优策略确定(包括损失函数、学习速率、迭代次数的确立)以及深度学习模型的训练。
53.1)确定神经网络结构
54.神经网络的组成包括输入层、隐藏层、输出层三部分。输入层,神经网络的输入层节点个数即为输入训练样例特征的个数,往往根据入模特征数进行输入层节点数的确定;输出层,神经网路的输出层节点个数对应训练样例的类别数;隐藏层层数,实际建模隐藏层
层数及隐藏层节点个数往往根据实验效果对比以及经验进行选择;隐层节点数,如果隐层结点数过少,网络不能具有必要的学习能力和信息处理能力,若过多,不仅会大大增加网络结构的复杂性,网络在学习过程中更易陷入局部极小点,而且会使网络的学习速度变得很慢。
55.2)确定激活函数
56.最常见的神经网络激活函数包括sigmoid、tanh、softplus、relu(整流器rectifier liner units)等几种,建模过程中往往通过对比分析来确定最终神经网络的激活函数。
57.3)确定权重搜索策略
58.神经网络的权重搜索策略主要包括损失函数、优化器、学习速率、迭代次数的确定。损失函数,损失函数用来预测输出值与真实值相差多少,神经网络模型训练借助损失函数来计算输出值与真实值之间的差值,反过去调整权重及参数(即反向传播策略),再使用梯度下降法来调整模型参数;优化器,深度学习网络的训练常采用开源弓弩tensorflow、keras等进行模型训练,工具中融合了多种优化器可供选择则,实际建模中可根据实际训练样本的情况进行对比分析选择最优优化器;学习速率,学习速率即为梯度下降法中步长,学习速率太小会导致计算缓慢,学习速率太大会导致不收敛,建模过程中常根据经验和实际数据确定默认值;迭代次数,迭代次数决定了神经网络模型训练过程中判断学习过程是否结束,迭代次数过小会导致精度太低,迭代次数过大会导致时间开销太大,具体迭代次数的确定往往根据实际建模训练过程中模型收敛的情况来动态调整。
59.s5、深度学习模型训练;
60.深度学习网络的训练常采用tensorflow和keras的开源包来进行深度学习模型的训练,训练过程中通过绘制模型学习曲线来展示模型训练过程中损失函数、训练样例准确率、测试样例准确率伴随模型迭代过程的变化情况,用来判断模型的收敛情况。
61.s6、入模特征重要性评估;
62.深度学习网络建设过程中会通过选用输入扰动特征的重要性来评估入模指标的重要性,对数据x的每一个特征,进行打乱,然后对新的x输入网络得到预测值,计算损失函数,作为该特征的重要性分数。针对入模特征运用输入扰动特征的重要性来评估入模指标的重要性之后,入模特征按照扰动特征重要性从高到低排列,依次选择不同的阈值来筛选入模特征,针对筛选后的特征运用已确定的深度学习网络结构进行多次模型的训练,最终通过深度学习模型的训练效果确定最终的入模特征,最终确定最优的深度学习网络模型并输出模型保存。
63.s7、企业评分形成;
64.基于扰动特征重要性的多阈值选择和多次的模型迭代,最终得到模型效果最优、稳定的深度学习网络模型,基于深度学习网络模型预测企业违约概率,通过评分卡转化方法根据企业违约概率计算企业总体评分。标准的评分卡转换方法主要有两种,一是基于woe转换的方法,通过woe值及逻辑回归模型预测所得特征的系数进行特征分值的计算;二是基于模型预测所得的企业违约概率,根据违约概率进行标准分值的转换。深度学习网络预测企业的违约概率,通过标准评分卡转换方法将企业预测所得的企业违约概率转换成企业的标准评分。最后,通过正态检验方法对训练样本的整体评分分布进行检验,针对评分分布不
符合正态分布的评分结果通过分值调整、分值转换等方法进行分布调整。
65.基于上述方法,本实施例中的一种企业信用评分装置,包括:至少一个存储器和至少一个处理器;
66.所述至少一个存储器,用于存储机器可读程序;
67.所述至少一个处理器,用于调用所述机器可读程序,执行一种企业信用评分方法。
68.上述具体的实施方式仅是本发明具体的个案,本发明的专利保护范围包括但不限于上述具体的实施方式,任何符合本发明的一种企业信用评分方法及装置权利要求书的且任何所述技术领域普通技术人员对其做出的适当变化或者替换,皆应落入本发明的专利保护范围。
69.尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献