一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种信用评估方法与流程

2021-12-15 02:23:00 来源:中国专利 TAG:


1.本发明涉及数据建模技术领域,具体为一种基于xgb算法模型的信用评估方法。


背景技术:

2.数据库技术、数理统计技术、计算机技术的发展为评分模型的发展和应用提供了科技基础。以预测模型为核心的信用评分模型通过挖掘消费者的行为特征、资信能力等,运用数理统计技术,系统性地对客户未来的信用表现作出预测,以分数对客户按表现优劣进行排队,作为决策依据。预测模型在20世纪七八十年代开始被推广使用,至今仍是信贷管理中使用最广泛、发展最完善的技术。随着征信信息的日益完善,覆盖群体的扩大,以征信为核心的信用评分模型也在汽车信贷、个人信贷、个人信用卡、小微经营贷等领域广泛应用。但征信信息的核心主要是客户信用卡、贷款每月的借还款行为,以信贷行为为主,而未囊括其他与客户信贷表现可能有关的消费行为、支付行为等。


技术实现要素:

3.本发明意在提供一种用客户授权后获取的银行卡交易数据,构建客户级消费、交易画像变量,预测客户信贷风险的一种信用评估方法。
4.本发明一种信用评估方法,包括以下内容,
5.数据获取,基于已查询授权的客户样本,获取各个客户的银行卡交易流水数据;
6.变量衍生,基于获取的银行卡交易流水数据,处理客户级的行为标签,衍生出交易偏好、交易活跃度、消费水平和风险交易的变量;
7.变量筛选,根据变量的缺失值、缺失率和iv值,对变量进行筛选;
8.模型拟合,将样本集分为训练集、测试集和跨时间验证集,在模型拟合中,采用网格搜索的方法选择最优的超参数组合,在进行网格搜索时,对任何一组超参数组合使用训练集进行模型训练得到一个模型,并在测试集中计算该模型的auc值,以测试集中auc值最高的模型的超参数作为超参数最终值,且以该模型使用的变量作为最终入模变量;将训练集和测试集合并形成合并集,在已确定超参数最终值和最终入模变量的基础上,进行模型拟合,得到最终模型,并计算在最终模型上的auc值。
9.本发明的有益效果:在取得信贷客户授权后,获取客户名下所有银行卡的交易流水信息,加工客户级的行为标签,衍生出交易偏好、交易活跃度、消费水平、风险交易等类别的变量。匹配对应客户的信贷表现,用xgb算法建立客户违约概率预测模型。
10.进一步地,在变量筛选中,还包括采用xgb算法的嵌入式筛选对变量进行筛选,采用嵌入式筛选可以得到更有的筛选结果,嵌入式筛选分多个轮次进行,每个轮次进行如下操作:
11.将样本集随机划分为训练集和测试集;
12.选择xgb算法模型,xgb算法模型评估指标为auc,设置xgb算法模型超参数;
13.采用训练集进行模型训练;
14.在测试集上评估xgb算法模型效果,计算auc值,如果此轮的auc值比上一轮有大幅下降,则终止筛选迭代,以上一轮筛选出的变量作为模型拟合的待选变量,否则继续进行变量筛选。
15.进一步地,设置xgb算法模型超参数为:树深度设置为3、4或5,最大迭代步数设置为100、150或200,学习率设置为0.01、0.05或0.1,gamma设置为0.1、0.5或1,列随机抽取比例设置为0.5、0.6或0.8,样本随机抽取比例设置为0.5、0.6或0.8,设置提前终止步数为20。以选取最优迭代次数。
16.进一步地,在测试集上评估xgb算法模型效果后还包括:对于运用次数为0的变量直接剔除,剩余变量按照重要程度进行排序,选择重要程度高的80%

90%的变量进入下一轮筛选。以此根据xgb算法模型中变量的重要程度进行变量筛选。
17.进一步地,在模型拟合中,对每一个待选变量,以训练集分布为基准,计算该待选变量在测试集和跨时间验证集上的psi,剔除psi大于0.1的待选变量。以此检验变量的稳定性,剔除掉不稳定的变量。
18.进一步地,为了对构建的最终模型进行各项性能评估,以利于上线应用,在模型拟合后,还包括模型评估,采用跨时间验证集中的样本对最终模型进行评估,包括性能评估、稳定性评估和解释性评估。
19.进一步地,所述的性能评估包括计算跨时间验证集上最终模型的auc值,并与合并集上的auc值进行对比,若偏差在容忍范围内,则通过性能评估,否则重新进行模型拟合。
20.进一步地,所述的稳定性评估包括以合并集上最终模型的预测值分布为基准,计算跨时间验证集上最终模型预测值的psi,若psi小于0.1,则通过稳定性评估,否则重新进行模型拟合。
21.进一步地,还包括分数转换,将最终模型输出的违约概率值,转换为评分值,作为客户信用评分。本发明基于银行卡交易流水的信用评分,可作为客户征信信用分的有效补充,更全面地评估零售信贷客户的信用风险。同时,在机构不具备征信查询资格时,也可作为征信信用分的备用。
附图说明
22.图1为本发明一种信用评估方法实施例的流程示意图。
具体实施方式
23.下面通过具体实施方式进一步详细说明:
24.实施例基本如附图1所示,本实施例的信用评估方法,包括以下内容:
25.数据获取,基于已查询授权的客户样本,获取各个客户的银行卡交易流水数据,具体的可以是根据客户的首次授信申请时间,回溯其在该时间对应的银行卡交易流水数据。
26.变量衍生,基于获取的银行卡交易流水数据,处理客户级的行为标签,衍生出交易偏好、交易活跃度、消费水平和风险交易的变量,当然也可以根据业务需要衍生出其他类型的变量,具体加工方式为:首先对银行卡交易流水数据按照客户级进行聚合,然后按照变量类别进行统计,统计时间区间可以选取1个月、3个月、6个月或者12个月,统计函数可以取和、最大值、最小值、均值、中位值等,最终获得大量的变量,诸如“近3个月消费金额的最大
值”、“近6个月交易次数的和”等,并计算得到每个客户样本的变量数值。
27.变量筛选,根据变量的缺失值、缺失率和iv值,对变量进行筛选,缺失值是由于缺少信息而造成的数据不完全。如果某个变量在样本上有大量的缺失值,则该变量实际的价值是较小的,因此需要剔除。变量的缺失率反映了该变量在样本上缺失值的占比,如果缺失率大于85%,应该剔除该变量。iv值(information value),即信息价值指标,衡量了某个变量对目标的影响程度。一般来说,如果变量的iv值小于0.02,应该剔除该变量。
28.经过缺失值和iv值筛选后,剩下的变量是对客户的违约概率有一定预测能力、适用于构建信用模型的变量。但是由于变量之间存在相关性,可以通过相关性进行简单筛选,但是本实施例优选采用xgb算法的嵌入式筛选对变量进行筛选,嵌入式筛选可以得到更优的结果,嵌入式筛选分多个轮次进行,本实施例优选10轮,每个轮次进行如下操作:
29.将样本集随机划分为训练集和测试集,本实施优选占比分别为70%和30%;
30.选择xgb算法模型,xgb算法模型评估指标为auc,设置xgb算法模型超参数,设置xgb算法模型超参数为:树深度设置为3、4或5,最大迭代步数设置为100、150或200,学习率设置为0.01、0.05或0.1,gamma设置为0.1、0.5或1,列随机抽取比例设置为0.5、0.6或0.8,样本随机抽取比例设置为0.5、0.6或0.8,设置提前终止步数为20,以选取最优迭代次数;
31.采用训练集进行模型训练;
32.在测试集上评估xgb算法模型效果,计算auc值,如果此轮的auc值比上一轮有大幅下降,则终止筛选迭代,以上一轮筛选出的变量作为模型拟合的待选变量,否则继续进行变量筛选。
33.本实施例在测试集上评估xgb算法模型效果后还包括:根据xgb算法模型中变量的重要程度进行变量筛选,对于运用次数为0的变量直接剔除,剩余变量按照重要程度进行排序,选择重要程度高的80%

90%的变量进入下一轮筛选,如果是最后一轮,则将这些变量作为待选变量。
34.经过嵌入式筛选,可以将待选变量的数量控制在一定范围内,一般不大于100个,如果待选变量仍较大,可以增加嵌入式筛选的轮次。
35.模型拟合,将样本集分为训练集、测试集和跨时间验证集,跨时间验证集是申请时间最近的那部分样本,一般占比为20%,剩余的80%样本进行随机划分,训练集占比55%

60%,测试集占比20%

25%。
36.在模型拟合中,对每一个待选变量,以训练集分布为基准,计算该待选变量在测试集和跨时间验证集上的psi,剔除psi大于0.1的待选变量。
37.在模型拟合中,采用网格搜索的方法选择最优的超参数组合,也就是,对每个超参数(树深度、最大迭代步数、学习率、gamma、列随机抽取比例、样本随机抽取比例)设置多个可选值,具体值参照嵌入式筛选环节。在进行网格搜索时,对任何一组超参数组合使用训练集进行模型训练得到一个模型,并在测试集中计算该模型的auc值,以测试集中auc值最高的模型的超参数作为超参数最终值,且以该模型使用的变量作为最终入模变量;将训练集和测试集合并形成合并集,在已确定超参数最终值和最终入模变量的基础上,进行模型拟合,得到最终模型,并计算在最终模型上的auc值。
38.在模型拟合后,还包括模型评估,采用跨时间验证集中的样本对最终模型进行评估,包括性能评估、稳定性评估和解释性评估。
39.所述的性能评估包括计算跨时间验证集上最终模型的auc值,并与合并集上的auc值进行对比,若偏差在容忍范围内,如衰减在0.05以内,则通过性能评估,否则重新进行模型拟合。
40.所述的稳定性评估包括以合并集上最终模型的预测值分布为基准,计算跨时间验证集上最终模型预测值的psi,若psi小于0.1,则通过稳定性评估,否则重新进行模型拟合。
41.本实施例中模型评估还包括解释性评估:对入模变量的shap图进行检查,确保变量对模型预测值的影响符合业务逻辑,或可解释,否则重新进行模型拟合。
42.本实施例的信用评估方法还包括分数转换,将最终模型输出的违约概率值,转换为评分值,作为客户信用评分。举例来说:在进行分数转换时,需要确定基准分数(base_score)、基准对率(base_odds)和pdo。可以选择base_score=600,base_odds=50,pdo=50。
43.若模型计算得到客户的违约概率为p,则其odds=p/(1

p),score=a

b*ln(odds),其中a=base_score pdo*ln(base_odds)/ln(2),b=pdo/ln(2)。
44.最后将客户评分score限定在0

999的分数区间内(即小于0的记作0,大于999的记作999),作为最终的客户信用评分。
45.以上所述的仅是本发明的实施例,方案中公知的具体结构及特性等常识在此未作过多描述,所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识,能够获知该领域中所有的现有技术,并且具有应用该日期之前常规实验手段的能力,所属领域普通技术人员可以在本技术给出的启示下,结合自身能力完善并实施本方案,一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本技术的障碍。应当指出,对于本领域的技术人员来说,在不脱离本发明结构的前提下,还可以作出若干变形和改进,这些也应该视为本发明的保护范围,这些都不会影响本发明实施的效果和专利的实用性。本技术要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献