一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种小微企业信用风险等级预测方法、设备及存储介质与流程

2022-09-07 21:13:15 来源:中国专利 TAG:


1.本发明涉及数据处理领域,尤其是涉及一种小微企业信用风险等级预测方法、设备及存储介质。


背景技术:

2.当前普惠金融在针对小微企业贷款审批时,主要依赖专家法的规则经验,客户准入的规则比较单一,主要使用客户基本身份信息、工商司法信息、税务、征信等信息进行公司风险的判断,但是这些信息并没有进行信息交互,每条规则只用了其中的一到两个信息,并没有考虑信息之间的相关情况或隐藏信息。只使用可以直接获取的数据,没有进行深度的挖掘,表层的数据提供的信息很少,用来判断客户的风险是片面的。同时由于规则的判断是非黑即白的,每个规则在流程中占据同样重要的地位,但是真实情况下,并不是某方面弱势的企业就一定风险高,这样的规则判断是片面的,需要通过特征的整合来缓解这一缺陷。
3.其次,由于上述的规则的严格性,导致了当前普惠业务的客户都表现良好,目前已有的存量客户都是经过严格筛选后的质量较高的客户,在实际用款中基本无逾期的情况,或由于偶尔错过还款日逾期一天又还款。从而使得模型缺乏真实的坏样本,样本的定义以及样本之间的不均衡是小微企业模型训练的难点之一。
4.此外,但是小微企业由于本身规模小,未上市,其财报数据并不像大公司那样规整,很多数据存在漏报错报误报,数据存在大量的异常值,包括缺失值、不符合业务逻辑可解释的数值、离群值等等。同时小微企业的财报格式也很难统一,同样是报文上传,但是名称的不一致会导致财报项目的对应难,导致后续要进行大量的数据验证和清洗工作,进行小微企业的财报数据清理和具有大量空值的模型训练是第三个难点。


技术实现要素:

5.本发明的目的就是为了克服上述现有技术存在的缺陷而提供了一种预测准确性高的小微企业信用风险等级预测方法、设备及存储介质。
6.本发明的目的可以通过以下技术方案来实现:
7.根据本发明的第一方面,提供了一种小微企业信用风险等级预测方法,该方法包括以下步骤:
8.步骤s1、指标定义:获取财报数据,定义样本指标并进行坏样本打标;
9.步骤s2、数据探查:解析财报数据,并对数据进行清洗和校准;
10.步骤s3、特征工程:基于财报特征指标池,对校准得到的优质数据进行特征工程处理;
11.步骤s4、模型训练:拆分数据集,将训练集输入至评分卡模型进行训练,构建评分卡;
12.步骤s5、迭代优化:采用训练后的评分卡模型对测试集进行信用风险等级预测,并基于预测结果对评分卡模型进行迭代优化,得到优化后的评分卡,实现对企业的信用风险
等级预测。
13.优选地,所述坏样本打标包括使用客户的征信数据进行打标、使用线下有坏样本表现的数据进行客户打标、使用在审批流程中命中某些拒绝规则的样本作为坏样本、纳入已有的黑名单进行客户的打标以及对线下线上具备相同数据指标的客群进行迁移学习,创造出线上的坏样本。
14.优选地,所述步骤s2中数据探查的内容包括数据缺失、数据类型有误或者业务含义上不合理。
15.优选地,所述步骤s2中对数据进行清洗和校准,包括:
16.对好样本中空值含量高于预设至的样本直接进行横向的删除,减少好样本的数量,同时采用上采样的方法提高坏样本的比重;
17.针对财报脏数据,根据业务与数据本身的规律进行验证和合并,将表示财报同样项目但名称不一致的指标进行合并,删除不正确的财报数据;
18.对空值和无穷值数据进行单独分箱处理。
19.优选地,所述步骤s3具体为:基于财报特征指标池,对校准得到的优质数据进行特征衍生、特征转换以及分箱处理。
20.优选地,所述财报特征指标池的维度包括客户信息、时间信息、财报概述、盈利能力、偿债能力、债务结构、运营能力、成长性指标、规模类指标以及流动性水平。
21.优选地,所述步骤s4中拆分数据集具体为:依据设定的时间周期,将数据划分为观察期数据和表现期数据;所述观察期数据为训练集,所述表现期数据为测试集。
22.优选地,所述步骤s4中的评分卡模型为逻辑回归模型。
23.根据本发明的第二方面,提供了一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现任一项所述的方法。
24.根据本发明的第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现任一项所述的方法。
25.与现有技术相比,本发明具有以下优点:
26.1)本发明通过构建评分卡的方法,将小微企业的财报数据特征进行整合,去除高关联性的特征,解决每个规则只观察单个特征的问题;同时建立财报数据的特征衍生指标池,指标池根据多种维度的特征进行衍生,解决信息匮乏且片面的问题;通过评分卡的构建,调整每个特征的权重,同时将特征之间相互影响的情况考虑进去,实现对数据的综合考量;
27.2)在针对坏样本的定义时,考虑使用与实际模型训练无关的特征进行坏样本打标,丰富了坏样本数据集,便于进行后续的评分卡模型训练;
28.3)针对样本不均衡的问题,对好样本中空值含量较高的样本直接进行横向的删除,同时采用上采样的方法提高坏样本的比重,对好样本和坏样本数量进行平衡;
29.4)针对财报脏数据过多以及报文数据结构差异,对所有财报数据进行解析后,根据业务与数据本身的规律进行验证和合并,将表示财报同样项目但名称不一致的指标进行合并,将不正确的财报数据进行删除;
30.5)在特征处理时将空值和无穷值不进行填充,而是进行单独分箱处理。
附图说明
31.图1为本发明的方法流程图;
32.图2为本发明的数据流转示意图。
具体实施方式
33.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
34.实施例
35.术语解释:
36.信用评分卡:信用评分是贷款审批流程中的一个环节,用于评价客户的信用风险等级,并在后续审批流程中做出对应的策略,信用评分卡是用来评价风险等级的一种方法。
37.好坏样本:分类模型训练需要的数据类型,模型训练的目标就是区分出样本的好坏,并给出一条新的样本表现为坏的概率,在业务中的体现就是预测一个新的客户有违约风险的可能性。
38.缺失值:数据分析的一种异常情况,表示数据表中本该有的信息缺失。
39.特征:数据分析中的信息来源,数据分析的本质是挖掘数据中也就是特征的信息和规律,从而进行目标问题的预测。
40.特征衍生:是对已有的特征进行拓展的工作,从可获取的有限的特征中衍生出大量新的特征,整合或转换原有特征的数据,达到创造新的信息的目的
41.本实施例提供了一种小微企业信用风险等级预测方法,首先,对小微企业的财报数据并且针对财报数据进行有效的解析和校准;其次,制定财报数据的指标池;最后,需要对不均衡的样本进行特殊化处理。具体包括以下步骤:
42.步骤s1、指标定义:获取财报数据,定义样本指标并进行坏样本打标;其中,坏样本打标包括使用客户的征信数据进行打标、使用线下有坏样本表现的数据进行客户打标、使用在审批流程中命中某些拒绝规则的样本作为坏样本、纳入已有的黑名单进行客户的打标以及对线下线上具备相同数据指标的客群进行迁移学习,创造出线上的坏样本;
43.步骤s2、解析财报数据,针对数据缺失、数据类型有误或者业务含义上不合理的财报数据进行数据探查,对数据进行清洗和校准,包括:
44.对好样本中空值含量较高的样本直接进行横向的删除,减少好样本的数量,同时采用上采样的方法提高坏样本的比重;
45.针对财报脏数据过多的问题,根据业务与数据本身的规律进行验证和合并,将表示财报同样项目但名称不一致的指标进行合并,删除不正确的财报数据;
46.对空值和无穷值进行单独分箱处理。
47.步骤s3、特征工程:基于财报特征指标池,对校准得到的优质数据进行特征衍生、特征转换以及分箱操作;其中,财报特征指标池的维度包括客户信息、时间信息、财报概述、盈利能力、偿债能力、债务结构、运营能力、成长性指标、规模类指标以及流动性水平。
48.步骤s4、模型训练:依据设定的时间周期,将数据集划分为观察期数据和表现期数
据;所述观察期数据为训练集,所述表现期数据为测试集;将训练集输入至评分卡模型进行训练,构建评分卡;本实施例采用评分卡模型为逻辑回归模型。
49.步骤s5、迭代优化:采用训练后的评分卡模型对测试集进行信用风险等级预测,并基于预测结果对评分卡模型进行迭代优化,得到优化后的评分卡,实现对企业的信用风险等级预测。
50.综上,本发明具有以下优点:
51.1)增加了财报数据校准步骤,利用财报特有的属性进行数据的校准和匹配。
52.2)增加了财报特征指标池用于特征衍生,由于财报数据的局限性,指标池可以让特征更加全面的展示一个企业的财务经营状况,所以不能利用普遍的特征衍生方式,而要进行指标池的构造。
53.3)样本不均衡及空值过多的处理,基本流程中会对空值进行填充,但是由于财报数据的特殊性,空值也具备一定业务含义,所以不能进行填充,而是作为单独特性进行处理,样本不均衡也要进行特殊处理入模。
54.本发明电子设备包括中央处理单元(cpu),其可以根据存储在只读存储器(rom)中的计算机程序指令或者从存储单元加载到随机访问存储器(ram)中的计算机程序指令,来执行各种适当的动作和处理。在ram中,还可以存储设备操作所需的各种程序和数据。cpu、rom以及ram通过总线彼此相连。输入/输出(i/o)接口也连接至总线。
55.设备中的多个部件连接至i/o接口,包括:输入单元,例如键盘、鼠标等;输出单元,例如各种类型的显示器、扬声器等;存储单元,例如磁盘、光盘等;以及通信单元,例如网卡、调制解调器、无线通信收发机等。通信单元允许设备通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
56.处理单元执行上文所描述的各个方法和处理,例如方法s1~s5。例如,在一些实施例中,方法s1~s5可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元。在一些实施例中,计算机程序的部分或者全部可以经由rom和/或通信单元而被载入和/或安装到设备上。当计算机程序加载到ram并由cpu执行时,可以执行上文描述的方法s1~s5的一个或多个步骤。备选地,在其他实施例中,cpu可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法s1~s5。
57.本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)等等。
58.用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
59.在本发明的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电
子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
60.以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献