贷款违约风险预测模型的获得方法、使用方法及装置与流程

2022-11-14 00:47:06 来源：中国专利 TAG：

1.本公开涉及贷款风险预测领域，尤其涉及贷款违约风险预测模型的获得方法、使用方法及装置。

背景技术：

2.近年来，随着金融行业的快速发展，金融机构提供的金融服务项目也得到了快速的发展和广泛的应用。贷款业务作为一项重要的金融服务项目，其安全性受到业内越来越多的关注和重视。
3.因此，如何准确地对客户的贷款违约风险进行预测，成为本领域技术人员急需解决的技术问题。

技术实现要素：

4.鉴于上述问题，本公开提供一种克服上述问题或者至少部分地解决上述问题的贷款违约风险预测模型的获得方法、使用方法及装置，技术方案如下：
5.一种贷款违约风险预测模型的获得方法，包括：
6.获得客户贷款违约样本数据，其中，所述客户贷款违约样本数据包括客户的贷款信息数据和客户特征信息数据，所述贷款信息数据包括贷款违约数据，所述客户特征信息数据包括所述客户的收入信息数据、消费信息数据以及个人信息数据；
7.利用不平衡随机森林特征选择算法对所述客户贷款违约样本数据进行特征选择，获得第一数据集；
8.利用smote算法对所述第一数据集进行过采样处理，获得第二数据集；
9.利用所述第二数据集，构建出贷款违约风险预测模型。
10.可选的，所述利用不平衡随机森林特征选择算法对所述客户贷款违约样本数据进行特征选择，获得第一数据集，包括：
11.对所述客户贷款违约样本数据进行欠采样处理，获得多个欠采样数据集；
12.计算出所述欠采样数据集的特征重要性度量值和特征权重；
13.基于所述特征重要性度量值和所述特征权重进行加权计算，获得与所述客户贷款违约样本对应的特征重要性序列；
14.基于所述特征重要性序列对所述客户贷款违约样本数据进行特征选择，获得第一数据集。
15.可选的，所述利用所述第二数据集，构建出贷款违约风险预测模型，包括：
16.利用所述第二数据集对预设logistics回归算法模型进行训练，获得目标logistics回归算法模型；
17.利用所述第二数据集对预设零截尾泊松模型进行训练，获得目标零截尾泊松模型；
18.利用所述目标logistics回归算法模型和所述预设零截尾泊松模型，构建出贷款
违约风险预测模型。
19.可选的，所述贷款违约风险预测模型为hurdle计数模型。
20.一种贷款违约风险预测模型的使用方法，包括：
21.获得客户的贷款信息数据和客户特征信息数据；
22.将所述贷款信息数据和所述客户特征信息数据输入至上述任一所述贷款违约风险预测模型的获得方法得到的所述贷款违约风险预测模型中，获得所述贷款违约风险预测模型输出的与所述客户对应的贷款违约预测结果。
23.一种贷款违约风险预测模型的获得装置，包括：样本数据获得单元、第一数据集获得单元、第二数据集获得单元以及模型构建单元，
24.所述样本数据获得单元，用于获得客户贷款违约样本数据，其中，所述客户贷款违约样本数据包括客户的贷款信息数据和客户特征信息数据，所述贷款信息数据包括贷款违约数据，所述客户特征信息数据包括所述客户的收入信息数据、消费信息数据以及个人信息数据；
25.所述第一数据集获得单元，用于利用不平衡随机森林特征选择算法对所述客户贷款违约样本数据进行特征选择，获得第一数据集；
26.所述第二数据集获得单元，用于利用smote算法对所述第一数据集进行过采样处理，获得第二数据集；
27.所述模型构建单元，用于利用所述第二数据，构建出贷款违约风险预测模型。
28.可选的，所述第一数据集获得单元包括：第一获得子单元、第一计算子单元、第二获得子单元以及第三获得子单元，
29.所述第一获得子单元，用于对所述客户贷款违约样本数据进行欠采样处理，获得多个欠采样数据集；
30.所述第一计算子单元，用于计算出所述欠采样数据集的特征重要性度量值和特征权重；
31.所述第二获得子单元，用于基于所述特征重要性度量值和所述特征权重进行加权计算，获得与所述客户贷款违约样本对应的特征重要性序列；
32.所述第三获得子单元，用于基于所述特征重要性序列对所述客户贷款违约样本数据进行特征选择，获得第一数据集。
33.可选的，所述模型构建单元包括：第一模型获得子单元、第二模型获得子单元以及第三模型获得子单元，
34.所述第一模型获得子单元，用于利用所述第二数据集对预设logistics回归算法模型进行训练，获得目标logistics回归算法模型；
35.所述第二模型获得子单元，用于利用所述第二数据集对预设零截尾泊松模型进行训练，获得目标零截尾泊松模型；
36.所述第三模型获得子单元，用于利用所述目标logistics回归算法模型和所述预设零截尾泊松模型，构建出贷款违约风险预测模型。
37.可选的，所述贷款违约风险预测模型为hurdle计数模型。
38.一种贷款违约风险预测模型的使用装置，包括：客户数据获得单元以及贷款违约预测单元，
39.所述客户数据获得单元，用于获得客户的贷款信息数据和客户特征信息数据；
40.所述贷款违约预测单元，用于将所述贷款信息数据和所述客户特征信息数据输入至上述任一所述贷款违约风险预测模型的获得装置得到的所述贷款违约风险预测模型中，获得所述贷款违约风险预测模型输出的与所述客户对应的贷款违约预测结果。
41.借由上述技术方案，本公开提供的贷款违约风险预测模型的获得方法、使用方法及装置，可应用于人工智能领域、大数据领域或金融领域。本公开通过不平衡随机森林特征选择算法对所述客户贷款违约样本数据进行特征选择，实现贷款违约风险预测模型的二分类过程，利用该贷款违约风险预测模型可以准确预测客户的贷款违约风险，有助于金融机构有效防范贷款违约风险，降低不良资产率。
42.上述说明仅是本公开技术方案的概述，为了能够更清楚了解本公开的技术手段，而可依照说明书的内容予以实施，并且为了让本公开的上述和其它目的、特征和优点能够更明显易懂，以下特举本公开的具体实施方式。
附图说明
43.通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本公开的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：
44.图1示出了本公开实施例提供的贷款违约风险预测模型的获得方法的一种实施方式的流程示意图；
45.图2示出了本公开实施例提供的贷款违约风险预测模型的获得方法的另一种实施方式的流程示意图；
46.图3示出了本公开实施例提供的贷款违约风险预测模型的获得方法的另一种实施方式的流程示意图；
47.图4示出了本公开实施例提供的一种贷款违约风险预测模型的使用方法的一种实施方式的流程示意图；
48.图5示出了本公开实施例提供的贷款违约风险预测模型的获得装置的结构示意图；
49.图6示出了本公开实施例提供的贷款违约风险预测模型的使用装置的结构示意图。
具体实施方式
50.下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。
51.如图1所示，本公开实施例提供的贷款违约风险预测模型的获得方法的一种实施方式的流程示意图，该贷款违约风险预测模型的获得方法可以包括：
52.a100、获得客户贷款违约样本数据，其中，客户贷款违约样本数据包括客户的贷款信息数据和客户特征信息数据，贷款信息数据包括贷款违约数据，客户特征信息数据包括
客户的收入信息数据、消费信息数据以及个人信息数据。
53.其中，客户贷款违约样本数据可以是能够反应客户贷款违约风险的特征数据。本公开实施例可以根据预先筛选出可能与客户贷款违约风险相关的数据项，从而获得与数据项对应的客户贷款违约样本数据。
54.其中，个人信息数据可以包括客户的性别、年龄、文化程度以及婚姻状况。
55.本公开实施例可以预先对客户贷款违约样本数据进行采集。可以理解的是，金融机构可以在客户信息数据库中存储与客户关联的信息。本公开实施例可以从该客户信息数据库中采集多个客户在历史上的贷款信息数据以及客户特征信息数据。
56.a200、利用不平衡随机森林特征选择算法对客户贷款违约样本数据进行特征选择，获得第一数据集。
57.其中，不平衡随机森林特征选择算法为利用随机森林的构造过程，对不平衡数据集进行特征选择的算法。不平衡随机森林特征选择算法在平衡bagging算法的基础上，构建多个基分类器，针对每个基分类器获取各特征重要性度量，通过各基分类器所求得的特征重要性度量加权求和来获得最终的特征重要性序列。可在此序列上根据选择特征的数量由高至低进行特征选择。各基分类器所求得的特征中邀请度量的权重由基分类器判定与投票评定的一致性决定。
58.可选的，基于图1所示方法，如图2所示，本公开实施例提供的贷款违约风险预测模型的获得方法的另一种实施方式的流程示意图，步骤a200可以包括：
59.a210、对客户贷款违约样本数据进行欠采样处理，获得多个欠采样数据集。
60.a220、计算出欠采样数据集的特征重要性度量值和特征权重。
61.a230、基于特征重要性度量值和特征权重进行加权计算，获得与客户贷款违约样本对应的特征重要性序列。
62.a240、基于特征重要性序列对客户贷款违约样本数据进行特征选择，获得第一数据集。
63.由于不是所有客户都会产生贷款违约风险点，未贷款违约的客户的贷款违约数据可以为空，则该部分贷款违约数据就是典型的零膨胀数据。零膨胀数据指的是在客户贷款违约样本数据中取零值的数据。若客户贷款违约样本数据中取零值的数据过多，会导致不同的客户贷款违约样本数据的分析结果产生较大的差异，不利于贷款违约风险的预测。
64.为了解决在二分类过程中出现零计数部分的数据量远远大于非零计数部分的数据量的不平衡数据问题，本公开实施例通过不平衡随机森林特征选择算法筛选出客户贷款违约样本数据中重要的解释变量，从而平衡正负样本数据。
65.a300、利用smote算法对第一数据集进行过采样处理，获得第二数据集。
66.其中，smote(synthetic minority oversampling technique，合成少数类过采样技术)算法是一种对随机采样算法改进后的过采样算法。smote算法通过随机的增大少数类的样本数量和随机的减少多数类样本的数量，对客户贷款违约样本数据进行类别均匀，可以解决数据类别不平衡问题。
67.a400、利用第二数据集，构建出贷款违约风险预测模型。
68.可选的，贷款违约风险预测模型为hurdle计数模型。
69.其中，hurdle计数模型是一个二分类过程和一个零截尾计数过程的结合，对于二
分类过程中面对的不平衡数据问题，hurdle计数模型中传统的logistics回归算法模型可能会将非零数据预测为零计数，严重影响预测结果的准确性。因此，本公开实施例通过不平衡随机森林特征选择算法和smote算法得到的第二数据集，对传统hurdle计数模型进行改进，构建出贷款违约风险预测模型。
70.可选的，基于图1所示方法，如图3所示，本公开实施例提供的贷款违约风险预测模型的获得方法的另一种实施方式的流程示意图，步骤a400可以包括：
71.a410、利用第二数据集对预设logistics回归算法模型进行训练，获得目标logistics回归算法模型。
72.a420、利用第二数据集对预设零截尾泊松模型进行训练，获得目标零截尾泊松模型。
73.a430、利用目标logistics回归算法模型和预设零截尾泊松模型，构建出贷款违约风险预测模型。
74.本公开实施例通过使用不平衡随机森林特征选择算法解决零膨胀数据的正负样本不平衡问题，优化了hurdle模型的二分类过程，先进行特征选择再进行logistics回归拟合，并和零截尾泊松模型组成改进后的hurdle模型。
75.本公开实施例通过引入机器学习的不平衡随机森林特征选择算法，解决了零膨胀数据二分类过程中正负样本不平衡的问题，利用不平衡随机森林特征选择算法对传统hurdle模型进行改进，可以提高贷款违约风险预测模型的准确性，有利于银行防范客户贷款违约风险，降低不良资产率。
76.如图4所示，本公开实施例提供的一种贷款违约风险预测模型的使用方法的一种实施方式的流程示意图，该贷款违约风险预测模型的使用方法可以包括：
77.b100、获得客户的贷款信息数据和客户特征信息数据。
78.b200、将贷款信息数据和客户特征信息数据输入至本公开实施例提供的贷款违约风险预测模型的获得方法得到的贷款违约风险预测模型中，获得贷款违约风险预测模型输出的与客户对应的贷款违约预测结果。
79.本公开提供的贷款违约风险预测模型的获得方法和使用方法，可应用于人工智能领域、大数据领域或金融领域。本公开通过不平衡随机森林特征选择算法对所述客户贷款违约样本数据进行特征选择，实现贷款违约风险预测模型的二分类过程，利用该贷款违约风险预测模型可以准确预测客户的贷款违约风险，有助于金融机构有效防范贷款违约风险，降低不良资产率。
80.虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。
81.应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
82.与上述贷款违约风险预测模型的获得方法的实施例相对应，本公开实施例还提供一种贷款违约风险预测模型的获得装置，其结构如图5所示，可以包括：样本数据获得单元100、第一数据集获得单元200、第二数据集获得单元300以及模型构建单元400。
83.样本数据获得单元100，用于获得客户贷款违约样本数据，其中，客户贷款违约样
本数据包括客户的贷款信息数据和客户特征信息数据，贷款信息数据包括贷款违约数据，客户特征信息数据包括客户的收入信息数据、消费信息数据以及个人信息数据。
84.第一数据集获得单元200，用于利用不平衡随机森林特征选择算法对客户贷款违约样本数据进行特征选择，获得第一数据集；
85.第二数据集获得单元300，用于利用smote算法对第一数据集进行过采样处理，获得第二数据集。
86.模型构建单元400，用于利用第二数据，构建出贷款违约风险预测模型。
87.可选的，第一数据集获得单元200包括：第一获得子单元、第一计算子单元、第二获得子单元以及第三获得子单元。
88.第一获得子单元，用于对客户贷款违约样本数据进行欠采样处理，获得多个欠采样数据集。
89.第一计算子单元，用于计算出欠采样数据集的特征重要性度量值和特征权重。
90.第二获得子单元，用于基于特征重要性度量值和特征权重进行加权计算，获得与客户贷款违约样本对应的特征重要性序列。
91.第三获得子单元，用于基于特征重要性序列对客户贷款违约样本数据进行特征选择，获得第一数据集。
92.可选的，模型构建单元400包括：第一模型获得子单元、第二模型获得子单元以及第三模型获得子单元。
93.第一模型获得子单元，用于利用第二数据集对预设logistics回归算法模型进行训练，获得目标logistics回归算法模型。
94.第二模型获得子单元，用于利用第二数据集对预设零截尾泊松模型进行训练，获得目标零截尾泊松模型。
95.第三模型获得子单元，用于利用目标logistics回归算法模型和预设零截尾泊松模型，构建出贷款违约风险预测模型。
96.可选的，贷款违约风险预测模型为hurdle计数模型。
97.与上述贷款违约风险预测模型的使用方法的实施例相对应，本公开实施例还提供一种贷款违约风险预测模型的使用装置，其结构如图6所示，可以包括：客户数据获得单元1000以及贷款违约预测单元2000。
98.客户数据获得单元1000，用于获得客户的贷款信息数据和客户特征信息数据。
99.贷款违约预测单元2000，用于将贷款信息数据和客户特征信息数据输入至上述任一贷款违约风险预测模型的获得装置得到的贷款违约风险预测模型中，获得贷款违约风险预测模型输出的与客户对应的贷款违约预测结果。
100.本公开提供的贷款违约风险预测模型的获得装置和使用装置，可应用于人工智能领域、大数据领域或金融领域。本公开通过不平衡随机森林特征选择算法对所述客户贷款违约样本数据进行特征选择，实现贷款违约风险预测模型的二分类过程，利用该贷款违约风险预测模型可以准确预测客户的贷款违约风险，有助于金融机构有效防范贷款违约风险，降低不良资产率。
101.关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。
102.需要说明的是，本公开提供的贷款违约风险预测模型的获得方法、使用方法及装置可用于人工智能领域、大数据领域或金融领域。上述仅为示例，并不对本公开提供的贷款违约风险预测模型的获得方法、使用方法及装置的应用领域进行限定。
103.在本公开中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
104.本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
105.对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本公开。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
106.以上所述仅为本公开的较佳实施例而已，并非用于限定本公开的保护范围。凡在本公开的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本公开的保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

贷款违约风险预测模型的获得方法、使用方法及装置与流程

相关文献

最热文献