一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

金融风险评估模型训练方法及装置、金融风险评估方法与流程

2022-11-12 23:00:44 来源:中国专利 TAG:


1.本技术涉及人工智能相关技术领域,具体而言,涉及一种金融风险评估模型训练方法及装置、金融风险评估方法。


背景技术:

2.在如金融风险预测等需要进行风险控制的场景中,机器学习已经成为了重要手段之一。以贷款违约风险评估为例,可以构建模型对贷款申请者的违约风险进行预测,并给出申请者违约概率,使得金融借贷机构可以参考预测结果做出是否对该申请者进行如拒绝贷款申请等的风险控制决策。而为了保证金融风险预测的准确性,需要解决风险控制中的样本偏差(例如:幸存者偏差)问题。
3.目前,在金融风险预测过程中,为了解决样本偏差问题,现有的一种解决方案是拒绝推断,也叫拒绝演绎,即为拒绝样本添加伪标记和权重,具体方式是根据现有的模型对上一代模型的拒绝样本打分,得到拒绝样本的违约概率,例如某客户预测出坏账概率为0.8,则按照4:1的权重分别生成两种标签的样本带入模型训练。然而,拒绝推断是建立模型在拒绝样本上有效的假设上,因此拒绝推断法虽然可以带来部分增益,但效果往往会因为模型在拒绝客群上效果不佳而导致最终的解决样本偏差的效果不及预期;其次,拒绝推断的效果取决于总体负样本占比,但得到总体负样本占比很难,也会影响模型训练效率。
4.也就是说,由于无法更好的解决样本偏差问题,现有的金融风险预测过程中依然存在模型训练效率低且预测准确性差等问题。


技术实现要素:

5.为了克服现有技术中的上述不足,本技术的目的在于提供一种金融风险评估模型训练方法及装置、金融风险评估方法,能够有效解决样本偏差问题,并能够有效提高金融风险评估模型的训练可靠性及效率,进而能够有效提高基于金融风险评估模型进行金融风险评估的准确性,提高根据评估结果对金融客户进行风险控制的可靠性及有效性。
6.为解决上述技术问题,本技术提供以下技术方案:
7.第一方面,本技术提供一种金融风险评估模型训练方法,包括:
8.从金融风险评估模型在实际使用中产生的真实拒绝的样本数据集中进行随机取样,以形成当前迭代周期的真实拒绝样本数据集;
9.对所述真实拒绝样本数据集中的各个拒绝样本添加标签;
10.基于当前迭代周期的正样本数据集、负样本数据集、建模拒绝样本数据集以及所述真实拒绝样本数据集,对所述金融风险评估模型进行模型训练以得到更新后的金融风险评估模型。
11.进一步地,所述对所述真实拒绝样本数据集中的各个拒绝样本添加标签,包括:
12.采用半监督学习法对所述真实拒绝样本数据集中的各个拒绝样本添加标签。
13.进一步地,所述基于当前迭代周期的正样本数据集、负样本数据集、建模拒绝样本
数据集以及所述真实拒绝样本数据集,对所述金融风险评估模型进行模型训练以得到更新后的金融风险评估模型,包括:
14.获取当前迭代周期的正样本数据集及负样本数据集,并将该正样本数据集及负样本数据集确定为常规样本数据集;
15.基于所述常规样本数据、建模拒绝样本数据集以及所述真实拒绝样本数据集,应用增量学习方式对所述金融风险评估模型进行模型训练,以得到更新后的金融风险评估模型。
16.进一步地,所述基于所述常规样本数据、建模拒绝样本数据集以及所述真实拒绝样本数据集,应用增量学习方式对所述金融风险评估模型进行模型训练,以得到更新后的金融风险评估模型,包括:
17.基于预设的重要性,对所述常规样本数据、所述建模拒绝样本数据集以及所述真实拒绝样本数据集进行排序,以得到对应的排序结果;
18.根据所述排序结果,对排序结果中最靠前的数据集,采用xgboost算法进行模型训练得到树组a;再使用排序结果中中间的数据集,同样采用xgboost算法在树组a的基础上继续训练增加新树,得到树组b;最后使用排序结果最靠后的数据集,采用xgboost算法在树组b的基础上继续训练增加新树,以得到更新后的金融风险评估模型。
19.进一步地,在所述对所述金融风险评估模型进行模型训练以得到更新后的金融风险评估模型之前,还包括:
20.获取金融风险评估模型的上一次迭代周期中储存的小于拒绝阈值且有真实贷后表现的建模样本数据集,并将该建模样本数据集作为所述金融风险评估模型当前的建模拒绝样本数据集。
21.进一步地,还包括:
22.设置所述更新后的金融风险评估模型的拒绝阈值;
23.在构建所述更新后的金融风险评估模型使用的常规样本数据集中选取小于所述拒绝阈值的样本,作为下次进行模型迭代时的建模拒绝样本数据集。
24.第二方面,本技术提供一种金融风险评估模型训练装置,包括:
25.数据提取模块,用于从金融风险评估模型在实际使用中产生的真实拒绝的样本数据集中进行随机取样,以形成当前迭代周期的真实拒绝样本数据集;
26.标签添加模块,用于对所述真实拒绝样本数据集中的各个拒绝样本添加标签;
27.模型训练模块,用于基于当前迭代周期的正样本数据集、负样本数据集、建模拒绝样本数据集以及所述真实拒绝样本数据集,对所述金融风险评估模型进行模型训练以得到更新后的金融风险评估模型。
28.第三方面,本技术提供一种金融风险评估方法,包括:
29.接收目标金融用户数据;
30.将所述目标金融用户数据预处理,以得到目标金融用户的特征数据;
31.将所述特征数据输入更新后的金融风险评估模型中,并根据该更新后的金融风险评估模型的输出确定所述目标金融用户的金融风险评估结果,其中,所述更新后的金融风险评估模型预先基于所述的金融风险评估模型训练方法得到;
32.输出所述目标金融用户的金融风险评估结果。
33.第四方面,本技术提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的金融风险评估模型训练方法,或者,所述处理器执行所述计算机程序时实现所述的金融风险评估方法。
34.第五方面,本技术提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的金融风险评估模型训练方法,或者,所述计算机程序被处理器执行时实现所述的金融风险评估方法。
35.相对于现有技术而言,本技术实施例从金融风险评估模型在实际使用中产生的真实拒绝的样本数据集中进行随机取样,以形成当前迭代周期的真实拒绝样本数据集。同时,在使用常规样本数据集的基础上,补充了建模拒绝样本数据集与真实拒绝样本数据集对所述金融风险评估模型进行模型训练。此外,由于上一次模型迭代的建模拒绝样本数据集与此次迭代模型的真实拒绝样本数据集都是被上一代模型以同样的拒绝分数阈值拒绝,因此应当具有相同的特征分布。进一步地,由于建模拒绝样本数据集具有真实的标签,能够增加模型对于拒绝样本的区分能力,进而保证本次迭代模型的预测准确性,提高拒绝客群的效果。如此,能够有效解决样本偏差问题,并能够有效提高金融风险评估模型的训练可靠性及效率,以及提高基于金融风险评估模型进行金融风险评估的准确性,进而可以提高根据评估结果对金融客户进行风险控制的可靠性及有效性。
附图说明
36.为了更清楚地说明本技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
37.图1为本技术实施例中的金融风险评估模型训练方法的总流程示意图;
38.图2为是本技术实施例中的金融风险评估模型训练方法的优选流程示意图;
39.图3为本技术实施例中的金融风险评估模型训练装置的结构示意图;
40.图4为本技术应用实例中的基于半监督及增量学习解决幸存者偏差问题的方法的流程示意图。
具体实施方式
41.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。
42.因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围,而是仅仅表示本技术的选定实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
43.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
44.在本技术的描述中,需要说明的是,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
45.针对现有的金融风险预测过程由于无法更好的解决样本偏差问题,因此依然存在的模型训练效率低且预测准确性差等问题,本技术提供一种金融风险评估模型训练方法,从金融风险评估模型在实际使用中产生的真实拒绝的样本数据集中进行随机取样,以形成当前迭代周期的真实拒绝样本数据集。同时,对真实拒绝样本数据集中的各个拒绝样本添加标签,并基于当前迭代周期的正样本数据集、负样本数据集、建模拒绝样本数据集以及真实拒绝样本数据集,对金融风险评估模型进行模型训练以得到更新后的金融风险评估模型。如此,在使用常规样本数据集的基础上,补充了建模拒绝样本数据集与真实拒绝样本数据集对所述金融风险评估模型进行模型训练,能够有效解决样本偏差问题以提高金融风险评估模型的训练可靠性及效率,进而能够有效提高基于金融风险评估模型进行金融风险评估的准确性,以及提高根据评估结果对金融客户进行风险控制的可靠性及有效性。
46.基于上述内容,本技术还提供一种用于实现本技术一个或多个实施例中提供的金融风险评估模型训练方法的金融风险评估模型训练装置,该金融风险评估模型训练装置可以自行或通过第三方服务器等与各个用户持有的客户端设备等之间通信连接,金融风险评估模型训练装置可以为一种服务器,在本地或客户端设备获取金融风险评估模型的建模拒绝样本数据集以及金融风险评估模型在实际使用中产生的真实拒绝的样本数据集,然后从金融风险评估模型在实际使用中产生的真实拒绝的样本数据集中进行随机取样,以形成当前迭代周期的真实拒绝样本数据集。然后,对所述真实拒绝样本数据集中的各个拒绝样本添加标签,并基于当前迭代周期的正样本数据集、负样本数据集、建模拒绝样本数据集以及所述真实拒绝样本数据集,对所述金融风险评估模型进行模型训练以得到更新后的金融风险评估模型。最后,将更新后的金融风险评估模型发送至客户端设备进行在线应用等,以使客户端设备根据更新后的金融风险评估模型对目标金融客户(个人或群体)进行针对贷款、还款或者其他金融类型的金融风险识别,而后可以根据识别结果判断是否对目标金融客户采取相应的风险控制操作等。
47.可以理解的是,所述客户端设备可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(pda)、车载设备、智能穿戴设备等。其中,所述智能穿戴设备可以包括智能眼镜、智能手表、智能手环等。
48.上述的客户端设备可以具有通信模块(即通信单元),以与远程的服务器进行通信连接,实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器,其他的实施场景中也可以包括中间平台的服务器,例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备,也可以包括多个服务器组成的服务器集群,或者分布式装置的服务器结构。
49.上述服务器与所述客户端设备之间可以使用任何合适的网络协议进行通信,包括在本技术提交日尚未开发出的网络协议。所述网络协议例如可以包括tcp/ip协议、udp/ip协议、http协议、https协议等。当然,所述网络协议例如还可以包括在上述协议之上使用的rpc协议(remote procedure call protocol,远程过程调用协议)、rest协议(representational state transfer,表述性状态转移协议)等。
50.详细地,本技术中,具体通过下述各个实施例及应用实例分别对本技术的方案进
行详细说明。
51.首先请参见图1,本技术提供一种金融风险评估模型训练方法,该方法可以由金融风险评估模型训练装置执行,下面对该方法包括的各个步骤进行详细说明。
52.步骤100:从金融风险评估模型在实际使用中产生的真实拒绝的样本数据集中进行随机取样,以形成当前迭代周期的真实拒绝样本数据集。
53.可以理解的是,建模拒绝样本数据集可以是指:在上一次迭代周期中储存的小于拒绝阈值且有真实贷后表现的建模样本数据集,可以表示为:reject_fake;真实拒绝样本数据集可以是指:基于对原模型在实际使用中真实拒绝的样本数据集进行随机抽样得到的数据集,可以表示为:reject_b。
54.步骤200:对所述真实拒绝样本数据集中的各个拒绝样本添加标签。
55.步骤300:基于当前迭代周期的正样本数据集、负样本数据集、建模拒绝样本数据集以及所述真实拒绝样本数据集,对所述金融风险评估模型进行模型训练以得到更新后的金融风险评估模型。
56.在本技术的一个或多个实施例中,当前迭代周期的正样本数据集可以表示为good_b;当前迭代周期的负样本数据集可以表示为bad_b。
57.从上述描述可知,本技术实施例提供的金融风险评估模型训练方法,从金融风险评估模型在实际使用中产生的真实拒绝的样本数据集中进行随机取样,以形成当前迭代周期的真实拒绝样本数据集。同时,在使用常规样本数据集的基础上,补充了建模拒绝样本数据集与真实拒绝样本数据集对所述金融风险评估模型进行模型训练。此外,由于上一次模型迭代的建模拒绝样本数据集与此次迭代模型的真实拒绝样本数据集都是被上一代模型以同样的拒绝分数阈值拒绝,因此应当具有相同的特征分布。进一步地,由于建模拒绝样本数据集具有真实的标签,能够增加模型对于拒绝样本的区分能力,进而保证本次迭代模型的预测准确性,提高拒绝客群的效果。如此,能够有效解决样本偏差问题,并能够有效提高金融风险评估模型的训练可靠性及效率,以及提高基于金融风险评估模型进行金融风险评估的准确性,进而可以提高根据评估结果对金融客户进行风险控制的可靠性及有效性。
58.为了进一步提高应用该金融风险评估模型进行金融风险评估的可靠性,在本技术提供的金融风险评估模型训练方法的一个实施例,所述金融风险评估模型训练方法中的步骤200具体可以包括:
59.步骤210:采用半监督学习法对所述真实拒绝样本数据集中的各个拒绝样本添加标签。
60.可以理解的是,半监督学习可以采用tsvm(transductive supportvector machine,半监督支持向量机)实现,tsvm是半监督支持向量机中的最著名代表,tsvm主要思想是尝试将每个未标记样本分别作为正例或反例,在所有结果中,寻找一个在所有样本上间隔最大的划分超平面。tsvm采用局部搜索的策略来进行迭代求解,即首先使用有标记样本集训练出一个初始svm,接着使用该学习器对未标记样本进行标记,这样所有样本都有了标记。
61.举例来说,可以采用tsvm通过半监督学习法为reject_b样本打标签。
62.从上述描述可知,本技术实施例提供的金融风险评估模型训练方法,通过采用半监督学习法对所述真实拒绝样本数据集中的各个拒绝样本添加标签,能够有效丰富训练样
本空间,使学习得到的金融风险评估模型更具有鲁棒性,进而能够进一步提高应用该金融风险评估模型进行金融风险评估的可靠性。
63.为了进一步提高金融风险评估模型训练的有效性,在本技术提供的金融风险评估模型训练方法的一个实施例,所述金融风险评估模型训练方法中的步骤300具体通过下述的310和320的步骤实现,示例性介绍如下。
64.步骤310:获取当前迭代周期的正样本数据集及负样本数据集,并将该正样本数据集及负样本数据集确定为常规样本数据集。
65.举例来说,可以将good_b和bad_b样本作为一类,reject_b样本视作另一类。
66.步骤320:基于所述常规样本数据、所述建模拒绝样本数据集以及所述真实拒绝样本数据集,应用增量学习方式对所述金融风险评估模型进行模型训练,以得到更新后的金融风险评估模型。
67.可以理解的是,增量学习思想可以在新增数据时,无需重建所有的知识库,而是在原有知识库的基础上,仅对由于新增数据所引起的变化进行更新。我们发现,增量学习方法更加符合人的思维原理。其中,增量学习框架有很多,各框架核心的内容是处理新数据与已存储知识相似性评价方法。因为该方法决定觉察新知识并增加知识库的方式,它影响着知识的增长。新知识的判定机制才是增量学习的核心部件。增量学习主要表现于两个方面,其中,一方面由于其无需保存历史数据,从而减少存储空间的占用;另一方面增量学习在当前的样本训练中充分利用了历史的训练结果,从而显著地减少了后续训练的时间。
68.从上述描述可知,本技术实施例提供的金融风险评估模型训练方法,通过应用增量学习方式对所述金融风险评估模型进行模型训练,能够兼顾不同样本间的重要性及模型的稳健性,进而能够进一步提高金融风险评估模型训练的有效性,并能够进一步提高应用该金融风险评估模型进行金融风险评估的准确性。
69.为了进一步提高增量学习的可靠性及有效性,在本技术提供的金融风险评估模型训练方法的一个实施例,所述金融风险评估模型训练方法中的步骤320可以通过下述的321-322的步骤实现。
70.步骤321:基于预设的重要性,对所述常规样本数据、所述建模拒绝样本数据集以及所述真实拒绝样本数据集进行排序,以得到对应的排序结果。
71.其中,重要性可以通过量化指标进行设置,也可以通过先后顺序进行表达。例如,对reject_b、good_b和bad_b、reject_fake样本可以按照期望的重要性进行排序,将重要性更高的样本用于训练靠前的树,一般而言,重要性排序为:good_b bad_b》reject_fake》reject_b。
72.步骤322:根据所述排序结果,对排序结果中最靠前的数据集,采用xgboost算法进行模型训练得到树组a;再使用排序结果中中间的数据集,同样采用xgboost算法在树组a的基础上继续训练增加新树,得到树组b;最后使用排序结果最靠后的数据集,采用xgboost算法在树组b的基础上继续训练增加新树,以得到更新后的金融风险评估模型。其中,最靠前的数据集、中间的数据集、以及最靠后的数据集可以根据预先设定的规则进行划分,例如可以将排序靠前的预设数量个数据集作为最靠前的数据集,排序靠后的预设数量个数据集作为最靠后的数据集,剩余的数据集作为中间的数据集,具体的划分规则本实施例不进行限定。
73.具体来说,可以对备好的样本采取增量学习的方法进行训练,例如,本方案采用xgboost算法,首先使用xgboost算法训练good_b及bad_b样本,生成模型的前n棵树;然后,使用reject_fake样本从xgboost模型的第n 1棵树开始继续训练,生成模型的第n 1—n m棵树;最后使用通过半监督学习获取标签的reject_b数据训练后r棵树,其中,n、m和r均为正整数。
74.从上述描述可知,本技术实施例提供的金融风险评估模型训练方法,通过对所述常规样本数据、所述建模拒绝样本数据集以及所述真实拒绝样本数据集进行排序,并根据所述排序结果,采用xgboost算法分别对所述金融风险评估模型依次划分得到的三个树组分别进行训练,以得到更新后的金融风险评估模型,能够进一步提高增量学习的可靠性及有效性,进而能够进一步提高金融风险评估模型训练的有效性,并能够进一步提高应用该金融风险评估模型进行金融风险评估的准确性。
75.为了进一步保证真实拒绝样本数据集的应用可靠性及有效性,在本技术提供的金融风险评估模型训练方法的一个实施例,参见图2,在所述金融风险评估模型训练方法中的步骤310之前,还可以包括如下步骤110所述的内容,示例性介绍如下。
76.步骤110:获取金融风险评估模型的上一次迭代周期中储存的小于拒绝阈值且有真实贷后表现的建模样本数据集,并将该建模样本数据集作为所述金融风险评估模型当前的建模拒绝样本数据集。
77.举例来说,获取前一次建模样本集a,由bad_a、good_a、reject_fake三部分组成,取出reject_fake样本备用。从上述描述可知,本技术实施例提供的金融风险评估模型训练方法,通过采用金融风险评估模型的上一次迭代周期中储存的小于拒绝阈值且有真实贷后表现的建模样本数据集,能够有效提高金融风险评估模型训练的效率,进而能够进一步提高金融风险评估模型训练的可靠性。
78.为了提高下一次金融风险评估模型训练的效率,在本技术提供的金融风险评估模型训练方法的一个实施例,参见图2,所述金融风险评估模型训练方法中的步骤322之后,还具体可以包括下述步骤400和步骤500的内容,示例性介绍如下。
79.步骤400:设置所述更新后的金融风险评估模型的拒绝阈值。
80.步骤500:在构建所述更新后的金融风险评估模型使用的常规样本数据集中选取小于所述拒绝阈值的样本,作为下次进行模型迭代时的建模拒绝样本数据集。
81.举例来说,在得到准入模型之后,可以根据测算设置拒绝阈值,从常规样本数据集筛选得到阈值以下的样本进行保存,作为下一次模型迭代的reject_fake样本。
82.从上述描述可知,本技术实施例提供的金融风险评估模型训练方法,通过在所述更新后的金融风险评估模型对应的常规样本数据集中选取小于所述拒绝阈值的样本,以生成该更新后的金融风险评估模型对应的拒绝样本数据集,能够为下一次迭代做好数据准备,进而能够有效提高下一次金融风险评估模型训练的效率。
83.从软件层面来说,为了解决现有的金融风险预测过程由于无法更好的解决样本偏差问题,因此依然存在的模型训练效率低且预测准确性差等问题,本技术提供一种用于执行所述金融风险评估模型训练方法中全部或部分内容的金融风险评估模型训练装置的实施例,参见图3,所述金融风险评估模型训练装置包括数据提取模块10、标签添加模块20、以及模型训练模块30。
84.数据提取模块10,用于从金融风险评估模型在实际使用中产生的真实拒绝的样本数据集中进行随机取样,以形成当前迭代周期的真实拒绝样本数据集。
85.标签添加模块20,用于对所述真实拒绝样本数据集中的各个拒绝样本添加标签。
86.模型训练模块30,用于基于当前迭代周期的正样本数据集、负样本数据集、建模拒绝样本数据集以及所述真实拒绝样本数据集,对所述金融风险评估模型进行模型训练以得到更新后的金融风险评估模型。
87.应当理解的是,上述数据提取模块10、标签添加模块20、以及模型训练模块30。可分别用于执行前述图1中的步骤100-300的内容,关于该等模块的详细内容可以具体参与上述方法步骤的描述,此处不再赘述。
88.本技术提供的金融风险评估模型训练装置的实施例具体可以用于执行上述实施例中的金融风险评估模型训练方法的实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
89.从上述描述可知,本技术实施例提供的金融风险评估模型训练装置,从金融风险评估模型在实际使用中产生的真实拒绝的样本数据集中进行随机取样,以形成当前迭代周期的真实拒绝样本数据集。同时,在使用常规样本数据集的基础上,补充了建模拒绝样本数据集与真实拒绝样本数据集对所述金融风险评估模型进行模型训练。此外,由于上一次模型迭代的建模拒绝样本数据集与此次迭代模型的真实拒绝样本数据集都是被上一代模型以同样的拒绝分数阈值拒绝,因此应当具有相同的特征分布。进一步地,由于建模拒绝样本数据集具有真实的标签,能够增加模型对于拒绝样本的区分能力,进而保证本次迭代模型的预测准确性,提高拒绝客群的效果。如此,能够有效解决样本偏差问题,并能够有效提高金融风险评估模型的训练可靠性及效率,以及提高基于金融风险评估模型进行金融风险评估的准确性,进而可以提高根据评估结果对金融客户进行风险控制的可靠性及有效性。
90.基于前述的金融风险评估模型训练方法及装置的实施例,本技术还提供一种金融风险评估方法及其装置的实施例,所述金融风险评估方法具体包含有如下内容:
91.步骤600:接收目标金融用户数据;
92.步骤700:将所述目标金融用户数据预处理,以得到目标金融用户的特征数据;
93.步骤800:将所述特征数据输入更新后的金融风险评估模型中,并根据该更新后的金融风险评估模型的输出确定所述目标金融用户的金融风险评估结果。
94.其中,所述更新后的金融风险评估模型预先基于前述的金融风险评估模型训练方法得到。
95.步骤900:输出所述目标金融用户的金融风险评估结果。
96.从上述描述可知,本技术实施例提供的金融风险评估方法,能够在一定程度上解决样本偏差问题,能够保证本次迭代模型的预测准确性,提高拒绝客群的效果。此外,可以有效解决样本偏差问题,并能够有效提高金融风险评估模型的训练可靠性及效率,进而能够有效提高基于金融风险评估模型进行金融风险评估的准确性,提高根据评估结果对金融客户进行风险控制的可靠性及有效性。
97.从软件层面来说,为了解决现有的金融风险预测过程由于无法更好的解决样本偏差问题,因此依然存在的模型训练效率低且预测准确性差等问题,本技术提供一种用于执行所述金融风险评估方法中全部或部分内容的金融风险评估装置的实施例,所述金融风险
评估装置还可以包括数据接收模块60、数据预处理模块70、数据评估模块80、以及数据输出模块90。数据接收模块60,用于接收目标金融用户数据;
98.数据预处理模块70,用于将所述目标金融用户数据预处理,以得到目标金融用户的特征数据;
99.数据评估模块80,用于将所述特征数据输入更新后的金融风险评估模型中,并根据该更新后的金融风险评估模型的输出确定所述目标金融用户的金融风险评估结果。
100.其中,所述更新后的金融风险评估模型预先基于前述的金融风险评估模型训练方法得到。
101.数据输出模块90,用于输出所述目标金融用户的金融风险评估结果。
102.本技术提供的金融风险评估装置的实施例具体可以用于执行上述实施例中的金融风险评估方法的实施例的处理流程,其功能在此不再赘述,可以参照上述金融风险评估方法实施例的详细描述。
103.从上述描述可知,本技术实施例提供的金融风险评估装置,能够在一定程度上解决样本偏差问题,能够保证本次迭代模型的预测准确性,提高拒绝客群的效果。在此基础上,能够有效解决样本偏差问题,并能够有效提高金融风险评估模型的训练可靠性及效率,进而能够有效提高基于金融风险评估模型进行金融风险评估的准确性,以及提高根据评估结果对金融客户进行风险控制的可靠性及有效性。
104.为了进一步说明书本方案,本技术还提供一种金融风险评估模型训练及金融风险评估方法的具体应用实例,具体体现为一种基于半监督及增量学习解决幸存者偏差问题的方法,参见图4,本技术的具体应用实例提供的基于半监督及增量学习解决幸存者偏差问题的方法,具体包含有如下内容:
105.步骤1,获取前一次建模样本集a,由bad_a、good_a、reject_fake三部分组成,取出reject_fake样本(上一次迭代周期中储存的小于拒绝阈值且有真实贷后表现的建模样本数据集)备用;
106.步骤2,获取当前建模样本集b,由bad_b、good_b、reject_b三部分组成,其中reject_b从符合条件的拒绝样本(原模型在实际使用中真实拒绝的样本数据集)中随机抽样获取,采用tsvm半监督学习法为reject_b样本打标签。将good_b和bad_b样本作为一类,reject_b样本视作另一类;
107.步骤3,对reject_b、good_b和bad_b、reject_fake样本按照期望的重要性进行排序,将重要性更高的样本用于训练靠前的树,一般而言,重要性排序为:good_b bad_b》reject_fake》reject_b;
108.步骤4,对备好的样本采取增量学习的方法进行训练,本方案采用xgboost(也可以写为xgboost)算法,首先使用xgboost算法训练步骤2中的good_b及bad_b样本,生成模型的前n棵树;使用reject_fake样本从xgboost模型的第n 1棵树开始继续训练,生成模型的第n 1—n m棵树,最后使用通过半监督学习获取标签的reject_b数据训练后r棵树。其中,n、m和r均为正整数。
109.步骤5,经过步骤4处理后,得到准入模型,根据测算设置拒绝阈值,从常规样本数据集筛选得到阈值以下的样本进行保存,作为下一次模型迭代的reject_fake样本。
110.从上述内容可知,本技术应用实例提供的基于半监督及增量学习解决幸存者偏差
问题的方法,至少具有如下有益效果:
111.1.由于上一次模型迭代的历史拒绝样本reject_fake与此次迭代模型的目标拒绝样本reject_b都是被上一代模型以同样的拒绝分数阈值拒绝,因此应当具有相同的特征分布,且由于历史拒绝样本reject_fake具有真实的标签,能够增加模型对于拒绝样本的区分能力,进而能够在一定程度上解决样本偏差问题,能够保证本次迭代模型的预测准确性,提高拒绝客群的效果。
112.2.使用半监督学习法tsvm预测目标拒绝样本reject_b标签,能够有效丰富训练样本空间,使学习得到的模型更具有鲁棒性;
113.3.使用增量学习的训练方法,能够兼顾不同样本间的重要性及模型的稳健性。
114.从硬件层面来说,为了解决现有的金融风险预测过程由于无法更好的解决样本偏差问题,因此依然存在的模型训练效率低且预测准确性差等问题,本技术提供一种用于实现所述金融风险评估模型训练方法或者金融风险评估方法中的全部或部分内容的电子设备的实施例。该电子设备可以包括中央处理器和存储器;存储器耦合到中央处理器。值得注意的是;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
115.在一实施例中,金融风险评估模型训练功能可以被集成到中央处理器中。其中,中央处理器可以被配置为执行上述方法实施例中的各个步骤。
116.从上述描述可知,本技术实施例提供的电子设备,能够在一定程度上解决样本偏差问题,能够保证本次迭代模型的预测准确性,提高拒绝客群的效果;进而能够有效解决样本偏差问题,并能够有效提高金融风险评估模型的训练可靠性及效率,进而能够有效提高基于金融风险评估模型进行金融风险评估的准确性,提高根据评估结果对金融客户进行风险控制的可靠性及有效性。
117.在另一个实施方式中,金融风险评估模型训练装置可以与中央处理器分开配置,例如可以将金融风险评估模型训练装置配置为与中央处理器连接的芯片,通过中央处理器的控制来实现金融风险评估模型训练功能。
118.该电子设备还可以包括:通信模块、输入单元、音频处理器、显示器、电源。中央处理器有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器接收输入并控制电子设备的各个部件的操作。
119.其中,存储器,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器可执行该存储器存储的该程序,以实现信息存储或处理等。
120.输入单元向中央处理器提供输入。该输入单元例如为按键或触摸输入装置。电源用于向电子设备提供电力。显示器用于进行图像和文字等显示对象的显示。该显示器例如可为lcd显示器,但并不限于此。
121.该存储器可以是固态存储器,例如,只读存储器(rom)、随机存取存储器(ram)、sim卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为eprom等。存储器还可以是某种其它类型的装置。存储器包括缓冲存储器9141(有时被称为缓冲器)。存储器可以包括应用/功能存储部,该应用/功能存储部用于存储应用程序和功能程序或用于通过中央处理器执行电子设备的操作的流
程。
122.存储器还可以包括数据存储部,该数据存储部用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器的驱动程序存储部可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
123.通信模块即为经由天线发送和接收信号的发送机/接收机。通信模块(发送机/接收机)耦合到中央处理器,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
124.基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)还经由音频处理器耦合到扬声器和麦克风,以经由扬声器提供音频输出,并接收来自麦克风的音频输入,从而实现通常的电信功能。音频处理器可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器还耦合到中央处理器,从而使得可以通过麦克风能够在本机上录音,且使得可以通过扬声器来播放本机上存储的声音。
125.本技术的实施例还提供能够实现上述实施例中的金融风险评估模型训练方法或者金融风险评估方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的执行主体为服务器或客户端的金融风险评估模型训练方法或者金融风险评估方法的全部步骤。
126.在本技术所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本技术的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
127.另外,在本技术各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
128.所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
129.需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存
在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
130.以上所述,仅为本技术的各种实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应所述以权利要求的保护范围为准。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献