一种模块化评分卡建模的方法、装置、存储介质及电子设备与流程

2021-10-24 06:21:00 来源：中国专利 TAG：建模电子设备模块化装置评分

1.本发明涉及数据分析技术领域，特别是涉及一种模块化评分卡建模的方法、装置、存储介质及电子设备。

背景技术：

2.信用评分技术最早起源于美国的风险管理领域。1930年由美国管理协会保险部最先倡导风险管理，随后在银行业迅速流行开来。银行通过收集系统本身的征信数据以及用户在互联网上的各种数据，包括人际关系、历史消费行为、身份特征等，通过逻辑回归算法预测得到客户的风险得分，个体总评分等于入模的特征变量评分之和，特征变量的评分则由特征变量不同风险特性的特征项评分决定，一般来说，特征项的评分由其风险表现决定。
3.评分技术是一种应用统计模型，为申请者或已有客户计算一个风险分值的方法，而这种用途的统计模型就称为评分卡。评分卡的理论基础是假设历史客户的风险特征与未来应用保持基本一致的情况下，在大数法则基础上，通过对历史客户的各类信息进行分析，根据历史客户以上属性与好坏事件率的关系，来预测未来客户的好坏概率，并将概率转化为评分，以方便业务应用。
4.信用评分卡的建立是以对大量数据的统计结果为基础，具有相当之高的准确性和可靠性。为全方位刻画客户风险，我们一般会采用多维度数据源进行建模。常见的做法是以样本表为坐表，关联各数据源特征表，合成特征大宽表。但是因为各数据源覆盖率不同，因此，我们真正的建模样本为任意数据源覆盖的样本。
5.但是仍然会有部分样本没有关联到任何特征，那么在喂入模型之前，需先剔除这部分样本。对于缺失部分，可以填充为特殊值，以区分于正常值。这种建模方法的优点是简单直接，在准备完毕各数据源特征表后，可以快速形成大宽表，喂入模型训练。一般特征筛选也只关注稳定性、特征重要性等指标，而不需要像传统评分卡那样执行woe分箱、相关性分析、共线性分析等繁琐步骤。技术缺陷是如果我们将所有数据域的特征直接输入机器学习模型，再根据特征重要性粗筛，将会发现一个常见的问题：某些金融属性相对较强的数据域变量将牢牢占据top n的位置，导致某些数据域变量根本无法入模。而且如果监控某个变量不再有效或某种类型信息发生突发缺失时，需对所有变量重新建模。
6.基于此，本发明提供的模块化评分卡建模的方法，通过分数据源建立子模型，再融合成综合模型，不同模块根据数据表现采取不同算法，模型算法更加多样化，模型效果更加精准化，子模型灵活组装和协同分工式建模提高建模效率。
7.公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。

技术实现要素：

8.鉴于以上问题，有必要提供一种模块化评分卡建模的方法、装置、存储介质及电子设备，以便实现通过分数据源建立子模型，再融合成综合模型，不同模块根据数据表现采取
不同算法，模型算法更加多样化，模型效果更加精准化，子模型灵活组装和协同分工式建模提高建模效率。
9.为解决上述技术问题，本发明采用如下的技术方案：
10.第一方面，本技术发明提供一种模块化评分卡建模的方法，包括以下步骤：
11.分数据源建立子模型，只在覆盖样本上建模，考虑到一些弱数据源单个变量的iv都很低，难以制作评分卡模型，一般可采用机器学习模型，因此，模型起到了信息提取和特征增强的作用；
12.进一步的分以下几个步骤建立子模型：
13.特征变量的栏位划分和初步筛选，统计学上一般使用woe(事实权重)来测算特征变量不同栏位间好坏客户的区分度和风险表现，用iv(信息价值)测算栏位划分后特征变量的预测能力，一般iv值低于0.02的特征变量，不考虑入模；
14.建模数据集准备完成后，首先需要对每个特征变量的整体取值，按照实际风险表现结合业务应用方式划分成属性不同的区间段(特征项)，称为栏位划分(又称为特征变量分组或分箱),确定特征变量的栏位划分和变量初步筛选，需平衡以下四个因素:
15.预测性统计指标检验，各栏位划分的woe显示，特征变量各分组风险属性存在明显差异，且分组间的woe变化趋势与业务经验保持一致(以账龄为例，风险随着客户账龄的增加而有所下降)，且iv值不低于0.02；
16.分组稳定性检验，特征变量的分栏数在2
‑
8个栏位之间，如栏位划分过细，各分组人群分布变化过于敏感，不利于模型的稳定；如栏位划分过粗，则会损失特征变量信息变化的有效信息，可通过psi(稳定性指数)检验分组稳定性；
17.特征变量相关性及多重共线性检验，通过单变量分析，优先选择同类变量中预测性最优1
‑
3个特征变量入模，并结合参考model builder中的mc(边际贡献)值筛选入模效能高的特征变量组合；
18.业务应用检验：分组的断点、特征取值的分组合并、入模变量筛选要符合业务习惯、政策规定和应用要求；如客户账龄，分组断点要考虑产品设计的基本期限，woe虽可能显示准入后的风险表现相对较好，但分组合并时考虑到政策效应需强制其与最差的woe组合并；
19.构建woe初始化模型，在特征变量栏位划分和变量初步筛选的基础上构建woe模型；
20.评分拟合与校准，在好坏比对数与总评分的关系拟合完毕后，一般会通过校准过程，将总评分转换到用户所习惯的取值范围内。通常我们称模型计算出的评分为未校准评分，校准后的评分为校准评分；
21.用户可以对校准的相关要求做出规定，如：规定标准评分对应的标准好坏比(如600分对应的好坏比为20:1)；
22.规定标准pdo(pdo为好坏比翻倍所需增加的分值，当pdo为40时，如果600分所对应的好坏比是20:1，那么640分所对应的好坏比就是40:1)；
23.特征变量各栏位的校准评分都为正值；
24.变量入模筛选标准，变量iv大于0.02，边际贡献值mc的范围在一定的指标之上，一般是0.03；
25.特征变量的分组在2
‑
8个栏位之间，各分组风险趋势(woe)反映业务经验特征；
26.选取不同类型的变量以反映不同的风险特质；
27.一般每个模块选取入模的特征变量数在3
‑
15个之间。
28.子模型分数合成宽表，除子模型分数外，还可以加入性别、省份、年龄等基础信息变量；由于一个数据源就只产生一个子模型分数，入模特征数量得到大量压缩。
29.建立评分卡主模型，利用woe编码处理分数缺失的样本，可尝试单独放入一箱，具体根据缺失数据风险表现决定。再按照评分卡标准建模流程，制作主评分卡；建立主评分卡模型一般采取较为简单直接的逻辑回归算法，评分可解释性更强。
30.根据本发明的另一方面，提供了一种模块化评分卡建模的装置，所述装置包括：
31.分数据源建立子模型模块，只在覆盖样本上建模，考虑到一些弱数据源单个变量的iv都很低，难以制作评分卡模型，一般可采用机器学习模型，因此，模型起到了信息提取和特征增强的作用；
32.进一步的分以下几个步骤建立子模型：
33.特征变量的栏位划分和初步筛选，统计学上一般使用woe(事实权重)来测算特征变量不同栏位间好坏客户的区分度和风险表现，用iv(信息价值)测算栏位划分后特征变量的预测能力，一般iv值低于0.02的特征变量，不考虑入模；
34.建模数据集准备完成后，首先需要对每个特征变量的整体取值，按照实际风险表现结合业务应用方式划分成属性不同的区间段(特征项)，称为栏位划分(又称为特征变量分组或分箱),确定特征变量的栏位划分和变量初步筛选，需平衡以下四个因素:
35.预测性统计指标检验，各栏位划分的woe显示，特征变量各分组风险属性存在明显差异，且分组间的woe变化趋势与业务经验保持一致(以账龄为例，风险随着客户账龄的增加而有所下降)，且iv值不低于0.02；
36.分组稳定性检验，特征变量的分栏数在2
‑
8个栏位之间，如栏位划分过细，各分组人群分布变化过于敏感，不利于模型的稳定；如栏位划分过粗，则会损失特征变量信息变化的有效信息，可通过psi(稳定性指数)检验分组稳定性；
37.特征变量相关性及多重共线性检验，通过单变量分析，优先选择同类变量中预测性最优1
‑
3个特征变量入模，并结合参考model builder中的mc(边际贡献)值筛选入模效能高的特征变量组合；
38.业务应用检验：分组的断点、特征取值的分组合并、入模变量筛选要符合业务习惯、政策规定和应用要求；如客户账龄，分组断点要考虑产品设计的基本期限，woe虽可能显示准入后的风险表现相对较好，但分组合并时考虑到政策效应需强制其与最差的woe组合并；
39.构建woe初始化模型，在特征变量栏位划分和变量初步筛选的基础上构建woe模型；
40.评分拟合与校准，在好坏比对数与总评分的关系拟合完毕后，一般会通过校准过程，将总评分转换到用户所习惯的取值范围内。通常我们称模型计算出的评分为未校准评分，校准后的评分为校准评分；
41.用户可以对校准的相关要求做出规定，如：规定标准评分对应的标准好坏比(如600分对应的好坏比为20:1)；
42.规定标准pdo(pdo为好坏比翻倍所需增加的分值，当pdo为40时，如果600分所对应的好坏比是20:1，那么640分所对应的好坏比就是40:1)；
43.特征变量各栏位的校准评分都为正值；
44.变量入模筛选标准，变量iv大于0.02，边际贡献值mc的范围在一定的指标之上，一般是0.03；
45.特征变量的分组在2
‑
8个栏位之间，各分组风险趋势(woe)反映业务经验特征；
46.选取不同类型的变量以反映不同的风险特质；
47.一般每个模块选取入模的特征变量数在3
‑
15个之间。
48.子模型分数合成宽表模块，除子模型分数外，还可以加入性别、省份、年龄等基础信息变量；由于一个数据源就只产生一个子模型分数，入模特征数量得到大量压缩。
49.建立评分卡主模型模块，利用woe编码处理分数缺失的样本，可尝试单独放入一箱，具体根据缺失数据风险表现决定。再按照评分卡标准建模流程，制作主评分卡；建立主评分卡模型一般采取较为简单直接的逻辑回归算法，评分可解释性更强。
50.根据本发明的又一方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，处理器、存储器和通信接口通过通信总线完成相互间的通信；
51.存储器用于存放至少一可执行指令，可执行指令使处理器执行上述模块化评分卡建模方法对应的操作。
52.根据本发明的再一方面，提供了一种计算机存储介质，存储介质中存储有至少一可执行指令，可执行指令使处理器执行如上述模块化评分卡建模方法对应的操作。
53.本发明的有益效果在于：
54.本发明通过分数据源建立子模型，再融合成综合模型。本发明实施例提供的方法使得多个数据域特征入模，信息维度更加丰富和全面。不同模块根据数据表现采取不同算法，模型算法更加多样化，模型效果更加精准化。子模型灵活组装和协同分工式建模提高建模效率。当某个子模型发生变化，只需要对该子模型进行重新建模，自模型之间保持独立互不干涉。支持数据源优先级设置，实现数据源成本控制的目的。若数据源调整，可由备用数据源进行替换，实现插拔式快速上线。
55.上述对本发明的说明仅是本发明技术方案的概述，为了能够更清楚说明本发明的技术手段，达到可依照说明书的内容予以实施程度，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。
附图说明
56.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。
57.图1示出了本发明实施例所提供的一种模块化评分卡建模的方法的流程示意图；
58.图2示出了本发明实施例所提供的一种模块化评分卡建模的方法的装置结构图；
59.图3示出了本发明实施例所提供的一种模块化评分卡建模的方法的电子设备的结
构示意图。
具体实施方式
60.下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。
61.在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。
62.除非另有其它明确表示，否则在整个说明书和权利要求书中，术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分，而并未排除其它元件或其它组成部分。
63.此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。
64.图1示出了本发明实施例所提供的一种模块化评分卡建模的方法的流程示意图，参见图1所示，该方法包括：
65.步骤s1，分数据源建立子模型，只在覆盖样本上建模，考虑到一些弱数据源单个变量的iv都很低，难以制作评分卡模型，一般可采用机器学习模型，因此，模型起到了信息提取和特征增强的作用；
66.进一步的分以下几个步骤建立子模型：
67.特征变量的栏位划分和初步筛选，统计学上一般使用woe(事实权重)来测算特征变量不同栏位间好坏客户的区分度和风险表现，用iv(信息价值)测算栏位划分后特征变量的预测能力，一般iv值低于0.02的特征变量，不考虑入模；
68.建模数据集准备完成后，首先需要对每个特征变量的整体取值，按照实际风险表现结合业务应用方式划分成属性不同的区间段(特征项)，称为栏位划分(又称为特征变量分组或分箱),确定特征变量的栏位划分和变量初步筛选，需平衡以下四个因素:
69.预测性统计指标检验，各栏位划分的woe显示，特征变量各分组风险属性存在明显差异，且分组间的woe变化趋势与业务经验保持一致(以账龄为例，风险随着客户账龄的增加而有所下降)，且iv值不低于0.02；
70.分组稳定性检验，特征变量的分栏数在2
‑
8个栏位之间，如栏位划分过细，各分组人群分布变化过于敏感，不利于模型的稳定；如栏位划分过粗，则会损失特征变量信息变化的有效信息，可通过psi(稳定性指数)检验分组稳定性；
71.特征变量相关性及多重共线性检验，通过单变量分析，优先选择同类变量中预测性最优1
‑
3个特征变量入模，并结合参考model builder中的mc(边际贡献)值筛选入模效能
高的特征变量组合；
72.业务应用检验：分组的断点、特征取值的分组合并、入模变量筛选要符合业务习惯、政策规定和应用要求；如客户账龄，分组断点要考虑产品设计的基本期限，woe虽可能显示准入后的风险表现相对较好，但分组合并时考虑到政策效应需强制其与最差的woe组合并；
73.构建woe初始化模型，在特征变量栏位划分和变量初步筛选的基础上构建woe模型；
74.评分拟合与校准，在好坏比对数与总评分的关系拟合完毕后，一般会通过校准过程，将总评分转换到用户所习惯的取值范围内。通常我们称模型计算出的评分为未校准评分，校准后的评分为校准评分；
75.用户可以对校准的相关要求做出规定，如：规定标准评分对应的标准好坏比(如600分对应的好坏比为20:1)；
76.规定标准pdo(pdo为好坏比翻倍所需增加的分值，当pdo为40时，如果600分所对应的好坏比是20:1，那么640分所对应的好坏比就是40:1)；
77.特征变量各栏位的校准评分都为正值；
78.变量入模筛选标准，变量iv大于0.02，边际贡献值mc的范围在一定的指标之上，一般是0.03；
79.特征变量的分组在2
‑
8个栏位之间，各分组风险趋势(woe)反映业务经验特征；
80.选取不同类型的变量以反映不同的风险特质；
81.一般每个模块选取入模的特征变量数在3
‑
15个之间。
82.步骤s2，子模型分数合成宽表，除子模型分数外，还可以加入性别、省份、年龄等基础信息变量；由于一个数据源就只产生一个子模型分数，入模特征数量得到大量压缩。
83.步骤s3，建立评分卡主模型，利用woe编码处理分数缺失的样本，可尝试单独放入一箱，具体根据缺失数据风险表现决定。再按照评分卡标准建模流程，制作主评分卡；建立主评分卡模型一般采取较为简单直接的逻辑回归算法，评分可解释性更强。
84.图2示出了本发明实施例所提供的一种模块化评分卡建模的装置20的结构示意图，包括：
85.201分数据源建立子模型模块，只在覆盖样本上建模，考虑到一些弱数据源单个变量的iv都很低，难以制作评分卡模型，一般可采用机器学习模型，因此，模型起到了信息提取和特征增强的作用；
86.202子模型分数合成宽表模块，除子模型分数外，还可以加入性别、省份、年龄等基础信息变量；由于一个数据源就只产生一个子模型分数，入模特征数量得到大量压缩；
87.203建立评分卡主模型模块，利用woe编码处理分数缺失的样本，可尝试单独放入一箱，具体根据缺失数据风险表现决定。再按照评分卡标准建模流程，制作主评分卡；建立主评分卡模型一般采取较为简单直接的逻辑回归算法，评分可解释性更强。
88.图3示出了本发明实施例所提供的一种模块化评分卡建模的方法的电子设备的结构示意图。所述电子设备1100可以是具备计算能力的主机服务器、个人计算机pc、或者可携带的便携式计算机或终端等。本发明具体实施例并不对电子设备的具体实现做限定。
89.该电子设备1100包括至少一个处理器(processor)1110、通信接口
(communications interface)1120、存储器(memory array)1130和总线1140。其中，处理器1110、通信接口1120、以及存储器1130通过总线1140完成相互间的通信。
90.通信接口1120用于与网元通信，其中网元包括例如虚拟机管理中心、共享存储等。
91.处理器1110用于执行程序。处理器1110可能是一个中央处理器cpu，或者是专用集成电路asic(application specific integrated circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。
92.存储器1130用于可执行的指令。存储器1130可能包含高速ram存储器，也可能还包括非易失性存储器(non
‑
volatile memory)，例如至少一个磁盘存储器。存储器1130也可以是存储器阵列。存储器1130还可能被分块，并且所述块可按一定的规则组合成虚拟卷。存储器1130存储的指令可被处理器1110执行，以使处理器1110能够执行上述任意方法实施例中的需求的匹配方法。
93.本发明实施例还提供了一种存储介质，所述存储介质存储有计算机可执行指令，其包含用于执行上述需求的匹配方法的程序，该计算机可执行指令可执行上述任意方法实施例中的方法。
94.其中，所述存储介质可以是计算机能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(mo)等)、光学存储器(例如cd、dvd、bd、hvd等)、以及半导体存储器(例如rom、eprom、eeprom、非易失性存储器(nand flash)、固态硬盘(ssd))等。
95.以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于计算流体动力学的流场分布的评价方法与流程

一种模块化评分卡建模的方法、装置、存储介质及电子设备与流程

相关文献

最热文献