一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于单调有序决策树集成的信贷等级评定方法与流程

2022-02-22 05:57:39 来源:中国专利 TAG:


1.本发明属于信贷等级评估技术领域,具体涉及一种基于单调有序决策树集成的信贷等级评定方法。


背景技术:

2.信贷等级评估问题可归纳为机器学习中的有序分类任务。有序分类任务中,属性与决策的取值存在等级关系,且当样本的属性具有较高的等级时,应具有较高的决策等级。
3.在有序分类研究领域,基于单调有序决策树的集成技术极大程度地提高了单颗有序树的泛化性能。
4.目前,面向有序分类的集成技术主要为在属性集合形成的约简子空间上建立单颗树,并采用投票或软投票的方式融合所有单颗树上的预测结果。
5.现阶段,较为先进的约简技术是基于辨识矩阵的约简技术,该技术第一步定义辨识矩阵。辨识矩阵的每个元素表示区分行列所代表样本对的属性集合。第二步通过辨识函数中的分配律和吸收律作用辨识矩阵的所有元素,得到多个约简结果,这些约简是通过辨识矩阵能得到的所有可能的约简方式,称其是完备的。基于辨识矩阵的约简技术得到的约简子集具有互补性、完备性和较强的可解释性。
6.上述的解决信贷等级评估问题的的集成技术采取对属性集合进行扰动的策略生成新的衍生集合。
7.为了构建用于融合的具有差异性和准确性的基分类器,传统集成技术通常也对样本集合进行扰动,例如,随机森林技术不仅对属性集合进行采样,还对训练样本集合进行有放回重抽样得到多个训练样本集合,该技术能够显著性地提高决策树模型的泛化性能。


技术实现要素:

8.综上所述,现阶段解决信贷等级评估问题的集成技术存在两个不足之处:其一是基于辨识函数的约简技术的时间复杂度依赖于样本规模。当样本数量增多时,其时间复杂度随着样本呈现指数增长。其二是构建单颗决策树的训练集的差异性可通过抽样技术进一步提高。
9.为了提高信贷等级评估问题和有序分类任务的性能,本发明提出使用有序抽样对信贷等级评估的训练集合进行扰动,该抽样方法充分利用序信息,通过抽取代表性样本生成与训练数据分布相近的衍生训练集,可大幅度降低训练集合的样本规模,进一步本发明结合现阶段最先进的基于辨识矩阵的约简方法,提供一种基于单调有序决策树集成的信贷等级评定方法。
10.为了达到上述目的,本发明采用了下列技术方案:
11.一种基于单调有序决策树集成的信贷等级评定方法,包括以下步骤:
12.步骤1,输入数据:输入数据作为训练集,所述数据为二维矩阵表,行表示样本,列表示属性;
13.步骤2,数据预处理:对输入的数据进行预处理,包括缺失值补全或删除、训练数据归一化、特征属性与决策属性正相关化、噪音样本标签重置;
14.步骤3,有序抽样:从预处理好的训练集中抽取一部分代表性样本,在样本总体s={x1,x2,

,xn}中抽取容量为mk<n的有序抽样样本集;
15.步骤4,属性约简:对有序抽样样本集合进行属性约简,得到具有差异性、互补性的属性子集;
16.步骤5,生成单调有序决策树:在得到具有差异性、互补性的属性子集上,根据单调有序决策树算法生成决策树模型;单调有序决策树是二叉树递归模型。树的根节点和内部节点存储最优切割属性和该属性的最优切割值。并且,记录每一个切割属性再原始数据表中的索引,便于之后预测时抽取新来样本的属性。切割属性最优性和最优切割值通过刻画特征与决策单调一致程度的函数判定。
17.步骤6,集成预测:通过训练集得到多个单调有序决策树模型之后,进行对信贷评估的等级预测;对于待评估的客户,采集到相应的信息后,首先对信息进行数字化整理,表示为二维数据表的形式,然后通过训练集上每个属性的极大值和极小值对新来样本进行归一化处理,再输入单调有序决策树模型中得到多个预测结果,采取众数投票,多数表决的方式得到最终的预测结果。
18.进一步,所述步骤2中缺失值补全或删除具体步骤为:训练集中样本的缺失属性用最近邻样本的属性值补全,缺失太多属性的样本删除不用;
19.所述训练数据归一化具体步骤为:为了消除特征属性量纲对模型学习的不必要影响,对缺失值补全或删除后的样本进行极差归一化处理,每一列属性减掉该列属性取值的最小值,再除以该列最大值与最小值之差;
20.所述特征属性与决策属性正相关化具体步骤为:单调有序决策树模型采用的有序熵函数要求特征属性与决策属性满足正相关性,为达到这一要求,对归一化后样本的特征属性进行正相关化处理,首先计算每一列特征属性与决策属性的spearman秩相关性,对于获得负相关系数的特征属性,采用1减去该列特征属性的值取代原始值;
21.所述噪音样本标签重置具体步骤为:为增强决策表特征与决策的一致性,重置噪音样本的标签。对于每一个特征决策正相关化后的样本,在参数β下,计算其特征优势集与其决策优势集的交集中样本个数占特征优势集中样本个数的比例,该比例小于1-β的样本被定义为噪音样本,通过差值法估算每个样本属于每个类的概率,噪音样本的标签被重置为最大可能类。
22.进一步,所述步骤3中在样本总体s={x1,x2,

,xn}中抽取容量为mk<n的有序抽样样本集,目的从训练集中抽取一部分代表性样本,具体步骤为:
23.步骤3.1,从样本总体s中抽取k2个样本,并将其随机划分为k个集合,每个集合中含k个样本;
24.步骤3.2,从第一个集合中按照主观经验或感兴趣的属性选取排序最小的样本放入样本集;从第二个集合中选取排序次小的样本放入样本集,...,从第k个集合中选取排序最大的样本放入样本集,由此得到k个样本:
25.x
[1]1
x
[2]1
···
x
[k]1
[0026]
步骤3.3,将上述两个步骤重复m次,可得到样本容量为mk的有序抽样样本集:
[0027]
x
[1]1
x
[2]1
···
x
[k]1
[0028]
x
[1]2
x
[2]2
···
x
[k]2
[0029][0030]
x
[1]m x
[2]m
···
x
[k]m
[0031]
其中,k、m为参数,通过交叉验证选取或者人为指定,本发明倾向于设定k为样本总量的平方根,m为十以内的数。
[0032]
进一步,所述步骤4中对有序抽样样本集合进行属性约简,具体步骤为:
[0033]
使用分位数1-p融合多个属性,使得下近似值通过最优属性计算,按照下近似的定义进行选择属性时,当一个属性形成的优势值不差于最优属性形成的优势值时,该属性被选入辨识矩阵,从而计算有序抽样样本集合的辨识矩阵,再通过辨识函数得到所有可能的约简,其中参数p取值范围为1到属性的个数,本发明倾向于通过验证原始训练集合与有序抽样集合的差集确定其值。
[0034]
下近似定义中,使用相交算子融合多个属性,这使得下近似值通过最优属性(与决策属性单调一致程度最高的属性)计算。按照下近似的定义进行选择属性时,当一个属性形成的优势值不差于最优属性形成的优势值时,该属性才能被选入辨识矩阵。这样的选择方式对于分类任务而言,过于严格。使用分位数1-p替代相交算子,松弛了下近似的定义。这样,当一个属性形成的优势值不差于第p个最优值时,该属性可以被选入辨识矩阵。
[0035]
进一步,所述辨识函数的吸收律通过所述辨识矩阵运算判断行的包含关系,时间复杂度低,分配律通过香农展开递归地实现,运行效率高。
[0036]
进一步,所述步骤5中单调有序决策树算法使用模糊有序单调熵函数作为特征评价准则,该函数充分利用了信贷评估数据表中的序信息,更好地刻画了属性之间的差距。单调有序决策树算法与传统二分类树算法cart结构相同,不同之处在于cart使用基尼指数作为特征评价准则。
[0037]
与现有技术相比本发明具有以下优点:
[0038]
本发明针对信贷等级评估问题提供了基于单调有序决策树集成的预测技术,具体涉及到有序抽样和属性约简技术。信贷等级评估问题亟需客户、企业可解释的规则,并且是单调的(经济条件好的客户信贷等级高),且客户数据信息同时包含离散属性和连续属性;而单调有序决策树技术的模型可以生成if-then的易懂规则,且满足单调约束,能同时处理离散和连续属性,该模型极其适用于此类问题。集成技术可显著性地提高决策树的泛化性能,而时间复杂度较高。本发明提供的有序抽样技术与属性约简技术分别从样本抽样和属性抽样角度增大了集成技术所需的差异性,充分利用了数据中的序信息,并且降低了问题的数据规模,适用于海量大规模数据的等级评估任务。
附图说明
[0039]
图1为本发明的技术流程图;
[0040]
图2为本发明数据预处理的流程图;
[0041]
图3为本有序抽样的流程图;
[0042]
图4为属性约简的流程图;
[0043]
图5为集成预测的流程图;
[0044]
图6为本发明基于单调有序决策树集成的信贷等级评定方法的集成流程图;
[0045]
图7为噪音样本标签重置中差值法示意图;
[0046]
图8为决策树对信贷等级评估问题的预测方式。
具体实施方式
[0047]
实施例1
[0048]
如图1、图6所示,本实施例一种基于单调有序决策树集成的信贷等级评定方法,包括以下步骤:
[0049]
步骤1,输入数据:输入数据作为训练集,所述数据为二维矩阵表,行表示样本,列表示属性;
[0050]
步骤2,数据预处理(图2):对输入的数据进行预处理,包括缺失值补全或删除、训练数据归一化、特征属性与决策属性正相关化、噪音样本标签重置;
[0051]
所述缺失值补全或删除具体步骤为:训练集中样本的缺失属性用最近邻样本的属性值补全,缺失太多属性的样本删除不用;
[0052]
所述训练数据归一化具体步骤为:对缺失值补全或删除后的样本进行极差归一化处理,每一列属性减掉该列属性取值的最小值,再除以该列最大值与最小值之差;
[0053]
所述特征属性与决策属性正相关化具体步骤为:对归一化后样本的特征属性进行正相关化处理,首先计算每一列特征属性与决策属性的spearman秩相关性,对于获得负相关系数的特征属性,采用1减去该列特征属性的值取代原始值;
[0054]
所述噪音样本标签重置具体步骤为:对于每一个特征决策正相关化后的样本,在参数β下,计算其特征优势集与其决策优势集的交集中样本个数占特征优势集中样本个数的比例,该比例小于1-β的样本被定义为噪音样本,通过差值法(图7)估算每个样本属于每个类的概率,噪音样本的标签被重置为最大可能类。
[0055]
步骤3,有序抽样(图3):从预处理好的训练集中抽取一部分代表性样本,在样本总体s={x1,x2,

,xn}中抽取容量为mk<n的有序抽样样本集,具体步骤为:
[0056]
步骤3.1,从样本总体s中抽取k2个样本,并将其随机划分为k个集合,每个集合中含k个样本;
[0057]
步骤3.2,从第一个集合中按照主观经验或感兴趣的属性选取排序最小的样本放入样本集;从第二个集合中选取排序次小的样本放入样本集,...,从第k个集合中选取排序最大的样本放入样本集,由此得到k个样本:
[0058]
x
[1]1
x
[2]1
···
x
[k]1
[0059]
步骤3.3,将上述两个步骤重复m次,可得到样本容量为mk的有序抽样样本集:
[0060]
x
[1]1
x
[2]1
···
x
[k]1
[0061]
x
[1]2
x
[2]2
···
x
[k]2
[0062][0063]
x
[1]m x
[2]m
···
x
[k]m
[0064]
其中,k、m为参数,通过交叉验证选取或者人为指定,本发明倾向于设定k为样本总量的平方根,m为十以内的数。
[0065]
步骤4,属性约简(图4):对有序抽样样本集合进行属性约简,得到具有差异性、互
补性的属性子集,具体步骤为:
[0066]
使用分位数1-p融合多个属性,使得下近似值通过最优属性计算,按照下近似的定义进行选择属性时,当一个属性形成的优势值不差于最优属性形成的优势值时,该属性被选入辨识矩阵,从而计算有序抽样样本集合的辨识矩阵,再通过辨识函数得到所有可能的约简集合,其中参数p取值范围为1到属性的个数。
[0067]
所述辨识函数的吸收律通过所述辨识矩阵运算判断行的包含关系,分配律通过香农展开递归地实现。
[0068]
步骤5,生成单调有序决策树:在得到具有差异性、互补性的属性子集上,根据单调有序决策树算法生成决策树模型;
[0069]
图8示例为决策树对信贷等级评估问题的预测方式,按照月收入,是否有房和婚否依次对样本进行等级评估。最顶部的方形节点表示根节点,其余方形节点为内部节点,圆形节点为叶子节点。
[0070]
单调有序决策树算法使用模糊有序单调熵函数作为特征评价准则,该函数充分利用了信贷评估数据表中的序信息,更好地刻画了属性之间的差距。
[0071]
步骤6,集成预测(图5):通过训练集得到多个单调有序决策树模型之后,进行对信贷评估的等级预测;对于待评估的客户,采集到相应的信息后,首先对信息进行数字化整理,表示为二维数据表的形式,然后通过训练集上每个属性的极大值和极小值对新来样本进行归一化处理,再输入单调有序决策树模型中得到多个预测结果,采取众数投票,多数表决的方式得到最终的预测结果。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献