一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种信用风险评估方法及系统与流程

2021-11-30 21:35:00 来源:中国专利 TAG:


1.本发明涉及信用风险评估技术领域,特别是涉及一种信用风险评估方法及系统。


背景技术:

2.在机器学习领域,分类任务是一项非常基础的研究内容。通常情况下,二分类任务中的数据集既包含带有正标签的样本也包含带有负标签的样本。然而,现实中负样本的标签往往难以获得,例如,在信用风险评估中,不良的信用可以明确认为是正样本,而未评估的信用风险数据并非一定是负样本(即良好的信用)。近几年来,信用卡欺诈交易正以前所未有的速度增长,并已成为金融部门的一个主要问题。由于这些欺诈行为,商家和金融机构都承受了重大损失。因此,信用风险评估是金融部门在信用借贷审批中不可缺少的一个环节。
3.当前已有的信用风险评估方法大部分都是基于有监督机制的,还不完全满足信用风险评估的现实情况。现有的信用风险评估方法,虽然可以得到较好的评估分类效果,但现实生活中信用风险数据往往存在负样本采集困难、采集成本昂贵等问题,且数据往往不可分,这给建立一个鲁棒的分类器带来极大的困难。因此,如何提高信用风险评估效果,是亟待解决的问题。


技术实现要素:

4.本发明的目的是提供一种信用风险评估方法及系统,通过引入线性判别分析,有利于构建一个鲁棒的分类器,提高了信用风险评估效果。
5.为实现上述目的,本发明提供了如下方案:
6.一种信用风险评估方法,包括:
7.获取信用风险评估数据和当前投影矩阵;所述信用风险评估数据包括单类信用风险数据和无标签信用风险数据;所述单类信用风险数据包括多个正样本数据,所述无标签信用风险数据包括多个无标签样本数据;所述当前投影矩阵为对所述信用风险评估数据进行线性判别分析后得到;
8.根据所述信用风险评估数据和所述当前投影矩阵,以最小化误分类经验风险为目标,确定分类器;
9.采用所述分类器对所述无标签信用风险数据进行分类,对所述无标签样本数据分配伪标签,得到伪标签数据;
10.对所述伪标签数据和所述正样本数据进行线性判别分析,得到更新后的投影矩阵;
11.判断是否满足迭代结束条件;若满足,则输出所述分类器和所述更新后的投影矩阵;若不满足,则将所述更新后的投影矩阵作为当前投影矩阵,然后返回步骤“根据所述信用风险评估数据和所述当前投影矩阵,以最小化误分类风险为目标,确定分类器”;
12.根据所述分类器和所述更新后的投影矩阵对所述信用风险评估数据进行信用风
险评估,得到信用风险评估结果。
13.可选地,在获取信用风险评估数据,之后还包括:
14.对所述信用风险数据进行归一化处理,得到归一化后的信用风险评估数据。
15.可选地,所述根据所述信用风险评估数据和所述当前投影矩阵,以最小化误分类经验风险为目标,确定分类器,具体包括:
16.根据所述信用风险评估数据和所述当前投影矩阵,采用如下公式确定分类器:
[0017][0018]
式中,为误分类经验风险,f为分类器,f(
·
)为分类器输出结果,π为正类的先验概率,为正样本数据,为无标签样本数据,l(
·
)为损失函数,λ为权衡参数,n
p
为正样本数量,n
u
为无标签样本数量,i为个数,r为投影矩阵。
[0019]
可选地,所述对所述伪标签数据和所述正样本数据进行线性判别分析,得到更新后的投影矩阵,具体包括:
[0020]
对所述伪标签数据和所述正样本数据采用如下公式进行线性判别分析,得到更新后的投影矩阵:
[0021][0022]
其中,
[0023]
s
b
=(μ
p

μ
n
)(μ
p

μ
n
)
t
[0024][0025]
式中,r为投影矩阵,s
b
为类内散度,s
w
为类间散度,μ
p
为正样本数据的均值向量,μ
n
为负样本数据的均值向量,x为样本,x
p
为正样本集,x
n
为负样本集;正样本集为存在信用风险的数据,负样本集为不存在信用风险的数据。
[0026]
可选地,所述根据所述分类器和所述更新后的投影矩阵对所述信用风险评估数据进行信用风险评估,得到信用风险评估结果,具体包括:
[0027]
根据所述更新后的投影矩阵和所述信用风险评估数据,采用所述分类器进行信用风险分类,得到信用风险分类结果。
[0028]
一种信用风险评估系统,包括:
[0029]
获取模块,用于获取信用风险评估数据和当前投影矩阵;所述信用风险评估数据包括单类信用风险数据和无标签信用风险数据;所述单类信用风险数据包括多个正样本数据,所述无标签信用风险数据包括多个无标签样本数据;所述当前投影矩阵为对所述信用风险评估数据进行线性判别分析后得到;
[0030]
分类器确定模块,用于根据所述信用风险评估数据和所述当前投影矩阵,以最小化误分类经验风险为目标,确定分类器;
[0031]
伪标签数据生成模块,用于采用所述分类器对所述无标签信用风险数据进行分
类,对所述无标签样本数据分配伪标签,得到伪标签数据;
[0032]
线性判别分析模块,用于对所述伪标签数据和所述正样本数据进行线性判别分析,得到更新后的投影矩阵;
[0033]
判断模块,用于判断是否满足迭代结束条件;若满足,则执行输出模块;若不满足,则执行更新模块;
[0034]
更新模块,用于将所述更新后的投影矩阵作为当前投影矩阵,然后执行所述分类器确定模块;
[0035]
输出模块,用于输出所述分类器和所述更新后的投影矩阵;
[0036]
信用风险评估模块,用于根据所述分类器和所述更新后的投影矩阵对所述信用风险评估数据进行信用风险评估,得到信用风险评估结果。
[0037]
可选地,还包括:
[0038]
处理模块,用于对所述信用风险数据进行归一化处理,得到归一化后的信用风险评估数据。
[0039]
可选地,所述分类器确定模块,具体包括:
[0040]
分类器确定单元,用于根据所述信用风险评估数据和所述当前投影矩阵,采用如下公式确定分类器:
[0041][0042]
式中,为误分类经验风险,f为分类器,f(
·
)为分类器输出结果,π为正类的先验概率,为正样本数据,为无标签样本数据,l(
·
)为损失函数,λ为权衡参数,n
p
为正样本数量,n
u
为无标签样本数量,i为个数,r为投影矩阵。
[0043]
可选地,所述线性判别分析模块,具体包括:
[0044]
线性判别分析单元,用于对所述伪标签数据和所述正样本数据采用如下公式进行线性判别分析,得到更新后的投影矩阵:
[0045][0046]
其中,
[0047]
s
b
=(μ
p

μ
n
)(μ
p

μ
n
)
t
[0048][0049]
式中,r为投影矩阵,s
b
为类内散度,s
w
为类间散度,μ
p
为正样本数据的均值向量,μ
n
为负样本数据的均值向量,x为样本,x
p
为正样本集,x
n
为负样本集;正样本集为存在信用风险的数据,负样本集为不存在信用风险的数据。
[0050]
可选地,所述信用风险评估模块,具体包括:
[0051]
信用风险评估单元,用于根据所述更新后的投影矩阵和所述信用风险评估数据,采用所述分类器进行信用风险分类,得到信用风险分类结果。
[0052]
与现有技术相比,本发明的有益效果是:
[0053]
本发明提出了一种信用风险评估方法及系统,获取信用风险评估数据和当前投影矩阵;根据信用风险评估数据和当前投影矩阵,以最小化误分类经验风险为目标,确定分类器;采用分类器对无标签信用风险数据进行分类,对无标签样本数据分配伪标签,得到伪标签数据;对伪标签数据和正样本数据进行线性判别分析,得到更新后的投影矩阵;若满足迭代结束条件,则输出分类器和更新后的投影矩阵;根据分类器和更新后的投影矩阵对信用风险评估数据进行信用风险评估,得到信用风险评估结果。本发明大大减少了样本标记成本,更贴近现实中信用风险评估缺少负样本数据的情况,同时考虑到数据的分布情况,利用线性判别分析来增加数据的判别性,更有利于构建鲁棒的分类器,直接利用单类信用风险数据和无标签信用风险数据进行评估,分类准确且效果稳定。
附图说明
[0054]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0055]
图1为本发明实施例中信用风险评估方法流程图;
[0056]
图2为本发明实施例中信用风险评估系统结构图;
[0057]
图3为本发明实施例中效果比较图。
具体实施方式
[0058]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0059]
本发明的目的是提供一种信用风险评估方法及系统,通过引入线性判别分析,有利于构建一个鲁棒的分类器,提高了信用风险评估效果。
[0060]
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
[0061]
实施例
[0062]
图1为本发明实施例中信用风险评估方法流程图,如图1所示,一种信用风险评估方法,包括:
[0063]
步骤101:获取信用风险评估数据和当前投影矩阵;信用风险评估数据包括单类信用风险数据和无标签信用风险数据;单类信用风险数据包括多个正样本数据,无标签信用风险数据包括多个无标签样本数据;当前投影矩阵为对信用风险评估数据进行线性判别分析后得到。
[0064]
在步骤101,之后还包括:对信用风险数据进行归一化处理,得到归一化后的信用风险评估数据。
[0065]
步骤102:根据信用风险评估数据和当前投影矩阵,以最小化误分类经验风险为目
标,确定分类器。
[0066]
步骤102,具体包括:
[0067]
根据信用风险评估数据和当前投影矩阵,采用如下公式确定分类器:
[0068][0069]
式中,为误分类经验风险,f为分类器,f(
·
)为分类器输出结果,π为正类的先验概率,为正样本数据,为无标签样本数据,l(
·
)为损失函数,λ为权衡参数,n
p
为正样本数量,n
u
为无标签样本数量,i为个数,r为投影矩阵。
[0070]
步骤103:采用分类器对无标签信用风险数据进行分类,对无标签样本数据分配伪标签,得到伪标签数据。
[0071]
步骤104:对伪标签数据和正样本数据进行线性判别分析,得到更新后的投影矩阵。
[0072]
步骤104,具体包括:
[0073]
对伪标签数据和正样本数据采用如下公式进行线性判别分析,得到更新后的投影矩阵:
[0074][0075]
其中,
[0076]
s
b
=(μ
p

μ
n
)(μ
p

μ
n
)
t
[0077][0078]
式中,r为投影矩阵,s
b
为类内散度,s
w
为类间散度,μ
p
为正样本数据的均值向量,μ
n
为负样本数据的均值向量,x为样本,x
p
为正样本集,x
n
为负样本集;正样本集为存在信用风险的数据,负样本集为不存在信用风险的数据。
[0079]
步骤105:判断是否满足迭代结束条件;若满足,则执行步骤107;若不满足,则执行步骤106。
[0080]
步骤106:将更新后的投影矩阵作为当前投影矩阵,然后返回步骤102。
[0081]
步骤107:输出分类器和更新后的投影矩阵。
[0082]
步骤108:根据分类器和更新后的投影矩阵对信用风险评估数据进行信用风险评估,得到信用风险评估结果。
[0083]
步骤108,具体包括:
[0084]
根据更新后的投影矩阵和信用风险评估数据,采用分类器进行信用风险分类,得到信用风险分类结果。
[0085]
图2为本发明实施例中信用风险评估系统结构图。如图2所示,一种信用风险评估系统,包括:
[0086]
获取模块201,用于获取信用风险评估数据和当前投影矩阵;信用风险评估数据包
括单类信用风险数据和无标签信用风险数据;单类信用风险数据包括多个正样本数据,无标签信用风险数据包括多个无标签样本数据;当前投影矩阵为对信用风险评估数据进行线性判别分析后得到;
[0087]
处理模块,用于对信用风险数据进行归一化处理,得到归一化后的信用风险评估数据。
[0088]
分类器确定模块202,用于根据信用风险评估数据和当前投影矩阵,以最小化误分类经验风险为目标,确定分类器;
[0089]
分类器确定模块202,具体包括:
[0090]
分类器确定单元,用于根据信用风险评估数据和当前投影矩阵,采用如下公式确定分类器:
[0091][0092]
式中,为误分类经验风险,f为分类器,f(
·
)为分类器输出结果,π为正类的先验概率,为正样本数据,为无标签样本数据,l(
·
)为损失函数,λ为权衡参数,n
p
为正样本数量,n
u
为无标签样本数量,i为个数,r为投影矩阵。
[0093]
伪标签数据生成模块203,用于采用分类器对无标签信用风险数据进行分类,对无标签样本数据分配伪标签,得到伪标签数据;
[0094]
线性判别分析模块204,用于对伪标签数据和正样本数据进行线性判别分析,得到更新后的投影矩阵;
[0095]
线性判别分析模块204,具体包括:
[0096]
线性判别分析单元,用于对伪标签数据和正样本数据采用如下公式进行线性判别分析,得到更新后的投影矩阵:
[0097][0098]
其中,
[0099]
s
b
=(μ
p

μ
n
)(μ
p

μ
n
)
t
[0100][0101]
式中,r为投影矩阵,s
b
为类内散度,s
w
为类间散度,μ
p
为正样本数据的均值向量,μ
n
为负样本数据的均值向量,x为样本,x
p
为正样本集,x
n
为负样本集;正样本集为存在信用风险的数据,负样本集为不存在信用风险的数据。
[0102]
判断模块205,用于判断是否满足迭代结束条件;若满足,则执行输出模块;若不满足,则执行更新模块;
[0103]
更新模块206,用于将更新后的投影矩阵作为当前投影矩阵,然后执行分类器确定模块;
[0104]
输出模块207,用于输出分类器和更新后的投影矩阵;
[0105]
信用风险评估模块208,用于根据分类器和更新后的投影矩阵对信用风险评估数据进行信用风险评估,得到信用风险评估结果。
[0106]
信用风险评估模块208,具体包括:
[0107]
信用风险评估单元,用于根据更新后的投影矩阵和信用风险评估数据,采用分类器进行信用风险分类,得到信用风险分类结果。
[0108]
为了进一步说明本发明提供的一种基于单类别分类的判别式信用风险评估方法,具体描述如下:
[0109]
本发明通过迭代求解一个双层优化问题来寻找一个最佳的投影矩阵,使得原始数据在新的特征空间中的类间距增大而类内距减小,增加了数据的判别性,从而构建一个鲁棒的分类器,实现仅依靠单类别样本和无标签样本的信用风险智能评估。
[0110]
具体的实施步骤如下:
[0111]
步骤1:数据预处理和归一化。对信用风险样本数据进行数据集划分,得到正样本集和无标签样本集其中,n
p
和n
u
分别是正样本集和无标签样本集里样本的数量。在信用风险评估中将不良的信用看作正样本集,将收集到的良好的信用和未检测出的信用风险看作无标签样本集,无标签样本集中的样本可能是良好的信用也可能是不良的信用。然后,再对样本特征进行归一化处理,使特征值在区间[0,1]内。
[0112]
步骤2:训练分类器。将步骤1中的正样本和无标签样本通过投影矩阵r投影到新的特征空间中分别得到和构建基于正样本和无标签样本的误分类经验风险:
[0113][0114]
对函数f(r
t
x)使用线性参数模型:
[0115][0116]
其中,是一组基函数,α为分类器f的系数,b为分类器f的偏置项。对于基函数,高斯函数、线性函数或多项式函数都可被用作基函数。利用该模型,式(1)可进一步表达为:
[0117][0118]
为了得到最优分类器f,需要最小化上式的经验风险,即
[0119][0120]
这里,使用平方损失作为上述优化问题的损失函数,其中z为变量。将模型(2)中的b并入α,将增广为则带有l2正则项的目标函数变为:
[0121]
[0122]
其中,φ
p
为关于正样本的数值矩阵,φ
u
为关于无标签样本的数值矩阵,为关于无标签样本的数值矩阵,是基函数,1为全1的列向量。为了求得该目标函数的最小值,对其求一阶导数,并令其等于零,得到α的解析解为:
[0123][0124]
步骤3:给无标签样本分配伪标签。将步骤2中得到的α,通过给无标签数据集里的每个样本都分配一个伪标签,再根据这个伪标签,联合原始的正样本集,就可以得到整个数据集的正负样本集和其中,和分别表示经步骤2中得到的分类器分类过的无标签数据集中的正负样本,和分别表示此情形下的正负样本数量,则有及
[0125]
步骤4:求投影矩阵。即求解
[0126][0127]
由于这里的r
t
s
b
r和r
t
s
w
r都是矩阵,不是标量,因此无法作为一个标量函数来优化。但是可以用其他的一些替代优化目标来实现,如
[0128][0129]
其中,∏
diag
a为a的主对角元素的乘积。h(r)的优化过程可以转化为
[0130][0131]
其中,m为投影后的特征维度。注意到上式的最右边就是广义瑞利商,其最大值是矩阵的最大特征值,则最大的m个值的乘积就是矩阵最大的m个特征值的乘积,此时对应的矩阵r为这最大的m个特征值对应的特征向量张成的矩阵。利用步骤3中得到的正负样本集和可以求得的值,进而得到投影矩阵r。
[0132]
步骤5:重复步骤2至步骤4直到收敛,得到最优分类器f
*
和最佳投影矩阵r
*

[0133]
最后,根据得到的模型参数对信用风险测试数据进行分类。利用最佳投影矩阵r
*
将信用风险测试数据集变换到新的特征空间中,再利用最优分类器f
*
进行分类,得到最终的信用风险评估结果的准确率。
[0134]
本发明采用german credit实际数据集作为信用风险评估示例,该数据集根据一组属性将信用分类为“良好”和“不良”。其特征属性包括现有支票账户的状态、信用记录、信贷用途、就业年数、财产、个人身份、分期付款率占可支配收入的百分比等。为了验证基于单类别分类的判别式信用风险评估方法的鲁棒性,本发明分别在构建正类和无标签类数据集时设置正类未标记率为20%、30%和40%三种情况,即分别取出20%、30%和40%的不良信用样本和全部的良好信用样本共同构成无标签类样本集。图3为本发明的方法与无偏的单
类别分类法在german credit实际数据集上当正类未标记率分别为20%、30%和40%时的效果比较图,图3的纵坐标表示准确率,图3展示了german credit数据集在上述三种情况下,本发明的方法与无偏的单类别分类法的效果比较图。由图3可见,在正类未标记率为20%、30%和40%的情况下,本发明的方法进一步提升了无偏的单类别分类法在该数据集的信用风险评估效果。
[0135]
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上,本说明书内容不应理解为对本发明的限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献