一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于元学习和改进的Catboost算法的债券违约预测方法

2022-08-10 20:21:03 来源:中国专利 TAG:

一种基于元学习和改进的catboost算法的债券违约预测方法
技术领域
1.本发明涉及一种债券违约预测识别的技术,具体涉及一种基于元学习和改进的catboost算法的方法,属于金融信息数据管理技术。


背景技术:

2.违约风险处于历史最高水平,债券展期规模大幅增加,债券市场总体的信用风险水平也相对增加,债券的违约形式也不断多样化。截止2021年末,从债券规模来看,我国债券市场中公司债规模居首,占比将近61%,从违约规模来看,2021年的违约债券仍延续往年,以公司债、私募债居多,二者合计占比约62%,从债券违约数据的不平衡程度来看,正负例之间的比例超过1:100,具有严重的不平衡问题。因此,债券违约数据具有严重的不平衡程度,结合现实意义和数据特点,对债券违约预测进行研究是十分有意义的。目前,许多研究者在债券违约方面做了大量的研究,提出了许多实用的识别方法,主要包括:
3.(1)专利《一种信用评级违约概率测度与风险预警方法》(公开号 cn110110981a)考虑了非信用因素波动对违约概率的影响,添加了定性指标建立了一个综合的指标体系,并借助了数据挖掘技术构建了一个违约损失率预测模型和二元响应风险预警模型,对信用评级的数学模型进行了改进研究与应用,并利用机器学习当中的监督学习的分类思想建立了评价预警系统,实现了预测策略。
4.缺点:由于该方法对债券违约概率进行测度,并没有考虑债券数据级本身的不平衡情况对机器学习模型的影响,不平衡数据会大大较低模型的表现效果。
5.(2)专利《基于信用等级与违约损失率匹配的信用评级系统与方法》(公开号cn102779317a)从信用的本质出发,提供了一致信用等级越高、违约概率越低的信用本质属性的信用评级系统和方法,利用信用等级与违约损失率匹配的信用等级划分优化算法,求解数学规划模型,进行客户的信用评级。
6.缺点:虽然考虑了信用的本质属性,但是引用指标比较单一,主要是一些数值型变量,且没有考虑数据集本身的不平衡问题。


技术实现要素:

7.本发明的目的是提供一种债券违约预测中基于元学习和改进的 catboost算法的方法。首先对原始数据采用k近邻进行缺失值的填补,为了消除单位和量纲的影响,进行标准化处理,然后采用基于元学习框架的显式梯度学习数据增强(egla)来处理不平衡的问题,然后使用相关分析和随机森林相结合的方式进行特征筛选工程,最终选取重要性排名前20的特征作为catboost模型的输入,并用非线性加速改进后的ghmna loss作为catboost算法的损失函数,得到了改进的 catboost模型进行债券违约预测。
8.为了实现上述目的,本发明提供了如下技术方案:
9.本发明提供一种基于元学习和改进的catboost算法的债券违约预测方法,该方法包括如下步骤:
10.步骤一:数据预处理
11.(1.1)将债券违约相关数据集作为输入,首先进行缺失值的处理,采取k近邻算法进行缺失值的填补;
12.(1.2)对进行过缺失值处理后的数据进行最大最小归一化的标准化处理。
13.步骤二:特征工程
14.(2.1)对进行预处理后的数据集采用基于元学习的显式梯度数据增强(egla)进行不平衡数据的处理;
15.(2.2)对于经过不平衡处理后的数据,绘制相关系数的热力图判断解释变量之间的相关系数,采取措施消除共线性,剔除其中一个特征。; (2.3)对删除部分共线性特征后的数据使用随机森林算法来对特征变量的重要性进行筛选留信息增益值排名前20的特征变量;
16.(2.4)将经过相关分析和随机森林筛选的数据作为模型的最终输入;
17.步骤三:债券违约预测
18.(3.1)对上述得到的数据集,进行训练集和测试集的划分。
19.(3.2)利用改进的catboost算法模型进行训练预测。
20.所述的步骤二(2.1)中:通过复制位于高不确定性区域的少数类样本实例来合成新的样本,复制其中训练集中的实例来实现得到新数据集z
synth
,即d
synth
=(z
synth
,y
synth
),具体有:
21.d
synth
={(x,y)∈d
train
|y=1,c
θ
(x)≤c};
22.通过复制d
train
中的实例来实现合成集d
synth
的初始化,而复制的少数类的样本由初始分类器模型c
θ
确定。
23.所述的步骤二(2.1)中:对分类器模型c
θ
进行训练,具体的梯度更新为:
24.θ(z
synth
)

θ-η1▽
θ
l(x1∪z
synth
|θ),
25.其中η1为步长。通过计算z
synth
上的损失函数并执行一个或者多个梯度下降更新来实现分类器模型c
θ
的决策边界的调整。
26.所述的步骤二(2.1)中:在验证集d
valid
上计算分类器的损失,即 l(d
valid
;c
θ
),并通过计算损失执行梯度下降来改变z
synth
的值。z
synth
的具体更新为:
[0027][0028]
其中η2为步长,上述两个更新进行相互迭代,逐步将复制的少数类样本移动到更好的决策边界区域。
[0029]
所述的步骤二(3.1)中:用梯度均衡机制(ghm)来高效训练模型。最终的梯度密度调和后的分类损失为:
[0030][0031]
其中,gk表示第k个样本的模长,l
ε
(g)表示计算样本量在此邻域的区间长度,δ
ε
(gk,g)表示x是否在y的一个邻域内,求和后的含义为gk在g范围内的样本数目。
[0032]
所述的步骤二(3.1)中:为近似的获得梯度密度,采用单位区域上应用滑动平均
(ema)的方法,具体得到损失函数的估计式为:
[0033][0034]
在求取近似的梯度密度的时候不仅用到了当前的梯度信息,还用到了第t-1次迭代的梯度信息,通过滑动系数α加权来调整梯度信息。
[0035]
所述的步骤二(3.1)中:在求取近似的梯度密度的时候不仅用到了当前的梯度信息,还用到了第t-1次迭代的梯度信息,通过滑动系数α加权来调整梯度信息,对滑动平均每次迭代输出的结果进行非线性加权平均,从而更好的无限逼近最优近似梯度密度,同时减小方差。首先根据每次迭代后的输出结果计算矩阵:
[0036]
w=[r1,r2,...,rm],
[0037]
再求解最优权重:
[0038][0039]
所述的步骤二(3.1)中:在得到最优权重后求解和的近似解,最后输出损失函数的近似解具体式子为:
[0040][0041]
对改进后的损失函数用泰勒展开来近似得到近似梯度密度的最优解,用非线性加权平均求得的近似梯度密度可以充分运用历史梯度信息,保留历史信息对对输出的影响。
[0042]
所述的步骤二(3.2)中:将d
synth
作为最终输入,采用使用ghmnaloss为损失函数的改进的catboost算法对数据集进行训练,catboost 算法嵌入了自动将类别特征处理为数值型特征的创新算法,同时采用了排序提升的方法以对抗训练集当中可能的噪声点,避免了梯度估计的偏差,减少了类别特征数据预处理的冗余步骤,能够极大程度的丰富债券违约预测的特征维度,解决了预测偏移的问题。改进后的 catboost'算法在便利处理类别变量的同时,可以从梯度角度更好的解决和关注不平衡问题。
[0043]
与现有技术相比,本发明的有益效果在于:
[0044]
1、本发明允许在债券违约数据集明显不平衡的情况下依旧达到较好的识别效果。
[0045]
2、相对于已有的债券违约预测技术相比,类别特征可以直接输入进行模型训练。
附图说明
[0046]
图1为本发明基于元学习和改进的catboost算法的债券违约预测方法整体框图;
[0047]
图2为基于元学习的显式梯度数据增强(egla)算法图;
[0048]
图3为ghmna loss算法图。
具体实施方式
[0049]
下面结合附图和实施例对本发明进行进一步说明。
[0050]
如图1所示,一种基于元学习和改进的catboost算法的债券违约预测方法,步骤如下:
[0051]
步骤一:数据预处理
[0052]
(1.1)将债券违约相关数据集作为输入,首先进行缺失值的处理,对缺失率大于50%的特征采取删除特征的办法,对于缺失率小于50%的特征采取k近邻算法进行缺失值的填补;
[0053]
(1.2)对进行过缺失值处理后的数据进行最大最小归一化的标准化处理。具体式子为:
[0054][0055]
步骤二:特征工程
[0056]
(2.1)对进行预处理后的数据集采用基于元学习的显式梯度数据增强(egla)进行不平衡数据的处理,通过复制位于高不确定性区域的少数类样本实例来合成新的样本,复制其中训练集中的实例来实现得到新数据集z
synth
,即d
synth
=(z
synth
,y
synth
),且d
synth
是一个动态变化的数据集。具体有:
[0057]dsynth
={(x,y)∈d
train
|y=1,c
θ
(x)≤c};
[0058]
通过复制d
train
中的实例来实现合成集d
synth
的初始化,而复制的少数类的样本由初始分类器模型c
θ
确定,选定由初始分类器模型c
θ
确定的高不确定性区域中的少数样本来获得合成样本d
synth
,即选定的少数类样本x∈d
train
,并设定一个常量c为复制少数类样本的比例,有c
θ
≤c,0≤c≤1。
[0059]
再对分类器模型c
θ
进行训练,具体的梯度更新为:
[0060]
θ(z
synth
)

θ-η1▽
θ
l(x1∪z
synth
|θ),
[0061]
其中η1为步长。通过计算z
synth
上的损失函数并执行一个或者多个梯度下降更新来实现分类器模型c
θ
的决策边界的调整。
[0062]
所述的步骤二(2.1)中:在保持对原始数据的保真的同时,在验证集 d
valid
上计算分类器的损失,即l(d
valid
;c
θ
),并通过计算损失执行梯度下降来改变z
synth
的值。z
synth
的具体更新为:
[0063][0064]
其中η2为步长,上述两个更新进行相互迭代,逐步将复制的少数类样本移动到更好的决策边界区域。
[0065]
(2.2)对于经过不平衡处理后的数据,绘制相关系数的热力图判断解释变量之间的相关系数是否大于0.8,若相关系数大于0.8,则判定两个解释变量之间存在着严重的共线性,采取措施消除共线性,剔除其中一个特征。;
[0066]
(2.3)对删除部分共线性特征后的数据使用随机森林算法来对特征变量的重要性进行筛选,计算输入特征的信息增益值,保留信息增益值排名前20的特征变量;
[0067]
(2.4)将经过以上处理的数据集d
final
作为模型的最终输入;
[0068]
步骤三:债券违约预测
[0069]
(3.1)对上述得到的数据集,进行训练集和测试集的划分,以及模型的损失函数的改进。在交叉熵损失函数的基础上进一步发展,引入了梯度的概念,将类别的不平衡最终归为梯度范数分布的不平衡,引入梯度均衡机制(ghm)来高效训练模型。引入了梯度的概念,将类别的不平衡最终归为梯度范数分布的不平衡,引入梯度均衡机制 (ghm)来高效训练模型。最终的梯度密度调和后的分类损失为:
[0070][0071]
其中,gk表示第k个样本的模长,l
ε
(g)表示计算样本量在此邻域的区间长度,δ
ε
(gk,g)表示x是否在y的一个邻域内,求和后的含义为gk在 g范围内的样本数目。l
ε
(g)和δ
ε
(gk,g)的定义式如下:
[0072][0073][0074][0075]
为近似的获得梯度密度,将x轴划分为m个区域,对落在每个区域的样本权重采取相同的修正方法。采用单位区域上应用滑动平均 (ema)的方法,具体得到损失函数的估计式为:
[0076][0077]
在求取近似的梯度密度的时候不仅用到了当前的梯度信息,还用到了第t-1次迭代的梯度信息,通过滑动系数α加权来调整梯度信息,对滑动平均每次迭代输出的结果进行非线性加权平均,从而更好的无限逼近最优近似梯度密度,同时减小方差。首先根据每次迭代后的输出结果计算矩阵:
[0078]
w=[r1,r2,...,rm],
[0079]
再求解最优权重:
[0080][0081]
然后求解和的近似解,最后输出损失函数的近似解具体式子
为:
[0082][0083]
对改进后的损失函数用泰勒展开来近似得到近似梯度密度的最优解,用非线性加权平均求得的近似梯度密度可以充分运用历史梯度信息,保留历史信息对对输出的影响。
[0084]
(3.2)利用改进的catboost算法模型进行训练预测。将d
final
作为最终输入,采用使用ghmna loss为损失函数的改进的catboost算法对数据集进行训练,catboost算法嵌入了自动将类别特征处理为数值型特征的创新算法,同时采用了排序提升的方法以对抗训练集当中可能的噪声点,避免了梯度估计的偏差,减少了类别特征数据预处理的冗余步骤,能够极大程度的丰富债券违约预测的特征维度,解决了预测偏移的问题。改进后的catboost'算法在便利处理类别变量的同时,可以从梯度角度更好的解决和关注不平衡问题。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献