一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于元学习和改进的Catboost算法的债券违约预测方法

2022-08-10 20:21:03 来源:中国专利 TAG:

技术特征:
1.一种基于元学习和改进的catboost算法的债券违约预测方法,其特征在于:该方法包括如下步骤:步骤一:数据预处理(1.1)将债券违约相关数据集作为输入,首先进行缺失值的处理,采取k近邻算法进行缺失值的填补;(1.2)对进行过缺失值处理后的数据进行最大最小归一化的标准化处理;步骤二:特征工程(2.1)对进行预处理后的数据集采用基于元学习的显式梯度数据增强(egla)进行不平衡数据的处理;(2.2)对于经过不平衡处理后的数据,绘制相关系数的热力图判断解释变量之间的相关系数,采取措施消除共线性,剔除其中一个特征;(2.3)对删除部分共线性特征后的数据使用随机森林算法来对特征变量的重要性进行筛选留信息增益值排名前20的特征变量;(2.4)将经过相关分析和随机森林筛选的数据作为模型的最终输入;步骤三:债券违约预测(3.1)对上述得到的数据集,进行训练集和测试集的划分;(3.2)利用改进的catboost算法模型进行训练预测。2.根据权利要求1所述的基于元学习和改进的catboost算法的债券违约预测方法,其特征在于:所述的步骤二(2.1)中:通过复制位于高不确定性区域的少数类样本实例来合成新的样本,复制其中训练集中的实例来实现得到新数据集z
synth
,即d
synth
=(z
synth
,y
synth
),具体有:d
synth
={(x,y)∈d
train
|y=1,c
θ
(x)≤c};通过复制d
train
中的实例来实现合成集d
synth
的初始化,而复制的少数类的样本由初始分类器模型c
θ
确定。3.据权利要求1所述的基于元学习和改进的catboost算法的债券违约预测方法,其特征在于:所述的步骤二(2.1)中:对分类器模型c
θ
进行训练,具体的梯度更新为:其中η1为步长;通过计算z
synth
上的损失函数并执行一个或者多个梯度下降更新来实现分类器模型c
θ
的决策边界的调整。4.据权利要求1所述的基于元学习和改进的catboost算法的债券违约预测方法,其特征在于:所述的步骤二(2.1)中:在验证集d
valid
上计算分类器的损失,即l(d
valid
;c
θ
),并通过计算损失执行梯度下降来改变z
synth
的值;z
synth
的具体更新为:其中η2为步长,上述两个更新进行相互迭代,逐步将复制的少数类样本移动到更好的决策边界区域。5.据权利要求1所述的基于元学习和改进的catboost算法的债券违约预测方法,其特征在于:所述的步骤二(3.1)中:用梯度均衡机制(ghm)来高效训练模型;最终的梯度密度调
和后的分类损失为:其中,g
k
表示第k个样本的模长,l
ε
(g)表示计算样本量在此邻域的区间长度,δ
ε
(g
k
,g)表示x是否在y的一个邻域内,求和后的含义为g
k
在g范围内的样本数目。6.据权利要求1所述的基于元学习和改进的catboost算法的债券违约预测方法,其特征在于:所述的步骤二(3.1)中:为近似的获得梯度密度,采用单位区域上应用滑动平均(ema)的方法,具体得到损失函数的估计式为:在求取近似的梯度密度的时候不仅用到了当前的梯度信息,还用到了第t-1次迭代的梯度信息,通过滑动系数α加权来调整梯度信息。7.据权利要求1所述的基于元学习和改进的catboost算法的债券违约预测方法,其特征在于:所述的步骤二(3.1)中:在求取近似的梯度密度的时候不仅用到了当前的梯度信息,还用到了第t-1次迭代的梯度信息,通过滑动系数α加权来调整梯度信息,对滑动平均每次迭代输出的结果进行非线性加权平均,从而更好的无限逼近最优近似梯度密度,同时减小方差;首先根据每次迭代后的输出结果计算矩阵:再求解最优权重:8.据权利要求1所述的基于元学习和改进的catboost算法的债券违约预测方法,其特征在于:所述的步骤二(3.1)中:在得到最优权重后求解和的近似解,最后输出损失函数的近似解具体式子为:对改进后的损失函数用泰勒展开来近似得到近似梯度密度的最优解,用非线性加权平均求得的近似梯度密度可以充分运用历史梯度信息,保留历史信息对对输出的影响。9.据权利要求1所述的基于元学习和改进的catboost算法的债券违约预测方法,其特征在于:所述的步骤二(3.2)中:将d
synth
作为最终输入,采用使用ghmna loss为损失函数的改进的catboost算法对数据集进行训练,catboost算法嵌入了自动将类别特征处理为数值
型特征的创新算法,同时采用了排序提升的方法以对抗训练集当中可能的噪声点,避免了梯度估计的偏差,减少了类别特征数据预处理的冗余步骤,能够极大程度的丰富债券违约预测的特征维度,解决了预测偏移的问题;改进后的catboost'算法在便利处理类别变量的同时,可以从梯度角度更好的解决和关注不平衡问题。

技术总结
本发明涉及一种债券违约预测识别的技术,具体涉及一种基于元学习和改进的Catboost算法的债券违约预测方法,属于金融信息数据管理技术。首先经过K近邻算法进行缺失值填补和标准化处理,然后利用基于元学习框架的显式梯度学习数据增强方法对不平衡数据进行处理,得到经过不平衡处理后的数据,接着利用相关分析和随机森林算法进行特征筛选,最后利用以改进的GHMNALoss为损失函数的Catboost算法模型进行训练,得到每个债券的违约预测结果。本发明能避免对不平衡数据集导致的债券违约预测效果不佳的问题,并对不同类型的债券违约预测都能达到较好的结果。达到较好的结果。达到较好的结果。


技术研发人员:张永全 杨秀银 武鑫
受保护的技术使用者:浙江财经大学
技术研发日:2022.05.10
技术公布日:2022/8/9
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献