一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种考虑宏观经济的P2P平台违约预测方法与流程

2022-02-24 10:46:19 来源:中国专利 TAG:

一种考虑宏观经济的p2p平台违约预测方法
技术领域
1.本发明涉及数据分析领域,特别涉及一种考虑宏观经济的p2p平台违约预测方法。


背景技术:

2.p2p平台违约风险给投资人带来巨大损失。例如,e租宝的破产导致9000万投资人经济损失达到50亿元。p2p平台违约风险预警研究能够帮助政府部门加强对p2p市场的监管,维护投资人的收益,促使p2p市场健康稳定发展。
3.现有研究主要关注p2p平台上借款人的违约风险,通过分析影响借款人信用的软硬信息,并利用统计分析和机器学习等方法研究借款人的违约风险预测。近年来,有学者逐渐开始关注p2p市场风险的另一个重要方面,即p2p平台违约风险。由于p2p平台违约会影响到平台上所有的投资人利益,因此从风险影响强度和范围的视角来看,p2p平台违约风险造成的投资人损失更严重(如e租宝事件),是p2p市场风险的主要来源。cebenoyan和strahan(2004)的研究表明,拥有更多注册资本的金融机构的抗风险能力一般较高。此外,设立基金托管机制有助于防范p2p平台的道德风险,从而降低平台的违约概率(xie&wang,2015)。同时,政府部门的政策措施和行业监管也能有效的控制p2p平台的违约风险(yoon et al.,2018)。
4.虽然已有少数学者开始关注p2p平台违约风险这一重要问题,然而还存在一些问题值得进一步深入研究。第一,p2p平台违约风险与宏观经济密切相关。在不同经济环境下,由于市场竞争、投资人风险偏好以及借款人偿债能力等方面的不同,导致p2p平台的风险控制效果具有显著差异。例如,一个平台在经济繁荣期能够健康运营,但在经济低迷期可能会发生违约事件。因此,需要进一步结合经济环境判断平台违约风险。第二,p2p平台违约风险的影响因素众多,不仅包括传统的硬信息(主要指财务信息或可通过标准化方法收集的信息),也包括软信息(难以按标准化方法收集和处理的信息,多指非财务信息),且不同类型信息对平台违约风险的影响强度不同,需要从更广泛的维度提取p2p平台违约风险预测的特征变量,并结合相关理论深入研究各类特征变量在不同经济环境下对p2p平台违约风险的影响机理。第三,p2p平台违约风险数据具有高维不平衡性,对风险预测模型的构建提出了新的要求。一方面,风险特征变量众多,特征集数据维度高;另一方面,健康平台与风险平台的数量呈现不均衡分布,严重影响预测模型的性能。


技术实现要素:

5.本发明要解决的技术问题是克服现有技术的缺陷,提供一种考虑宏观经济的p2p平台违约预测方法。
6.为了解决上述技术问题,本发明提供了如下的技术方案:
7.本发明一种考虑宏观经济的p2p平台违约预测方法,包括以下步骤:
8.a特征提取,根据p2p平台及宏观经济的相关数据提取特征;
9.b经济环境类型判定,提取特征并运用聚类分析方法研究p2p平台所处的经济环
境,根据p2p平台的经营时期并结合该时期内的平均收入水平、失业率和gdp等宏观经济数据,利用聚类分析的方法将p2p平台划分为不同的簇;
10.c特定经济环境下的p2p平台,相同簇中的p2p平台被认为是处于同一经济环境下,而不同簇中的p2p平台所处的经济环境也不同,根据每个簇中经济数据的统计学特征确定该簇内p2p平台所处的宏观经济环境特点;
11.d平台类型判定,影响p2p平台违约风险的软硬信息,提取相关特征并利用分类分析方法将每个簇中的p2p平台划分为健康平台和风险平台。
12.作为本发明的一种优选技术方案,所述特征提取包括6个宏观经济特征、8个硬信息特征和8个软信息特征;
13.6个宏观经济特征包括平台运营期间平均失业率、平台运营期间平均gdp、平台运营期间商品房平均售价、平台运营期间平均工资、平台运营期间的平均平台数量和平台经营期间股票平均成交量;
14.8个硬信息特征包括注册资金、获得融资金额、获得融资次数、银行存管、出借期限、第三方担保、债权转让和保障方式数量;
15.8个软信息特征包括icp经营许可证、加入行业监管协会、监管时长比例、平台背景、注册地城市评级、网络综合评分、网络点评人数和运营时长。
16.作为本发明的一种优选技术方案,所述平台类型判定在这一过程中,考虑违约风险数据的高维性和不平衡性,设计了las-stack模型,并将其与多个常用的基准模型进行比较。同时从信号理论的视角,深入认识各类型特征在不同宏观经济环境下对p2p平台违约风险的影响强度和机理,最后对所提出模型和各类型特征的风险预测能力进行鲁棒性分析。
17.作为本发明的一种优选技术方案,所述las-stack包括三个步骤:第一,特征子空间生成;第二,基学习机制选择;第三,基学习结果的组合。
18.作为本发明的一种优选技术方案,所述特征子空间生成为:通过调整子空间比率r和lasso估计的惩罚参数λ两个重要参数,将原始特征集分割为若干个子集。r决定每个特征子集与全局特征集的比值,而惩罚参数λ影响特征集的收缩,特征权重由lasso估计确定;
19.基学习机制选择为:根据构建的子数据集训练选定的基分类器,选择svm作为las-stack的学习机制,支持向量机通过最小化结构风险达到最小化泛化误差,在支持向量机中,非线性输入向量被映射到一个具有核函数的高维特征空间中,使得数据集可以被线性模型处理,支持向量机搜索一个最优超平面来分类两个具有最大分离度的类的实例;
20.基学习结果的组合为:对每个基分类器的结果进行整合,stacking集成方法采用logistic回归作为元分类器,将各个基分类器的输出作为元分类器的输入,通过整合基分类器的学习结果减小集成模型的分类误差并提升泛化能力。
21.与现有技术相比,本发明的有益效果如下:
22.第一,有助于政府部门和相关行业监管机构针对特定的经济环境对p2p平台实施风险监管、预警和干预,促进p2p市场健康良好的发展。
23.第二,为p2p平台的运营管理和风险控制提供了指导,p2p平台能够根据所处的宏观经济环境,适时向市场传递合适的软硬信息信号,在一定程度上及时调整外部对平台的风险感知,并形成正确的风险认知,增强平台的风险抵御能力。
24.第三,能够帮助投资人更加精准的把握p2p市场风险,优化资产配置,提升投资收
益,由于相关管理部门的风险预警及时有效,投资人能够根据自身的风险偏好合理配置资源,及时止损,并取得投资收益的最大化。
附图说明
25.附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
26.图1是本发明的框架流程图;
27.图2是本发明的las-stack算法过程图;
28.图3是本发明的las-stack算法伪代码;
29.图4是本发明的p2p平台违约风险预测的特征提取。
具体实施方式
30.以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
31.实施例1
32.如图1-4所示,本发明提供一种考虑宏观经济的p2p平台违约预测方法,包括以下步骤:
33.a特征提取,根据p2p平台及宏观经济的相关数据提取特征;
34.b经济环境类型判定,提取特征并运用聚类分析方法研究p2p平台所处的经济环境,根据p2p平台的经营时期并结合该时期内的平均收入水平、失业率和gdp等宏观经济数据,利用聚类分析的方法将p2p平台划分为不同的簇;
35.c特定经济环境下的p2p平台,相同簇中的p2p平台被认为是处于同一经济环境下,而不同簇中的p2p平台所处的经济环境也不同,根据每个簇中经济数据的统计学特征确定该簇内p2p平台所处的宏观经济环境特点;
36.d平台类型判定,影响p2p平台违约风险的软硬信息,提取相关特征并利用分类分析方法将每个簇中的p2p平台划分为健康平台和风险平台。
37.进一步的,特征提取包括6个宏观经济特征、8个硬信息特征和8个软信息特征;
38.6个宏观经济特征包括平台运营期间平均失业率、平台运营期间平均gdp、平台运营期间商品房平均售价、平台运营期间平均工资、平台运营期间的平均平台数量和平台经营期间股票平均成交量;
39.8个硬信息特征包括注册资金、获得融资金额、获得融资次数、银行存管、出借期限、第三方担保、债权转让和保障方式数量;
40.8个软信息特征包括icp经营许可证、加入行业监管协会、监管时长比例、平台背景、注册地城市评级、网络综合评分、网络点评人数和运营时长。
41.平台类型判定在这一过程中,考虑违约风险数据的高维性和不平衡性,设计了las-stack模型,并将其与多个常用的基准模型进行比较。同时从信号理论的视角,深入认识各类型特征在不同宏观经济环境下对p2p平台违约风险的影响强度和机理,最后对所提出模型和各类型特征的风险预测能力进行鲁棒性分析。
42.las-stack包括三个步骤:第一,特征子空间生成;第二,基学习机制选择;第三,基
学习结果的组合。
43.特征子空间生成为:通过调整子空间比率r和lasso估计的惩罚参数λ两个重要参数,将原始特征集分割为若干个子集。r决定每个特征子集与全局特征集的比值,而惩罚参数λ影响特征集的收缩,特征权重由lasso估计确定。原理阐述如下。为了得到一个模型,lasso将残差平方和最小化,约束条件为回归系数的绝对值之和小于一个常数,给定一组实例,将其表示为一个实例矩阵d={(x1,y1),

,(xi,yi),

(xn,yn)}
t
,其中xi={x
1,i
,x
2,i
,

,
x
c,i
,

,
x
m,i
}为预测变量,yi是状态变量,n为实例数量,m为预测变量的数量。yi用于和预测变量建立线性回归模型,条件是预测变量的回归系数在l1-范数上不超过一个阈值参数。观测是独立的或yi条件独立于特定的x
c,i
。同时,x
c,i
是标准化的,满足是标准化的,满足因此,lasso估计可以定义为基于以下条件的二次优化问题:
[0044][0045]
其中,γc为预测变量xc的回归系数,λ为控制收缩程度的惩罚参数。当λ值足够大时,会导致解向0方向收缩,有些系数可能正好等于0。因此,可以识别和保留高度相关的变量。在二分类的应用中,这种效果与从全局特征集中去除不相关的特征大致相似,产生了高度相关的特征子集。而当λ的值相对较小时,则消除其约束,形成全局特征集t的序列。特征权重的确定过程可以描述为:首先利用lasso估计确定特征xc和类标签yi的关联度,分配一组关于每个特征的重要性得分y={γ1,γ2,

,γc,

,γm}。第二,特征权重w可以确定为
[0046]
特征权重确定后,从原始数据集d中随机生成k个子数据集。通过控制参数w和r,随机抽取特征,特征xc被抽取的概率等于该特征的权重wc。假设子空间的数量为s,随机特征子空间可以表示为通过为每个子空间重复提取特征,可以获取一组特征子空间这样能够以较高的概率为特征子集提取重要特征,而通过随机选择特征来增加基本分类器的多样性。结果显着提高分类精度;
[0047]
基学习机制选择为:根据构建的子数据集训练选定的基分类器,选择svm作为las-stack的学习机制,支持向量机通过最小化结构风险达到最小化泛化误差,在支持向量机中,非线性输入向量被映射到一个具有核函数的高维特征空间中,使得数据集可以被线性模型处理,支持向量机搜索一个最优超平面来分类两个具有最大分离度的类的实例,给定一组训练实例d={(x1,y1),

,(xi,yi),

(xn,yn)}
t
和xi={x
1,i
,x
2,i
,

,
x
c,i
,

,
x
m,i
},其中m为特征维的大小。svm试图找到一个分类器f(x),它能最小化预期的误分类率。线性分类器f(x)是一个超平面,可以表示成f(x)=sgn(w
t
x b)。寻找最优支持向量机分类器f(x)等价于求解一个凸二次优化问题:
[0048][0049]
约束条件为:yi(<w,xi> b)≥1-ξi(ξi≥0,i=1,

,n)
[0050]
其中c为正则化参数,用于在训练集d上平衡分类器的复杂度和分类精度。该二次优化问题可以通过对偶公式求解。用非线性核函数代替所涉及的向量内积,可以将线性支持向量机转化为更灵活的非线性支持向量机。常用的核函数包括线性、多项式、径向基和sigmoid函数;
[0051]
基学习结果的组合为:对每个基分类器的结果进行整合,stacking集成方法采用logistic回归作为元分类器,将各个基分类器的输出作为元分类器的输入,通过整合基分类器的学习结果减小集成模型的分类误差并提升泛化能力。
[0052]
las-stack算法的步骤是首先给定数据集,通过lasso估计计算每个特征与类标签的关联度,保留具有非零系数的特征,这一过程通过惩罚参数进行调整,然后对关联度进行归一化,得到特征权值;其次,由特征权重和子空间比率控制,随机生成个子数据集,在该过程中,特征权重是采样概率,并且通过去除冗余特征获得了高维特征的稀疏解,随后,针对每个子数据集训练基分类器,最后,通过logistic元分类器学习这些基分类器的输出结果。
[0053]
具体的,首先,利用聚类分析方法,结合p2p平台运营期间的宏观经济数据,分析平台所处的外部经济环境,然后,分析影响p2p平台违约风险的多维软硬信息,并从信号理论的视角分析软硬信息信号在不同经济环境下对p2p平台违约风险的细粒度影响和机理,最后,通过融合lasso和stacking集成方法,构建las-stack集成预测模型,该模型能够在高维不平衡数据环境下有效预测p2p平台的违约风险。
[0054]
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献