一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

融合论坛文本时序特征的企业信用风险预警方法和系统

2022-12-20 22:29:40 来源:中国专利 TAG:


1.本发明涉及企业信用风险预警技术领域,具体涉及一种融合论坛文本时序特征的企业信用风险预警方法、系统、存储介质和电子设备。


背景技术:

2.在全球金融危机的背景下,建立科学的企业信用风险预警体系对于企业防范风险更为重要。企业信用风险管理涉及的工作内容多且复杂,需要企业信用风险管理者根据市场经济的发展情况,合理规划和部署企业信用风险预警管理内容,以保证企业活动的顺利进行。因此,如何尽早发现并正确预测金融危机,对于降低企业经营风险、保护投资者和债权人利益、政府部门对企业的监管、防范金融危机具有重要的现实意义。
3.现有企业信用风险预警采用传统的logit模型和机器学习模型,在预警上取得了不错的效果,但是预警准确性不高,集成学习模型是通过训练多个弱分类器,不断地更新每一个弱分类器的权值,以此来得到最优的分类器组合,在多项实践活动中都具有很好的预测效果。
4.论坛是一个可以给投资者、专家等提供在线交流和共享信息的重要平台,汇聚了从各个途径收集的相关信息,具有覆盖范围广、信息量大、更新频率快的特点。相比从其他途径获取信息,具有更高的时效性和专业性。对于论坛中大量的文本数据,现有研究都是直接将文本数据进行收集,作为整个文档语料库为信息提取源,提取情感特征、语义特征、主题特征等,然而文本数据的发布具有时间标签,不同的时间标签下对企业信用风险等级的影响不同,直接将文本数据作为整体语料库进行特征提取研究的细粒度不够,同时现有深度学习模型能很好的对序列化数据进行学习,但是仍然存在准确性不高的问题。


技术实现要素:

5.(一)解决的技术问题
6.针对现有技术的不足,本发明提供了一种融合论坛文本时序特征的企业信用风险预警方法、系统、存储介质和电子设备,解决了企业信用风险预警准确性低的技术问题。
7.(二)技术方案
8.为实现以上目的,本发明通过以下技术方案予以实现:
9.一种融合论坛文本时序特征的企业信用风险预警方法,包括:
10.获取企业信用数据和企业论坛中的文本数据;
11.根据所述企业信用数据,采用基于互信息的特征筛选方法获取用于企业风险预警的信用风险特征;
12.根据所述文本数据,统计论坛中发布的文本数据条数、每一条文本数据对应的回复数、每一条文本数据对应的正面情感或者负面情感;
13.根据时间细粒度对所获取的统计信息进行序列化处理,分别按照天、周、月进行划分,获取三种细粒度的序列化文本数据;
14.将所述三种细粒度的序列化数据分别输入预先构建的残差式深度门控循环模型中,并将模型最后一层隐藏层向量作为时序特征;
15.融合所述信用风险特征和时序特征,采用预先构建的adaboost集成学习模型,获取企业信用风险等级的预警结果。
16.优选的,所述信用风险特征的获取过程包括:
17.s21、标准化所述企业信用数据:
[0018][0019]
其中,a
i,j
表示第i个企业的第j条企业信用风险特征值,max(a
i,j
)、min(a
i,j
)分别表示第j条企业信用风险特征值中的最大、最小值,x
i,j
表示标准化后的企业信用风险特征;
[0020]
s22、求解标准化后的企业信用风险特征与企业信用风险等级之间的互信息i(x;y),
[0021][0022]
其中,变量服从分布x~p(x),y~p(y),(x,y)~p(x,y);
[0023]
x表示标准化的企业信用风险特征,共有i行j列;
[0024]
y表示企业信用风险等级;
[0025]
p(x,y)表示联合分布概率,p(x)表示企业信用风险特征服从的概率分布,p(y)表示企业信用风险等级的概率分布;
[0026]
s23、根据i(x;y)大小关系,获得用于企业风险预警的信用风险特征。
[0027]
优选的,所述每一条文本数据对应的正面情感或者负面情感的获取过程包括:
[0028]
将所述文本数据进行正则化处理、分词、去停用词,基于正面情感词典、负面情感词典、否定词词典、程度词词典将词语转换为对应的分值,获取每一条文本数据的情感得分,根据得分判定该条文本数据属于正面情感还是负面情感,属于正面情感则在正面情感数量特征标为1,负面情感数量特征标为0,属于负面情感则在正面情感数量特征标为0,负面情感数量特征标为1,以此完成情感分类特征工作。
[0029]
优选的,所述根据时间细粒度对所获取的统计信息进行序列化处理,分别按照天、周、月进行划分,获取三种细粒度的序列化文本数据,具体包括:
[0030]
a、按天为细粒度划分的序列化文本数据:
[0031]
按照时间标签,将一天中产生的每一条文本数据进行数量特征统计,以天为单位,获取序列化数据x_day;表示为
[0032]
x_day={d(total_num,reply_num,postive_num,negtive_num)1,
[0033]

,d(total_num,reply_num,postive_num,negtive_num)
l

[0034]

,d(total_num,reply_num,postive_num,negtive_num)
l
}
[0035]
其中,d(total_num,reply_num,postive_num,negtive_num)
l
表示以天为时间细粒度划分,第l天企业论坛发布的文本数据总条数total_num、文本数据对应的回复数
reply_num、文本数据正面情感数量postive_num和负面情感数量negtive_num;l=1,

,l;
[0036]
b、按周为细粒度划分的序列化文本数据:
[0037]
按照时间标签,将一周中产生的文本数据进行数量特征统计,以周为单位,获取序列化数据x_week;表示为
[0038]
x_week={w(total_num,reply_num,postive_num,negtive_num)1,
[0039]

,w(total_num,reply_num,postive_num,negtive_num)m,
[0040]

,w(total_num,reply_num,postive_num,negtive_num)m}
[0041]
其中,w(total_num,reply_num,postive_num,negtive_num)m表示以周为时间细粒度划分,第m周企业论坛发布的文本数据总条数total_num、文本数据对应的回复数reply_num、文本数据正面情感数量postive_num和负面情感数量negtive_num;m=1,

,m;
[0042]
c、获得按月为细粒度划分的序列化文本数据:
[0043]
按照时间标签,将一个月中产生的文本数据进行数量特征统计,以月为单位,获取序列化数据x_month;表示为
[0044]
x_month={m(total_num,reply_num,postive_num,negtive_num)1,
[0045]

,m(total_num,reply_num,postive_num,negtive_num)n,
[0046]

,m(total_num,reply_num,postive_num,negtive_num)n}
[0047]
其中,m(total_num,reply_num,postive_num,negtive_num)n表示以月为时间细粒度划分,第n个月企业论坛发布的文本数据总条数total_num、文本数据对应的回复数reply_num、文本数据正面情感数量postive_num和负面情感数量negtive_num;n=1,

,n。
[0048]
优选的,所述残差式深度门控循环模型的构建过程包括:
[0049]
s10、数据划分:按照k折分层抽样的方法,根据企业编号,划分训练集和测试集;
[0050]
s20、输入层:根据划分好的训练集和测试集,分别将三种细粒度的序列化文本数据x∈{x_day,x_week,x_month}作为模型输入;
[0051]
s30、编码层:将序列化文本数据分别输入残差式深度门控循环网络模型中,所述残差式深度门控循环网络模型由三层叠加的残差式深度门控循环网络组成,每一层都经过深度门控循环网络,然后通过残差结构对第一层输出进行变化,将第一层残差网络的计算结果作为第二层的输入,同理将第二层残差网络计算结果作为第三层输入;
[0052]
s40、输出层:根据企业信用风险等级,设置dnn最后一层输出参数为企业信用风险等级数;
[0053][0054]
其中,c=1,2,

,k,k表示企业信用风险的等级,yc表示实际企业信用风险的等级为c的概率,表示经过三层叠加的残差式深度门控循环网络的输出向量,dnn为多层感知机模块,由多个多层感知机层构成;
[0055]
s50、根据三种细粒度模型训练效果,选择误差最小的细粒度模型作为论坛文本时序特征抽取模型;
[0056]
[0057]
其中,r表示训练样本数,表示预测企业信用风险的等级为c的概率。
[0058]
优选的,所述编码层具体包括:
[0059]
关于第一层残差式深度门控循环网络,
[0060]
首先经过深度门控循环网络计算:
[0061]
x
1,t
,h
1,t
=gru(x)
[0062]
其中,x
1,t
是经过深度门控循环网络的输出向量,h
1,t
是深度门控循环网络的最后一层隐藏层输出向量,x是序列化文本输入数据;
[0063]
其次,经过残差网络进行计算:
[0064][0065]
其中,x
1,t
是经过深度门控循环网络的输出向量,将两个相加形成残差结构;
[0066]
将经过第一层残差式深度门控循环网络计算结果作为第二层深度门控循环网络的输入;
[0067]
关于第二层残差式深度门控循环网络,
[0068]
首先经过深度门控循环网络计算:
[0069][0070]
其中,x
2,t
是经过深度门控循环网络的输出向量,h
2,t
是深度门控循环网络的最后一层隐藏层输出向量;
[0071]
其次,经过残差网络进行计算:
[0072][0073]
其中,是第一层残差式深度门控循环网络的输出向量,x
2,t
是经过深度门控循环网络的输出向量,将经过第一层残差式深度门控循环网络计算与第二次经过深度门控循环网络计算结果相加形成第二层的残差结构;
[0074]
将第二层经过残差网络变换后的结果作为第三层深度门控循环网络的输入;
[0075]
关于第三层残差式深度门控循环网络,
[0076]
首先经过深度门控循环网络计算:
[0077][0078]
其中,x
3,t
是经过深度门控循环网络的输出向量,h
2,t
是深度门控循环网络的最后一层隐藏层输出向量;
[0079]
其次,经过残差网络进行计算:
[0080][0081]
其中,是第二层残差式深度门控循环网络的输出向量,x
3,t
是经过深度门控循环网络的输出向量,将经过第二层残差式深度门控循环网络计算与第三次经过深度门控循环网络计算结果相加形成第三层的残差结构。
[0082]
优选的,所述adaboost集成学习模型的构建过程包括:
[0083]
s61、初始化样本权重,初始值为
[0084]
其中,n表示训练时样本个数;
[0085]
s62、训练弱分类器,计算预测误差:
[0086][0087]
其中,p表示括号内不等式成立时值为1,不成立时值为0,yn表示第n个企业实际对应的信用风险等级,表示经过弱分类器预测的第n个企业对应的信用风险等级;
[0088]
s63、根据预测误差计算每一个弱分类器的权值:
[0089][0090]
s64、根据所获得的权值计算计入下一轮训练时样本的权值:
[0091][0092]
其中,zn表示归一化因子;
[0093]
s65、经过多轮迭代,当训练误差达到最小时,获得最终的强分类器。
[0094]
一种融合论坛文本时序特征的企业信用风险预警系统,包括:
[0095]
获取模块,用于获取企业信用数据和企业论坛中的文本数据;
[0096]
筛选模块,用于根据所述企业信用数据,采用基于互信息的特征筛选方法获取用于企业风险预警的信用风险特征;
[0097]
统计模块,用于根据所述文本数据,统计论坛中发布的文本数据条数、每一条文本数据对应的回复数、每一条文本数据对应的正面情感或者负面情感;
[0098]
序列化模块,用于根据时间细粒度对所获取的统计信息进行序列化处理,分别按照天、周、月进行划分,获取三种细粒度的序列化文本数据;
[0099]
提取模块,用于将所述三种细粒度的序列化数据分别输入预先构建的残差式深度门控循环模型中,并将模型最后一层隐藏层向量作为时序特征;
[0100]
预警模块,用于融合所述信用风险特征和时序特征,采用预先构建的adaboost集成学习模型,获取企业信用风险等级预警结果。
[0101]
一种存储介质,其存储有用于融合论坛文本时序特征的企业信用风险预警的计算机程序,其中,所述计算机程序使得计算机执行如上所述的企业信用风险预警方法。
[0102]
一种电子设备,包括:
[0103]
一个或多个处理器;
[0104]
存储器;以及
[0105]
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上所述的企业信用风险预警方法。
[0106]
(三)有益效果
[0107]
本发明提供了一种融合论坛文本时序特征的企业信用风险预警方法、系统、存储介质和电子设备。与现有技术相比,具备以下有益效果:
[0108]
本发明从提升企业信用风险预警的准确性出发,考虑了一种融入论坛文本时序特
征方法,主要包括获取企业信用数据和企业论坛中的文本数据;根据获取的企业信用数据进行特征筛选;根据获取的论坛文本数据按照时间顺序统计每一特征对应的数据;采用不同的时间细粒度对获取的论坛文本序列化统计数据进行划分,将经过时间细粒度划分的数据分别输入到构建的残差式深度门控循环模型中,选择误差最小的作为时序特征构建模型,最后融合信用风险特征和时序特征,采用adaboost模型对企业信用风险进行预警。解决了现有文本数据处理方法未考虑时间因素、预警模型准确性不高的问题。
附图说明
[0109]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0110]
图1为本发明实施例提供的一种融合论坛文本时序特征的企业信用风险预警方法的框图;
[0111]
图2为本发明实施例提供的一种融合论坛文本时序特征的企业信用风险预警方法的流程示意图;
[0112]
图3为本发明实施例提供的一种论坛文本时序特征的提取示意图;
[0113]
图4为本发明实施例提供的一种残差式深度门控循环模型的示意图。
具体实施方式
[0114]
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0115]
本技术实施例通过提供一种融合论坛文本时序特征的企业信用风险预警方法、系统、存储介质和电子设备,解决了企业信用风险预警准确性低的技术问题。
[0116]
本技术实施例中的技术方案为解决上述技术问题,总体思路如下:
[0117]
本发明实施例从提升企业信用风险预警的准确性出发,考虑了一种融入论坛文本时序特征方法,具体包括以下几个方面:
[0118]
首先,在企业信用风险预警中,不仅考虑了企业的信用特征,还考虑了融入一种论坛文本数据的时序特征;其次,对于论坛文本的时序特征更加全面的考虑了时间细粒度对时序特征构建的影响,不仅考虑了时间序列,而且构建了一种残差式深度门控循环网络,进一步的训练并提取了精确化的时序特征;最后,一种基于adaboost集成学习模型实现更加准确的企业信用风险预警。
[0119]
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
[0120]
实施例:
[0121]
如图1~2所示,本发明实施例提供了一种融合论坛文本时序特征的企业信用风险预警方法,包括:
[0122]
s1、获取企业信用数据和企业论坛中的文本数据;
[0123]
s2、根据所述企业信用数据,采用基于互信息的特征筛选方法获取用于企业风险预警的信用风险特征;
[0124]
s3、根据所述文本数据,统计论坛中发布的文本数据条数、每一条文本数据对应的回复数、每一条文本数据对应的正面情感或者负面情感;
[0125]
s4、根据时间细粒度对所获取的统计信息进行序列化处理,分别按照天、周、月进行划分,获取三种细粒度的序列化文本数据;
[0126]
s5、将所述三种细粒度的序列化数据分别输入预先构建的残差式深度门控循环模型中,并将模型最后一层隐藏层向量作为时序特征;
[0127]
s6、融合所述信用风险特征和时序特征,采用预先构建的adaboost集成学习模型,获取企业信用风险等级的预警结果。
[0128]
本发明实施例解决了现有文本数据处理方法未考虑时间问题,模型数据输入划分细粒度问题,提高企业信用风险预测准确度。
[0129]
下面将详细介绍上述技术方案的各个步骤:
[0130]
在步骤s1中,获取企业信用数据和企业论坛中的文本数据。
[0131]
在步骤s2中,根据所述企业信用数据,采用基于互信息的特征筛选方法获取用于企业风险预警的信用风险特征。
[0132]
所述信用风险特征的获取过程包括:
[0133]
s21、标准化所述企业信用数据:
[0134][0135]
其中,a
i,j
表示第i个企业的第j条企业信用风险特征值,max(a
i,j
)、min(a
i,j
)分别表示第j条企业信用风险特征值中的最大、最小值,x
i,j
表示标准化后的企业信用风险特征;
[0136]
s22、求解标准化后的企业信用风险特征与企业信用风险等级之间的互信息i(x;y),
[0137][0138]
其中,变量服从分布x~p(x),y~p(y),(x,y)~p(x,y);
[0139]
x表示标准化的企业信用风险特征,共有i行j列;
[0140]
y表示企业信用风险等级;
[0141]
p(x,y)表示联合分布概率,p(x)表示企业信用风险特征服从的概率分布,p(y)表示企业信用风险等级的概率分布;
[0142]
s23、根据i(x;y)大小关系,获得用于企业风险预警的信用风险特征。
[0143]
在步骤s3中,根据所述文本数据,统计论坛中发布的文本数据条数、每一条文本数据对应的回复数、每一条文本数据对应的正面情感或者负面情感。
[0144]
论坛中有大量的用户参与并发表意见,根据发表的意见产生一条文本数据作为一
条,每一条文本数据对应的回复数存在差异,分别统计每一条文本数据对应的回复数;每一条文本数据表现出来的情感特征是不同的,采用情感词典的方法,将每一条文本数据对应的情感特征进行归类。
[0145]
而所述每一条文本数据对应的正面情感或者负面情感的获取过程包括:将所述文本数据进行正则化处理、分词、去停用词,基于正面情感词典、负面情感词典、否定词词典、程度词词典将词语转换为对应的分值,获取每一条文本数据的情感得分,根据得分判定该条文本数据属于正面情感还是负面情感,属于正面情感则在正面情感数量特征标为1,负面情感数量特征标为0,属于负面情感则在正面情感数量特征标为0,负面情感数量特征标为1,以此完成情感分类特征工作。
[0146]
在步骤s4中,如图3所示,根据时间细粒度对所获取的统计信息进行序列化处理,分别按照天、周、月进行划分,获取三种细粒度的序列化文本数据。
[0147]
a、按天为细粒度划分的序列化文本数据:
[0148]
按照时间标签,将一天中产生的每一条文本数据进行数量特征统计,以天为单位,获取序列化数据x_day;表示为
[0149]
x_day={d(total_num,reply_num,postive_num,negtive_num)1,
[0150]

,d(total_num,reply_num,postive_num,negtive_num)
l

[0151]

,d(total_num,reply_num,postive_num,negtive_num)
l
}
[0152]
其中,d(total_num,reply_num,postive_num,negtive_num)
l
表示以天为时间细粒度划分,第l天企业论坛发布的文本数据总条数total_num、文本数据对应的回复数reply_num、文本数据正面情感数量postive_num和负面情感数量negtive_num;l=1,

,l;
[0153]
b、按周为细粒度划分的序列化文本数据:
[0154]
按照时间标签,将一周中产生的文本数据进行数量特征统计,以周为单位,获取序列化数据x_week;表示为
[0155]
x_week={w(total_num,reply_num,postive_num,negtive_num)1,
[0156]

,w(total_num,reply_num,postive_num,negtive_num)m,
[0157]

,w(total_num,reply_num,postive_num,negtive_num)m}
[0158]
其中,w(total_num,reply_num,postive_num,negtive_num)m表示以周为时间细粒度划分,第m周企业论坛发布的文本数据总条数total_num、文本数据对应的回复数reply_num、文本数据正面情感数量postive_num和负面情感数量negtive_num;m=1,

,m;
[0159]
c、获得按月为细粒度划分的序列化文本数据:
[0160]
按照时间标签,将一个月中产生的文本数据进行数量特征统计,以月为单位,获取序列化数据x_month;表示为
[0161]
x_month={m(total_num,reply_num,postive_num,negtive_num)1,
[0162]

,m(total_num,reply_num,postive_num,negtive_num)n,
[0163]

,m(total_num,reply_num,postive_num,negtive_num)n}
[0164]
其中,m(botal_num,reply_num,postive_num,negtive_num)n表示以月为时间细粒度划分,第n个月企业论坛发布的文本数据总条数total_num、文本数据对应的回复数reply_num、文本数据正面情感数量postive_num和负面情感数量negtive_num;n=1,

,n。
[0165]
在步骤s5中,将所述三种细粒度的序列化数据分别输入预先构建的残差式深度门
控循环模型中,并将模型最后一层隐藏层向量作为时序特征。
[0166]
根据构建的三种细粒度序列化文本数据,本发明实施例并没有直接将序列化文本数据作为时序特征,而是采用深度门控循环网络模型结合残差网络的优越性,它不仅能保留原始信息,还能将经过深度门控循环网络训练的时序信息进一步聚合,如图3所示,将原始的三种细粒度序列化文本数据放入模型进行训练,根据三种细粒度划分的训练误差,选择误差最小的细粒度模型作为时序特征抽取模型,将经过模型训练并处理后的最后一层隐藏层向量作为文本的时序特征。
[0167]
如图4所示,所述残差式深度门控循环模型的构建过程包括:
[0168]
s10、数据划分:按照k折分层抽样的方法,根据企业编号,划分训练集和测试集。
[0169]
s20、输入层:根据划分好的训练集和测试集,分别将三种细粒度的序列化文本数据x∈{x_day,x_week,x_month}作为模型输入。
[0170]
s30、编码层:将序列化文本数据分别输入残差式深度门控循环网络模型中,所述残差式深度门控循环网络模型由三层叠加的残差式深度门控循环网络组成,每一层都经过深度门控循环网络,然后通过残差结构对第一层输出进行变化,将第一层残差网络的计算结果作为第二层的输入,同理将第二层残差网络计算结果作为第三层输入;从而提升文本时序特征构建的准确性。
[0171]
其中,关于第一层残差式深度门控循环网络,
[0172]
首先经过深度门控循环网络计算:
[0173]
x
1,t
,h
1,t
=gru(x)
[0174]
其中,x
1,t
是经过深度门控循环网络的输出向量,h
1,t
是深度门控循环网络的最后一层隐藏层输出向量,x是序列化文本输入数据;
[0175]
其次,经过残差网络进行计算:
[0176][0177]
其中,x
1,t
是经过深度门控循环网络的输出向量,将两个相加形成残差结构;
[0178]
将经过第一层残差式深度门控循环网络计算结果作为第二层深度门控循环网络的输入;
[0179]
关于第二层残差式深度门控循环网络,
[0180]
首先经过深度门控循环网络计算:
[0181][0182]
其中,x
2,t
是经过深度门控循环网络的输出向量,h
2,t
是深度门控循环网络的最后一层隐藏层输出向量;
[0183]
其次,经过残差网络进行计算:
[0184][0185]
其中,是第一层残差式深度门控循环网络的输出向量,x
2,t
是经过深度门控循环网络的输出向量,将经过第一层残差式深度门控循环网络计算与第二次经过深度门控循环网络计算结果相加形成第二层的残差结构;
[0186]
将第二层经过残差网络变换后的结果作为第三层深度门控循环网络的输入;
[0187]
关于第三层残差式深度门控循环网络,
[0188]
首先经过深度门控循环网络计算:
[0189][0190]
其中,x
3,t
是经过深度门控循环网络的输出向量,h
2,t
是深度门控循环网络的最后一层隐藏层输出向量;
[0191]
其次,经过残差网络进行计算:
[0192][0193]
其中,是第二层残差式深度门控循环网络的输出向量,x
3,t
是经过深度门控循环网络的输出向量,将经过第二层残差式深度门控循环网络计算与第三次经过深度门控循环网络计算结果相加形成第三层的残差结构。
[0194]
s40、输出层:根据企业信用风险等级,设置dnn最后一层输出参数为企业信用风险等级数;
[0195][0196]
其中,c=1,2,

,k,k表示企业信用风险的等级,yc表示实际企业信用风险的等级为c的概率,表示经过三层叠加的残差式深度门控循环网络的输出向量,dnn为多层感知机模块,由多个多层感知机层构成。
[0197]
s50、根据三种细粒度模型训练效果,选择误差最小的细粒度模型作为论坛文本时序特征抽取模型;
[0198][0199]
其中,r表示训练样本数,表示预测企业信用风险的等级为c的概率。
[0200]
在步骤s6中,融合所述信用风险特征和时序特征,采用预先构建的adaboost集成学习模型,获取企业信用风险等级的预警结果。
[0201]
由上述内容可知,根据时序特征抽取中数据集划分方法,对企业信用风险特征按照相同的企业编号进行划分。本步骤将划分好的数据集,经过步骤s4获得时序特征,与企业信用风险特征进行融合,依次将每一折数据放入adaboost模型中对企业信用风险进行预警。
[0202]
所述adaboost集成学习模型的构建过程包括:
[0203]
s61、初始化样本权重,初始值为
[0204]
其中,n表示训练时样本个数;
[0205]
s62、训练弱分类器,计算预测误差:
[0206][0207]
其中,p表示括号内不等式成立时值为1,不成立时值为0,yn表示第n个企业实际对应的信用风险等级,表示经过弱分类器预测的第n个企业对应的信用风险等级;
[0208]
s63、根据预测误差计算每一个弱分类器的权值:
[0209][0210]
s64、根据所获得的权值计算计入下一轮训练时样本的权值:
[0211][0212]
其中,zn表示归一化因子;
[0213]
s65、经过多轮迭代,当训练误差达到最小时,获得最终的强分类器。
[0214]
本发明实施例提供了一种融合论坛文本时序特征的企业信用风险预警系统,包括:
[0215]
获取模块,用于获取企业信用数据和企业论坛中的文本数据;
[0216]
筛选模块,用于根据所述企业信用数据,采用基于互信息的特征筛选方法获取用于企业风险预警的信用风险特征;
[0217]
统计模块,用于根据所述文本数据,统计论坛中发布的文本数据条数、每一条文本数据对应的回复数、每一条文本数据对应的正面情感或者负面情感;
[0218]
序列化模块,用于根据时间细粒度对所获取的统计信息进行序列化处理,分别按照天、周、月进行划分,获取三种细粒度的序列化文本数据;
[0219]
提取模块,用于将所述三种细粒度的序列化数据分别输入预先构建的残差式深度门控循环模型中,并将模型最后一层隐藏层向量作为时序特征;
[0220]
预警模块,用于融合所述信用风险特征和时序特征,采用预先构建的adaboost集成学习模型,获取企业信用风险等级预警结果。
[0221]
本发明实施例提供了一种存储介质,其存储有用于融合论坛文本时序特征的企业信用风险预警的计算机程序,其中,所述计算机程序使得计算机执行如上所述的企业信用风险预警方法。
[0222]
本发明实施例提供了一种电子设备,包括:
[0223]
一个或多个处理器;
[0224]
存储器;以及
[0225]
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上所述的企业信用风险预警方法。
[0226]
可理解的是,本发明实施例提供的融合论坛文本时序特征的企业信用风险预警系统、存储介质和电子设备与本发明实施例提供的融合论坛文本时序特征的企业信用风险预警方法相对应,其有关内容的解释、举例和有益效果等部分可以参考基于区块链的企业信用风险预警方法中的相应部分,此处不再赘述。
[0227]
综上所述,与现有技术相比,具备以下有益效果:
[0228]
1、首先,在企业信用风险预警中,不仅考虑了企业的信用特征,还考虑了融入一种论坛文本数据的时序特征,相比不考虑时序,融入时序特征后预警效果显著提升;
[0229]
2、其次,对于论坛文本的时序特征更加全面的考虑了时间细粒度对时序特征构建的影响,不仅考虑了时间序列,而且构建了一种残差式深度门控循环网络,进一步的训练并
提取了精确化的时序特征;
[0230]
3、最后,一种基于adaboost集成学习模型实现更加准确的企业信用风险预警。
[0231]
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0232]
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献