一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于受限玻尔兹曼机的信用评估方法、设备及介质与流程

2021-10-24 08:28:00 来源:中国专利 TAG:受限 介质 说明书 评估 信用


1.本说明书涉及计算机技术领域,尤其涉及一种基于受限玻尔兹曼机的信用评估方法、设备及介质。


背景技术:

2.信用评估是银行或其他金融机构对借款人或借款企业信用情况进行评估的一种活动。银行贷款的最基本条件是信用,信用好就容易取得银行贷款支持,信用差就难以取得银行贷款支持。而借款人或借款企业的信用是由多种因素构成的,包括借款人或借款企业的资产负债状况、经营管理水平、产品经济效益及市场发展趋势等。为了对借款人或借款企业的信用状况有一个统一的基本的正确的估价,以便正确掌握银行贷款,就必须对借款人或借款企业的信用状况进行评估。银行或其他金融机构根据不同的信用等级制定不同的贷款政策和贷款条件,从而有利于加强贷款管理。
3.随着计算机技术的不断发展,越来越多的银行、金融机构在进行信用评估时引入机器学习的方法,但是在输入外部数据时,往往会输入很多特征,其中包含较多的不相关特征和冗余特征,这些不相关特征和冗余特征会降低分类精度。因此,必须采取相应的措施来消除冗余特征,以实现对用户信用进行准确评估。


技术实现要素:

4.本说明书一个或多个实施例提供了一种基于受限玻尔兹曼机的信用评估方法、设备及介质,用于解决如下技术问题:现有技术输入的数据中包含较多不相关特征和冗余特征,影响信用评估准确性,增大信用评估的工作量。
5.本说明书一个或多个实施例采用下述技术方案:
6.本说明书一个或多个实施例提供一种基于受限玻尔兹曼机的信用评估方法,所述方法包括:获取企业的信用数据,并对所述信用数据进行预处理,所述信用数据由多个数据特征构成;将预处理后的所述信用数据输入至预先训练的第一模型中,根据所述信用数据中的特征相关性排名,确定出所述信用数据中至少一个相关数据特征,其中所述第一模型为基于受限玻尔兹曼机的特征筛选模型;将所述相关数据特征输入至预先训练的第二模型中,确定所述企业的信用评分,并根据所述信用评分确定所述企业的信用评估结果,所述第二模型为深度神经网络模型。
7.进一步地,所述将预处理后的所述信用数据输入至预先训练的第一模型中之前,所述方法还包括:构建第一模型;获取大量的原始信用数据,构建数据库,其中所述原始信用数据包括信用数据和相关数据特征;将所述数据库中的数据分为训练集和测试集,并将所述训练集中的信用数据输入至所述第一模型中,并基于受限玻尔兹曼机算法训练所述第一模型,以确定出符合条件的第一模型。
8.进一步地,所述确定出符合条件的第一模型之前,所述方法还包括:将所述测试集中的原始信用数据输入至所述第一模型中,根据所述第一模型输出的相关数据特征与所述
原始信用数据中的相关数据特征,对所述第一模型进行验证。
9.进一步地,所述根据所述第一模型输出的相关数据特征与所述原始信用数据中的相关数据特征,对所述第一模型进行验证,具体包括:将所述测试集中的原始信用数据输入至所述第一模型中,所述第一模型输出第一相关数据特征,将所述第一相关数据特征与第二数据特征进行对比,确定对比结果,其中,所述第二数据特征为所述测试集中的数据特征;若所述对比结果在预设误差范围内,则判定所述第一模型为符合要求的第一模型。
10.进一步地,所述第一模型包含一层可见层和一层隐藏层,所述隐藏层的节点数小于所述可见层节点数的一半;所述第二模型的神经元层数和每层单元数根据所述信用数据的数据特征确定,每层的激活函数为relu函数。
11.进一步地,所述企业的信用数据包括政府信用数据和企业信用数据;所述获取企业的信用数据,具体包括:基于政府授权获取对应企业的政府信用数据,并基于企业的业务请求获取所述企业公开的企业信用数据。
12.进一步地,所述对所述信用数据进行预处理,具体包括:通过预设函数对所述信用数据进行预处理,以便于统一所述信用数据的数据格式,其中所述预设函数包括以下至少一项:缩放函数、归一化函数和转换函数。
13.本说明书一个或多个实施例提供一种基于受限玻尔兹曼机的信用评估设备,包括:
14.至少一个处理器;以及,
15.与所述至少一个处理器通信连接的存储器;其中,
16.所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:获取企业的信用数据,并对所述信用数据进行预处理,所述信用数据由多个数据特征构成;将预处理后的所述信用数据输入至预先训练的第一模型中,根据所述信用数据中的特征相关性排名,确定出所述信用数据中至少一个相关数据特征,其中所述第一模型为基于受限玻尔兹曼机的特征筛选模型;将所述相关数据特征输入至预先训练的第二模型中,确定所述企业的信用评分,并根据所述信用评分确定所述企业的信用评估结果,所述第二模型为深度神经网络模型。
17.本说明书一个或多个实施例提供的一种存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:获取企业的信用数据,并对所述信用数据进行预处理,所述信用数据由多个数据特征构成;将预处理后的所述信用数据输入至预先训练的第一模型中,根据所述信用数据中的特征相关性排名,确定出所述信用数据中至少一个相关数据特征,其中所述第一模型为基于受限玻尔兹曼机的特征筛选模型;将所述相关数据特征输入至预先训练的第二模型中,确定所述企业的信用评分,并根据所述信用评分确定所述企业的信用评估结果,所述第二模型为深度神经网络模型。
18.本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:根据第一模型,通过受限玻尔兹曼机方法筛选特征,提取重要的数据特征;并根据重要的数据特征输入至第二模型中,完成信用评估,实现了以数据驱动模型,以客观代替主观,从而减少训练的计算量和信用评估的工作量。
附图说明
19.为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
20.图1为本说明书实施例提供的一种基于受限玻尔兹曼机的信用评估方法流程示意图;
21.图2为本说明书实施例提供的另一种基于受限玻尔兹曼机的信用评估方法流程示意图;
22.图3为本说明书实施例提供的一种基于受限玻尔兹曼机的信用评估设备的结构示意图。
具体实施方式
23.为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
24.信用评估是银行或其他金融机构对借款人或借款企业信用情况进行评估的一种活动。银行贷款的最基本条件是信用,信用好就容易取得银行贷款支持,信用差就难以取得银行贷款支持。而借款人或借款企业的信用是由多种因素构成的,包括借款人或借款企业的资产负债状况、经营管理水平、产品经济效益及市场发展趋势等。为了对借款人或借款企业的信用状况有一个统一的基本的正确的估价,以便正确掌握银行贷款,就必须对借款人或借款企业的信用状况进行评估。银行或其他金融机构根据不同的信用等级制定不同的贷款政策和贷款条件,从而有利于加强贷款管理。
25.常见的信用评估的方法主要有两种,一种是银行机构自己对借款主体的信用状况进行评估,另一种是委托专门的评估机构对借款主体的信用状况进行评估。前者是依银行机构贷款管理需要自己组织进行的,后者则必须有委托,没有委托的情况下,信用评估机构一般不对借款主体的信用情况进行评估。评估一般采取等级制,我国通常划分为a、b、c三等或a、b、c、d四等,各等之中又可分为不同级别,如部分金融机构就将a、b、c三等又分为aaa、aa、a;bbb、bb、b;ccc、cc、c九级,还可以正、负号划分级别。
26.传统的排名模型无法满足企业(尤其是小微企业)的借贷需求,近年来,引入了机器学习的方法来解决征信过程中的主观性问题。现有技术中提出了一种使用人工神经网络的信用评分模型,将贷款申请分为违约组和非违约组,基于神经网络的信用评分模型在筛选违约申请方面表现良好。还有技术提出了一种基于随机森林(rf)的分类方法,用于预测借款人状态。但是在输入外部数据时,往往会输入很多特征,其中包含较多的不相关特征和冗余特征,这些不相关特征和冗余特征会降低分类精度、增加训练时间并加大了信用评估的工作量。
27.受限玻尔兹曼机(restricted boltzmann machine,rbm)是一种可通过输入数据
集学习概率分布的随机生成神经网络,用于降维、分类、回归、协同过滤和特征学习。rbm是一个两层的神经网络,构成了深度信念网络的基石,并可使用梯度下降法和反向传播算法进行调优。rbm由于表示力强、易于推理等优点被成功用作深神经网络的结构单元使用,在近些年受到广泛关注,作为实际应用,rbm的学习算法已经在mnist和norb等数据集上显示出优越的学习性能。rbm的学习在深度神经网络的学习中占据核心的地位。
28.本说明书实施例提供了一种基于受限玻尔兹曼机的信用评估方法、设备及介质,用于解决在现有技术中,使用机器学习对用户进行信用评估时,所输入的数据中包含较多不相关特征和冗余特征,影响信用评估准确性,增大信用评估的工作量的技术问题。
29.图1为本说明书实施例提供的一种基于受限玻尔兹曼机的信用评估方法流程示意图,如图1所示,方法包括如下步骤:
30.步骤s101,获取企业的信用数据,并对信用数据进行预处理,信用数据由多个数据特征构成。
31.步骤s101具体包括:企业的信用数据包括政府信用数据和企业信用数据;获取企业的信用数据,具体包括:基于政府授权获取对应企业的政府信用数据,并基于企业的业务请求获取企业公开的企业信用数据。通过预设函数对信用数据进行预处理,以便于统一信用数据的数据格式,其中预设函数包括以下至少一项:缩放函数、归一化函数和转换函数。
32.在本说明书的一个实施例中,银行机构或其他金融机构获取对应企业的信用数据,信用数据根据数据的来源可以包括两大类信用数据,一类是政府信用数据,另一类是企业信用数据。其中,政府信用数据是指基于政府授权后,获取到的政府网站或内部资料中的企业的信用数据,此类数据由于是从政府部门获取的,其真实性和准确性较高。企业信用数据是根据企业的业务请求获取的企业提供的信用数据。其中需要说明的是,当信用评估主体为个人用户时,信用数据包括政府信用数据和个人信用数据,此处的政府信用数据为基于政府授权后,获取到的政府网站或内部资料中,与用户个人有关的信用数据;个人信用数据是指用户提供的个人信用数据。另外,个人信用数据还可以包括:个人信息(如主要资产的价值)、信用信息(如账户余额)、公共记录信息(如破产)和查询信息(如申请信用报告)等。
33.在本说明书的一个实施例中,获取到企业的信用数据后,对获取到的信用数据进行预处理,对信用数据进行预处理时可以先对数据进行数据去重和数据噪声去除,数据去重是确保所获取的数据是可信数据,无关数据和噪声数据去除,再通过预设函数对数据进行预处理,以便于统一信用数据的数据格式,实现后续算法的最优化,其中预设函数包括:缩放函数、归一化函数和转换函数。对信用数据进行预处理在保证获取到数据是可信数据时,也可以直接通过预设函数进行预处理。本领域技术人员需要明确的是,归一化就是要把需要处理的数据经过处理后(通过某种算法)限制在你需要的一定范围内,是为了后面数据处理的方便,其次是保证程序运行时收敛加快。
34.步骤s102,将预处理后的信用数据输入至预先训练的第一模型中,根据信用数据中的特征相关性排名,确定出信用数据中至少一个相关数据特征,其中第一模型为基于受限玻尔兹曼机的特征筛选模型。
35.步骤s102之前,具体包括:构建第一模型;获取大量的原始信用数据,构建数据库,其中原始信用数据包括信用数据和相关数据特征;将数据库中的数据分为训练集和测试
集,并将训练集中的信用数据输入至第一模型中,并基于受限玻尔兹曼机算法训练第一模型,以确定出符合条件的第一模型。测试集中的原始信用数据输入至所述一模型中,根据第一模型输出的相关数据特征与原始信用数据中的相关数据特征,对第一模型进行验证。将测试集中的原始信用数据输入至第一模型中,第一模型输出第一相关数据特征,第一相关数据特征与第二数据特征进行对比,确定对比结果,其中,所述二数据特征为测试集中的数据特征;若对比结果在预设误差范围内,则判定第一模型为符合要求的第一模型。
36.在本说明书的一个实施例中,构建第一模型,第一模型为基于受限玻尔兹曼机的特征筛选模型。受限玻尔兹曼机是一个随机神经网络,它包含一层可见层和一层隐藏层。在rbm神经网络中通常事先预设隐藏单元数,并对可见单元数赋值为训练数据的特征维数。其中,隐藏单元数目的设定,通常采用训练集乘以单个数据的比特数,进而采用低一个数量级的值设定为隐藏单元的数量。由于现有技术中,信用数据的数据冗余度较高,因此可以使用更少一些的隐藏单元。在本说明书的实施例中,第一模型包含一层可见层和一层隐藏层,隐藏层的节点数小于可见层节点数的一半。第一模型用于特征提取,采用tensorflow框架,并调用gpu加速以便提高运行效率。
37.在本说明书的一个实施例中,在构建第一模型之后,获取大量的原始信用数据,构建数据库。其中需要说明的是,原始信用数据包括对应企业或个人的信用数据以及相关的数据特征,此处,相关与数据特征的重要性有关,若a特征对应的特征数据在信用评估过程中的作用较大,则a特征是重要特征,进一步地,a特征即为相关特征。另外,此处的原始信用数据可以是银行等金融机构已经进行信用评估的对应企业或个人的信用数据。
38.在本说明书的一个实施例中,将数据库中的数据分为训练集和测试集,其中训练集和测试集的比例可以是7:3,也可以根据实际情况设定,本说明书在此不做具体限定。将训练集中的数据输入至第一模型中,根据受限玻尔兹曼机算法对第一模型进行训练,得到训练后的第一模型。将测试集中的原始信用数据输入至训练后的第一模型中,输出原始信用数据中的重要特征,判断输出的重要特征与测试集中的重要特征的误差是否在误差允许的范围内,若判断结果表明误差在预设的误差范围内,则判定训练后的第一模型为符合要求的第一模型。
39.在本说明书的一个实施例中,在得到符合要求的第一模型之后,将预处理后的信用数据输入至符合要求的第一模型中,使用均方根误差计算得到每个特征的排名值,根据信用数据中的特征重要性的排名确定出重要特征。均方根误差可以认为是衡量受限玻尔兹曼机算法信息损耗的度量。本领域技术人员需要明确的是,均方根误差是观测值与真值偏差的平方和观测次数n比值的平方根,在实际测量中,观测次数n总是有限的,真值只能用最佳值来代替。方根误差对一组测量中的特大或特小误差反映非常敏感,所以,均方根误差能够很好地反映出测量的精密度。基于上述得到的重要性排名,只选取重要的特征并去除不相关的特征。在本阶段,通过受限玻尔兹曼机特征筛选,输出前n个重要的特征。需要说明的是,n的值根据信用数据的不同,取不同的数值。例如,银行要对a企业的信用进行评估,获取到a企业的信用数据之后,将a企业的信用数据输入至预先训练好的第一模型中,根据每个特征的重要性排名,确定出5个重要特征,通过这五个重要特征便可以衡量a企业的信用情况;但是若对b企业的信用进行评估,可能需要15个特征才能衡量b企业的信用情况。
40.步骤s103,将相关数据特征输入至预先训练的第二模型中,确定企业的信用评分,
并根据信用评分确定企业的信用评估结果,第二模型为深度神经网络模型。
41.在本说明书的一个实施例中,构建第二模型,使用深度神经网络对第二模型进行训练,以便于得到符合要求的第二模型。其中,第二模型为深度神经网络模型,神经元层数和每层单元数根据信用数据的数据特征确定,每层的激活函数为relu函数,以保证误差反向传播时,梯度不会消失。本步骤的机器学习模型同样采用tensorflow框架,并调用gpu加速来提高运行效率。
42.在本说明书的一个实施例中,将通过第一模型筛选出来的重要特征输入至第二模型中,第二模型确定企业或用户的信用评分,并根据信用评分确定企业或用户的信用评估结果。其中需要说明的是,信用评分可以是数值的形式,也可以是等级的形式,根据信用评分确定信用评估结果,此处的信用评估结果可以包括允许贷款或禁止贷款等形式,本说明书在此不做具体限定。
43.本说明书实施例提供的机器学习模型,通过受限玻尔兹曼机方法筛选特征,并提取重要特征,从而减少训练的计算量和信用评估的工作量;并且,根据数据迭代计算得到机器学习模型的参数由于主观设置模型权重,更能有效地反映客观规律。
44.本说明书实施例还提供另一种基于受限玻尔兹曼机的信用评估方法,其流程示意图如图2所示。
45.首先获取原始数据,对原始数据进行预处理,其中原始数据为与信用有关的信用数据。信用数据通过缩放函数、归一化函数和转换函数进行预处理,使得数据形式统一,便于后续的算法最优化。
46.将预处理后的原始信用数据进行数据分离,分为测试集和训练集。并基于受限玻尔兹曼机的特征选取,采用google的tensorflow框架,并调用gpu加速来提高运行效率。根据受限玻尔兹曼机算法训练训练集,选择排名靠前的特征。在训练模型之后,使用均方误差rmse计算得到每个特征的排名值,rmse可以认为是衡量rbm算法信息损耗的度量。基于上述得到的重要性排名,选取重要的特征并去除不相关的特征。在本阶段,通过rbm特征筛选,输出前n个重要的特征。使用测试集对模型进行验证,同样在测试集中只选取前n个重要的特征,去除其他不重要的特征。通过受限玻尔兹曼机进行特征选取后,获取最佳特征集。
47.在经过rbm算法的特征筛选之后,使用深度神经网络来进行进一步的训练,得到预测模型。根据不同的问题可以调节神经元层数和每层单元数,每层的激活函数是relu函数,以保证误差反向传播时,梯度不会消失。本步骤的机器学习模型同样采用tensorflow框架,并调用gpu加速来提高运行效率。根据得到的预测模型和最佳特征集,确定对应的信用评估结果。
48.本说明书实施例还提供一种基于受限玻尔兹曼机的信用评估设备的内部结构示意图,如图3所示,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:获取企业的信用数据,并对信用数据进行预处理,信用数据由多个数据特征构成;将预处理后的信用数据输入至预先训练的第一模型中,根据信用数据中的特征相关性排名,确定出信用数据中至少一个相关数据特征,其中第一模型为基于受限玻尔兹曼机的特征筛选模型;将相关数据特征输入至预先训练的第二模型中,确定企业的信用评分,并根据信用评分确定企业的信用评估结果,第二模型为深度神经网络模型。
49.本说明书实施例还提供一种存储介质,存储有计算机可执行指令,计算机可执行指令设置为:获取企业的信用数据,并对信用数据进行预处理,信用数据由多个数据特征构成;将预处理后的信用数据输入至预先训练的第一模型中,根据信用数据中的特征相关性排名,确定出信用数据中至少一个相关数据特征,其中第一模型为基于受限玻尔兹曼机的特征筛选模型;将相关数据特征输入至预先训练的第二模型中,确定企业的信用评分,并根据信用评分确定企业的信用评估结果,第二模型为深度神经网络模型。
50.在本说明书的一个或多个实施例中,根据第一模型,通过受限玻尔兹曼机方法筛选特征,提取重要的数据特征;并根据重要的数据特征输入至第二模型中,完成信用评估,实现了以数据驱动模型,以客观代替主观,从而减少训练的计算量和信用评估的工作量。
51.本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备、非易失性计算机存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
52.上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
53.以上所述仅为本说明书的一个或多个实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书的一个或多个实施例可以有各种更改和变化。凡在本说明书的一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜