一种基于萤火虫算法优化Hopfield神经网络的风险评级方法与流程

2021-10-24 07:47:00 来源：中国专利 TAG：神经网络萤火虫算法评级优化

一种基于萤火虫算法优化hopfield神经网络的风险评级方法
技术领域
1.本发明涉及互联网金融行业的风控技术领域，具体为一种基于萤火虫算法优化hopfield神经网络的风险评级方法。

背景技术：

2.随着互联网金融的发展，消费信贷业务不断扩展，对贷款申请人的风险评估的重要性日益加强。现有技术中用于风险评估的算法主要为逻辑回归、决策树、支持向量机和贝叶斯网络等，但这些算法只能处理客户静态信息数据，例如个人特征、职业信息、家庭信息、受教育程度等均不会在短期得到改变，并不能反映个人的收入波动和信用波动情况，无法实现对客户地信用动态评估。
3.具有联想记忆功能的神经网络模型能够动态评估客户风险，如灰色神经网络、反馈性神经网络、rbf神经网络和小波神经网络等预测模型，采用这些模型进行预测，可以从不同方面反映数据间的复杂关系，但是预测结果还不够理想。
4.hopfield神经网络(hopfield neural network，hnn)是一种单层对称全反馈循环神经网络，从输出到输入均有反馈连接，从输出到输入有反馈连接，所有神经元单元都是一样的，之间相互连接，每个神经元都通过连接权重接受所有其他神经元输出反馈来的信息，其目是为了让每个神经元的输出能够接受所有其他神经元输出的控制，从而使各神经元能够相互制约，是一种拥有联想记忆功能的神经网络模型，具有联想记忆功能、简单、局部搜索能力强的优点。
5.传统的hopfield神经网络基于梯度下降法，初始参数的随机选择而易陷入局部最优的问题，网络学习速度和性能效果不佳。目前主要使用遗传算法和粒子群算法来优化hopfield神经网络初始值，但遗传算法存在编码、解码、交叉、变异等复杂操作，并且种群规模数要求较大、训练时间较长；粒子群算法在寻优过程的后期易陷入局部极值区域，出现收敛速度慢等问题。因此，针对上述问题提出一种基于萤火虫算法优化hopfield神经网络的风险评级方法。

技术实现要素：

6.本发明的目的在于提供一种基于萤火虫算法优化hopfield神经网络的风险评级方法，以解决上述背景技术中提出的问题。
7.为实现上述目的，本发明提供如下技术方案：
8.一种基于萤火虫算法优化hopfield神经网络的风险评级方法，包括以下六个步骤：
9.s1、确定表现期和风险等级，抽取建模样本客户，获取客户数据作为建模指标体系，所述客户数据包括风险等级和影响还款表现得信用数据；
10.s2、对采集到的信用数据预处理，包括缺失值处理、异常值剔除和数据标准化，按时间顺序划分训练集数据和测试集数据；
11.s3、由步骤s2中的样本数据中提取信用数据特征及对应的风险等级，根据样本特征确定hopfield神经网络的输入量与输出量，搭建hopfield神经网络模型；
12.s4、构建hopfield神经网络的权值阈值与萤火虫算法的映射关系，利用萤火虫算法优化好的hopfield神经网络的初始权值与阈值，并用训练样本进行训练；
13.s5、将测试集作为参数寻优过程中的验证集输入训练好的hopfield神经网络模型进行测试，验证模型的准确性，并以模型精度评价指标与遗传算法、粒子群算法优化的模型进行对比与评价；
14.s6、将hopfield神经网络模型部署至贷款平台，获取实时申请客户的数据并将作为待测样本导入预测模型中输出风险评级结果，实现申请客户的实时审批，并定期将有表现数据输入到模型训练，实现模型的在线更新。
15.优选的，在s1中，信用数据包括：个人信息、贷款信息和操作埋点数据，采集的个人信息数据包括客户号、性别、出生日期、联系方式、居住地、家庭信息、学历、收入情况、负债情况、风险偏好、房屋和车辆的情况、工作所处行业、征信情况等；贷款信息数据分为已有贷款及申请贷款信息，主要包括贷款额度、贷款类型、贷款利率、贷款期限、每月归还额度；所述埋点数据包括埋点时采集的设备行为数据和日志数据，其中设备行为数据包括：登录本平台的次数、点击次数、点击频率、输入总耗时及平均耗时、手机号数据、gps位置、mac地址、ip地址数据、地理信息申请频次、ip的申请频次、设备电量占比、陀螺仪的平均加速度，另外日志数据包括：7天内登录次数、首次点击到申请授信时长、一天内最多的session数、申请授信前一周的行为统计等。另外在合规要求下，不限于获取移动互联网行为数据、贷款app内行为数据、信贷历史、运营商数据在内的全域多维度大数据。
16.优选的，在步骤s1中，设置贷款表现窗口为6个月，5个信用风等级为：良好、安全、一般、危险、损失，分别定义为：未出现逾期为良好，历史最大逾期天数在(0，3]为安全，历史最大逾期天数在(3，15]为一般，历史最大逾期天数在(15，30]为危险，历史最大逾期天数大于30为损失。控制各信用风等级样本的比例，从全部样本中随机抽取样本数据集。
17.优选的，在s2中，在步骤s1获取建模数据后，结合常识和统计学规律对于原始数据进行预处理，首先对数据质量进行检验，包括：用户编号的唯一性、样本完整性、变量的范围和取值、缺失值、异常值等；其次是构建衍生变量，即对原始数据进行处理和加工，以获取更有预测力和解释性的变量。比如累计逾期次数、资产负债比、负债月还资产占比等。
18.优选的，在s2中，由于神经网络复杂，网络对于输入数据比较敏感以及输入数据有着不同的单位和取值范围，各神经网络的激活函数、学习规则不同，为提高神经网络训练收敛速度和预测精度，需先对数据进行归一化处理，计算公式如下：
[0019][0020]
其中，x
max
为样本数据中的最大值；x
min
为样本数据中的最小值；x
i
为原始样本数据；归一化后结果的取值范围为[
‑
1,1]。
[0021]
优选的，在s3中，hopfield神经网络(hopfield neural network，hnn)是一种单层对称全反馈循环神经网络，从输出到输入均有反馈连接，从输出到输入有反馈连接，所有神经元单元都是一样的，它们之间相互连接。每个神经元都通过连接权重接受所有其他神经元输出反馈来的信息，其目是为了让每个神经元的输出能够接受所有其他神经元输出的控
制，从而使各神经元能够相互制约，是一种拥有联想记忆功能的神经网络模型。hopfield神经网络根据激励函数的不同分维离散和连续两种模式，离散hopfield网络(dhnn)的激励函数是1和0的阶跃函数，分别表示神经元处于激活和抑制状态；连续hopfield激励函数是s形的连续函数。本专利构建基于离散hopfield神经网络的信用风险评价模型，输入为信用特征样本集，输出信用风险评级样本集。具体构建步骤如下：
[0022]
设网络的初始输入向量x＝[x1,x2,
…
,x
n
]
t
；x
j
(j＝1,2,
…
,n)为神经元j的输入量；y
j
为神经元j的输出量，y
j
∈{
‑
1, 1}；y
j
(t)通常指神经元j在t时刻的输出量。
[0023]
离散hopfield神经网络模型，依靠集体协作能力，能完成高强度连接下自身产生出计算的行为，是一种拥有联想记忆功能的神经网络模型，所采用的神经元是二值神经元，输出的离散值1和
‑
1分别表示神经元处于激活和抑制状态。
[0024]
离散hopfield神经网络中的每一神经元，对于i＝1,2,
…
,n，每一线性组合器输出传给对称硬限幅激活函数与单元延迟元素，任意神经元的单元延迟输出x
i
作为反馈给其他神经元的输入，但并不反馈给自己，即，当i＝j时，w
ij
＝0，而其他神经元的状态可表示为：
[0025][0026]
其中：x
j
为外部输入，θ
j
为阈值，w
ij
为数据编号，且有
[0027][0028]
一个网络状态是输出神经元信息的集合，对于一个输出层是n个神经元的网络，其中t时刻的状态为一个n维向量：
[0029]
y(t)＝[y1(t),y2(t),
…
,y
n
(t)]
t
[0030]
y
i
(t)(i＝1,2,3,
…
,n)可以取值为1或
‑
1，故n维向量y(t)有2n种状态，即网络有2n种状态，考虑一般节点状态，用y
j
(t)表示第j个神经元，即节点j在时刻t的状态，则节点的下一个时刻(t 1)的状态可以求得。
[0031]
一个离散hopfield网络的状态是输出神经元信息的集合，对于一个输出层是n个神经元的网络，其t时刻的状态为一个n维变量，考虑离散hopfield网络的一般节点状态利用节点后时刻t 1的状态，网络在外界激发作用下从初始状态进入动态演变的过程，第一层是神经元故而执行对输入信息与权系数的乘积求累加和，并经非线性函数f处理后产生输出信息：
[0032][0033]
其中，f为转移函数，一个简单的阀值函数；μ
j
(t)为神经元j的净输入，计算规则如下:
[0034][0035]
其中，u
j
(t)为神经元处理函数；w
ij
为神经元j与神经元i之间的连接权值；x
j
为神经元处理函数截距；θ
j
为神经元处理函数阈值，y
i
(t)为时刻t的离散hopfield神经网络模型处理函数输入值，y
j
(t 1)为时刻t 1的离散hopfield神经网络模型处理函数输出值，f[u
j
(t)]为神经元处理函数映射结果，y(t)表示为整个离散hopfield神经网络模型的完整输出值，[y1(t),y2(t),y3(t),
…
,y
n
(t)]
t
表示整个离散hopfield神经网络模型的n个输出层神经元的输出状态，i和n均为自然数。
[0036]
当网络经过适当的训练后，即连接权矩阵w＝(w
ij
)已经确定时，可以认为网络处于等待状态。若给定网络的初始输入为x，则网络各神经元就处于特定的初始状态，由x可得到当前时刻网络的输出量。通过网络的反馈作用，可得到下一时刻的网络输出量，再将这个输出反馈到输入端，如此不断循环下去。
[0037]
如果网络是稳定的，那么经过多次反馈运行后，网络可达到稳定状态，即由输出端可得到网络的稳态输出。若到达t时刻后，网络状态不再改变，已收敛至稳定点，即:
[0038]
y(t 1)＝y(t)
[0039]
此时输出端可得到网络的稳定输出。
[0040]
离散hopfield网络工作的过程实质上是神经元权值w调整的过程。一般来说，在进行hopfield联想记忆时，要求:
[0041]
(1)权值矩阵w为对称矩阵，
[0042]
w
ij
＝w
ji
,i≠j
[0043]
主要保证网络在输入有误差的情况下仍能正确回忆所记模式。
[0044]
(2)能够记忆预先给定的m个模式x1,x2,
…
,x
m
，即:
[0045][0046]
为了使预先给定的模式，成为网络不动点，这些网络不动点可看作是网络的稳定吸引子，存在着一定的吸引域。但是网络中还存在着大量的伪吸引子，同样有着相当大的吸引域。当待联想的模式落入伪吸引域时，网络就会稳定在该吸引子上即陷入局部最优，从而导致联想过程失败。
[0047]
hopfield神经网络训练学习过程为评价等级的评价指标逐渐趋于hopfield神经网络的平衡点的过程，学习完成后，hopfield神经网络储存的平衡点即为各个评价等级所对应的评价指标。
[0048]
但hopfield神经网络的初始权值和阈值存在很大的随机化，网络在训练时容易陷入局部最优，无法进一步进行调整相关参数，导致模型收敛速度慢、预测精度不高和稳定性差等问题。目前对hopfield神经网络初始参数的选择较为广泛的智能优化算法主要有遗传算法和粒子群算法，遗传算法存在编码、解码、交叉、变异等复杂操作，并且种群规模数要求较大、训练时间较长；粒子群算法在寻优过程的后期易陷入局部极值区域，出现收敛速度慢等问题。但都有其各自的局限性和不足。如何确定hopfield神经网络的最佳初始权值和阀值，是提高hopfield神经网络性能的关键。
[0049]
优选的，在s4中，萤火虫算法(glowworm swarm optimization,gso)是一种模拟萤火虫通过发光吸引同伴求偶或觅食的行为的新型群智能仿生优化算法。自然界中的萤火虫可以通过感知有效范围内其他萤火虫的发光强度和频率来确定其他个体的存在和吸引力，将搜索和优化过程模拟成萤火虫吸引和移动的过程，实现了群优化问题的求解。
[0050]
萤火虫算法优化过程包括四个步骤：荧光素更新、移动概率计算、萤火虫位置更新及动态决策域更新。利用萤火虫算法优化hopfield神经网络初始参数步骤包括：随机生成
hopfield神经网络各个结点连接的权值和节点阈值，并对生成的各个hopfield神经网络进行编码，使之对应于萤火虫算法中的个体，初始萤火虫算法参数，形成算法的初始群体，初始群体形成之后对群体中每个个体进行寻优处理，最终输出当前最优个体。具体步骤如下：
[0051]
s41、神经网络与萤火虫算法编码
[0052]
确定hopfield神经网络的拓扑结构，初始化各层之间的权值和阈值，利用萤火虫算法对神经网络各层间的权值和阈值进行编码,按照萤火虫算法的编码要求，对hopfield神经网络的初始阈值和权值进行编码，编码完成后输入萤火虫算法进行优化。
[0053]
对个体实行实数编码，即用一个实数串表示一个个体，该实数串由4部分组成:输出层阈值、隐含层阈值、输出层与隐含层间的连接权值和隐含层与输入层间的连接权值，将hopfield网络的连接权值和阈值采用实数矢量形式编码，每个个体代表问题的一个候选解，候选解组成种群存储了hopfield神经网络的初始权值和阈值。
[0054]
s42、初始化萤火虫算法的相关参数
[0055]
hopfield神经网络与萤火虫算法编码构成萤火虫初始种群，初始化萤火虫算法的参数，萤火虫种群的个数为m，初始化萤火虫随机初始位置，并设每个萤火虫的荧光素为l0，动态决策域为r0，n
t
为控制萤火虫邻居数的阈值,初始化步长s，领域阈值ρ，荧光素更新率γ，动态决策域更新率β，萤火虫感知域r
s
，搜索精度ε，迭代控制变量t,最大迭代次数为t
max
，随机性系数α0，其中，吸引力系数β0＝1，光吸收系数γ为[0，1]分布的随机数，随机性系数α0∈[0，1]。
[0056]
s43、荧光素更新
[0057]
荧光素的更新与当前萤火虫所处的位置、前一时刻荧光素的残留量有关，其更新方程为：
[0058]
l
i
(t)＝(1
‑
ρ)l
i
(t
‑
1) γf(x
i
(t))
[0059]
其中，l
i
(t)表示第t次迭代时的亮度值；ρ∈[0,1]为荧光素挥发因子；γ∈[0,1]为荧光素更新率，是萤火虫位置对适应度函数的影响因子；f(x
i
(t))当前萤火虫位置的适应度函数值,第i只萤火虫在第t次迭代的适应度值。
[0060]
萤火虫的荧光素值越大，其亮度也越大，对其它萤火虫的吸引力也越强。其中f是萤火虫个体适应度函数值，表达式如下：
[0061][0062]
其中，f为萤火虫个体适应度值，z为训练样本的个数，y
k
为实际的输出值，t
k
为期望的输出值；
[0063]
s44、计算移动概率
[0064]
萤火虫的亮度越大，对周围萤火虫的吸引力越大，周围萤火虫被吸引移动的概率就越高，，确定萤火虫i作为移动方向，根据轮盘概率公式选择出要移向的萤火虫，以轮盘赌的方式选择领域集内的个体j进行移动，计算萤火虫个体x
i
向领域集n
i
(t)内萤火虫个体x
j
移动概率，计算公式为:
[0065]
[0066]
其中，p
ij
表示萤火虫i向萤火虫j移动的概率，相对来说亮度越高的萤火虫，被选择到的概率越大；n
i
(t)为比当前萤火虫i荧光素高的萤火虫邻域集，k表示n
i
(t)中的萤火虫。
[0067]
s45、更新萤火虫位置和更新决策半径
[0068]
寻找萤火虫x
i
的邻居，在此阶段中，萤火虫首先在其视野范围中选择出亮度比自己高的萤火虫组成邻居集合，邻居集合n
i
(t)表达式如下：
[0069][0070]
其中，n
i
(t)表示萤火虫i在t时刻邻居集合，自身决策范围内选择荧光素值高于自己的个体组成领域集；‖x
j
(t)－x
i
(t)‖表示两只萤火虫间的欧式距离，j表示邻居中的一员；表示萤火虫i在t时刻动态决策域。
[0071]
在组成邻居集合，选择好所需的同伴后，更新萤火虫i的位置，确定萤火虫i的移动方向和移动距离。
[0072]
s46、确定移动方向和移动距离
[0073]
在萤火虫算法中，当萤火虫i寻找到具有更高萤光素值的萤火虫j时，且若此时萤火虫i和萤火虫j的距离小于感知半径，则萤火虫i以概率p
ij
(t)选择萤火虫j，并向此方向动，表达式如下：
[0074][0075]
其中，x
i
(t)与x
i
(t 1)分别为当前时刻与下一时刻萤火虫i所处的位置；x
j
(t)为当前时刻与萤火虫j所处的位置；s为移动步长，j为萤火虫i的决策域内对萤火虫i吸引力最大的萤火虫编号。
[0076]
确定移动方向和移动距离，更新位置，计算更新后位置的目标函数值，进而更新全局最优值。
[0077]
s46、更新动态决策域
[0078]
执行位置更新操作后，萤火虫i根据邻居密度动态更新其决策半径，若邻居密度太大，将减小决策半径，从而缩小搜索邻居萤火虫的范围，反之则增大决策半径，从而有利于搜索更多的邻居萤火虫，达到更新动态决策域目的，表达式如下：
[0079][0080][0081]
其中，与分别表示当前时刻与下一时刻萤火虫i的动态决策半径；r
s
为决策半径阈值，即初始的视野最大值；β为邻域变化率，表示邻域的变化程度；n
t
为邻域阀值，为了控制萤火虫邻域集内包含萤火虫数目；n
i
(t)为萤火虫i在时刻t的领域集内萤火虫数目。
[0082]
s47、确定适应度函数
[0083]
把hopfield神经网络的预测输出和期望输出之间误差绝对值之和作为适应度函数值，适应度函数如下：
[0084][0085]
其中，k为常数；m为输出层节点数；y
j
为网络输出值；o
j
为网络预输出值。
[0086]
计算各成员的适应度函数值，再根据适应度函数值更新荧光素值。
[0087]
s48、迭代搜索最优值
[0088]
重复以上步骤s42至s47，达到既定的精度或者迭代次数，则停止运算，否则，t＝t 1，转s42，将萤火虫种群矩阵及各参数设置为全局变量，利用全局最优值(或接近最优值)拟合目标值。
[0089]
通过以上寻优过程，萤火虫群最终聚集到荧光素值最大的萤火虫处，通过解码可以得到hopfield网络初始最优权值和阈值。
[0090]
s49、训练hopfield神经网络，输出最优结果
[0091]
萤火虫算法优化后的初始阈值和权值构造gso
‑
hopfield神经网络，利用训练集训练网络并计算训练误差，直到误差收敛到精度要求，网络训练完毕。将测试集输入训练好的gso
‑
hopfield神经网络，输出模型的预测精度。
[0092]
优选的，在s5中，将测试集输入训练好的hopfield神经网络模型进行测试，验证模型的预测精度，若未达到设定预测精度则重新计算hopfield神经网络的初始连接权值和初始隐藏层阈值，并再次进行预测，如此反复迭代，直至达到精度要求，输出最优的hopfield神经网络风险等级预测模型。
[0093]
优选的，比较分类结果和实际测得值，可以把分类结果的精度显示在一个如下的混淆矩阵里面，
[0094][0095]
根据风险等级对应评分为1
‑
5，采用评价模型预测能力及模型的稳定性，采用均方误差(mse)、平均绝对百分比误差(mape)、平均绝对误差(mae)和拟合度系数(ec)作为评价指标，计算公式分别如下:
[0096][0097]
[0098][0099][0100]
其中，n为预测样本的个数，y
′
i
为相应模型的预测等级，y
i
为样本实际风险等级。
[0101]
本专利为了比较萤火虫算法的优化效果，采用遗传算法优化的hopfield神经网络模型(ga
‑
hnn)、粒子群算法优化的hopfield神经网络模型(pso
‑
hnn)和萤火虫搜索算法优化的hopfield神经网络模型(gso
‑
hnn)模型结果，其中ga
‑
hnn模型参数设置为：种群个数n＝20，交叉率为p
c
＝0.8，变异率为p
m
＝0.15，迭代次数为100；pso
‑
hnn模型参数设置为：学习因子c1＝c2＝2.05，种群规模为n＝60，惯性因子k∈[0，0.9]；gs0
‑
hnn模型参数设置：萤火虫个数n为60，最大迭代次数200，荧光素消失率ρ＝0.4，适合度影响参数γ＝0.6，荧光素初值l0＝10，动态决策域初值r0＝3，步长初值s＝0.05，决策域大小控制参数β＝0.08，初始视野最大值r
s
＝5，邻居数阈值n
t
＝5。
[0102]
利用测试样本对模型的预测精度进行测试，对比遗传算法和粒子群算法优化的模型结果如下：
[0103][0104]
gs0
‑
hnn模型的mse、mape和mae值均低于参比模型，其拟合度系数ec值均高于其他模型，表明该模型具有较小的预测误差，且拟合程度较高。gso
‑
hopfield神经网络预测模型可以避免hopfield网络因初始参数的随机选择而易陷入局部最优的问题，学习速度和网络学习性能也得到了提高。
[0105]
优选的，在s6中，将hopfield神经网络模型部署至申请平台，获取实时申请客户的数据并将作为待测样本导入预测模型中输出风险评级，实现申请客户的实时审批，并定期将有表现数据输入到模型训练，实现模型的在线更新。
[0106]
与现有技术相比，本发明的有益效果是：
[0107]
1、hopfield神经网络具有强大的非线性映射和并行计算能力，大规模协同作用和集群效应、并行性、容错性和鲁棒性，其计算量不随维数的增加而发生指数性质的“爆炸”，无需数据归一化处理等优良特性，适用于风险评级；
[0108]
2、和遗传算法和粒子群算法不同，萤火虫优化算法依赖于局部信息搜索的机制使得萤火虫算法整体上不易陷于局部极值点并且因为动态决策域的存在，鲁棒性都得到保
证，同时萤火虫个体倾向于向最优位置、荧光最亮个体移动，最优个体随机移动，寻找更优位置，从而使整个群体形成正反馈，全局寻优能力大大增强；
[0109]
3、利用萤火虫算法优化hopfield神经网络的初始权值和阈值，不需要目标函数的梯度信息，比较容易实现，且具有其极强的局部与全局优化性能、较高的鲁棒性等天然优势，从而提高优化性能和时间性能。
附图说明
[0110]
图1为本发明流程图；
[0111]
图2为本发明对比实验图。
具体实施方式
[0112]
请参阅图1，本发明提供一种技术方案：
[0113]
一种基于萤火虫算法优化hopfield神经网络的风险评级方法，包括以下六个步骤：
[0114]
s1、确定表现期和风险等级，抽取建模样本客户，获取客户数据作为建模指标体系，所述客户数据包括风险等级和影响还款表现得信用数据；
[0115]
s2、对采集到的信用数据预处理，包括缺失值处理、异常值剔除和数据标准化，按时间顺序划分训练集数据和测试集数据；
[0116]
s3、由步骤s2中的样本数据中提取信用数据特征及对应的风险等级，根据样本特征确定hopfield神经网络的输入量与输出量，搭建hopfield神经网络模型；
[0117]
s4、构建hopfield神经网络的权值阈值与萤火虫算法的映射关系，利用萤火虫算法优化好的hopfield神经网络的初始权值与阈值，并用训练样本进行训练；
[0118]
s5、将测试集作为参数寻优过程中的验证集输入训练好的hopfield神经网络模型进行测试，验证模型的准确性，并以模型精度评价指标与遗传算法、粒子群算法优化的模型进行对比与评价；
[0119]
s6、将hopfield神经网络模型部署至贷款平台，获取实时申请客户的数据并将作为待测样本导入预测模型中输出风险评级结果，实现申请客户的实时审批，并定期将有表现数据输入到模型训练，实现模型的在线更新。
[0120]
优选的，在s1中，信用数据包括：个人信息、贷款信息和操作埋点数据，采集的个人信息数据包括客户号、性别、出生日期、联系方式、居住地、家庭信息、学历、收入情况、负债情况、风险偏好、房屋和车辆的情况、工作所处行业、征信情况等；贷款信息数据分为已有贷款及申请贷款信息，主要包括贷款额度、贷款类型、贷款利率、贷款期限、每月归还额度；所述埋点数据包括埋点时采集的设备行为数据和日志数据，其中设备行为数据包括：登录本平台的次数、点击次数、点击频率、输入总耗时及平均耗时、手机号数据、gps位置、mac地址、ip地址数据、地理信息申请频次、ip的申请频次、设备电量占比、陀螺仪的平均加速度，另外日志数据包括：7天内登录次数、首次点击到申请授信时长、一天内最多的session数、申请授信前一周的行为统计等。另外在合规要求下，不限于获取移动互联网行为数据、贷款app内行为数据、信贷历史、运营商数据在内的全域多维度大数据。
[0121]
优选的，在s1中，设置贷款表现窗口为6个月，5个信用风等级为：良好、安全、一般、
危险、损失，分别定义为：未出现逾期为良好，历史最大逾期天数在(0，3]为安全，历史最大逾期天数在(3，15]为一般，历史最大逾期天数在(15，30]为危险，历史最大逾期天数大于30为损失。控制各信用风等级样本的比例，从全部样本中随机抽取样本数据集。
[0122]
优选的，在s2中，在步骤s1获取建模数据后，结合常识和统计学规律对于原始数据进行预处理，首先对数据质量进行检验，包括：用户编号的唯一性、样本完整性、变量的范围和取值、缺失值、异常值等；其次是构建衍生变量，即对原始数据进行处理和加工，以获取更有预测力和解释性的变量。比如累计逾期次数、资产负债比、负债月还资产占比等。
[0123]
优选的，在s2中，由于神经网络复杂，网络对于输入数据比较敏感以及输入数据有着不同的单位和取值范围，各神经网络的激活函数、学习规则不同，为提高神经网络训练收敛速度和预测精度，需先对数据进行归一化处理，计算公式如下：
[0124][0125]
其中，x
max
为样本数据中的最大值；x
min
为样本数据中的最小值；x
i
为原始样本数据；归一化后结果的取值范围为[
‑
1,1]。
[0126]
优选的，在s3中，hopfield神经网络(hopfieldneural network，hnn)是一种单层对称全反馈循环神经网络，从输出到输入均有反馈连接，从输出到输入有反馈连接，所有神经元单元都是一样的，它们之间相互连接。每个神经元都通过连接权重接受所有其他神经元输出反馈来的信息，其目是为了让每个神经元的输出能够接受所有其他神经元输出的控制，从而使各神经元能够相互制约，是一种拥有联想记忆功能的神经网络模型。hopfield神经网络根据激励函数的不同分维离散和连续两种模式，离散hopfield网络(dhnn)的激励函数是1和0的阶跃函数，分别表示神经元处于激活和抑制状态；连续hopfield激励函数是s形的连续函数。本专利构建基于离散hopfield神经网络的信用风险评价模型，输入为信用特征样本集，输出信用风险评级样本集。具体构建步骤如下：
[0127]
设网络的初始输入向量x＝[x1,x2,
…
,x
n
]
t
；x
j
(j＝1,2,
…
,n)为神经元j的输入量；y
j
为神经元j的输出量,y
j
∈{
‑
1, 1}；y
j
(t)通常指神经元j在t时刻的输出量。
[0128]
离散hopfield神经网络模型，依靠集体协作能力，能完成高强度连接下自身产生出计算的行为，是一种拥有联想记忆功能的神经网络模型，所采用的神经元是二值神经元，输出的离散值1和
‑
1分别表示神经元处于激活和抑制状态。
[0129]
离散hopfield神经网络中的每一神经元，线性组合器的输出可表示为：对于i＝1,2,
…
,n，每一线性组合器输出传给对称硬限幅激活函数与单元延迟元素；任意神经元的单元延迟输出x
i
作为反馈给其他神经元的输入，但并不反馈给自己，即，当i＝j时，w
ij
＝0，而其他神经元的状态可表示为：
[0130][0131]
其中：x
j
为外部输入，θ
j
为阈值，w
ij
为数据编号，且有
[0132][0133]
一个网络状态是输出神经元信息的集合，对于一个输出层是n个神经元的网络，其
中t时刻的状态为一个n维向量：
[0134]
y(t)＝[y1(t),y2(t),
…
,y
n
(t)]
t
[0135]
y
i
(t)(i＝1,2,3,
…
,n)可以取值为1或
‑
1，故n维向量y(t)有2n种状态，即网络有2n种状态；考虑一般节点状态，用y
j
(t)表示第j个神经元，即节点j在时刻t的状态，则节点的下一个时刻(t 1)的状态可以求得。
[0136]
一个离散hopfield网络的状态是输出神经元信息的集合，对于一个输出层是n个神经元的网络，其t时刻的状态为一个n维变量，考虑离散hopfield网络的一般节点状态利用节点后时刻t 1的状态，网络在外界激发作用下从初始状态进入动态演变的过程，第一层是神经元故而执行对输入信息与权系数的乘积求累加和，并经非线性函数f处理后产生输出信息：
[0137][0138]
其中，f为转移函数，一个简单的阀值函数；μ
j
(t)为神经元j的净输入，计算规则如下:
[0139][0140]
其中，u
j
(t)为神经元处理函数；w
ij
为神经元j与神经元i之间的连接权值；x
j
为神经元处理函数截距；θ
j
为神经元处理函数阈值，y
i
(t)为时刻t的离散hopfield神经网络模型处理函数输入值，y
j
(t 1)为时刻t 1的离散hopfield神经网络模型处理函数输出值，f[u
j
(t)]为神经元处理函数映射结果，y(t)表示为整个离散hopfield神经网络模型的完整输出值，[y1(t),y2(t),y3(t),
…
,y
n
(t)]
t
表示整个离散hopfield神经网络模型的n个输出层神经元的输出状态，i和n均为自然数。
[0141]
当网络经过适当的训练后，即连接权矩阵w＝(w
ij
)已经确定时，可以认为网络处于等待状态。若给定网络的初始输入为x，则网络各神经元就处于特定的初始状态，由x可得到当前时刻网络的输出量。通过网络的反馈作用，可得到下一时刻的网络输出量，再将这个输出反馈到输入端，如此不断循环下去。
[0142]
如果网络是稳定的，那么经过多次反馈运行后，网络可达到稳定状态，即由输出端可得到网络的稳态输出。若到达t时刻后，网络状态不再改变，已收敛至稳定点，即:
[0143]
y(t 1)＝y(t)
[0144]
此时输出端可得到网络的稳定输出。
[0145]
离散hopfield网络工作的过程实质上是神经元权值w调整的过程。一般来说，在进行hopfield联想记忆时，要求:
[0146]
(1)权值矩阵w为对称矩阵，
[0147]
w
ij
＝w
ji
,i≠j
[0148]
主要保证网络在输入有误差的情况下仍能正确回忆所记模式。
[0149]
(2)能够记忆预先给定的m个模式x1,x2,
…
,x
m
，即:
[0150]
[0151]
为了使预先给定的模式，成为网络不动点。这些网络不动点可看作是网络的稳定吸引子，存在着一定的吸引域。但是网络中还存在着大量的伪吸引子，同样有着相当大的吸引域。当待联想的模式落入伪吸引域时，网络就会稳定在该吸引子上即陷入局部最优，从而导致联想过程失败。
[0152]
hopfield神经网络训练学习过程为评价等级的评价指标逐渐趋于hopfield神经网络的平衡点的过程，学习完成后，hopfield神经网络储存的平衡点即为各个评价等级所对应的评价指标。
[0153]
但hopfield神经网络的初始权值和阈值存在很大的随机化，网络在训练时容易陷入局部最优，无法进一步进行调整相关参数，导致模型收敛速度慢、预测精度不高和稳定性差等问题。目前对hopfield神经网络初始参数的选择较为广泛的智能优化算法主要有遗传算法和粒子群算法，遗传算法存在编码、解码、交叉、变异等复杂操作，并且种群规模数要求较大、训练时间较长；粒子群算法在寻优过程的后期易陷入局部极值区域，出现收敛速度慢等问题。但都有其各自的局限性和不足。如何确定hopfield神经网络的最佳初始权值和阀值，是提高hopfield神经网络性能的关键。
[0154]
优选的，在s4中，萤火虫算法(glowworm swarm optimization,gso)是一种模拟萤火虫通过发光吸引同伴求偶或觅食的行为的新型群智能仿生优化算法。自然界中的萤火虫可以通过感知有效范围内其他萤火虫的发光强度和频率来确定其他个体的存在和吸引力，将搜索和优化过程模拟成萤火虫吸引和移动的过程，实现了群优化问题的求解。
[0155]
萤火虫算法优化过程包括四个步骤：荧光素更新、移动概率计算、萤火虫位置更新及动态决策域更新。利用萤火虫算法优化hopfield神经网络初始参数步骤包括：随机生成hopfield神经网络各个结点连接的权值和节点阈值，并对生成的各个hopfield神经网络进行编码，使之对应于萤火虫算法中的个体，初始萤火虫算法参数，形成算法的初始群体，初始群体形成之后对群体中每个个体进行寻优处理，最终输出当前最优个体。具体步骤如下：
[0156]
s41、神经网络与萤火虫算法编码
[0157]
确定hopfield神经网络的拓扑结构，初始化各层之间的权值和阈值，利用萤火虫算法对神经网络各层间的权值和阈值进行编码,按照萤火虫算法的编码要求，对hopfield神经网络的初始阈值和权值进行编码，编码完成后输入萤火虫算法进行优化。
[0158]
对个体实行实数编码，即用一个实数串表示一个个体，该实数串由4部分组成:输出层阈值、隐含层阈值、输出层与隐含层间的连接权值和隐含层与输入层间的连接权值，将hopfield网络的连接权值和阈值采用实数矢量形式编码，每个个体代表问题的一个候选解，候选解组成种群存储了hopfield神经网络的初始权值和阈值。
[0159]
s42、初始化萤火虫算法的相关参数
[0160]
hopfield神经网络与萤火虫算法编码构成萤火虫初始种群，初始化萤火虫算法的参数，萤火虫种群的个数为m，初始化萤火虫随机初始位置，并设每个萤火虫的荧光素为l0，动态决策域为r0，n
t
为控制萤火虫邻居数的阈值,初始化步长s，领域阈值ρ，荧光素更新率γ，动态决策域更新率β，萤火虫感知域r
s
，搜索精度ε，迭代控制变量t,最大迭代次数为t
max
，随机性系数α0，其中，吸引力系数β0＝1，光吸收系数γ为[0，1]分布的随机数，随机性系数α0∈[0，1]。
[0161]
s43、荧光素更新
[0162]
荧光素的更新与当前萤火虫所处的位置、前一时刻荧光素的残留量有关，其更新方程为：
[0163]
l
i
(t)＝(1
‑
ρ)l
i
(t
‑
1) γf(x
i
(t))
[0164]
其中，l
i
(t)表示第t次迭代时的亮度值；ρ∈[0,1]为荧光素挥发因子；γ∈[0,1]为荧光素更新率，是萤火虫位置对适应度函数的影响因子；f(x
i
(t))当前萤火虫位置的适应度函数值,第i只萤火虫在第t次迭代的适应度值。
[0165]
萤火虫的荧光素值越大，其亮度也越大，对其它萤火虫的吸引力也越强。其中f是萤火虫个体适应度函数值，表达式如下：
[0166][0167]
其中，f为萤火虫个体适应度值；z为训练样本的个数；y
k
为实际的输出值；t
k
为期望的输出值；
[0168]
s44、计算移动概率
[0169]
萤火虫的亮度越大，对周围萤火虫的吸引力越大，周围萤火虫被吸引移动的概率就越高，，确定萤火虫i作为移动方向，根据轮盘概率公式选择出要移向的萤火虫，以轮盘赌的方式选择领域集内的个体j进行移动，计算萤火虫个体x
i
向领域集n
i
(t)内萤火虫个体x
j
移动概率，计算公式为:
[0170][0171]
其中，p
ij
表示萤火虫i向萤火虫j移动的概率，相对来说亮度越高的萤火虫，被选择到的概率越大；n
i
(t)为比当前萤火虫i荧光素高的萤火虫邻域集，k表示n
i
(t)中的萤火虫。
[0172]
s45、更新萤火虫位置和更新决策半径
[0173]
寻找萤火虫x
i
的邻居，在此阶段中，萤火虫首先在其视野范围中选择出亮度比自己高的萤火虫组成邻居集合，邻居集合n
i
(t)表达式如下：
[0174][0175]
其中，n
i
(t)表示萤火虫i在t时刻邻居集合，自身决策范围内选择荧光素值高于自己的个体组成领域集；‖x
j
(t)－x
i
(t)‖表示两只萤火虫间的欧式距离，j表示邻居中的一员；表示萤火虫i在t时刻动态决策域。
[0176]
在组成邻居集合，选择好所需的同伴后，更新萤火虫i的位置，确定萤火虫i的移动方向和移动距离。
[0177]
s46、确定移动方向和移动距离
[0178]
在萤火虫算法中，当萤火虫i寻找到具有更高萤光素值的萤火虫j时，且若此时萤火虫i和萤火虫j的距离小于感知半径，则萤火虫i以概率p
ij
(t)选择萤火虫j，并向此方向动，表达式如下：
[0179]
[0180]
其中，x
i
(t)与x
i
(t 1)分别为当前时刻与下一时刻萤火虫i所处的位置，x
j
(t)为当前时刻与萤火虫j所处的位置；s为移动步长，j为萤火虫i的决策域内对萤火虫i吸引力最大的萤火虫编号。
[0181]
确定移动方向和移动距离，更新位置，计算更新后位置的目标函数值，进而更新全局最优值。
[0182]
s46、更新动态决策域
[0183]
执行位置更新操作后，萤火虫i根据邻居密度动态更新其决策半径，若邻居密度太大，将减小决策半径，从而缩小搜索邻居萤火虫的范围，反之则增大决策半径，从而有利于搜索更多的邻居萤火虫，达到更新动态决策域目的，表达式如下：
[0184][0185][0186]
其中，与分别表示当前时刻与下一时刻萤火虫i的动态决策半径；r
s
为决策半径阈值，即初始的视野最大值；β为邻域变化率，表示邻域的变化程度；n
t
为邻域阀值，为了控制萤火虫邻域集内包含萤火虫数目；n
i
(t)为萤火虫i在时刻t的领域集内萤火虫数目。
[0187]
s47、确定适应度函数
[0188]
把hopfield神经网络的预测输出和期望输出之间误差绝对值之和作为适应度函数值，适应度函数如下：
[0189][0190]
其中，k为常数；m为输出层节点数；y
j
为网络输出值；o
j
为网络预输出值。
[0191]
计算各成员的适应度函数值，再根据适应度函数值更新荧光素值。
[0192]
s48、迭代搜索最优值
[0193]
重复以上步骤s42至s47，达到既定的精度或者迭代次数，则停止运算，否则，t＝t 1，转s42，将萤火虫种群矩阵及各参数设置为全局变量，利用全局最优值(或接近最优值)拟合目标值。
[0194]
通过以上寻优过程，萤火虫群最终聚集到荧光素值最大的萤火虫处，通过解码可以得到hopfield网络初始最优权值和阈值。
[0195]
s49、训练hopfield神经网络，输出最优结果
[0196]
萤火虫算法优化后的初始阈值和权值构造gso
‑
hopfield神经网络，利用训练集训练网络并计算训练误差，直到误差收敛到精度要求，网络训练完毕。将测试集输入训练好的gso
‑
hopfield神经网络，输出模型的预测精度。
[0197]
优选的，在s5中，将测试集输入训练好的hopfield神经网络模型进行测试，验证模型的预测精度，若未达到设定预测精度则重新计算hopfield神经网络的初始连接权值和初始隐藏层阈值，并再次进行预测，如此反复迭代，直至达到精度要求，输出最优的hopfield神经网络风险等级预测模型。
[0198]
优选的，比较分类结果和实际测得值，可以把分类结果的精度显示在一个如下的混淆矩阵里面：
[0199][0200]
根据风险等级对应评分为1
‑
5，采用评价模型预测能力及模型的稳定性，采用均方误差(mse)、平均绝对百分比误差(mape)、平均绝对误差(mae)和拟合度系数(ec)作为评价指标，计算公式分别如下:
[0201][0202][0203][0204][0205]
其中，n为预测样本的个数，y
′
i
为相应模型的预测等级，y
i
为样本实际风险等级。
[0206]
本专利为了比较萤火虫算法的优化效果，采用遗传算法优化的hopfield神经网络模型(ga
‑
hnn)、粒子群算法优化的hopfield神经网络模型(pso
‑
hnn)和萤火虫搜索算法优化的hopfield神经网络模型(gso
‑
hnn)模型结果，其中ga
‑
hnn模型参数设置为：种群个数n＝20，交叉率为p
c
＝0.8，变异率为p
m
＝0.15，迭代次数为100；pso
‑
hnn模型参数设置为：学习因子c1＝c2＝2.05，种群规模为n＝60，惯性因子k∈[0，0.9]；gs0
‑
hnn模型参数设置：萤火虫个数n为60，最大迭代次数200，荧光素消失率ρ＝0.4，适合度影响参数γ＝0.6，荧光素初值l0＝10，动态决策域初值r0＝3，步长初值s＝0.05，决策域大小控制参数β＝0.08，初始视野最大值r
s
＝5，邻居数阈值n
t
＝5。
[0207]
利用测试样本对模型的预测精度进行测试，对比遗传算法和粒子群算法优化的模型结果如下：
[0208][0209]
gs0
‑
hnn模型的mse、mape和mae值均低于参比模型，其拟合度系数ec值均高于其他模型，表明该模型具有较小的预测误差，且拟合程度较高。gso
‑
hopfield神经网络预测模型可以避免hopfield网络因初始参数的随机选择而易陷入局部最优的问题，学习速度和网络学习性能也得到了提高。
[0210]
优选的，在s6中，将hopfield神经网络模型部署至申请平台，获取实时申请客户的数据并将作为待测样本导入预测模型中输出风险评级，实现申请客户的实时审批，并定期将有表现数据输入到模型训练，实现模型的在线更新。
[0211]
本专利还提供一种基于萤火虫算法优化hopfield神经网络的风险评级系统，包括以下模块：
[0212]
数据获取模块，抽取建模样本客户，获取客户数据作为建模指标体系，所述客户数据包括风险等级和影响还款表现得信用数据；
[0213]
数据预处理模块，对采集到的信用数据预处理，包括缺失值处理、异常值剔除和数据标准化，按时间顺序划分训练集数据和测试集数据；
[0214]
模型创建模块，用于根据样本特征确定hopfield神经网络的输入量与输出量，搭建hopfield神经网络模型；
[0215]
模型优化模块，用于采用引力搜索算法对hopfield神经网络的初始参数进行优化，得到优化后的hopfield神经网络，将所述训练集样本数据输入进行训练，并用测试集样本进行验证；
[0216]
模型预测模块，用于模型对实时申请客户的数据并将作为待测样本导入预测模型中输出风险评级结果。
[0217]
模型更新模块，用于模型的在线更新，定期将离线化验数据输入到训练集中，更新hopfield神经网络风险等级预测模型。
[0218]
本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实例的说明只是用于帮助理解本发明的方法及其核心思想。以上所述仅是本发明的优选实施方式，应当指出，由于文字表达的有限性，而客观上存在无限的具体结构，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进、润饰或变化，也可以将上述技术特征以适当的方式进行组合；这些改进润饰、变化或组合，或未经改进将发明的构思和技术方案直接应用于其它场合的，均应视为本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种基于萤火虫算法优化Hopfield神经网络的风险评级方法与流程

相关文献

最热文献