逾期概率计算方法、装置、电子设备及计算机存储介质与流程

2022-02-20 13:13:54 来源：中国专利 TAG：

1.本发明涉及计算机技术领域，特别涉及一种逾期概率计算方法、装置、电子设备及计算机存储介质。

背景技术：

2.在互联网贷款申请业务中，贷款平台对贷款申请人资质与信用的审定往往基于其自身学历、收入、行业等特征，而对于能够伪造相关材料的专业骗贷的申请人，贷款平台甄别的难度较大。
3.近年来，随着计算机计算的发展，知识图谱可以展示申请人使用的设备指纹与网络ip，对于申请人是否存在骗贷行为的判定，往往依赖于经验在图谱系统中搜索，或基于关系型数据库做浅层表格关联，从而导致贷款平台无法对在贷前审查阶段实时准确预测出申请人的逾期概率进而防止骗贷发生。

技术实现要素：

4.为解决上述技术问题，本发明提供了一种逾期概率计算方法、装置、电子设备及计算机存储介质，具体方案如下：
5.第一方面，提供一种逾期概率计算方法，所述方法包括：
6.根据申请贷款的用户的历史行为数据构建原始图谱；
7.根据所述原始图谱中与预设非id节点连接的id节点构建单部图谱；
8.根据所述单部图谱分别计算第一类id节点以及第二类id节点与用户id节点之间的第一关联参数，其中所述第一类id节点为无逾期或者在第一逾期时间内还款的用户的id，所述第二类id节点为在第二逾期时间内未还款的用户的id；
9.根据所述原始图谱分别计算所述第一类id节点以及所述第二类id节点与所述用户id节点的第二关联参数；
10.根据所述单部谱图确定用于传播逾期风险的中介节点，并计算所述用户id节点到所述中介节点的中介距离；
11.根据所述第一关联参数，所述第二关联参数以及所述中介距离计算得到用户的逾期概率。
12.在一个较佳的实施方式中，所述根据所述原始图谱中与预设非id节点连接的id节点构建单部图谱包括：
13.确定每一所述id节点的邻居节点以及非邻居节点，其中，所述邻居节点与所述id节点连接有相同的非id节点，所述非邻居节点为与所述id节点没有连接相同的非id节点；
14.每一所述id节点与所述非邻居节点之间的边权重为0；
15.每一所述id节点与所述邻居节点之间的边权重通过以下方法计算：
16.确定所述id节点与所述非id节点之间的第一连接途径以及所述邻居节点与相同的所述非id节点之间的第二连接途径；
17.根据所述第一连接途径与所述第二连接途径之间的时间覆盖度，所述非id节点的度的对数，以及，所述id节点与所述邻居节点共同连接的所述非id节点的数量，计算得到所述id节点与所述邻居节点之间的边权重；
18.根据每一所述id节点以及对应的所述边权重构建所述单部图谱。
19.在一个较佳的实施方式中，根据单部图谱分别计算第一类id节点以及第二类id节点与用户id节点之间的第一关联参数包括：
20.将重置系数θ作为重启随机游走概率；
21.以相同的id节点到单部图谱与不同id节点之间的边权重作为行，以不同的id节点到相同的id节点之间的边权重作为行得到邻接矩阵；
22.以每一所述id节点的所述邻居节点中所述第一类id节点数量的对数作为初始化向量，将所述初始向量归一化得到个性化向量；
23.对所述用户id节点做个性化page rank计算所述第一类id节点到所述用户id节点以及所述用户id节点的所述邻居节点的第一rp值；
24.同样的，计算得到所述第二类id节点到所述用户id节点以及所述用户id节点的所述邻居节点的第二rp值；
25.将所述第一rp值以及所述第二rp值作为第一关联参数。
26.在一个较佳的实施方式中，所述根据原始图谱分别计算所述第一类id节点以及第所述二类id节点与所述用户id节点的第二关联参数包括：
27.根据所述第一类id节点的风险/信用传播系数以及与所述第一类id节点所连接的非id节点所连接的id节点数量得到所述第一类id节点到所述用户id节点以及所述用户id节点的所述邻居节点的第一风险/信用传播值；
28.根据所述第二类id节点的风险/信用传播系数以及所述第二类id节点所连接的非id节点所连接的id节点数量得到所述第二类id节点到所述用户id节点以及所述邻居节点的第二风险/信用传播值；
29.将所述第一风险/信用传播值以及所述第二风险/信用传播值作为第二关联参数。
30.在一个较佳的实施方式中，所述根据单部谱图确定用于传播逾期风险的中介节点包括：
31.以相同的id节点的邻居节点数，所述邻居节点对应用户的贷款用户比例以及逾期用户比例为行，以不同id节点的邻居节点数，或贷款用户比例，或逾期用户比例为列，构建原始矩阵；
32.对所述原始矩阵零均值化处理以及协方差计算得到协方差矩阵；
33.计算所述协方差矩阵的特征值以及特征向量；
34.将所述协方差矩阵的特征向量单位化得到单位化特征向量；
35.取前k大的特征值对应的所述单位化特征向量；
36.将k个特征值与对应的所述单位化特征向量的乘积之和作为相应的id节点的中介指数；
37.将所述中介指数从高到低排列，并取前l个所述中介指数对应的所述id节点作为中介节点。
38.在一个较佳的实施方式中，所述计算用户id节点到所述中介节点的中介距离包
括：
39.从所述用户id节点以及所述中介节点分别出发逐层遍历；
40.将首次相遇时的已遍历层数之和作为所述用户id节点到所述中介节点的中介距离。
41.在一个较佳的实施方式中，所述根据所述第一关联参数，所述第二关联参数以及所述中介距离计算得到所述用户的逾期概率包括：
42.将所述第一关联参数，所述第二关联参数以及所述中介距离输入至逻辑回归训练模型中，计算得到所述用户的逾期概率。
43.第二方面，提供一种逾期概率计算装置，所述装置包括：
44.第一构建模块，用于根据申请贷款的用户的历史行为数据构建原始图谱；
45.第二构建模块，用于根据所述原始图谱中与预设非id节点连接的id节点构建单部图谱；
46.第一关联参数计算模块，用于根据所述单部图谱分别计算第一类id节点以及第二类id节点与用户id节点之间的第一关联参数，其中所述第一类id节点为无逾期或者在第一逾期时间内还款的用户的id，所述第二类id节点为在第二逾期时间内未还款的用户的id；
47.第二关联参数计算模块，用于根据所述原始图谱分别计算所述第一类id节点以及所述第二类id节点与所述用户id节点的第二关联参数；
48.中介距离计算模块，用于根据所述单部谱图确定用于传播逾期风险的中介节点，并计算所述用户id节点到所述中介节点的中介距离；
49.逾期概率计算模块，用于根据所述第一关联参数，所述第二关联参数以及所述中介距离计算得到用户的逾期概率。
50.第三方面，提供一种电子设备，其特征在于，包括：
51.一个或多个处理器；以及
52.与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行如前所述的方法。
53.第四方面，提供一种计算机存储介质，其特征在于，其上存储有计算机程序，其中，该程序被处理器执行时实现如前所述的方法。
54.本发明中基于用户的历史行为数据根据原始图谱分别计算第一类id节点以及第二类id节点与用户id节点的第一关联参数，根据所述单部图谱分别计算第一类id节点以及第二类id节点与用户id节点之间的第二关联参数，根据单部谱图确定用于传播逾期风险的中介节点，并计算用户id节点到中介节点的中介距离，由于第一类id节点以及第二类id节点的信用情况是已知的，将当前申请贷款的用户id与第一类id节点以及第二类id节点的关联性量化，将用户id与中介节点的关联性量化，从而能通过第一关联参数，第二关联参数以及中介距离准确计算用户的逾期概率，使得贷款审批的结果更加准确。
附图说明
55.为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他
的附图。
56.图1为本发明实施例中的逾期概率计算方法的示意图；
57.图2为本发明实施例中的逾期概率计算方法的流程图；
58.图3为本发明实施例中的id节点与非id节点的关系图；
59.图4为本发明实施例中的逾期概率计算装置的示意图；
60.图5为本发明实施例中电子设备的架构图。
具体实施方式
61.为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
62.为了解决现有技术中的贷款平台无法对在贷前审查阶段实时准确预测出申请人的逾期概率的问题，本发明如图1所示，先根据申请贷款的用户的历史行为数据构建原始图谱，在原始图谱的基础上，一方面计算用户与第一类用户以及第二类用户的第二关联参数，另一方面构建单部图谱，在单部图谱的基础上，计算用户与第一类用户以及第二类用户的第一关联参数，并且确定用户对应的id节点到中介节点的距离，根据第一关联参数，第二关联参数，以及中介距离计算逾期概率，从而提高了逾期概率的计算的准确性，下面将结合附图对本发明中一种逾期概率计算方法、装置、电子设备及计算机存储介质进一步阐述。
63.实施例一
64.如图2所示，一种逾期概率计算方法，该方法包括：
65.s21、根据申请贷款的用户的历史行为数据构建原始图谱。
66.在本步骤中，贷款平台对应的服务器可以从数据源中获取用户的历史行为数据，如在特定设备或网络中登录，参加营销活动记录等，并从历史行为数据中抽取实体、实体属性数据以及关系数据，对实体属性数据进行筛选与处理，并利用处理过的实体属性数据以及关系数据构建原始图谱，原始图谱包括id节点以及非id节点，id节点即为当前用户以及其他用户的身份信息，非id节点为网络节点或者设备节点等。
67.s22、根据原始图谱中与预设非id节点连接的id节点构建单部图谱。
68.在本步骤中，预设非id节点为连接两个或两个以上的id节点的非id节点，也即是，在进行构建单部图谱时，需要将与预设非id节点连接的id节点进行连接。
69.s23、根据单部图谱分别计算第一类id节点以及第二类id节点与用户id节点之间的第一关联参数，其中第一类id节点为无逾期或者在第一逾期时间内还款的用户的id，第二类id节点为在第二逾期时间内未还款的用户的id。
70.s24、根据原始图谱分别计算第一类id节点以及第二类id节点与用户id节点的第二关联参数。
71.在以上步骤中，第一类id节点对应的用户没有发生过逾期，或者，在第一逾期时间内还款，第一逾期时间可以设置为3天，当然也可以设置为其他时间，因此。第二类id节点对应的第一类用户具有相对较好的信用，而第二类节点对应的第二类用户在第二逾期时间内未还款，通常，第二逾期时间大于第一逾期时间，因此，第二类id节点对应的用户信用相对
较差，根据第一关联参数、第二关联参数可以量化了当前用户与第一类用户以及第二类用户的关联性，从而为准确计算出当前用户的逾期概率提供了依据。
72.s25、根据单部谱图确定用于传播逾期风险的中介节点，并计算用户id节点到中介节点的中介距离。
73.在本步骤中，根据单部图可以确定传播逾期风险的中介节点，通过中介距离的计算，量化了当前用户与该中介节点的关联性。
74.s26、根据第一关联参数，第二关联参数以及中介距离计算得到用户的逾期概率。
75.在本发明中，基于用户的历史行为数据根据原始图谱分别计算第一类id节点以及第二类id节点与用户id节点的第一关联参数，根据所述单部图谱分别计算第一类id节点以及第二类id节点与用户id节点之间的第二关联参数，根据单部谱图确定用于传播逾期风险的中介节点，并计算用户id节点到中介节点的中介距离，由于第一类id节点以及第二类id节点的信用情况是已知的，将当前申请贷款的用户id与第一类id节点以及第二类id节点的关联性量化，将用户id与中介节点的关联性量化，从而能通过第一关联参数，第二关联参数以及中介距离准确计算用户的逾期概率，不仅为贷款平台的申请贷款时评估风险提供可靠的依据，使得贷款审批的结果更加准确，也提高了贷款平台的贷款审批的效率。
76.在一个较佳的实施方式中，s22、根据原始图谱中与预设非id节点连接的id节点构建单部图谱包括：
77.确定每一id节点的邻居节点以及非邻居节点，其中，邻居节点与id节点连接有相同的非id节点，非邻居节点为与id节点没有连接相同的非id节点；
78.每一id节点与非邻居节点之间的边权重为0；
79.每一id节点与邻居节点之间的边权重通过以下方法计算：
80.确定id节点与非id节点之间的第一连接途径以及邻居节点与相同的非id节点之间的第二连接途径；
81.根据第一连接途径与第二连接途径之间的时间覆盖度，非id节点的度的对数，以及，id节点与邻居节点共同连接的非id节点的数量，计算得到id节点与邻居节点之间的边权重；
82.根据每一id节点以及对应的边权重构建单部图谱。
83.在本步骤中，对于单部图谱中某一id节点，其他所有的id节点分为两类，一类是邻居节点，也即是，id节点与邻居节点连接有相同的非id节点，另一类是非邻居节点，非邻居节点为与id节点没有连接相同的非id节点，而后，需要计算出id节点与其他所有的id节点的边权重。
84.对于id节点与邻居节点之间的边权重的计算，参考图3，具体过程如下：
85.p为一个非id节点，如ip或设备，而u,v为两个均与p相连的身份证节点，比如，id1，id2，那么，u与p之间具有的第一连接途径，v与p之间的第二连接途径，对于图谱中的每一对身份证节点u,v，每有一个共同使用的连接途径，也即是，每连接有相同的个非id节点，两者之间的边权重增加第一连接途径与第二连接途径的时间覆盖度除以该连接途径的度的对数log|γ(p)|，因此u与v之间的边权重为：
86.87.其中，p为u与v共同连接的非id节点，γ(u)∩(v)表示，u与v共同连接的非id节点的集合，该集合中的数量为id节点与邻居节点共同连接的非id节点的数量，timeoverlap(u-p,v-p)为时间覆盖度，log|γ(p)|表示p的度，也即是，p所连接的id节点的数量。
88.时间覆盖度为u-p和v-p两条关系的时间向量的余弦相似度，其中时间向量以月为单位，当u-v在某月有登录操作时，在当月增加一个线性衰减核，特定时刻的时间向量值为：
[0089][0090]
其中t为用户所有登录、营销过的月份，decay为一个衰减系数，表示一个月的登录产生的活跃影响完全消失的月份，可设置为2或3个月，t’表示实际登录的某一月份，ti表示一段时间内的实际月份，比如，在1-4月份内，用户只在2月份，3月份登录过，那么t为2月份，3月份，t’可以取2或3，ti可以为1,2,3,4，由此计算出上述的时间向量值为一个4维向量，同样的，再采用上述公式计算出v-p的时间向量值，对两个向量做余弦相似度得到上述时间覆盖度。
[0091]
在一个较佳的实施方式中，根据单部图谱分别计算第一类id节点以及第二类id节点与用户id节点之间的第一关联参数包括：
[0092]
将重置系数θ作为重启随机游走概率；
[0093]
以相同的id节点到单部图谱与不同id节点之间的边权重作为行，以不同的id节点到相同的id节点之间的边权重作为行得到邻接矩阵；
[0094]
以每一id节点的邻居节点中第一类id节点数量的对数作为初始化向量，将初始向量归一化得到个性化向量；
[0095]
对用户id节点做个性化page rank计算第一类id节点到用户id节点以及用户id节点的邻居节点的第一rp值；
[0096]
同样的，计算得到第二类id节点到用户id节点以及用户id节点的邻居节点的第二rp值；
[0097]
将第一rp值以及第二rp值作为第一关联参数。
[0098]
以上，采用个性化page rank计算得到第一关联参数，对于个性化page rank。目前现有技术中个性化pagerank算法表示为：
[0099]ri
＝(1-c)mr
i-1
cv
[0100]
其中v为用户的偏好向量(或个性化向量)，|v|＝1，v也被称为个性化pagerank向量(ppv)，它反映了图中每个结点针对给定偏好向量的重要性，c为重启随机游走概率，通常情况下c为0.15，m为归一化后的邻接矩阵，r
i-1
为前一次迭代得到的pr值，ri为当前迭代得到的pr值。
[0101]
在本发明中，将重置系数θ即为上述公式中的c。
[0102]
进一步地，在邻接矩阵的计算过程中，以相同的id节点到单部图谱与不同id节点之间的边权重作为行，以不同的id节点到相同的id节点之间的边权重作为行得到邻接矩阵，将该邻接矩阵归一化后得到上述公式中的m，假设id节点的数量为m，m为一个m*m的矩阵。
[0103]
进一步地，以每一id节点的邻居节点中第一类id节点数量的对数作为初始化向量，将初始向量归一化得到个性化向量，那么个性化向量为一个m维的列向量。
[0104]
在上述公式中的参数都确定之后，针对用户id做个性化page rank计算直至结果收敛，得到第一类id节点到用户id节点的rp值，进一步地，为了使得更加反映出当前用户与第一类用户以及第二类用户的关联性，还要进一步计算第一类id节点到所有邻居节点的pr值，并进一步计算邻居节点的平均pr值，以及加权平均pr值，将这些作为第一pr值。
[0105]
进一步地，以每一id节点的邻居节点中第二类id节点数量的对数作为初始化向量，将初始向量归一化得到个性化向量，那么个性化向量为一个m维的列向量。
[0106]
在上述公式中的参数都确定之后，针对用户id做个性化page rank计算直至结果收敛，得到第二类id节点到用户id节点的rp值，进一步地，为了使得第二关联参数更加反映出当前用户与第一类用户以及第二类用户的关联性，还要进一步计算第二类id节点到所有邻居节点的pr值，并进一步计算邻居节点的平均pr值，以及加权平均pr值，将这些作为第二pr值。
[0107]
在一个较佳的实施方式中，根据原始图谱分别计算第一类id节点以及第二类id节点与用户id节点的第二关联参数包括：
[0108]
根据第一类id节点的风险/信用传播系数以及与第一类id节点所连接的非id节点所连接的id节点数量得到第一类id节点到用户id节点以及用户id节点的邻居节点的第一风险/信用传播值；
[0109]
根据第二类id节点的风险/信用传播系数以及第二类id节点所连接的非id节点所连接的id节点数量得到第二类id节点到用户id节点以及邻居节点的第二风险/信用传播值；
[0110]
将第一风险/信用传播值以及第二风险/信用传播值作为第二关联参数。
[0111]
上述步骤是基于广度优先搜索实现的，从第一类id节点或第二类id节点出发，单条传播途径将具备风险/信用系数0.99是一个时间衰减系数，n
path
是指与第一类id节点或第二类id节点连接的预设非id节点的数量，其中是观察时刻与id节点-非id节点一条关系时间的间隔天数，最近出现的关系会有更显著的影响。
[0112]
从第一类id节点出发，传播到用户id节点的风险/信用系数为其中path表示，用户id节点所连接的所有预设非id节点数量，n
nodes
表示与第一类id节点连接的每一个预设非id节点所连接的id节点的数量，再用同样的方法计算出第一类id节点传播到用户的每一邻居节点的邻居风险/信用系数，并得到最大邻居风险/系数，平均最大邻居风险/信用系数以及加权平均最大邻居风险/信用系数，将这些计算得到传播到用户id节点以及邻居节点的风险/信用系数作为第一风险/信用传播值。
[0113]
从第二类id节点出发，采用上述同样的方法，得到第二类id节点传播到用户id节点的风险/信用系数，传播到邻居节点的邻居风险/信用系数，并得到最大邻居风险/系数，平均最大邻居风险/信用系数以及加权平均最大邻居风险/信用系数，将这些计算得到传播到用户id节点以及邻居节点的风险/信用系数作为第二风险/信用传播值。
[0114]
在本实施例中，原始图谱为无向图，为防止传播方向冲突(如风险/信用回传到出发种子)，采用指定层数并逐层传播的方式，同时为提高计算效率，减少意义有限的小数计算，借鉴beam search的beam思想，设置一个最小信号阈值，当传导风险小于该阈值，便停止
传播。
[0115]
在一个较佳的实施方式中，根据单部谱图确定用于传播逾期风险的中介节点包括：
[0116]
以相同的id节点的邻居节点数，邻居节点对应用户的贷款用户比例以及逾期用户比例为行，以不同id节点的邻居节点数，或贷款用户比例，或逾期用户比例为列，构建原始矩阵；
[0117]
对原始矩阵零均值化处理以及协方差计算得到协方差矩阵；
[0118]
计算协方差矩阵的特征值以及特征向量；
[0119]
将协方差矩阵的特征向量单位化得到单位化特征向量；
[0120]
取前k大的特征值对应的单位化特征向量；
[0121]
将k个特征值与对应的单位化特征向量的乘积之和作为相应的id节点的中介指数；
[0122]
将所述中介指数从高到低排列，并取前l个中介指数对应的id节点作为中介节点。
[0123]
在本实施例中，使用单部图谱的结构计算各节点的中介指数，确定若干个中介节点。中介节点的特征为：连接途径与通过途径连接的用户数量多，邻近群体中贷款用户占比高，邻近贷款用户中逾期占比高，因此对每个id节点计算三个指标：邻居节点数，邻居节点对应用户的贷款用户比例以及逾期用户比例，因此以相同的id节点的邻居节点数，邻居节点对应用户的贷款用户比例以及逾期用户比例为行，以不同id节点的邻居节点数，或贷款用户比例，或逾期用户比例为列，构建原始矩阵，并采用应用主成分分析法(pca)对每个id节点计算中介嫌疑指数。
[0124]
计算过程如下：
[0125]
(1)零均值化。对于原始矩阵m，假设id节点的数量为m，那么m为一个m*3的矩阵，对每一列的每一个元素，减去该列的均值，从而每列均值达到0.记零均值化后矩阵为x；
[0126]
(2)求出x的协方差矩阵
[0127]
(3)求出矩阵c的特征值和特征向量cβi＝λiβii＝1,2,
…
,n；
[0128]
(4)特征向量单位化
[0129]
(5)取前k大的特征值对应的单位化特征向量，此步骤得到pca的降维矩阵，该降维矩阵为m*k的矩阵；
[0130]
(6)计算k个特征值与对应的单位化特征向量的乘积之和得到一个m维的列向量，将该列向量中每个值作为对应于该值的id节点的中介指数，反映每行(样本)整体数据量级的指标，将中介指数从高到低排序后，取前l个，比如top20作为中介节点。
[0131]
在一个较佳的实施方式中，计算用户id节点到中介节点的中介距离包括：
[0132]
从用户id节点以及中介节点分别出发逐层遍历；
[0133]
将首次相遇时的已遍历层数之和作为用户id节点到中介节点的中介距离。
[0134]
在本发明中，用户id节点到中介节点的最短路径作为中介距离，使用基于广度优先搜索的方法，采用dijkdtra算法，从用户id节点以及中介节点分别出发逐层遍历，首次相遇时记录已遍历层数之和，其中，从该节点到该节点的邻居节点为一层，主要过程如下：
[0135]
步骤1、对于单部图谱中的用户id节点，设置其为起始节点src，遍历每一个节点；
[0136]
步骤2、对于单部图谱中的中介节点，设置其为终止节点dst，遍历每一个节点；
[0137]
步骤3、初始化节点集forward为src，初始化节点集reverse为dst，遍历层数n_src和n_dst分别为0；
[0138]
步骤4、若forward数量小于等于reverse，则进行步骤5，反之则进行步骤6，若forward和reverse只要有一个为空，则表示src无法通过任何一条路径与dst连接，返回10000，也即是若用户id节点无法达到中介节点，则将中介距离记为10000；
[0139]
步骤5、从src向外做一层遍历，记录forward为当前层节点，更新已遍历层数为n_src，而后继续步骤7；
[0140]
步骤6、从dst向外做一层遍历，记录reverse为当前层节点，更新已遍历层数为n_dst，而后继续步骤7；
[0141]
步骤7、判断forward和reverse是否有交集，若有则返回n_src n_dst为src到dst的最短路径，即为中介距离，若无则继续步骤4。
[0142]
在本发明中，通过上述方法能够更加快速确定用户id节点到中介节点的中介距离，并且优化了算法，对于用户id节点无法达到中介节点的情况下，将中介距离记为1000。
[0143]
在一个较佳的实施方式中，s26、根据第一关联参数，第二关联参数以及中介距离计算得到用户的逾期概率包括：
[0144]
将第一关联参数，第二关联参数以及中介距离输入至逻辑回归训练模型中，计算得到用户的逾期概率。
[0145]
在本实施例中，提取第一关联参数，第二关联参数以及中介距离后，使用逻辑回归训练模型中，逻辑回归是一种用于分类的训练模型。
[0146]
本发明中对于逻辑回归模型的训练的过程为：按时间分割数据集，对于每个月份y，使用y之前六个月，即[y-6,y)数据构建图，并用这六个月的欠贷与还款用户作为原始谱图计算的第一类用户以及第二类用户，计算[m-6,m]有行为的用户的特征，并作为训练集，使用月份y的用户id节点作为测试集。在训练与测试过程均剔除孤立节点或偏僻节点，比如使用2020年全部12个月分别作为测试集，测得模型达到平均0.691的auc，以及0.381的ks.auc和ks的标准差分别为0.135和0.215。
[0147]
实施例二
[0148]
如图4所示，本发明提供了一种逾期概率的计算装置，该装置包括：
[0149]
第一构建模块41，用于根据申请贷款的用户的历史行为数据构建原始图谱；
[0150]
第二构建模块42，用于根据原始图谱中与预设非id节点连接的id节点构建单部图谱；
[0151]
第一关联参数计算模块43，用于根据单部图谱分别计算第一类id节点以及第二类id节点与用户id节点之间的第一关联参数，其中第一类id节点为无逾期或者在第一逾期时间内还款的用户的id，第二类id节点为在第二逾期时间内未还款的用户的id；
[0152]
第二关联参数计算模块44，用于根据原始图谱分别计算第一类id节点以及第二类id节点与用户id节点的第二关联参数；
[0153]
中介距离计算模块45，用于根据单部谱图确定用于传播逾期风险的中介节点，并计算用户id节点到中介节点的中介距离；
[0154]
逾期概率计算模块46，用于根据第一关联参数，第二关联参数以及中介距离计算得到用户的逾期概率。
[0155]
在一个较佳的实施方式中，第二构建模块包括：
[0156]
确定单元，用于确定每一id节点的邻居节点以及非邻居节点，其中，邻居节点与id节点连接有相同的非id节点，非邻居节点为与id节点没有连接相同的非id节点；
[0157]
边权重计算单元，用于每一id节点与非邻居节点之间的边权重为0；每一id节点与邻居节点之间的边权重通过以下方法计算：确定id节点与非id节点之间的第一连接途径以及邻居节点与相同的非id节点之间的第二连接途径；根据第一连接途径与第二连接途径之间的时间覆盖度，非id节点的度的对数，以及，id节点与邻居节点共同连接的非id节点的数量，计算得到id节点与邻居节点之间的边权重；
[0158]
构建单元，用于根据每一id节点以及对应的边权重构建单部图谱。
[0159]
在一个较佳的实施方式中，第一关联参数计算模块43包括：
[0160]
重置系数设定单元，用于将重置系数θ作为重启随机游走概率；
[0161]
邻接矩阵设定单元，用于以相同的id节点到单部图谱与不同id节点之间的边权重作为行，以不同的id节点到相同的id节点之间的边权重作为行得到邻接矩阵；
[0162]
个性化向量设定单元，用于以每一id节点的邻居节点中第一类id节点数量的对数作为初始化向量，将初始向量归一化得到个性化向量；
[0163]
第一计算单元，用于对用户id节点做个性化page rank计算第一类id节点到用户id节点以及用户id节点的邻居节点的第一rp值；
[0164]
第二计算单元，用于重复上述步骤，计算得到第二类id节点到用户id节点以及用户id节点的邻居节点的第二rp值；
[0165]
关联参数确定单元，用于将第一rp值以及第二rp值作为第一关联参数。
[0166]
在一个较佳的实施方式中，第二参数计算模块44包括：
[0167]
第一风险/信用传播值确定单元，用于根据第一类id节点的风险/信用传播系数以及与第一类id节点所连接的非id节点所连接的id节点数量得到第一类id节点到用户id节点以及用户id节点的邻居节点的第一风险/信用传播值；
[0168]
第二风险/信用传播值确定单元，用于根据第二类id节点的风险/信用传播系数以及第二类id节点所连接的非id节点所连接的id节点数量得到第二类id节点到用户id节点以及邻居节点的第二风险/信用传播值；
[0169]
第一关联参数确定单元，用于将第一风险/信用传播值以及第二风险/信用传播值作为第一关联参数。
[0170]
在一个较佳的实施方式中，中介距离计算模块45还包括中介节点确定单元，用于以相同的id节点的邻居节点数，邻居节点对应用户的贷款用户比例以及逾期用户比例为行，以不同id节点的邻居节点数，或贷款用户比例，或逾期用户比例为列，构建原始矩阵；对原始矩阵零均值化处理以及协方差计算得到协方差矩阵；计算协方差矩阵的特征值以及特征向量；将协方差矩阵的特征向量单位化得到单位化特征向量取前k大的特征值对应的单位化特征向量；将k个特征值与对应的单位化特征向量的乘积之和作为相应的id节点的中介指数；将所述中介指数从高到低排列，并取前l个中介指数对应的id节点作为中介节点。
[0171]
在一个较佳的实施方式中，中介距离计算模块45还包括中介距离计算单元，用于
从用户id节点以及中介节点分别出发逐层遍历；将首次相遇时的已遍历层数之和作为用户id节点到中介节点的中介距离。
[0172]
在一个较佳的实施方式中，逾期概率计算模块46还用于将第一关联参数，第二关联参数以及中介距离输入至逻辑回归训练模型中，计算得到所述用户的逾期概率。
[0173]
本实施例所能实现的技术效果请参照实施例一中的描述，此处不再赘述。
[0174]
实施例三
[0175]
本发明还提供了一种电子设备，其特征在于，包括：
[0176]
一个或多个处理器；以及与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行如前所述的方法，所能实现的技术效果请参照如前的描述，此处不再赘述。
[0177]
其中，图5示例性的展示出了电子设备的系架构，具体可以包括处理器410，视频显示适配器511，磁盘驱动器512，输入/输出接口513，网络接口514，以及存储器520。上述处理器510、视频显示适配器511、磁盘驱动器512、输入/输出接口513、网络接口514，与存储器520之间可以通过通信总线530进行通信连接。
[0178]
其中，处理器510可以采用通用的cpu(central processing unit，中央处理器)、微处理器、应用专用集成电路(application specific integrated circuit，asic)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本发明所提供的技术方案。
[0179]
存储器520可以采用rom(read only memory，只读存储器)、ram(random access memory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器520可以存储用于控制计算机系统500运行的操作系统521，用于控制计算机系统500的低级别操作的基本输入输出系统(bios)。另外，还可以存储网页浏览器523，数据存储管理系统524，以及设备标识信息处理系统525等等。上述设备标识信息处理系统525就可以是本发明实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本发明所提供的技术方案时，相关的程序代码保存在存储器520中，并由处理器510来调用执行。
[0180]
输入/输出接口513用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。
[0181]
网络接口514用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如usb、网线等)实现通信，也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信。
[0182]
总线530包括一通路，在设备的各个组件(例如处理器510、视频显示适配器511、磁盘驱动器512、输入/输出接口513、网络接口514，与存储器520)之间传输信息。
[0183]
需要说明的是，尽管上述设备仅示出了处理器510、视频显示适配器511、磁盘驱动器512、输入/输出接口513、网络接口514，存储器520，总线530等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本发明方案所必需的组件，而不必包含图中所示的全部组件。
[0184]
实施例四
[0185]
本发明还保护一种计算机存储介质，用于执行实施例一中的逾期概率计算方法。
[0186]
本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置从网络上被下载和安装，或者从存储器被安装，或者从rom被安装。在该计算机程序被处理器执行时，执行本发明的实施例的方法中限定的上述功能。
[0187]
需要说明的是，本发明的实施例的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明的实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明的实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、rf(radio frequency，射频)等等，或者上述的任意合适的组合。
[0188]
上述计算机可读介质可以是上述服务器中所包含的；也可以是单独存在，而未装配入该服务器中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该服务器执行时，使得该服务器：响应于检测到终端的外设模式未激活时，获取终端上应用的帧率；在帧率满足息屏条件时，判断用户是否正在获取终端的屏幕信息；响应于判断结果为用户未获取终端的屏幕信息，控制屏幕进入立即暗淡模式。
[0189]
可以以一种或多种程序设计语言或其组合来编写用于执行本发明的实施例的操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c ，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0190]
本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根
据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。
[0191]
以上对本发明所提供的逾期概率计算方法、装置、电子设备及计算机存储介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：存储器、炼化企业孤网运行后的并网方法、装置和设备与流程

逾期概率计算方法、装置、电子设备及计算机存储介质与流程

相关文献

最热文献