一种金融信贷反欺诈方法、装置和介质与流程

2022-07-02 14:42:56 来源：中国专利 TAG：

1.本发明涉及金融信贷反欺诈领域，尤其涉及一种金融信贷反欺诈方法、装置和介质。

背景技术：

2.最开始判断申请人是否会违法或用虚假的手段交换取得现金利益，使用的是人为定义规则对申请人进行筛查的方法，该方法对规则的要求高，需要大量的先验知识，而且目前存在的欺诈手段多种多样，很难用简单的规则进行筛查。而后随着机器学习与深度学习的发展，业内逐渐利用买方的属性和历史行为信息等特征，使用不同的机器学习分类器，如基于树的模型和神经网络，进行对申请人进行有监督分类，虽然这些方法在部分场景下取得了成功，但当多个不同角色的人(如卖方、申请人)合谋申请欺诈性贷款时，效果不佳。
3.最近，图神经网络(gnn)在节点分类方面取得了显著的成功，gnn利用邻近节点的特征信息来提高目标节点的表示学习，然而其将所有特性一起映射传播，不作区分，使得应用在在金融信贷反欺诈场景中时，具有不同角色邻居的申请人在特征映射后，在表示空间上没有区别(例如，被映射到相同的表征位置)，使得模型无法准确识别欺诈人。此外，目前已有的处理多关系时间序列图的模型均在聚合多关系信息后处理时间信息，将关系信息和时间信息分开处理，这在一定程度上会损失部分信息，模型无法捕获关系和时间的联合依赖信息。

技术实现要素：

4.为了解决现有技术中存在的上述技术问题，本发明提出了一种金融信贷反欺诈方法、装置和介质，其具体技术方案如下：
5.一种金融信贷反欺诈方法，包括以下步骤：
6.步骤一，构建金融信贷中的多关系时序网络：收集信贷中的数据，将申请人、卖方/商家、贷款机构和其他用户作为网络中的节点，其各自的属性当作每个节点的特征，节点之间存在社交关系、资本交易和设备依赖的连接关系作为连接边，对每个连接边记录其开始时间和结束时间；
7.步骤二，构建多关系时间切片网络：在由不同关系形成的网络下，根据连接形成的时间，将图进行划分，形成各个关系下不同时间切片下的网络；
8.步骤三：将网络中所有节点的属性进行转换，将所有节点映射到同一个特征空间，使得节点对在原特征空间之间的距离与转换后特征空间内的相距相近；
9.步骤四：利用转换后的特征，针对每一种关系，在每个时间切片内，对时间切片对应的时间戳进行嵌入表达学习，使用邻居聚合的方法，添加获得的每个时间切片的编码向量，对节点信息特征进行更新；
10.步骤五：使用门控循环后期融合模型对不同关系各个时间的特征进行融合，获得融合各个关系与时间的总特征；
11.步骤六：利用节点属性转换前后的特征向量和门控循环后期融合模型获得的节点特征向量，对申请人用户节点进行无监督嵌入表征和有监督分类的联合学习，判断其是否有欺诈风险。
12.进一步的，所述步骤二，具体为：根据多关系时序网络中各个关系网络中连接形成的时间，按照每x天或y个月进行切分，其中两节点在该时间段内曾存在连接边，则认为所述的两节点在该时间切片存在连接边，从而获得各个网络关系的不同时间切片下的网络。
13.进一步的，所述步骤三，具体为：
14.将不同节点包括申请人、商家、贷款机构和其他用户的属性特征转化为同一维度q的空间下，转化公式如下：
15.x
′
＝xw b
16.h＝σ(x
′w′
b
′
)
17.其中x∈rn×k表示所有节点的属性特征矩阵，x
′
表示所有节点转化过程间变量，n表示所有节点的总个数，k表示所有节点的初始维度，w∈rk×q、w
′
∈rq×q、b∈rn×q、b
′
∈rn×q分别表示转化矩阵与偏置向量，是需学习的参数，σ(*)为非线性激活函数，h∈rn×q表示节点的转化后的特征，其中q表示特征转化后所有类型节点的统一特征维度，需满足节点对在原特征空间之间的距离与转换后特征空间内的相距相近，即对于节点对(i,j)特征映射的目标为最小化：考虑到所有的节点，则该部分特征转化的目标为最小化函数：
[0018][0019]
其中n表示所有节点的个数，hi、hj分别表示节点i和节点j转化后的特征，xi、xj分别表示节点i和节点j的原始属性特征。
[0020]
进一步的，所述步骤四，具体为：
[0021]
使用注意力机制的方法，通过计算每个邻居节点的权重，使用加权平均的方法汇聚邻居节点信息，并对绝对时间进行嵌入表达，获得的每个时间切片的表征编码
[0022][0023]
其中是一维时间戳t的m维向量编码，α和β是需学习的参数；
[0024]
对节点信息特征进行聚合更新，具体聚合更新的公式如下：
[0025][0026][0027][0028]
[0029]
其中表示节点j在第r种关系下时间片t时的特征，符号[*,*]表示向量拼接操作，表示在第r种关系下时间片t时节点i为节点j的邻居节点，ar(t)∈r
2q
为需学习的参数，为第r种关系下时间切片t时节点i对节点j的权重，l为图神经网络的堆叠层数，l为整数，为在第r种关系下时间切片t时节点j的最后聚合更新信息特征。
[0030]
进一步的，所述步骤五，具体为：
[0031]
首先使用早期门控机制去捕获每种关系对最终融合状态的贡献，对r种关系，根据所有关系下的特征矩阵，使用注意力机制计算每种关系的融合门使用该融合门控制各个关系下的lstm单元的输入值具体公式如下：
[0032][0033][0034]
其中，w
rr
′
为需训练的参数，表示第r种关系在时间切片t考虑到其他关系融合信息后的编码向量，
⊙
表示笛卡尔积；s＝{s1,s2,...,sr}为邻居信息聚合后获得的多关系时序图节点特征，其中sr＝{sr(1),sr(2),....,sr(t)}表示在第r种关系下t个时间切片的数据，为特征转化后包括申请人、卖方、贷款机构和其他用户的节点在时间切片t第r种关系的特征矩阵，[]’表示矩阵的转置，n表示所有节点的个数，r表示关系时序网络种类个数；
[0035]
然后使用后期门控循环单元，后期门控循环单元融合了关系内与关系间的时序依赖信息，后期门控循环单元有r个lstm单元，每个lstm单元独立控制每个关系下的记忆，对每种关系当前时间切片下的cell状态和hidden隐状态进行计算；
[0036]
最后将每种关系下获得的最终的cell和隐变量输出相加：
[0037][0038][0039][0040][0041][0042][0043][0044]
其中f、i、o分别表示lstm单元中的遗忘门、输入门、输出门，w、u和b分别为模型的权重和偏移项参数；c、h分别表示模型的细胞状态和隐状态值，t＝0时刻初始值置为0；g为lstm单元的中间变量，cell为lstm的其一单元；
[0045]
获得当前时间切片汇聚所有之前时间与所有关系信息的cell和隐变量值，把融合后的状态传播到下一个时间步；最后将时间切片t下获得的隐变量当作各个节点最后的特
征输出。
[0046]
进一步的，所述步骤六，具体为：
[0047]
根据最后获得的各个节点的特征，使用全连接层对申请人用户节点进行分类，从而达到高效反欺诈的效果，损失函数如下：
[0048][0049][0050]
其中为sigmoid激活函数，w、b分别为需学习的变换矩阵与偏置向量，yi为第i个用户是否是欺诈用户的真实标签，0或者1，表示计算获得的第i个用户是否是欺诈用户的概率：0～1之间，l
cross_entropy
表示模型的交叉熵损失函数，则模型最后的损失函数为：
[0051]
l＝l
cross_entropy
λl
distance
[0052]
其中λ为自定义超参数，平衡有监督损失l
cross_entropy
与无监督损失l
distance
对模型训练的影响。
[0053]
一种金融信贷反欺诈装置，包括一个或多个处理器，用于实现所述的一种金融信贷反欺诈方法。
[0054]
一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现所述的一种金融信贷反欺诈方法。
[0055]
本发明的有益效果是：
[0056]
(1)本发明提出了特征转化过程，通过将金融信贷相关数据构建为多关系时间序列图，将所有类型的节点映射到表征空间，在该特征空间中节点对之间的距离在映射前面保持一致，这既保证了输入模型的节点原有特征的类型信息，同时又提供了无监督学习损失信息，使得在标签数据比较少的情况下也能训练出较好的检测模型。
[0057]
(2)本发明通过使用门控循环融合模型对不同关系各个时间的特征进行同步融合，获得融合各个关系与时间的总特征，同时捕获关系内与关系间的时间依赖信息，更高效准确地进行反欺诈检测。
附图说明
[0058]
图1a为本发明实施例的实际场景的多关系时序网络示意图；
[0059]
图1b为本发明实施例的实际场景的多关系时间切片网络示意图；
[0060]
图2为本发明整个算法模型的总流程图；
[0061]
图3为一个标准的长短期记忆神经网络单元的模型示意图；
[0062]
图4为本发明的一种金融信贷反欺诈装置的结构图。
具体实施方式
[0063]
为了使本发明的目的、技术方案和技术效果更加清楚明白，以下结合说明书附图，对本发明作进一步详细说明。
[0064]
如图2所示，一种金融信贷反欺诈方法，包括以下步骤：
[0065]
步骤一：如图1a所示，构建金融信贷中的多关系时序网络：首先收集信贷中所有能获取到的数据，根据收集获取的数据，将信贷中的申请人、卖方/商家、银行等贷款机构和其他用户作为网络中的节点，包括申请人在内的所有用户之间存在好友、通讯等社交关系，银行等贷款机构由于业务需要与客户联系，用户与贷款机构间存在社交关系，所有用户与卖方间存在交易关系等等，将这些关系作为节点间的连接边，并且连接边随着时间的变化而变化，记录每条边开始时间与结束时间，其中的其他用户是除申请人之外的所有用户。
[0066]
步骤二：如图1b所示，构建多关系时间切片网络：在由不同关系形成的网络下，根据连接形成的时间，将图进行划分，形成各个关系的不同时间切片下的网络。
[0067]
根据多关系时序网络中各个关系网络中连接形成的时间，按照每20天、1个月或者2个月等进行切分，其中两节点在该时间段内曾存在边，则认为这两节点在该时间切片存在连边，从而获得各个网络关系的不同时间切片下的网络。
[0068]
步骤三：将网络中所有节点的属性特征进行转换：将所有节点的属性特征映射到同一个特征空间，使得节点对在原特征空间之间的距离与转换后特征空间内的相距相近。
[0069]
具体的，将不同节点包括申请人、商家、银行等贷款机构和其他用户4种节点的属性特征转化为同一维度q的空间下，转化公式如下：
[0070]
x
′
＝xw b
[0071]
h＝σ(x
′w′
b
′
)
[0072]
其中x∈rn×k表示所有节点的属性特征矩阵，x
′
表示所有节点转化过程间变量，n表示所有节点的总个数，k表示所有节点的初始维度，w∈rk×q、w
′
∈rq×q、b∈rn×q、b
′
∈rn×q分别表示转化矩阵与偏置向量，是需学习的参数，σ(*)为非线性激活函数，h∈rn×q表示节点的转化后的特征，其中q表示特征转化后，所有类型节点的统一特征维度，需满足节点对在原特征空间之间的距离与转换后特征空间内的相距相近，即对于节点对(i,j)特征映射的目标为最小化：考虑到所有的节点，则该部分特征转化的目标为最小化函数：
[0073][0074]
其中n表示所有节点的个数，hi、hj分别表示节点i、j转化后的特征，xi、xj分别表示节点i、j原始属性特征。
[0075]
步骤四：利用转换后的特征，针对每一种关系，在每个时间切片内，对时间切片对应的时间戳进行嵌入表达学习，使用邻居聚合的方法，添加获得的每个时间切片的编码向量，对节点信息特征进行更新；
[0076]
具体的，使用注意力机制的方法，通过计算每个邻居节点的权重，使用加权平均的方法汇聚邻居节点信息，并对绝对时间进行嵌入表达，获得的每个时间切片的表征编码
[0077][0078]
其中是一维时间戳t的m维向量编码，α,β是需学习的参数；
[0079]
对节点信息特征进行更新，具体聚合更新的公式如下：
[0080][0081][0082][0083][0084]
其中表示节点j在第r种关系下时间片t时的特征，符号[*,*]表示向量拼接操作，表示在第r种关系下时间片t时节点i为节点j的邻居节点，ar(t)∈r
2q
为需学习的参数，为第r种关系下时间切片t时节点i对节点j的权重，l为图神经网络的堆叠层数，l为整数，为在第r种关系下时间切片t时节点j的最后聚合更新信息特征。
[0085]
步骤五：使用门控循环后期融合模型对不同关系各个时间的特征进行融合，获得融合各个关系与时间的总特征；
[0086]
具体的，对不同关系各个时间的特征进行融合时，s＝{s1,s2,...,sr}为邻居信息聚合后获得的多关系时序图节点特征，其中sr＝{sr(1),sr(2),....,sr(t)}表示在第r种关系下所有的t个时间切片的数据，系下所有的t个时间切片的数据，为特征转化后所有节点(申请人、卖方、银行等贷款机构和其他用户)在时间切片t第r种关系的特征矩阵，[]’表示矩阵的转置，n表示所有节点的个数，r表示关系时序网络种类个数。
[0087]
首先使用早期门控机制去捕获每种关系对最终融合状态的贡献，对r种关系，根据所有关系下的特征矩阵，使用注意力机制计算每种关系的融合门使用该融合门控制各个关系下的lstm单元的输入值具体公式如下：
[0088][0089][0090]
其中，w
rr
′
为需训练的参数，表示第r种关系在时间切片t考虑到其他关系融合信息后的编码向量，
⊙
表示笛卡尔积；
[0091]
然后使用后期门控循环单元，后期门控循环单元融合了关系内与关系间的时序依赖信息，后期门控循环单元有r个lstm单元，如图3所示，每个lstm单元独立控制每个关系下的记忆，对每种关系当前时间切片下的cell状态和hidden隐状态等进行计算；
[0092]
最后将每种关系下获得的最终的cell和隐变量输出相加：
[0093][0094][0095]
[0096][0097][0098][0099][0100]
其中f、i、o分别表示lstm单元中的遗忘门、输入门、输出门，w、u和b分别为模型的权重和偏移项参数；c、h分别表示模型的细胞状态和隐状态值，t＝0时刻初始值置为0；g为lstm单元的中间变量，cell为lstm的其一单元；
[0101]
获得当前时间切片汇聚所有之前时间与所有关系信息的cell和隐变量值，把融合后的状态传播到下一个时间步；最后将最后一个时间切片t下获得的隐变量当作各个节点最后的特征输出。
[0102]
步骤六：利用节点属性转换前后的特征向量和门控循环后期融合模型获得的节点特征向量，对申请人用户节点进行无监督嵌入表征和有监督分类的联合学习，判断其是否有欺诈风险。
[0103]
具体的，根据最后获得的各个节点的特征，使用全连接层对申请人用户节点进行分类，从而达到高效反欺诈的效果，损失函数如下：
[0104][0105][0106]
其中为sigmoid激活函数，w、b分别为需学习的变换矩阵与偏置向量，yi为第i个用户是否是欺诈用户的真实标签，0或者1，表示计算获得的第i个用户是否是欺诈用户的概率：0～1之间，l
cross_entropy
表示模型的交叉熵损失函数，则模型最后的损失函数为：
[0107]
l＝l
cross_entropy
λl
distance
[0108]
其中λ为自定义超参数，平衡有监督损失l
cross_entropy
与无监督损失l
distance
对模型训练的影响。例如当缺乏足够的先验知识，人工标记数据成本高，前期标签数据比较少时，可以设置较大的λ值，模型更多的使用无监督损失函数进行训练。
[0109]
与前述一种金融信贷反欺诈方法的实施例相对应，本发明还提供了一种金融信贷反欺诈装置的实施例。
[0110]
参见图4，本发明实施例提供的一种金融信贷反欺诈装置，包括一个或多个处理器，用于实现上述实施例中的一种金融信贷反欺诈方法。
[0111]
本发明一种金融信贷反欺诈装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图4所示，为本
发明一种金融信贷反欺诈装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。
[0112]
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。
[0113]
对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。
[0114]
本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的一种金融信贷反欺诈方法。
[0115]
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是风力发电机的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡(smart media card，smc)、sd卡、闪存卡(flash card)等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。
[0116]
以上所述，仅为本发明的优选实施案例，并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明，对于熟悉本领域的人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于deepstream的条码识别方法与流程

一种金融信贷反欺诈方法、装置和介质与流程

相关文献

最热文献