一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种用户欺诈风险识别方法、装置、电子设备及存储介质与流程

2022-11-28 12:32:19 来源:中国专利 TAG:


1.本技术涉及信息技术领域,具体而言,涉及一种用户欺诈风险识别方法、装置、电子设备及存储介质。


背景技术:

2.随着计算机技术和移动互联网的高速发展,全球各个行业都加速了数字化的进程。在大量的传统业务由线下转移到线上的同时,互联网信息安全也遭遇到巨大挑战,在基于互联网办理业务的过程中存在用户欺诈行为。
3.目前为了识别用户的欺诈风险,通常采用两种方法,一是利用经验学习的方法,将经验规则总结为强策略并用于风险防范,二是利用机器学习、深度学习等模型来进行风险防范。在实际的业务场景中,上述两种方法的识别效果均较差。


技术实现要素:

4.本技术实施例的目的在于提供一种用户欺诈风险识别方法、装置、电子设备及存储介质,用以解决现有技术中用户欺诈风险识别方法识别效果较差的问题。
5.第一方面,本技术实施例提供一种用户欺诈风险识别方法,包括:获取待识别用户的用户画像,并计算待识别用户画像与历史用户画像库内各用户画像的风险相似度;确定待识别用户的风险一致性用户画像,根据风险一致性用户画像计算待识别用户的风险预测值;若待识别用户的风险预测值大于第一阈值,则判定待识别用户具有欺诈风险。在上述方案的实现过程中,根据风险一致性用户画像来计算待识别用户的风险预测值,有效提高了用户欺诈风险识别方法的识别效果。
6.可选地,在本技术实施例中,用户欺诈风险识别方法还包括:基于历史用户样本,获取欺诈风险特征;对欺诈风险特征进行标签映射;对欺诈风险特征进行过滤处理;获取每个历史用户的有效画像标签以及该画像标签对应的画像向量,构建历史用户画像库。在上述方案的实现过程中,通过构建历史用户画像库使得用户欺诈风险识别方法可以筛选出若干与待识别用户具有风险一致性的用户画像,从而有效提高用户欺诈风险识别方法的识别效果。
7.可选地,在本技术实施例中,欺诈风险特征包括:设备属性维度特征、空间属性维度特征、行为属性维度特征和个人属性维度特征中至少一项。在上述方案的实现过程中,欺诈风险特征可以设置为单维度特征,也可以设置为多维度特征,从而有效提高用户欺诈风险识别方法的识别效果。
8.可选地,在本技术实施例中,对欺诈风险特征进行过滤处理,包括:计算各特征间相关系数,筛选相关系数绝对值大于第二阈值的共线性特征,过滤剔除iv值最小的特征;和/或,分别对各个维度下的特征进行降维处理,并计算降维后各特征间的相关系数,筛选相关系数绝对值大于第三阈值的共线性特征,过滤剔除iv值最小的特征。在上述方案的实现过程中,对欺诈风险特征进行过滤处理的方法可以为仅对特征剔除共线性、仅对降维后
的特征剔除共线性以及先剔除特征间的共线性特征后,再剔除降维后的共线性特征,通过对特征的筛选,有效提高用户欺诈风险识别方法的识别效果。
9.可选地,在本技术实施例中,确定待识别用户的风险一致性用户画像,包括:将历史用户画像库中与待识别用户的风险相似度不低于第四阈值的历史用户画像确定为待识别用户的风险一致性用户画像。在上述方案的实现过程中,通过筛选与待识别用户具有风险一致性的用户画像来联合计算带识别用户的风险预测值,有效提高用户欺诈风险识别方法的识别效果。
10.可选地,在本技术实施例中,根据风险一致性用户画像计算待识别用户的风险预测值,包括:在所有风险一致性用户画像中随机选取预设数量的风险一致性用户画像联合计算待识别用户的风险预测值;或者,在所有风险一致性用户画像中,选择风险相似度最大的n个风险一致性用户画像联合计算待识别用户的风险预测值。在上述方案的实现过程中,风险一致性用户画像的选择可以基于用户预设数量,也可以基于相似度数值大小进行选择,从而使得用户欺诈风险识别方法能够适应更多的用户场景,有效提高了用户欺诈风险识别方法的适应性。
11.可选地,在本技术实施例中,用户欺诈风险识别方法还包括:在判断待识别用户是否具有欺诈风险后,将待识别用户的画像及判断结果存入历史用户画像库。在上述方案的实现过程中,将待识别用户的识别结果存入历史用户画像库内,以丰富历史用户画像库,从而筛选出更加符合要求的风险一致性画像来联合计算新的待识别用户的风险预测值,有效提高了用户欺诈风险识别方法的识别效果。
12.可选地,在本技术实施例中,用户欺诈风险识别方法还包括:在历史用户画像库内,确定已感知欺诈风险画像;在与已感知欺诈风险画像具有风险一致性的用户画像中,确定待感知用户画像;获取待感知用户画像的感知结果,根据感知结果判断是否进行画像自更新。在上述方案的实现过程中,通过对待感知画像进行感知,以实现画像的自更新,从而使得用户欺诈风险识别方法能够有效应对新型欺诈类型,有效提高用户欺诈风险识别方法的识别效果。
13.可选地,在本技术实施例中,确定待感知用户画像,包括:将风险预测值大于第六阈值的用户画像确定为待感知用户画像。在上述方案的实现过程中,通过筛选待感知用户画像,从而实现画像的自更新,有效提高用户欺诈风险识别方法的识别效果。
14.可选地,在本技术实施例中,根据感知结果判断是否进行画像自更新的方法为:若感知结果为历史用户画像库内未存入的画像标签,则将感知结果纳入历史用户样本后重新构建历史用户画像库。在上述方案的实现过程中,通过感知结果与历史用户画像库内存储的画像标签进行对比,从而确定是否要对画像进行自更新,有效提高用户欺诈风险识别方法的识别效果。
15.可选地,在本技术实施例中,用户欺诈风险识别方法还包括:基于感知结果重复迭代,直至所有与已感知欺诈风险画像具有风险一致性的用户画像均感知完毕。在上述方案的实现过程中,通过不断迭代以实现画像的不断自更新,有效提高用户欺诈风险识别方法的识别效果。
16.本技术实施例还提供了一种用户欺诈风险识别装置,包括:待识别用户画像获取模块,用于获取待识别用户的用户画像,并发送至风险相似度计算模块;风险相似度计算模
块,用于计算待识别用户画像与历史用户画像库内各用户画像的风险相似度,并将计算结果发送至风险一致性用户画像筛选模块;风险一致性用户画像筛选模块,用于确定与待识别用户具有风险一致性的用户画像,并发送至风险预测值计算模块;风险预测值计算模块,用于根据待识别用户的风险一致性用户画像计算待识别用户的风险预测值,并将计算结果发送至欺诈风险判定模块;欺诈风险判定模块,用于在待识别用户的风险预测值大于第一阈值时,判定待识别用户具有欺诈风险。
17.可选地,在本技术实施例中,用户欺诈风险识别装置还包括:画像库构建模块,用于基于历史用户样本构建历史用户画像库。
18.可选地,在本技术实施例中,用户欺诈风险识别装置还包括:已感知欺诈风险画像识别模块,用于识别历史画像库内的用户画像是否为已感知欺诈风险画像,并将识别结果发送给待感知画像确定模块;待感知画像确定模块,用于在与已感知欺诈风险画像具有风险一致性的用户画像中,确定待感知用户画像,并将结果发送至感知结果获取模块;感知结果获取模块,用于获取待感知用户画像的感知结果,并将感知结果发送至画像自更新模块;画像自更新模块,用于根据感知结果判断是否进行画像自更新。
19.可选地,在本技术实施例中,画像库构建模块具体为:基于历史用户样本,获取欺诈风险特征;对欺诈风险特征进行标签映射;对欺诈风险特征进行过滤处理;获取每个历史用户的有效画像标签以及该画像标签对应的画像向量,构建历史用户画像库。
20.可选地,在本技术实施例中,画像库构建模块所采用的欺诈风险特征包括:设备属性维度特征、空间属性维度特征、行为属性维度特征和个人属性维度特征中至少一项。
21.可选地,在本技术实施例中,画像库构建模块对欺诈风险特征进行过滤处理,包括:计算各特征间相关系数,筛选相关系数绝对值大于第二阈值的共线性特征,过滤剔除iv值最小的特征;和/或,分别对各个维度下的特征进行降维处理,并计算降维后各特征间的相关系数,筛选相关系数绝对值大于第三阈值的共线性特征,过滤剔除iv值最小的特征。
22.可选地,在本技术实施例中,风险一致性用户画像筛选模块确定待识别用户的风险一致性用户画像,包括:将历史用户画像库中与待识别用户的风险相似度不低于第四阈值的历史用户画像确定为待识别用户的风险一致性用户画像。
23.可选地,在本技术实施例中,风险一致性用户画像筛选模块根据风险一致性用户画像计算待识别用户的风险预测值,包括:在所有风险一致性用户画像中随机选取预设数量的风险一致性用户画像联合计算待识别用户的风险预测值;或者,在所有风险一致性用户画像中,选择风险相似度最大的n个风险一致性用户画像联合计算待识别用户的风险预测值。
24.可选地,在本技术实施例中,欺诈风险判定模块还包括:在判断待识别用户是否具有欺诈风险后,将待识别用户的画像及判断结果存入历史用户画像库。
25.可选地,在本技术实施例中,待感知画像确定模块确定待感知用户画像,包括:将风险预测值大于第六阈值的用户画像确定为待感知用户画像。
26.可选地,在本技术实施例中,画像自更新模块根据感知结果判断是否进行画像自更新的方法为:若感知结果为历史用户画像库内未存入的画像标签,则将感知结果纳入历史用户样本后重新构建历史用户画像库。
27.可选地,在本技术实施例中,画像自更新模块还包括:基于感知结果重复迭代,直
至所有与已感知欺诈风险画像具有风险一致性的用户画像均感知完毕。
28.本技术实施例还提供了一种电子设备,包括:处理器、存储器和总线,处理器和存储器通过总线完成相互间的通信;存储器存储有可被处理器执行的程序指令,处理器调用程序指令能够执行如上面描述的方法。
29.本技术实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上面描述的方法。
30.本技术的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本技术实施例了解。本技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
31.为了更清楚地说明本技术实施例的技术方案,下面将对本技术实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
32.图1为本技术实施例提供的电子设备(例如服务器)执行的用户欺诈风险识别方法的流程示意图;图2为本技术实施例提供的电子设备(例如服务器)执行的用户欺诈风险识别方法的另一流程示意图;图3为本技术实施例提供的一种用户欺诈风险识别装置的结构示意图;图4为本技术实施例提供的一种用户欺诈风险识别装置的另一结构示意图;图5为本技术实施例提供的一种用户欺诈风险识别方法应用到金融行业线上贷款场景下的流程示意图;图6为本技术实施例提供的在金融行业线上贷款场景下使用pca对特征进行降维的示意图;图7为本技术实施例提供的用户i的画像标签示意图;图8为本技术实施例提供的相似度阈值与预测准确性的关系示意图;图9为本技术实施例提供的风险传播域的结构示意图;图10为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
33.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行描述。
34.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同;本文中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本技术;本技术的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。
35.在本技术实施例的描述中,技术术语“第一”“第二”等仅用于区别不同对象,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量、特定顺序或主次关系。在本技术实施例的描述中,“多个”的含义是两个以上,除非另有明确具体的限定。
36.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
37.在本技术实施例的描述中,术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
38.在本技术实施例的描述中,术语“多个”指的是两个以上(包括两个),同理,“多组”指的是两组以上(包括两组),“多片”指的是两片以上(包括两片)。
39.在本技术实施例的描述中,技术术语“中心”“纵向”“横向”“长度”“宽度”“厚度”“上”“下”“前”“后”“左”“右”“竖直”“水平”“顶”“底”“内”“外”“顺时针”“逆时针”“轴向”“径向”“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本技术实施例和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本技术实施例的限制。
40.在本技术实施例的描述中,除非另有明确的规定和限定,技术术语“安装”“相连”“连接”“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;也可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本技术实施例中的具体含义。
41.需要说明的是,本技术实施例提供的用户欺诈风险识别方法可以被电子设备执行,这里的电子设备是指具有执行计算机程序功能的设备终端或者服务器,设备终端例如:智能手机、个人电脑、平板电脑、个人数字助理或者移动上网设备等。服务器是指通过网络提供计算服务的设备,服务器例如:x86服务器以及非x86服务器,非x86服务器包括:大型机、小型机和unix服务器。
42.请参见图1示出的本技术实施例提供的电子设备(例如服务器)执行的用户欺诈风险识别方法的流程示意图;该方法可以应用于电子设备(例如服务器),该方法的主要思路是:确定待识别用户的风险一致性画像,根据风险一致性画像计算待识别用户的风险预测值,从而判断待识别用户是否具有欺诈风险,该方法有效提高了用户欺诈风险的识别效果,同时,还采用了画像自更新的方式提高了针对新型欺诈方式的应对能力。上述用户欺诈风险识别方法的实施方式可以包括:步骤s110:获取待识别用户的用户画像,并计算待识别用户画像与历史用户画像库内各用户画像的风险相似度;步骤s120:确定待识别用户的风险一致性用户画像,根据风险一致性用户画像计算待识别用户的风险预测值;步骤s130:若待识别用户的风险预测值大于第一阈值,则判定待识别用户具有欺诈风险。
43.可选地,在本技术实施例中,上述用户欺诈风险识别方法在步骤s110之前,还包括:步骤s140:基于历史用户样本构建历史用户画像库;
可选地,在本技术实施例中,步骤s140包括:获取欺诈风险特征;对欺诈风险特征进行标签映射;对欺诈风险特征进行过滤处理;获取每个历史用户的有效画像标签以及该画像标签对应的画像向量,构建历史用户画像库。
44.作为上述用户欺诈风险识别方法的一种可选实施方式,上述欺诈风险特征可以为单维度欺诈风险特征,也可以为多维度欺诈风险特征。下面详细介绍这两种实施方式:第一种实施方式,欺诈风险特征可以为单维度欺诈风险特征,该实施方式例如:采用设备属性维度特征、空间属性维度特征、行为属性维度特征和个人属性维度特征中的一项维度特征作为欺诈风险特征。
45.第二种实施方式,欺诈风险特征可以为多维度欺诈风险特征,该实施方式例如:采用设备属性维度特征、空间属性维度特征、行为属性维度特征和个人属性维度特征中的多个维度的特征组合成多维度欺诈风险特征。
46.可选地,在本技术实施例中,上述对欺诈风险特征进行标签映射的方法为:对各项特征指标进行分箱后,计算每个分箱的坏样本率,然后对训练样本进行标签映射。
47.作为上述用户欺诈风险识别方法的一种可选实施方式,上述对欺诈风险特征进行过滤处理方法可以为:仅剔除各特征间的共线性特征;也可以为:在对特征进行降维后,剔除降维后的共线性特征;也可以为:先剔除各特征间的共线性特征,然后对特征进行降维,最后剔除降维后的共线性特征。下面详细介绍这三种实施方式:第一种实施方式:对欺诈风险特征进行过滤处理方法为:仅剔除各特征间的共线性特征。该实施方式例如:计算各特征间相关系数,筛选相关系数绝对值大于第二阈值的共线性特征,过滤剔除iv值最小的特征;第二种实施方式:对欺诈风险特征进行过滤处理方法为:在对特征进行降维后,剔除降维后的共线性特征。该实施方式例如:分别对各个维度下的特征进行降维处理,并计算降维后各特征间的相关系数,筛选相关系数绝对值大于第三阈值的共线性特征,过滤剔除iv值最小的特征;第三种实施方式:对欺诈风险特征进行过滤处理方法为:先剔除各特征间的共线性特征,然后对特征进行降维,最后剔除降维后的共线性特征。该实施方式例如:首先,计算各特征间相关系数,筛选相关系数绝对值大于第二阈值的共线性特征,过滤剔除iv值最小的特征;然后,分别对各个维度下的特征进行降维处理,并计算降维后各特征间的相关系数,筛选相关系数绝对值大于第三阈值的共线性特征,过滤剔除iv值最小的特征。
48.可选地,在本技术实施例中,确定待识别用户的风险一致性画像,包括:将历史用户画像库中与待识别用户的风险相似度不低于第四阈值的历史用户画像确定为待识别用户的风险一致性用户画像。
49.作为上述用户欺诈风险识别方法的一种可选实施方式,上述步骤s120中根据风险一致性用户画像计算待识别用户的风险预测值的方法可以为:在所有风险一致性用户画像中随机选取预设数量的风险一致性用户画像联合计算待识别用户的风险预测值;也可以为:在所有风险一致性用户画像中,选择风险相似度最大的n个风险一致性用户画像联合计算待识别用户的风险预测值。下面详细介绍这两种实施方式:第一种实施方式,根据风险一致性用户画像计算待识别用户的风险预测值的方法为:在所有风险一致性用户画像中随机选取预设数量的风险一致性用户画像联合计算待识
别用户的风险预测值。该实施方式例如:用户预先设置能够保证预测准确度的风险一致性用户画像的数量,在确定所有风险一致性用户画像后,随机选择用户预设数量的风险一致性用户画像联合计算待识别用户的风险预测值。
50.第二种实施方式,根据风险一致性用户画像计算待识别用户的风险预测值的方法为:选择风险相似度最大的n个风险一致性用户画像联合计算待识别用户的风险预测值。该实施方式例如:在筛选出所有风险一致性用户画像后,选择风险相似度最大的10个风险一致性用户画像联合计算待识别用户的风险预测值。该实施方式可以在所有风险一致性画像中筛选出风险相似度最大的n个画像,使得待识别用户风险预测值计算更加准确。
51.可选地,在本技术实施例中,上述用户欺诈风险识别方法还包括:在判断待识别用户是否具有欺诈风险后,将待识别用户的画像及判断结果存入历史用户画像库。
52.可选地,在本技术实施例中,如图2所示,用户欺诈风险识别方法还包括:s210:在历史用户画像库内,确定已感知欺诈风险画像;s220:在与已感知欺诈风险画像具有风险一致性的用户画像中,确定待感知用户画像;s230:获取待感知用户画像的感知结果,根据感知结果判断是否进行画像自更新。
53.该方法用于在识别用户的欺诈风险后,在用户画像库内确定待感知画像,通过人工感知或其他感知手段对待感知画像进行感知,若感知到新的欺诈类型,则对画像进行自更新,以使得画像中尽快设置针对新型欺诈的欺诈标签,从而对新型欺诈进行有效识别。
54.可选地,在本技术实施例中,在步骤s210中确定待感知用户画像,包括:将风险预测值大于第六阈值的用户画像确定为待感知用户画像。
55.可选地,在本技术实施例中,在步骤s230中根据感知结果判断是否进行画像自更新的方法为:若感知结果为历史用户画像库内未存入的画像标签,则将感知结果纳入历史用户样本后重新构建历史用户画像库。
56.可选地,在本技术实施例中,用户欺诈风险识别方法还包括:s240:基于感知结果重复迭代,直至所有与已感知欺诈风险画像具有风险一致性的用户画像均感知完毕。
57.可选地,在本技术实施例中,风险相似度的计算方法为:根据画像标签距离确定画像间的相似度。该实施方式例如:用户i和用户j的风险相似度计算方法为:其中,l为包含的特征指标数目;为画像标签对应的画像向量;为用户i在第l个特征指标上的标签值;为用户j在第l个特征指标上的标签值。
58.可选地,在本技术实施例中,风险预测值的计算方法为:基于若干风险一致性样本
的样本标签值计算待识别用户的风险预测值。该实施方式例如:在特定风险相似度下的风险预测值计算方法为:其中,为与用户i的风险相似度至少为的k个用户样本构成的集合;为用户k的实际风险标签;为利用k个用户样本对用户i进行风险预测得到的预测值。
59.可选地,在本技术实施例中,第四阈值的获取方法为:对特定风险相似度下的风险预测准确度进行均方差统计,得到模型效用函数,通过模型效用函数,确定第四阈值。该实施方式例如:模型效用函数的计算方法为:根据模型效用函数确定关联相似度有效阈值,对欺诈风险相似度大于有效阈值的用户样本(),认为是风险一致性样本。
60.请参见图3示出的本技术实施例提供的用户欺诈风险识别装置的结构示意图。本技术实施例提供了一种用户欺诈风险识别装置300,包括:待识别用户画像获取模块310,用于获取待识别用户的用户画像,并发送至风险相似度计算模块320;风险相似度计算模块320,用于计算待识别用户画像与历史用户画像库内各用户画像的风险相似度,并将计算结果发送至风险一致性用户画像筛选模块330;风险一致性用户画像筛选模块330,用于确定与待识别用户具有风险一致性的用户画像,并发送至风险预测值计算模块330;风险预测值计算模块340,用于根据待识别用户的风险一致性用户画像计算待识别用户的风险预测值,并将计算结果发送至欺诈风险判定模块350;欺诈风险判定模块350,用于在待识别用户的风险预测值大于第一阈值时,判定待识别用户具有欺诈风险。
61.可选地,在本技术实施例中,用户欺诈风险识别装置300还包括:画像库构建模块360,用于基于历史用户样本构建历史用户画像库。
62.可选地,在本技术实施例中,画像库构建模块360具体为:基于历史用户样本,获取欺诈风险特征;对欺诈风险特征进行标签映射;对欺诈风险特征进行过滤处理;获取每个历史用户的有效画像标签以及该画像标签对应的画像向量,构建历史用户画像库。
63.可选地,在本技术实施例中,欺诈风险特征包括:设备属性维度特征、空间属性维度特征、行为属性维度特征和个人属性维度特征中至少一项。
64.可选地,在本技术实施例中,画像库构建模块360对欺诈风险特征进行过滤处理,包括:计算各特征间相关系数,筛选相关系数绝对值大于第二阈值的共线性特征,过滤剔除iv值最小的特征;和/或,分别对各个维度下的特征进行降维处理,并计算降维后各特征间的相关系数,筛选相关系数绝对值大于第三阈值的共线性特征,过滤剔除iv值最小的特征。
65.可选地,在本技术实施例中,风险一致性用户画像筛选模块330确定待识别用户的风险一致性用户画像,包括:将历史用户画像库中与待识别用户的风险相似度不低于第四
阈值的历史用户画像确定为待识别用户的风险一致性用户画像。
66.可选地,在本技术实施例中,风险一致性用户画像筛选模块330在所有风险一致性用户画像中随机选取预设数量的风险一致性用户画像联合计算待识别用户的风险预测值;或者,在所有风险一致性用户画像中,选择风险相似度最大的n个风险一致性用户画像联合计算待识别用户的风险预测值。
67.可选地,在本技术实施例中,欺诈风险判定模块350还包括:在判断待识别用户是否具有欺诈风险后,将待识别用户的画像及判断结果存入历史用户画像库。
68.可选地,在本技术实施例中,如图4所示,用户欺诈风险识别装置300还包括:已感知欺诈风险画像识别模块410,用于识别历史画像库内的用户画像是否为已感知欺诈风险画像,并将识别结果发送给待感知画像确定模块420;待感知画像确定模块420,用于在与已感知欺诈风险画像具有风险一致性的用户画像中,确定待感知用户画像,并将结果发送至感知结果获取模块430;感知结果获取模块430,用于获取待感知用户画像的感知结果,并将感知结果发送至画像自更新模块440;画像自更新模块440,用于根据感知结果判断是否进行画像自更新。
69.可选地,在本技术实施例中,已感知欺诈风险画像识别模块410将风险预测值大于第六阈值的用户画像确定为待感知用户画像。
70.可选地,在本技术实施例中,画像自更新模块440具体为:若感知结果为历史用户画像库内未存入的画像标签,则将感知结果纳入历史用户样本后重新构建历史用户画像库。
71.可选地,在本技术实施例中,画像自更新模块440还包括:基于感知结果重复迭代,直至所有与已感知欺诈风险画像具有风险一致性的用户画像均感知完毕。
72.应理解的是,该装置与上述的交互方法实施例对应,能够执行上述方法实施例涉及的各个步骤,该装置具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system,os)中的软件功能模块。
73.下面提供一种使用上述用户欺诈风险识别方法在金融行业的线上贷款业务中实现用户欺诈风险的实施方式,如图5所示,该实施方式例如:步骤s510:从设备属性、空间属性、行为属性、个人属性等多个维度进行数据埋点,挖掘多维欺诈风险特征指标;步骤s520:对风险特征指标进行标签映射、单一标签过滤及联合标签过滤操作,最终筛选形成有效画像标签并输出用户风险画像向量;步骤s530:计算待识别用户的风险预测值;步骤s540:计算全量用户欺诈风险相似度并建立欺诈风险传播域,在识别到新的欺诈攻击时将识别到的潜在欺诈风险样本加入至欺诈风险传播域,并根据风险感知结果对迭代训练更新用户欺诈风险画像。
74.进一步地,步骤s510包括:以代操作类欺诈和gps篡改欺诈为例,欺诈场景及风险表征如下:(1)代操作类欺诈,用户为了顺利申请业务,通常将设备交由相关的中介人员进行代理操作,以便提升通过率。风险表征主要有操作行为过于流畅或不流畅(行为属性)、申请
设备一般多集中在低端手机(设备属性)、用户年龄偏大以及行职业整体较差(个人属性);(2)gps篡改欺诈,用户利用篡改工具,将gps定位修改至特定区域以便满足区域申请要求或提升通过率。风险表征主要有gps定位和ip定位差异较大(空间属性)、操作行为中存在定位漂移问题(空间属性和行为属性)、设备识别到部分参数异常(设备属性)。
75.可以看出用户的欺诈行为往往是多维关联的,在识别用户欺诈过程中,也需要尽可能采集各维度的信息并用户欺诈风险识别。
76.步骤s510结合用户终端环境(app端、web端、移动小程序端等),对用户不同事件进行数据埋点,实现在不同事件情况下对用户的设备属性、空间属性、行为属性、个人属性等多个维度的信息采集。用户i采集到的原始信息记为,其中a~n为维度标记,例如a代表设备属性,b代表空间属性,依次类推,代表a维度的第一个特征,例如实际可以表示为设备属性中的设备型号,依次类推;基于原始数据,挖掘多维欺诈风险特征指标,根据实际业务欺诈风险, 风险特征指标通常需要涵盖各类静态指标以及动态指标,其中静态指标通常为最近一次事件/关键事件所采集到的信息加工而成,动态指标为全流程事件采集信息加工而成。一些典型的指标包括:(1)设备属性静态指标:设备品牌编码,设备型号编码,设备性能编码,设备字体大小编码,设备系统等级编码等;(2)设备属性动态指标:不同设备计数,设备品牌编码变化的最大值、最小值、均值和方差,设备型号编码变化的最大值、最小值、均值和方差,设备性能编码变化的最大值、最小值、均值和方差等;(3)空间属性静态指标:区域类型编码,gps和ip城市/省份是否一致等,该区域近3天/7天/30天业务申请人数,该区域近3天/7天/30天业务成功人数,该区域近3天/7天/30天业务申请成功率;(4)空间属性动态指标:gps移动的不同省份/城市计数,gps和ip城市不一致的省份/城市计数,gps移动距离的最大值、最小值、均值和方差,gps移动速度的最大值、最小值、均值和方差等;(5)行为属性动态指标:不同事件(登陆/验证码/修改密码/申请等)时段编码,不同事件(登陆/验证码/修改密码/申请等)计数等;(6)个人属性静态指标:年龄编码,性别编码,行业编码,职业编码,职务编码等。
77.具体编码方式可以采用数值编码方法(one-hot独热编码、频次编码等),也可以根据实际业务含义进行编码。
78.进一步地,步骤s520筛选形成有效画像标签并输出用户风险画像向量,包括:步骤s520-1:利用已有欺诈风险标签的样本作为训练样本,对各项特征指标进行chimerge卡方分箱,chimerge卡方分箱的基本步骤为:1)将数值变量x排序后分成区间较多的若干组,设为x_1,x_2,

,x_n;2)分别计算x_1 与x_2合并后的卡方值,x_2 与x_3合并后的卡方值,直至x_(n-1) 与x_n合并后的卡方值计算完毕;3)找出上一步所有合并后的卡方值中最小的一个,假设为x_(i-1) 与x_i,将其合
并形成新的x_(i-1);4)不断重复2和3,直至满足终止条件。
79.5)在实际计算过程中,卡方校验p_value通常设定为,同时考虑到分箱是为了续将用于用户画像对应的标签,因此设置最大分箱数。
80.分箱完毕后,计算各项特征指标各个分箱的坏样本率,对样本的特征指标,可以得到其所属分箱及所属分箱的坏样本率,分别记为和。此时,各个分箱代表不同标签,例如对设备数目最终分为3个箱,从业务层面可以记为[设备数目-标签1,设备数目-标签2,设备数目-标签3],不同的标签代表不同的含义同时对应不同的欺诈风险。
[0081]
对样本可以进行整体标签映射,记为:其中,为经过标签映射后的标签组合,为经过标签映射后的标签向量。同时因为每个特征指标已经分箱完毕,因此可以计算每个特征指标的iv值:其中,为该分箱中的欺诈样本数量,为该分箱中的正常样本数量,y为欺诈样本总数,n为正常样本总数。所有特征指标的iv值集合记为:进一步的,对的m个全量训练样本进行标签映射,标签向量形成的矩阵记为:即将所有训练样本的标签向量表示为列向量可以构成标签向量矩阵,行向量代表某一特征指标的样本分布。
[0082]
步骤s520-2:对标签向量矩阵进行单一标签过滤操作,包括:首先,计算特征指标行向量矩阵的皮尔逊相关系数绝对值;其次,若存在相关系数值绝对值大于0.8的极强相关特征指标,则根据中的iv值大小,过滤剔除iv值最小的特征指标。
[0083]
上述单一标签过滤操作主要是为了去除各个特征指标间的共线性,而只保留关键特征指标及对应标签。正如前文所述,用户的欺诈行为往往是多维关联的,所以在多个特征指标上也会表现出相关性,因此如果不做去除共线性处理,在后续的用户画像会增加标签冗余度,同时在后续的用户欺诈风险关联模型训练中对强相关特征进行反复运算从而对模型性能造成影响。
[0084]
步骤s520-3:对标签向量矩阵进行联合标签过滤操作,包括:首先,对各个维度下的特征指标矩阵分别利用pca主成分分析法提取第一特征向
量;pca主成分分析法是一种无监督降维方法,这里主要是为了将各个维度属性(设备属性/空间属性/行为属性/个人属性等)的各个特征指标降维为一维数据,从而对维度间的相关性进行分析和处理。pca主成分分析法的基本步骤为:(1)原始数据列向量进行归一化处理后,得到矩阵x;(2)求出协方差矩阵;(3)求出协方差矩阵的特征值及对应的特征向量;(4)将特征向量按对应特征值大小从上到下按行排列成矩阵,取前 k行组成矩阵p。
[0085]
(5)f = px即为降维到后的数据。
[0086]
如图6所示,以二维数据为例,将x1和x2的坐标轴进行转换,可以得到新坐标轴f1和f2。可以看出原始数据点在f1轴上的投影值代表了原始数据的多数信息,因此f1轴的投影值为第一主成分(又称主元)。
[0087]
其次,对标签向量矩阵进行第一主成分运算,形成n*m的主成分联合矩阵记为:其中,每一列代表训练样本在n个维度上的第一主成分值并构成列向量。
[0088]
计算主成分联合矩阵的皮尔逊相关系数绝对值;若存在相关系数值绝对值大于0.6的强相关联合特征指标,则对两个联合维度下的所有特征指标iv值进行判断,并根据中的iv值大小,过滤剔除iv值最小的特征指标;重复上述过滤操作步骤,利用逐步剔除特征指标的方法,去除维度间存在共线性的特征指标,直至主成分联合矩阵的皮尔逊相关系数绝对值不大于0.6。
[0089]
同上述单一标签过滤的目的一致,联合标签过滤操作也是去除维度间的共线性,便于降低标签冗余度,同时提升后续的用户欺诈风险关联模型性能。区别在于单一标签过滤操作要求单一特征指标相关系数绝对值不大于0.8,第一主成分值的相关系数绝对值不大于0.6,主要是考虑到以维度进行比较时相关性理应更低,否则说明存在维度高度重合的问题,需要重新对维度下的特征指标进行梳理和计算。
[0090]
步骤s520-4:经过标签映射、单一标签过滤和联合标签过滤后,构成用户i的有效画像标签,构成画像标签对应的画像向量,用作后续运算。
[0091]
如图7所示,用户1的画像标签分别为(设备品牌-标签1,设备性能-标签3,
……
,区域类型-标签2,城市计数-标签4,
……
,登陆事件-标签2,申请时段-标签2,
……
,年龄-标签4,行业-标签2),各个指标标签对应有不同的坏样本率,构成了用户画像向量,如用户1的画像向量为(0.2,0.05,
……
,0.03,0.15,
……
,0.12,0.03,
……
,0.08,0.07),坏样本率较高
的标签为城市计数-标签4(0.15)和登陆事件-标签2(0.12),表明该用户的跨区域特征和登陆事件特征比较明显,需要注意异地登录相关异常风险。
[0092]
进一步地,步骤s530通过确定风险一致性样本,从而计算待识别用户的风险相似度,包括:步骤s530-1:定义风险相似度计算方式,并对全量训练样本计算风险相似度;用户i和用户j的风险相似度为:其中,l为包含的特征指标数目,为用户i在第l个特征指标上的标签值。
[0093]
因为所代表的标签值实际为该标签对应分箱的坏样本率,因此处在[0,1]区间,最终也必然出于[0,1]区间。当两个用户的用户画像标签完全一致时,画像向量也将完全一致,风险相似度将为1,表示风险完全一致。而如果两个用户的用户画像标签差异较大,则最终风险相似度将趋于0,表示两者的风险情况相差较大。需要注意的是,本文风险相似度是以标签值进行计算,而不是采用原始变量进行计算,极大地提升了算法的泛化性。例如若对两个年龄相差较大的用户的年龄指标直接进行计算,在年龄维度上的相似度可能较低,但从标签值层面上两者年龄差较大但都处在同一分箱,对应的标签值一致,因此计算得到的相似度则较大,表示两者风险的风险情况是比较相似的。
[0094]
步骤s530-2:定义特定风险相似度下的风险预测值计算方式:其中,为与用户i的风险相似度至少为的k个用户样本构成的集合;为用户k的实际风险标签;为利用k个用户样本对用户i进行风险预测得到的预测值。
[0095]
由上式可知,预测算法中考虑了各个邻近样本的相似度,并进行了加权处理,因此风险相似度高的用户对最终的预测值影响较大,反之风险相似度低的用户对预测值的影响则较小。通过设置不同的阈值,寻找到的相似样本数不同,最终得到的预测结果也不同。
[0096]
步骤s530-3:对特定风险相似度下的风险预测准确度进行均方差统计,得到模型效用函数:对不同的阈值,对全量样本进行预测值和真实值的准确性统计。如图4所示,当相似度阈值设定较高时,模型的预测准确性也相应升高,而当相似度阈值设定较低时,预测准确性在0.5左右浮动(对于二分类问题的随机性预测的准确性为0.5),此时表示
无预测能力。
[0097]
步骤s530-4:根据模型效用函数确定关联相似度有效阈值,对欺诈风险相似度大于有效阈值的用户样本(),认为是风险一致性样本,并可以利用有效关联样本对用户进行风险预测。
[0098]
对相似度阈值的设定可以结合实际模型效果和业务需求。若实际业务中对欺诈风险的容忍度较低,则可以相对设定较低的相似度阈值以便尽可能发现更多风险;若容忍度适中或较高,则可以设定较高的相似度阈值以实现对风险欺诈的精准捕捉。一般情况下,要求预测精度≥0.8,如图8所示,此时的有效阈值,即对某用户样本而言,与其关联相似度在0.84以上的样本认为是风险一致性样本。
[0099]
进一步地,步骤s540通过构建风险传播域实现画像的自更新,以应对新型欺诈风险,包括:步骤s540-1:对全量样本,包括已感知样本和未感知样本,计算其风险相似度,确定风险一致性样本,每一个已感知欺诈风险的样本将以自身为中心和与其风险一致性样本构成高风险域;全部已感知欺诈风险的样本的高风险域,共同构成风险传播域;如图9所示,图中实心三角表示已感知-欺诈样本,空心三角表示已感知-正常样本,两者共同构成了训练样本,空心圆为未感知样本/未训练样本,连线表示互为风险一致性样本,例如g、f、h为样本a的风险一致性样本,a为g的风险一致性样本,但h不为g的风险一致性样本。图9中a及g、h、f,c及d、j构成了以a、c、d为中心的风险传播域;步骤s540-2:风险传播域中存在大量未标记的待感知样本,需要通过人工感知标记或其他手段来判断其是否具有欺诈风险;如图9中需要对风险传播域中所有未感知样本(g、h、f、j)进行风险预测,对风险预测值大于风险阈值的标记为待感知样本,风险阈值根据业务需求设定,一般要求至少为0.7,即预测为欺诈风险的概率不低于70%。g、h、f因为已感知的风险一致性样本只有a,因此风险预测值也必定和a相同,即欺诈风险预测值为1。而j因为风险一致性样本有已感知-欺诈样本d和已感知-正常样本c,因此在进行预测后不一定满足风险阈值要求,例如若风险预测值为0.65《0.7,则不被标记为待感知样本。
[0100]
s540-3:待感知样本若识别为欺诈风险样本,又将以自身为中心进行风险传播域扩散,与其风险一致性样本需要进行进一步风险感知;若图9中待感知样本h经过人工感知或其他手段感知后判断具有欺诈风险,则标记状态更新为已感知-欺诈样本,并将进行风险传播域扩散,相邻的样本b随即将被预测为待感知样本。
[0101]
步骤s540-4:当风险传播域中全部样本均感知完毕后,风险传播域不再扩大并进入稳定状态;待风险感知完毕后,若判断出现了新型欺诈手段,即感知结果为历史用户画像库内未存入的画像标签,则对有效画像标签重新进行训练,并跟新用户欺诈风险画像,实现画像自更新。
[0102]
请参见图10示出的本技术实施例提供的电子设备的结构示意图。本技术实施例提供的一种电子设备1000,包括:中央处理单元cpu1001,其可以根据存储在只读存储器rom1002中的计算机程序指令或者从存储单元加载到随机访问存储器ram1003中的计算机
程序指令,来执行各种适当的动作和处理。在ram1003中,还可以存储设备操作所需的各种程序和数据。cpu1001、rom1002以及ram1003通过总线1004彼此相连。i/o接口1005也连接至总线1004。设备中的多个部件连接至i/o接口1005,包括:输入单元1006,例如键盘、鼠标等;输出单元1007,例如各种类型的显示器、扬声器等;存储单元1008,例如磁盘、光盘等;以及通信单元1009,例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。cpu1001执行上文所描述的各个方法和处理,例如本技术实施例中方法步骤s110~s130。例如,在一些实施例中,本技术实施例中方法步骤s110~s130可被实现为计算机软件程序,其被有形地包含于非暂态计算机可读存储介质,例如存储单元。在一些实施例中,计算机程序的部分或者全部可以经由rom1002和/或通信单元1009而被载入和/或安装到设备上。当计算机程序加载到ram1003并由cpu1001执行时,可以执行上文描述的本技术实施例中方法步骤s110~s130的一个或多个步骤。备选地,在其他实施例中,cpu1001可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行本技术实施例中方法步骤s110~s130。本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、片上系统(soc)、复杂可编程逻辑设备(cpld)等等。用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。在本发明的上下文中,非暂态计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。非暂态计算机可读存储介质可以是机器可读信号介质或机器可读储存介质。非暂态计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。非暂态计算机可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。在本技术所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为上述方法的逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。再者,在本技术各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
[0103]
以上所述仅为本技术的实施例而已,并不用于限制本技术的保护范围,对于本领域的技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献