一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于知识图谱挖掘风险对象的方法及装置与流程

2023-07-05 18:09:14 来源:中国专利 TAG:


1.本说明书一个或多个实施例涉及知识图谱领域,尤其涉及一种基于知识图谱挖掘风险对象的方法及装置。


背景技术:

2.近年来,知识图谱在搜索推荐、金融风控等多种业务下得到了广泛的应用。特别是,在电子支付平台进行交易风险评估的场景中,单个用户或单笔交易的信息往往不足以对交易风险进行准确评估,因此,常常借助于知识图谱所涵盖的关联信息,发现电子支付平台中的风险用户和风险交易。虽然常用的图深度学习模型具有很好的效果,但是由于其缺乏直观的可解释性,因此在风险分析的场景中仍然需要具体的风险分析规则作为辅助。当前,风险规则常常通过专家总结经验得出,效率较低,为此相关人员提出了很多风险规则挖掘方法,尝试从已有数据中自动挖掘出可用的风险规则。但是现有的规则挖掘方法普遍存在着准确率低,规则格式简单等问题,无法很好地挖掘风险对象。


技术实现要素:

3.本说明书一个或多个实施例描述了一种基于知识图谱挖掘风险对象的方法及装置,旨在提升规则挖掘的准确率和覆盖率,以更加准确高效地发现电子支付中潜在的风险对象。
4.第一方面,提供了一种基于知识图谱挖掘风险对象的方法,包括:
5.获取预先形成的知识图谱,其中包含与用户和交易相关的若干知识点;所述知识图谱中部分用户和/或部分交易被标定为风险对象;
6.使用若干种知识图谱规则挖掘算法,以得到所述风险对象为目标对所述知识图谱分别进行规则挖掘,得到n条风险规则,其中任意一条风险规则用于推导出涉及风险对象的知识点;
7.分别利用所述n条风险规则,在所述知识图谱上进行推理,得到假定涉及风险对象的多个假定知识点;
8.对于任意的第一假定知识点,确定其对应的标注数据,其中包括,指示所述n条风险规则能否推理出所述第一假定知识点的第一标注数据,以及指示该第一假定知识点与所述知识图谱是否相符的第二标注数据;
9.利用所述多个假定知识点对应的多条标注数据训练目标模型;训练好的目标模型用于挖掘风险对象。
10.在一种可能的实施方式中,所述目标模型为概率图模型;利用所述多个假定知识点对应的多条标注数据训练目标模型,包括:
11.基于所述任意的第一假定知识点所对应的第一标注数据和第二标注数据,确定第一假定知识点对应于多个预设因子的因子值,所述多个预设因子用于反映假定知识点与各风险规则的关联;
12.基于权重参数,和所述多个假定知识点各自的因子值,确定所述多条标注数据的联合概率分布;
13.以所述联合概率分布最大化为目标,调整所述权重参数,得到所述概率图模型的优化参数。
14.在一种可能的实施方式中,所述多个预设因子包括以下中的至少两项:
15.指示所述风险规则能否推理出所述第一假定知识点的第一类因子;
16.指示所述第一标注数据与所述第二标注数据是否一致的第二类因子;
17.指示任意两条所述风险规则对于所述第一假定知识点的推理结果是否一致的第三类因子。
18.在一种可能的实施方式中,确定所述多条标注数据的联合概率分布,包括:
19.对于任意的第一假定知识点,将其对应的因子值构成的第一向量与权重参数构成的权重向量进行内积计算,对所有所述假定知识点对应的内积结果进行归一化求和,得到所述联合概率分布。
20.在一种可能的实施方式中,在得到所述概率图模型的优化参数之后,所述方法还包括:
21.对于待分析的目标用户或目标交易形成的目标知识点,确定其对应的第一标注数据,并根据所述第一标注数据和分别对应于真和假的两个标签值,确定其对应于所述多个预设因子的第一组因子值和第二组因子值;
22.基于所述优化参数,分别确定所述第一组因子值对应的第一概率和第二组因子值对应的第二概率;
23.根据所述第一概率和第二概率中较大者对应的标签值,确定所述目标用户或目标交易是否为风险对象。
24.在一种可能的实施方式中,所述第一标注数据包括n个元素,当第i条风险规则能够推理出所述第一假定知识点时,对应所述第一标注数据的第i个元素为1,否则为0。
25.在一种可能的实施方式中,所述目标模型为分类模型;利用所述多个假定知识点对应的多条标注数据训练目标模型,包括:
26.以所述多条标注数据中的第一标注数据作为样本特征数据,以第二标注数据作为样本标签数据,训练得到分类模型。
27.在一种可能的实施方式中,所述分类模型至少包括:逻辑回归模型、神经网络、梯度提升决策树gbdt。
28.在一种可能的实施方式中,在训练得到分类模型之后,所述方法还包括:
29.对于所述多个假定知识点中任意的第二假定知识点,使用所述分类模型对其进行分类,并计算对应的置信度;
30.将所述置信度小于预设的第一阈值的任意第二假定知识点发送给人工审核平台进行人工复核,根据复核结果确定修正的第二标注数据;
31.以所述多条标注数据中的第一标注数据作为样本特征数据,以修正的第二标注数据作为样本标签数据,重新训练所述分类模型。
32.在一种可能的实施方式中,在训练得到分类模型之后,所述方法还包括:
33.对于待分析的目标用户或目标交易形成的目标知识点,确定其对应的第一标注数
据作为待测样本特征;
34.将所述待测样本特征输入所述分类模型,根据其输出的分类结果,确定所述目标用户或目标交易是否为风险对象。
35.在一种可能的实施方式中,在对于任意的第一假定知识点,确定其对应的标注数据之后,所述方法还包括:
36.对于所述多个假定知识点中的任意的第三假定知识点,如果其被少于预设的第二阈值条风险规则所推理出,则将其从假定知识点的集合中移除。
37.在一种可能的实施方式中,所述若干种知识图谱规则挖掘算法包括以下中的若干项:路径排序算法pra、不完备知识库的关联规则挖掘算法amie和子图特征提取方法sfe。
38.第二方面,提供了一种基于知识图谱的数据挖掘方法,包括:
39.获取预先形成的知识图谱,其中包含与业务对象相关的若干知识点;所述知识图谱中部分业务对象被设定为目标对象;
40.使用若干种知识图谱规则挖掘算法,对所述知识图谱分别进行规则挖掘,得到n条目标规则,其中任意一条目标规则用于推导出涉及目标对象的知识点;
41.分别利用所述n条目标规则,在所述知识图谱上进行推理,得到假定涉及目标对象的多个假定知识点;
42.对于任意的第一假定知识点,确定其对应的标注数据,其中包括,指示所述n条目标规则能否推理出所述第一假定知识点的第一标注数据,以及指示该第一假定知识点与所述知识图谱是否相符的第二标注数据;
43.利用所述多个假定知识点对应的多条标注数据训练目标模型;训练好的目标模型用于挖掘目标对象。
44.第三方面,提供了一种基于知识图谱挖掘风险对象的装置,包括:
45.获取单元,配置为,获取预先形成的知识图谱,其中包含与用户和交易相关的若干知识点;所述知识图谱中部分用户和/或部分交易被标定为风险对象;
46.挖掘单元,配置为,使用若干种知识图谱规则挖掘算法,以得到所述风险对象为目标对所述知识图谱分别进行规则挖掘,得到n条风险规则,其中任意一条风险规则用于推导出涉及风险对象的知识点;
47.推理单元,配置为,分别利用所述n条风险规则,在所述知识图谱上进行推理,得到假定涉及风险对象的多个假定知识点;
48.确定单元,配置为,对于任意的第一假定知识点,确定其对应的标注数据,其中包括,指示所述n条风险规则能否推理出所述第一假定知识点的第一标注数据,以及指示该第一假定知识点与所述知识图谱是否相符的第二标注数据;
49.训练单元,配置为,利用所述多个假定知识点对应的多条标注数据训练目标模型;训练好的目标模型用于挖掘风险对象。
50.第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面或第二方面的方法。
51.第五方面,提供了一种计算设备,包括存储器和处理器,其中,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面或第二方面的方法。
52.本说明书实施例提出的一种基于知识图谱挖掘风险对象的方法及装置,方法本身
对规则的形式无任何约束,同时支持多种规则挖掘算法,可以提供形式更丰富的规则,并且能够实现交叉验证的效果,有效提升挖掘风险对象的准确性。
附图说明
53.为了更清楚地说明本说明书披露的多个实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书披露的多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
54.图1a示出根据一个实施例的基于知识图谱挖掘风险对象的实施场景示意图;
55.图1b示出根据一个实施例的基于知识图谱挖掘风险对象的方法的框架图;
56.图2示出根据一个实施例的基于知识图谱挖掘风险对象的方法的流程图;
57.图3示出根据一个实施例的训练概率图模型的方法的流程图;
58.图4示出根据一个实施例的基于知识图谱挖掘风险对象的装置的示意性框图。
具体实施方式
59.下面结合附图,对本说明书提供的方案进行描述。
60.图1a示出根据一个实施例的基于知识图谱挖掘风险对象的实施场景示意图。在交易风险分析场景中,所基于的知识图谱可以包含与用户和交易相关的知识点,这些知识点可以体现为知识图谱中的节点、节点属性和节点间关系。并且,在该知识图谱中,已有部分用户和/或部分交易被标定为风险对象。在图1a的示例中,以黑色圆圈的节点表示已知的风险用户。为了基于这样的知识图谱,挖掘更多的风险对象,如图1a所示,首先对该知识图谱进行规则挖掘,得到一些风险规则。
61.知识图谱中的规则,是一种抽象的逻辑表达式,例如:tranferto(a,b)&pay(a,x)=》receive(b,x),其中a、b、x是规则包含的变量。这条规则的含义为:当a向b发起了一笔转账,并且a支付了x元时,推理出b收到了x元。规则挖掘,是从知识图谱数据中通过各种算法策略,抽取出可以泛化的规则的过程。针对以上包含风险对象的知识图谱,若以得到风险对象为目标对知识图谱进行规则挖掘,可以得到若干风险规则,即与风险对象相关的规则。例如,tranfer-typea(a,b)&label(a,“y”)=》label(b,“y”)可以认为是一条风险规则,其表示,如果a向b发起了typea的转账,并且a的风险标签为y(表示是否为欺诈用户),则推理出b的风险标签也是y。
62.接着,利用得到的风险规则在原知识图谱上进行规则推理,得到假定涉及风险对象的多个假定知识点。
63.规则推理是使用一个或多个规则,从现有的知识中推理得到新的知识的过程。当使用挖掘出的风险规则在知识图谱中进行推理,可以得到一些假定知识点,其中包括一些假定的风险对象。例如:使用规则tranfer-typea(a,b)&label(a,“y”)=》label(b,“y”),并结合已有知识tranfer-typea(anna,bob)和label(anna,“1”),可以推理出新的知识label(bob,“1”)。亦即,当anna向bob发起了typea的转账,并且anna的风险标签是1(表示是欺诈用户),使用上述风险规则tranfer-typea(a,b)&label(a,“y”)=》label(b,“y”),推理出bob也是欺诈用户(风险对象)。
64.然后,基于得到的假定知识点,和挖掘出的风险规则,形成基于风险规则的模型,用于风险对象的确定。
65.在相关技术中,规则挖掘方法主要有pra(path ranking algorithm,路径排序算法)、tensorlog和neural lp。其中,pra对于每种关系,基于封闭世界假设,搜索实体间路径,归纳出路径规则,并通过线性回归学习规则权重。其中,封闭世界假设是指,假设包含在知识图谱中的事实全部为真,未包含在知识图谱中的事实则全部为假。这种假设会由于图谱数据的缺失,导致真实的事件被误判为假。因此该方法存在以下问题:1、只能学习简单的路径形式的规则,无法支持更复杂的规则;而风险规则很可能具有较为复杂的规则形式。2、基于封闭世界假设训练线性回归分类器,模型效果十分依赖样本采样,得到的规则权重数值变化大、不稳定。
66.tensorlog和neural lp两种方法均使用神经网络拟合路径规则,从训练后的网络参数中抽取出路径规则和权重,存在的问题如下:1、两种方法均只支持路径规则。2、两种方法均使用神经网络模型,整体复杂度高,效率低,难以处理大规模数据,包括描述交易支付关系的知识图谱。
67.因此,现有的各种规则挖掘方法只提供单个算法,存在规则数量少、形式单一以及准确率低的问题,在对大规模支付/交易关系知识图谱中的风险交易和风险用户进行挖掘时,难以准确而全面地得到结果。基于此,在本说明书一个或多个实施例中,在规则挖掘阶段采用多个规则挖掘算法,并且在建模阶段,对不同风险规则得到的假定风险对象进行交叉验证,基于交叉验证的结果,构建基于规则的模型,从而有效提升挖掘交易风险对象的准确性。
68.图1b示出根据一个实施例的基于知识图谱挖掘风险对象的方法的框架图。首先加载预先形成的知识图谱数据,所述知识图谱中的部分用户和/或部分交易被标定为风险对象,然后使用m个知识图谱规则挖掘算法分别对知识图谱进行规则挖掘,得到m个规则集合,将这m个规则集合合并之后得到包含n条风险规则的集合,这些规则用于推导出涉及风险对象的知识点。利用这些规则在原知识图谱上进行知识推理,得到假定涉及风险对象的多个假定知识点。根据假定知识点与各条风险规则的交叉验证结果确定相应的标注数据之后,利用这些标注数据训练目标模型,训练好的目标模型用于挖掘风险对象。目标模型可以是概率图模型,也可以是分类模型,例如逻辑回归模型、神经网络、梯度提升决策树gbdt等。
69.以下结合具体的实施例,描述上述规则挖掘方法的具体实施步骤。图2示出根据一个实施例的基于知识图谱挖掘风险对象的方法的流程图,所述方法的执行主体可以为任何具有计算、处理能力的平台或服务器或设备集群等。
70.在步骤201,获取预先形成的知识图谱k,其中包含与用户和交易相关的若干知识点;所述知识图谱中部分用户和/或部分交易被标定为风险对象。
71.在日常的电子支付和交易中,除了正常的用户和交易之外,还存在着风险用户和风险交易。风险用户可以是支付账号被非本人冒用的用户,例如,账户被盗用的用户,或者有意实施非法交易(例如,恶意套现,诈骗,非法资金转移等)的欺诈用户;风险交易可以是风险用户做出的交易或者交易属性被认定有非法嫌疑的交易,例如,一个用户的账户被盗用后给其他用户转账,或者在淘宝网账户被盗用后购买商品时产生的交易,也可以是正常用户向可疑用户转账时所产生的交易。
72.通过收集用户的相关属性信息,例如登录设备、经常居住地、最近交易等信息,形成和用户相关的知识点,以及收集交易相关的属性信息,例如交易账户、交易金额、支付方式、交易时间、交易发生地等信息,形成和交易相关的知识点。将包含了用户和交易相关信息的知识点预先形成知识图谱,并且将知识图谱中已知具有风险的部分用户和/或部分交易标定为风险对象。
73.在一个实施例中,上述知识点可以为三元组形式,具体地,为三元组(s,p,o)形式,其中,s代表subject,即主语,p代表predicate,即谓语,o代表object,即宾语。三元组(s,p,o)代表实体s和实体o之间具有关系p。例如,三元组(anna,transferto,bob)代表anna向bob发起了一笔转账。
74.在另一个实施例中,上述知识点可以为“关系(实体1,实体2)”形式,代表实体1和实体1之间具有关系。例如,transferto(anna,bob)代表anna向bob发起了一笔转账。
75.在又一实施例中,上述知识点也可以表示为知识图谱中节点或关系的属性。例如,label(anna,“1”)。
76.在步骤202,使用若干种知识图谱规则挖掘算法,以得到所述风险对象为目标对所述知识图谱k分别进行规则挖掘,得到n条风险规则,其中任意一条风险规则用于推导出涉及风险对象的知识点。
77.在一个实施例中,使用m种知识图谱规则挖掘算法algo1,algo2,

,algom对知识图谱k分别进行规则挖掘,得到m个规则集合rule1,rule2,

,rulem,将m个规则集合进行合并,得到n条风险规则,其中任意一条风险规则用于推导出涉及风险对象的知识点。可选地,在对将m个规则集合进行合并后,可以去除其中重复的规则,然后得到得到n条风险规则。
78.在一个更具体的实施例中,所使用的知识图谱规则挖掘算法可以包括:pra(path ranking algorithm,路径排序算法)、amie(association rule mining under incomplete evidence,不完备知识库的关联规则挖掘)、sfe(subgraph feature extractor,子图特征提取方法)以及其它任何可能的知识图谱规则挖掘算法,这里不做限定。
79.在步骤203,分别利用所述n条风险规则,在所述知识图谱k上进行推理,得到假定涉及风险对象的多个假定知识点。
80.在一个实施例中,将所述n条风险规则和知识图谱k输入到知识推理系统中,使用知识推理系统根据各个规则在知识图谱k上进行知识推理,得到假定涉及风险对象的多个假定知识点。知识推理系统使用一组规则,从现有的知识中推理得到新的知识。
81.例如,使用规则tranferto(a,b)&pay(a,100)=》receive(b,100),并结合知识tranferto(anna,bob)和pay(anna,100),可以推理出新的知识receive(bob,100)。亦即,当anna向bob发起了一笔转账,并且anna支付了100,使用规则tranferto(a,b)&pay(a,100)=》receive(b,100),推理出bob收到了100。
82.在步骤204,对于任意的第一假定知识点,确定其对应的标注数据,其中包括,指示所述n条风险规则能否推理出所述第一假定知识点的第一标注数据λ,以及指示该第一假定知识点与所述知识图谱是否相符的第二标注数据y。
83.在一个具体示例中,第一标注数据和第二标注数据可以采用如下的记录形式。如果所述n条风险规则中的第j条规则能够推理出所述多个假定知识点中的第i个知识点,则将所述第一标注数据λ中的第i行第j列的数据标记为1,否则标记为0;如果所述多个假定
知识点中的第i个知识点在所述知识图谱k中为真,即第i个知识点出现在了知识图谱k中,则将所述第二标注数据y的第i行的数据标记为1,如果为假或未出现在知识图谱k中,则标记为0。
84.例如,在一个具体的例子中,所述n条风险规则包含规则{r1,r2},所述多个假定知识点中有3个知识点{k1,k2,k3}。规则r1能够推理出知识点k1和知识点k3,无法推理出知识点k2,规则r2能够推理出知识点k1和知识点k2,无法推理出知识点k3;知识点k2和知识点k3在所述知识图谱k中出现,知识点k1没有在所述知识图谱k中出现。在这个具体的例子中,第一标注数据λ如表1所示,第二标注数据y如表2所示。
85.表1:一个具体的例子中的第一标注数据λ
[0086] r1r2k111k201k310
[0087]
表2:一个具体的例子中的第二标注数据y
[0088] yk10k21k31
[0089]
需要说明的是,表1中的第一行和第一列以及表2中的第一行和第一列,都仅仅只是为了便于说明和展示而示意添加的。在实际的应用中,本例子中的第一标注数据λ可以为一个3行2列的矩阵,第二标注数据y可以为一个3行1列的矩阵(列向量)。
[0090]
此外,还需理解的是,以上仅仅示意了第一标注数据和第二标注数据的一种具体的记录形式,但是,标注数据也可以采用其他的记录形式,例如,采用其他符号/标记/数值记录假定知识点与其他信息的匹配情况,以及将标注数据记录为数值串等其他形式,在此不做限定。
[0091]
在一个实施例中,对于所述多个假定知识点中的任意的第三假定知识点,如果其被少于预设的第二阈值条风险规则所推理出,则将其从假定知识点的集合中移除。具体地,对于第三假定知识点ks,如果其在第一标注数据λ中所在行中的1的数量小于第二阈值,则将其从假定知识点的集合中移除,如此可以过滤掉那些可信度较低的假定知识点,减少后后续对风险对象挖掘过程中出现误判的情况。
[0092]
在步骤205,利用所述多个假定知识点对应的多条标注数据训练目标模型;训练好的目标模型用于挖掘风险对象。
[0093]
目标模型至少可以包括概率图模型和分类模型两大类。
[0094]
当目标模型为概率图模型时,对概率图模型的训练方法如图3所示。
[0095]
在步骤301,基于任意的第一假定知识点所对应的第一标注数据λ和第二标注数据y,确定第一假定知识点对应于多个预设因子的因子值,所述多个预设因子用于反映假定知识点与各风险规则的关联。
[0096]
在一个实施例中,所述多个预设因子包括:指示所述风险规则能否推理出所述第一假定知识点的第一类因子;指示所述第一标注数据与所述第二标注数据是否一致的第二
类因子;指示任意两条所述风险规则对于所述第一假定知识点的推理结果是否一致的第三类因子。
[0097]
具体地,第一类因子为标签倾向性因子其取值根据所述标注矩阵中任意一条规则j能否推理得到任意一个知识点i所确定,即
[0098]
第二类因子为准确度因子其取值根据所述标注矩阵中任意一条规则j推理得到任意一个知识点i的真假与所述第二标注数据y中的第i行的标签yi是否一致所确定,即
[0099]
第三类因子为相关系数因子其取值根据任意两条不同的规则j和k对于同一个知识点i的推理结果是否相同所确定,即
[0100]
需要说明的是,上述因子算式中的运算符1{}表示当大括号里的判定算式为真时则取值为1,大括号里的判定算式为假时则取值为0。
[0101]
当有n条风险规则时,对于所述多个假定知识点中的第i个知识点,其对应的第一类因子可以有n个取值,对应的第二类因子可以有n个取值,对应的第三类因子可以有c个取值,其中,c的最大取值为n*n/2,即规则两两组合的数量。
[0102]
在其他实施例中,还可以参考以上方式,定义其他的或更多的因子,只要其能够反映假定知识点与各风险规则的关联。例如,还可以定义第四类因子,表示能够推理出该条假定知识点的风险规则的数目,等等。
[0103]
在步骤302,基于权重参数ω,和所述多个假定知识点各自的因子值,确定所述多条标注数据的联合概率分布。
[0104]
在一个实施例中,对于任意的第一假定知识点,将其对应的因子值构成的第一向量与权重参数构成的权重向量进行内积计算,对所有所述假定知识点对应的内积结果进行归一化求和,得到所述联合概率分布。
[0105]
在一个更具体的实施例中,对于所述多个假定知识点中的第i个假定知识点,将其对应的因子值构成的第一向量φi(λ,yi),第一向量φi(λ,yi)的维度为2n c,yi为第二标注数据y中的第i行的标签。此时,所述联合概率分布p
ω
(λ,y)如公式(1)所示:
[0106][0107]
其中,为配分函数,用于归一化计算结果,exp(x)代表e
x
,m为假定知识点的总数,可以理解,ω和φi(λ,yi)的维度相同。
[0108]
例如,在此继续沿用前述步骤204下面的例子,对于知识k1,其关于规则r1和r2的第一类因子的取值分别为1和1,其关于规则r1和r2的第二类因子的取值分别为0和0,其关于规则r1和r2的第三类因子的取值分别为1、1、1,将三类因子的所有取值组合成为第一向量φ1(λ,y1)=(1,1,0,0,1,1,1)。
[0109]
对于知识k2,其关于规则r1和r2的第一类因子的取值分别为0和1,其关
于规则r1和r2的第二类因子的取值分别为0和1,其关于规则r1和r2的第三类因子的取值分别为1、0、1,将三类因子的所有取值组合成为第一向量φ2(λ,y2)=(0,1,0,1,1,0,1)。
[0110]
对于知识k3,其关于规则r1和r2的第一类因子的取值分别为1和0,其关于规则r1和r2的第二类因子的取值分别为1和0,其关于规则r1和r2的第三类因子的取值分别为1、0、1,将三类因子的所有取值组合成为第一向量φ3(λ,y3)=(1,0,1,0,1,0,1)。
[0111]
此时,所述联合概率分布p
ω
(λ,y)如公式(2)所示:
[0112][0113]
在步骤303,以所述联合概率分布最大化为目标,调整所述权重参数ω,得到所述概率图模型的优化参数。
[0114]
在一个实施例中,通过最大化所述联合概率分布对应的对数边际似然函数,得到优化后的权重参数的取值如此,训练得到了概率图模型。
[0115]
在另外的一些实施例中,还可以定义其它类型的预设因子,然后构建对应的联合概率分布模型,使用第一标注数据λ和第二标注数据y对模型进行训练。
[0116]
在一些实施方式中,在步骤303在得到所述概率图模型的优化参数之后,所述方法还包括使用训练好的概率图模型挖掘风险对象的步骤:
[0117]
对于待分析的目标用户或目标交易形成的目标知识点,确定其对应的第一标注数据,并根据所述第一标注数据和分别对应于真和假的两个标签值,确定其对应于所述多个预设因子的第一组因子值和第二组因子值;基于所述优化参数,分别确定所述第一组因子值对应的第一概率和第二组因子值对应的第二概率;根据所述第一概率和第二概率中较大者对应的标签值,确定所述目标用户或目标交易是否为风险对象。
[0118]
具体地,对于待分析的目标用户或目标交易形成的目标知识点,首先使用n条风险规则对其进行推理标注,得到对应的第一标注数据λ。然后分别令y取值1和0,得到第一组因子值φ(λ,1)和第二组因子值φ(λ,0),然后基于优化后的分别计算第一概率p
ω
(λ,1)和第二概率p
ω
(λ,0),根据所述第一概率和第二概率中较大者对应的标签值,确定所述目标用户或目标交易是否为风险对象。
[0119]
当步骤205中所述的目标模型为分类模型时,对分类模型的训练方法包括:
[0120]
以所述多条标注数据中的第一标注数据λ作为样本特征数据,以第二标注数据y作为样本标签数据,训练得到分类模型,所述分类模型至少包括:逻辑回归模型、神经网络、梯度提升决策树gbdt。
[0121]
可选地,在一个实施例中,对于所述多个假定知识点中任意的第二假定知识点,使用初步训练的分类模型对其进行分类,并计算对应的置信度;将所述置信度小于预设的第一阈值的任意第二假定知识点发送给人工审核平台进行人工复核,根据复核结果确定修正的第二标注数据;以所述多条标注数据中的第一标注数据作为样本特征数据,以修正的第
二标注数据作为样本标签数据,重新训练所述分类模型。
[0122]
在训练得到分类模型之后,所述方法还包括使用训练好的分类模型挖掘风险对象的步骤:
[0123]
对于待分析的目标用户或目标交易形成的目标知识点,确定其对应的第一标注数据,根据所述分类模型对于所述第一标注数据的分类结果,确定所述目标用户或目标交易是否为风险对象。
[0124]
综合以上,本说明书实施例提出的基于知识图谱挖掘风险对象的方法,对风险规则的形式无任何约束,同时支持多种规则挖掘算法,可以提供形式更丰富的风险规则。并且,在计算规则置信度时,将假定知识点是否出现在原始图谱中作为标注数据之一,与其他标注数据进行交叉验证,而不依赖于封闭世界假设。如此构建的基于风险规则的模型,可以更加有效而准确地进行风险对象的挖掘。
[0125]
基于以上构思,还可以从风险分析的场景出发,扩展得到其他场景中基于知识图谱的数据挖掘方法。具体的,该方法可以包括如下步骤。获取预先形成的知识图谱,其中包含与业务对象相关的若干知识点;并且知识图谱中部分业务对象被设定为目标对象。其中,业务对象可以是用户、交易、商品或其他对象,目标对象可以是感兴趣的、待分析的业务对象。然后,使用若干种知识图谱规则挖掘算法,对上述知识图谱分别进行规则挖掘,得到n条目标规则,其中任意一条目标规则用于推导出涉及目标对象的知识点。接着分别利用所述n条目标规则,在知识图谱上进行推理,得到假定涉及目标对象的多个假定知识点。对于任意的第一假定知识点,确定其对应的标注数据,其中包括,指示所述n条目标规则能否推理出所述第一假定知识点的第一标注数据,以及指示该第一假定知识点与所述知识图谱是否相符的第二标注数据。在确定得到多个假定知识点对应的多条标注数据后,就可以利用该多条标注数据训练目标模型;训练好的目标模型用于挖掘目标对象。
[0126]
根据另一方面的实施例,还提供一种基于知识图谱挖掘风险对象的装置。图4示出根据一个实施例的装置的示意性框图,该装置可以部署在任何具有计算、处理能力的设备、平台或设备集群中。如图4所示,该装置400包括:
[0127]
获取单元401,配置为,获取预先形成的知识图谱,其中包含与用户和交易相关的若干知识点;所述知识图谱中部分用户和/或部分交易被标定为风险对象;
[0128]
挖掘单元402,配置为,使用若干种知识图谱规则挖掘算法,以得到所述风险对象为目标对所述知识图谱分别进行规则挖掘,得到n条风险规则,其中任意一条风险规则用于推导出涉及风险对象的知识点;
[0129]
推理单元403,配置为,分别利用所述n条风险规则,在所述知识图谱上进行推理,得到假定涉及风险对象的多个假定知识点;
[0130]
确定单元404,配置为,对于任意的第一假定知识点,确定其对应的标注数据,其中包括,指示所述n条风险规则能否推理出所述第一假定知识点的第一标注数据,以及指示该第一假定知识点与所述知识图谱是否相符的第二标注数据;
[0131]
训练单元405,配置为,利用所述多个假定知识点对应的多条标注数据训练目标模型;训练好的目标模型用于挖掘风险对象。
[0132]
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述任一实施例所描述的方法。
[0133]
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,其中,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述任一实施例所描述的方法。
[0134]
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0135]
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0136]
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表