一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

风险识别模型生成方法、装置、设备及存储介质与流程

2022-06-08 08:45:59 来源:中国专利 TAG:


1.本技术涉及计算机技术领域,尤其涉及一种风险识别模型生成方法、装置、设备及存储介质。


背景技术:

2.随着互联网技术以及移动通信技术的快速发展,越来越多的用户选择网约车出行,使得网约车行业的竞争日益激烈。为了获取更多的新增用户,乘客邀请乘客作为一种获取新用户的活动方式,其丰厚的邀请奖励导致了一些通过大量的虚假邀请骗取平台奖励的现象发生。因此,网约车场景下,打击虚假邀请关系显得尤为重要。
3.目前,虚假邀请关系的识别通常是由人工审判或者根据历史经验制定单一规则进行识别,以判断邀请关系是否真实存在。例如,若邀请人与被邀请人使用同一个手机号、同一个设备号、同一个支付帐号,则通常被判定为虚假邀请;又或者同一邀请人在某一时间周期内连续邀请了大量用户,且这些用户的注册时间、登录时间、登录地点、登录ip等具有很强的聚集性,则该邀请人的邀请关系很大概率为虚假邀请。
4.然而,通过人工审核虚假邀请关系效率较低且成本较高,采用历史经验制定单一规则形成的识别手段可用场景单一且泛化能力较差,仅能识别较少的虚假邀请,并且,通过制定单一规则或者人工审核的方式进行判别很难有效覆盖复杂场景下的虚假邀请。


技术实现要素:

5.本技术提供一种风险识别模型生成方法、装置、设备及存储介质,用于构建一种风险识别模型以克服现有技术中通过制定单一规则或人工审核方式识别虚假邀请关系存在的问题。
6.第一方面,本技术提供一种风险识别模型生成方法,包括:
7.采集样本集,所述样本集包括若干样本账号在历史时长内的历史订单,所述样本账号为被邀请用户的注册账号;
8.根据所述样本集确定样本特征集,所述样本特征集包括所述每个样本账号对应的个体样本特征数据以及群体样本特征数据;
9.根据所述样本特征集生成风险识别模型,所述风险识别模型用于对目标订单的下单账号是否存在虚假邀请关系进行识别。
10.在一种可能的设计中,所述根据所述样本集确定样本特征集,包括:
11.根据所述每个样本账号的历史订单确定所述每个样本账号所对应的所述个体样本特征数据和所述群体样本特征数据。
12.在一种可能的设计中,所述每个样本账号的所述个体样本特征数据至少包括:首次登陆城市与用车城市是否不一致、打车位置与订单起始位置之间的距离、乘客付款时间与司机结算时间之间的间隔、订单折扣金额以及订单总金额;
13.所述每个样本账号的所述群体样本特征数据至少包括:所述样本账号的邀请账号
所邀请的总账号数、所述样本账号的邀请账号所邀请的成单总账号数、所述样本账号的邀请账号所邀请的完成支付总账号数以及所述样本账号对应的被邀请均值数据;
14.其中,所述被邀请均值数据包括各被邀请账号的成单时间与被邀请时间之间的时间间隔均值、所述各被邀请账号的实付金额均值、所述各被邀请账号的乘车里程数均值以及所述各被邀请账号对应的支付账号数量,所述各被邀请账号是指被所述样本账号的邀请账号所邀请的各注册账号。
15.在一种可能的设计中,所述根据所述样本特征集生成风险识别模型,包括:
16.将各样本账号对应的所述样本特征集按照预设比例划分为训练特征集和验证特征集;
17.利用所述训练特征集所包括的个体样本特征数据和群体样本特征数据对预设学习模型进行训练;
18.利用所述验证特征集所包括的个体样本特征数据和群体样本特征数据,对训练后的预设学习模型的输出结果进行评估;
19.重复上述步骤,直到评估结果满足预设阈值时结束训练,将结束训练后的预设学习模型确定为所述风险识别模型。
20.在一种可能的设计中,所述评估结果包括目标精确率和/或目标召回率;
21.其中,所述目标精确率和所述目标召回率分别为获得目标输出结果的精确率和召回率,所述目标输出结果为所述训练后的预设学习模型对风险标记的样本账号输出的输出结果。
22.在一种可能的设计中,在所述根据所述样本集确定样本特征集之前,还包括:
23.按照预设风险指标对所述若干样本账号进行标记操作,其中,存在所述虚假邀请关系的样本账号获得所述风险标记,不存在所述虚假邀请关系的样本账号获得非风险标记。
24.在一种可能的设计中,所述风险识别模型对所述目标订单的下单账号是否存在所述虚假邀请关系进行识别,包括:
25.获取下单账号的目标订单;
26.根据所述目标订单确定所述下单账号的目标特征数据,所述目标特征数据包括个体目标特征数据和群体目标特征数据;
27.根据所述目标特征数据以及所述风险识别模型确定所述目标订单是否为虚假订单,若是,则确定所述下单账号存在所述虚假邀请关系。
28.在一种可能的设计中,所述预设学习模型为逻辑回归模型、极限梯度提升模型以及梯度提升决策树中的任一种。
29.第二方面,本技术提供一种风险识别模型生成装置,包括:
30.采集模块,用于采集样本集,所述样本集包括若干样本账号在历史时长内的历史订单,所述样本账号为被邀请用户的注册账号;
31.特征提取模块,用于根据所述样本集确定样本特征集,所述样本特征集包括所述每个样本账号对应的个体样本特征数据以及群体样本特征数据;
32.生成模块,用于根据所述样本特征集生成风险识别模型,所述风险识别模型用于对目标订单的下单账号是否存在虚假邀请关系进行识别。
33.在一种可能的设计中,所述特征提取模块,具体用于:
34.根据所述每个样本账号的历史订单确定所述每个样本账号所对应的所述个体样本特征数据和所述群体样本特征数据。
35.在一种可能的设计中,所述每个样本账号的所述个体样本特征数据至少包括:首次登陆城市与用车城市是否不一致、打车位置与订单起始位置之间的距离、乘客付款时间与司机结算时间之间的间隔、订单折扣金额以及订单总金额;
36.所述每个样本账号的所述群体样本特征数据至少包括:所述样本账号的邀请账号所邀请的总账号数、所述样本账号的邀请账号所邀请的成单总账号数、所述样本账号的邀请账号所邀请的完成支付总账号数以及所述样本账号对应的被邀请均值数据;
37.其中,所述被邀请均值数据包括各被邀请账号的成单时间与被邀请时间之间的时间间隔均值、所述各被邀请账号的实付金额均值、所述各被邀请账号的乘车里程数均值以及所述各被邀请账号对应的支付账号数量,所述各被邀请账号是指被所述样本账号的邀请账号所邀请的各注册账号。
38.在一种可能的设计中,所述生成模块,具体用于:
39.将各样本账号对应的所述样本特征集按照预设比例划分为训练特征集和验证特征集;
40.利用所述训练特征集所包括的个体样本特征数据和群体样本特征数据对预设学习模型进行训练;
41.利用所述验证特征集所包括的个体样本特征数据和群体样本特征数据,对训练后的预设学习模型的输出结果进行评估;
42.重复上述步骤,直到评估结果满足预设阈值时结束训练,将结束训练后的预设学习模型确定为所述风险识别模型。
43.在一种可能的设计中,所述评估结果包括目标精确率和/或目标召回率;
44.其中,所述目标精确率和所述目标召回率分别为获得目标输出结果的精确率和召回率,所述目标输出结果为所述训练后的预设学习模型对风险标记的样本账号输出的输出结果。
45.在一种可能的设计中,所述风险识别模型生成装置,还包括:标记模块;所述标记模块,用于:
46.按照预设风险指标对所述若干样本账号进行标记操作,其中,存在所述虚假邀请关系的样本账号获得所述风险标记,不存在所述虚假邀请关系的样本账号获得非风险标记。
47.在一种可能的设计中,所述风险识别模型生成装置,还包括:识别模块;所述识别模块,用于:
48.获取下单账号的目标订单;
49.根据所述目标订单确定所述下单账号的目标特征数据,所述目标特征数据包括个体目标特征数据和群体目标特征数据;
50.根据所述目标特征数据以及所述风险识别模型确定所述目标订单是否为虚假订单,若是,则确定所述下单账号存在所述虚假邀请关系。
51.在一种可能的设计中,所述预设学习模型为逻辑回归模型、极限梯度提升模型以
及梯度提升决策树中的任一种。
52.第三方面,本技术提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;
53.所述存储器存储计算机执行指令;
54.所述处理器执行所述存储器存储的计算机执行指令,以实现如第一方面所提供的任意一种可能的风险识别模型生成方法。
55.第四方面,本技术提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面所提供的任意一种可能的风险识别模型生成方法。
56.第五方面,本技术提供一种计算机程序产品,包括计算机执行指令,该计算机执行指令被处理器执行时用于实现第一方面所提供的任意一种可能的风险识别模型生成方法。
57.本技术提供一种风险识别模型生成方法、装置、设备及存储介质。首先采集样本集,样本集包括若干样本账号在历史时长内的历史订单,样本账号通过邀请途径成为注册账号,然后根据样本集确定样本特征集,样本特征集包括每个样本账号对应的个体样本特征数据以及群体样本特征数据,再根据样本特征集生成风险识别模型,利用风险识别模型对目标订单的下单账号是否存在虚假邀请关系进行识别。从而构建了一种风险识别模型,以利用所构建的风险识别模型对是否存在虚假邀请关系的账户进行识别,不但提升虚假邀请关系的识别效率,降低人工成本,还可以提高复杂场景下虚假邀请关系的识别覆盖率。
附图说明
58.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
59.图1为本技术实施例提供的一种应用场景示意图;
60.图2为本技术实施例提供的一种风险识别模型生成方法的流程示意图;
61.图3为本技术实施例提供的另一种风险识别模型生成方法的流程示意图;
62.图4为本技术实施例提供的再一种风险识别模型生成方法的流程示意图;
63.图5为本技术实施例提供的一种风险识别模型生成装置的结构示意图;
64.图6为本技术实施例提供的另一种风险识别模型生成装置的结构示意图;
65.图7为本技术实施例提供的再一种风险识别模型生成装置的结构示意图;
66.图8为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
67.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的方法和装置的例子。
68.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第
四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
69.目前,虚假邀请关系的识别通常是由人工审判或者根据历史经验制定单一规则进行识别,以判断邀请关系是否真实存在。例如,若邀请人与被邀请人使用同一个手机号、同一个设备号、同一个支付帐号,则通常被判定为虚假邀请;又或者同一邀请人在某一时间周期内连续邀请了大量用户,且这些用户的注册时间、登录时间、登录地点、登录ip等具有很强的聚集性,则该邀请人的邀请关系很大概率为虚假邀请。然而,通过人工审核虚假邀请关系效率较低且成本较高,采用历史经验制定单一规则形成的识别手段可用场景单一且泛化能力较差,仅能识别较少的虚假邀请,并且,通过制定单一规则或者人工审核的方式进行判别很难有效覆盖复杂场景下的虚假邀请。
70.针对现有技术存在的上述问题,本技术提供一种风险识别模型生成方法、装置、设备及存储介质。本技术提供的风险识别模型生成方法的发明构思在于:基于若干样本账号在历史时长内的历史订单刻画每个样本账户对应的个体样本特征数据和群体样本特征数据,形成样本特征集,进而利用样本特征集对预设学习模型例如机器学习算法进行训练,构建风险识别模型,从而利用风险识别模型对目标订单的下单账号是否存在虚假邀请关系进行识别,不但可以提升虚假邀请关系的识别效率、降低人工审核成本,还可以提高复杂场景下虚假邀请的识别覆盖率,加强网约车平台的风控能力。
71.以下,对本技术实施例的示例性应用场景进行介绍。
72.图1为本技术实施例提供的一种应用场景示意图,如图1所示,网约车平台10为了获取更多新增用户,乘客邀请乘客注册为网约车平台10的新用户,网约车平台10为此提供丰厚邀请奖励。鉴于此,网约车平台10中的用户账号则会出现虚假邀请关系,因而需识别该虚假邀请关系,以强化网约车10平台的风控能力。
73.电子设备20可以被配置为执行本技术实施例提供的风险识别模型生成方法,基于网约车平台10中的历史订单构建风险识别模型,以对网约车平台10中的下单账户也即用户账户是否存在虚假邀请关系进行有效识别。
74.需要说明的是,网约车平台10由网约车开发商提供,本技术实施例对于网约车平台10的具体内容不作限定。电子设备20可以为智能手机、计算机、服务器或者服务器集群,本技术实施例对其类型亦不作限定。图1中的电子设备20以计算机为例示出。
75.需要说明的是,上述应用场景仅仅是示意性的,例如网约车平台10还可以为采用邀请奖励成为新用户的其他任意注册平台,本技术实施例提供的风险识别模型生成方法、装置、设备及存储介质包括但不仅限于上述应用场景。
76.图2为本技术实施例提供的一种风险识别模型生成方法的流程示意图。
77.如图2所示,本技术实施例提供的风险识别模型生成方法,包括:
78.s101:采集样本集。
79.其中,样本集包括若干样本账号在历史时长内的历史订单,样本账号为被邀请用
户的注册账号。
80.样本账号为通过用户邀请用户的方式,作为被邀请的对象成为的注册账号,换言之,样本账号为被邀请用户的注册账号。收集若干样本账号在历史时长内的历史订单,形成样本集。
81.可选地,历史订单中的数据包括但不限于用户历史登录时间、登录位置、叫单时间、叫单时用户所处位置、订单预估里程、订单预估金额、订单支付时间、订单实际里程、订单实际支付金额、订单支付账号等等。可以理解的是,用户是指使用网约车平台的下单乘客。
82.s102:根据样本集确定样本特征集。
83.其中,样本特征集包括每个样本账号对应的个体样本特征数据以及群体样本特征数据。
84.基于样本集进行特征提取以确定样本特征集,样本特征集包括每个样本账号对应的个体样本特征数据和群体样本特征数据。其中,个体样本特征数据可以理解为描述该样本账号的下单情况的特征,而群体样本特征数据可以理解为描述该样本账号的邀请用户所属的该邀请群体中各注册账号的下单情况的特征。
85.可选地,对每个样本账号的历史订单中的数据进行特征提取,以得到每个样本账号所对应的个体样本特征数据和群体样本特征数据。
86.例如,每个样本账号的个体样本特征数据包括但不仅限于首次登陆城市与用车城市是否不一致、打车位置与订单起始位置之间的距离、乘客付款时间与司机结算时间之间的间隔、订单折扣金额以及订单总金额等。
87.每个样本账号的群体样本特征数据包括但不仅限于:该样本账号的邀请账号所邀请的总账号数、该样本账号的邀请账号所邀请的成单总账号数、该样本账号的邀请账号所邀请的完成支付总账号数以及该样本账号对应的被邀请均值数据。可选地,被邀请均值数据可以包括但不仅限于各被邀请账号的成单时间与被邀请时间之间的时间间隔均值、各被邀请账号的实付金额均值、各被邀请账号的乘车里程数均值以及各被邀请账号对应的支付账号数量。其中,各被邀请账号是指邀请该样本账号成为注册账号的邀请账号所邀请的各注册账号,这些注册账号和该样本账号属于该邀请账号的邀请群体。
88.其中,存在虚假邀请关系的样本账号的个体样本特征数据和群体样本特征数据中则会具有相应虚假特征,例如首次登陆城市与用车城市不一致、打车位置与订单起始位置之间的距离较远、样本账号的邀请账号所邀请的总账号数巨多比如超过预设数量、各被邀请账号的实付金额均值极少等等,具有虚假特征的历史订单则为虚假订单。
89.可以理解的是,被邀请账号为被邀请用户的注册账号,邀请账号为邀请用户的注册账号。
90.上述根据样本集确定样本特征集的特征提取过程可以理解为对每个样本账号的历史订单中的数据进行整理统计的过程,本技术实施例对于具体的整理统计所采用的方式不作限定。
91.s103:根据样本特征集生成风险识别模型。
92.其中,风险识别模型用于对目标订单的下单账号是否存在虚假邀请关系进行识别。
93.例如利用样本特征集训练机器学习算法,将训练到符合预设要求的机器学习模型确定为风险识别模型,完成风险识别模型的构建,进而利用风险识别模型对目标订单的下单账号是否存在虚假邀请关系进行识别。
94.假设将机器学习算法定义为预设学习模型,该预设学习模型可以例如逻辑回归模型、极限梯度提升模型(xgboost)、梯度提升决策树(gbdt)、决策树等各种模型中的任一种模型,本技术实施例对此不作限定。
95.本技术实施例提供的风险识别模型生成方法,基于若干样本账号在历史时长内的历史订单刻画每个样本账户对应的个体样本特征数据和群体样本特征数据,从而形成样本特征集。然后利用样本特征集对预设学习模型例如机器学习算法进行训练,构建风险识别模型,从而利用风险识别模型对目标订单的下单账号是否存在虚假邀请关系进行识别。利用风险识别模型直接识别虚假邀请关系,与现有技术中的人工审核相比可以明显提升识别效率、降低人工成本。而风险识别模型是基于被邀请用户的注册账户所产生的历史订单进行机器学习训练得到,与现有技术中采用历史经验制定单一规则形成识别手段相比,拓宽了识别手段的可用场景,从而可以提高复杂场景下虚假邀请的识别覆盖率,进而加强网约车平台的风控能力。
96.图3为本技术实施例提供的另一种风险识别模型生成方法的流程示意图。如图3所示,本技术实施例提供的风险识别模型生成方法,包括:
97.s201:采集样本集。
98.其中,样本集包括若干样本账号在历史时长内的历史订单,样本账号为被邀请用户的注册账号。
99.步骤s201的实现方式、原理及技术效果与步骤s101的实现方式、原理及技术效果相类似,详细内容可参考前述实施例描述,在此不再赘述。
100.s202:按照预设风险指标对若干样本账号进行标记操作。
101.其中,存在虚假邀请关系的样本账号获得风险标记,不存在虚假邀请关系的样本账号获得非风险标记。
102.预设风险指标可以是人为制定的判断为虚假邀请关系的相应指标,按照预设风险指标对若干样本账号进行标记操作,若样本账号符合预设风险指标,则该样本账号被判定为存在虚假邀请关系,该样本账号则获得风险标记。反之,若样本账号不符合预设风险指标,则该样本账号被判定为不存在虚假邀请关系,该样本账号则获得非风险标记。
103.例如,在若干样本账号的历史订单所形成的样本集中增加一列数据,该列数据用于表征样本账号获得的为风险标记还是非风险标记,假设,风险标记采用“1”表示,非风险标记采用“0”表示,则按照预设风险指标判定存在虚假邀请关系的样本账号的该列数据即为“1”,按照预设风险指标判定不存在虚假邀请关系的样本账号的该列数据即为“0”。
104.需要说明的是,本技术实施例对于人为制定的预设风险指标的具体内容不作限定。
105.s203:根据样本集确定样本特征集。
106.其中,样本特征集包括每个样本账号对应的个体样本特征数据以及群体样本特征数据。
107.步骤s203的实现方式、原理及技术效果与步骤s102的实现方式、原理及技术效果
相类似,详细内容可参考前述实施例描述,在此不再赘述。
108.s204:将各样本账号对应的样本特征集按照预设比例划分为训练特征集和验证特征集。
109.s205:利用训练特征集所包括的个体样本特征数据和群体样本特征数据对预设学习模型进行训练。
110.s206:利用验证特征集所包括的个体样本特征数据和群体样本特征数据,对训练后的预设学习模型的输出结果进行评估。
111.s207:重复上述步骤,直到评估结果满足预设阈值时结束训练,将结束训练后的预设学习模型确定为风险识别模型。
112.将各样本账号所对应的样本特征集按照预设比例划分为训练特征集和验证特征集,例如,将90%的样本特征集作为训练特征集,将10%的样本特征集作为验证特征集,预设比例即为9:1。在实际工况中可根据实际情况设置预设比例的具体取值以划分样本特征集,本技术实施例对此不作限定。
113.利用训练特征集中所包括的个体样本特征数据和群体样本特征数据对预设学习模型进行训练,同时,利用验证特征集中所包括的个体样本特征数据和群体样本特征数据对进行训练后的预设学习模型的训练效果进行评估,例如,将验证特征集中所包括的个体样本特征数据和群体样本特征数据作为进行训练后的预设学习模型的输入,对应得出输出结果,该输出结果为训练后的预设学习模型的对被划分为验证特征集中的样本账号,进行虚假邀请关系识别的识别结果,然后对输出结果进行评估,其中上述训练过程与评估过程重复进行,直到当评估结果满足预设阈值时表明训练效果达到预设效果,则结束训练,从而将结束训练后的预设学习模型确定为风险识别模型。
114.可以理解的是,对预设学习模型进行训练和评估的过程为对构建预设学习模型的参数进行优化的过程,当评估结果满足预设阈值则表示优化达到预设效果,将优化好相应参数的预设学习模型确定为风险识别模型,完成风险识别模型的构建。
115.在一种可能的设计中,评估结果可以包括目标精确率和/或目标召回率。其中,目标精确率和目标召回率分别为获得目标输出结果的精确率和召回率,目标输出结果为训练后的预设学习模型对风险标记的样本账号输出的输出结果。
116.如前所描述,风险标记采用“1”表示,目标输出结果则为验证特征集中采用“1”标记的样本账号所对应的个体样本特征数据和群体样本特征数据输入至训练后的预设学习模型输出的输出结果。计算目标输出结果的精确率和召回率,以将目标输出结果的精确率和召回率分别确定为目标精确率和目标召回率,采用目标精确率和/或目标召回率作为评估结果,将其与预设阈值进行比较。
117.可选地,目标精确率和目标召回率的计算公式可以例如如下公式(1)和(2)所示:
118.目标精确率=tp/(tp fp)
ꢀꢀꢀꢀ
(1)
119.目标召回率=tp/(tp fn)
ꢀꢀꢀꢀ
(2)
120.其中,tp表示验证特征集中标记为“1”的样本账号且其输出结果为存在虚假邀请关系的这些样本账号的数量,输出结果则采用“1”表示;
121.fp表示验证特征集中标记为“0”的样本账号且输出结果为存在虚假邀请关系的这些样本账号的数量,输出结果则采用“1”表示;
122.fn表示验证特征集中标记为“1”的样本账号但其输出结果为不存在虚假邀请关系的这些样本账号的数量,输出结果则采用“0”表示。
123.评估结果满足预设阈值可以理解为判断评估结果是否达到预设阈值,预设阈值的具体取值可以根据实际工况设置,本技术实施例对此不作限定。
124.可选地,评估结果还可以采用使用受试者工作特征曲线(receiveroperating characteristic curve,roc曲线)、f1分数等指标表示,本技术实施例对此不作限定。
125.本技术实施例提供的风险识别模型生成方法,基于若干样本账号在历史时长内的历史订单刻画每个样本账户对应的个体样本特征数据和群体样本特征数据,从而形成样本特征集。然后将样本特征集划分为训练特征集和验证特征集,采用训练特征集对预设学习模型例如机器学习算法进行训练,采用验证特征集对训练效果进行评估,训练和评估重复进行,直到苹果结果满足预设阈值时结束训练,将结束训练后的预设学习模型确定为风险识别模型,完成风险识别模型的构建。通过训练与评估以构建满足预期效果的风险识别模型,从而在利用风险识别模型直接识别虚假邀请关系时,不但与现有技术中的人工审核相比可以明显提升识别效率、降低人工成本,还可以有效提升识别准确性。另外,风险识别模型是基于被邀请用户的注册账户所产生的历史订单进行机器学习得到,与现有技术中采用历史经验制定单一规则形成识别手段相比,还拓宽了识别手段的可用场景,提高复杂场景下虚假邀请的识别覆盖率,进而加强网约车平台的风控能力。
126.上述各实施例描述了构建风险识别模型的可能实现方式,所构建的风险识别模型则用于对目标订单的下单账号是否存在虚假邀请关系进行识别。图4为本技术实施例提供的再一种风险识别模型生成方法的流程示意图。如图4所示,本技术实施例包括:
127.s301:获取下单账号的目标订单。
128.例如,获取网约车平台中下单账号的实时订单,该实时订单即为目标订单。
129.其中,目标订单中的数据可以包括但不限于下单账户的该用户的历史登录时间、登录位置、叫单时间、叫单时用户所处位置、订单预估里程、订单预估金额、订单支付时间、订单实际里程、订单实际支付金额、订单支付账号等等。可以理解的是,此处用户是指使用网约车平台中该下单账户的下单乘客。
130.s302:根据目标订单确定下单账号的目标特征数据。
131.其中,目标特征数据包括个体目标特征数据和群体目标特征数据。
132.对目标订单中的数据进行特征提取,以得到下单账号的目标特征数据。其中,个体目标特征数据可以理解为描述该下单账号的下单情况的特征,群体目标特征数据可以理解为描述该下单账号所属的邀请群体中各注册账号的下单情况的特征。需要说明的是,下单账号可以通过邀请成为的注册账户或者自行注册的注册账户。
133.具体地,个体目标特征数据和群体目标特征数据各自所包括的数据的类型与个体样本特征数据和群体样本特征数据各自所包括的数据的类型相同,具体内容可参考前述实施例描述,在此不作限定。其中,若下单账号为自行注册的注册用户,则群体目标特征数据即为空,相应地,该下单账号使用风险识别模型进行虚假邀请关系进行识别的识别结果则为不存在虚假邀请关系。
134.s303:根据目标特征数据以及风险识别模型确定目标订单是否为虚假订单,若是,则确定下单账号存在虚假邀请关系。
135.将目标特征数据作为风险识别模型的输入进行识别,得到相应的识别结果,根据识别结果确定目标订单是否为虚假订单。
136.例如,目标特征数据经过风险识别模型的识别后判定为该目标订单为虚假订单,则表明该目标订单所对应的下单账号存在虚假邀请关系,实现对下单账号是否存在虚假邀请关系的识别。
137.本技术实施例提供的风险识别模型生成方法,利用生成的该风险识别模型对目标订单的下单账号是否存在虚假邀请关系进行识别,以对网约车平台中的下单账号的目标订单进行实时识别,以直接识别下单账号是否存在虚假邀请关系,与现有技术中的人工审核相比可以明显提升识别效率、降低人工成本。另外,该风险识别模型是基于被邀请用户的注册账户所产生的历史订单进行机器学习得到,与现有技术中采用历史经验制定单一规则形成识别手段相比,还拓宽了识别手段的可用场景,提高复杂场景下虚假邀请的识别覆盖率,进而加强网约车平台的风控能力。
138.图5为本技术实施例提供的一种风险识别模型生成装置的结构示意图。如图5所示,本技术实施例提供的风险识别模型生成装置400,包括:
139.采集模块401,用于采集样本集。
140.其中,样本集包括若干样本账号在历史时长内的历史订单,样本账号为被邀请用户的注册账号。
141.特征提取模块402,用于根据样本集确定样本特征集。
142.其中,样本特征集包括每个样本账号对应的个体样本特征数据以及群体样本特征数据。
143.生成模块403,用于根据样本特征集生成风险识别模型。
144.其中,风险识别模型用于对目标订单的下单账号是否存在虚假邀请关系进行识别。
145.在一种可能的设计中,特征提取模块402,具体用于:
146.根据每个样本账号的历史订单确定每个样本账号所对应的个体样本特征数据和群体样本特征数据。
147.在一种可能的设计中,每个样本账号的个体样本特征数据至少包括:首次登陆城市与用车城市是否不一致、打车位置与订单起始位置之间的距离、乘客付款时间与司机结算时间之间的间隔、订单折扣金额以及订单总金额;
148.每个样本账号的群体样本特征数据至少包括:样本账号的邀请账号所邀请的总账号数、样本账号的邀请账号所邀请的成单总账号数、样本账号的邀请账号所邀请的完成支付总账号数以及样本账号对应的被邀请均值数据;
149.其中,被邀请均值数据包括各被邀请账号的成单时间与被邀请时间之间的时间间隔均值、各被邀请账号的实付金额均值、各被邀请账号的乘车里程数均值以及各被邀请账号对应的支付账号数量,各被邀请账号是指被样本账号的邀请账号所邀请的各注册账号。
150.在一种可能的设计中,生成模块403,具体用于:
151.将各样本账号对应的样本特征集按照预设比例划分为训练特征集和验证特征集;
152.利用训练特征集所包括的个体样本特征数据和群体样本特征数据对预设学习模型进行训练;
component,pci)总线或扩展工业标准体系结构(extendedindustry standard architecture,eisa)总线等。总线可以分为地址总线、数据总线、控制总线等,但并不表示仅有一根总线或一种类型的总线。
172.可选的,在具体实现上,如果存储器502和处理器501集成在一块芯片上实现,则存储器502和处理器501可以通过内部接口完成通信。
173.本技术还提供了一种计算机可读存储介质,该计算机可读存储介质可以包括:u盘、移动硬盘、只读存储器(rom,read-omly memory)、随机存取存储器(ram,ramdom accessmemory)、磁盘或者光盘等各种可以存储程序代码的介质,具体的,该计算机可读存储介质中存储有计算机执行指令,计算机执行指令用于上述实施例中的风险识别模型生成方法。
174.本技术还提供了一种计算机程序产品,包括计算机执行指令,该计算机指令被处理器执行时实现上述实施例中的风险识别模型生成方法。
175.本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本技术的真正范围和精神由权利要求书指出。
176.应当理解的是,本技术并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求书来限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献