一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

识别用户账户的恶意分享行为的方法、装置、设备和介质与流程

2022-11-19 09:46:45 来源:中国专利 TAG:


1.本发明涉及数据分析技术领域,特别是一种识别用户账户的恶意分享行为的方法、装置、设备和介质。


背景技术:

2.对于会员用户,将会员账号免费借给亲友行使会员权益的行为属于正常分享行为,这可以使会员权限下所能享有的内容得以接触到更多的受众,有机会产生更多的新会员,属于双向互利的行为。但是这也容易导致,部分用户恶意地将手里的会员账号大量收费租借给他人,造成了潜在会员的流失,同时市面上低价分享会员账号的流行也会损害到商家的品牌形象。
3.而识别这种恶意的分享行为的难点就在于如何区分会员用户正常的分享行为和恶意的分享牟利行为,一旦识别结果错误,将正常用户处理为恶意分享用户,大量被打扰到的正常用户就会进行投诉和维权,负面舆情同样会伤害到商家的品牌形象。
4.因此,有必要开发一种识别用户账户的恶意分享行为的方法,以解决对恶意分享行为识别困难的问题。


技术实现要素:

5.鉴于上述问题,本发明实施例提供了一种识别用户账户的恶意分享行为的方法、装置、设备和介质,以便克服上述问题或者至少部分地解决上述问题。
6.本发明实施例的第一方面,提供了一种识别用户账户的恶意分享行为的方法,包括:
7.获取用户账户的当前时间段内的使用行为日志,以及,所述用户账户的历史时间段内的使用行为日志,所述历史时间段至少包含所述当前时间段;
8.通过预先训练的评估模型对所述当前时间段内的使用行为日志进行评估,得到评估结果,所述评估模型以携带标记的样本用户账户的使用行为日志为训练样本,对预设模型进行训练得到,所述标记表征所述样本用户账户是否存在恶意分享行为;
9.根据所述用户账户的历史时间段内的使用行为日志,确定所述用户账户在所述历史时间段内是否满足后置规则,所述后置规则用于确定所述用户账户在所述历史时间段内是否存在恶意分享行为;
10.根据所述评估结果和所述用户账户是否满足后置规则,确定所述用户账户在所述当前时间段内是否存在恶意分享行为。
11.可选地,所述后置规则为:所述用户账户在单位时间段内使用的设备总数超过第一预设数量和/或所述用户账户在单位时间段内使用的设备所在城市的总数超过第二预设数量。
12.可选地,所述评估结果为评估分值,根据所述评估结果和所述用户账户是否满足后置规则,确定所述用户账户在所述当前时间段内是否存在恶意分享行为,包括:
13.在所述评估分值低于预设分数阈值时,确定所述用户账户在所述当前时间段内不存在恶意分享行为;
14.在所述评估分值不低于所述预设分数阈值,且所述用户账户在所述历史时间段内不满足所述后置规则时,确定所述用户账户在所述当前时间段内不存在恶意分享行为;
15.在所述评估分值不低于所述预设分数阈值,且所述用户账户在所述历史时间段内满足所述后置规则时,确定所述用户账户在所述当前时间段内存在恶意分享行为;
16.其中,所述预设分数阈值根据所述评估模型的训练样本集中正样本的数量与负样本的数量的比例,在所述评估模型的训练过程中多次调整后得到。
17.可选地,在确定所述用户账户在所述当前时间段内存在恶意分享行为后,所述方法还包括:
18.对所述用户账户持续封停所述评估结果对应的封停时长;其中,所述评估结果表征的恶意程度越高,对应的封停时长越长。
19.可选地,通过预先训练的评估模型对所述当前时间段内的使用行为日志进行评估,得到评估结果,包括:
20.通过所述预先训练的评估模型从所述当前时间段内的使用行为日志中提取n个维度的评估特征;其中,所述n个维度的评估特征包括以下至少一者:登录行为特征、注册行为特征、支付行为特征、播放行为特征、改密行为特征以及历史封停记录特征;
21.通过所述预先训练的评估模型对所述n个维度的评估特征进行评估,输出所述评估结果。
22.可选地,通过所述预先训练的评估模型对所述评估特征进行评估,输出所述评估结果,包括:
23.针对每个维度的评估特征,根据该维度的评估特征所处的目标阈值范围,确定所述目标阈值范围对应的目标编码值;
24.将所述n个维度的评估特征各自对应的目标编码值输入所述评估模型,得到所述评估结果。
25.可选地,所述评估模型的n个模型参数表征所述n个维度的评估特征对所述评估结果的影响程度并与所述n个维度的评估特征一一对应;将所述n个维度的评估特征各自对应的目标编码值输入所述评估模型,得到所述评估结果,包括:
26.根据所述n个维度的评估特征各自对应的目标编码值和各自对应的模型参数,确定该维度的评估特征对应的子评估结果;
27.根据所述n个维度的评估特征各自对应的子评估结果,确定并输出所述评估结果。
28.可选地,针对每个维度的评估特征,按照如下步骤确定该维度的评估特征的多个阈值范围:
29.在该维度的评估特征为0-1型特征的情况下,该维度的评估特征的阈值范围是0或1;
30.在该维度的评估特征为非0-1型特征的情况下,对训练样本集中该维度的评估特征的分布情况进行分析,确定该维度的评估特征的切分阈值,根据该维度的评估特征的切分阈值,得到该维度的评估特征的多个阈值范围。
31.可选地,针对每个维度的评估特征,按照如下步骤确定该维度的评估特征的每个
阈值范围对应的编码值:
32.根据所述评估模型的训练样本集中正样本和负样本各自的数量、处于该阈值范围的该维度的评估特征的正样本和负样本各自的数量,确定处于该阈值范围的该维度的评估特征的对应的编码值,所述正样本为存在恶意分享行为的样本,所述负样本为不存在恶意分享行为的样本。
33.可选地,在存在多个待识别的用户账户时,获取用户账户的当前时间段内的使用行为日志,以及,所述用户账户的历史时间段内的使用行为日志,包括:
34.获取所述多个待识别的用户账户各自在当前时间段内产生的当前使用行为日志,以及,获取所述多个待识别的用户账户各自在历史时间段内产生的历史使用行为日志,所述历史时间段包括所述当前时间段,以确定所述多个待识别的用户账户各自在所述当前时间段内是否存在恶意分享行为;
35.其中,所述多个待识别的用户账户是按照以下步骤确定的:
36.根据多个候选账户各自的账户活跃度,确定活跃度高于预设阈值的多个用户账户;和/或
37.根据多个候选账户各自的账户等级,按照各个账户等级的账户数量比例,从所述多个候选账户中提取多个用户账户。
38.本发明实施例第二方面还提供了一种识别用户账户的恶意分享行为的装置,包括:
39.获取模块,用于获取用户账户的当前时间段内的使用行为日志,以及,所述用户账户的历史时间段内的使用行为日志,所述历史时间段至少包含所述当前时间段;
40.评估模块,用于通过预先训练的评估模型对所述当前时间段内的使用行为日志进行评估,得到评估结果,所述评估模型是以携带标记的样本用户账户的使用行为日志为训练样本,对预设模型进行训练得到的,所述标记表征所述样本用户账户是否存在恶意分享行为;
41.判断模块,用于根据所述用户账户的历史时间段内的使用行为日志,确定所述用户账户在所述历史时间段内是否满足后置规则,所述后置规则用于确定所述用户账户在所述历史时间段内是否存在恶意分享行为;
42.确定模块,用于根据所述评估结果和所述用户账户是否满足后置规则,确定所述用户账户在所述当前时间段内是否存在恶意分享行为。
43.本发明实施例第三方面还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上的计算机程序,所述处理器执行所述计算机程序以实现本发明实施例第一方面所述的识别用户账户的恶意分享行为的方法中的步骤。
44.本发明实施例第四方面还提供了一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现本发明实施例第一方面所述的识别用户账户的恶意分享行为的方法中的步骤。
45.本发明实施例提供的方法包括:首先,获取用户账户的当前时间段内的使用行为日志以及历史时间段内的使用行为日志,历史时间段至少包含当前时间段;然后,通过评估模型对当前时间段内的使用行为日志进行评估,得到评估结果;该评估模型是以携带标记的样本用户账户的使用行为日志为训练样本,从而训练得到的;此外,根据历史时间段内的
使用行为日志,确定用户账户在历史时间段内是否满足后置规则,该后置规则用于确定用户账户在历史时间段内是否存在恶意分享行为;最后,根据评估结果和用户账户是否满足后置规则,确定该用户账户在当前时间段内是否存在恶意分享行为。本发明实施例通过评估模型对用户账户的使用行为日志进行分析,将模型的评估结果与后置规则相结合,从而判断该用户账户是否存在恶意分享行为。一方面,利用标记的样本用户账户的使用行为日志作为训练数据,训练得到的评估模型对用户账户的评估更加准确高效;另一方面,将评估结果结合后置规则来判断该用户账户是否存在恶意分享行为,进一步保证了识别结果的准确性,降低误判概率,减少用户投诉的可能性。
附图说明
46.为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
47.图1是本发明实施例提供的一种识别用户账户的恶意分享行为的方法步骤流程图;
48.图2是本发明实施例提供的一种采用决策树确定切分阈值的示意图;
49.图3是本发明实施例提供的一种识别用户账户的恶意分享行为的装置的结构示意图;
50.图4是本发明实施例提供的一种电子设备的示意图。
具体实施方式
51.下面将结合本发明实施例中的附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
52.本发明实施例提供了一种识别用户账户的恶意分享行为的方法,参照图1,图1为本发明实施例提供的一种识别用户账户的恶意分享行为的方法步骤流程图,如图1所示,所述方法包括:
53.步骤101,获取用户账户的当前时间段内的使用行为日志,以及,所述用户账户的历史时间段内的使用行为日志,历史时间段至少包含当前时间段;
54.在本实施例中,针对需要进行识别的用户账户,首先获取该用户账户的当前时间段内的使用行为日志和历史时间段内的使用行为日志。历史时间段至少包含当前时间段,示例性的,当前时间段内的使用行为日志可以为当天内的所有使用行为日志,历史时间段内的使用行为日志可以为近7天内的所有使用行为日志,使用行为日志包括所述用户账户的登录行为数据和播放行为数据。
55.在一种实施例中,在存在多个待识别的用户账户时,获取用户账户的当前时间段内的使用行为日志,以及,所述用户账户的历史时间段内的使用行为日志,包括:
56.获取所述多个待识别的用户账户各自在当前时间段内产生的当前使用行为日志,
以及,获取所述多个待识别的用户账户各自在历史时间段内产生的历史使用行为日志,所述历史时间段包括所述当前时间段,以确定所述多个待识别的用户账户各自在所述当前单位时间段内是否存在恶意分享行为。
57.具体的,获取在当前时间段内产生的当前使用行为日志,示例性的,可以设置当前时间段为一天,表示为获取该用户账户的一天的使用行为日志进行分析,通过分析该日志,可以得出该用户账户在这一天中是否产生了恶意分享的行为,从而可以更加精准的判断用户的分享行为。对应的,获取的历史使用行为日志为在历史时间段内产生的历史使用行为日志,示例性的,可以设置历史时间段为7天,则获取近7天的该用户账户的历史使用行为日志。在本实施例中,当需要对海量的用户账户进行识别判断时,通过限制获取的使用行为日志的时间,对多个用户进行批量识别的同时,可以减少获取的数据量,提高分析评估的效率。其中,该恶意分享行为,表示用户以谋利的目的,将自己的用户账户频繁地分享给其他人,使他人可以利用该用户账户获取到相关资源的行为。此类恶意分享行为属于不正规的账户交易,不仅会导致商家的用户流失,利益受损,还会损害到商家的品牌形象。在对该恶意分享行为进行定义时,可以利用每个用户账户登录时的设备i d数据来辅助判断是否为本人在使用该用户账户。示例性的,可以将单日内,登录了4台及以上不同设备的用户账户定义为具有恶意分享行为的用户账户,不做具体限定。
58.步骤102,通过预先训练的评估模型对所述当前时间段内的使用行为日志进行评估,得到评估结果,所述评估模型以携带标记的样本用户账户的使用行为日志为训练样本,对预设模型进行训练得到,所述标记表征所述样本用户账户是否存在恶意分享行为;
59.其中,所述评估模型是利用训练样本预先训练好的模型,所述预设模型可以参照评分卡模型进行设计。具体的,训练样本为携带标记的样本用户账户的使用行为日志,同理,该使用行为日志同样包括登录行为数据和播放行为数据。在对该评估模型进行训练之前,需要对训练样本进行标记,为了标记的准确性,该操作需要由相关业务人员进行,通过标记明确该样本对应的样本用户账户是否存在恶意分享行为,示例性的,存在恶意分享行为的样本用户账户的使用行为日志为正样本,不存在恶意分享行为的样本用户账户的使用行为日志为负样本。具体的,设置预设时间段的时长为一天,对应的一条训练样本则表示,在一天内的该样本用户账户的使用行为日志,若该训练样本被标记为正样本则表示,在这一天内的该样本用户账户存在恶意分享行为。
60.步骤103,根据所述用户账户的历史时间段内的使用行为日志,确定所述用户账户在所述历史时间段内是否满足后置规则,所述后置规则用于确定所述用户账户在所述历史时间段内是否存在恶意分享行为;
61.在本实施例中,利用预先训练的评估模型对当前时间段内的使用行为日志进行评估,此外,还利用历史时间段内的使用行为日志分析该用户账户在历史时间段内是否满足后置规则。所述后置规则用于确定该用户账户在历史时间段内是否存在恶意分享行为。具体的,根据历史时间段内的使用行为日志分析得出,该用户账户满足后置规则,则表示该历史时间段内,该用户账户存在恶意分享行为,反之,若该用户账户不满足后置规则,则表示该历史时间段内,该用户账户并不存在恶意分享行为。
62.在一种实施例中,所述后置规则为:所述用户账户在单位时间段内使用的设备总数超过第一预设数量和/或所述用户账户在单位时间段内使用的设备所在城市的总数超过
第二预设数量。
63.在本实施例中,后置规则表示用户账户在单位时间段内使用的设备总数超过了第一预设数量和/或用户账户在单位时间段内使用的设备所在城市的总数超过第二预设数量,示例性的,设置第一预设数量为4,而一个用户账户在一天之内用了5台不同i d的设备进行登录和观影,则该用户账户则满足了后置规则,当天很有可能存在恶意分享行为。设置第二预设数量为4,若该用户账户在一天之内显示的设备登录所在城市分别在北京、南京、苏州、成都和上海,则该用户账户满足了后置规则,当天很有可能存在恶意分享行为。
64.步骤104,根据所述评估结果和所述用户账户是否满足后置规则,确定所述用户账户在所示当前时间段内是否存在恶意分享行为。
65.本实施例通过预先训练的评估模型对用户账户的使用行为日志进行分析,将模型的评估结果与后置规则相结合,从而判断该用户账户是否存在恶意分享行为。一方面,利用标记的样本用户账户的使用行为日志作为训练数据,训练得到的评估模型对用户账户的评估更加准确高效;另一方面,将评估结果结合后置规则来判断该用户账户是否存在恶意分享行为,进一步保证了识别结果的准确性,降低误判概率,减少用户投诉的可能性。
66.在一种实施例中,所述评估结果为评估分值,根据所述评估结果和所述用户账户是否满足后置规则,确定所述用户账户在所述当前时间段内是否存在恶意分享行为,包括:
67.在所述评估分值低于预设分数阈值时,确定所述用户账户在所述当前时间段内不存在恶意分享行为;
68.在所述评估分值不低于所述预设分数阈值,且所述用户账户在所述历史时间段内不满足所述后置规则时,确定所述用户账户在所述当前时间段内不存在恶意分享行为;
69.在所述评估分值不低于所述预设分数阈值,且所述用户账户在所述历史时间段内满足所述后置规则时,确定所述用户账户在所述当前时间段内存在恶意分享行为;
70.其中,所述预设分数阈值根据所述评估模型的训练样本集中正样本的数量与负样本的数量的比例,在所述评估模型的训练过程中多次调整后得到。
71.在本实施例中,通过评估模型对当前时间段内的使用行为日志进行计算,得到的评估结果可以为一个具体的分数值。示例性的,可以设置总分为100分,分数越高表示该用户账户越可能存在恶意分享账户,设置预设分数阈值为85-100分,当评估模型输出的评估分值低于85分时,低于了预设分数阈值,自动判断该用户账户不存在恶意分享行为。当评估模型输出的评估分数值不低于所述预设分数阈值时,再利用历史使用行为日志,去判断该用户账户是否满足后置规则。只有当评估分值在预设分数阈值内,并且该用户账户满足后置规则的时候,确定该用户账户存在恶意分享行为。
72.对于预设分数阈值,该预设分数阈值属于该评估模型的参数的一部分,可以依据训练样本集中的正样本数量与负样本数量的比例来设定,并且,在该评估模型训练的过程中依据训练结果不断进行调整,从而在最终模型训练完成时,得到一个更为准确的预设分数阈值。示例性的,按照总分为100分来计算,当样本中正样本与负样本的数量比例为1:3,先设置分数阈值为75分,在模型训练过程中发现负样本的分数集中在80-100范围内时,将最终的预设分数阈值调整为80分。
73.对于评估模型,分值越高就意味着该用户账户越有可能存在恶意分享行为,但考虑到误打扰正常用户带来的客户投诉的影响,就需要加入后置规则以保证结果的可解释
性。
74.在一种实施例中,在确定所述用户账户在所述历史时间段内存在恶意分享行为后,所述方法还包括:
75.对所述用户账户持续封停所述评估结果对应的封停时长;其中,所述评估结果表征的恶意程度越高,对应的封停时长越长。
76.在本实施例中,在确定该用户账户存在恶意分享行为后,对该用户账户进行封停处理。针对不同的用户账户分别进行对应的封停处理,评估结果表征的恶意程度越高,对应的封停时长越长。具体的,可以控制封停时长的大小,当评估结果表示该用户账户的恶意分享程度很高或频繁出现恶意分享行为时,使封停的时长较长,当评估结果表示该用户账户的恶意分享程度较低,或仅有个别恶意分享行为时,可以使封停的时长较短,从而起到警示提醒该用户的作用。示例性的,还可以区分为临时封停和永久封停,当恶意程度较高时,例如评估分值在95分以上的用户账户,可以直接进行永久封停,永久封停只能通过客户反馈咨询能否解封;当恶意程度较低,例如评估分值在85分至95分的用户账户,则对其进行临时封停,临时封停可以通过修改密码并重新登陆来解封。
77.在一种实施例中,通过预先训练的评估模型对所述当前时间段内的使用行为日志进行评估,得到评估结果,包括:
78.通过所述预先训练的评估模型从所述当前时间段内的使用行为日志中提取n个维度的评估特征;其中,所述n个维度的评估特征包括以下至少一者:登录行为特征、注册行为特征、支付行为特征、播放行为特征、改密行为特征以及历史封停记录特征;
79.通过所述预先训练的评估模型对所述n个维度的评估特征进行评估,输出所述评估结果。
80.在本实施例中,利用训练好的评估模型进行评估时,是对当前时间段内的使用行为日志进行了特征提取,将提取出的特征输入评估模型进行计算分析,最终输出评估结果。其中,该当前时间段内的使用行为日志可以是最近一天内该用户账户产生的行为日志,对应的该评估模型输出的评估结果可以表示在这一天内该用户账户是否有恶意分享行为。在本实施例中,主要是从视频网站的应用场景来考虑特征提取的,具体的,从当前时间段内的使用行为日志中提取的n个维度的评估特征,可以利用spark程序的groupeddataframe数据结构从行为日志数据中提取得到,主要为以下至少一者:登录行为特征、注册行为特征、支付行为特征、播放行为特征、改密行为特征以及历史封停记录特征。而上述每一维度的特征还可以拆分为多个具体的特征。
81.具体的,所述登录行为特征包括以下至少一者:登录的总次数,所述登录的总次数表示该用户账户在预设时间段内的尝试登录的总次数,即包括了登录成功的次数和登录失败的次数;登录成功占比,所述登录成功占比表示该用户账户当天成功登录次数在尝试登录的总次数中的占比;登录类型数,所述登录类型数表示该用户账户当天尝试登录的登录类型总数,所述登录类型包括第三方登录、账号密码登录、手机验证码登录、手机扫码登录等;登录d i d数,所述登录d i d数表示该用户账户当天登录时所有的去重设备i d数量;登录dfp数,所述登录dfp数表示该用户账户当天登录时所有的去重设备指纹数量;登录qc5数,所述登录qc5数表示该用户账户当天登录时所有的去重qc005数量,其中,所述qc005指app伴随用户账户的登录、播放行为同步发送的设备维度参数,用来告诉服务器该用户账户
的设备信息,后续重复出现的qc005均表示此含义,不再对此进行说明;登录i p ua referer ap i agenttype数,所述登录i p ua referer ap i agenttype数表示该用户账户当天登录时所有的去重i p地址、用户代理、跳转来源、app请求接口来源、使用的端的组合数量;示例性的,还可以选择多个特征数据中的最大值作为一个特征数据,如选择登录d i d数、登录dfp数、登录qc5数和登录i p ua referer ap i agenttype数之中的最大值作为一个特征数据;登录城市数,表示该用户账户当天登录时所有的i p地址匹配城市之后的城市数量;登录省份数,表示该用户账户当天登录时所有的i p地址匹配省份之后的省份数量;登录ua占比,表示该用户账户当天登录请求中ua用户代理最大类型的数量在总登录请求数中的占比,其中ua,即user agent(用户代理),用户账户每次的登录和观影行为就等于向服务器发送了一次或几次http请求,ua是在请求中固定包含的一种参数,其中包含用户账户发送请求时的设备信息、网络信息等;登录app版本占比,表示该用户账户当天登录请求中设备版本最多的那一类的数量在总登录请求数中的占比;登录业务风险等级,表示该用户账户当天登录请求中是否出现过高风险等级。
82.所述注册行为特征包括以下至少一者:同一i p ua下注册的账号数,表示该用户账户当日进行注册时i p地址 ua组合相同的其它账号数量;同一省份 同一小时 ua下的注册账号数,表示该用户账户注册时的省份名称 第几小时 用户代理的组合和多少其它账号的组合相同;注册时间距今时长,表示该用户账户自注册日期至评估时的日期的差;注册业务风险等级,表示该用户账户进行注册时的风险等级;注册邮箱后缀在注册账号中的占比;注册ua在注册账号中的占比;注册的username;注册城市是否和最近登录地一致,表示该用户账户最近一次的登陆使用的i p地址匹配到的城市是否和注册时i p地址对应的城市一致;注册城市是否出现在今日观影城市中;以及注册手机号。
83.所述支付行为特征包括以下至少一者:同一ip ua下支付的账号数,表示该用户账户当日支付时i p地址 ua组合相同的其它账号数量;同一省份 同一小时 ua下的注册账号数,表示该用户账户注册时的省份名称 第几小时 用户代理的组合和多少其它账号的组合相同;支付订单比例,表示该用户账户支付订单数占会员订单总数的比例;过去一年支付金额,表示该用户账户过去一年的会员订单总金额;购买过的会员类型数,表示该用户账户曾经购买过多少种类的会员套餐或产品;会员等级,表示该用户账户当天的会员等级;最近一次支付地和登录地是否一致,表示该用户账户最近一次支付订单的城市和登录城市是否一致;最近一次支付地和观影地是否一致,表示该用户账户最近一次支付订单的城市和观影城市是否一致。
84.所述播放行为特征包括以下至少一者:鉴权总次数,表示该用户账户当日观看会员视频的次数;鉴权小时数,表示该用户账户当日在多少个小时里观看过会员视频;鉴权tvid数,表示该用户账户当日观看会员视频的集数;鉴权ip ua数,表示该用户账户当日观看会员视频时i p ua组合的个数;同一tvid下的最大鉴权次数,表示该用户账户观看某一集时最多重复观看了多少次;同一tvid下的最大鉴权小时数,表示该用户账户观看某一集时最多重复观看了多少个小时;同一tvid下的最大鉴权ip ua数,表示该用户账户观看某一集时所有ip ua组合出现的最大次数;同一小时下的最大鉴权次数,表示该用户账户某个小时内(包含重复)观看了最多多少部剧;同一小时下的最大鉴权tvid数,表示该用户账户某个小时内观看了最多多少部剧;同一小时下的最大鉴权i p ua数,表示该用户账户某个小
时内观影记录所有i p ua组合中出现最多的次数;观影时长,表示该用户账户当天累计观看了多久的视频;每部tvid平均播放时长,表示该用户账户每集剧观看的时长求平均;每次鉴权的平均播放时长,表示该用户账户当天累计播放时长除以观看过的集数;鉴权d id数,表示该用户账户当天观影使用的设备i d总数;鉴权dfp数,表示该用户账户当天观影使用的设备指纹总数;鉴权qc5数,表示该用户账户当天观影请求中qc005的种类数;鉴权ua p l atformcode数,表示该用户账户当天观影请求中ua 端代码组合的个数;同一tvid下最大鉴权d i d数,表示该用户账户当天观影单集使用的设备i d总数的最大值;同一tvid下最大鉴权dfp数,表示该用户账户当天观影单集使用的设备指纹总数的最大值;同一tvid下最大鉴权qc5数,表示该用户账户当天观影请求中单集qc005总数的最大值;同一tvid下最大鉴权ua p l atformcode数,表示该用户账户当天观影请求中单集ua 端代码组合总数最大值;触发并发监控的次数,表示该用户账户当天有多少次存在三台即以上的设备同时播放视频;鉴权城市数,表示该用户账户当天的播放日志i p地址对应的城市数量;鉴权省份数,表示该用户账户当天的播放日志i p地址对应的省份数量;是否在常用登录地观看视频,表示该用户账户当天的播放请求是否存在某个i p对应的城市不在该用户账户常用登录地列表中的情况;是否观看视频时设备指纹属于常用设备指纹,表示该用户账户当天的播放请求是否存在某台设备的设备指纹不在该用户账户常用设备指纹列表中的情况;以及物料合法性。
85.所述改密行为特征包括以下至少一者:改密总次数,表示该用户账户当日修改密码的次数;改密成功次数,表示该用户账户修改密码并且修改成功的次数;改密失败占比,表示该用户账户当日修改密码并且修改失败的次数除以改密总次数;改密d id数,表示该用户账户当日修改密码时所有的去重设备i d数量;改密dfp数,表示该用户账户当日修改密码时所有的去重设备指纹数量;改密qc5数,表示该用户账户当日修改密码时所有的去重qc005数量;改密ip ua referer api agenttype数,表示该用户账户当日修改密码时所有的去重i p地址、用户代理、跳转来源、app请求接口来源、使用的端的组合数量;改密城市数,表示该用户账户当日修改密码时所有的i p地址匹配城市之后的城市数量;改密省份数,表示该用户账户当日修改密码时所有的i p地址匹配省份之后的省份数量;使用相同老密码的账号数,表示该用户账户账号修改密码时的老密码和多少其它账号的密码相同;使用相同新密码的账号数,表示该用户账户的账号修改密码时的新密码和多少其它账号的密码相同;相同ip ua下改密的账号数,表示该用户账户的账号修改密码时的i p地址 用户代理的组合和多少其它账号的组合相同;同一省份 同一小时 ua下的改密账号数,表示该用户账户的账号修改密码时的省份名称 第几小时 用户代理的组合和多少其它账号的组合相同。
86.所述历史封停记录特征包括以下至少一者:历史总封停次数,表示该用户账户从注册时到现在被封停过的次数;封停类型数,封停类型包含防盗号保护性封停、模型封停、人工封停等几种,表示该用户账户从注册时到现在被封停过的类型次数;上次封停距今时长,表示当天减去上次封停日期得到的天数差。
87.现对上述特征中的部分名词进行解释,包括:d id或devi ce i d,指设备维度的唯一标识,不会随时间而发生改变,每台使用过该用户账户的手机、电脑、平板、汽车、智能家居等设备都会有一个不重复的设备i d;dfp,即设备指纹,类似于设备i d但每隔一段时
间会失效,在dfp生效期间用户在这台设备上可以免登录,一旦dfp过了有效期系统就会要求用户重新登录,登录成功后会签发一个新的dfp;ua,即user agent(用户代理),用户每次的登录和播放行为就等于向服务器发送了一次或几次http请求,ua是在请求中固定包含的一种参数,其中会包含用户账户发送请求时的设备信息、网络信息等;qc005,指app伴随用户的登录、播放行为同步发送的设备维度参数,用来告诉服务器该用户的设备信息;agenttype和p l atformcode,即用户的端代码,是一串数字用来表示用户账户登录、播放行为来源于哪个端(手机端、电脑端、平板电脑端、车联网端、电视端、智能家居端等等);tvid,即视频内容i d,每一种视频内容都会有自己独一无二的i d,比如一部电视剧有50集,那么这50集每一集都有自己对应的tvid;referer,即请求来源方,用户每次的登录和观影行为就等于向服务器发送了一次或几次http请求,referer是在请求中固定包含的一种参数,表明请求如果经过跳转来源于哪里,比如用户在网站a搜索某部剧,之后从网站a跳转到网站b对应网址观看视频,那么referer就会是网站a的域名。
88.本实施例通过对当前时间段内的使用行为日志进行多个维度的特征提取,从多个方面获取特征数据,在多个维度上去进行分析计算该用户账户是否存在恶意分享的行为,由此提高了评估模型的准确性和可靠性。
89.在一种实施例中,通过所述预先训练的评估模型对所述评估特征进行评估,输出所述评估结果,包括:
90.针对每个维度的评估特征,根据该维度的评估特征所处的目标阈值范围,确定所述目标阈值范围对应的目标编码值;
91.将所述n个维度的评估特征各自对应的目标编码值输入所述评估模型,得到所述评估结果。
92.在本实施例中,评估模型以携带标记的样本用户账户的使用行为日志为训练样本,对预设模型进行训练得到,预设模型可以为任意分类模型。具体的,在采用逻辑回归模型作为预设模型的情况下,由于逻辑回归模型只接受数值作为输入,就必须赋予之前得到的特征以一个具体的数字,这个数字应当具备值越大、越容易判断用户存在恶意分享的特性。所以,对于提取的每一个维度的特征,都需要先确定出对应的编码值,用作该维度特征对应的输入模型的数据。具体的,先确定提取的特征的取值落在哪一个阈值范围内,每一个预设范围都对应了一个编码值,该编码值是在评估模型的训练阶段就预先确定的,各个阈值范围对应的编码值的确定方法可以为任意现有方法,示例性的可采用woe编码值计算公式计算得到,具体参考描述woe编码值计算的相关段落,在此不做赘述。在确定了该维度的评估特征的编码值后,将该编码值输入评估模型中进行分析计算。其中,每个维度的评估特征具有多个阈值范围,而每个使用行为日志中的该维度的评估特征都会有一个具体的取值,该取值所在的阈值范围表示为该维度的评估特征的目标阈值范围。示例性的,以“鉴权城市数”这一特征为例,该特征的阈值范围有0-2,3-6,6-100。0-2这一阈值范围对应的编码值为-1,3-6这一阈值范围对应的编码值为2,6-100这一阈值范围对应的编码值为10。当提取的该用户账户的“鉴权城市数”这一特征的城市数为5时,判断该维度的评估特征的目标阈值范围为3-6这一阈值范围,则将对应的编码值2输入到评估模型中,进行分析计算。
93.在一种实施例中,所述评估模型的n个模型参数表征所述n个维度的评估特征对所述评估结果的影响程度并与所述n个维度的评估特征一一对应,;将所述n个维度的评估特
征各自对应的目标编码值输入所述评估模型,得到所述评估结果,包括:
94.根据所述n个维度的评估特征各自对应的目标编码值和各自对应的模型参数,确定该维度的评估特征对应的子评估结果;
95.根据所述n个维度的评估特征各自对应的子评估结果,确定并输出所述评估结果。
96.在本实施例中通过评估模型对一个样本进行评估,得到评估结果,该评估结果可以表现为具体的0-100分的一个打分。对应的,在模型训练的过程中,针对每一个样本同样可以得到一个具体的0-100的打分,而在评估过程中,对应的每一个特征也会具备一个或正或负的打分,即目标编码值;并且对于每个特征还设置有对应的模型参数,该模型参数可以表示为权重,该权重的取值大小表示该特征对评估结果的影响程度的高低。示例性的,在评估过程中,该用户账户的使用行为日志的一个维度a的评估特征的目标编码值为5分,然后根据该特征a对应的模型参数(权重)为0.2,则将目标编码值乘以权重,最终得到的该特征a对应的分值为1分。需要知道的是,在该模型进行评估分析,得到评估结果的过程中,并不限于上述过程,还可以由其他环节,示例性的,可以在目标编码值乘以权重之后,在对该分值进行偏置等处理,在本实施例中,不对其进行限制。另外,该权重的取值属于该模型的参数,是在对评估模型训练的过程中得到。
97.在一种实施例中,针对每个维度的评估特征,按照如下步骤确定该维度的评估特征的多个阈值范围:
98.在该维度的评估特征为0-1型特征的情况下,该维度的评估特征的阈值范围是0或1;
99.在该维度的评估特征为非0-1型特征的情况下,对训练样本集中该维度的评估特征的分布情况进行分析,确定该维度的评估特征的切分阈值,根据该维度的评估特征的切分阈值,得到该维度的评估特征的多个阈值范围。
100.根据上述实施例可以知道,评估特征有多个维度,可以大致分为两类,即,0-1型特征和非0-1型特征。0-1型特征是指该特征对应的情况只存在是或否两种可能,示例性的,“是否在常用登录地观看视频”这一特征为0-1型特征,对应的情况只存在“是在常用登陆地观看视频”和“不是在常用登录地观看视频”这两种可能。而非0-1型特征会存在多种可能的取值,示例性的,“鉴权城市数”这一特征为非0-1型特征,对应的情况可能是仅有1个城市数,或有5个城市数,甚至有30个城市数。
101.对于这类取值较多的非0-1型特征,如果不做任何处理,直接在提取后输入模型,在模型训练阶段,会导致模型的分类效果很差。在本技术中,逐一选择特征列和标签列,运行决策树算法,就可以得到该特征依据决策树计计算出的最优切分阈值,在本实施例中,该算法可以使用spark程序的ml.c l ass ificat ion.deci s i ontreec l ass ifier函数进行计算。由此,通过对训练样本集中该维度的评估特征的分布情况进行分析,确定该评估特征的合理的切分阈值,根据该维度的评估特征的切分阈值,得到该维度的评估特征的多个阈值范围。示例性的,以“鉴权城市数”这一特征为例,当决策树模型认为城市数量大于等于6的数据很有可能存在恶意分享,城市数量大于2小于6的数据有一定可能存在分享,小于等于2的数据不太可能存在分享,那么对于鉴权城市数这一评估特征,合理的切分阈值就是2和6,这一特征就会被切分成三段并给予对应编号1、2和3。
102.其中,决策树(deci s iontree),又称为判定树,是另一种特殊的根树,它最初是
运筹学中的常用工具之一,之后应用范围不断扩展,目前是人工智能中常见的机器学习方法之一。假定某个业务需要多轮决策,就可以构造一棵决策树,从根节点开始,每个分枝点都表示某一轮的一次决策,不同的子节点代表该轮不同的决策结果,用叶子节点来表示最终决策的结果。示例性的,参照图2,图2示出了一种采用决策树确定切分阈值的示意图,如图2所述,从“年龄”这一根节点开始,逐一选择特征列和标签列,年龄小于30岁时,是学生则输出肯定结果,不是学生则输出否定结果;年龄在30-40岁之间,则输出肯定结果;年龄大于40岁时,信用等级良好则输出否定结果,信用等级一般则输出肯定结果。通过上述方法,对每一个维度的特征均进行了阈值的切分,并确定出该评估特征对应的多个合理的切分阈值,并将该阈值应用于评估模型训练和实际对待识别的用户账户的评估过程中,提高了评估模型的评估结果准确性。
103.在一种实施例中,针对每个维度的评估特征,按照如下步骤确定该维度的评估特征的每个阈值范围对应的编码值:
104.根据所述评估模型的训练样本集中正样本和负样本体各自的数量、处于该阈值范围的该维度的评估特征的正样本和负样本各自的数量,确定处于该阈值范围的该维度的评估特征的对应的编码值,所述正样本为存在恶意分享行为的样本,所述负样本为不存在恶意分享行为的样本。
105.在本技术中,对评估特征的每个阈值范围设置对应的编码值,可以通过woe编码来进行,具体的计算公式,如下:
[0106][0107]
其中,woei表示该评估特征中编号i的阈值范围所对应的分值,badi为该评估特征中编号i的阈值范围中的正样本数量,bad
t
为训练样本集的所有正样本数量,goodi为该评估特征中编号i的阈值范围中的负样本数量,good
t
为训练样本集的所有负样本数量。具体的,在本实施例中,可以基于spark程序的groupeddataframe数据结构来计算每个评估特征下的每个阈值范围的正样本数量,除以总体正样本数量进行数值转换来得到具体的woe值,同理可以计算得到每个阈值范围的负样本数量,处理总体负样本数量进行述职转化来得到具体的woe值。示例性的,参照表1,表1示出了一种鉴权城市数特征的woe值的计算方法,如下表表1所示,关于鉴权城市数这一特征,总体的正样本数bad
t
为5844,总体的负样本数good
t
为12485,而在鉴权城市数这一特征中城市数量大于6的正样本数badi有3619个,城市数量大于6的负样本数goodi有305个,由此,根据上述公式可以计算得到,在鉴权城市数大于6的这一阈值范围对应的woe值为1.403967。
[0108]
鉴权城市数编号正样本总体正样本负样本总体负样本woe值x《=212515844977212485-1.260632《x《=62197458442408124850.243369x》6336195844305124851.403967
[0109]
表1
[0110]
在一种实施例中,所述多个待识别的用户账户是按照以下步骤确定的:
[0111]
根据多个候选账户各自的账户活跃度,确定活跃度高于预设阈值的多个用户账户;和/或
[0112]
根据多个候选账户各自的账户等级,按照各个账户等级的账户数量比例,从所述多个候选账户中提取多个用户账户。
[0113]
在本实施例中,由于用户账户很多,在存在海量的待识别用户账户时,可以从中选择活跃用户来进行分析评估,活跃用户表示在一段时间内至少观看过一部剧的用户账户,可以通过使用行为日志分析确认该用户账户是否为活跃用户账户。对应的,在对该评估模型进行训练时,选择的训练样本,同样可以仅选择活跃的样本用户账户,从而保证训练样本数据的有效性。不活跃的用户账户,或者说沉默用户账户不存在播放行为,更加不存在恶意分享行为,所以过滤掉这部分用户账户,在评估过程中可以提高评估分析的效率,在模型训练过程中可以提高训练样本的有效性,进而提高评估模型的准确性和可靠性。
[0114]
并且,本实施例按照关键特征对海量的用户账户进行分层抽样,具体的,按照会员等级的账户数量比例进行分层抽样,示例性的,参照表2,表2示出了一种用户账户的会员等级数量分布表,如表2所示,1级的用户账户数量占总体数量的20%,2级的用户账户数量占总体数量的15%,则按照该比例,若一共要抽取100个用户账户,则抽取20个1级的待识别用户账户和15个2级的待识别用户账户进行评估分析。对应的,在对该评估模型进行训练时,选择的训练样本,同样可以按照会员等级的账户数量比例进行分层抽样,由此可以使得训练样本的数据特征分布与真实分布情况一致。
[0115]
可选采样比例比例会员等级120%会员等级215%会员等级325%会员等级420%会员等级510%会员等级67%会员等级73%
[0116]
表2
[0117]
在选择评估模型的训练样本的样本用户账户时,可以先对全量的用户账户进行过滤,过滤出活跃的用户账户,再根据这些活跃的用户账户的会员等级比例,来抽取样本用户账户。由此,避免大量的沉默和流失会员沉积在会员等级1级和2级,不能准确地反映活跃用户的现状的问题,提高了该评估模型的分类效果。
[0118]
在一种实施例中,所述评估模型的训练样本集中正样本的数量小于负样本的数量;所述正样本为存在恶意分享行为的样本,所述负样本为不存在恶意分享行为的样本;所述评估模型是通过如下步骤获得的:
[0119]
按照多个正负样本比例,对所述负训练样本进行抽取,得到多个训练样本集;
[0120]
使用所述多个训练样本集,分别对预设模型进行训练,得到多个候选评估模型;
[0121]
对所述多个候选评估模型进行测试,得到测试结果;
[0122]
根据所述测试结果,从所述多个候选评估模型中确定出目标评估模型。
[0123]
在原始的数据集中,随机抽取20%作为测试集,剩余80%用作训练集,来训练评估模型。由于在实际情况中,训练模型的过程中,获取的训练数据集中,正负样本的数量往往相差悬殊,示例性的,正样本只有6949条,负样本则有993051条,比例的极度不均衡会导致
模型完全无法拟合,模型只需要评估所有样本均为负样本,就可以达到极高的准确率。所以,本实施例提出进行下采样,即保存全部的正样本,对负训练样本进行随机抽取,得到多个训练样本集,示例性的,按照正负样本比例1:3,1:5,1:10,1:20,1:50,对负样本进行抽取,从而得到5个训练样本集。通过分别利用单个的训练样本集进行模型训练,最终会得到多个训练好的评估模型。然后利用预先设置的测试集分别对多个评估模型进行测试,通过测试结果选择其中效果最好的一个模型作为最终的评估模型。通过测试集检验训练好的评估模型,准确率可以达到90%,召回率可以达到86%。
[0124]
对应的,在样本的比例极度不均衡的情况下,在采用了下采样的方式对比例进行了调整后,由于正样本与负样本的比例相较于真实情况的比例上升了很多倍,导致模型更容易判断正常用户账户为存在恶意分享行为的用户账户,可以适度地提升最后评估模型的预设分数阈值,拉高被判断为正样本的难度,从而使该评估模型具有更好的分类效果。示例性的,按照总分为100分来计算,当样本中正样本与负样本的数量比例为1:3,先设置分数阈值为75-100分,在模型训练过程中发现负样本的分数集中在80-100范围内时,将最终的预设分数阈值适当地调高至80-100。
[0125]
在一种实施例中,使用每个训练样本集,对预设模型进行训练,得到一个候选评估模型,包括:
[0126]
使用该训练数据集中的全部正样本和正样本数量n倍的负样本对所述预设模型进行训练,得到第一训练后评估模型;
[0127]
使用该训练数据集中的所述全部正样本和所述第一次训练后评估模型评估错误的负样本对所述预设模型进行训练,得到第二训练后评估模型;
[0128]
使用该训练数据集中的所述全部正样本和所述第二次训练后评估模型评估错误的负样本对所述预设模型进行训练,得到第三训练后评估模型;
[0129]
根据所得到的三个训练后评估模型各自的模型参数,确定候选评估模型的模型参数。
[0130]
在本实施例中,利用训练样本集对模型进行训练可以基于spark程序的ml.c l ass ificat ion.logi st icregress ion。上述实施例中,由于正负样本的数量比例悬殊,采用了下采样方法来构建训练样本集,但是下采样还容易产生较强的过拟合,所以,本实施例提出了三段式训练的方法,即第一次训练使用训练样本集中的全部正训练样本和10倍数量的负训练样本,在第二次训练时选择全部正训练样本和第一次训练分类错误的负训练样本,在第三次训练时选择全部正训练样本和第二次训练分类错误的负训练样本,由此会产生3个参数取值略有不同的模型,该模型参数表示的是每个特征对应的权重值,用于表示该特征对评估结果的影响程度。由于模型参数不同,可以采用投票法来决定最终的评估模型的模型参数,投票法是指一种少数服从多数的方法,即,对于一项参数而言,当上述三个训练后评估模型中有两个模型对应的取值相同而另一个模型的取值不同时,选择少数服从多数,选用有两个模型相同的取值。
[0131]
本发明实施例还提供了一种识别用户账户的恶意分享行为的装置,参照图3,图3是本技术实施例提出的一种识别用户账户的恶意分享行为的装置的结构示意图,如图3所示,所述装置包括:
[0132]
获取模块,用于获取用户账户的当前时间段内的使用行为日志,以及,所述用户账
户的历史时间段内的使用行为日志,所述历史时间段至少包含所述当前时间段;
[0133]
评估模块,用于通过预先训练的评估模型对所述当前时间段内的使用行为日志进行评估,得到评估结果,所述评估模型以携带标记的样本用户账户的使用行为日志为训练样本,对预设模型进行训练得到,所述标记表征所述样本用户账户是否存在恶意分享行为;
[0134]
判断模块,用于根据所述用户账户的历史时间段内的使用行为日志,确定所述用户账户在所述历史时间段内是否满足后置规则,所述后置规则用于确定所述用户账户在所述历史时间段内是否存在恶意分享行为;
[0135]
确定模块,用于根据所述评估结果和所述用户账户是否满足后置规则,确定所述用户账户在所述当前时间段内是否存在恶意分享行为。
[0136]
在一种实施例中,所述后置规则为:所述用户账户在单位时间段内使用的设备总数超过第一预设数量和/或所述用户账户在单位时间段内使用的设备所在城市的总数超过第二预设数量。
[0137]
在一种实施例中,所述评估结果为评估分值,判断模块,包括:
[0138]
第一判断子模块,用于在所述评估分值低于预设分数阈值时,确定所述用户账户在所述当前时间段内不存在恶意分享行为;
[0139]
第二判断子模块,用于在所述评估分值不低于所述预设分数阈值,且所述用户账户在所述历史时间段内不满足所述后置规则时,确定所述用户账户在所述当前时间段内不存在恶意分享行为;
[0140]
第三判断子模块,用于在所述评估分值不低于所述预设分数阈值,且所述用户账户在所述历史时间段内满足所述后置规则时,确定所述用户账户在所述当前时间段内存在恶意分享行为;
[0141]
其中,所述预设分数阈值是根据所述评估模型的训练样本集中正样本的数量与负样本的数量的比例,在所述评估模型的训练过程中多次调整后得到的。
[0142]
在一种实施例中,在确定所述用户账户在所述当前时间段内存在恶意分享行为后,所述装置还包括:
[0143]
封停模块,用于对所述用户账户持续封停所述评估结果对应的封停时长;其中,所述评估结果表征的恶意程度越高,对应的封停时长越长。
[0144]
在一种实施例中,所述评估模块,包括:
[0145]
第一评估子模块,用于通过所述预先训练的评估模型从所述当前时间段内的使用行为日志中提取n个维度的评估特征;其中,所述n个维度的评估特征包括以下至少一者:登录行为特征、注册行为特征、支付行为特征、播放行为特征、改密行为特征以及历史封停记录特征;
[0146]
第二评估子模块,用于通过所述预先训练的评估模型对所述n个维度的评估特征进行评估,输出所述评估结果。
[0147]
在一种实施例中,第一评估子模块,包括:
[0148]
第一评估单元,用于针对每个维度的评估特征,根据该维度的评估特征所处的目标阈值范围,确定所述目标阈值范围对应的目标编码值;
[0149]
第二评估单元,用于将所述n个维度的评估特征各自对应的目标编码值输入所述评估模型,得到所述评估结果。
[0150]
在一种实施例中,所述评估模型的n个模型参数表征所述n个维度的评估特征对所述评估结果的影响程度并与所述n个维度的评估特征一一对应;第二评估单元,包括:
[0151]
第一确定子单元,用于根据所述n个维度的评估特征各自对应的目标编码值和各自对应的影响程度,确定该维度的评估特征对应的子评估结果;
[0152]
输出子单元,用于根据所述n个维度的评估特征各自对应的子评估结果,确定并输出所述评估结果。
[0153]
在一种实施例中,第一评估单元还用于针对每个维度的评估特征,按照如下步骤确定该维度的评估特征的多个阈值范围:
[0154]
第二确定子单元,用于在该维度的评估特征为0-1型特征的情况下,确定该维度的评估特征的阈值范围是0或1;
[0155]
第三确定子单元,用于在该维度的评估特征为非0-1型特征的情况下,对训练样本集中该维度的评估特征的分布情况进行分析,确定该维度的评估特征的切分阈值,根据该维度的评估特征的切分阈值,得到该维度的评估特征的多个阈值范围。
[0156]
在一种实施例中,第一评估单元还用于针对每个维度的评估特征,确定该维度的评估特征的每个阈值范围对应的编码值,所述第一评估单元还包括:
[0157]
第一评估子单元,用于根据所述评估模型的训练样本集中正样本和负样本体各自的数量、处于该阈值范围的该维度的评估特征的正样本和负样本各自的数量,确定处于该阈值范围的该维度的评估特征的对应的编码值,所述正样本为存在恶意分享行为的样本,所述负样本为不存在恶意分享行为的样本。
[0158]
在一种实施例中,在存在多个待识别的用户账户时,获取模块,包括:
[0159]
第一获取子模块,用于获取所述多个待识别的用户账户各自在当前时间段内产生的当前使用行为日志,以及,获取所述多个待识别的用户账户各自在历史时间段内产生的历史使用行为日志,所述历史时间段包括所述当前时间段,以确定所述多个待识别的用户账户各自在所述当前时间段内是否存在恶意分享行为;
[0160]
其中,所述第一获取子模块还用于确定所述多个待识别的用户账户,所述第一获取子模块,还包括:
[0161]
第一获取单元,用于根据多个候选账户各自的账户活跃度,确定活跃度高于预设阈值的多个用户账户;和/或
[0162]
第二获取单元,用于根据多个候选账户各自的账户等级,按照各个账户等级的账户数量比例,从所述多个候选账户中提取多个用户账户。
[0163]
在一种实施例中,所述评估模型的训练样本集中正样本的数量小于负样本的数量;所述正样本为存在恶意分享行为的样本,所述负样本为不存在恶意分享行为的样本;所述装置还包括获取模块,用于获取所述评估模型,所述获取模块,还包括:
[0164]
第一获取子模块,用于按照多个正负样本比例,对所述负训练样本进行抽取,得到多个训练样本集;
[0165]
第二获取子模块,用于使用所述多个训练样本集,分别对预设模型进行训练,得到多个候选评估模型;
[0166]
第三获取子模块,用于对所述多个候选评估模型进行测试,得到测试结果;
[0167]
第四获取子模块,用于根据所述测试结果,从所述多个候选评估模型中确定出目
标评估模型。
[0168]
在一种实施例中,第二获取子模块,包括:
[0169]
第一训练单元,用于使用该训练数据集中的全部正样本和正样本数量n倍的负样本对所述预设模型进行训练,得到第一训练后评估模型;
[0170]
第二训练单元,用于使用该训练数据集中的所述全部正样本和所述第一次训练后评估模型评估错误的负样本对所述预设模型进行训练,得到第二训练后评估模型;
[0171]
第三训练单元,用于使用该训练数据集中的所述全部正样本和所述第二次训练后评估模型评估错误的负样本对所述预设模型进行训练,得到第三训练后评估模型;
[0172]
第四训练单元,用于根据所得到的三个训练后评估模型各自的模型参数,确定候选评估模型的模型参数。
[0173]
本发明实施例还提供了一种电子设备,参照图4,图4是本技术实施例提出的电子设备的示意图。如图4所示,电子设备100包括:存储器110和处理器120,存储器110与处理器120之间通过总线通信连接,存储器110中存储有计算机程序,该计算机程序可在处理器120上运行,进而实现本技术实施例公开的一种识别用户账户的恶意分享行为的方法中的步骤。
[0174]
本技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现如本技术实施例公开的所述的一种识别用户账户的恶意分享行为的方法中的步骤。
[0175]
本发明实施例提供的提供了本发明实施例提供的方法包括:首先,获取用户账户的当前时间段内的使用行为日志以及历史时间段内的使用行为日志,历史时间段至少包含当前时间段;然后,通过评估模型对当前时间段内的使用行为日志进行评估,得到评估结果;该评估模型是以携带标记的样本用户账户的使用行为日志为训练样本,从而训练得到的;此外,根据历史时间段内的使用行为日志,确定用户账户在历史时间段内是否满足后置规则,该后置规则用于确定所述用户账户在所述历史时间段内是否存在恶意分享行为;最后,根据评估结果和用户账户是否满足后置规则,确定该用户账户在当前时间段内是否存在恶意分享行为。本发明实施例通过评估模型对用户账户的使用行为日志进行分析,将模型的评估结果与后置规则相结合,从而判断该用户账户是否存在恶意分享行为。一方面,利用标记的样本用户账户的使用行为日志作为训练数据,训练得到的评估模型对用户账户的评估更加准确高效;另一方面,将评估结果结合后置规则来判断该用户账户是否存在恶意分享行为,进一步保证了识别结果的准确性,降低误判概率,减少用户投诉的可能性。
[0176]
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
[0177]
本发明实施例是参照根据本发明实施例的方法、装置、电子设备和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0178]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0179]
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0180]
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
[0181]
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
[0182]
以上对本发明所提供的一种识别用户账户的恶意分享行为的方法、装置、设备和介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献