一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据检测方法、装置、计算机设备以及存储介质与流程

2021-11-26 21:32:00 来源:中国专利 TAG:


1.本技术涉及数据处理的技术领域,尤其涉及一种数据检测方法、装置、计算机设备以及存储介质。


背景技术:

2.随着计算机网络的不断发展,各种应用平台纷涌而出,各个应用平台中的用户数量也在以极快的速度不断增长,一个应用平台中一天就可能新注册有数百万级的用户账号,而该数百万级的用户账号中极大可能存在恶意团伙批量注册的用户账号。
3.现有技术中,由于在恶意团伙通过所注册的用户账号进行恶意操作之前,系统很难从注册的大量用户账号中发现恶意团伙注册的用户账号。因此,只有在恶意团伙通过所注册的用户账号进行恶意操作之后,系统通过针对恶意操作的相关检测策略检测到这种恶意操作,才能发现执行该恶意操作的用户账号。由此可见,现有技术中针对恶意团伙所注册的用户账号的异常检测具有时间滞后性,不能及时发现恶意用户账号。


技术实现要素:

4.本技术提供了一种数据检测方法、装置、计算机设备以及存储介质,可对异常对象进行及时检测,以提高对象所在系统的安全性。
5.本技术一方面提供了一种数据检测方法,包括:
6.获取对象集;对象集中包括m个对象、m个对象中每个对象的对象标识以及m个对象中每个对象的对象画像特征;m为整数;
7.根据对象集中每个对象的对象标识对m个对象进行聚类,形成n个对象分组;n为整数且n大于2;
8.根据对象集中每个对象分组分别包括的对象的对象画像特征,生成每个对象分组的分组特征;
9.根据n个对象分组的分组特征检测n个对象分组中的异常对象分组,并将异常对象分组中的对象确定为对象集中的异常对象。
10.可选的,m个对象为用户群组中的m个群用户;异常对象为m个群用户中的异常群用户;
11.上述方法还包括:
12.从用户群组中过滤异常群用户。
13.本技术一方面提供了一种数据检测装置,包括:
14.对象获取模块,用于获取对象集;对象集中包括m个对象、m个对象中每个对象的对象标识以及m个对象中每个对象的对象画像特征;m为整数;
15.分组模块,用于根据对象集中每个对象的对象标识对m个对象进行聚类,形成n个对象分组;n为整数且n大于2;
16.特征生成模块,用于根据对象集中每个对象分组分别包括的对象的对象画像特
征,生成每个对象分组的分组特征;
17.对象检测模块,用于根据n个对象分组的分组特征检测n个对象分组中的异常对象分组,并将异常对象分组中的对象确定为对象集中的异常对象。
18.可选的,对象集中每个对象的对象标识包括该每个对象的对象名称;
19.分组模块根据对象集中每个对象的对象标识对m个对象进行聚类,形成n个对象分组的方式,包括:
20.获取m个对象中每个对象的对象名称的名称关键词;
21.将m个对象中具有相似的名称关键词的对象划分到相同的对象分组,得到n个对象分组。
22.可选的,分组模块根据对象集中每个对象的对象标识对m个对象进行聚类,形成n个对象分组的方式,包括:
23.根据对象集中每个对象的对象标识对m个对象进行聚类,得到k个初始对象分组;k为大于或等于n的整数;
24.分别获取每个初始对象分组所包括的对象的对象数量;
25.根据k个初始对象分组中对应的对象数量大于对象数量阈值的初始对象分组,确定n个对象分组。
26.可选的,分组模块根据k个初始对象分组中对应的对象数量大于对象数量阈值的初始对象分组,确定n个对象分组的方式,包括:
27.将k个初始对象分组中对应的对象数量大于对象数量阈值的初始对象分组确定为过渡对象分组;
28.分别获取每个过渡对象分组中所包括对象的对象数量;
29.将所对应的对象数量处于相同对象数量区间的过渡对象分组划分到相同的分组集合,得到至少一个分组集合;
30.获取每个分组集合中所包括的过渡对象分组的分组数量,将对应的分组数量大于分组数量阈值的分组集合确定为目标分组集合;
31.将目标分组集合中的过渡对象分组确定为n个对象分组。
32.可选的,上述装置还包括:
33.独立对象确定模块,用于将m个对象中不属于n个对象分组的对象确定为独立对象;
34.独立特征获取模块,用于从对象集中获取每个独立对象的对象画像特征;
35.独立对象检测模块,用于根据每个独立对象的对象画像特征检测独立对象中的异常独立对象。
36.可选的,n个对象分组包括第i个对象分组,i为整数且i小于或等于n;
37.特征生成模块根据对象集中每个对象分组分别包括的对象的对象画像特征,生成每个对象分组的分组特征的方式,包括:
38.从对象集中获取第i个对象分组中每个对象的对象画像特征;
39.对第i个对象分组中每个对象的对象画像特征进行特征聚合,得到第i个对象分组i的分组特征。
40.可选的,对象检测模块根据n个对象分组的分组特征检测n个对象分组中的异常对
象分组的方式,包括:
41.获取每个对象分组的分组特征之间的特征差异性;
42.根据特征差异性检测n个对象分组中的异常对象分组。
43.可选的,对象检测模块获取每个对象分组的分组特征之间的特征差异性的方式,包括:
44.根据每个对象分组的分组特征训练初始孤立森林结构,得到目标孤立森林结构;
45.根据目标孤立森林结构以及每个对象分组的分组特征,确定每个对象分组分别对应的异常概率值;每个对象分组分别对应的异常概率值表征每个对象分组的分组特征之间的特征差异性;
46.对象检测模块根据特征差异性检测n个对象分组中的异常对象分组的方式,包括:
47.将n个对象分组中所对应的异常概率值大于异常概率阈值的对象分组确定为异常对象分组。
48.可选的,对象检测模块根据每个对象分组的分组特征训练初始孤立森林结构,得到目标孤立森林结构的方式,包括:
49.分别获取每个对象分组所包括的对象的对象数量;
50.将所对应的对象数量处于相同对象数量区间的对象分组划分到相同的分组集合,得到l个分组集合;l为正整数;
51.分别根据每个分组集合所包括的对象分组的分组特征训练初始孤立森林结构,得到目标孤立森林结构;一个分组集合对应一个目标孤立森林结构。
52.可选的,l个分组集合包括第j个分组集合,j为整数且j小于或等于l;每个对象分组的分组特征均包括w维特征类型上的特征值;
53.对象检测模块分别根据每个分组集合所包括的对象分组的分组特征训练初始孤立森林结构,得到目标孤立森林结构的方式,包括:
54.对第j个分组集合中的对象分组进行采样,将采样得到的对象分组确定为目标对象分组;
55.对w维特征类型进行采样,将所采样的维度上的特征类型确定为目标特征类型;
56.根据目标对象分组的分组特征中属于目标特征类型的特征值训练初始孤立森林结构,得到目标孤立森林结构。
57.可选的,对象检测模块根据目标对象分组的分组特征中属于目标特征类型的特征值训练初始孤立森林结构,得到目标孤立森林结构的方式,包括:
58.将目标对象分组的分组特征中属于目标特征类型的特征值确定为目标特征值;
59.获取目标特征值对应的第一临界特征值和第二临界特征值;
60.根据第一临界特征值和第二临界特征值,确定针对初始孤立森林结构的分支切割点;
61.根据分支切割点构造初始孤立森林结构中的结构树,根据所构造的结构树确定目标孤立森林结构。
62.可选的,m个对象为目标时间段内的m个注册用户;异常对象为m个注册用户中的异常注册用户;
63.上述装置还用于:
64.根据权限制裁策略对目标时间段内的异常注册用户的用户权限进行制裁。
65.本技术一方面提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行本技术中一方面中的方法。
66.本技术一方面提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时使该处理器执行上述一方面中的方法。
67.根据本技术的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述一方面等各种可选方式中提供的方法。
68.本技术可以获取对象集;对象集中包括m个对象、m个对象中每个对象的对象标识以及m个对象中每个对象的对象画像特征;m为整数;根据对象集中每个对象的对象标识对m个对象进行聚类,形成n个对象分组;n为整数且n大于2;根据对象集中每个对象分组分别包括的对象的对象画像特征,生成每个对象分组的分组特征;根据n个对象分组的分组特征检测n个对象分组中的异常对象分组,并将异常对象分组中的对象确定为对象集中的异常对象。由此可见,本技术提出的方法可以对对象集中的对象进行分组,得到对象分组,进而可以以对象分组为单位快速检测出对象集中的异常对象,并且,只要在得到对象集时就可以及时检测出对象集中的异常对象。
附图说明
69.为了更清楚地说明本技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
70.图1是本技术实施例提供的一种检测异常用户的网络架构的结构示意图;
71.图2是本技术提供的一种检测异常用户的场景示意图;
72.图3是本技术提供的一种数据检测方法的流程示意图;
73.图4是本技术提供的一种获取对象分组的场景示意图;
74.图5是本技术提供的一种获取目标孤立森林结构的场景示意图;
75.图6是本技术提供的一种检测异常对象的场景示意图;
76.图7是本技术提供的一种检测异常对象的场景示意图;
77.图8是本技术提供的一种检测异常对象的流程示意图;
78.图9是本技术提供的一种数据检测装置的结构示意图;
79.图10是本技术提供的一种计算机设备的结构示意图。
具体实施方式
80.下面将结合本技术中的附图,对本技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属
于本技术保护的范围。
81.本技术涉及到人工智能相关技术。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
82.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
83.本技术中主要涉及到了人工智能中的机器学习。其中,机器学习(machine learning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
84.本技术中所涉及到的机器学习主要指,如何训练得到目标孤立森林结构。以通过该目标孤立森林结构来检测出对象集中的异常对象,具体可以参见下述图3对应的实施例中的描述。
85.本技术还涉及到区块链的相关技术。其中,区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。区块链中包括一系列按照产生的先后时间顺序相互接续的区块(block),新区块一旦加入到区块链中就不会再被移除,区块中记录了区块链系统中节点提交的记录数据。本技术中,可以将所检测出的对象集中的异常对象添加至区块链中进行存储,以保证异常对象的不可篡改性,进而可以保证后续需要获取异常对象时,可以获取到真实的异常对象。
86.请参见图1,图1是本技术实施例提供的一种检测异常用户的网络架构的结构示意图。如图1所示,网络架构可以包括服务器200和终端设备集群,终端设备集群可以包括一个或者多个终端设备,这里将不对终端设备的数量进行限制。如图1所示,多个终端设备具体可以包括终端设备100a、终端设备101a、终端设备102a、

、终端设备103a;如图1所示,终端设备100a、终端设备101a、终端设备102a、

、终端设备103a均可以与服务器200进行网络连接,以便于每个终端设备可以通过网络连接与服务器200之间进行数据交互。
87.如图1所示的服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是:智能手机、平板电脑、笔记本电脑、桌上型电
脑、智能电视等智能终端。
88.图1中的各个终端设备,包括终端设备100a、终端设备101a、终端设备102a、

、终端设备103a,均可以是用户的终端设备,各个用户的终端设备中都可以安装有应用客户端,用户可以在应用客户端中进行账号注册。服务器200可以是该应用客户端的后台服务器,因此,当用户在应用客户端中进行账号注册之后,服务器200就可以获取到在应用客户端中注册的所有用户构成的用户群。进而服务器200可以在该用户群中检测出异常用户,认为该异常用户的注册行为是异常的。
89.请一并参见图2,图2是本技术提供的一种检测异常用户的场景示意图。如图2所示,服务器200可以获取到用户群100b,用户群100b中包括在应用客户端注册的若干个用户。服务器200可以获取到用户群100b中各个用户的用户昵称(可以简称昵称),该用户昵称可以是用户在应用客户端中注册账号时自行设置的账号名称。
90.进而,服务器200可以通过各个用户的用户昵称对各个用户进行分组,将具有相似昵称的用户分到一个用户分组,由此可以得到n个用户分组,该n个用户分组具体包括框101b中的用户分组1~用户分组n,n为正整数,n的取值根据实际分组情况确定。
91.服务器200还可以获取到用户群中每个用户的用户画像特征,该用户画像特征可以包括用户多维的特征,如可以包括用户注册账号时的年龄特征、职业特征、证件类型特征以及网络地址特征等。服务器200可以分别对每个用户分组中的用户的用户画像特征进行特征聚合,以得到每个用户分组分别对应的分组特征。
92.如框102b所示,服务器200可以对用户分组1中的用户的用户画像特征进行特征聚合,即可得到用户分组1的分组特征1;服务器200可以对用户分组2中的用户的用户画像特征进行特征聚合,即可得到用户分组2的分组特征2;
……
;服务器200可以对用户分组n中的用户的用户画像特征进行特征聚合,即可得到用户分组n的分组特征n。
93.进一步地,服务器200可以根据各个用户分组的分组特征之间的特征差异性,来检测n个用户分组中的异常用户分组103b,该异常用户分组103b可以理解为是n个用户分组中,所对应的分组特征与大部分用户分组的分组特征不同的用户分组。在检测到异常用户分组103b之后,服务器200就可以将该异常用户分组103b中所包括的用户确认为是用户集中的异常用户104b。因此服务器200可以对该异常用户104b的用户权限进行限制,例如限制(如禁止)异常用户104b进行支付操作的用户权限。
94.其中,上述用户集可以是图3对应实施例中的对象集,用户分组可以是图3对应实施例中的对象分组,异常用户分组可以是图3对应实施例中的异常对象分组,异常用户可以是图3对应实施例中的异常对象,因此如何从用户集中检测出异常用户的具体过程,还可以参见下述图3中所描述的从对象集中检测出异常对象的具体内容。
95.通过本技术所提供的方法,可以在用户在应用客户端注册账号之后,就检测所注册的用户是否属于异常用户,而无需在异常用户进行作恶(如利用注册的账号进行赌博、色情或者诈骗的作恶操作)之后,才来滞后地分析和发现注册的用户中哪些属于异常用户。因此,采用本技术所提供的方法,可以提前规避异常用户的作恶操作,提高了应用系统的安全性。
96.请参见图3,图3是本技术提供的一种数据检测方法的流程示意图。本技术实施例中的执行主体可以是一个计算机设备或者多个计算机设备所构成的计算机设备集群。该计
算机设备可以是服务器,也可以终端设备。因此,本技术实施例中的执行主体可以是服务器,也可以是终端设备,还可以是由服务器和终端设备共同构成。此处,以本技术中的执行主体为服务器为例进行说明。如图3所示,该方法可以包括:
97.步骤s101,获取对象集;对象集中包括m个对象、m个对象中每个对象的对象标识以及m个对象中每个对象的对象画像特征;m为整数。
98.本技术中,服务器可以获取到对象集,该对象集中可以包括m个对象,m为整数,m的具体取值可以根据实际应用场景决定,对此不做限制,即对象集中的对象的数量可以根据实际应用场景决定。该m个对象可以是任意的对象,例如该m个对象可以是某个时间段内在客户端注册的m个用户账号,或者该m个对象还可以是一个应用客户端中所注册的全量的用户,或者该m个对象还可以是一个用户群组中的m个用户(可以称之为群用户)。
99.更多的,对象集中还可以包括m个对象中每个对象的对象标识,一个对象可以对应有一个对象标识,该对象标识可以是对象的对象名称也可以是对象的对象号。例如,若对象为在客户端注册的用户账号,则对象名称可以是该用户账号的账号名称,该账号名称可以是用户在注册用户账号时自行设置的账号名(可以是文本、数字、符号以及字母的任意组合)。再例如,若对象为用户账号,则对象标识可以是用户为该用户账号所设置的一串账号字符(可以是由数字或者字母组成)。
100.此外,对象集中还可以包括m个对象中每个对象的对象画像特征,一个对象可以对应有一个对象画像特征。一个对象的对象画像特征中可以包括对象的多维对象特征。例如若对象为在客户端注册的用户账号,则该对象的对象画像特征可以包括对该用户账号所设置的性别、年龄、职业、所在城市、相关证件类别(如身份证类别)、相关证件号码(如身份证号)的对象特征,以及注册用户账号时的设备型号、设备网络地址、设备定位(该设备定位可以是设备所承载的手机号所在的城市)等对象特征。
101.可选的,当对象为用户在客户端注册的用户账号时,用户通过所属设备注册用户账号之后,对该用户账号相关的注册信息均会同步给服务器,因此,服务器所获取到的对象集,可以是根据用户在注册用户账号时所同步过来的相关注册信息所得到的。
102.步骤s102,根据对象集中每个对象的对象标识对m个对象进行聚类,形成n个对象分组;n为整数且n大于2。
103.本技术中,以对象为用户账号为例,由于恶意团伙在批量得到对象时(例如批量注册用户账号时),通常会对所得到的对象设置相似或者相同的对象标识(例如设置相同或者相似的对象名称),因此,服务器可以通过对象集中各个对象的对象标识对对象集中各个对象进行聚类分组,例如将具有相似对象标识的对象分到相同的对象分组,以得到n个对象分组,n为整数并且n可以大于2,n的具体取值根据对对象的实际分组情形决定。一个对象分组中可以包括多个对象。
104.可选的,服务器通过对象集中各个对象的对象标识对对象集中各个对象进行聚类分组的第一种方式可以是:
105.此种方式以对象标识为对象名称为例进行说明,服务器可以获取对象集中每个对象的对象名称中的名称关键词:服务器可以通过正则匹配,快速将各个对象的对象名称中的无意义的内容(例如表情、符号以及数字等)去掉,得到各个对象的对象名称中的关键词(可以称之为名称关键词),一个对象的对象名称中可以包括一个或者多个名称关键词。
106.进而,服务器可以将m个对象中,具有相似的名称关键词的对象划分到相同的对象分组,可以得到n个对象分组。可选的,若两个对象的对象名称中,具有至少一个(也可以是至少两个,具体数量根据实际应用场景决定)相似或者相同的名称关键词,则可以认为该两个对象具有相似的名称关键词。其中,两个名称关键词相似可以指该两个名称关键词语义相似或者词性相似等。
107.例如,对象a的对象名称“乐乐1”中包括名称关键词“乐乐”,对象b的对象名称“乐乐2”中包括名称关键词“乐乐”,则对象a的对象名称和对象b的对象名称具有一个相同的名称关键词,因此可以将对象a和对象b划分到同一个对象分组。再例如,对象c的对象名称“好开心”中包括名称关键词“开心”,对象d的对象名称“很愉快”中包括名称关键词“愉快”,名称关键词“开心”和名称关键词“愉快”为相似的名称关键词,因此,对象c的对象名称和对象d的对象名称具有一个相似的名称关键词,因此可以将对象c和对象d划分到同一个对象分组。
108.可选的,服务器通过对象集中各个对象的对象标识对对象集中各个对象进行聚类分组的第二种方式可以是:
109.服务器可以直接检测各个对象的对象标识之间的标识相似度(该标识相似度可以是文本相似度),服务器可以将对应的标识相似度大于标识相似度阈值的对象划分到相同的对象分组,也可以得到上述n个对象分组。例如,若对象a的对象标识为“111abc”,对象b的对象标识为“222abc”,对象标识“111abc”和对象标识“222abc”之间的标识相似度大于标识相似度阈值,则可以将该对象a和对象b划分到相同的对象分组。
110.更多的,可以将服务器通过对象的对象标识之间的相似度所分组得到的k个对象分组,称之为初始对象分组,k为大于或者等于n的整数。服务器可以分别获取每个初始对象分组所包括的对象的数量(可以称之为对象数量),进而服务器可以通过该k个初始对象分组中所包括的对象的对象数量大于对象数量阈值的初始对象分组,来得到上述n个对象分组,请参见下述内容描述。
111.上述对象数量阈值的具体数值可以根据实际应用场景决定,例如对象数量阈值可以等于6,那么,可以通过包含的对象的对象数量大于6的初始对象分组来得到对象分组,由此可见,一个对象分组中的对象的数量需要大于对象数量阈值。这是由于对对象进行分组得到对象分组之后,需要考虑整个对象分组的分组特征,而不单单是考虑每个对象的对象画像特征,因此,需要对象分组中的对象的数量大于对象数量阈值,才能更好保证一个对象分组的分组特征对于所包含的每个对象而言具有合适的泛化程度,换句话说,当一个对象分组中的对象的数量大于对象数量阈值时,该对象分组的分组特征更能统一表征该对象分组中各个对象的对象特征(如对象画像特征)。反之,若一个对象分组中的对象的数量很少,如数量小于或等于对象数量阈值,则该通常对象分组的分组特征对于所包含的各个对象而言其泛化程度还不够,用该对象分组的分组特征来表征该对象分组中各个对象的对象特征是不准确的。
112.进一步地,可以将上述k个初始对象分组中所包括的对象的对象数量大于对象数量阈值的初始对象分组称之为过渡对象分组,服务器也可以分别获取到每个过渡对象分组中所包括对象的对象数量。进而服务器可以将对应的对象数量处于相同对象数量区间的过渡对象分组划分到相同的分组集合,可以得到一个或者多个分组集合,一个分组集合可以
包括一个或者多个过渡对象分组。
113.上述对象数量区间也可以有多个,该多个对象数量区间可以是预先设定好的,每个对象数量区间的区间大小可以相同也可以不同。例如,上述对象数量阈值可以是6,对象数量区间有4个,分别为(6,10]、(10,50]、(50,100]和(100,正无穷]。因此,可以将所包括的对象的对象数量大于6且小于等于10(处于对象数量区间(6,10])的过渡对象分组划分到同一个分组集合;可以将所包括的对象的对象数量大于10且小于等于50(处于对象数量区间(10,50])的过渡对象分组划分到同一个分组集合;可以将所包括的对象的对象数量大于50且小于等于100(处于对象数量区间(10,50])的过渡对象分组划分到同一个分组集合;可以将所包括的对象的对象数量大于100(处于对象数量区间(100,正无穷])的过渡对象分组划分到同一个分组集合。
114.因此,服务器可以分别统计每个分组集合中所包括的过渡对象分组的数量(可以称之为分组数量),并可以将所包括的过渡对象分组的分组数量大于分组数量阈值的分组集合,称之为目标分组集合,目标分组集合可以有一个或者多个。进而服务器可以将目标分组集合中所包括的过渡对象分组作为上述n个对象分组。
115.其中,上述分组数量阈值的具体数值可以根据实际应用场景决定,例如分组数量阈值可以是100,那么当一个分组集合中的过渡对象分组的分组数量小于或等于100时,就不会将该分组集合中的过渡对象分组作为对象分组,而会将所包括的过渡对象分组的分组数量大于100的分组集合中的过渡对象分组,作为最终的对象分组。
116.这是由于通过实验可知,对于所包括的对象的对象数量处于相同对象数量区间(可以理解为处于相同数量级)的对象分组而言,对象分组的分组特征对于所包括的对象的对象特征的泛化程度是均衡的,换句话说,对于所包括的对象的对象数量处于相同对象数量区间的对象分组而言,对该包括的对象的对象数量处于相同对象数量区间的对象分组进行异常对象分组的检测效果是差不多的,因此,通过将对象分组再次进行分组,将所包括的对象的对象数量处于相同对象数量区间的对象分组划分到同一个分组集合,再在各个分组集合中检测异常对象分组是更为准确并贴合实际场景的。
117.而在多个对象分组(如一个分组集合中的多个对象分组)中检测异常对象分组,可以是根据该多个对象分组的分组特征之间的差异性(可以称之为特征差异性)进行检测的,因此,需要保证该多个对象分组的分组数量大于分组数量阈值,才能更好地确保能够从该多个对象分组的分组特征中识别出较为正常的分组特征,区分出较为异常的分组特征,进而检测出异常对象分组,该异常对象分组就是n个对象分组中,所对应的分组特征区别于大部分对象分组的分组特征的对象分组。其中,如何检测n个对象分组中的异常对象分组的具体过程,请参见下述步骤s104中的内容描述。
118.请参见图4,图4是本技术提供的一种获取对象分组的场景示意图。如图4所示,首先,服务器可以通过对象集100c中各个对象的对象标识之间的相似度对对象集中的m个对象进行分组,可以得到框101c中的k个初始对象分组,具体包括初始对象分组1~初始对象分组k,一个初始对象分组k中可以包括一个或者多个对象。
119.进而,服务器可以获取到每个初始对象分组所包括的对象的对象数量,并可以将所对应的对象数量大于对象数量阈值的初始对象分组,作为框102c中的g个过渡对象分组,具体包括过渡对象分组1~过渡对象分组g,g为正整数,g的具体取值根据实际应用场景决
定。
120.服务器还可以检测每个过渡对象分组所包括的对象的对象数量属于哪个对象数量区间,并可以将对应的对象数量属于相同对象数量区间的过渡对象分组划分到相同的分组集合,得到框103c中的l个分组集合,包括分组集合1~分组集合l,一个分组集合可以包括一个或者多个过渡对象分组,l为正整数,l的具体取值根据实际应用场景决定。
121.因此,服务器可以获取每个分组集合所包括的过渡对象分组的分组数量,并可以将对应的分组数量大于分组数量阈值的分组集合作为目标分组集合,进而将目标分组集合中的过渡对象分组作为框104c中的n个对象分组,包括对象分组1~对象分组n。
122.步骤s103,根据对象集中每个对象分组分别包括的对象的对象画像特征,生成每个对象分组的分组特征。
123.本技术中,服务器可以根据每个对象分组分别包括的对象的对象画像特征,来生成每个对象分组的分组特征,一个对象分组可以对应有一个分组特征,该分组特征可以是多维的,例如可以是200维的特征。
124.其中,一个对象分组的分组特征可以是对该对象分组中的对象的对象画像特征进行特征聚合得到。例如,若对象的对象画像特征包括对对象设置的年龄(例如对用户账号设置的用户年龄),则一个对象分组的分组特征中一个维度的特征可以是该对象分组中所有对象对应的年龄的平均值,一个维度的特征还可以是该对象分组中所有对象对应的年龄的中位数。
125.再例如,若对象的对象画像特征包括同设备对象数(例如注册某个用户账号的设备中所登录过的所有用户账号的数量),则一个对象分组的分组特征中一个维度的特征可以该对象分组中所有对象对应的同设备对象数的方差,。
126.还例如,若对象的对象画像特征包括对象活跃度(例如用户账号的活跃度,可以是客户端计算得到),则一个对象分组的分组特征中的一个维度的特征可以是该对象分组中所有对象对应的对象活跃度的方差、平均值或中位数等。
127.例如,n个对象分组可以包括第i个对象分组,i为整数且i小于等于n。因此,可以从对象集中获取到该第i个对象分组中每个对象的对象画像特征,进而,可以对该第i个对象分组中每个对象的对象画像特征进行特征聚合,即可得到该第i个对象分组的分组特征。
128.可以理解的是,上述仅为举例的对对象分组中各个对象的对象画像特征进行聚合的几种方式,而对象的对象画像特征包括哪些特征以及如何对对象分组中各个对象的对象画像特征进行聚合的方式,均可以根据实际应用场景决定,对此不做限制。
129.步骤s104,根据n个对象分组的分组特征检测n个对象分组中的异常对象分组,并将异常对象分组中的对象确定为对象集中的异常对象。
130.本技术中,服务器可以根据n个对象分组的分组特征之间的特征差异性来检测n个对象分组中的异常对象分组,并可以将所检测到得到的异常对象分组中所包括的对象,作为检测出的对象集中的异常对象。
131.可选的,上述m个对象可以是在目标时间段内的m个注册用户,该注册用户与上述注册的用户账号类似,可以是在客户端的注册用户。因此,检测出的对象集中的异常对象可以是该m个注册用户中的异常注册用户,该异常注册用户也就是目标时间段内属于异常的注册用户,该异常注册用户很有可能是作恶团伙批量注册的注册用户。
132.因此,可以根据权限制裁策略对该异常注册用户的用户权限进行制裁,该权限制裁策略可以是预先设定好的,例如该权限制裁策略可以是制裁异常注册用户的支付权限,对该异常注册用户的支付权限进行制裁之后,该异常注册用户就不能再进行支付的操作,需要进行额外的身份验证且身份验证通过之后,才能再次进行支付的操作,例如可以让异常注册用户进行额外的人脸识别验证,验证通过后,才给异常注册用户恢复支付权限。其中,权限制裁策略根据实际应用场景决定,对此不作限制。
133.可选的,上述m个对象还可以是用户群组中的m个群用户,因此,检测出来的对象集中的异常对象可以是该m个群用户中的异常群用户。因此,服务器可以将检测出的异常群用户从该用户群组中过滤掉,即将检测出的异常群用户从用户群组中踢出。
134.更多的,服务器从n个对象分组中检测出异常对象分组的具体过程可以是:获取每个对象分组的分组特征之间的特征差异性;根据特征差异性检测n个对象分组中的异常对象分组:
135.首先,服务器可以对每个对象分组进行分组,得到分组集合,即按照上述步骤s101中所描述的,将所包含的对象处于相同对象数量区间的对象分组分到一个分组集合,得到l个分组集合,进而服务器可以分别从每个分组集合所包括的对象分组中检测出异常对象分组。其中,l为正整数,l的具体取值根据实际应用场景决定。
136.因此,服务器可以以分组集合为单位,分别获取每个分组集合中的对象分组的分组特征之间的特征差异性,进而就可以根据每个分组集合中的对象分组的分组特征之间的特征差异性,分别检测每个分组集合中的异常对象分组。
137.其中,由于检测每个分组集合中的异常对象分组的原理均相同且互不影响,因此,下述以检测一个分组集合中的异常对象分组的过程为例进行说明,请参见下述内容描述。
138.首先,服务器获取分组集合中各个对象分组的分组特征之间的特征差异性的原理可以是:服务器可以通过分组集合中各个对象分组的分组特征训练初始孤立森林结构,以得到目标孤立森林结果,一个分组集合对应一个初始孤立森林结构,即一个分组集合对应一个目标孤立森林结构。
139.其中,l个分组集合可以包括第j个分组集合,j为整数且j小于或者等于l。此处,以通过第j个分组集合训练初始孤立森林结构以得到目标孤立森林结构的过程为例进行说明:
140.假设每个对象分组的分组特征均包括w维特征类型上的特征值,分组特征中一维的特征对应于一维特征类型,w为正整数,w的具体取值根据实际应用场景决定。服务器可以通过第j个分组集合对初始孤立森林结构进行若干次(具体次数根据实际应用场景决定)训练,且每次训练都会对第j个分组集合中的对象分组进行采样,也会对w维特征类型进行采样,以通过采样的对象分组的分组特征中在采样维度上的特征类型对应的特征值进行初始孤立森林结构的训练。
141.具体的,服务器可以对第j个分组集合中的对象分组进行随机采样,即对第j个分组集合中的各个对象分组的采样概率相等,可以将采样得到的对象分组称之为目标对象分组,目标对象分组的数量为多个,目标对象分组的数量可以根据实际应用场景决定。同样,服务器可以对w维特征类型进行随机采样,对该w维特征类型进行采样的概率也是相等的,可以将w维特征类型中采样的维度上的特征类型称之为目标特征类型,目标特征类型的数
量也可以有多个,目标特征类型的数量也可以根据实际应用场景决定。
142.因此,服务器可以通过目标对象分组的分组特征中属于目标特征类型的特征值,来训练初始孤立森林结构。并且,对于初始孤立森林结构的每次训练,目标对象分组和目标特征类型都是随机采样的,因此,通常对于初始孤立森林结构的每次训练而言,训练其的目标对象分组和目标特征类型都会不相同。通过对初始孤立森林结构进行若干次训练之后,即可将训练完成的初始孤立森林结构作为第j个分组集合对应的目标孤立森林结构。
143.其中,通过目标对象分组的分组特征中属于目标特征类型的特征值来训练初始孤立森林结构的过程可以是:
144.可以将目标对象分组的分组特征中属于目标特征类型的特征值称之为目标特征值,服务器可以获取目标特征值的第一临界特征值和第二临界特征值,一个目标特征值可以对应一个第一临界特征和一个第二临界特征值,该第一临界特征值可以是所有目标对象分组的分组特征中目标特征值的最小值,该第二临界特征值可以是所有目标对象分组的分组特征中目标特征值的最大值。
145.例如,目标特征类型可以是年龄的类型,分组特征中可以包括目标特征值“年龄”,如18岁,则第一临界特征值可以是目标对象分组的分组特征的所有特征值“年龄”中的最小值,第二临界特征值可以是目标对象分组的分组特征的所有特征值“年龄”中的最大值,如50岁。
146.因此,服务器可以根据目标特征值对应的第一临界特征值和第二临界特征值,得到针对初始孤立森林结构的分支切割点。由于初始孤立森林结构可以包括多个结构树,因此,该分支切割点是为了生成初始孤立森林结构中的结构树的切割点,该分支切割点可以是第一临界特征值和第二临界特征值间的任意数值。由于一个结构树可以包括多个节点,该多个节点可以包括根节点,根节点就可以包括一维特征类型上的所有目标特征值。因此在构造结构树时,一个节点可以采样一个分支切割点,通过一个分支切割点可以将一个节点上的目标特征值分割为两部分,从而构造得到新的节点,即大于分支切割点的部分目标特征值(可以对应一个节点)和小于等于分支切割点的部分目标特征值(可以对应于一个节点)。
147.需要进行说明的是,在对初始孤立森林结构的每次训练过程中,初始孤立森林结构中的每个结构树均会各自对分组集合中的对象分组进行采样,也会各自对w维特征类型进行采样,每个结构树所采样得到的对象分组以及特征类型可以是不同的。
148.由上可知,通过不断在各个已有的节点(最开始已有的节点只有根节点)采样分支切割点,可以将各个已有的节点上的目标特征值分割成两部分,也就是构造得到两个新的节点,通过不断构造新节点,就可以构造得到最终的结构树。可理解的是,在同一时间构造一个结构树时,只通过一维度特征类型上的目标特征值进行构造,通过对初始孤立森林结构的多次训练中,每次训练采样得到不同的目标特征类型,那么对于同一棵结构树而言,其在不同时间也可以通过不同维度特征类型上的目标特征值进行构造训练。其中,在构造结构树时,可以在各个目标特征值已经处于叶子节点,不能再分割时确认对结构树构造完成,或者也可以设定路径长度阈值,当一条路径上分割的次数达到路径长度阈值时,确认对结构树构造完成。
149.其中,通过若干次不断采样得到目标对象分组以及目标特征类型,进而通过目标
特征值来不断训练初始孤立森林结构,也就是不断构造孤立森林结构中的结构树,其训练的目的就是需要使得初始孤立森林结构中的各个结构树之间的差异越来越大,也就是使得各个结构树之间的方差越来越大,最终就可以将训练得到的包括多个差异足够大的结构树的初始孤立森林结构作为目标孤立森林结构。
150.请参见图5,图5是本技术提供的一种获取目标孤立森林结构的场景示意图。如图5所示,可以通过分组集合中的对象分组的分组特征来构造初始孤立森林结构中的结构树。此处以构造一棵结构树为例进行说明,首先,根节点可以包括对初始孤立森林结构的一次训练过程中采样得到的所有目标特征值,在根节点处可以从目标特征值所属的第一临界特征值和第二临界特征值之间随机产生一个分支切割点1。
151.进而,通过分支切割点1可以将根节点上的目标特征值分为两个部分,得到节点1和节点2,节点1上可以包括根节点上的目标特征值中小于或者等于分支切割点1的目标特征值,节点2上可以包括根节点上的目标特征值中大于分支切割点1的目标特征值。
152.同理,可以在节点1处再随机从第一临界特征值和第二临界特征值之间产生一个分支切割点2,通过该分支切割点2可以将节点1上的目标特征值分成两个部分,得到节点3和节点4,节点3上可以包括节点1上的目标特征值中小于或者等于分支切割点2的目标特征值,节点4上可以包括节点1上的目标特征值中大于分支切割点2的目标特征值。
153.同理,可以在节点2处再随机从第一临界特征值和第二临界特征值之间产生一个分支切割点3,通过该分支切割点3可以将节点2上的目标特征值分成两个部分,得到节点5和节点6,节点5上可以包括节点2上的目标特征值中小于或者等于分支切割点3的目标特征值,节点6上可以包括节点2上的目标特征值中大于分支切割点3的目标特征值。
154.可见,从根节点到节点1经过了1次分割,因此节点1的路径长度为1,从根节点到节点2经过了1次分割,因此节点2的路径长度为1,从根节点到节点3经过了2次分割,因此节点3的路径长度为2,从根节点到节点4经过了2次分割,因此节点4的路径长度为2,从根节点到节点5经过了2次分割,因此节点5的路径长度为2,从根节点到节点6经过了2次分割,因此节点6的路径长度为2。
155.通过上述相同的原理,可以继续在节点3、节点4、节点5和节点6处获取分支切割点继续对节点上的目标特征值进行分割,直到分割到叶子节点(叶子节点上只有一个目标特征值,不能再进行分割),或者直到分割到路径长度大于路径长度阈值时,就可以停止分割,得到构造的结构树。在对初始孤立森林结构的每次训练中,所构造的结构树都会不断更新。进而,服务器就可以通过最终所构造的多个结构树得到目标孤立森林结结构。
156.进一步的,在应用目标孤立森林结构时就不用再对分组集合中的对象分组以及w维特征类型进行采样,而是采用全量的数据,服务器可以通过训练得到的目标孤立森林结构、以及分组集合中各个对象分组的分组特征中全部的特征值,来生成每个对象分组分别对应的异常概率值,各个对象分组的异常概率值就表征了各个对象分组的分组特征之间的特征差异性。某个对象分组的异常概率值越大,就表明该对象分组的分组特征与其所在的分组集合中其他的对象分组的分组特征之间的特征差异性越大,该对象分组为异常对象分组的概率也就越大。反之,某个对象分组的异常概率值越小,就表明该对象分组的分组特征与其所在的分组集合中其他的对象分组的分组特征之间的特征差异性越小,该对象分组为异常对象分组的概率也就越小。
157.其中,生成任意一个对象分组对应的异常概率值s(x,n)的原理可以参见下述公式(1):
[0158][0159]
其中,x表示任意一个对象分组的分组特征,n表示所有分组集合中所有对象分组的数量,e(h(x))表示分组特征x所包括的特征值在目标孤立森林结构的各个结构树中的路径长度的综合的期望值,c(n)表示目标孤立森林结构的各个结构树的平均路径长度。ξ表示欧拉常数,约为0.5772156649,ln表示自然对数。
[0160]
因此,服务器可以将一个分组集合中,所对应的异常概率值大于异常概率阈值(可以自行设置)的对象分组作为该分组集合中的异常对象分组。通过上述过程可知,从分组集合中的多个对象分组中检测出异常对象分组的原理,就是通过孤立森林(即孤立森林结构)从该多个对象分组的分组特征中找出孤立的分组特征(即孤立的点),该孤立的分组特征也就是与大部分分组特征都不相同的分组特征。
[0161]
更多的,可以将m个对象中不属于上述n个对象分组的对象,称之为独立对象,可以将所有独立对象所构成的集合,理解为是一个分组集合,一个独立对象理解为是该分组集合中的一个对象分组,继而可以通过上述检测分组集合中的异常对象分组同样的方式,来检测出所有独立对象所构成的集合中的异常独立对象。所有独立对象可以另对应于一个目标孤立森林结构,此时,就可以从对象集中获取到各个独立对象的对象画像特征,继而可以通过各个独立对象的对象画像特征来训练对应的初始孤立森林结构,得到对应的目标孤立森林结构。同理,进而可以通过该目标孤立森林结构得到各个独立对象的异常概率值,服务器可以将对应的异常概率值大于异常概率阈值(可以自行设置)的独立对象,作为异常独立对象。该异常独立对象也为检测出的对象集中的异常对象。
[0162]
请参见图6,图6是本技术提供的一种检测异常对象的场景示意图。如图6所示,所有独立对象可以构成独立对象集合100d,可以通过独立对象集合100d训练初始孤立森林结构0,得到目标孤立森林结构0,继而可以通过目标孤立森林结构0以及各个独立对象的对象画像特征,得到独立对象集合100d中每个独立对象的异常概率值。可以将独立对象集合100d中异常概率值大于异常概率值的独立对象作为异常独立对象。
[0163]
同理,服务器可以通过分组集合1训练初始孤立森林结构1,得到目标孤立森林结构1,继而可以通过目标孤立森林结构1以及分组集合1中各个对象分组的分组特征,得到分组集合1中每个对象分组的异常概率值,可以将分组集合1中异常概率值大于异常概率值的对象分组作为异常对象分组1;
……
;服务器可以通过分组集合n训练初始孤立森林结构n,得到目标孤立森林结构n,继而可以通过目标孤立森林结构n以及分组集合n中各个对象分组的分组特征,得到分组集合n中每个对象分组的异常概率值。可以将分组集合n中异常概率值大于异常概率值的对象分组作为异常对象分组n。通过该过程即可得到分组集合1中的异常对象分组1、分组集合2中的异常对象分组2、
……
以及分组集合n中的异常对象分组n。
[0164]
因此,服务器可以将上述检测出来的异常独立对象、异常对象分组1中的对象、异常对象分组2中的对象、
……
以及异常对象分组n中的对象,作为最终检测出来的对象集
102d中的全部异常对象101d。
[0165]
请参见图7,图7是本技术提供的一种检测异常对象的场景示意图。如图7所示,对象为在应用客户端注册的新用户,用户集合100e等同于上述对象集。首先服务器可以通过用户集合100e中各个用户的昵称(等同于上述对象标识),对用户集合100e中的用户进行分组,得到框102e中的多个用户团,一个用户团就为一个对象分组。一个用户团中的用户具有相似的昵称。
[0166]
进而,如操作103e,服务器可以分别对各个用户团中的用户的用户画像特征(即上述对象画像特征)进行特征聚合,得到各个用户团的团特征,一个团特征等同于一个分组特征。如操作104e,服务器可以通过各个用户团的团特征,对各个用户团中的用户进行无监督异常检测,该无监督异常检测是通过孤立森林来检测的,具体可以参见上述过程。通过对各个用户团中的用户进行无监督异常检测,即可检测出用户集合100e中的异常用户105e。
[0167]
通过本技术的操作,可以在异常对象作恶之前,就提前及时发现和检测出异常对象,并及时对异常对象作出相应的处理(即对异常对象进行相应的打击,例如对异常对象的权限进行限制,或者直接剔除异常对象),这可以保证对象所在的系统或者平台的安全性。
[0168]
本技术可以获取对象集;对象集中包括m个对象、m个对象中每个对象的对象标识以及m个对象中每个对象的对象画像特征;m为整数;根据对象集中每个对象的对象标识对m个对象进行聚类,形成n个对象分组;n为整数且n大于2;根据对象集中每个对象分组分别包括的对象的对象画像特征,生成每个对象分组的分组特征;根据n个对象分组的分组特征检测n个对象分组中的异常对象分组,并将异常对象分组中的对象确定为对象集中的异常对象。由此可见,本技术提出的方法可以对对象集中的对象进行分组,得到对象分组,进而可以以对象分组为单位快速检测出对象集中的异常对象,并且,只要在得到对象集时就可以及时检测出对象集中的异常对象。
[0169]
请参见图8,图8是本技术提供的一种检测异常对象的流程示意图。如图8所示,对象可以指在应用客户端注册的用户,首先,可以获取时间t(可以是任意一个时间段,例如某一天的24小时)内在应用客户端新注册的所有用户100f。如操作101f,可以基于各个用户的昵称间的昵称相似度对所有用户100f进行归团(也就是进行分组),可以得到多个团体102f,一个团体就为一个对象分组。
[0170]
接着,如操作103f,可以根据团体中的人数来划分团类别,该操作等同于上述根据对象分组中对象的对象数量来划分分组集合,即将对应的对象数量处于相同对象数量区间的对象分组划分到相同的分组集合,一个分组集合对应一个团类别。通过划分团类别,可以得到5个团类别中的团体,包括“人数在1~6人的团”104f、“人数在7~10人的团”105f、“人数在11~50人的团”106f、“人数在51~100人的团”107f以及“人数在大于100人的团”108f。
[0171]
可以将“人数在1~6人的团”104f中的用户作为独立用户(即独立对象),通过操作109f构建各个独立用户的用户画像特征,进而通过操作111f以用户为单位对该各个独立用户的用户画像特征进行基于孤立森林(如通过上述训练目标孤立森林结果)的异常检测,即可发现该各个独立用户中的异常用户。
[0172]
可以对“人数在7~10人的团”105f、“人数在11~50人的团”106f、“人数在51~100人的团”107f以及“人数在大于100人的团”108f中的用户的用户画像特征分别进行聚合,得到各个团类别的团对应的团特征。同样,可以通过操作111f以团体为单位对该各个团体的
团特征进行基于孤立森林的异常检测,即可发现该各个团体中的异常团体(即异常对象分组)。
[0173]
可以将上述检测出的各个独立用户中的异常用户、以及异常团体中的用户,作为恶意批量注册用户112f,并可以对该恶意批量注册用户112f进行策略打击,例如策略打击的方式可以是限制该恶意批量注册用户112f的支付权限。由此可以实现对该恶意批量注册用户112f的及时制约。
[0174]
请参见图9,图9是本技术提供的一种数据检测装置的结构示意图。该数据检测装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该数据检测装置为一个应用软件,该数据检测装置可以用于执行本技术实施例提供的方法中的相应步骤。如图9所示,该数据检测装置1可以包括:对象获取模块11、分组模块12、特征生成模块13和对象检测模块14。
[0175]
对象获取模块11,用于获取对象集;对象集中包括m个对象、m个对象中每个对象的对象标识以及m个对象中每个对象的对象画像特征;m为整数;
[0176]
分组模块12,用于根据对象集中每个对象的对象标识对m个对象进行聚类,形成n个对象分组;n为整数且n大于2;
[0177]
特征生成模块13,用于根据对象集中每个对象分组分别包括的对象的对象画像特征,生成每个对象分组的分组特征;
[0178]
对象检测模块14,用于根据n个对象分组的分组特征检测n个对象分组中的异常对象分组,并将异常对象分组中的对象确定为对象集中的异常对象。
[0179]
可选的,对象集中每个对象的对象标识包括该每个对象的对象名称;
[0180]
分组模块12根据对象集中每个对象的对象标识对m个对象进行聚类,形成n个对象分组的方式,包括:
[0181]
获取m个对象中每个对象的对象名称的名称关键词;
[0182]
将m个对象中具有相似的名称关键词的对象划分到相同的对象分组,得到n个对象分组。
[0183]
可选的,分组模块12根据对象集中每个对象的对象标识对m个对象进行聚类,形成n个对象分组的方式,包括:
[0184]
根据对象集中每个对象的对象标识对m个对象进行聚类,得到k个初始对象分组;k为大于或等于n的整数;
[0185]
分别获取每个初始对象分组所包括的对象的对象数量;
[0186]
根据k个初始对象分组中对应的对象数量大于对象数量阈值的初始对象分组,确定n个对象分组。
[0187]
可选的,分组模块12根据k个初始对象分组中对应的对象数量大于对象数量阈值的初始对象分组,确定n个对象分组的方式,包括:
[0188]
将k个初始对象分组中对应的对象数量大于对象数量阈值的初始对象分组确定为过渡对象分组;
[0189]
分别获取每个过渡对象分组中所包括对象的对象数量;
[0190]
将所对应的对象数量处于相同对象数量区间的过渡对象分组划分到相同的分组集合,得到至少一个分组集合;
[0191]
获取每个分组集合中所包括的过渡对象分组的分组数量,将对应的分组数量大于分组数量阈值的分组集合确定为目标分组集合;
[0192]
将目标分组集合中的过渡对象分组确定为n个对象分组。
[0193]
可选的,上述装置1还包括:
[0194]
独立对象确定模块,用于将m个对象中不属于n个对象分组的对象确定为独立对象;
[0195]
独立特征获取模块,用于从对象集中获取每个独立对象的对象画像特征;
[0196]
独立对象检测模块,用于根据每个独立对象的对象画像特征检测独立对象中的异常独立对象。
[0197]
可选的,n个对象分组包括第i个对象分组,i为整数且i小于或等于n;
[0198]
特征生成模块13根据对象集中每个对象分组分别包括的对象的对象画像特征,生成每个对象分组的分组特征的方式,包括:
[0199]
从对象集中获取第i个对象分组中每个对象的对象画像特征;
[0200]
对第i个对象分组中每个对象的对象画像特征进行特征聚合,得到第i个对象分组i的分组特征。
[0201]
可选的,对象检测模块14根据n个对象分组的分组特征检测n个对象分组中的异常对象分组的方式,包括:
[0202]
获取每个对象分组的分组特征之间的特征差异性;
[0203]
根据特征差异性检测n个对象分组中的异常对象分组。
[0204]
可选的,对象检测模块14获取每个对象分组的分组特征之间的特征差异性的方式,包括:
[0205]
根据每个对象分组的分组特征训练初始孤立森林结构,得到目标孤立森林结构;
[0206]
根据目标孤立森林结构以及每个对象分组的分组特征,确定每个对象分组分别对应的异常概率值;每个对象分组分别对应的异常概率值表征每个对象分组的分组特征之间的特征差异性;
[0207]
对象检测模块14根据特征差异性检测n个对象分组中的异常对象分组的方式,包括:
[0208]
将n个对象分组中所对应的异常概率值大于异常概率阈值的对象分组确定为异常对象分组。
[0209]
可选的,对象检测模块14根据每个对象分组的分组特征训练初始孤立森林结构,得到目标孤立森林结构的方式,包括:
[0210]
分别获取每个对象分组所包括的对象的对象数量;
[0211]
将所对应的对象数量处于相同对象数量区间的对象分组划分到相同的分组集合,得到l个分组集合;l为正整数;
[0212]
分别根据每个分组集合所包括的对象分组的分组特征训练初始孤立森林结构,得到目标孤立森林结构;一个分组集合对应一个目标孤立森林结构。
[0213]
可选的,l个分组集合包括第j个分组集合,j为整数且j小于或等于l;每个对象分组的分组特征均包括w维特征类型上的特征值;
[0214]
对象检测模块14分别根据每个分组集合所包括的对象分组的分组特征训练初始
孤立森林结构,得到目标孤立森林结构的方式,包括:
[0215]
对第j个分组集合中的对象分组进行采样,将采样得到的对象分组确定为目标对象分组;
[0216]
对w维特征类型进行采样,将所采样的维度上的特征类型确定为目标特征类型;
[0217]
根据目标对象分组的分组特征中属于目标特征类型的特征值训练初始孤立森林结构,得到目标孤立森林结构。
[0218]
可选的,对象检测模块14根据目标对象分组的分组特征中属于目标特征类型的特征值训练初始孤立森林结构,得到目标孤立森林结构的方式,包括:
[0219]
将目标对象分组的分组特征中属于目标特征类型的特征值确定为目标特征值;
[0220]
获取目标特征值对应的第一临界特征值和第二临界特征值;
[0221]
根据第一临界特征值和第二临界特征值,确定针对初始孤立森林结构的分支切割点;
[0222]
根据分支切割点构造初始孤立森林结构中的结构树,根据所构造的结构树确定目标孤立森林结构。
[0223]
可选的,m个对象为目标时间段内的m个注册用户;异常对象为m个注册用户中的异常注册用户;
[0224]
上述装置1还用于:
[0225]
根据权限制裁策略对目标时间段内的异常注册用户的用户权限进行制裁。
[0226]
根据本技术的一个实施例,图3所示的数据检测方法所涉及的步骤可由图9所示的数据检测装置1中的各个模块来执行。例如,图3中所示的步骤s101可由图9中的对象获取模块11来执行,图3中所示的步骤s102可由图9中的分组模块12来执行;图3中所示的步骤s103可由图9中的特征生成模块13来执行,图3中所示的步骤s104可由图9中的对象检测模块14来执行。
[0227]
本技术可以获取对象集;对象集中包括m个对象、m个对象中每个对象的对象标识以及m个对象中每个对象的对象画像特征;m为整数;根据对象集中每个对象的对象标识对m个对象进行聚类,形成n个对象分组;n为整数且n大于2;根据对象集中每个对象分组分别包括的对象的对象画像特征,生成每个对象分组的分组特征;根据n个对象分组的分组特征检测n个对象分组中的异常对象分组,并将异常对象分组中的对象确定为对象集中的异常对象。由此可见,本技术提出的方法可以对对象集中的对象进行分组,得到对象分组,进而可以以对象分组为单位快速检测出对象集中的异常对象,并且,只要在得到对象集时就可以及时检测出对象集中的异常对象。
[0228]
根据本技术的一个实施例,图9所示的图像数据处理装置1中的各个模块可以分别或全部合并为一个或若干个单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个子单元,可以实现同样的操作,而不影响本技术的实施例的技术效果的实现。上述模块是基于逻辑功能划分的,在实际应用中,一个模块的功能也可以由多个单元来实现,或者多个模块的功能由一个单元实现。在本技术的其它实施例中,数据检测装置1也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
[0229]
根据本技术的一个实施例,可以通过在包括中央处理单元(cpu)、随机存取存储介
质(ram)、只读存储介质(rom)等处理元件和存储元件的例如计算机的通用计算机设备上运行能够执行如图3中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图9中所示的数据检测装置1,以及来实现本技术实施例的数据检测方法。上述计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算设备中,并在其中运行。
[0230]
请参见图10,图10是本技术提供的一种计算机设备的结构示意图。如图10所示,计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,计算机设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(display)、键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi

fi接口)。存储器1005可以是高速ram存储器,也可以是非不稳定的存储器(non

volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图10所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
[0231]
在图10所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
[0232]
获取对象集;对象集中包括m个对象、m个对象中每个对象的对象标识以及m个对象中每个对象的对象画像特征;m为整数;
[0233]
根据对象集中每个对象的对象标识对m个对象进行聚类,形成n个对象分组;n为整数且n大于2;
[0234]
根据对象集中每个对象分组分别包括的对象的对象画像特征,生成每个对象分组的分组特征;
[0235]
根据n个对象分组的分组特征检测n个对象分组中的异常对象分组,并将异常对象分组中的对象确定为对象集中的异常对象。
[0236]
应当理解,本技术实施例中所描述的计算机设备1000可执行前文图3对应实施例中对上述数据检测方法的描述,也可执行前文图9所对应实施例中对上述数据检测装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
[0237]
此外,这里需要指出的是:本技术还提供了一种计算机可读存储介质,且计算机可读存储介质中存储有前文提及的数据检测装置1所执行的计算机程序,且计算机程序包括程序指令,当处理器执行程序指令时,能够执行前文图3所对应实施例中对数据检测方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本技术所涉及的计算机存储介质实施例中未披露的技术细节,请参照本技术方法实施例的描述。
[0238]
作为示例,上述程序指令可被部署在一个计算机设备上执行,或者被部署位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链网络。
[0239]
上述计算机可读存储介质可以是前述任一实施例提供的数据检测装置或者上述计算机设备的内部存储单元,例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
[0240]
本技术提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前文图3对应实施例中对上述数据检测方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本技术所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本技术方法实施例的描述。
[0241]
本技术实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。
[0242]
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
[0243]
本技术实施例提供的方法及相关装置是参照本技术实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。
[0244]
以上所揭露的仅为本技术较佳实施例而已,当然不能以此来限定本技术之权利范围,因此依本技术权利要求所作的等同变化,仍属本技术所涵盖的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献