一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种异常对象的识别方法、装置、电子设备及存储介质与流程

2023-02-08 05:34:56 来源:中国专利 TAG:


1.本技术实施例涉及计算机技术领域,尤其涉及一种异常对象的识别方法、装置、电子设备及存储介质。


背景技术:

2.随着个人计算机(pc,personal computer)端、手机端业务的不断发展,用户规模的不断扩大,从合作伙伴推广监控到活动稽核再到运营分析,对网站异常数据进行分拣、清洗、过滤的需求日趋急迫,在一些情况下,网站中可能会存在大量的渠道套利用户、消费类产品(cp,consumer products)自消费用户、参与营销用户等异常用户,这类用户会对网站业务的数据统计、业务收入等产生负面的影响,因此,需要提供一种有效的方法对上述异常用户进行识别。


技术实现要素:

3.为解决上述技术问题,本技术实施例提供了一种异常对象的识别方法、装置、电子设备及存储介质。
4.本技术实施例提供了一种异常对象的识别方法,所述方法包括:
5.获得至少一个目标对象的第一信息以及第二信息;所述第一信息为操作行为信息,所述第二信息为活动参与信息;
6.基于所述至少一个目标对象的第一信息以及第二信息获得样本数据;
7.利用所述样本数据对待训练的识别模型进行训练,获得识别模型;
8.基于所述至少一个目标对象的第一信息、第二信息以及所述识别模型确定所述至少一个目标对象中的异常对象。
9.本技术一可选实施方式中,所述样本数据包括正样本数据和负样本数据;
10.所述基于所述至少一个目标对象的第一信息以及第二信息获得样本数据,包括:
11.基于所述至少一个目标对象的第一信息以及第二信息构建输入信息表;
12.基于所述输入信息表匹配多个异常特征信息作为所述样本数据中的正样本数据;
13.基于所述输入信息表匹配多个正常特征信息作为所述样本数据中的负样本数据。
14.本技术一可选实施方式中,所述基于所述至少一个目标对象的第一信息、第二信息以及所述识别模型确定所述至少一个目标对象中的异常对象,包括:
15.将所述输入信息表输入至所述识别模型,利用所述识别模型确定所述至少一个目标对象中的异常对象。
16.本技术一可选实施方式中,所述样本数据中包括多个特征指标,所述利用所述样本数据对待训练的识别模型进行训练,包括:
17.确定所述多个特征指标中各特征指标间的相关性,基于所述相关性确定所述多个特征指标中的至少一个重要指标;
18.利用所述样本数据中与所述至少一个重要指标对应的样本数据对待训练的识别
模型进行训练。
19.本技术一可选实施方式中,所述待训练的识别模型包括梯度提升决策树gbdt模型,所述利用所述样本数据对待训练的识别模型进行训练,获得识别模型,包括:
20.将所述样本数据按照操作行为特征和活动参与特征进行划分,得到操作行为特征集和活动参与特征集;
21.分别建立与所述操作行为特征对应的第一gbdt模型以及与所述活动参与特征对应的第二gbdt模型;
22.利用所述操作行为特征集遍历所述第一gbdt模型,得到所述第一gbdt模型的叶子节点输出的第一特征;
23.利用所述活动参与特征集遍历所述第二gbdt模型,得到所述第二gbdt模型的叶子节点输出的第二特征。
24.本技术一可选实施方式中,所述待训练的识别模型还包括逻辑回归lr模型,所述利用所述样本数据对待训练的识别模型进行训练,获得识别模型,还包括:
25.利用所述第一特征和所述第二特征对所述lr模型进行训练,得到训练后的lr模型;所述lr模型的输出包括所述样本数据中包括的训练对象的标识信息以及所述训练对象的类型标识。
26.本技术一可选实施方式中,所述利用所述样本数据对待训练的识别模型进行训练,获得识别模型,包括:
27.基于所述样本数据,利用k折交叉法对待训练的识别模型进行训练,得到k个具有不同参数的目标识别模型;
28.选取所述k个具有不同参数的目标识别模型中调和平均值最大的目标识别模型作为识别模型。
29.本技术一可选实施方式中,所述利用所述样本数据对待训练的识别模型进行训练,获得识别模型之后,所述方法还包括:
30.利用测试样本数据对所述识别模型进行测试,确定所述识别模型的指标是否满足预设条件;和/或,基于所述至少一个目标对象中各对象的第三信息确定所述识别模型的识别结果是否正确;
31.若所述识别模型的指标不满足预设条件,和/或,所述识别模型的识别结果不正确,则继续对所述识别模型进行优化,得到优化的识别模型;
32.所述基于所述至少一个目标对象的第一信息、第二信息以及所述识别模型确定所述至少一个目标对象中的异常对象,包括:
33.基于所述至少一个目标对象的第一信息、第二信息以及所述优化的识别模型确定所述至少一个目标对象中的异常对象。
34.本技术实施例还提供了一种异常对象的识别装置,所述装置包括:
35.第一获得单元,用于获得至少一个目标对象的第一信息以及第二信息;所述第一信息为操作行为信息,所述第二信息为活动参与信息;
36.第二获得单元,用于基于所述至少一个目标对象的第一信息以及第二信息获得样本数据;
37.训练单元,用于利用所述样本数据对待训练的识别模型进行训练,获得识别模型;
38.确定单元,用于基于所述至少一个目标对象的第一信息、第二信息以及所述识别模型确定所述至少一个目标对象中的异常对象。
39.本技术一可选实施方式中,所述样本数据包括正样本数据和负样本数据;所述第二获得单元,具体用于:基于所述至少一个目标对象的第一信息以及第二信息构建输入信息表;基于所述输入信息表匹配多个异常特征信息作为所述样本数据中的正样本数据;基于所述输入信息表匹配多个正常特征信息作为所述样本数据中的负样本数据。
40.本技术一可选实施方式中,所述确定单元,具体用于:将所述输入信息表输入至所述识别模型,利用所述识别模型确定所述至少一个目标对象中的异常对象。
41.本技术一可选实施方式中,所述样本数据中包括多个特征指标,所述训练单元,具体用于:确定所述多个特征指标中各特征指标间的相关性,基于所述相关性确定所述多个特征指标中的至少一个重要指标;利用所述样本数据中与所述至少一个重要指标对应的样本数据对待训练的识别模型进行训练。
42.本技术一可选实施方式中,所述待训练的识别模型包括梯度提升决策树gbdt模型,所述训练单元,具体用于:将所述样本数据按照操作行为特征和活动参与特征进行划分,得到操作行为特征集和活动参与特征集;分别建立与所述操作行为特征对应的第一gbdt模型以及与所述活动参与特征对应的第二gbdt模型;利用所述操作行为特征集遍历所述第一gbdt模型,得到所述第一gbdt模型的叶子节点输出的第一特征;利用所述活动参与特征集遍历所述第二gbdt模型,得到所述第二gbdt模型的叶子节点输出的第二特征。
43.本技术一可选实施方式中,所述待训练的识别模型还包括逻辑回归lr模型,所述训练单元,还具体用于:利用所述第一特征和所述第二特征对所述lr模型进行训练,得到训练后的lr模型;所述lr模型的输出包括所述样本数据中包括的训练对象的标识信息以及所述训练对象的类型标识。
44.本技术一可选实施方式中,所述训练单元,具体用于:基于所述样本数据,利用k折交叉法对待训练的识别模型进行训练,得到k个具有不同参数的目标识别模型;选取所述k个具有不同参数的目标识别模型中调和平均值最大的目标识别模型作为识别模型。
45.本技术一可选实施方式中,所述训练单元利用所述样本数据对待训练的识别模型进行训练,获得识别模型之后,所述装置还包括:
46.利用测试样本数据对所述识别模型进行测试,确定所述识别模型的指标是否满足预设条件;和/或,基于所述至少一个目标对象中各对象的第三信息确定所述识别模型的识别结果是否正确;
47.若所述识别模型的指标不满足预设条件,和/或,所述识别模型的识别结果不正确,则继续对所述识别模型进行优化,得到优化的识别模型;
48.所述基于所述至少一个目标对象的第一信息、第二信息以及所述识别模型确定所述至少一个目标对象中的异常对象,包括:
49.基于所述至少一个目标对象的第一信息、第二信息以及所述优化的识别模型确定所述至少一个目标对象中的异常对象。
50.本技术实施例还提供了一种电子设备,所述电子设备包括:存储器和处理器,所述存储器上存储有计算机可执行指令,所述处理器运行所述存储器上的计算机可执行指令时可实现上述实施例所述的异常对象的识别方法。
51.本技术实施例还提供了一种计算机存储介质,所述存储介质上存储有可执行指令,该可执行指令被处理器执行时实现上述实施例所述的异常对象的识别方法。
52.本技术实施例的技术方案,通过获得至少一个目标对象的第一信息以及第二信息;所述第一信息为操作行为信息,所述第二信息为活动参与信息;基于所述至少一个目标对象的第一信息以及第二信息获得样本数据;利用所述样本数据对待训练的识别模型进行训练,获得识别模型;基于所述至少一个目标对象的第一信息、第二信息以及所述识别模型确定所述至少一个目标对象中的异常对象。本技术实施例的技术方案,能够利用用户行为特征信息,充分挖掘用户的行为特征,能够基于网站中的用户的操作行为信息、活动参与信息等数据识别出网站用户中的异常用户,解决各类网站在多种业务场景中存在的套现规避、cp自消费、营销活动稽核等问题。
附图说明
53.图1为本技术实施例提供的异常对象的识别方法的流程示意图;
54.图2为本技术实施例提供的两种gbdt树示意图;
55.图3为本技术实施例提供的异常对象的识别过程示意图;
56.图4为本技术实施例提供的异常对象的识别装置的结构组成示意图;
57.图5为本技术实施例提供的电子设备的结构组成示意图。
具体实施方式
58.为了能够更加详尽地了解本技术实施例的特点与技术内容,下面结合附图对本技术实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本技术实施例。
59.一般来说,异常用户主要分为三大类:
60.渠道套利用户,在渠道合作推广中,一些渠道可能为了达成结算目的,发展大量僵尸用户、无效用户,增加门户、app访问负载的同时,耗费大量结算支出,需要有效的方法支持渠道套利用户识别。
61.cp自消费用户,在内容推广过程中,可能存在一些cp为了提高分成收入或达成结算考核目标,针对自有内容批量自消费的情况,借助异常模型甄别cp自消费,可以确保内容良性推广。
62.参与营销活动用户,需借助异常用户识别方法,对上线的营销活动获奖用户进行有效性稽核,可以有效保护营销资源,保障活跃用户权益,以更好地提升活动感知和效果。
63.本技术实施例的技术方案能够融合客户端、cp端以及参与活动的用户的基本属性、行为信息,通过对上述信息进行处理并衍生统计后,作为识别模型输入,利用识别模型对上述列举的三种异常用户进行识别,并对识别模型进行调优,输出异常对象集合。
64.图1为本技术实施例提供的异常对象的识别方法的流程示意图;如图1所示,本技术实施例提供的异常对象的识别方法包括如下步骤:
65.步骤101:获得至少一个目标对象的第一信息以及第二信息;所述第一信息为操作行为信息,所述第二信息为活动参与信息。
66.本技术实施例中,所述目标对象为互联网用户,本技术实施例预先从多个渠道提取用户的行为信息,该行为信息主要包括用户的操作行为信息和活动参与信息。操作行为
信息可以为用户的注册信息、评论信息、点赞信息等,活动参与信息可以为用户参与营销活动的信息,如购买信息、转发信息等,本技术中的操作行为信息和活动参与信息还可以是其它信息,本技术实施例对上述两种信息的具体内容不作具体限定。
67.具体在提取用户的行为信息时,可以以用户信息表中注册号为唯一标识提取出用户连续t天的操作行为信息以及活动参与信息,将提取的上述数据作为用户行为信息的原始数据集。
68.步骤102:基于所述至少一个目标对象的第一信息以及第二信息获得样本数据。
69.本技术一可选实施方式中,所述样本数据包括正样本数据和负样本数据;
70.上述步骤102具体可以通过以下步骤实现:
71.基于所述至少一个目标对象的第一信息以及第二信息构建输入信息表;
72.基于所述输入信息表匹配多个异常特征信息作为所述样本数据中的正样本数据;
73.基于所述输入信息表匹配多个正常特征信息作为所述样本数据中的负样本数据。
74.本技术实施例中,在通过多渠道提取用户行为信息得到用户行为信息的原始数据集后,可以通过统计手段对用户行为信息的原始数据集进行汇总衍生,形成待训练的识别模型的输入所需的信息表,同时匹配并标识若干已确认为异常的用户特征信息作为用于对待训练识别模型进行训练的正样本,并将剩余的用户特征信息作为用于对待识别模型进行训练的负样本。
75.步骤103:利用所述样本数据对待训练的识别模型进行训练,获得识别模型。
76.本技术一可选实施方式中,所述样本数据中包括多个特征指标,上述步骤103具体可通过如下方式实现:
77.确定所述多个特征指标中各特征指标间的相关性,基于所述相关性确定所述多个特征指标中的至少一个重要指标;
78.利用所述样本数据中与所述至少一个重要指标对应的样本数据对待训练的识别模型进行训练。
79.具体的,在提取完样本数据中的正样本和负样本后,需要对样本数据的有效性进行检查和处理。本技术一可选实施方式中,可以采用pearson系数计算指标的相关性,并根据指标的相关性提取重要指标,降低数据冗余度。
80.pearson相关系数反映的是两个变量间的线性相关性,取值区间为[-1,1],其中1表示完全两个变量正相关,0表示两个变量完全没有线性关系,-1表示两个变量完全负相关,即一个变量上升的同时,另一个变量在下降。两个变量的相关系数越接近于0,二者的相关性越弱,相关性计算公式如下:
[0081][0082]
其中,x与y分别表示两个成对的连续变量。
[0083]
相关性判定依据如下:
[0084]
一般地,|r|》0.95代表两个变量显著性相关,|r|》0.8代表两个变量高度相关,0.5《=|r|《0.8代表两个变量中度相关;0.3《=|r|《0.5代表两个变量低度相关;|r|《0.3代表两个变量关系极弱,可认定为两个变量不相关。
[0085]
通过计算指标变量之间的pearson相关系数,能够去除变量间相关度比较大且相对不重要的指标,从而降低模型的指标冗余度。
[0086]
本技术一可选实施方式中,所述待训练的识别模型包括梯度提升决策树gbdt模型,上述步骤103具体可通过如下方式实现:
[0087]
将所述样本数据按照操作行为特征和活动参与特征进行划分,得到操作行为特征集和活动参与特征集;
[0088]
分别建立与所述操作行为特征对应的第一gbdt模型以及与所述活动参与特征对应的第二gbdt模型;
[0089]
利用所述操作行为特征集遍历所述第一gbdt模型,得到所述第一gbdt模型的叶子节点输出的第一特征;
[0090]
利用所述活动参与特征集遍历所述第二gbdt模型,得到所述第二gbdt模型的叶子节点输出的第二特征。
[0091]
本技术实施例中,由于识别模型的输入涉及到操作行为信息以及活动参与信息,识别模型训练的特征维度很高,可以采用逻辑回归(lr,logistic regression)算法,但是,由于lr模型的学习能力有限,需要进行大量的特征工程,提取出有效的特征以及特征组合,提高模型的非线性学习能力。而梯度提升决策树(gbdt,gradient boosting decision tree)是一种迭代的决策树算法,属于集成学习boosting家族的成员,具有分类准确率高且泛化能力好等优点,是一种非线性模型,它基于集成学习中的boosting思想,每次迭代都在减少残差的梯度方向新建立一颗决策树,迭代多少次就会生成多少颗决策树。因此,gbdt可以发现多种具有区分性的特征以及特征组合,很大程度地节省了特征工程的时间与人工成本。因此,本技术实施例选取gbdt和lr的融合算法作为本技术实施例的识别模型。
[0092]
gbdt的基本思想是:基于前向分布算法,每一次迭代计算都是为了减少上一次的残差。而为了消除残差,可以在残差减少的梯度方向上建立一个新的模型。所以说,在梯度增强过程中,每个新的模型的目标是为了使得之前模型的残差往梯度方向减少,这与传统的boost算法对正确、错误的样本进行加权有着很大的区别。因此,gbdt在相对少的参数调整时间内,可以取得较高的准确率。另外,gbdt采用健壮的损失函数,对异常数据的鲁棒性非常高。
[0093]
由于本技术实施例中模型的输入信息主要包含用户操作行为信息和用户活动参与信息,但由于用户活动参与信息对应的特征过于稀疏。因此需要对两部分信息对应的特征指标分别建树,避免出现特征权重倾斜的情况。
[0094]
本技术实施例对于待训练的识别模型的训练步骤如下:
[0095]
预处理样本数据xi=(msidsn,flag,a1,a2,

,an,b1,b2,

,bm),其中,msisdn代表注册号,flag代表异常号码标识,即预测值,a1至an代表用户的操作行为特征,b1至bm代表用户的活动参与行为特征。将样本数据xi按照操作行为特征和活动参与特征进行划分,输出结果如下:
[0096]
操作行为特征集:x
ia
,即(msidsn,flag,a1,a2,

,an)
[0097]
活动参与特征集:x
ib
,即(msidsn,flag,b1,b2,

,bm)
[0098]
通过上述样本数据的划分,得到t1和t2两部分训练集,如图2所示,本技术实施例能够按照图2的方式分别对t1中的操作行为特征x
ia
与x
ib
活动参与特征进行训练,分别建立
对应的gbdt树。
[0099]
上述两种特征的gbdt树构建完成后,通过将样本数据中的操作行为特征集x
ia
和活动参与特征集x
ib
分别遍历对应的gbdt树,输出的每个叶子节点即为一个lr的特征。分别用0,1代表样本是否落入该叶子节点,构建出lr模型的输入x
input
:(msisdn1,flag,c1,c2,

,ck),其中k为gbdt叶子节点的数目。
[0100]
以建立用户操作行为特征gbdt树为例,具体步骤如下:
[0101]
a)输入:训练样本集损失函数:迭代次数:m。
[0102]
其中,xi=(a
i1
,a
i2


,a
in
),即为用户的操作行为特征集;yi∈{0,1},0代表负样本,1代表正样本。f(x)即为模型f的预测值;n为样本数。
[0103]
用户操作行为特征gbdt树的损失函数采用如下形式:
[0104][0105]
b)初始化弱学习器。
[0106][0107]
c)对于第m轮迭代:
[0108]
1)计算损失函数的负梯度,作为r
im
的估计值:
[0109][0110]
2)训练集更新为用于训练模型hm(x)去拟合r
im

[0111]
3)利用线性搜索估计叶节点区域值,即优化如下函数:
[0112][0113][0114]
其中,r
jm
为叶节点区域j,jm为叶子数目,b
jm
为叶节点的输出值。
[0115]
4)更新模型:
[0116]fm
(x)=f
m-1
(x) γ
mhm
(x)
ꢀꢀ
(7)
[0117]
5)输出m轮迭代后的强学习器fm(x)。
[0118]
本技术一可选实施方式中,所述待训练的识别模型还包括逻辑回归lr模型,上述步骤103具体可通过如下步骤实现:
[0119]
利用所述第一特征和所述第二特征对所述lr模型进行训练,得到训练后的lr模型;所述lr模型的输出包括所述样本数据中包括的训练对象的标识信息以及所述训练对象的类型标识。
[0120]
具体的,将根据两个gbdt树得到的特征作为lr模型的输入,建立lr模型来预测每条样本数据集中注册号是否为异常用户,输出结果示例:msisdn1:flag。其中,flag=0代表
非异常号码,flag=1代表属于异常号码。
[0121]
本技术实施例中,建立lr模型的具体步骤如下:
[0122]
a)输入:训练样本集损失函数:步长,即学习率:α,最大迭代次数:max_iter,误差限度tol。
[0123]
其中,xi=(c
i1
,c
i2


,c
in
),即为gbdt输出的融合特征集;yi∈{0,1},0代表负样本,1代表正样本,n为样本数。
[0124]
损失函数采用对数似然loss的形式:
[0125][0126]
其中,
[0127]
b)初始化参数θ:(θ0,θ1,θ2,

θk),可设为全1向量。
[0128]
c)对于第j轮迭代,判断误差是否满足小于tol。若满足,则终止训练,否则进行操作:
[0129]
更新
[0130]
d)输出lr模型最终参数θ。
[0131]
本技术一可选实施方式中,上述步骤103具体可通过如下步骤实现:
[0132]
基于所述样本数据,利用k折交叉法对待训练的识别模型进行训练,得到k个具有不同参数的目标识别模型;
[0133]
选取所述k个具有不同参数的目标识别模型中调和平均值最大的目标识别模型作为识别模型。
[0134]
具体的,在gbdt树中,gbdt树的个数和属性维数以及树的深度需要人为调整。利用可以利用k折交叉法(如十折交叉法)进行模型训练,选取准确率最大的分类结果对应的gbdt参数作为优化结果,也即f1越大,模型识别效果越佳。其中precision为准确率,recall为召回率。
[0135]
本技术一可选实施方式中,执行上述步骤103后,还可以利用如下方式对得到的识别模型进行优化:
[0136]
利用测试样本数据对所述识别模型进行测试,确定所述识别模型的指标是否满足预设条件;和/或,基于所述至少一个目标对象中各对象的第三信息确定所述识别模型的识别结果是否正确;
[0137]
若所述识别模型的指标不满足预设条件,和/或,所述识别模型的识别结果不正确,则继续对所述识别模型进行优化,得到优化的识别模型;
[0138]
本技术实施例中,利用测试样本对优化后的算法规则进行测试,一方面可以根据识别出的异常用户与已知正负样本进行匹配对比,计算识别模型识别错误的比率、准确率、召回率等指标;另一方面,结合用户自身属性,行为特征,然后验证识别模型的预测是否合理。综合两部分指标,最终确认出识别模型最优的算法规则。
[0139]
步骤104:基于所述至少一个目标对象的第一信息、第二信息以及所述识别模型确定所述至少一个目标对象中的异常对象。
[0140]
本技术一可选实施方式中,上述步骤104具体可通过以下方式实现:
[0141]
将所述输入信息表输入至所述识别模型,利用所述识别模型确定所述至少一个目标对象中的异常对象。
[0142]
具体的,本技术实施例中,在得到训练好的识别模型后,将基于多个用户的操作行为信息和活动参与信息得到的输入信息表输入至训练好的识别模型,即可利用训练好的识别模型识别出多个用户中的每个用户是否为异常用户。
[0143]
本技术一可选实施方式中,在识别模型为优化的识别模型的情况下,本技术能够基于所述至少一个目标对象的第一信息、第二信息以及所述优化的识别模型确定所述至少一个目标对象中的异常对象。
[0144]
具体的,本技术实施例中,在得到识别模型后,还可以继续对识别模型进行优化,并利用优化的识别模型对多个用户是否为异常用户进行预测,提高预测的准确率。
[0145]
本技术实施例的技术方案,能够融合客户端、cp端以及参与活动的用户的基本属性、行为信息,通过对上述信息进行处理并衍生统计后,作为模型输入,利用识别模型对异常用户进行识别,并对算法进行调优,输出异常对象集合。
[0146]
图3为本技术实施例提供的待训练的识别模型的训练过程示意图,如图2所示,待训练的识别模型的训练过程包括如下步骤:
[0147]
步骤301:数据采集。
[0148]
确定数据采集渠道,从多个渠道提取多个用户的行为信息。
[0149]
步骤302:获取基本信息、操作行为信息以及参与活动信息。
[0150]
从提取的多个用户的行为信息中提取用户的基本信息、操作行为信息以及参与活动信息。
[0151]
步骤303:建立模型所需特征指标信息表(即输入信息表)。
[0152]
在提取到用户的基本信息、操作行为信息以及活动参与信息后,通过统计手段对用户行为信息的原始数据集进行汇总衍生,形成待训练的识别模型的输入所需的信息表。
[0153]
步骤304:gbdt特征提取。
[0154]
在建立模型所需的特征指标信息表后,根据特征指标信息表建立模型输入的样本数据,并对样本数据进行划分,得到用于对操作行为信息gbdt树进行训练的样本数据集,和用于对活动参与信息gbdt树进行训练的样本数据集。
[0155]
利用上述两个样本数据集分别对两种gbdt树进行训练,得到两种gbdt树输出的叶子节点。
[0156]
步骤305:lr模型训练。
[0157]
利用两种gbdt树输出的叶子节点输出的特征对作为lr模型的输入,对lr模型进行训练。
[0158]
步骤306:模型输出。
[0159]
lr模型能够输出预测每条样本数据集中注册号是否为异常用户,输出结果为msisdn1:flag。其中,flag=0代表非异常号码,flag=1代表属于异常号码。
[0160]
步骤307:判断模型是否合理。
[0161]
根据lr模型的输出确定模型对应异常用户的预测是否合理。判断预测结果是否正确的方式主要包括步骤308和步骤309两种方式。
[0162]
步骤308:根据用户基本属性、行为信息反推验证异常用户识别准确性。
[0163]
由模型训练人员根据用户的基本属性行为信息等确定用户是否为异常用户,并将确定结果与模型的预测结果进行判断,确定模型的预测是否正确。
[0164]
步骤309:算法的优化。
[0165]
在判断模型预测结果准确率较低的情况下,循环执行步骤304至307对模型进行优化。
[0166]
步骤310:确定算法规则。
[0167]
在对算法模型进行优化,使得得到的模型的准确率满足条件的情况下,将最终优化得到的算法模型作为最终的识别模型,后续可利用该最终的识别模型进行异常用户的识别。
[0168]
本技术实施例还提供了一种异常对象的识别装置,图4为本技术实施例提供的异常对象的识别装置400的结构组成示意图,如图4所示,所述异常对象的识别装置400包括:
[0169]
第一获得单元401,用于获得至少一个目标对象的第一信息以及第二信息;所述第一信息为操作行为信息,所述第二信息为活动参与信息;
[0170]
第二获得单元402,用于基于所述至少一个目标对象的第一信息以及第二信息获得样本数据;
[0171]
训练单元403,用于利用所述样本数据对待训练的识别模型进行训练,获得识别模型;
[0172]
确定单元404,用于基于所述至少一个目标对象的第一信息、第二信息以及所述识别模型确定所述至少一个目标对象中的异常对象。
[0173]
本技术一可选实施方式中,所述样本数据包括正样本数据和负样本数据;所述第二获得单元402,具体用于:基于所述至少一个目标对象的第一信息以及第二信息构建输入信息表;基于所述输入信息表匹配多个异常特征信息作为所述样本数据中的正样本数据;基于所述输入信息表匹配多个正常特征信息作为所述样本数据中的负样本数据。
[0174]
本技术一可选实施方式中,所述确定单元404,具体用于:将所述输入信息表输入至所述识别模型,利用所述识别模型确定所述至少一个目标对象中的异常对象。
[0175]
本技术一可选实施方式中,所述样本数据中包括多个特征指标,所述训练单元403,具体用于:确定所述多个特征指标中各特征指标间的相关性,基于所述相关性确定所述多个特征指标中的至少一个重要指标;利用所述样本数据中与所述至少一个重要指标对应的样本数据对待训练的识别模型进行训练。
[0176]
本技术一可选实施方式中,所述待训练的识别模型包括梯度提升决策树gbdt模型,所述训练单元403,具体用于:将所述样本数据按照操作行为特征和活动参与特征进行划分,得到操作行为特征集和活动参与特征集;分别建立与所述操作行为特征对应的第一gbdt模型以及与所述活动参与特征对应的第二gbdt模型;利用所述操作行为特征集遍历所述第一gbdt模型,得到所述第一gbdt模型的叶子节点输出的第一特征;利用所述活动参与特征集遍历所述第二gbdt模型,得到所述第二gbdt模型的叶子节点输出的第二特征。
[0177]
本技术一可选实施方式中,所述待训练的识别模型还包括逻辑回归lr模型,所述
训练单元403,还具体用于:利用所述第一特征和所述第二特征对所述lr模型进行训练,得到训练后的lr模型;所述lr模型的输出包括所述样本数据中包括的训练对象的标识信息以及所述训练对象的类型标识。
[0178]
本技术一可选实施方式中,所述训练单元403,具体用于:基于所述样本数据,利用k折交叉法对待训练的识别模型进行训练,得到k个具有不同参数的目标识别模型;选取所述k个具有不同参数的目标识别模型中调和平均值最大的目标识别模型作为识别模型。
[0179]
本技术一可选实施方式中,所述训练单元403利用所述样本数据对待训练的识别模型进行训练,获得识别模型之后,所述装置还包括:
[0180]
优化单元405,用于利用测试样本数据对所述识别模型进行测试,确定所述识别模型的指标是否满足预设条件;和/或,基于所述至少一个目标对象中各对象的第三信息确定所述识别模型的识别结果是否正确;若所述识别模型的指标不满足预设条件,和/或,所述识别模型的识别结果不正确,则继续对所述识别模型进行优化,得到优化的识别模型;
[0181]
所述确定单元404,还具体用于:基于所述至少一个目标对象的第一信息、第二信息以及所述优化的识别模型确定所述至少一个目标对象中的异常对象。
[0182]
本领域技术人员应当理解,图4所示的异常对象的识别装置400中的各单元的实现功能可参照前述异常对象的识别方法的相关描述而理解。图4所示的异常对象的识别装置400中的各单元的功能可通过运行于处理器上的程序而实现,也可通过具体的逻辑电路而实现。
[0183]
本技术实施例还提供了一种电子设备。图5为本技术实施例的电子设备的硬件结构示意图,如图5所示,电子设备包括:用于进行数据传输的通信组件503、至少一个处理器501和用于存储能够在处理器501上运行的计算机程序的存储器502。终端中的各个组件通过总线系统504耦合在一起。可理解,总线系统504用于实现这些组件之间的连接通信。总线系统504除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图5中将各种总线都标为总线系统504。
[0184]
其中,所述处理器501执行所述计算机程序时至少执行图1所示的方法的步骤。
[0185]
可以理解,存储器502可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(rom,read only memory)、可编程只读存储器(prom,programmable read-only memory)、可擦除可编程只读存储器(eprom,erasable programmable read-only memory)、电可擦除可编程只读存储器(eeprom,electrically erasable programmable read-only memory)、磁性随机存取存储器(fram,ferromagnetic random access memory)、快闪存储器(flash memory)、磁表面存储器、光盘、或只读光盘(cd-rom,compact disc read-only memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(ram,random access memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的ram可用,例如静态随机存取存储器(sram,static random access memory)、同步静态随机存取存储器(ssram,synchronous static random access memory)、动态随机存取存储器(dram,dynamic random access memory)、同步动态随机存取存储器(sdram,synchronous dynamic random access memory)、双倍数据速率同步动态随机存取存储器(ddrsdram,double data rate synchronous dynamic random access memory)、增强型同步动态随机
存取存储器(esdram,enhanced synchronous dynamic random access memory)、同步连接动态随机存取存储器(sldram,synclink dynamic random access memory)、直接内存总线随机存取存储器(drram,direct rambus random access memory)。本技术实施例描述的存储器502旨在包括但不限于这些和任意其它适合类型的存储器。
[0186]
上述本技术实施例揭示的方法可以应用于处理器501中,或者由处理器501实现。处理器501可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、dsp,或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器501可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本技术实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器502,处理器501读取存储器502中的信息,结合其硬件完成前述方法的步骤。
[0187]
在示例性实施例中,电子设备可以被一个或多个应用专用集成电路(asic,application specific integrated circuit)、dsp、可编程逻辑器件(pld,programmable logic device)、复杂可编程逻辑器件(cpld,complex programmable logic device)、fpga、通用处理器、控制器、mcu、微处理器(microprocessor)、或其他电子元件实现,用于执行前述的通话录音方法。
[0188]
本技术实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时至少用于执行图1所示方法的步骤。所述计算机可读存储介质具体可以为存储器。所述存储器可以为如图5所示的存储器502。
[0189]
本技术实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
[0190]
在本技术所提供的几个实施例中,应该理解到,所揭露的方法和智能设备,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
[0191]
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
[0192]
另外,在本技术各实施例中的各功能单元可以全部集成在一个第二处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
[0193]
以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献