一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用户分类方法、装置、计算机设备和存储介质与流程

2022-02-22 19:49:44 来源:中国专利 TAG:


1.本技术涉及信息技术领域,特别是涉及一种用户分类方法、装置、计算机设备和存储介质。


背景技术:

2.近年来,国内外经济环境错综复杂,市场化改革日益深化,同业竞争日趋激烈,给催收工作的开展带来了巨大的挑战。尤其在信用卡、信贷领域,由于发卡体量大、用户数量多、用户构成复杂,导致催收工作的难度越来越高,而催收工作的一个核心过程就是催收任务的分配。
3.目前业界的分配分案一般是采取平均分配或者基于比例进行分配,这样的分配方式过于粗放,存在催收任务的难易与催收人员的业务能力无法相匹配的问题,例如,将较难的催收任务分配给业务能力较差的催收人员,从而导致催收任务难以完成。因此,如何准确的识别催收任务的难易程度,以便为催收人员分配更合适的催收任务成为了当前的研究热点。


技术实现要素:

4.基于此,有必要针对上述技术问题,提供一种用户分类方法、装置、计算机设备和存储介质。能够准确的识别催收任务的难易程度,以便为催收人员分配更合适的催收任务。
5.一种用户分类方法,所述方法包括:获取待分类用户的画像信息,所述画像信息包括用户属性信息以及用户交易信息。
6.将所述待分类用户的画像信息输入至分类模型中,得到所述待分类用户的用户类别,所述分类模型是根据逻辑回归模型以及接受者操作特征曲线(receiver operating characteristic curve,roc曲线)获得的,所述用户类别包括第一类用户和第二类用户,所述roc曲线用于表征所述分类模型的预测精度,所述第一类用户为催收难度大于预设阈值的用户,所述第二类用户为催收难度小于预设阈值的用户。
7.一种用户分类装置,该装置包括:
8.获取模块,用于获取待分类用户的画像信息,所述画像信息包括用户属性信息以及用户交易信息。
9.分类模块,用于将所述获取模块获取的所述待分类用户的画像信息输入至分类模型中,得到所述待分类用户的用户类别,所述分类模型是根据逻辑回归模型以及接受者操作特征曲线roc曲线获得的,所述用户类别包括第一类用户和第二类用户,所述roc曲线用于表征所述分类模型的预测精度,所述第一类用户为催收难度大于预设阈值的用户,所述第二类用户为催收难度小于预设阈值的用户。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
11.获取待分类用户的画像信息,所述画像信息包括用户属性信息以及用户交易信
息。
12.将所述待分类用户的画像信息输入至分类模型中,得到所述待分类用户的用户类别,所述分类模型是根据逻辑回归模型以及接受者操作特征曲线roc曲线获得的,所述用户类别包括第一类用户和第二类用户,所述roc曲线用于表征所述分类模型的预测精度,所述第一类用户为催收难度大于预设阈值的用户,所述第二类用户为催收难度小于预设阈值的用户。
13.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
14.获取待分类用户的画像信息,所述画像信息包括用户属性信息以及用户交易信息。
15.将所述待分类用户的画像信息输入至分类模型中,得到所述待分类用户的用户类别,所述分类模型是根据逻辑回归模型以及接受者操作特征曲线roc曲线获得的,所述用户类别包括第一类用户和第二类用户,所述roc曲线用于表征所述分类模型的预测精度,所述第一类用户为催收难度大于预设阈值的用户,所述第二类用户为催收难度小于预设阈值的用户。
16.上述用户分类方法、装置、计算机设备和存储介质,利用基于逻辑回归模型和roc曲线综合确定用于对用户类别进行预测的分类模型,能够在训练分类模型的过程中,提高其预测精度。并且,将包含了用户属性信息以及用户交易信息的画像信息作为判断用户类别的参数,进一步提高了对用户类别预测的准确性,从而更加准确的识别出催收任务的难易程度,以便为催收人员分配更合适的催收任务。
附图说明
17.图1为一个实施例中用户分类方法的流程示意图;
18.图2为一个实施例中画像信息的结构示意图;
19.图3为一个实施例中用户分类方法的流程示意图;
20.图4为一个实施例中用户分类方法的流程示意图;
21.图5为一个实施例中用户分类方法的流程示意图;
22.图6为一个实施例中用户分类方法的流程示意图;
23.图7为一个实施例中用户分类装置的结构示意图;
24.图8为一个实施例中计算机设备的内部结构图。
具体实施方式
25.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
26.可以理解,本技术所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本技术的范围的情况下,可以将第一类用户称为第二类用户,且类似地,可将第二类用户称为第一类用户。
27.在进行贷款催收业务处理时,会产生大量的催收任务,而催收任务的分配就成了核心过程。目前业界的分配分案一般是采取平均分配或者基于比例进行分配,这样的分配方式过于粗放,存在催收任务的难易与催收人员的业务能力无法相匹配的问题,例如,将较难的催收任务分配给业务能力较差的催收人员,从而导致催收任务难以完成。因此,如何准确的识别催收任务的难易程度,以便为催收人员分配更合适的催收任务成为了当前的研究热点。
28.基于现有技术中存在的问题,本技术实施例提供用户分类方法,通过根据逻辑回归模型以及接受者操作特征曲线roc曲线获得的分类模型,对用户的催收难度进行准确识别,从而更合理的分配催收任务。
29.本技术实施例所提供的用户分类方法可应用于众多通用或专用的计算装置环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。
30.如图1所示,本技术实施例提供的催收评分方法具体包括:
31.s11、获取待分类用户的画像信息,画像信息包括用户属性信息以及用户交易信息。
32.示例性的,参照图2示出的画像信息的结构示意图,画像信息包括用户属性信息以及用户交易信息。其中,用户属性信息即为用户基本特征,而用户基本特征可以包括但不限于用户的性别、年龄、婚姻状况、职业、是否有子女、是否有住房中的一项或多项数据。用户交易信息分为用户行为特征和用户风险特征。用户行为特征包括但不限于信用卡近3个月消费金额、过去半年日均金融资产(元)、近10天净流入金额、近10天总交易笔数、近10天总流入笔数、近10天总流入金额、近10天总流出笔数、近10天总流出金额中的一项或多项。用户风险特征包括但不限于个人征信评分、曾多次逾期标志、当前不良贷款标志、投资风险等级中的一项或多项。
33.其中,信用卡近3个月消费金额具体是指所有信用卡本外币账户最近3个月消费累计。过去半年日均金融资产(元)具体是指用户过去半年持有全部金融资产总额的日均值。近10天净流入金额具体是指该用户近10天资金净流入金额(资金流入金额-资金流出金额)。近10天总交易笔数具体是指该用户近10天资金交易总笔数。近10天总流入笔数具体是指该用户近10天资金流入总笔数。近10天总流入金额具体是指该用户近10天资金流入总金额。近10天总流出笔数具体是指该用户近10天资金流出总笔数。近10天总流出金额具体是指该用户近10天资金流出总金额。个人征信评分具体是指利用数理模型开发出来的用来预测用户贷款违约可能性的一种方法,通常以用户过去还款请等特征指标为解释变量,通过统计分析手段,形成连续整数的评分结果。个人征信评分可以反映出用户历史信用。曾多次逾期用户标志具体是指统计用户近6个月的逾期信息,结合历史逾期信息,可判断用户本次逾期的催收难易。当前不良贷款用户标志具体是指该用户当前是否存在不良贷款。投资风险等级具体是指风险评级机构给出的风险等级,具体可划分为保守型,稳健型,平衡型,成长型,进取型。
34.需要说明的是,用户的画像信息为银行工作人员在需要对目标用户进行催收的情况下获取。可通过多种方法获取用户的画像信息。例如,在得到用户许可的情况下,可根据用户在银行留存的个人资料获取用户的属性信息,以及从用户的银行交易记录中获取交易
信息。
35.s12、将待分类用户的画像信息输入至分类模型中,得到待分类用户的用户类别,分类模型是根据逻辑回归模型以及roc曲线获得的,用户类别包括第一类用户和第二类用户,roc曲线用于表征分类模型的预测精度,第一类用户为催收难度大于预设阈值的用户,第二类用户为催收难度小于预设阈值的用户。
36.示例性的,需要催收的用户可根据其催收工作开展的难易程度第一类用户(即难催收用户)和第二类用户(易催收用户)。第一类用户具体是指催收难度大于预设阈值的用户。例如,在用户逾期的情况下,用户接收到第一次催收电话后,预计时间段(如3天)内未完成还款的用户。第二类用户具体是指催收难度小于预设阈值的用户;例如,在用户逾期的情况下,接收到第一次催收电话后,预设时间段(如3天)内完成还款的用户。
37.上述用户分类方法,利用基于逻辑回归模型和roc曲线综合确定用于对用户类别进行预测的分类模型,能够在训练分类模型的过程中,提高其预测精度。并且,将包含了用户属性信息以及用户交易信息的画像信息作为判断用户类别的参数,进一步提高了对用户类别预测的准确性,从而更加准确的识别出催收任务的难易程度,以便为催收人员分配更合适的催收任务。
38.在一种实现方式中,参照图3,本技术实施例提供一种分类模型的获取方式,具体包括以下步骤:
39.s21、获取历史用户信息,历史用户信息包括多个用户的画像信息和各用户的第一类别;第一类别为用户实际的用户类别。
40.在一种实现方式中,获取历史用户信息具体包括:获取初始用户信息;对初始用户信息进行数据清洗,以得到历史用户信息。其中初始用户信息同样包括多个用户的画像信息和用户类别。
41.具体的,对初始用户信息的数据清洗可以包括但不限于以下:
42.1)年龄划分
43.年龄划分是将用户按照年龄区间进行归类划分,使得用户的年龄采用其所属年龄区间的区间代码表示,将连续型数据转化为类别型数据。示例性的,如表1所示的年龄区间,各年龄区间对应的区间含义以及区间代码。
44.表1
45.年龄区间区间含义区间代码(0,6]幼儿001(6,12]少年002(12,18]青少年003(18,35]青年004(35,50]中青年005(50,65]中年006(65,100]老年007
46.2)空值处理
47.空值处理是指将初始用户信息中为空的信息进行填充值处理。
48.child_ind有子女标志、house_ind有住房标志,为空时,填充为0,表示无子女、无
住房。
49.3)删除处理
50.将存在空值的画像信息的用户所对应的画像信息以及第一类别,从初始用户信息中删除,将删除后的初始用户信息确定为历史用户信息。
51.s22、将历史用户信息分为训练样本集和验证样本集。
52.示例性的,针对历史用户信息,从历史用户信息中选取多个样本数据组成训练样本集,并从历史用户信息中选取多个目标样本数据组成验证样本集。例如,可以利用历史用户信息中70%的样本数据构成训练样本集,利用历史用户信息中的30%的样本数据构成验证样本集。需要说明的是,训练样本集中包括的样本数据的数量和验证样本集中包括的样本数据的数量之和,等于历史用户信息中包括的样本数据的数量。
53.s23、利用训练样本集训练逻辑回归模型,获得初始模型;根据初始模型以及验证样本集,确定roc曲线。
54.具体的,逻辑logistic回归模型针对于本技术实施例中将用户类别分为两类属于二分类问题。对于给定的一些输入,输出结果是二元化的离散值。对于logistic回归模型的输出可以定义两种形式。变量y表示用户类别。那么,y应当为一个二元变量,取值为0或1,则可以进行如下定义:
[0055][0056]
基于上述,假设用户为第一类用户的概率为p,那么该用户为第二类用户的概率则为1-p。对应的,假设第二类用户的概率为p,那么该用户为第一类用户的概率则为1-p。当用户为第一类用户的概率为p时,概率p受到xi的影响,i=1...n,xi即为用户的画像信息中包含的各个参数。如,用户属性信息中包含的年龄、性别、婚姻状况等各个参数,和用户交易信息中包含的近10天净流入金额、近10天总交易笔数、近10天总流入笔数、近10天总流入金额等各个参数。需要说明的是,上述仅示例性说明了用户的画像信息所包含的各个参数,本技术实施例对用户的画像信息中包含的参数不作限定。
[0057]
结合上述方式二的说明,logistic回归模型构建如下:
[0058][0059]
将上述公式转化之后即可得到对应的logistic函数:
[0060][0061]
其中,p表示该用户为第一类用户的概率,xi表示用户的画像信息中包含的各个参数,βi表示各个参数xi的系数。之后,进行logistic回归分析即可得到βi参数的估计值,通过对参数的解读就可以解释用户的画像信息中包含的各个参数与用户类别之间的关系。需要说明的是,p表示该用户为第二类用户的概率时,对应的logistic函数同理,此处不再赘述。
[0062]
s24、基于roc曲线对初始模型的预测效果进行评估,并根据评估结果以及初始模型确定分类模型。
[0063]
需要说明的是,本技术实施例中的逻辑回归模型具体采用逻辑回归算法,
[0064]
在一种实现方式中,可以采用支持向量机模型或者决策树模型替换逻辑回归模型结合roc曲线获得分类模型。其中,支持向量机模型采用支持向量机算法,决策树模型采用决策树算法。
[0065]
具体的,基于训练样本集对预设模型(逻辑回归模型或者向量机模型或者决策树模型)进行训练,得到初始模型。更优的,选择哪一个预设模型作为分类模型的训练模型,最佳方法是基于各种不同的算法训练对应的模型,得到多个初始模型。然后采用交叉验证的方式选择最好的一个。即利用验证样本集对即初始模型进行验证,并结合roc曲线将预测效果最好的初始模型作为分类模型。通过上述方式,可以进一步提高预测模型的准确率,从而可以更好地分配催收任务。
[0066]
本实施例中,利用基于逻辑回归模型和roc曲线综合确定用于对用户类别进行预测的分类模型,能够在训练分类模型的过程中,提高其预测精度。
[0067]
在一个实施例中,参照图4,s24具体包括:
[0068]
s241、利用初始模型对验证样本集中各用户的画像信息进行预测,得到验证样本集中各用户的预设数量的第二类别,第二类别为验证样本集中各用户预测的用户类别。
[0069]
s242、根据验证样本集中各用户的第一类别以及预设数量的第二类别,构建预设数量的混淆矩阵。
[0070]
具体的,本技术实施例中的混淆矩阵为2行2列的矩阵,包含四个元素,四个元素分别为:真正例(true positive,tp)的数量(即a)、假正例(false positive,fp)的数量(即b)、假负例(false negative,fn)的数量(即c)以及真负例(true negative,tn)的数量(即d)。
[0071]
其中,tp表示第一类别为第二类用户,第二类别为第二类用户;fp表示第一类别为第一类用户,第二类别为第二类用户;fn表示第一类别为第二类用户,第二类别为第一类用户;tn表示第一类别为第一类用户,第二类别为第二类用户。因此构成的混淆矩阵,如下表2所示:
[0072]
表2
[0073][0074]
s243、根据预设数量的混淆矩阵,确定roc曲线。
[0075]
本实施例中,根据验证样本集中各用户的第一类别结合通过初始模型得到的预设数量的第二类别,构建预设数量的混淆矩阵,进而确定roc曲线,以便得到预测精度更高的初始模型。
[0076]
在一个实施例中,参照图5,s241具体包括:
[0077]
s2411、利用初始模型对验证样本集中各用户的画像信息进行预测,得到验证样本集中各用户的预测概率。
[0078]
示例性的,比如有5个用户,利用初始模型预测各用户的第二类别为第二类用户的概率分别为:0.1,0.4,0.6,0.8,0.9。
[0079]
s2412、基于预设数量的概率阈值与预测概率,确定验证样本集中各用户的预设数量的第二类别。
[0080]
结合上一示例性的说明,对于所有用户预测的结果,将各用户的预测概率按照降序排列。那么排序后得到0.9,0.8,0.6,0.4,0.1。将概率大的判断为正样本。这时,就需要根据预设数量的概率阈值,确定各用户预设数量的第二类别。其中一种实现方式,可以从高到低逐渐降低概率阈值。比如,首先设定一个概率阈值为0.85,那么就有0.9对应的用户的第二类别为第二类用户,其他4个用户的第二类别为第一类用户。将概率阈值降低到0.8,那么就有0.9和0.8对应的两个用户的第二类别为第二类用户,其他3个用户的第二类别为第一类用户。其他的概率阈值的确定方式同理,此处不再赘述。
[0081]
本实施例中,能够基于预设数量的概率阈值和初始模型对验证样本集中各用户的画像信息进行预测得到的各用户的预测概率,确定各用户的预设数量的第二类别。
[0082]
在一个实施例中,s242具体包括:根据各概率阈值对应验证样本集中各用户的第一类别以及第二类别,构建各概率阈值的混淆矩阵,以得到预设数量的混淆矩阵。
[0083]
示例性的,结合上述s2411和s2412中的示例说明,假设各用户的第二类别为第二类用户的概率分别为:0.1,0.4,0.6,0.8,0.9所对应的第一类别为0,0,0,1,1。在概率阈值为0.85的情况下,结合该5个用户的第一类别,确定该概率阈值下对应的混淆矩阵可参照表3所示。
[0084]
表3
[0085][0086]
需要说明的是,构建其他概率阈值所对应的混淆矩阵可参考上述概率阈值为0.85的混淆矩阵的说明,此处不再赘述。
[0087]
本实施例中,根据各概率阈值对应验证样本集中各用户的第一类别以及第二类别,构建各概率阈值的混淆矩阵,以得到预设数量的混淆矩阵,以便确定对应的roc曲线。
[0088]
在一个实施例中,参照图6,s243包括:
[0089]
s2431、根据各混淆矩阵,确定初始模型的错误率以及查全率;其中,错误率用于表征验证样本集中,第一类别为第二类用户且第二类别为第一类用户,在第二类别为第一类用户中的占比;查全率用于表征验证样本集中,第一类别与第二类别均为第一类用户,在第一类别为第一类用户中的占比。
[0090]
具体的,根据公式计算获得查全率tpr,其中,recakk表示召回率;根据公式计算获得错误率fpr。
[0091]
在另一实现方式中,可根据精确率确定错误率fpr,具体根据公式计算获得精确率precision,则fpr=1-precision。
[0092]
这里,查全率(true positive rate,tpr)是衡量模型正确程度的指标,错误率(false positive rate,fpr)是衡量模型错误程度的指标。对于一个预测结果,tpr越高越好,而fpr越低越好。
[0093]
s2432、根据各混淆矩阵对应的错误率以及查全率,确定roc曲线。
[0094]
具体的,roc曲线的横坐标表示fpr,roc曲线的纵坐标tpr。确定roc曲线的过程就是将各预设阈值对应的点(fpr,tpr)依次连接起来,其实现过程为:分类模型认为某个样本具有多大的概率属于正样本(或负样本),将一个实数范围通过某个变换映射到(0,1)区间。从高到低,依次将f1值作为预设阈值threshold,当验证样本属于正样本的概率大于或等于这个threshold时,模型认为它为正样本,否则为负样本,每次选取一个不同的threshold,就可以得到一组fpr和tpr,即roc曲线上的一点。需要说明的是,上述的正样本可以理解为在第二类别中的目标类类用户,若将第二类别中的第一类用户确定为目标类型用户,则第二类别中的第一类用户即为正样本;若将第二类别中的第二类用户确定为目标类型用户,则第二类别中的第二类用户即为正样本。
[0095]
本实施例中,通过各混淆矩阵对应的错误率以及查全率,确定roc曲线,以便能够基于roc曲线快速的确定出初始模型对用户类别的识别能力。
[0096]
在一个实施例中,以区分能力为评价标准时,s24可以通过roc曲线下的面积auc直接进行评估的方式实现,具体为:确定roc曲线下的面积auc(area under the curve),根据auc的值调整初始模型的参数,在auc大于期望值时,将参数调整后的初始模型确定为分类模型。
[0097]
在另一种实现方式中,考虑到准确度比率(accuracyrate,ar)是内评体系建模时常用的模型区分度评价指标,通过实际模型结果与最佳模型结果的比较来检验模型对用户进行正确排序的能力,进而判断模型对用户类别的区分能力。因此,本技术实施例在确定roc曲线下的面积auc,还可根据ar的值调整初始模型的参数,在ar的值在预设范围内时,将参数调整后的初始模型确定为分类模型。具体的,根据公式ar=2auc-1,确定准确度比率。需要说明的是,ar越接近1代表初始模型的精度越好。
[0098]
另外,还可通过准确率accuracy来评估初始模型的精度,具体根据公式计算获得准确率accuracy。其中,准确率accuracy用于衡量验证样本集中被正确分类的用户占所有用户的比例。在一种实现方式中,可以根据准确率与roc曲线综合评估初始模型的预测效果。具体的,准确率与预设的准确率阈值的对比结果,并结合roc曲线下的面积auc综合调整初始模型的参数,在准确率大于预设的准确率阈值以及auc大于期望值时,将参数调整后的初始模型确定为分类模型。使得进一步提高分类模型的预测精度。
[0099]
本实施例中,通过roc曲线下的面积auc调试初始模型的参数,能够简单、直观的判别出初始模型的预测精度的好坏,以便保证最终确定的分类模型的预测精度能够达到标准。
[0100]
应该理解的是,虽然图1、3-6的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图4中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0101]
在一个实施例中,如图7所示,提供了一种用户分类装置70,该用户分类装置70包括:获取模块701、分类模块702以及处理模块703;其中,
[0102]
获取模块701,用于获取待分类用户的画像信息,画像信息包括用户属性信息以及用户交易信息。
[0103]
分类模块702,用于将获取模块701获取的待分类用户的画像信息输入至分类模型中,得到待分类用户的用户类别,分类模型是根据逻辑回归模型以及接受者操作特征曲线roc曲线获得的,用户类别包括第一类用户和第二类用户,roc曲线用于表征分类模型的预测精度,第一类用户为催收难度大于预设阈值的用户,第二类用户为催收难度小于预设阈值的用户。
[0104]
在一个实施例中,获取模块701,用于获取历史用户信息,历史用户信息包括多个用户的画像信息和各用户的第一类别;第一类别为用户实际的用户类别。
[0105]
分类模块702,用于将获取模块701获取的历史用户信息分为训练样本集和验证样本集。
[0106]
处理模块703,用于利用分类模块702得到的训练样本集训练逻辑回归模型,获得初始模型;根据初始模型以及分类模块702得到的验证样本集,确定roc曲线。
[0107]
处理模块703,还用于基于roc曲线对初始模型的预测效果进行评估,并根据评估结果以及初始模型确定分类模型。
[0108]
在一个实施例中,处理模块703,具有用于利用初始模型对验证样本集中各用户的画像信息进行预测,得到验证样本集中各用户的预设数量的第二类别,第二类别为验证样本集中各用户预测的用户类别。
[0109]
处理模块703,还用于根据验证样本集中各用户的第一类别以及预设数量的第二类别,构建预设数量的混淆矩阵。
[0110]
处理模块703,还用于根据预设数量的混淆矩阵,确定roc曲线。
[0111]
在一个实施例中,处理模块703,具有用于利用初始模型对验证样本集中各用户的画像信息进行预测,得到验证样本集中各用户的预测概率;
[0112]
处理模块703,还用于基于预设数量的概率阈值与预测概率,确定验证样本集中各用户的预设数量的第二类别。
[0113]
在一个实施例中,处理模块703,具有用于根据各概率阈值对应验证样本集中各用户的第一类别以及第二类别,构建各概率阈值的混淆矩阵,以得到预设数量的混淆矩阵。
[0114]
在一个实施例中,处理模块703,具有用于根据各混淆矩阵,确定初始模型的错误率以及查全率;其中,错误率用于表征验证样本集中,第一类别为第二类用户且第二类别为第一类用户,在第二类别为第一类用户中的占比;查全率用于表征验证样本集中,第一类别与第二类别均为第一类用户,在第一类别为第一类用户中的占比。
[0115]
处理模块703,还用于根据各混淆矩阵对应的错误率以及查全率,确定roc曲线。
[0116]
在一个实施例中,处理模块703,具有用于确定roc曲线下的面积auc,根据auc的值调整初始模型的参数,在auc大于期望值时,将参数调整后的初始模型确定为分类模型。
[0117]
关于种用户分类装置的具体限定可以参见上文中对于种用户分类方法的限定,在此不再赘述。上述种用户分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0118]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储初始数据,计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据处理方法。
[0119]
本领域技术人员可以理解,图8示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0120]
在一个实施例中,提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:
[0121]
获取待分类用户的画像信息,画像信息包括用户属性信息以及用户交易信息。
[0122]
将待分类用户的画像信息输入至分类模型中,得到待分类用户的用户类别,分类模型是根据逻辑回归模型以及接受者操作特征曲线roc曲线获得的,用户类别包括第一类用户和第二类用户,roc曲线用于表征分类模型的预测精度,第一类用户为催收难度大于预设阈值的用户,第二类用户为催收难度小于预设阈值的用户。
[0123]
在一个实施例中,提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
[0124]
获取待分类用户的画像信息,画像信息包括用户属性信息以及用户交易信息。
[0125]
将待分类用户的画像信息输入至分类模型中,得到待分类用户的用户类别,分类模型是根据逻辑回归模型以及接受者操作特征曲线roc曲线获得的,用户类别包括第一类用户和第二类用户,roc曲线用于表征分类模型的预测精度,第一类用户为催收难度大于预设阈值的用户,第二类用户为催收难度小于预设阈值的用户。
[0126]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存
储器(dynamic random access memory,dram)等。
[0127]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0128]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献