一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于机器学习的高质量用户离网预警模型构建方法与流程

2022-12-13 21:17:24 来源:中国专利 TAG:


1.本发明涉及大数据分析模型构建技术领域,具体的,涉及基于机器学习的高质量用户离网预警模型构建方法。


背景技术:

2.传统电信业务针对潜在的高质量流失客户的挖掘往往通过经验规则模型的方法进行判断,业务方结合客户在电信移动产品上的一些低活跃行为(如通话语音行为、流量使用行为、短信行为等)等特征构建离网因子,之后通过将客户的各个离网因子系数输入到经验规则模型中计算得到各个客户的离网评分,并对离网评分较高的客户展开相应的维系工作。
3.现有的客户流失模型主要依靠业务经营方构建的经验规则模型,其离网因子的构建和流失模型的实际效果极为依赖业务方的经验水平,并且构建的离网因子所考虑的维度和内容较为单一和常规,而实际生活中电信客户的流失原因往往是十分复杂的且隐秘的,涉及到众多维度,仅依靠业务经验构建的规则模型仅能覆盖到小部分维度,这也导致模型在构建后就基本确定了上限,无法达到较优的模型精度,从而在实际应用中并不能很好地帮助业务锁定具有较高离网倾向的用户,导致高价值客户的流失。


技术实现要素:

4.本发明的目的是针对现有的客户流失模型的预测效果不好的缺陷,提出了一种基于机器学习的高质量用户离网预警模型构建方法,方案结合业务场景,通过深度挖掘客户的基础属性和业务行为进行多个维度的特征关联分析,选用具有高精度的机器学习模型来自动学习客户特征中所隐含的重要信息,从而构建了一种可以准确有效识别具有高流失倾向的用户群体的用户离网预警模型,为及时发现和干预用户离网行为提供数据模型支持。
5.本发明实施例中提供的一种技术方案是,基于机器学习的高质量用户离网预警模型构建方法,包括如下步骤:s1、划定电信高质量客户群体范围,通过制定客户的流失口径来划分流失群体和未流失群体,并将流失群体作为负样本,未流失群体作为正样本;s2、对历史数据中的流失群体进行数据探索,基于客户基础画像信息中流失群体与未流失群体的业务行为变化进行多维度分析,挖掘用户分群行为信息,刻画出目标用户的特征;s3、收集与流失群体存在关联性的特征,并将关联性的特征进行汇总,制作具备n个特征的数据宽表;s4、构建完数据宽表后,对数据宽表中的数据进行预处理后得到数值型特征数据;s5、通过对宽表内数据进行特征工程进而衍生多维度特征数据;s6、将多维度特征数据作为机器学习模型的输入,对机器学习模型进行训练得到最优模型;
s7、采用最优模型对获取的得到的电信高质量客户群体数据进行运算,得到对应客户的流失概率,筛选流失概率大于p0的高质量客户群体,进行离网预警和处置。
6.作为优选,s1中,若电信用户的消费金额超过m且同时具备电信移动产品和宽带产品,则将该类电信用户作为高质量客户;若高质量客户对应的电信移动产品和宽带产品都被拆除,则将该类高质量客户定义为流失客户,否则定义为非流失客户。
7.作为优选,s2中,数据探索的方式包括:s21、查看数据类型是否正确、量纲是否一致、缺失值情况;s22、通过箱线图来查找数据的异常值;s23、可视化数据分布情况,对数据分布异常的特征采用对数转换方式进行更改;s24、剔除相关性高于设定阈值的特征。
8.作为优选,s21中,查看数据类型是否正确、量纲是否一致、缺失值情况,包括如下步骤:若出现数据类型不正确情况,则根据数据的实际含义对数据的类型进行转化;若出现数据量纲不一致情况,则根据实际情况对数据的量纲进行调整;若出现整个特征缺失的情况,则查看源头数据和传输过程数据是否缺失,若源头数据缺失或/和传输过程数据缺失,则剔除该缺失数据特征。
9.作为优选,关联性的特征的分布包括:基础画像信息上包括但不限于客户的入网时长、客户星级、终端使用信息;套餐基础信息上包括但不限于订购的电信套餐中所包含的资源量、套餐金额;业务行为上包括但不限于客户产生的流量、语音、短信使用量、宽带使用量。
10.作为优选,s4中,对数据宽表中的数据进行预处理后得到数值型特征数据包括如下步骤:对特征缺失值进行处理,包括:针对不同类型的特征分别采用均值填充、众数填充、0值填充以及扩充属性值方法进行填充;同时,删除对流失群体判断无效的特征;对特征进行编码,包括但不限于采用了类别编码、独热编码、频率编码将不同类型的特征转化为数值型特征。
11.作为优选,s5中,包括如下步骤:s51、针对用户的业务行为特征进行衍生,构建月份差异、均值、方差类型特征;s52、衍生工作日占总体情况的占比率特征以及白天流量使用情况占全天的占比率情况特征;s53、构建客户特征值的缺失率作为一个特征。
12.作为优选,s6中,包括如下步骤:构建基于lightgbm算法的机器学习模型,采用梯度提升决策树作为集成学习器;采用网格搜索方法探索获取模型的最优超参数;选取精准率、召回率以及f1值作为模型效果的评估指标,到最优模型。
13.作为优选,s7中,离网预警和处置包括如下步骤:获取流失概率大于p0的高质量客户群体构建营销维系表;针对营销维系表中高质量客户群体的关联性的特征的类别,进行精准营销活动。
14.本发明的有益效果:本发明提出的基于机器学习的高质量用户离网预警模型构建方法,结合业务场景,通过深度挖掘客户的基础属性和业务行为进行多个维度的特征关联分析,选用具有高精度的机器学习模型来自动学习客户特征中所隐含的重要信息,从而构建了一种可以准确有效识别具有高流失倾向的用户群体的用户离网预警模型,为及时发现和干预用户离网行为提供数据模型支持。
15.上述发明内容仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
16.通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。
17.图1为本发明的基于机器学习的高质量用户离网预警模型构建方法的流程图。
具体实施方式
18.为使本发明的目的、技术方案以及优点更加清楚明白,下面结合附图和实施例对本发明作进一步详细说明,应当理解的是,此处所描述的具体实施方式仅是本发明的一种最佳实施例,仅用以解释本发明,并不限定本发明的保护范围,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
19.在更加详细地讨论示例性实施例之前,应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作(或步骤)可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤;所述处理可以对应于方法、函数、规程、子例程、子程序等等。
20.实施例:如图1所示基于机器学习的高质量用户离网预警模型构建方法,包括如下步骤:s1、划定电信高质量客户群体范围,通过制定客户的流失口径来划分流失群体和未流失群体,并将流失群体作为负样本,未流失群体作为正样本。
21.s1中,若电信用户的消费金额超过m且同时具备电信移动产品和宽带产品,则将该类用户作为高质量客户;若高质量客户对应的电信移动产品和宽带产品都被拆除,则将该类高质量用户定义为流失客户,否则定义为非流失客户。
22.具体的,高质量群体作为业务方维系的重点,例如,高质量群体可以是电信套餐金额在129元及以上且同时具有电信移动产品和宽带产品的客户群体。业务上制定的流失口径可以为客户对其所拥有的移动产品和宽带产品都进行了拆除。
23.s2、对历史数据中的流失群体进行数据探索,基于客户基础画像信息中流失群体与未流失群体的业务行为变化进行多维度分析,挖掘用户分群行为信息,刻画出目标用户的特征。
24.s2中,数据探索的方式包括:s21、查看数据类型是否正确、量纲是否一致、是否存在整个特征几乎缺失的情况。若出现数据类型不正确情况,需根据数据的实际含义对数据的类型进行转化,如’123’实际含义为数字123,应将其进行数据类型转换;若出现数据量纲不一致的情况,需要根据实际情况对数据的量纲进行调整,如电信相关业务中经常会涉及流量信息,对于以kb、mb、gb等单位计数的流量信息需要规整为统一量纲;若出现整个特征几乎缺失的情况,需首先确认源头数据是否正确,如果源头数据没缺失则检查数据传输过程中是否出现问题,如果源头数据确实则选缺失则选择剔除该特征。
25.s22、通过箱线图来查找数据的异常值;具体原理是通过构建数据的中位数、四分之一分位数、四分之二分位数、上边界、下边界等统计量来大致描述数据的分布情况,然后通过将这些统计量形成一个箱子的形状,分布在箱内的数据点为正常数据,而分布在箱体的上下边界之外的数据点则为异常数据。针对出现的异常数据,可采用直接剔除、将异常值视为缺失值、平均数或众数等统计量来修正等方法进行处理。
26.s23、可视化数据分布情况,对数据分布异常的特征采用对数转换等方式进行更改;例如,可以使用概率密度图、直方图等可视化形式来查看数据的分布情况,对于部分数据分布十分异常的特征考虑使用对数转换等方式来更改分布。
27.s24、剔除相关性高于设定阈值的特征。例如,相关性的设定阈值为95%,通过相关系数计算公式计算的得到的相关系数大于95%,则表示两组数据强相关,则删除强相关的数据特征。
28.s3、收集与流失群体存在关联性的特征,并将关联性的特征进行汇总,制作具备n个特征的数据宽表。
29.具体的,关联性的特征的分布包括:基础画像信息上包括但不限于客户的入网时长、客户星级、终端使用信息;套餐基础信息上包括但不限于订购的电信套餐中所包含的资源量、套餐金额;业务行为上包括但不限于客户产生的流量、语音、短信使用量、宽带使用量;最终共可得到154个特征。
30.s4、构建完数据宽表后,对数据宽表中的数据进行预处理后得到数值型特征数据。
31.s4中,对数据宽表中的数据进行预处理后得到数值型特征数据包括如下步骤:对特征缺失值进行处理,包括:针对不同类型的特征分别采用均值填充、众数填充、0值填充以及扩充属性值方法进行填充;同时,删除对流失群体判断无效的特征;对特征进行编码,包括但不限于采用了类别编码、独热编码、频率编码将不同类型的特征转化为数值型特征。
32.s5、通过对宽表内数据进行特征工程进而衍生多维度特征数据。
33.具体的,包括如下步骤:s51、针对用户的业务行为特征进行衍生,构建月份差异、均值、方差类型特征;s52、衍生工作日占总体情况的占比率特征以及白天流量使用情况占全天的占比率情况特征;s53、构建客户特征值的缺失率作为一个特征;完成以上操作后可得到最终的数据宽表,共包含249个数值型特征。
34.s6、将多维度特征数据作为机器学习模型的输入,对机器学习模型进行训练得到最优模型。
35.具体的,包括如下步骤:构建基于lightgbm算法的机器学习模型,采用梯度提升决策树作为集成学习器;采用网格搜索方法探索获取模型的最优超参数;选取精准率、召回率以及f1值作为本次模型效果的评估指标。其中精准率表示预测为正样本且实际为正样本的数占预测为正样本的数的比例,召回率表示预测为正样本且实际为正样本的数占实际为正样本的数的比例,f1值即为精准率和召回率的调和平均数,其数值可以更好得描述模型精准率和召回率的综合情况。;得到最优模型。
36.本实施例中,采用验证数据集对企业失信风险预测模型进行评估,采用精确率、召回率、精确率与召回率的调和平均数即f1系数来对模型进行评估,不断对模型参数与数据训练特征进行调整,直至模型在测试训练集上得到相对满意结果,需要明确的是本实施例方法构建的企业失信风险与车模型输出的是企业失信的概率,输出值越大则表示模型预测该企业失信风险越高;其中,由于精确率与召回率呈负相关,因此采用f1系数平衡两者以保证模型的准确性与泛化能力,f1系数越大则说明模型性能越好。在本发明实例中当f1系数为0.6左右时模型效果较优,此时算法收敛且能较准确的计算出企业发生失信行为的风险。需要说明的是即使几个模型的计算结果中f1系数极为接近,但模型间的准确率与召回率的值也可能不同,几者并无绝对最优,本领域技术人员可根据实际业务情景选择合适的模型,例如,最终在测试集上最优的模型效果为:精准率为17.48%,召回率为37.65%,f1值为0.2387。
37.利用分层5折交叉验证法进行模型效果评估,训练集和验证集选用客户在上月的属性以及流失情况,而测试集选用本月客户属性及流失情况。在模型算法上,选用lightgbm算法来训练模型,算法主要原理为:lightgbm为基于决策树算法的分布式梯度提升框架。相较于工业界其他算法模型,lightgbm大大缩短模型的计算时间,其主要通过:1、减小内存对于数据的使用,使得硬件可在保证一定速度的情况下,尽可能多的使用数据;2、减小机器间通信代价,提升多机并行时的效率,在计算上实现线性加速。lightgbm使用的直方图算法占内存低,数据分隔复杂度低,其主要思想是将连续的浮点型特征给离散化成为多个离散值,并构造直方图来遍历数据集,并统计每个离散值在直方图中的累计统计量,在进行特征选择时,只需要通过直方图的离散值就可以遍历寻找到最优的切分点。同时,在树节点的衍生上,lightgbm也进行了优化,首先它不采用传统树模型的按层生长的决策树生长策略,而采用有深度限制的按叶子生长算法,每次循环中都从当前所有叶子中找到分裂增益最大的叶子进行分裂。在分裂次数相同的情况下按叶子生长可产生更少的误差,有着更优的精度。按叶子生长的缺点是容易过拟合,因为其容易导致树的深度过深。为优化这一点,lightgbm增加了一个最大树深的限制,可以在保证运行效率高的同时防止模型过拟合。在减少数据行数角度,lightgbm采用goss(单边梯度采样)的方法来随机剔除具有较小梯度的样本,使用较大梯度的样本进行计算,可在一定程度上减少无用的数据量,提高训练速度;在减少数据列数角度,lightgbm采用efb(互斥特征绑定)的方法来捆绑互斥的特征,从一定程度上减少了稀疏的特征,提高训练的速度。
38.其中本次建模的lightgbm的实现是通过调用python的lightgbm模块,并在网格搜索方法下探索出了本次建模的最优超参数,其核心参数包括:boosting:gbdt;objective目标函数:binary;n_estimators残差树的数目:1500;metric度量函数:binary_logloss;is_unbalance是否不平衡数据集:true;max_depth最大树深度:6;num_leaves树上的最大叶子节点数:40;min_sum_hessian_in_leaf使一个结点分裂的最小海森值之和:0.05;min_data_in_leaf叶子节点上的最小样本数:10;learning_rate学习率:0.1;feature_fraction构建树时的特征选取率:0.7;bagging_fraction构建树时的样本选取率:0.8;bagging_freq几次后执行bagging操作:2;lambda_l1 l1正则系数:0.01;lambda_l2 l2正则系数:0.5。
39.s7、采用最优模型对获取的得到的电信高质量客户群体数据进行运算,得到对应客户的流失概率,筛选流失概率大于p0(例如p0为0.8)的高质量客户群体,进行离网预警和处置。
40.具体的,离网预警和处置包括如下步骤:获取流失概率大于p0的高质量客户群体构建营销维系表;针对营销维系表中高质量客户群体的关联性的特征的类别,进行精准营销活动。可以例如结合相应客户的语音、流量、宽带等痛点情况展开针对性营销维系活动,实现精准营销。
41.以上所述之具体实施方式为本发明基于机器学习的高质量用户离网预警模型构建方法的较佳实施方式,并非以此限定本发明的具体实施范围,本发明的范围包括并不限于本具体实施方式,凡依照本发明之形状、结构所作的等效变化均在本发明的保护范围内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献