一种用于客户流失预测的数据挖掘方法与流程

2022-03-09 05:16:22 来源：中国专利 TAG：

1.本发明涉及数据监控技术领域，具体为一种用于客户流失预测的数据挖掘方法。

背景技术：

2.当下互联网上的金融理财程序越来越多，由于银行必须对所提供的理财产品严格负责，银行的所提供的理财产品相对于其它互联网平台所提供的或者所描述的相对保守，从而相对互联网平台的理财产品不容易吸引客户注意，导致了大量客户的存款的流失。
3.从成本收益角度看，存量客户产生收益远大于新增客户，同时存量客户的流失将会导致巨大的损失，挽留存量客户难度和成本低于获取新客户。

技术实现要素：

4.本发明提出了一种用于客户流失预测的数据挖掘方法，增强银行对客户服务的提升和挽留效率，解决长尾客户无人管、无力管的状况。
5.本发明的技术方案如下：一种用于客户流失预测的数据挖掘方法，包括数据获取步骤，特征变量选择步骤，样本选取步骤，数据预处理步骤，构建训练集和和测试集步骤和执行训练步骤，其中，所述数据获取步骤包括，建立数据库，对接银行数据系统；所述特征变量选择步骤包括，选取满足预测算法的特征变量；所述样本选取步骤包括，根据原始算法，以所收集的数据，对客户流失量进行数据准备；所述数据预处理步骤包括，整合基础数据，清理无关数据和空值；所述构建训练集和测试集步骤包括，抽取样本，将所抽取的样本分为训练集和测试集；所述执行训练步骤包括，按照模型参数的重要性程度进行训练，并以最优解滚动迭代。
6.作为本方案的进一步优化，所述数据获取步骤包括建立数据库，同时对接银行的数据系统对数据库进行信息传递。
7.作为本方案的进一步优化，所建立的数据库内容包括客户身份信息、客户资产信息、客户交易信息和产品信息。
8.作为本方案的进一步优化，所述客户身份信息包括客户id、年龄和性别，所述产品信息包括活期存款指标、定期存款指标、贷款情况指标、卡业务使用及办理情况、投资理财业务指标和产品综合指标，所述客户资产信息包括总金融资产情况 fa/aum 及其变动情况，所述客户交易信息包括渠道产品签约情况指标，aum 交易渠道情况指标、流入、流出情况、大小额转账和第三方及同名账户指标。
9.作为本方案的进一步优化，所述特征变量选择步骤包括，根据算法需求，设定条件，选取满足条件的特征变量；
所述样本选取步骤包括，将选取的特征变量带入原始的算法，进行预测准备。
10.作为本方案的进一步优化，所述数据预处理步骤包括根据原始算法，以个人客户号为连接条件，对所选取的特征值进行排列和总结，清理特征值中的无关数据和空值。
11.作为本方案的进一步优化，所述构建训练集和测试集步骤包括根据预测需求，选取样本数据进行试验，并根据设定，划分为训练集和测试集。
12.作为本方案的进一步优化，根据原始算法，得到对模型影响最重要的参数，模型训练从对模型影响最重要的参数作为起点，按照对模型影响的重要性程度递减方向依次训练，每次训练将之前训练得到的最优解作输入固定，滚动迭代。
13.本发明的工作原理及有益效果为：为原始的客户行为的预测算法提供特征和实际数据，对数据值进行不断模拟，将模拟结果与实际结果进行对比，本方案建立一个个人银行客户流失预测模型，预测贵宾客户在未来流失的概率，并根据模型中优势特征表现情况，给出客户流失原因分类作为参考，协助客户经理监控可能流失客户，及早预防贵宾客户流失。
附图说明
14.下面结合附图和具体实施方式对本发明作进一步详细的说明。
15.图1为本发明的流程框图；图2为本发明中实施例2的流程框图。
具体实施方式
16.下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都涉及本发明保护的范围。
17.具体实施例1，如说明书附图1所示，一种用于客户流失预测的数据挖掘方法，包括数据获取步骤，特征变量选择步骤，样本选取步骤，数据预处理步骤，构建训练集和和测试集步骤和执行训练步骤，其中，所述数据获取步骤包括，建立数据库，对接银行数据系统；所述特征变量选择步骤包括，选取满足预测算法的特征变量；所述样本选取步骤包括，根据原始算法，以所收集的数据，对客户流失量进行数据准备；所述数据预处理步骤包括，整合基础数据，清理无关数据和空值；所述构建训练集和测试集步骤包括，抽取样本，将所抽取的样本分为训练集和测试集；所述执行训练步骤包括，按照模型参数的重要性程度进行训练，并以最优解滚动迭代。通过数据挖掘，可以精准识别潜力客户，精确预警流失客户，进一步增强客户提升和挽留效率，解决长尾客户无人管、无力管的现状。
18.所述数据获取步骤包括建立数据库，同时对接银行的数据系统对数据库进行信息传递。其中数据库会进行分区包括所下载的数据存储入用户信息库，以及用于存储算法的，优化方法的算法信息库等，并由控制单元进行调动和计算，根据算法信息库中的数据处理用户信息库中的信息数据，进行计算和整合，技术的硬件实现可以直接采用现有的智能设
备，包括但不限于工控机、pc机、智能手机、手持单机、落地式单机等。其输入设备优选采用屏幕键盘，其数据存储和计算模块采用现有的存储器、计算器、控制器，其内部通信模块采用现有的通信端口和协议，其远程通信采用现有的gprs网络、万维互联网等，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
19.各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(read-only memory，rom)、随机存取存储器(random acces memory，ram)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。
20.所建立的数据库内容包括客户身份信息、客户资产信息、客户交易信息和产品信息，所述客户身份信息包括客户id、年龄和性别，所述产品信息包括活期存款指标、定期存款指标、贷款情况指标、卡业务使用及办理情况、投资理财业务指标和产品综合指标，所述客户资产信息包括总金融资产情况 fa/aum 及其变动情况，所述客户交易信息包括渠道产品签约情况指标，aum 交易渠道情况指标、流入、流出情况、大小额转账和第三方及同名账户指标。
21.所述特征变量选择步骤包括，根据算法需求，设定条件，选取满足条件的特征变量；所述样本选取步骤包括，将选取的特征变量带入原始的算法，进行预测准备。
22.所述数据预处理步骤包括根据原始算法，以个人客户号为连接条件，对所选取的特征值进行排列和总结，清理特征值中的无关数据和空值。
23.所述构建训练集和测试集步骤包括根据预测需求，选取样本数据进行试验，并根据设定，划分为训练集和测试集。
24.根据原始算法，得到对模型影响最重要的参数，模型训练从对模型影响最重要的参数作为起点，按照对模型影响的重要性程度递减方向依次训练，每次训练将之前训练得到的最优解作输入固定，滚动迭代。
25.具体实施例2，
s110、模型选择，经过多种模型的综合比较，最终选择xgboost模型作为贵宾客户流失预测模型。
26.本模型以客户月日均金融资产是否下降 40%及以上作为客户流失的定义。基于 210 多项特征，尝试使用了线性回归模型、随机森林、 xgboost 等模型进行了贵宾客户流失行为预测分析，通过横向比较，最终选择 xgboost 作为个人贵宾客户流失预测模型模型的算法。模型产出是每个客户的流失概率，并根据模型中优势特征表现情况，给出客户流失原因分类作为参考。
27.s120、数据源获取，结合个人客户相关业务，提取出流失预测模型涉及到的相关基础表。
28.以个人基础业务为基础，提取出客户基本信息、客户资产信息、客户交易信息、产品信息等相关基础表。
29.s130、特征变量设计，基于现有业务经验以及客户调查结果，统计出大约200项特征并进行相应建设。
30.其中主要包括客户基本属性（客户id、年龄、性别等）、产品构成（包括活期存款指标、定期存款指标、贷款情况指标、卡业务使用及办理情况、投资理财业务指标、产品综合指标等）、金融资产（包括总金融资产情况 fa/aum 及其变动情况等）、渠道及活跃度（包括渠道产品签约情况指标，aum 交易渠道情况指标等）、客户现金流指标（包括流入、流出情况、大小额转账，第三方及同名账户指标等）。
31.s140、数据样本选择，以过去一年以来的相关数据为基础，预测出未来三个月客户的流失概率情况。
32.观察期：以过去一年的数据为基础，在该周期内对客户的各项特征进行计算与评估，掌握流失与非流失贵宾客户在此区间内存在的行为特征集变化规律。
33.预测期：基于过去一年的观察期，以未来三个月后的月末时点作为预测时点，通过模型预测该客户在未来三个月后是否会出现流失。
34.s150、数据预处理，将基础数据表整合为大宽表，并进行无关数据清理和空值处理等。
35.以个人客户号为连接条件，将各类基础表整合为一个大宽表，便于后期数据统一处理，同时由于决策树类算法在输入的过程中不允许输入值为空值，因此对最终形成的宽表进行空值处理。目前表中存在两种空值，一种现实null/none,表示该数据格在原始数据中就没有对应的值，因此需要设置为 0。还有一种则是显示为' ', 该部分也需要对其进行赋值处理，将其设置为 0。对于客户性别、年龄特征的处理。相对于系统自带的性别、年龄字段，使用客户身份证信息获取客户性别、年龄，数据准确性更高。
36.s160、构建训练集和测试集，随机抽取100万样本数据，按3：1比例划分训练集和测试集。
37.由于特征宽表列数较多，综合考虑模型运行效率及数据使用的充分性，随机抽取10万正样本数据及90万负样本数据供模型学习。同时对 100万正负样本数据按照默认，即 3:1 划分为训练集和测试集，作为训练准备。
38.s170、模型训练与评价，按照模型参数的重要性程度进行训练并以最优解滚动迭代。
39.模型采用sklearn下的xgbclassifier包。模型训练从对模型影响最重要的参数作为起点，按照对模型影响的重要性程度递减方向依次训练，每次训练将之前训练得到的最优解作输入固定，滚动迭代。调参顺序如下：树的深度max_depth、最小叶子权重min_child_weight、损失函数系数 gamma、样本抽样比例subsample、特征抽样比例colsample_bytree、正则项系数reg_lambda、学习率learning_rate。
40.最后学习完成后的最优参数为，树的深度：15，最小叶子权重：40，损失函数系数：1，样本抽样比例：0.7，特征抽样比例：0.7，正则项系数：1，学习率：0.025。
41.最终经过2018年、2019年、2020年三年共计8轮数据的迭代验证，得到预测正样本的精确率为65%，召回率约为28%。
42.以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于特征间关系合成少数类样本的不平衡数据处理方法与流程

一种用于客户流失预测的数据挖掘方法与流程

相关文献

最热文献