一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种物流企业用户流失的预测方法

2022-06-30 01:33:16 来源:中国专利 TAG:


1.本发明涉及一种物流企业用户流失的预测方法,属于物流以及机器学习相关技术领域。


背景技术:

2.随着现在物流业的飞速发展,物流企业的用户也越来越多,其中包含了许多加盟商和一些小的交易用户。随着物流企业的发展以及越来越多的用户加盟,用户之间的竞争也在逐渐扩大,利益的减少以及竞争的加大导致了一些用户选择离开物流企业,所以对于用户流失的预测对于物流企业来说是非常重要的。
3.本专利针对物流企业设计了一种物流企业用户流失的预测方法,该方法中包括以下算法,以下算法均为现有技术,本专利涉及到下述算法的应用。
4.数据的累积分布:也就是小于等于当前数据值的所有数据的概率分布,对于表示数据点在某个区间内出现的概率有很大的帮助。从数学上来说,累积分布函数(cumulative distribution function)是概率分布函数的积分,累积分布函数存在以下几个特点:1、累积分布函数是x轴单调递增函数。2、累积分布函数更加平滑,图像中噪音更小。3、累积分布函数没有引入带宽等外部概念,因此不会丢失任何数据信息,对于给定的数据集,累积分布函数是唯一的。4、累积分布函数一般都经过归一化处理,单调递增且趋近于1。
5.在机器学习中,往往有着将不同规格的数据转换到同一规格,或不同分布的数据转换到某个特定分布的需求,这种需求需要用到数据的无量纲化来解决。线性的无量纲化包括中心化处理和缩放处理。中心化的本质是让所有记录减去一个固定值,即让数据样本数据平移到某个位置。缩放的本质是通过除以一个固定值,将数据固定在某个范围之中,取对数也算是一种缩放处理。
6.随机森林是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类,然后看看哪一类被选择最多,就预测这个样本为那一类。随机森林可以既可以处理属性为离散值的量,,也可以处理属性为连续值的量,还可以用来进行无监督学习聚类和异常点检测。
7.决策树(decision tree)是一个树结构,其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。
8.critic法是一种比熵权法和标准离差法更好的客观赋权法。它是基于评价指标的对比强度和指标之间的冲突性来综合衡量指标的客观权重。考虑指标变异性大小的同时兼顾指标之间的相关性,并非数字越大就说明越重要,完全利用数据自身的客观属性进行科学评价。
9.对比强度是指同一个指标各个评价方案之间取值差距的大小,以标准差的形式来
表现。标准差越大,说明波动越大,即各方案之间的取值差距越大,权重会越高;指标之间的冲突性,用相关系数进行表示,若两个指标之间具有较强的正相关,说明其冲突性越小,权重会越低。
10.天牛须搜索算法是一种生物启发的智能优化算法,是受到天牛觅食原理启发而开发的算法,其仿生原理如下:
11.当天牛觅食时,天牛并不知道食物在哪里,而是根据食物气味的强弱来觅食。天牛有两只长触角,如果左边触角收到的气味强度比右边大,那下一步天牛就往左飞,否则就往右飞,依据这一原理天牛可以找到食物。食物的气味就相当于一个函数,这个函数在三维空间每个点值都不同,天牛两个须可以采集自身附近两点的气味值,天牛的目的是找到全局气味值最大的点(即食物所在位置)。仿照天牛的行为,我们设计了该智能优化算法进行函数最优化求解。
12.支持向量机(support vector machines,svm)是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机;svm还包括核技巧,这使它成为实质上的非线性分类器。svm的的学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数的最小化问题。


技术实现要素:

13.本发明的目的是提供一种物流企业用户流失的预测方法,用于预测物流企业用户流失情况。
14.本发明的技术方案如下:1一种物流企业用户流失的预测方法,包括以下步骤:
15.s1:对于物流企业用户的原始数据集进行数据预处理,对于原始数据集,采用cdf累积分布函数进行数据转换,对于所有的特征进行分级分类处理,将所有的数据进行无量纲化;
16.s2:特征工程阶段处理:对数据集采用rf和critic的方法来对数据进行特征提取和用户流失系数的评估;
17.s3:用户流失的预测处理,采用bas和svm相结合的方法,将种群的思想与bas方法相结合,将种群以及最优解引导机制的思想加入到了bas中,通过bas对svm的惩罚因子和核函数参数进行更好的寻优,使得到的局部和全局最优极值更加准确。
18.进一步地,上述物流企业用户流失的预测方法,其中:所述步骤s1中原始数据集中各个特征分类处理,特征包括基本信息数据、用户行为属性数据和物流企业属性数据,所述基本信息中包括用户编号、用户身份、用户规模、市场,用户行为属性数据包括服务情况、交易数量、收支情况,物流企业属性数据包括交易情况、资金补助,并对各个特征进行字段命名和编码。
19.进一步地,上述物流企业用户流失的预测方法,其中:利用cdf累积分布函数的方法进行数据转换,具体方法图如下:
20.对于分级分级处理后的特征,采用cdf累积分布函数对各个特征进行数据转换,各个特征中的所有数据表示为x(x1,x2,x3,...,xn),其中n是每个指标的总数据,指标中每个值的排序顺序表示为(x
1.,x
2.,x
3.,...,x
[n]
),指标数据的转换过程如下:
[0021][0022]
对于负索引,首先采用相反数量的索引数,然后再采用cdf累积分布函数进行数据转换。
[0023]
进一步地,上述物流企业用户流失的预测方法,其中:所述步骤s2具体包括以下步骤:
[0024]
s21:通过rf对数据集中的特征指标进行特征的提取筛选,rf用多个决策树构成,每个决策树的生成遵循自上而下的划分原则,对每个决策树采取从根节点开始划分训练集的方法,对于每个树中节点,基于最小纯度节点的原则,选择其划分属性,同时分离训练数据集;
[0025]
s22:使用critic方法对于用户流失的风险进行评估。
[0026]
进一步地,上述物流企业用户流失的预测方法,其中:所述步骤s21中决策树在训练时会生成子节点,当决策树满足分支停止的规则时,停止子节点的生长,为了确定最合适的特征属性,需要对各个特征的“纯度”进行量化处理,计算各个特征的“纯度”方法如下:
[0027]
s211:计算特征中信息熵的增益:
[0028][0029]
其中,s是进行训练的样本集,f为样本中所包含的特征,p(f|i)为在特征出现的情况下每个类别的概率,p(i)为特征在样本中出现的概率;
[0030]
s212:将样本中的特征作为随机变量,对样本s进行划分训练:
[0031][0032]
s213:计算样本集中特征的“纯度”,将“纯度”高的特征提取出来:
[0033][0034]
进一步地,上述物流企业用户流失的预测方法,其中:所述步骤s22包括以下步骤:
[0035]
s221:计算第j个特征指标和其他指标的冲突性量化指标:
[0036]
[0037]
其中,相关系数选取的是样本的协方差和标准差进行表示,s222:计算第j个特征所包含的信息量:
[0038][0039]
s223:计算第j个特征的客观权重:
[0040][0041]
x
ij
代表第i个一级指标中的第j个二级指标,代表第i个一级指标中的平均值。
[0042]
进一步地,上述物流企业用户流失的预测方法,其中:所述步骤s3具体包括以下步骤:
[0043]
s31:获取企业用户原始数据集,设置种群数量n、最大迭代次数ite
max
,设定最优参数集合(c(惩罚因子),g(核函数))的取值范围,对数据集进行划分,将数据集划分为训练集和测试集两部分;
[0044]
s32:初始化天牛群位置,优化svm的惩罚因子(c)和核参数(g),每个天牛的位置代表一对参数(c,g);
[0045]
s33:确定天牛左右须的位置坐标:
[0046][0047][0048]
其中,t为方法的循环次数,ran(k,1)是一个随机性的k维向量,distance表示天牛左右两条须之间的距离;
[0049]
s34:确定适应度函数,本方法选择的适应度函数如下:
[0050]
[0051]
其中,wi为当前的权重因子,xi为获取到的真实数据,为进行拟合得到的数据,计算每个天牛个体的适应度值,记录当前个体及种群的最优值;
[0052]
s35:开始进行迭代,对种群位置进行更新;
[0053]
s36:计算位置更新后的适应度值,通过适应度值的比较,更新个体位置,并获取新的种群,根据预设最大迭代次数达到与否或者预设适应度函数精度达到与否来判断是继续进行更新还是输出最优参数对,达到最大迭代次数或达到预设适应度函数精度则结束迭代。
[0054]
s37:获取最优参数对(c,g),采用最优参数对训练集样本进行训练建模,得到输出最优参数组合;
[0055]
s38:将测试集数据进行代入经步骤s38后的训练模型,进行检测,得到svm预测模型。
[0056]
进一步地,上述物流企业用户流失的预测方法,其中:所述步骤s35具体包括以下步骤:
[0057]
对位置更新公式中的步长参数进行优化,将原来静态的步长系数修改为动态的调整系数,
[0058][0059][0060]
其中,为最大步长,ite为当前迭代次数,ite
max
为最大迭代次数。该方法可以有效的将f
step
限制在之内,
[0061]
更新天牛位置,引入mpso典型最优解引导机制,以达到使天牛群逼近最优个体解的速度更快的目标,定义天牛的位置公式:
[0062][0063]
其中,cons为取值在[0,1]之间的定义的常数,loc
best
为当前迭代次数下最优个体的位置,ran(k,1)是一个随机性的k维向量,sign(.)为符号函数:
[0064][0065]
本发明通过对整个的物流企业用户的数据集进行数据预处理,通过cdf方法进行数据的转换,利用累积分布函数对数据进行无量纲化操作。预处理后的特征工程阶段,对数据集采用rf和critic的方法来对数据进行筛选和用户流失系数的评估。对于用户流失的预测方法中,采用了bas和svm相结合的方法,将种群以及最优解引导机制的思想加入到了bas中,加快天牛种群逼近最优个体解的速度。通过bas对svm的惩罚因子和核函数参数进行更
好的寻优,用于对于用户流失的预测,防止用户流失。
附图说明
[0066]
图1是用户流失预测方法流程图;
[0067]
图2是原始数据集的特征分类图。
具体实施方式
[0068]
为使本发明的实施目的、技术方案和优点更加清楚,下面结合附图对本发明的技术方案进行清楚完整的步骤描述。
[0069]
如图1,是对于用户流失的一种预测方法,包括以下步骤:
[0070]
s1:对于物流企业用户的原始数据集进行数据预处理,对于原始数据集,采用cdf累积分布函数进行数据转换,对于所有的特征进行分级分类处理,将所有的数据进行无量纲化。该步骤中对于最初获取到的原始数据集,数据中必定存在着部分重复的、异常的,甚至是缺失的数据,在进行特征分类提取工程前需要对这部分数据进行处理,才能尽可能地减少对后续建模的影响。对于原始数据集中存在着的部分和预测用户流失相关性不强的数据,则需要将这些数据进行删除。
[0071]
s2:特征工程阶段处理:对数据集采用rf和critic的方法来对数据进行特征提取和用户流失系数的评估。该步骤用于将数据转换成能被计算机算法所理解的特征体系的工程活动,提高模型的准确度和泛化能力,对于进行数据转换后的数据,对其特征进行分类,但由于直接用于预测用户流失指标的变量太多,使得指标过于复杂,因此选择了更少、更具代表性的指标来度量用户流失情况。指标体系中的指标是连续变量,可以通过机器学习进行筛选。
[0072]
s3:用户流失的预测处理,采用bas和svm相结合的方法,将种群的思想与bas方法相结合,将mpso典型最优解引导机制引入到bsa中加快天牛群逼近最优个体解的速度,通过bas对svm的惩罚因子和核函数参数进行更好的寻优,使得到的局部和全局最优极值更加准确。该步骤中由于信用数据纷繁复杂,特征多且有连续与离散两种类型,故从高维数据中挑选出有效的特征对最终的信用评估结果起着至关重要的作用。
[0073]
步骤s1包括以下步骤:选取了一些企业及用户指标,直接用于预测用户流失指标的变量太多,使得指标过于复杂,因此选择了更少、更具代表性的指标来度量用户流失情况,指标体系中的指标是连续变量,可以通过机器学习进行筛选。原始数据集中各个企业及用户指标分类处理如图2所示,指标体系包括基本信息数据、用户行为属性数据和物流企业属性数据,基本信息中包括用户编号、用户身份、用户规模、市场等,用户行为属性数据包括服务情况、交易数量、收支情况等,物流企业属性数据包括交易情况、资金补助等。
[0074]
对于上述原始数据集中的所有指标进行分级分类处理,使其能够更好地配合cdf累积分布函数进行数据的无量纲化,利用cdf累积分布函数的方法进行数据转换,相比于一般归一化和标准化算法更加方便有效,不要求样本服从正态分布,最大限度地保持了原始数据的真实特征,降低了极值对新样本的敏感性。其用法如下:
[0075]
对于分级分级处理后的指标,采用cdf累积分布函数对各个指标进行数据转换。图2中每个指标中的所有数据表示为x(x1,x2,x3,...,xn),其中:r表示当前指标,n是每个指标
的总数据。指标每个值的排序顺序表示为(x
1.,x
2.,x
3.,...,x
[n]
),指标数据的转换过程如下:
[0076][0077]
步骤s2中,进行特征工程模块处理,对于进行数据转换后的数据,对其特征进行分类,具体包括以下步骤:
[0078]
s21:在对原始数据集进行了预处理后,通过rf对数据集中的特征指标进行特征的提取筛选。rf用多个决策树构成,每个决策树的生成遵循自上而下的划分原则,所以对每个决策树采取从根节点开始划分训练集的方法。对于每个树中节点,基于最小纯度节点的原则,选择其划分属性,同时分离训练数据集。
[0079]
决策树在训练时会生成子节点,当决策树满足分支停止的规则时,停止子节点的生长。为了确定最合适的特征属性,需要对各个特征的“纯度”进行量化处理,特征的“纯度”可以通过计算特征指标的信息增益比来进行量化,信息增益比越高,该特征的“纯度”越高。当特征f被进行训练后,样本s被分成多个类别,计算各个特征的“纯度”方法如下:
[0080]
步骤一:计算特征中信息熵的增益:
[0081][0082]
其中,s是进行训练的样本集,f为样本中所包含的特征,p(f|i)为在特征出现的情况下每个类别的概率,p(i)为特征在样本中出现的概率。
[0083]
步骤二:将样本中的特征作为随机变量,对样本s进行划分训练:
[0084][0085]
步骤三:计算样本集中特征的“纯度”,将“纯度”高的特征提取出来:
[0086][0087]
s22:使用critic方法对于用户流失的风险进行评估:物流企业用户流失的风险指数是通过用户数据集的特征指标的基础上进行综合的。相比较利用历史数据进行回归建模来监测用户流失风险而言,采用综合指数法更加的方便灵活,可以与其他模型方法结合进行研究。具体包括以下步骤:
[0088]
步骤一:计算第j个特征指标和其他指标的冲突性量化指标:
[0089][0090]
其中,相关系数选取的是样本的协方差和标准差进行表示,x
ij
代表第i个一级指标中的第j个二级指标,代表第i个一级指标中的平均值。
[0091]
步骤二:计算第j个特征所包含的信息量:
[0092][0093]
步骤三:计算第j个特征的客观权重:
[0094][0095]
步骤s3中,进行用户流失预测模块采用bas和svm相结合的方法进行用户流失的预测,为了得到的最优参数,将mpso算法与bas方法进行组合,引入mpso典型最优解引导机制,使天牛群逼近最优个体解的速度更快速。具体包括以下步骤:
[0096]
s31:获取企业用户原始数据集,设置种群数量n、最大迭代次数ite
max
,设定最优参数集合(c(惩罚因子),g(核函数))的取值范围,对数据集进行划分,将数据集划分为训练集和测试集两部分,训练集用于选择较优性能的svm模型;测试集用于检验优化后的svm模型的性能。
[0097]
s32:初始化天牛群位置,因为需要优化的参数为svm的惩罚因子(c)和核参数(g),因此将天牛群搜索的空间设置为二维,每个天牛的位置代表一对参数(c,g)。
[0098]
s33:确定天牛左右须的位置坐标:
[0099][0100]
[0101]
其中,t为方法的循环次数,ran(k,1)是一个随机性的k维向量,distance表示天牛左右两条须之间的距离。
[0102]
s34:确定适应度函数,本方法选择的适应度函数如下:
[0103][0104]
其中,wi为当前的权重因子,xi为获取到的真实数据,为进行拟合得到的数据。计算每个天牛个体的适应度值,记录当前个体及种群的最优值。
[0105]
s35:开始进行迭代,对种群位置进行更新。对位置更新公式中的步长参数进行优化如下:
[0106]
根据种群概念中惯性权重优化的启发,提出了基于当前迭代次数的线性递减策略方法来优化当前迭代次数算法的步长系数。将原来静态的步长系数修改为动态的调整系数,有助于优化bas算法的收敛速度并在一定程度上提高解的多样性。
[0107][0108][0109]
其中,为最大步长,ite为当前迭代次数,ite
max
为最大迭代次数。该方法可以有效的将f
step
限制在之内。
[0110]
更新天牛位置,引入mpso典型最优解引导机制,以达到使天牛群逼近最优个体解的速度更快的目标,定义天牛的位置公式:
[0111][0112]
其中,cons为取值在[0,1]之间的定义的常数,loc
best
为当前迭代次数下最优个体的位置,ran(k,1)是一个随机性的k维向量,sign(.)为符号函数:
[0113][0114]
s36:计算位置更新后的适应度值,通过适应度值的比较,更新个体位置,并获取新的种群。根据预设最大迭代次数达到与否或者预设适应度函数精度达到与否来判断是继续进行更新还是输出最优参数对,设置当前迭代次数n,当n》ite
max
时,达到最大迭代次数,或达到预设适应度函数精度则结束迭代。
[0115]
s37:获取最优参数对(c,g),采用最优参数对训练集样本进行训练建模,得到输出最优参数组合;
[0116]
s38:将测试集数据进行代入经步骤s38后的训练模型,进行检测,得到svm预测模型。
[0117]
本发明通过对整个的物流企业用户的数据集进行数据预处理,通过cdf方法进行数据的转换,利用累积分布函数对数据进行无量纲化操作。预处理后的特征工程阶段,对数据集采用rf和critic的方法来对数据进行筛选和用户流失系数的评估。对于用户流失的预测方法中,采用了bas和svm相结合的方法,将种群以及最优解引导机制的思想加入到了bas中,加快天牛种群逼近最优个体解的速度。通过bas对svm的惩罚因子和核函数参数进行更好的寻优,用于对于用户流失的预测,防止用户流失。
[0118]
当然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献