一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

携号转网用户的预测方法、装置及计算设备与流程

2021-10-23 02:22:00 来源:中国专利 TAG:装置 预测 计算 方法 用户


1.本发明涉及无线技术领域,具体涉及一种携号转网用户的预测方法、装置及计算设备。


背景技术:

2.近年来,各运营商均开启了用户携号转网业务的办理,而移动用户的规模早已趋于饱和,这使得运营商市场之间竞争更加的激烈,如何及时发现用户的携号转网倾向,并定位用户携号转网的原因,制定相应的策略是挽留用户,赢得市场的关键。与此同时,随着大数据技术以及机器学习算法的发展,使操作者能够对海量的业务相关指标进行挖掘,并建立相关模型,对用户携号转网的倾向进行预测,并指导网络、市场等相关专业制定相应的用户挽留策略。
3.然而,现有的携号转网用户的分析主要集中于事后,即对已携转的用户常驻的小区进行补救性的网络优化;或是预测准确度低且无法明确给出可能的原因,无法为相关专业提供具体的指导建议,实用性不足。


技术实现要素:

4.鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的携号转网用户的预测方法、装置及计算设备。
5.根据本发明实施例的一个方面,提供了一种携号转网用户的预测方法,其特征在于,包括:
6.提取多个用户的预设标签维度的标签特征,根据所述多个用户的标签特征以及转网记录生成在网用户特征表和转网用户特征表;
7.根据所述在网用户特征表中第一部分用户的标签特征和转网用户特征表中的标签特征训练得到用户携号转网预测模型;将所述在网用户特征表中第二部分用户的标签特征输入至所述用户携号转网预测模型,预测得到各个用户携号转网的概率;
8.针对携号转网的概率大于预设值的各个目标用户,根据所述用户携号转网预测模型中各个标签变量的权重参数和该目标用户对应各个标签变量的标签特征进行加权计算,根据各个标签变量的加权值输出该目标用户携号转网的原因。
9.根据本发明实施例的另一方面,提供了一种携号转网用户的预测装置,其特征在于,包括:
10.提取模块,适于提取多个用户的预设标签维度的标签特征,根据所述多个用户的标签特征以及转网记录生成在网用户特征表和转网用户特征表;
11.训练模块,适于根据所述在网用户特征表中第一部分用户的标签特征和转网用户特征表中的标签特征训练得到用户携号转网预测模型;
12.概率预测模块,适于将所述在网用户特征表中第二部分用户的标签特征输入至所述用户携号转网预测模型,预测得到各个用户携号转网的概率;
13.原因预测模块,针对携号转网的概率大于预设值的各个目标用户,根据所述用户携号转网预测模型中各个标签变量的权重参数和该目标用户对应各个标签变量的标签特征进行加权计算,根据各个标签变量的加权值输出该目标用户携号转网的原因。
14.根据本发明实施例的又一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
15.所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述携号转网用户的预测方法对应的操作。
16.根据本发明实施例的再一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述携号转网用户的预测方法对应的操作。
17.根据本发明实施例的携号转网用户的预测方法、装置及计算设备,通过采集多个用户的预设维度的标签特征,可以生成在网用户特征表和转网用户特征表;然后利用该在网用户特征表和转网用户特征表中的标签特征可建立用户携号转网预测模型并用于对在网用户转网的可能性预测,进一步的,可依据模型中的权重参数和用户的标签特征计算分析出用户携号转网的可能原因,进而可以为相关专业提供具体的指导意见。
18.上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明实施例的具体实施方式。
附图说明
19.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明实施例的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
20.图1示出了本发明实施例提供的携号转网用户的预测方法的流程图;
21.图2示出了本发明另一个实施例提供的携号转网用户的预测方法的流程图;
22.图3示出了一个具体示例中经过升采样处理进行训练和预测的流程示意图;
23.图4示出了本发明实施例提供的携号转网用户的预测装置的结构示意图;
24.图5示出了本发明实施例提供的计算设备的结构示意图。
具体实施方式
25.下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
26.图1示出了本发明实施例提供的携号转网用户的预测方法的流程图。该方法可用于预测得到用户携号转网的概率,以及携号转网的原因,该方法可由任意具有数据处理能力的计算设备来执行。如图1所示,该方法包括以下步骤:
27.步骤s110:提取多个用户的预设标签维度的标签特征,根据该多个用户的标签特
征以及转网记录生成在网用户特征表和转网用户特征表。
28.其中,预设标签维度可以为一个或多个与用户转网与否相关的维度,标签特征是指各个标签维度的标签值。
29.具体地,针对在网用户和携号转网用户,分别提取出预设标签维度的标签特征,生成在网用户特征表和转网用户特征表,其中,在网用户特征表中记录有多个在网用户的用户标识和标签特征,转网用户特征表中记录有多个转网用户的用户标识和标签特征。
30.步骤s120:根据该在网用户特征表中第一部分用户的标签特征和转网用户特征表中的标签特征训练得到用户携号转网预测模型;将该在网用户特征表中第二部分用户的标签特征输入至该用户携号转网预测模型,预测得到各个用户携号转网的概率。
31.其中,将在网用户作为正样本,以及将转网用户作为负样本,并且为了实现利用模型对在网用户转网的可能性进行高效的预测,而仅将在网用户特征表中的部分用户(即第一部分用户)作为正样本。
32.在训练得到用户携号转网预测模型后,利用该模型对在网用户特征表中除第一部分用户之外的第二部分用户进行转网概率的预测,得到第二部分用户中各个用户携号转网的概率。
33.步骤s130:针对携号转网的概率大于预设值的各个目标用户,根据该用户携号转网预测模型中各个标签变量的权重参数和该目标用户对应各个标签变量的标签特征进行加权计算,根据各个标签变量的加权值输出该目标用户携号转网的原因。
34.其中,标签变量为组成标签特征向量的变量,其中,标签特征向量即为输入至模型进行预测的向量;若标签维度下没有下一级的划分,则变量即为标签维度,若有下一级的划分,则变量为下一级的分类,例如下文的表1中业务指标维度被进一步划分为ps在网天数、业务流量等等,则变量为ps在网天数、业务流量等等。
35.在本发明实施例中,在预测得到用户携号转网的概率之后,可以进一步针对转网可能性较大的用户(携号转网的概率大于预设值的各个目标用户),预测其携号转网的原因并输出。
36.具体地,将预测得到的各个用户携号转网的概率值与预设值进行比较,确定出携号转网的概率大于与设置的目标用户,针对各个目标用户,将该目标用户在各个标签变量的标签特征与用户携号转网预测模型中相应标签变量的权重参数相乘,得到该目标用户在各个标签变量的加权值,该加权值的大小可反映出目标用户因各个标签变量对应的原因携号转网的可能性大小,基于此,可输出目标用户携号转网的原因。
37.举例来说,用户携号转网预测模型中标签变量a,标签变量b以及标签变量c的权重参数为0.7,0.2以及0.1,并且目标用户的标签变量a,标签变量b以及标签变量c的标签特征分别为5,6以及4,则可求得各个标签变量的加权值为(0.7*5),(0.3*6)以及(0.1*4),其中,标签变量a的加权值最大,则目标用户因该标签变量a对应的原因转网的可能性最大。
38.根据本实施例提供的携号转网用户的预测方法,通过采集多个用户的预设维度的标签特征,可以生成在网用户特征表和转网用户特征表;然后利用该在网用户特征表和转网用户特征表中的标签特征可建立用户携号转网预测模型并用于对在网用户转网的可能性预测,进一步的,可依据模型中的权重参数和用户的标签特征计算分析出用户携号转网的可能原因,进而可以为相关专业提供具体的指导意见。
39.图2示出了本发明另一个实施例提供的携号转网用户的预测方法的流程图。如图2所示,该方法包括以下步骤:
40.步骤s210:按第一周期提取业务指标的标签特征、感知指标的标签特征和/或趋势指标的标签特征;和/或,按第二周期提取属性指标的标签特征,根据该多个用户的标签特征以及转网记录生成在网用户特征表和转网用户特征表。
41.在本发明实施例中,标签维度包括业务指标维度、感知指标维度、趋势指标维度和/或属性指标维度。下表1示出了本发明一个具体示例中业务指标维度、感知指标维度以及属性指标维度分别包含的特征内容:
42.[0043][0044]
由于携号转网业务往往是用户在一段较长时间所形成的行为,而非突发行为,基于此业务特点,系统按周粒度提取用户多维度特征,每周预测输出潜在携号转网用户及其原因。上表1中,用户业务类指标、用户感知指标均以周粒度进行汇聚,用户属性一般情况下以月粒度为变更,因此用户属性指标每月进行替换。可见,在该示例中,第一周期为一周,第二周期为一月。
[0045]
以及,下表2示出了本发明一个具体示例中趋势指标维度包含的特征内容:
[0046][0047]
由上表1可知,该趋势指标的标签特征包括以下一项或多项:业务流量变化系数、热点应用请求次数变化系数、主叫次数变化系数、被叫次数变化系数以及短信次数变化系数。
[0048]
具体地,针对每个用户,得到趋势指标的标签特征的过程如下:针对趋势指标的每项标签特征,将距离当前最近的多个第一周期的该标签特征进行线性回归拟合,得到该标签特征的变化系数。其中,在每次达到第一周期时,对前n个第一周期的数据进行线性回归建模,提取你和的线性回归方程的斜率系数,则得到相应的标签特征。
[0049]
具体线性回归建模方法如下:使用一元线性回归模型:y=ax b,通过拟合该方程,获得参数a的估计值,也就获得了用户的业务历史趋势。其中,按时间由远及近排序的长度为n的指标向量的每一个元素均除以该指标向量的均值,作为线性回归模型样本的y值,从0至(n-1)以1为步长作为线性回归模型样本的x值,然后输入线性回归模型进行拟合,得到斜率k值。
[0050]
具体实现(以python为例):
[0051]
reg=linear_model.linearregression()#初始化线性模型
[0052]
mean_value=vectorn.mean()#获得向量vectorn的均值
[0053]
vectorn=vectorn/mean_value#向量除以均值
[0054]
#x取0到n-1的列向量,y取指标平均后的列向量
[0055]
reg.fit(np.array(range(len(vectorn))).reshape(-1,1),vectorn.reshape(-1,1))
[0056]
reg.coef_[0][0]#得到斜率系数
[0057]
经过前述提取后,则得到了所有用户的标签特征,这些用户包括在网用户和转网用户,上述提取结果全部存储在在网用户特征表中。然后,需要从该在网用户特征表中分离出转网用户及其标签特征并存储至转网用户特征表中,以使在网用户及其标签特征和转网用户及其标签特征,可以被分别存储至不同的表中,便于后续训练及预测。
[0058]
具体地,从在网用户特征表中分离出转网用户及其标签特征并存储至转网用户特征表中的具体过程如下:
[0059]
(1)携号转网用户收集
[0060]
根据获得的用户携号转网的申请记录,对用户进行标记,有携号转网申请记录的用户被标记为1,其他用户则被标记为0。
[0061]
(2)生成转网用户特征表
[0062]
携号转网用户在携号转网申请前那一个第一周期粒度的标签特征将被复制进入“转网用户特征表”中。
[0063]
系统有两个滚动增加的表,“在网用户特征表”与“转网用户特征表”,“在网用户特征表”是提取所评估网络中所有用户的多个预设标签维度的标签特征,每个用户每个第一周期会有一条数据,而“转网用户特征表”是从“在网用户特征表”中来的,因为“已携号转网用户”是从其他部门如市场部门获取到的确切信息,如上一周有m个用户申请了携号转网,那么该m个用户前一个第一周期的标签特征可以作为携号转网用户的特征,因此将这些数据从“在网用户特征表”中分离而提取到“转网用户特征表”中。
[0064]
(3)在网用户特征表中的数据删除
[0065]
系统删除该m个用户在在网用户特征表中的所有数据。
[0066]
至此,则得到可用于后续训练和预测的在网用户特征表和转网用户特征表,其中,该在网用户特征表中记录有在最近一个第一周期内提取到的在网用户业务指标的标签特征、感知指标的标签特征和/或趋势指标的标签特征,和/或最近一个第二周期内提取到的在网用户的属性指标的标签特征;以及,该转网用户特征表中记录有在最近一个第一周期内提取到的转网用户业务指标的标签特征、感知指标的标签特征和/或趋势指标的标签特征,和/或最近一个第二周期内提取到的转网用户的属性指标的标签特征。
[0067]
步骤s220:判断转网用户的数量与第一部分用户的数量比值是否超过预设占比;若是,则执行步骤s230;若否,则执行步骤s240。
[0068]
在得到在网用户特征表和转网用户特征表后,需要进行用携号转网预测模型建模,由于网络中携号转网的用户数与正常在网的用户数存在着巨大的差距,尤其是在系统运行的前期,收集到的转网用户的数量较少,若直接以在网用户作为正样本,以及将转网用户作为负样本,则极有可能造成正负样本不均衡,基于此,在本发明实施例中,首先对正负样本的均衡性进行判断,然后确定相应的训练输入数据。
[0069]
实际中,需要通过训练得到的用户携号转网预测模型来对在网用户携号转网的可能性进行高效、准确的预测,进而只将在网用户特征表中第一部分用户来作为正样本,其中,第一部分用户通过随机采样的方式得到,而剩余的第二部分用户则用于预测,通常而言,第一部分用户占在网用户的5%至20%。相应的,在进行正负样本的均衡性判断时,则将转网用户特征表中转网用户的数量与第一部分用户的数量进行比较,若两者比值超过预设占比,则表明正负样本基本均衡,执行步骤s230,直接进行训练;若两者比值未超过预设占
比,则表明正负样本不均衡,执行步骤s240,先对负样本进行生采样处理,然后进行训练。其中,预设占比通常大于或等于0.25,即负样本的数量至少为正样本的数量的1/4,才认为正负样本基本均衡。
[0070]
步骤s230:将该第一部分用户的标签特征以及转网用户特征表中的标签特征输入至初始化的模型进行训练得到用户携号转网预测模型;其中,第一部分用户的标签特征为正样本,转网用户特征表中的标签特征为负样本。
[0071]
若两者比值超过预设占比,则将第一部分用户的标签特征及其正样本标注信息(例如,标注为0),以及转网用户特征表中的标签特征及其负样本标注信息(例如,标注为1),作为训练输入数据进行训练,得到用户携号转网预测模型。
[0072]
步骤s240:对该转网用户特征表中包含的每个转网用户的标签特征进行升采样处理,得到新增标签特征;将该第一部分用户的标签特征以及新增标签特征输入至初始化的模型进行训练得到用户携号转网预测模型;其中,第一部分用户的标签特征为正样本,新增标签特征为负样本。
[0073]
若两者比值未超过预设占比,则首先对负样本进行升采样处理,以获得更多的负样本。
[0074]
具体升采样处理的原理以及实现过程如下:
[0075]
升采样原理:平时很多分类问题都会面对样本不均衡的问题,很多算法在这种情况下分类效果都不够理想。类不平衡(class-imbalance)是指在训练分类器中所使用的训练集的类别分布不均。比如说一个二分类问题,1000个训练样本,比较理想的情况是正类、负类样本的数量相差不多;而如果正类样本有995个、负类样本仅5个,就意味着存在类不平衡。smote(升采样)算法的思想是合成新的少数类样本,合成的策略是对每个少数类样本a,从它的最近邻中随机选一个样本b,然后在a、b之间的连线上随机选一点作为新合成的少数类样本。
[0076]
实现过程:设训练集的少数类的样本数为t,那么smote算法将为这个少数类合成nt个新样本,这里要求n必须为正整数。设少数类的一个样本xi,i∈{1,....t},x是向量(是多个预设标签维度的标签特征)
[0077]
1.首先从该少数类的全部t个样本中找到样本xi的k个近邻(例如用欧氏距离),计为xi(near),near∈{1,

k};
[0078]
2.然后从这k个近邻中随机选择一个样本xi(nn),再生出一个0到1之间的随机数δ,从而合成一个新的样本xi1:
[0079]
xi1=xi δ*(xi(nn)-xi);
[0080]
3.将步骤2重复进行n次,从而可以得到n个新的样本:xinew,new∈{1,

n}
[0081]
4.所有t个样本重复以上操作,则可得到nt个新样本。
[0082]
至此,则可得到:总样本量=第一部分用户对应的样本量 升采样后已携号转网样本量。
[0083]
然后,将第一部分用户的标签特征及其正样本标注信息(例如,标注为0),以及升采样后转网用户的标签特征及其负样本标注信息(例如,标注为1),作为训练输入数据进行训练,得到用户携号转网预测模型。
[0084]
下面来详述具体的建模过程:
[0085]
带有l2正则项的逻辑回归代价函数:
[0086][0087]
带有l1正则项的逻辑回归代价函数:
[0088][0089]
其中c为手动设置值,建模过程即是输入样本xi,并求出使代价函数值最小的参数向量w。
[0090]
下面以python为例,具体说明上述建模过程:
[0091]
1、调用功能模块
[0092]
from sklearn.model_selection import gridsearchcv
[0093]
from sklearn.model_selection import cross_val_score
[0094]
from sklearn.linear_model import logisticregression
[0095]
2、设置逻辑回归参数,并利用呈现自动寻优最佳参数
[0096]
{"penalty":['l1','l2'],'c':[0.001,0.01,0.1,1,10,100,1000]},penalty参数设置为l1与l2,表示两种代价函数均要尝试
[0097]
c值则在[0.001,0.01,0.1,1,10,100,1000]中选择最优,最佳参数利用交叉验证获得
[0098]
grid_log_reg=gridsearchcv(logisticregression(),log_reg_params,cv=5)
[0099]
3、提取模型最佳参数
[0100]
(1)获取最佳模型
[0101]
grid_log_reg.fit(x_train,y_train)
[0102]
log_reg=grid_log_reg.best_estimator_
[0103]
(2)获取模型参数
[0104]
c_value=log_reg.c
[0105]
penalty_type=log_reg.penalty
[0106]
4、设置模型参数
[0107]
log_model=logisticregression(penalty=penalty_type,c=c_value)
[0108]
5、用全量数据训练模型完成建模
[0109]
log_model=logisticregression(penalty=penalty_type,c=c_value)
[0110]
log_model.fit(x_train,y_train)
[0111]
步骤s250:将该在网用户特征表中第二部分用户的标签特征输入至该用户携号转网预测模型,预测得到各个用户携号转网的概率。
[0112]
其中,概率值越大,则意味着携号转网的可能性越大。
[0113]
图3示出了一个具体示例中经过升采样处理进行训练和预测的流程示意图。如图3所示,通过随机采样从在网用户特征中选取第一部分用户的标签特征用于作为训练的正样本,以及对转网用户特征表中的标签特征通过升采样处理得到升采样后转网用户的标签特征作为训练的负样本,然后输入至逻辑回归模型中,训练得到用户携号转网预测模型;再将在网用户中除第一部分用户之外的第二部分用户的标签特征输入至用户携号转网预测模
型中预测得到携号转网的概率。
[0114]
步骤s260:针对携号转网的概率大于预设值的各个目标用户,根据该用户携号转网预测模型中各个标签变量的权重参数和该目标用户对应各个标签变量的标签特征进行加权计算,根据各个标签变量的加权值输出该目标用户携号转网的原因。
[0115]
具体地,对该目标用户多个标签变量的加权值由高至低进行排序,并输出排序靠前的至少一个标签变量对应的转网原因。其中,标签变量及其转网原因是具有对应的映射关系的。
[0116]
进一步的,针对预测携号转网概率大于预设值的目标用户,输出携号转网的原因的过程如下:
[0117]
1、获取逻辑回归算法模型参数
[0118]
用户携号转网模型如下:
[0119][0120]
从该模型中获取各个标签变量的系数θ,也即得到权重参数。
[0121]
2、计算目标用户各个标签变量的加权值
[0122]
潜在携号转网用户(即目标用户)在各个标签变量的标签特征与对应系数的乘积绝对值的大小能够反映用户的该标签特征对整个逻辑回归模型预测输出值的影响大小,绝对值越大其影响越大。
[0123]
目标用户某标签变量的加权值:si=|θi*xi|,θ为标签变量的系数θ,x为标签特征。
[0124]
3、获取权重较大的标签变量
[0125]
针对各个目标用户,按由大到小分别提取其前n个加权值较大的标签变量。
[0126]
4、用户在提取出的标签变量的标签特征与携号转网原因的映射
[0127]
将提取出的标签变量的标签特征根据其含义转译为更为明显的携号转网原因,比如下行rtt时延影响系数高,转译为“用户上网感知差”。
[0128]
根据本实施例提供的携号转网用户的预测方法,其弥补了现有方法的不足,首先本发明综合利用了属性数据、业务数据及感知数据,较大程度提高了分析对象的准确性与可靠性;第二,本发明利用机器学习算法,进一步挖掘历史数据并提取了历史趋势影响因素,使模型的特征集更加的合理;第三,给出了携转用户标签收集与处理方法,并利用逻辑回归模型对特征与标签进行建模,提升了算法适应性与预测的精确度;第四、发明了携转原因定位方法,系统在输出潜在携转用户的同时输出其携转的原因,提升系统的可用性;第五、建立了从数据收集、数据分析、方案输出到方案执行的一整套方法流程,极大程度提升效率。
[0129]
图4示出了本发明实施例提供的携号转网用户的预测装置的结构示意图。
[0130]
如图4所示,该装置包括:
[0131]
提取模块410,适于提取多个用户的预设标签维度的标签特征,根据所述多个用户的标签特征以及转网记录生成在网用户特征表和转网用户特征表;
[0132]
训练模块420,适于根据所述在网用户特征表中第一部分用户的标签特征和转网用户特征表中的标签特征训练得到用户携号转网预测模型;
[0133]
概率预测模块430,适于将所述在网用户特征表中第二部分用户的标签特征输入至所述用户携号转网预测模型,预测得到各个用户携号转网的概率;
[0134]
原因预测模块440,针对携号转网的概率大于预设值的各个目标用户,根据所述用户携号转网预测模型中各个标签变量的权重参数和该目标用户对应各个标签变量的标签特征进行加权计算,根据各个标签变量的加权值输出该目标用户携号转网的原因。
[0135]
在一种可选的方式中,概率预测模块进一步适于:
[0136]
对该目标用户多个标签变量的加权值由高至低进行排序,并输出排序靠前的至少一个标签变量对应的转网原因。
[0137]
在一种可选的方式中,提取模块进一步适于:针对各个用户,按第一周期提取业务指标的标签特征、感知指标的标签特征和/或趋势指标的标签特征;和/或,按第二周期提取属性指标的标签特征。
[0138]
在一种可选的方式中,所述趋势指标的标签特征包括以下一项或多项:业务流量变化系数、热点应用请求次数变化系数、主叫次数变化系数、被叫次数变化系数以及短信次数变化系数;
[0139]
提取模块进一步适于:针对趋势指标的每项标签特征,将距离当前最近的多个第一周期的该标签特征进行线性回归拟合,得到该标签特征的变化系数。
[0140]
在一种可选的方式中,所述在网用户特征表中记录在最近一个第一周期内提取到的在网用户业务指标的标签特征、感知指标的标签特征和/或趋势指标的标签特征,和/或最近一个第二周期内提取到的在网用户的属性指标的标签特征;以及,
[0141]
所述转网用户特征表中记录在最近一个第一周期内提取到的转网用户业务指标的标签特征、感知指标的标签特征和/或趋势指标的标签特征,和/或最近一个第二周期内提取到的转网用户的属性指标的标签特征。
[0142]
在一种可选的方式中,训练模块进一步适于:
[0143]
判断转网用户的数量与所述第一部分用户的数量比值是否超过预设占比,若否,对所述转网用户特征表中包含的每个转网用户的标签特征进行升采样处理,得到新增标签特征;
[0144]
将所述第一部分用户的标签特征以及新增标签特征输入至初始化的模型进行训练得到用户携号转网预测模型;其中,第一部分用户的标签特征为正样本,新增标签特征为负样本。
[0145]
在一种可选的方式中,训练模块进一步适于:若转网用户的数量与所述第一部分用户的数量比值超过预设占比,则将所述第一部分用户的标签特征以及转网用户特征表中的标签特征输入至初始化的模型进行训练得到用户携号转网预测模型;其中,第一部分用户的标签特征为正样本,转网用户特征表中的标签特征为负样本。
[0146]
本发明实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的携号转网用户的预测方法。
[0147]
图5示出了本发明实施例提供的计算设备的结构示意图,本发明具体实施例并不对计算设备的具体实现做限定。
[0148]
如图5所示,该计算设备可以包括:处理器(processor)502、通信接口
(communications interface)504、存储器(memory)506、以及通信总线508。
[0149]
其中:处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。通信接口504,用于与其它设备比如客户端或其它服务器等的网元通信。处理器502,用于执行程序510,具体可以执行上述用于计算设备的携号转网用户的预测方法实施例中的相关步骤。
[0150]
具体地,程序510可以包括程序代码,该程序代码包括计算机操作指令。
[0151]
处理器502可能是中央处理器cpu,或者是特定集成电路asic(application specific integrated circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个cpu;也可以是不同类型的处理器,如一个或多个cpu以及一个或多个asic。
[0152]
存储器506,用于存放程序510。存储器506可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
[0153]
程序510具体可以用于使得处理器502执行以下操作:
[0154]
提取多个用户的预设标签维度的标签特征,根据所述多个用户的标签特征以及转网记录生成在网用户特征表和转网用户特征表;
[0155]
根据所述在网用户特征表中第一部分用户的标签特征和转网用户特征表中的标签特征训练得到用户携号转网预测模型;将所述在网用户特征表中第二部分用户的标签特征输入至所述用户携号转网预测模型,预测得到各个用户携号转网的概率;
[0156]
针对携号转网的概率大于预设值的各个目标用户,根据所述用户携号转网预测模型中各个标签变量的权重参数和该目标用户对应各个标签变量的标签特征进行加权计算,根据各个标签变量的加权值输出该目标用户携号转网的原因。
[0157]
在一种可选的方式中,所述程序510进一步使所述处理器502执行以下操作:对该目标用户多个标签变量的加权值由高至低进行排序,并输出排序靠前的至少一个标签变量对应的转网原因。
[0158]
在一种可选的方式中,所述程序510进一步使所述处理器502执行以下操作:针对各个用户,按第一周期提取业务指标的标签特征、感知指标的标签特征和/或趋势指标的标签特征;和/或,按第二周期提取属性指标的标签特征。
[0159]
在一种可选的方式中,所述趋势指标的标签特征包括以下一项或多项:业务流量变化系数、热点应用请求次数变化系数、主叫次数变化系数、被叫次数变化系数以及短信次数变化系数;
[0160]
所述程序510进一步使所述处理器502执行以下操作:针对趋势指标的每项标签特征,将距离当前最近的多个第一周期的该标签特征进行线性回归拟合,得到该标签特征的变化系数。
[0161]
在一种可选的方式中,所述程序510进一步使所述处理器502执行以下操作:所述在网用户特征表中记录在最近一个第一周期内提取到的在网用户业务指标的标签特征、感知指标的标签特征和/或趋势指标的标签特征,和/或最近一个第二周期内提取到的在网用户的属性指标的标签特征;以及,
[0162]
所述转网用户特征表中记录在最近一个第一周期内提取到的转网用户业务指标的标签特征、感知指标的标签特征和/或趋势指标的标签特征,和/或最近一个第二周期内
提取到的转网用户的属性指标的标签特征。
[0163]
在一种可选的方式中,所述程序510进一步使所述处理器502执行以下操作:判断转网用户的数量与所述第一部分用户的数量比值是否超过预设占比,若否,对所述转网用户特征表中包含的每个转网用户的标签特征进行升采样处理,得到新增标签特征;
[0164]
将所述第一部分用户的标签特征以及新增标签特征输入至初始化的模型进行训练得到用户携号转网预测模型;其中,第一部分用户的标签特征为正样本,新增标签特征为负样本。
[0165]
在一种可选的方式中,所述程序510进一步使所述处理器502执行以下操作:
[0166]
若转网用户的数量与所述第一部分用户的数量比值超过预设占比,则将所述第一部分用户的标签特征以及转网用户特征表中的标签特征输入至初始化的模型进行训练得到用户携号转网预测模型;其中,第一部分用户的标签特征为正样本,转网用户特征表中的标签特征为负样本。
[0167]
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明实施例的内容,并且上面对特定语言所做的描述是为了披露本发明实施例的最佳实施方式。
[0168]
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
[0169]
类似地,应当理解,为了精简本发明实施例并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
[0170]
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
[0171]
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
[0172]
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明实施例的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
[0173]
应该注意的是上述实施例对本发明实施例进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜