一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种网格精细化分层的方法及装置与流程

2022-11-19 09:28:34 来源:中国专利 TAG:


1.本发明涉及大数据与ai新一代信息技术领域,尤其涉及一种网格精细化分层的方法及装置。


背景技术:

2.随着营销系统逐渐完善,基本营销的管理单元已细化至网格大小。精细化运营和管理变动给业务经营带来了两个主要问题:
3.1、网格未按照业务及属性进行分类,难以提供智能化的管理;
4.2、企业对网格单元进行划分的时候,仅仅是按照地区和区域等简单规则进行划分,然后将网格产生的价值简单的分为高、中、低等多层,其产生的分类结果较为粗糙,主观地进行分层缺乏一定的科学依据且降低了准确性,简单划分网格单元导致识别度不足。在企业对其网格单元精细化施策时无法达到针对性和差异性,导致营销效果不良。


技术实现要素:

5.本发明目的在于提供一种网格精细化分层的方法及装置,以解决上述现有技术存在的问题。
6.本发明所述一种网格精细化分层的装置,包括数据采集模块、网格精细化标签模块、用户运营模块和数据存储模块;
7.所述数据采集模块用于采集数据并进行初步的数据预处理;
8.所述网格精细化标签模块基于数据采集模块采集到的数据进行网格划分;
9.所述用户运营模块管理数据并进行数据营销与分析;
10.所述数据存储模块用于存储数据。
11.所述数据采集模块包括数据上报单元和数据特征预处理单元,所述数据上报单元通过请求数据接口,对数据进行清洗、转换和加工并将数据储存在基础数据库中;所述数据特征预处理单元包括集成数据、缺失值处理和异常值处理;
12.所述网格精细化标签模块包括网格用户基础标签单元、用户流失预警标签单元和网格分层模型标签单元;所述网格用户基础标签单元按照产品维度构建行为标签,所述用户流失预警标签单元用于预测用户是否会从平台流失并将其构建预警标签,所述网格分层模型标签单元基于聚类算法构建网格分层模型;
13.所述用户运营模块包括网格用户抽取单元、召回管理单元以及网格运营管理单元,所述网格用户抽取单元用于针对符合条件的用户进行抽取,召回管理单元对于即将流失或已经流失的用户进行召回,网格运营管理单元包括用户行为管理和运营人员营销活动分析;
14.数据存储模块包括但不限于标签存储单元。
15.行为标签包括:注册行为标签、活跃行为标签和消费行为标签;
16.所述预测用户是否会从平台流失包括:提取特征数据集,特征处理,构建融合预测
模型和生成流失用户列表并存入标签数据库。
17.所述特征包括但不限于:网格用户年龄、用户在网时长、所在网格单元、客户星级。
18.利用所述的分层装置进行网格精细化分层;
19.所述特征处理方法包括特征构建和特征选择;所述特征构建为将n个类别值编码为0至n-1之间的整数,建立起一对一的映射关系或将每一个类可能取值的特征变换为二进制特征向量,每一类的特征向量只有一个地方是1,其余位置都是0;所述特征选择根据预测能力和/或与目标值的相关性进行选择。
20.所述构建融合预测模型包括以下步骤:运用单模型学习算法,构建单模型学习数据集;将单模型学习算法的结果作为融合学习模型的输入;构建融合学习模型。
21.所述运用单模型学习算法包括但不限于支持向量机、随机森林、逻辑回归和神经网络。
22.所述构建网格分层模型包括下列步骤:
23.s1:启动质心初始化子单元,从数据集中随机抽选一个样本作为初始聚类的中心;
24.s2:聚类运算子单元会计算每个样本xi与当前已有的聚类中心之间的最短距离d(xi);
25.s3:调用聚类中心生成子单元,计算每一个样本被选为下一个聚类中心的概率值
[0026][0027]
计算出每个样本的累计概率值qi[0028][0029]
对于在[0,1]时间生成的伪随机数组r,若qi大于数组中的元素r[i],则样本xi被选中;否则比较下一个,直到选出k个聚类中心;
[0030]
s4:调用聚类运算子单元,计算每个样本xi与当前k个聚类中心之间的距离,并将其分配到距离最短的聚类中心对应的类别中;
[0031]
s5:调用质心更新子单元,针对每个类别
[0032][0033]
重新计算它的聚类中心ci;
[0034]
s6:调用质心比较子单元,若ci发生变化,则停止;反之重复步骤s4和s5直到聚类中心ci不再变化;
[0035]
s7:输出网格分层标签。
[0036]
所述标签存储单元使用压缩位图存储方法进行存储;将整数的32-bit的范围划分为16-bit的数据块和16-bit的容器,每一个数据块对应整数的高16位,同时使用一个容器来存放一个数值的低16位。
[0037]
使用两个容器存储,分别为数组容器和位图容器;默认使用数组容器进行储存;当数组容器的容量超过4096个短整型时,储存的数据自动存入位图容器。
[0038]
本发明所述一种网格精细化分层的方法及装置,其优点在于,以数据挖掘为核心
提供运营决策和预测的分析,为运营实现“扁平化”管理方式解决管理时效性问题,可满足网格聚类功能达成目标完成情况的展现和跟踪的目的。
[0039]
结合聚类分析方法识别需要重点关注的网格单元,根据不同网格单元群体的需求和对企业的贡献精确制定不同的宣传营销策略,从而大大降低企业的销售成本,提高宽带经营效率以及企业的竞争硬实力。优化了网格单元的价值以及风险细分能力,以网格单元之间的相似度进行计算,较传统做法提升了识别度,减少主观因素的影响,保证了准确性。压缩位图存储方法可大幅度提高数据存储的效率。
附图说明
[0040]
图1是本发明所述一种网格精细化分层的装置示意图;
[0041]
图2是融合预测模型结构示意图;
[0042]
图3是网格分层模型结构示意图。
具体实施方式
[0043]
一种网格精细化分层的装置,包括数据采集模块、网格精细化标签模块、用户运营模块和数据存储模块。
[0044]
所述数据采集模块用于采集数据并进行初步的数据预处理。
[0045]
所述网格精细化标签模块基于数据采集模块采集到的数据进行网格划分。
[0046]
所述用户运营模块管理数据并进行数据营销与分析。
[0047]
所述数据存储模块用于存储数据。
[0048]
所述数据采集模块包括数据上报单元和数据特征预处理单元,所述数据上报单元通过请求数据接口,对数据进行清洗、转换和加工并将数据储存在基础数据库中;所述数据特征预处理单元包括集成数据、缺失值处理和异常值处理。所述集成数据是将上一步骤得到的数据集进行合并,并对同名异义、异名同义等冗余特征的数据进行处理。所述缺失值处理方法包括对于连续型偏正态分布的特征数据,使用均值代替,可以保持数据的均值;对于偏长尾分布的特征数据,使用中值代替,可以避免离群点outlier值的影响;对于离散型特征数据按最大频数填充。所述异常值处理包括删除法、平均值填充法、及按缺失值模型预测进行填充。
[0049]
所述网格精细化标签模块包括网格用户基础标签单元、用户流失预警标签单元和网格分层模型标签单元;所述网格用户基础标签单元按照产品维度构建行为标签。所述行为标签包括:注册行为标签、活跃行为标签和消费行为标签。所述注册行为标签包括获取用户注册时间,注册时长,注册设备,注册地点,所在城市以及所在城市等级标签等信息。所述活跃行为标签包括用户活跃指数、用户活跃时段。衡量用户的活跃指数p为:
[0050][0051]
其中,xi为用户在周期n天内活跃指标,wi为对应活跃指标的权重值,且本实施例中m=3,其中,x1表示为周期内离线天数,x2为周期内活跃天数,x3为周期内最后一次活跃日期与首次活跃日期之差。衡量用户活跃度指数标签为:
[0052][0053]
其中,1表示低活跃,2为一般活跃,3为中高活跃,4为高度活跃。
[0054]
所述消费标签为结合用户参与活动的消费次数与总消费次数的比值,评价用户对营销活动敏感指数的标签。
[0055]
所述用户流失预警标签单元用于预测用户是否会从平台流失并将其构建预警标签。用户流失预警标签单元目的在于针对预测为流失的用户,通过运营手段增强其粘性,延长用户生命周期。
[0056]
数据存储模块包括mysql数据库或mariadb数据库或mongodb数据库或hbase数据库。数据存储模块包括标签存储单元,还包括用户行为数据集以及标签数据集。具体地,用户行为数据集包括但不限于网格用户年龄、用户在网时长等特征。
[0057]
所述标签存储单元使用压缩位图存储方法进行存储。所述标签存储单元运用压缩位图算法存储标签,极大地提高了查询效率,在存储和计算性能上有明显的提升。将整数的32-bit的范围划分为16-bit的数据块和16-bit的容器,每一个数据块对应整数的高16位,同时使用一个容器来存放一个数值的低16位。使用两个容器存储,分别为数组容器和位图容器。数组容器中的每个元素的类型为占两个字节的短整型。其中,元素按内存从大到小的顺序排列的。默认使用数组容器进行储存。当数组容器的容量超过4096个短整型时,储存的数据自动存入位图容器。采用该种压缩位图存储方法进行存储,可以快速检索一个特定的值,可以最大限度地避免内存浪费。所述特征包括但不限于:网格用户年龄、用户在网时长、所在网格单元、客户星级。
[0058]
所述预测用户是否会从平台流失包括:提取特征数据集,特征处理,构建融合预测模型和生成流失用户列表并存入标签数据库。所述提取特征数据集包括综合上述用户行为数据集以及标签数据集,通过用户唯一标识关联得到样本数据集。
[0059]
所述特征处理方法包括特征构建和特征选择。所述特征构建为对于离散型特征将n个类别值编码为0至n-1之间的整数,建立起一对一的映射关系或将每一个类可能取值的特征变换为二进制特征向量,每一类的特征向量只有一个地方是1,其余位置都是0。对于数值型特征,按标准化、二值化、归一化、离散化等方式处理。实施例中采用z-score的标准化方法,使得经过处理之后的数据均值为0,标准差为1,具体为:
[0060][0061]
其中,为特征x的均值,σ为特征x的标准差。
[0062]
对于缺省值占比大的特征,丢弃或填充处理,如丢弃缺省值占比大的样本,定性特征按0填充,定量特征值按其均值填充。特别地,对于数值分布不均匀的特征值,按包含的有效信息按区间划分。在本实施例中,如近n天通话时长,只关心在线时长是否达到限定的区间值,则将其处理成0和1表示未达阈值和已达阈值。
[0063]
所述特征选择根据特征的预测能力和/或与目标值的相关性进行选择。该特征的预测能力越强,信息贡献程度越高。根据与目标值的相关性进行选择具体为采用机器学习
的方法训练,得到各个特征的权值系数,移出权值系数较低的特征。
[0064]
所述构建融合预测模型包括以下步骤:运用单模型学习算法,构建单模型学习数据集;将单模型学习算法的结果作为融合学习模型的输入;构建融合学习模型。
[0065]
构建单模型学习模型为将数据集d随机划分为k个大小均匀的集合{d1,d2,

,dk},每次选出k-1个作为训练集,剩余的一份作为测试集,即获得k组训练集和测试集。dj和d
′j分别表示第j个集合dj上划分出来的训练集和测试集。在已知的t个初级学习算法中,即在算法{ξ1,ξ2,


t
}中,初级学习器模型是使用第t个学习算法而得到的模型。其次,对于dj中的每个样本xi,假设第t个模型的预测结果为那么由样本xi产生的二级模型训练样本特征为zi=(z
i1
,z
i2
,

,z
it
)。样本分类的标签还是原始的标记yi。所述算法{ξ1,ξ2,


t
}包括但不限于支持向量机、随机森林、逻辑回归和神经网络。结合实际预测结果,舍弃部分效果不佳的数据集。
[0066]
所述构建融合学习模型上述k*t次模型训练和预测后,得到二级训练集d

。所述d

是训练二级模型的数据集,二级模型y

是z1,z2,

,z
t
关于y的函数。还包括采用lightgbm算法训练和预测用户流失概率,并对模型输出的概率值作为融合层的最终输出概率,当输出的概率均值大于设定的阈值时,则判定为流失用户。
[0067]
所述网格分层模型标签单元基于聚类算法构建网格分层模型。
[0068]
所述用户运营模块包括网格用户抽取单元、召回管理单元以及网格运营管理单元,所述网格用户抽取单元用于针对符合条件的用户进行抽取。本实施例中为抽取到标签为在网时长小于等于3个月,有欠费,当月沉默的用户,属于典型的新入网高危用户,策略上必须做好新入网用户的维系工作。召回管理单元对于即将流失或已经流失的用户进行召回。该模块主要基于网格用户基础标签、用户流失预警标签,针对已流失用户和未来若时间内即将流失的用户进行召回,具体为:
[0069]
(1)模块获取已流失用户、即将流失用户信息,并通知运营人员;
[0070]
(2)网格运营人员根据相应用户的画像信息,制定召回策略,其中召回策略包括但不限于短信通知、资费优惠发放、回访沟通的形式;
[0071]
(3)成功唤醒的用户将纳入运营监控模块,由运营人员进一步维护。
[0072]
所述构建网格分层模型包括下列步骤:
[0073]
s1:启动质心初始化子单元,从数据集中随机抽选一个样本作为初始聚类的中心;
[0074]
s2:聚类运算子单元会计算每个样本xi与当前已有的聚类中心之间的最短距离d(xi);
[0075]
s3:调用聚类中心生成子单元,计算每一个样本被选为下一个聚类中心的概率值
[0076][0077]
计算出每个样本的累计概率值qi[0078][0079]
对于在[0,1]时间生成的伪随机数组r,若qi大于数组中的元素r[i],则样本xi被选
中;否则比较下一个,直到选出k个聚类中心;
[0080]
s4:调用聚类运算子单元,计算每个样本xi与当前k个聚类中心之间的距离,并将其分配到距离最短的聚类中心对应的类别中;
[0081]
s5:调用质心更新子单元,针对每个类别
[0082][0083]
重新计算它的聚类中心ci;
[0084]
s6:调用质心比较子单元,若ci发生变化,则停止;反之重复步骤s4和s5直到聚类中心ci不再变化;
[0085]
s7:输出网格分层标签。
[0086]
网格运营管理单元包括用户行为管理和运营人员营销活动分析。所述用户行为管理主要分为用户行为管理、活跃管理,主要针对已纳入营销策略的用户进行管理,如针对流失用户召回,该模块会统计、展示该批用户的行为事件,包括通话时长、通话次数、充值话费、套餐使用等。所述运营人员营销活动分析是将运营人员的工作内容和工作效益充分展示,例如运营人员跟进的用户咨询数量、跟进用户数量、召回用户数量及其召回比等。
[0087]
本实施例中建立客户收入、拆机情况、渗透率3个聚类子模型。最后将三个子模型进行交叉分析,可分别圈定高价值高风险、高价值高空间网格单元,打上相应标签,为后续精准营销提供强有力的支撑。其最终输出结果如表1所示:
[0088]
表1
[0089][0090]
本方法可实现网格数字化,守好高价值网格,抢占高空间。
[0091]
对于本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及形变,而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献