一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

潜在用户挖掘的方法、装置、电子设备及存储介质与流程

2023-02-04 13:59:16 来源:中国专利 TAG:


1.本发明涉及通信领域,具体而言,涉及一种基于信令的潜在用户挖掘的方法、装置、电子设备及存储介质。


背景技术:

2.目前,通信运营商经历过几十年的努力,为广大用户提供的移动电话已成为公众日常生活不可缺少的通信工具,而在手机使用过程中会产生庞大的通话信令。通话信令承载着用户与外界的关系,且具有定人、定时、定位、定关系等特性,在业务营销等方面具有独特作用。
3.例如某通信运营商有用户近4亿,通信助理业务自2021年起推进全国31省,至今平台累计在网用户数达2000万,通信助理业务的发展还存在着巨大的空间。通信助理业务的功能包括当用户的手机在关机、信号不好或遇忙时提供漏话短信提醒,以及新号改号通知、呼转设置、漏电查询、漏电语音留言等多项功能。运营商为了增加用户基数,扩大业务规模,需要对通信助理进行基于信令的营销。目前,基于信令的通信助理营销仍存在海量数据下质心初始化不精准、数据量大引起计算时间长、结果不收敛的情况,从而导致聚类性能降低、结果可信度低的问题。
4.因此,亟需研发一种克服以上问题的基于信令的潜在用户挖掘的方法。


技术实现要素:

5.本发明要解决的技术问题是基于信令的通信助理营销时,在海量数据下,质心初始化不精准、数据量大引起计算时间长、结果不收敛情况,从而导致聚类性能降低、结果可信度低的问题。
6.为解决上述技术问题,根据本发明的一个方面,提供一种潜在用户挖掘的方法,该方法包括如下步骤:s1、配置和预设数据抽取、清洗、转换规则;s2、通话信令汇集,根据采集规则采集全国各省的电信用户通话信令,其中,采集规则包括:确定信令数据采集周期、信令数据,信令数据包括:话单处理时间、呼叫类型、imsi(international mobile subscriber identity,国际移动用户识别码)、主叫号码、被叫号码、通话开始时间、通话结束时间、通话时长;s3、通话信令清洗、转换、结构化,因各省电信信令的差异性,需要对非法信令进行数据清洗,根据s1步骤中配置的数据清洗规则对采集的通话信令进行清洗;根据s1步骤中配置的数据转换规则将清洗后的信令数据进行归一化处理,生成标准的结构化的信令数据,其中,信令归一化处理包括原数据与系统内标准信令数据形成对应关系;s4、采用小样本多次抽样法获取初始化质心,以提高算法精准度,由聚类所生成的一组样本形成簇,对同一簇内信令数据进行小样本多次抽样法评估输入的小样本的聚类质心,得到新的质心;s5、海量信令的k-means模型聚类,把结构化的信令数据作为k-means模型的输入,进行聚类分析,输出聚类结果;s6、可营销的目标号码,通过聚类结果挖掘出潜在用户号码作为可营销的目标号码。
7.根据本发明的实施例,s4步骤可包括如下步骤:s41、先计算信令数据同一簇内全部的聚类质心两两之间的欧氏距离总和,然后将总和除以组合数作为淘汰奇异聚类质心的阈值;s42、选取此簇第一个全局最优聚类质心,其中,选取的标准是此聚类质心到此簇其余聚类质心距离小于阈值的概率不能小于0.4,接下来s43或s44方法弃除奇异质心;s43、继续按照步骤s42的方法选第二个聚类质心、第三个聚类质心和多个聚类质心,直到没有好的聚类质心可以加入,从而剩余的聚类质心判断为奇异聚类质心;s44、选取第一个全局聚类质心后,不再继续选取第二全局最优聚类质心,而把第一个当作参照聚类质心,接着算出此簇其余聚类质心到参考聚类质心的距离,如果此距离小于阈值,则可认为此聚类质心较好;否则,则视为次优质心。
8.进一步地,s5步骤可包括如下步骤:s51、经过步骤s4小样本多次抽样的方案得到聚类模型的初始化质心,设为k个样本作为初始聚类质心:a=a1,a2,

ak;质心包括遇忙、久呼不应、不可达、无条件呼的通信助理信令场景;s52、针对数据集中每个样本xi计算它到k个聚类质心的距离并将其分到距离最小的聚类质心所对应的类中;将数据集d={x1,x2,

,xm},通过k-means划分得到c={c1,c2,

,ck};其中,根据每通电话的信令数据计算到质心的欧式几何距离,完成每次循环的信令聚类;s53、针对每个类别aj,重新计算它的聚类质心,即属于该类的所有样本的质心:
[0009][0010]
并完成通信助理包括遇忙、久呼不应、不可达、无条件呼的场景的质心更新;s54、重复上面s52和s53两步操作,直到达到包括迭代次数、最小误差变化的中止条件产生;s54、不断训练模型,优化模型,筛选出符合通信助理触发场景的信令。
[0011]
根据本发明的实施例,步骤s3中,数据清洗规则可包括:无效数据的特征规则和特殊数据的特征规则;无效数据为不包括如下任意一种数据的通话记录:呼叫类型、主叫号码、被叫号码、imsi、通话开始时间、通话结束时间,无效数据的特征规则为对于无效数据在数据清洗时系统自动清理掉;特殊数据的特征规则为在数据清洗时忽略所有特殊号码的通话记录数据。
[0012]
根据本发明的实施例,潜在用户挖掘的方法还可包括:s7、短信营销、电话营销,利用聚类的结果目标号码进行精准短信营销、电话营销,发展成为通信助理业务用户。
[0013]
进一步地,潜在用户挖掘的方法还可包括:s8、业务用户的客户关怀,利用聚类结果进行精确的客户关怀,从而维持好客户关系。
[0014]
根据本发明的第二个方面,提供一种潜在用户挖掘的装置,包括:规则预设模块,用于配置和预设数据抽取、清洗、转换规则;通话信令汇集模块,用于根据采集规则采集全国各省的电信用户通话信令,其中,采集规则包括:确定信令数据采集周期、信令数据,信令数据包括:话单处理时间、呼叫类型、imsi、主叫号码、被叫号码、通话开始时间、通话结束时间、通话时长;通话信令清洗、转换、结构化模块,因各省电信信令的差异性,需要对非法信令进行数据清洗,根据规则预设模块的数据清洗规则对采集的通话信令进行清洗;根据规则预设模块的数据转换规则将清洗后的信令数据进行归一化处理,生成标准的结构化的信令数据,其中,信令归一化处理包括原数据与系统内标准信令数据形成对应关系;质心获取模块,质心获取模块采用小样本多次抽样法获取初始化质心,以提高算法精准度,由聚类所
生成的一组样本形成簇,对同一簇内信令数据进行小样本多次抽样法评估输入的小样本的聚类质心,得到新的质心;k-means聚类模块,用于将海量信令进行k-means模型聚类,把结构化的信令数据作为k-means模型的输入,进行聚类分析,输出聚类结果;目标号码输出模块,通过聚类结果挖掘出潜在用户号码作为可营销的目标号码,并输出。
[0015]
根据本发明的实施例,潜在用户挖掘的的装置还可包括:营销模块,通过短信营销、电话营销,利用聚类的结果目标号码进行精准短信营销、电话营销,发展成为通信助理业务用户;用户关系维持模块,用于进行对业务用户进行客户关怀,利用聚类结果进行精确的客户关怀,从而维持好客户关系。
[0016]
根据本发明的第三个方面,提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的潜在用户挖掘程序,潜在用户挖掘程序被处理器执行时实现上述的潜在用户挖掘方法的步骤。
[0017]
根据本发明的第四个方面,提供一种计算机存储介质,其中,计算机存储介质上存储有潜在用户挖掘程序,潜在用户挖掘程序被处理器执行时实现上述的潜在用户挖掘方法的步骤。
[0018]
与现有技术相比,本发明的实施例所提供的技术方案至少可实现如下有益效果:
[0019]
1).本发明利用通话信令数据进行精准挖掘,以最低成本发展通信助理潜在用户。利用庞大电信/通信用户通话信令为基础,对通话信令的进行数据建模,通过通话规律、通话异常等进行多层次分析,创建动态主被叫关系网络以及被叫号码通话特征。
[0020]
2).本发明通过正确配置数据抽取、清洗和转换规则,自动实现数据采集和数据分析,使得操作过程变得简单、准确、高效。
[0021]
3).本发明采用基于小样本多次抽样法对k-means算法优化,算法处理过程进行优化及改进,信令聚类效果,提高信令聚类分析的精度、性能与稳定性,获取精准的目标数据。解决了海量数据下,存在质心初始化不精准、数据量大引起计算时间长、结果不收敛情况,从而导致聚类性能降低、结果可信度低的情况。
[0022]
4).根据本方案计算结果,精准发现目标用户需求,对目标号码采取短信、电话外呼等方式进行营销,大大提高成功率,降低营销成本及用户投诉风险;进行在网业务用户的客户关怀,能够维护好存量的用户。
[0023]
5).本发明是在通信助理信令营销项目时,为了精准的定位潜在用户,提高营销的成功率,降低营销成本而提出的解决方案,利用k-means算法的牧师-村民模型对用户通话信令进行数学建模,鉴别出最具有价值的用户,再由业务人员进行引导,发展成为通信助理的用户;另外一个重要作用是根据分析的结果进行精准的客户关怀,维护好在网的业务用户关系。
附图说明
[0024]
为了更清楚地说明本发明实施例的技术方案,下面将对实施例的附图作简单地介绍,显而易见地,下面描述中的附图仅仅涉及本发明的一些实施例,而非对本发明的限制。
[0025]
图1是示出依据本发明实施例的潜在用户挖掘的方法的流程图。
[0026]
图2是示出依据本发明实施例的基于小样本多抽样的k-means算法图。
具体实施方式
[0027]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0028]
除非另作定义,此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,“一个”或者“一”等类似词语也不表示数量限制,而是表示存在至少一个。
[0029]
本发明利用通话信令数据进行精准挖掘,以最低成本发展通信助理潜在用户。利用庞大电信/通信用户通话信令为基础,对通话信令的进行数据建模,通过通话规律、通话异常等进行多层次分析,创建动态主被叫关系网络以及被叫号码通话特征。
[0030]
图1是示出依据本发明实施例的潜在用户挖掘的方法的流程图。
[0031]
如图1所示,潜在用户挖掘的方法包括如下步骤:
[0032]
s1、配置和预设数据抽取、清洗、转换规则。
[0033]
s2、通话信令汇集,根据采集规则采集全国各省的电信用户通话信令,其中,采集规则包括:确定信令数据采集周期、信令数据,信令数据包括:话单处理时间、呼叫类型、imsi、主叫号码、被叫号码、通话开始时间、通话结束时间、通话时长。
[0034]
s3、通话信令清洗、转换、结构化,因各省电信信令的差异性,需要对非法信令进行数据清洗,根据s1步骤中配置的数据清洗规则对采集的通话信令进行清洗;根据s1步骤中配置的数据转换规则将清洗后的信令数据进行归一化处理,生成标准的结构化的信令数据,其中,信令归一化处理包括原数据与系统内标准信令数据形成对应关系。
[0035]
s4、采用小样本多次抽样法获取初始化质心,以提高算法精准度,由聚类所生成的一组样本形成簇,对同一簇内信令数据进行小样本多次抽样法评估输入的小样本的聚类质心,得到新的质心。
[0036]
s5、海量信令的k-means模型聚类,把结构化的信令数据作为k-means模型的输入,进行聚类分析,输出聚类结果。
[0037]
s6、可营销的目标号码,通过聚类结果挖掘出潜在用户号码作为可营销的目标号码。
[0038]
本发明通过配置数据抽取、清洗和转换规则,自动实现数据采集和数据分析,使得操作过程变得简单、准确、高效。本发明采用基于小样本多次抽样法对k-means算法优化,算法处理过程进行优化及改进,信令聚类效果,提高信令聚类分析的精度、性能与稳定性,获取精准的目标数据。
[0039]
k-means是一种聚类算法,其中k表示类别数,means表示均值。k-means算法通过预先设定的k值及每个类别的初始质心对相似的数据点进行划分,并通过划分后的均值迭代优化获得最优的聚类结果。k-means算法以欧式几何距离作为相似度测度。
[0040]
本专利采用了k-means算法的牧师-村民模型进行信令的聚类处理,寻找出可营销的目标号码。
[0041]
牧师-村民模型主要思想如下:
[0042]
1.有四个牧师去郊区布道,开始牧师们随意选了几个布道点,并且把这几个布道点的情况公告给了郊区所有的村民,于是每个村民到离自己家最近的布道点去听课。
[0043]
2.听课之后,大家觉得距离太远了,于是每个牧师统计了一下自己的课上所有的村民的地址,搬到了所有地址的质心地带,并且在海报上更新了自己的布道点的位置。
[0044]
3.牧师每一次移动不可能离所有人都更近,有的人发现a牧师移动以后自己还不如去b牧师处听课更近,于是每个村民又去了离自己最近的布道点。
[0045]
4.就这样,牧师每个礼拜更新自己的位置,村民根据自己的情况选择布道点,最终稳定了下来。
[0046]
k-means的本质是基于欧式距离的数据划分算法,均值和方差大的维度将对数据的聚类产生决定性影响。所以未做归一化处理和统一单位的数据是无法直接参与运算和比较的。常见的数据预处理方式有:数据归一化,数据标准化。此外,离群点或者噪声数据会对均值产生较大的影响,导致质心偏移,因此需要对数据进行异常点检测。
[0047]
k-means算法直接在本方案中使用时存在如下问题:海量信令的场景下会表现出计算耗时长、甚至不收敛的情况,导致聚类性能降低、结果可信度不高的问题;对初始的簇质心敏感,不同选取方式会得到不同结果;不适合太离散的分类、样本类别不平衡的分类、非凸形状的分类;存在聚类质心初始化不理想会大大影响聚类结果的现象。因此,引入小样本多次抽样方法采用小量信令样本、多次抽样,优化分析后得到合理的聚类质心,再进行信令聚类计算的策略,避免初始聚类不合理造成的问题,从而提高信令聚类分析的精度、性能与稳定性。
[0048]
小样本多次抽样方法有两个过程,一是小样本多次抽样的聚类中心优化计算,二是基于海量信令的k-means聚类分析。样本聚类结果有局部最优解情况。避免局部最优解方法有:对于聚类样本的每一簇,样本初始质心选取方法可保证大多数信令的聚类质心是相近的,而一小部分是次优解;如果两个聚类质心是相近的,则此两个聚类质心的欧氏距离将是相对较小,若两个聚类质心不是相近的,则此两聚类质心的欧氏距离将是相对比较大。
[0049]
图2是示出依据本发明实施例的基于小样本多抽样的k-means算法图。
[0050]
如图2所示,上述s4步骤包括如下步骤:
[0051]
s41、先计算信令数据同一簇内全部的聚类质心两两之间的欧氏距离总和,然后将总和除以组合数作为淘汰奇异聚类质心的阈值。
[0052]
s42、选取此簇第一个全局最优聚类质心,其中,选取的标准是此聚类质心到此簇其余聚类质心距离小于阈值的概率不能小于0.4,接下来s43或s44方法弃除奇异质心。
[0053]
s43、继续按照步骤s42的方法选第二个聚类质心、第三个聚类质心和多个聚类质心,直到没有好的聚类质心可以加入,从而剩余的聚类质心判断为奇异聚类质心。
[0054]
s44、选取第一个全局聚类质心后,不再继续选取第二全局最优聚类质心,而把第一个当作参照聚类质心,接着算出此簇其余聚类质心到参考聚类质心的距离,如果此距离小于阈值,则可认为此聚类质心较好;否则,则视为次优质心。
[0055]
进一步地,s5步骤包括如下步骤:
[0056]
s51、经过步骤s4小样本多次抽样的方案得到聚类模型的初始化质心,设为k个样本作为初始聚类质心:a=a1,a2,

ak;质心包括遇忙、久呼不应、不可达、无条件呼的通信助理信令场景。
[0057]
s52、针对数据集中每个样本xi计算它到k个聚类质心的距离并将其分到距离最小的聚类质心所对应的类中;将数据集d={x1,x2,

,xm},通过k-means划分得到c={c1,c2,

,ck};其中,根据每通电话的信令数据计算到质心的欧式几何距离,完成每次循环的信令聚类。
[0058]
s53、针对每个类别aj,重新计算它的聚类质心,即属于该类的所有样本的质心:
[0059][0060]
并完成通信助理包括遇忙、久呼不应、不可达、无条件呼的场景的质心更新。
[0061]
s54、重复上面s52和s53两步操作,直到达到包括迭代次数、最小误差变化的中止条件产生。
[0062]
s54、不断训练模型,优化模型,筛选出符合通信助理触发场景的信令。
[0063]
根据本发明的一个或一些实施例,步骤s3中,数据清洗规则包括:无效数据的特征规则和特殊数据的特征规则;无效数据为不包括如下任意一种数据的通话记录:呼叫类型、主叫号码、被叫号码、imsi、通话开始时间、通话结束时间,无效数据的特征规则为对于无效数据在数据清洗时系统自动清理掉;特殊数据的特征规则为在数据清洗时忽略所有特殊号码的通话记录数据。
[0064]
本发明是在通信助理信令营销项目时,为了精准的定位潜在用户,提高营销的成功率,降低营销成本而提出的解决方案,利用k-means算法的牧师-村民模型对用户通话信令进行数学建模,鉴别出最具有价值的用户,再由业务人员进行引导,发展成为通信助理的用户;另外一个重要作用是根据分析的结果进行精准的客户关怀,维护好在网的业务用户关系。
[0065]
根据本发明的一个或一些实施例,潜在用户挖掘的方法还包括:
[0066]
s7、短信营销、电话营销,利用聚类的结果目标号码进行精准短信营销、电话营销,发展成为通信助理业务用户。
[0067]
s8、业务用户的客户关怀,利用聚类结果进行精确的客户关怀,从而维持好客户关系。
[0068]
根据本方案计算结果,精准发现目标用户需求,对目标号码采取短信、电话外呼等方式进行营销,大大提高成功率,降低营销成本及用户投诉风险;进行在网业务用户的客户关怀,能够维护好存量的用户。
[0069]
根据本发明的第二个方面,提供一种潜在用户挖掘的装置,其包括:规则预设模块、通话信令汇集模块、通话信令清洗、转换、结构化模块、质心获取模块和目标号码输出模块。
[0070]
规则预设模块用于配置和预设数据抽取、清洗、转换规则。
[0071]
通话信令汇集模块用于根据采集规则采集全国各省的电信用户通话信令,其中,采集规则包括:确定信令数据采集周期、信令数据,信令数据包括:话单处理时间、呼叫类型、imsi、主叫号码、被叫号码、通话开始时间、通话结束时间、通话时长。
[0072]
因各省电信信令的差异性,需要对非法信令进行数据清洗,通话信令清洗、转换、结构化模块根据规则预设模块的数据清洗规则对采集的通话信令进行清洗;根据规则预设模块的数据转换规则将清洗后的信令数据进行归一化处理,生成标准的结构化的信令数
据,其中,信令归一化处理包括原数据与系统内标准信令数据形成对应关系。
[0073]
质心获取模块采用小样本多次抽样法获取初始化质心,以提高算法精准度,由聚类所生成的一组样本形成簇,对同一簇内信令数据进行小样本多次抽样法评估输入的小样本的聚类质心,得到新的质心;k-means聚类模块,用于将海量信令进行k-means模型聚类,把结构化的信令数据作为k-means模型的输入,进行聚类分析,输出聚类结果。
[0074]
目标号码输出模块通过聚类结果挖掘出潜在用户号码作为可营销的目标号码,并输出。
[0075]
根据本发明的一个或一些实施例,潜在用户挖掘的装置还包括:营销模块和用户关系维持模块。
[0076]
营销模块通过短信营销、电话营销,利用聚类的结果目标号码进行精准短信营销、电话营销,发展成为通信助理业务用户。
[0077]
用户关系维持模块用于进行对业务用户进行客户关怀,利用聚类结果进行精确的客户关怀,从而维持好客户关系。
[0078]
根据本发明的又一方面,提供一种潜在用户挖掘的设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的潜在用户挖掘程序,潜在用户挖掘程序被处理器执行时实现上述的潜在用户挖掘方法的步骤。
[0079]
根据本发明还提供一种计算机存储介质。
[0080]
计算机存储介质上存储有潜在用户挖掘程序,潜在用户挖掘程序被处理器执行时实现上述的潜在用户挖掘方法的步骤。
[0081]
其中,在所述处理器上运行的潜在用户挖掘程序被执行时所实现的方法可参照本发明潜在用户挖掘方法各个实施例,此处不再赘述。
[0082]
本发明还提供一种计算机程序产品。
[0083]
本发明计算机程序产品包括潜在用户挖掘程序,所述潜在用户挖掘程序被处理器执行时实现如上所述的潜在用户挖掘方法的步骤。
[0084]
其中,在所述处理器上运行的潜在用户挖掘程序被执行时所实现的方法可参照本发明潜在用户挖掘方法各个实施例,此处不再赘述。
[0085]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
[0086]
以上所述仅是本发明的示范性实施方式,而非用于限制本发明的保护范围,本发明的保护范围由所附的权利要求确定。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献