一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

服务策略确定方法、装置、电子设备及存储介质与流程

2021-11-10 03:37:00 来源:中国专利 TAG:


1.本公开涉及数据分析技术领域,具体而言,涉及基于数据分析技术的一种服务策略确定方法、服务策略确定装置、电子设备及计算机可读存储介质。


背景技术:

2.随着大数据计算技术的发展,数据分析技术被逐渐应用在越来越多的领域中。以通信运营领域为例,基于数据分析技术的数据聚类与处理被越来越多地用于客户拓展或客户营销业务。
3.然而,传统的以k

means算法(k均值聚类算法)为代表的数据聚类处理算法在确定聚类模型的簇个数的过程中常常依据分析人员的主观经验判定,准确性较低;此外,在k

means算法的聚类结果中,每个样本被“硬聚类”为仅能属于某单个簇,但这与实际情况往往不相符,造成聚类效果不理想,从而使得难于确定针对目标客户的较为精准的营销策略。
4.因此,需要一种能够实现聚类模型稳定性和普适性较高、输出结果精准的服务策略确定方法和装置,以便能够针对不同群体的目标客户制定有针对性的服务策略。
5.需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。


技术实现要素:

6.本公开实施例的目的在于提供一种服务策略确定方法、服务策略确定装置、电子设备及计算机可读存储介质,从而至少在一定程度上实现了改进的聚类效果,并同时实现了服务策略与目标客户的精准匹配。
7.根据本公开的一个方面,提供一种服务策略确定方法,所述方法包括:
8.采集多组客户数据,并对所述多组客户数据进行预处理,以确定多个样本;
9.对所述多个样本进行核密度估计,以确定各样本所分别属于的多个聚类簇的数量;
10.基于所述多个聚类簇的数量,并通过模糊c均值聚类集成算法确定所述各样本所分别属于的多个目标聚类簇的数量以及所述各样本对其所属的一个或多个目标聚类簇的隶属度;
11.根据所述多个目标聚类簇的数量和所述隶属度确定所述各样本所对应的各客户的隶属熵;
12.根据所述各客户的隶属熵确定相应的服务策略。
13.在本公开的一种示例性实施例中,所述方法还包括:根据预设规则,确定多个服务执行者的分类组别;所述根据所述各客户的隶属熵确定相应的服务策略,包括:基于所述各客户的隶属熵和所述多个服务执行者的分类组别确定各客户与服务执行者之间的匹配关系;以及根据所述匹配关系确定相应的服务策略。
14.在本公开的一种示例性实施例中,所述客户数据包括日常消费数据和通信消费数
据;所述对所述多组客户数据进行预处理,以确定多个样本,包括:根据多组日常消费数据确定多个日常消费均值数据;基于所述多个日常消费均值数据对所述多组日常消费数据进行最大最小归一化处理,以确定多个日常消费样本数据;根据预设的映射表,确定与多组通信消费数据对应的多个通信消费样本数据;将所述多个日常消费样本数据与所述多个通信消费样本数据相加,以确定多个样本。
15.在本公开的一种示例性实施例中,所述对所述多个样本进行核密度估计,包括:基于高斯函数对所述多个样本进行核密度估计。
16.在本公开的一种示例性实施例中,所述基于所述多个聚类簇的数量,并通过模糊c均值聚类集成算法确定所述各样本所分别属于的多个目标聚类簇的数量以及所述各样本对其所属的一个或多个目标聚类簇的隶属度,包括:基于所述多个聚类簇的数量,通过训练得到多个模糊c均值模型,并确定所述各样本对各模糊c均值模型中的各聚类簇的隶属度;执行计算相似度步骤,所述计算相似度步骤包括:随机选择所述多个模糊c均值模型中的一个作为参考模型,其他模糊c均值模型作为基模型,计算各所述基模型对所述参考模型的相似度;执行确定隶属度矩阵和簇中心步骤,所述确定隶属度矩阵和簇中心步骤包括:根据所述各样本对各所述基模型中的各聚类簇的隶属度和所述相似度,确定所述各样本对所述参考模型中的各聚类簇的隶属度矩阵和所述参考模型中的各聚类簇的簇中心;判断是否已经以所述多个模糊c均值模型中的每一个作为参考模型执行了所述计算相似度步骤和所述确定隶属度矩阵和簇中心步骤,如果是,则得到多个隶属度矩阵和多个簇中心并执行确定目标模糊c均值模型步骤;如果否,则返回执行所述计算相似度步骤;所述确定目标模糊c均值模型步骤包括:基于所述多个聚类簇的数量、所述多个隶属度矩阵和所述多个簇中心确定目标模糊c均值模型;根据所述目标模糊c均值模型确定所述各样本所分别属于的多个目标聚类簇的数量以及所述各样本对其所属的一个或多个目标聚类簇的隶属度。
17.在本公开的一种示例性实施例中,所述基于所述多个聚类簇的数量,通过训练得到多个模糊c均值模型,并确定所述各样本对各模糊c均值模型中的各聚类簇的隶属度,包括:基于所述多个聚类簇的数量和模糊c均值模型的目标函数构建多个原始模糊c均值模型,各原始模糊c均值模型包括多个聚类簇,各聚类簇包括原始簇中心;执行确定样本隶属度步骤,所述确定样本隶属度步骤包括根据单个原始模糊c均值模型的所述各聚类簇的原始簇中心确定所述各样本对所述单个原始模糊c均值模型的各聚类簇的样本隶属度;根据所述样本隶属度确定更新后的簇中心,并且基于所述更新后的簇中心确定簇中心变化量;判断所述簇中心变化量是否小于预定阈值,如果是,则以最终得到的样本隶属度作为各样本对所述单个模糊c均值模型中的各聚类簇的隶属度,并且以最终得到的单个模糊c均值模型作为通过训练得到的单个模糊c均值模型;如果否,则用所述更新后的簇中心替代所述原始簇中心并返回执行所述确定样本隶属度步骤;判断是否已完成对所有原始模糊c均值模型的训练,如果是,则以最终得到的多个模糊c均值模型作为通过训练得到的多个模糊c均值模型,以及以最终得到的多个隶属度作为各样本对所述各模糊c均值模型中的各聚类簇的隶属度;如果否,则返回所述确定原始隶属度步骤。
18.在本公开的一种示例性实施例中,所述基于所述多个聚类簇的数量、所述多个隶属度矩阵和所述多个簇中心确定目标模糊c均值模型,包括:根据所述多个隶属度矩阵和所述多个簇中心确定各所述模糊c均值模型的内聚度;根据所述多个聚类簇的数量和所述多
个簇中心确定各所述模糊c均值模型的分离度;根据所述内聚度和所述分离度确定各所述模糊c均值模型的内聚外敛度;将具有最小的内聚外敛度的模糊c均值模型确定为所述目标模糊c均值模型。
19.根据本公开的一个方面,提供一种服务策略确定装置,所述装置包括数据采集处理模块、核密度估计模块、模糊聚类集成计算模块和隶属熵确定模块;
20.所述数据采集处理模块用于采集多组客户数据,并对所述多组客户数据进行预处理,以确定多个样本;
21.所述核密度估计模块用于对所述多个样本进行核密度估计,以确定各样本所分别属于的多个聚类簇的数量;
22.所述模糊聚类集成计算模块用于基于所述多个聚类簇的数量,并通过模糊c均值聚类集成算法确定所述各样本所分别属于的多个目标聚类簇的数量以及所述各样本对其所属的一个或多个目标聚类簇的隶属度;
23.所述隶属熵确定模块用于根据所述多个目标聚类簇的数量和所述隶属度确定所述各样本所对应的各客户的隶属熵,并且根据所述各客户的隶属熵确定相应的服务策略。
24.根据本公开的一个方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器被配置为经由执行所述可执行指令来执行上述任意一项所述的方法。
25.根据本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的方法。
26.本公开示例性实施例可以具有以下部分或全部有益效果:
27.在本公开示例实施方式所提供的服务策略确定方法中,一方面,通过采用核密度估计法来确定聚类簇个数,使得能够更准确地体现样本的分类情况,从而避免了需要借助于人工辅助来确定聚类簇个数,降低了人力成本的同时提高了确定聚类簇数量的准确性。另一方面,通过计算目标客户的隶属度的隶属熵值来衡量客户营销难度,使得能够以更直观以及简化的方式反映客户在消费行为方面的客户画像,从而使得能够根据目标客户的隶属熵来有针对性地确定相应的服务策略,因而能够提高服务策略与客户潜在需求的匹配度,有助于提高客户转化率。
28.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
29.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
30.图1示意性示出了根据本公开的一个实施例的服务策略确定方法的总体流程图;
31.图2示意性示出了根据本公开的一个实施例的对客户数据进行预处理的流程图;
32.图3示意性示出了根据本公开的一个实施例的服务策略确定方法的详细流程图;
33.图4a、图4b、图5a和图5b示意性示出了根据本公开的使用高斯核密度估计确定聚
类簇数量的验证过程的效果图;
34.图6a至图6e、图7a至图7e和图8a至图8e分别示出了采用不同有效性检验指标来验证根据本公开的模糊c均值聚类集成算法的过程的效果图;
35.图9示意性示出了根据本公开的一个实施例的服务策略确定装置的框图;
36.图10示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。
具体实施方式
37.现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
38.此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
39.以通信运营领域为例,在相关技术中,各类聚类算法,例如基于划分、基于层次、基于密度、基于模型的聚类算法,已被用于针对存量用户的提质挖掘。然而,通过这些聚类算法得到的挖掘结果本身对于服务执行者,也就是业务服务营销人员来说,在实际操作业务层面上不具有较好的指导性和可操作性,导致客户拓展效果不理想。因此,亟需提出一种可操作性强、应用效果明显的数据聚类分析和客户挖掘手段。
40.根据本公开的服务策略确定方法可以由具有数据计算处理能力的终端设备实施,例如个人计算机、工作站等;也可以由网络侧云计算设备实施,例如服务器或服务器集群等。在实际应用中,可以根据样本数量、实际需求、运算能力、响应速度等指标灵活选择实施根据本公开的方法的设备,本公开对此不做特别限定。
41.以下对本公开实施例的技术方案进行详细阐述:
42.本示例实施方式提供了一种服务策略确定方法,参考图1所示,该服务策略确定方法可以包括以下步骤:
43.步骤s110.采集多组客户数据,并对所述多组客户数据进行预处理,以确定多个样本;
44.步骤s120.对所述多个样本进行核密度估计,以确定各样本所分别属于的多个聚类簇的数量;
45.步骤s130.基于所述多个聚类簇的数量,并通过模糊c均值聚类集成算法确定所述各样本所分别属于的多个目标聚类簇的数量以及所述各样本对其所属的一个或多个目标聚类簇的隶属度;
46.步骤s140.根据所述多个目标聚类簇的数量和所述隶属度确定所述各样本所对应的各客户的隶属熵;
47.步骤s150.根据所述各客户的隶属熵确定相应的服务策略。
48.在本示例实施方式所提供的服务策略确定方法中,一方面,通过采用核密度估计法来确定聚类簇个数,使得能够更准确地体现样本的分类情况,从而避免了需要借助于人工辅助来确定聚类簇个数,降低了人力成本的同时提高了确定聚类簇数量的准确性。另一方面,通过计算目标客户的隶属度的隶属熵值来衡量客户营销难度,使得能够以更直观以及简化的方式反映客户在消费行为方面的客户画像,从而使得能够根据目标客户的隶属熵来有针对性地确定相应的服务策略,因而能够提高服务策略与客户潜在需求的匹配度,有助于提高客户转化率。
49.下面,在另一实施例中,对上述步骤进行更加详细的说明。
50.在步骤s110中,采集多组客户数据,并对所述多组客户数据进行预处理,以确定多个样本。
51.在本示例实施方式中,如图2所示,要生成作为本服务策略确定方法的输入的样本通常需要进行s201:数据抽取、s202:数据变换和s203:数据归约。其中,在s201:数据抽取,为了向客户提供有针对性的服务策略,通常需要对目标客户的消费行为进行聚类分析。为此,客户数据可以包括目标客户的消费数据。此外,考虑到采集与客户身份相对应的消费数据的可操作性,可以基于由通信运营商提供的移动支付程序在后台收集到的消费数据来采集包含目标客户的身份信息的消费数据。因此,客户数据可以包括客户的消费数据和身份信息,其中身份信息用于将数据聚类分析的结果与目标客户完成匹配,而消费数据则用于生成样本以便进行数据聚类分析;另外,为了保证针对目标客户进行的数据聚类分析的时效性和代表性,客户数据还可以包括时间信息,例如在过去的某一时间段内的客户消费数据。在本示例实施方式中,默认在移动支付程序于后台收集到的消费数据中随机抽取4000个用户账户所对应的在最近的三个月内的消费数据;该用户账户数量和时间段范围可以根据实际情况和样本量大小等需求灵活调整,本示例实施方式对此不做特别限定。
52.在采集到尤其包括目标客户的消费数据的客户数据后,可以对所采集到的客户数据进行预处理,从而确定多个样本。其中,预处理可以包括s202:数据变换和s203:数据归约。在一个示例中,目标客户的客户数据可以包括日常消费数据和通信消费数据;其中,日常消费数据例如可以包括通过移动支付程序所进行的交通消费、线上购物消费、线下购物消费、餐饮消费、理财支出等40余种消费类型的数据;而通信消费数据例如可以包括目标客户办理通信运营商提供的通信服务套餐后,每月固定支出的通信套餐资费,例如套餐价值为每月198元的通信套餐资费等。在s202:数据变换中,对客户数据做以下处理:将上述40余种消费类型进行同类型合并,例如,可以将通过扫描商场超市等场所的收款码、银联二维码等进行的消费行为合并为线下消费类型;可以将通过电商平台等进行的消费行为合并为线上消费类型;可以将股票交易、理财产品购买等金融活动的消费行为合并为金融理财类型;可以将尤其通过转账的方式支付物业费、会员费等的消费行为合并为非公众行为类型。通过这样处理后,最终可以将上述的40余种消费类型合并成下述五种类型,即五个客户数据维度:金融理财、线上消费、线下消费、吃喝娱乐、非公众行为。然后,将这五个维度的数据以“元”为单位,分别计算五个维度的日常消费数据均值。而对于通信消费数据,为了方便数据
分析,可以根据预设的映射表来将不同档位的通信套餐资费转换成对应的通信消费样本数据,并使用整数形式来表达该通信消费样本数据的属性值。举例来说,一种示例性的映射表可以如下:
53.套餐资费(单位:元)通信消费样本数据981128216831984
…………
54.表1
55.之后,在s203:数据归约中,对得到的日常消费数据和通信消费数据进行进一步的特征值归约处理。由于日常消费数据各维度之间消费类型不同,消费金额的差异较大,因此根据下述公式1分别对五个维度的日常消费数据进行最大最小归一化处理:
56.(最大日常消费数据

最小日常消费数据)/日常消费数据均值
ꢀꢀꢀ
(公式1);
57.通过上述处理,则可以得到五个维度的日常消费样本数据;之后,将这五个维度的日常消费样本数据分别与通信消费样本数据相加,从而最终得到目标客户的样本。也就是说,对于一个目标客户,用于对其进行消费行为分析的样本包括5个属性值。对每个目标客户的客户数据进行同样的处理,从而得到多个样本。通过上述的数据预处理方式,能够将客户数据处理成适合挖掘的形式,实现客户数据的数据离散化、规范化,还能够消除特征值之间的量纲影响,从而有利于数据分析的准确性。
58.需要说明的是,在s202:数据变换之前,还可以包括数据清理步骤,其可以包括对数据进行清洗、填充缺失值、消除噪声数据等,以保证数据的一致性和挖掘的精确性。然而,在本示例实施方式中抽取的数据属于用户消费数据,数据中涉及字段为消费时间、消费金额、消费类型,数据整体较为干净,为了保证数据分析结果的准确性,在本示例实施方式中省略该数据清理步骤。在实际应用中,也可以根据实际需要和数据的清洁程度选择启用该数据清理步骤,本示例实施方式对此不做特别限定。
59.在步骤s120中,对所述多个样本进行核密度估计,以确定各样本所分别属于的多个聚类簇的数量。
60.在本示例实施方式中,采用核密度估计和随机观测点法则来确定样本的较优聚类簇个数,也就是说,将多个样本聚类为若干数量个不同的簇,并且使得无需通过人工辅助来确定簇个数。其中,核密度估计(kernel density estimation,kde),是一种基于核函数的用于估计概率密度函数的非参数方法,其采用平滑的峰值函数(即,“核”)来拟合观察到的数据点,从而对真实的概率分布曲线进行模拟。在一个示例中,采用高斯函数作为核函数来进行核密度估计。使用高斯函数作为核函数,使得本示例实施方式的核密度估计算法在相邻波峰之间发生波形合成时在计算上具有易用性,同时通用性较强且稳定性较高。除此之外,还可以采用其他函数来作为核函数,例如指数核函数、二次有理核函数、各向异性核函数等等,可以根据实际需求和具体情况来确定所要采用的核函数,本示例实施方式对此不做特别限定。
61.可以以下述方式来对共n个样本进行高斯核密度估计:
62.(a).根据下述公式2计算样本标准差s,并且根据公式3并基于样本标准差s来计算用于核密度估计的带宽h:
[0063][0064]
其中,为样本均值;
[0065][0066]
(b).在所有样本点中随机选择10个样本点作为观测点,其中,观测点的数量可以根据实际情况而进行增减,本示例实施方式对此不做特别限定。之后随机选取这10个观测点中的一个观测点,计算所有n个样本点到该观测点的欧氏距离d。
[0067]
(c).在计算出所有欧氏距离d之后,可以在一区间范围内均匀生成多个点d

,以通过这多个点d

生成概率密度估计图的横轴,并且基于公式4计算在这多个点中的点d
i
处样本点出现的概率p:
[0068][0069][0070]
其中,公式4中的函数k(x)为核函数,在本示例实施方式中为高斯函数,其表达式如公式5所示。此外,上述的区间范围例如可以设置为(min(d)

50,max(d) 50),也就是说,可以在最小欧氏距离d
min
减50到最大欧氏距离d
max
加50之间生成多个点d

,使得这多个点d

沿概率密度估计图的横轴方向均匀分布在(min(d)

50,max(d) 50)的范围内。还可以基于所计算出的欧氏距离d设置其他的区间范围,本示例实施方式对此不做特别限定。
[0071]
(d).基于多个点d

和计算出的概率p生成概率密度估计图,并计算所生成的概率密度估计图中的波峰的数量。
[0072]
(e).在10个观测点中随机选取另一个观测点,并重复上述动作(b)至(d),直至针对这10个观测点均已完成计算相应的概率密度估计图中的波峰数量为止。选取所有波峰数量中的最大值作为各样本所分别属于的多个聚类簇的数量k,并将k(k=k 2)作为下文说明中的集成算法中聚类簇的数量最大值。其中,k=k 2为一经验值;由于基于选择观测点计算聚类簇数量的算法对观测点的位置具有依赖性,并且由于计算负荷限制,也难于实现选择尽可能多的观测点来尽量准确地反映样本点的实际聚类情况,因此,根据实践中的大量经验总结,往往采用聚类簇的数量最大值k=k 2能够得到较优的样本聚类分析结果,因此本示例实施方式中以k=k 2为例进行说明。该聚类簇的数量最大值k根据实验数据总结还可以采用其他较优的值,本示例实施方式对此不做特别限定。
[0073]
在步骤s130中,基于所述多个聚类簇的数量,并通过模糊c均值聚类集成算法确定所述各样本所分别属于的多个目标聚类簇的数量以及所述各样本对其所属的一个或多个目标聚类簇的隶属度。
[0074]
如上所述,在实际应用中,样本可能并不仅仅属于单一一个聚类簇,而是可能同时属于一个或多个聚类簇。因此采用将样本强行分入某一聚类簇的“硬聚类”方式往往难以得到理想的聚类分析效果。因此,区别于传统的模糊c均值(fcm)算法所采用的仅建立单个fcm模型的方式,在本示例实施方式中,建立多个fcm模型,并且以其中一个模型为参考模型计算综合隶属度矩阵,之后使用模糊条件下的内聚外敛度(cac

index)指标来选出聚类效果最佳的fcm模型,并且将该fcm模型中的多个聚类簇确定为目标聚类簇,从而确定出各样本所分别属于的多个目标聚类簇的数量以及各样本对其所属的一个或多个目标聚类簇的隶属度。
[0075]
在一个示例中,可以以下述方式来确定聚类效果最佳的fcm模型,并进而确定出目标聚类簇的数量以及各样本对其所属的一个或多个目标聚类簇的隶属度:
[0076]
(f).在前述说明中,已经确定出对样本进行聚类所得到的多个聚类簇的数量k,则在此通过训练得到多个fcm模型,例如20个,并且使得每个fcm模型均具有k个聚类簇,并分别确定出各样本对每个fcm模型中的k个聚类簇的隶属度。
[0077]
(g).从所得到的多个fcm模型中随机选择一个作为参考模型,并将其他fcm模型作为基模型,计算各基模型对该参考模型的相似度。可以使用tanimoto系数,并基于第q个基模型中的第i个聚类簇和参考模型r中的第l个聚类簇来计算第q个基模型与参考模型r之间的相似度其计算公式例如如公式6所示:
[0078][0079]
其中,为第j个样本对参考模型r中第l个聚类簇的隶属度,为第j个样本对第q个基模型中第i个聚类簇的隶属度。之后,例如还可以基于公式7将相似度归一化为近似度
[0080][0081]
(h).计算得到相似度之后,在具有q个基模型,每个基模型具有k个聚类簇的情况下,例如可以根据公式8计算得到样本中的第j个样本对参考模型r中的第l个聚类簇的隶属度u
lj

[0082][0083]
其中,为第j个样本对第q个基模型中的第i个聚类簇的隶属度,为第q个基模型中的第i个聚类簇与参考模型r中第l个聚类簇的近似度。通过上述方式,从而可以确定各样本对参考模型r中的各聚类簇的隶属度矩阵。
[0084]
而参考模型r中第l个聚类簇的簇中心c
l
例如可以基于公式9和上述隶属度u
lj
确定:
[0085][0086]
其中,x
j
为共n个样本中的第j个样本。通过上述方式,从而可以确定参考模型中的各聚类簇的簇中心。
[0087]
(i).判断是否已经以fcm模型中的每一个模型均作为参考模型执行了上述动作(h),如果未完成,则以另一个fcm模型作为参考模型,并以其他fcm模型作为基模型执行上述动作(h);如果已完成,则储存所得到的多个隶属度矩阵和多个簇中心。
[0088]
(j).之后,基于多个聚类簇的数量k、所得到的多个隶属度矩阵和多个簇中心则可以确定目标fcm模型,即,这多个fcm模型中聚类效果最佳的fcm模型。
[0089]
(k).确定目标fcm模型之后,该目标fcm模型中的聚类簇即被确定为目标聚类簇,从而可以确定目标聚类簇的数量,并且各样本对该目标fcm模型中的一个或多个聚类簇的隶属度即被确定为各样本对其所属的一个或多个目标聚类簇的隶属度。
[0090]
通过上述示例,相较于单一模型聚类方法,能够通过构建多个fcm模型的方法降低噪声点和离群点对结果的影响,使得模型具有改进的稳定性;同时还能够实现单一聚类算法难以获得的聚类结果,解决了模型陷入局部最优解的问题,使得具有更高的适用性和准确性。
[0091]
在一个示例中,对于上述动作(f),可以以下述方式来确定各样本对每个fcm模型中的各聚类簇的隶属度:
[0092]
(l).可以基于聚类簇的数量k和fcm模型的目标函数构建多个原始fcm模型,例如20个,使得每个原始fcm模型包括k个聚类簇,其中k的取值范围为2至k之间,并且在构建原始fcm模型的过程中满足k对2至k范围内的整数至少取值一次;而fcm模型的目标函数例如如公式10所示:
[0093][0094]
其中,u
ij
为第j个样本x
j
对fcm模型中的第i个簇的隶属度;m为模糊度,并且满足m>1;c
i
为fcm模型中的第i个簇的簇中心。对于所构建的原始fcm模型,可以随机初始化中心点,并将得到的簇中心作为原始簇中心。
[0095]
(m).对所构建的原始fcm模型例如以以下方式进行训练:随机选取一个原始fcm模型,可以根据原始簇中心并根据公式11确定各样本对该原始fcm模型的各聚类簇的样本隶属度:
[0096][0097]
(n).之后,可以根据所确定的样本隶属度u
ij
和公式12来更新簇中心:
[0098][0099]
并且可以基于更新前的簇中心和更新后的簇中心,并根据公式13来确定簇中心变化量δ:
[0100][0101]
(o).可以判断计算确定的簇中心变化量δ是否小于预定阈值,该预定阈值根据经验可以设置为0.00001;此外,该预定阈值根据实际需求也可以设置为其他的值,本示例实施方式对此不做特别限定。如果小于该预定阈值,则完成对该原始fcm模型的训练,并将该fcm模型作为通过训练得到的fcm模型,以及将最终得到的样本隶属度作为各样本对该通过训练得到的fcm模型中的各聚类簇的隶属度;如果簇中心变化量δ未能满足小于预定阈值,则用更新后的簇中心替代原始簇中心并返回重复执行上述动作(m)和(n)。
[0102]
(p).之后可以判断是否已经完成对所有原始fcm模型的训练,如果是,则以最终得到的多个fcm模型作为通过训练得到的多个fcm模型,并且以与这多个通过训练得到的fcm模型相对应的多个隶属度作为各样本对各fcm模型中的各聚类簇的隶属度;如果未完成对所有原始fcm模型的训练,则随机选取另一个原始fcm模型,并返回重复执行上述动作(m)、(n)和(o)。
[0103]
在一个示例中,对于上述动作(j),可以以下述方式来确定目标fcm模型:
[0104]
(q).例如可以基于在上述动作(i)中得到的多个隶属度矩阵和多个簇中心,并根据公式14来确定各fcm模型的内聚度:
[0105][0106]
其中,n为样本数量,k为聚类簇数量,x
j
为第j个样本,c
i
为fcm模型中第i个聚类簇的簇中心,而u
ij
为第j个样本对fcm模型中第i个聚类簇的隶属度。
[0107]
(r).例如可以基于多个聚类簇的数量k和多个簇中心,并根据公式15来确定各fcm模型的分离度:
[0108]
分离度=2∑
1≤i<l≤k
||c
i

c
l
||/(k

1)k
ꢀꢀꢀ
(公式15)
[0109]
其中,c
i
为fcm模型中第i个聚类簇的簇中心,而c
l
为fcm模型中第l个聚类簇的簇中心。
[0110]
(s).计算得到各fcm模型的内聚度与分离度之后,则可以根据公式16来计算确定各fcm模型的内聚外敛度cac:
[0111][0112]
也就是说,内聚外敛度cac=内聚度/分离度。
[0113]
(t).之后可以比较各fcm模型的内聚外敛度cac,并选择其内聚外敛度值最小的fcm模型确定为目标fcm模型。
[0114]
在上述示例中,综合了多个fcm模型的隶属度矩阵和簇中心的计算结果,并以其中一个模型为参考模型,采用迭代的方式计算综合隶属度矩阵,并且使用模糊条件下的内聚外敛度cac指标选择聚类效果最佳的集成方案,这相比于仅具有单一模型的fcm算法而言,计算结果更具有健壮性和稳定性。
[0115]
在步骤s140中,根据所述多个目标聚类簇的数量和所述隶属度确定所述各样本所对应的各客户的隶属熵。
[0116]
在本示例实施方式中,在确定目标fcm模型之后,则可以将其所包括的聚类簇确定为目标聚类簇,从而得到多个目标聚类簇的数量;并且还可以根据上述各动作确定各样本
对其所属的一个或多个目标聚类簇的隶属度。因此,例如可以基于多个目标聚类簇的数量k和上述隶属度,并根据公式17来确定各样本所对应的各客户的隶属熵h(u):
[0117][0118]
其中,u
i
为各客户的样本对目标fcm模型中的第i个聚类簇的隶属度。该隶属熵可以反映出该目标客户的营销难易程度,该隶属熵的值越大,则对应的目标客户的营销难度越大;而该隶属熵的值越小,则对应的目标客户的营销难度越小。
[0119]
在步骤s150中,根据所述各客户的隶属熵确定相应的服务策略。
[0120]
在确定各目标客户的隶属熵值,也就是确定了各目标客户的营销难度之后,则可以有针对性地对各目标客户采用不同的服务策略。举例来说,对于营销难度大的目标客户,则例如可以综合运用电话营销、社交媒体推送、上门服务、品牌引流等多种相结合的服务策略,从而更好地满足客户的需求并实现精准化信息推送;而对于营销难度小的目标客户,则可以适度减少服务策略种类,在确保客户满意度的同时减少服务成本。
[0121]
在一个示例中,还可以将服务执行者,也就是营销人员划分为不同的类别,并且使得属于不同类别的服务执行者根据各目标客户的隶属熵值来有针对性地应用不同的服务策略。
[0122]
举例来说,例如可以基于以下预设的规则表,来对服务执行者从不同的维度进行评价:
[0123]
[0124]
[0125][0126]
表2
[0127]
可以根据上表中针对不同维度的评价标准,来逐条对各服务执行者进行评分,并且最后根据表中的权重值进行加权求和。在对各服务执行者进行评价并得到各自的评分之后,例如可以基于以下的规则表,来依据评分所反映的营销能力情况将服务执行者划分为不同的类别:
[0128][0129]
表3
[0130]
如上表所示,根据服务执行者各自的营销能力,例如可以划分为“优秀”、“良好”和“合格”三个类别。之后则可以根据服务执行者的分类组别,如如下表所示,使得属于不同分组的服务执行者与具有不同隶属熵值的目标客户相匹配,以便提供高匹配度的不同服务策略。
[0131][0132]
表4
[0133]
通过上表可见,针对消费行为意向不明确的目标客户,也就是其隶属熵值较高的目标客户,往往需要采用多种营销策略相结合,并且需要营销能力较强的服务执行者,因此,可以将被分类为“优秀”的服务执行者匹配给该类客户,从而采用相应的有针对性的服务策略。而反之,对于针对消费行为意向较为明确的目标客户,也就是其隶属熵值较低的目标客户,则可以将被分类为“合格”的服务执行者匹配给该类客户,从而降低服务成本,减少人力资源浪费。通过这种方式,能够实现目标客户与对应类别的营销人员之间的精准匹配,实现了最大化新客户拓展转化率,并解决了营销人员的资源配置问题。
[0134]
图3示出了根据本公开的服务策略确定方法的详细流程图,其中,在s301,可以对采集到的客户数据进行例如包括数据抽取、数据变换和数据归约的数据预处理,以得到样本;在s302,可以对所得到的多个样本进行高斯核密度估计,从而确定出多个聚类簇的数量;在s303,例如可以构建20个原始fcm模型,并且对这20个原始fcm模型进行训练,以便得到经过训练的fcm模型;以选取一个作为参考模型,而其他作为基模型并且进行迭代计算的模糊c均值聚类集成算法来得到多个隶属度矩阵和多个簇中心;在s304,基于多个聚类簇的数量、多个隶属度矩阵和多个簇中心,采用内聚外敛度指标(cac

index)确定出目标fcm模型;在s305,可以基于该目标fcm模型确定出各样本所分别属于的多个目标聚类簇的数量以及各样本对其所属的一个或多个目标聚类簇的隶属度;在s306,可以根据多个目标聚类簇的数量和前述隶属度确定出各样本所对应的各客户的隶属熵;在s307,可以根据各客户的隶属熵确定并匹配适合的服务策略。
[0135]
应当注意,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
[0136]
实验验证
[0137]
图4a、图4b、图5a和图5b示出了使用高斯核密度估计自动发现较优聚类簇数量(即k值)的验证过程。
[0138]
如图4a所示,采用高斯分布随机生成均值向量和协方差矩阵,共4个聚类簇401,每个簇1000个样本点,在图4a中示出了样本点和观测点分布图,而在图4b中示出了高斯核密度波峰观测图。x轴坐标为均匀分布点d',取值范围为(min(d)

50,max(d) 50),d为从样本点到观测点的欧式距离。y轴坐标是计算出的概率密度值,经过随机生成4000个样本点的模
拟验证,共观测到4个波峰402,从而证明采用高斯核密度概率估计聚类簇的个数与样本实际簇个数一致,效果优良。
[0139]
如图5a所示,采用高斯分布随机生成均值向量和协方差矩阵,共6个聚类簇501,每个簇1000个样本点。在图5a中示出了样本点和观测点分布图,而在图5b中示出了高斯核密度波峰观测图。x轴坐标为均匀分布点d',取值范围为(min(d)

50,max(d) 50),d为从样本点到观测点的欧式距离。y轴坐标是计算出的概率密度值。经过随机生成6000个样本点的模拟验证,共观测到6个波峰502,从而证明采用高斯核密度概率估计聚类簇的个数与样本实际簇个数一致,效果优良。
[0140]
图6a至图6e、图7a至图7e和图8a至图8e示出了采用不同有效性检验指标来验证根据本公开的通过集成多个fcm模型的方法的鲁棒性和聚类结果的过程。该过程在于,通过多次随机试验比较在不同基模型个数下的有效性检验指标,来验证集成fcm模型的效果。其中横轴表示聚成基模型的个数,纵轴代表指标值,dbi、dbi

s、cac

index值越小代表聚类效果越好,ch

index、dunn

s值越大代表聚类效果越好。
[0141]
如图6a至图6e所示,当集成基模型个数在6个以内时,各指标值均显示聚类效果时好时坏,源于初始点、k值选取的随机性会导致优劣程度不同的聚类结果,非常不稳定,其中基模型个数为1即为未进行集成的fcm模型。而当集成基模型个数超过6个以后,聚类结果一直稳定在较优值附近,说明集成fcm模型具有更好的鲁棒性,更不容易受到初始值和单个模型的影响,聚类结果更稳定,更大概率地维持最佳效果。
[0142]
如图7a至图7e所示,在基模型个数集成到12个时,聚类效果也出现了波动,说明集成fcm模型也会小概率地出现坏的结果,是由于其集成的大多基模型聚类效果不佳,但出现这种情况的概率要远小于单一模型或集成少数fcm模型的时候。
[0143]
如图8a至图8e所示,cac

index指标结果整体趋势虽然和其他指标接近,但是波动幅度较大,说明其对软聚类结果更加敏感、苛刻,更能体现聚类结果的优劣,更适用于模糊聚类时的模型选择。
[0144]
进一步的,本示例实施方式中,还提供了一种服务策略确定装置。参考图9所示,该服务策略确定装置900可以包括数据采集处理模块910、核密度估计模块920、模糊聚类集成计算模块930和隶属熵确定模块940,其中:
[0145]
所述数据采集处理模块910用于采集多组客户数据,并对所述多组客户数据进行预处理,以确定多个样本;
[0146]
所述核密度估计模块920用于对所述多个样本进行核密度估计,以确定各样本所分别属于的多个聚类簇的数量;
[0147]
所述模糊聚类集成计算模块930用于基于所述多个聚类簇的数量,并通过模糊c均值聚类集成算法确定所述各样本所分别属于的多个目标聚类簇的数量以及所述各样本对其所属的一个或多个目标聚类簇的隶属度;
[0148]
所述隶属熵确定模块940用于根据所述多个目标聚类簇的数量和所述隶属度确定所述各样本所对应的各客户的隶属熵,并且根据所述各客户的隶属熵确定相应的服务策略。
[0149]
在本公开的一种示例性实施例中,所述隶属熵确定模块940还可以用于:根据预设规则,确定多个服务执行者的分类组别;基于所述各客户的隶属熵和所述多个服务执行者
的分类组别确定各客户与服务执行者之间的匹配关系;以及根据所述匹配关系确定相应的服务策略。
[0150]
在本公开的一种示例性实施例中,所述客户数据包括日常消费数据和通信消费数据;所述数据采集处理模块910可以用于:根据多组日常消费数据确定多个日常消费均值数据;基于所述多个日常消费均值数据对所述多组日常消费数据进行最大最小归一化处理,以确定多个日常消费样本数据;根据预设的映射表,确定与多组通信消费数据对应的多个通信消费样本数据;将所述多个日常消费样本数据与所述多个通信消费样本数据相加,以确定多个样本。
[0151]
在本公开的一种示例性实施例中,所述核密度估计模块920可以用于:基于高斯函数对所述多个样本进行核密度估计。
[0152]
在本公开的一种示例性实施例中,所述模糊聚类集成计算模块930可以用于:基于所述多个聚类簇的数量,通过训练得到多个模糊c均值模型,并确定所述各样本对各模糊c均值模型中的各聚类簇的隶属度;执行计算相似度步骤,所述计算相似度步骤包括:随机选择所述多个模糊c均值模型中的一个作为参考模型,其他模糊c均值模型作为基模型,计算各所述基模型对所述参考模型的相似度;执行确定隶属度矩阵和簇中心步骤,所述确定隶属度矩阵和簇中心步骤包括:根据所述各样本对各所述基模型中的各聚类簇的隶属度和所述相似度,确定所述各样本对所述参考模型中的各聚类簇的隶属度矩阵和所述参考模型中的各聚类簇的簇中心;判断是否已经以所述多个模糊c均值模型中的每一个作为参考模型执行了所述计算相似度步骤和所述确定隶属度矩阵和簇中心步骤,如果是,则得到多个隶属度矩阵和多个簇中心并执行确定目标模糊c均值模型步骤;如果否,则返回执行所述计算相似度步骤;所述确定目标模糊c均值模型步骤包括:基于所述多个聚类簇的数量、所述多个隶属度矩阵和所述多个簇中心确定目标模糊c均值模型;以及根据所述目标模糊c均值模型确定所述各样本所分别属于的多个目标聚类簇的数量以及所述各样本对其所属的一个或多个目标聚类簇的隶属度。
[0153]
在本公开的一种示例性实施例中,所述模糊聚类集成计算模块930还可以用于:基于所述多个聚类簇的数量和模糊c均值模型的目标函数构建多个原始模糊c均值模型,各原始模糊c均值模型包括多个聚类簇,各聚类簇包括原始簇中心;执行确定样本隶属度步骤,所述确定样本隶属度步骤包括根据单个原始模糊c均值模型的所述各聚类簇的原始簇中心确定所述各样本对所述单个原始模糊c均值模型的各聚类簇的样本隶属度;根据所述样本隶属度确定更新后的簇中心,并且基于所述更新后的簇中心确定簇中心变化量;判断所述簇中心变化量是否小于预定阈值,如果是,则以最终得到的样本隶属度作为各样本对所述单个模糊c均值模型中的各聚类簇的隶属度,并且以最终得到的单个模糊c均值模型作为通过训练得到的单个模糊c均值模型;如果否,则用所述更新后的簇中心替代所述原始簇中心并返回执行所述确定样本隶属度步骤;判断是否已完成对所有原始模糊c均值模型的训练,如果是,则以最终得到的多个模糊c均值模型作为通过训练得到的多个模糊c均值模型,以及以最终得到的多个隶属度作为各样本对所述各模糊c均值模型中的各聚类簇的隶属度;如果否,则返回所述确定原始隶属度步骤。
[0154]
在本公开的一种示例性实施例中,所述模糊聚类集成计算模块930还可以用于:根据所述多个隶属度矩阵和所述多个簇中心确定各所述模糊c均值模型的内聚度;根据所述
多个聚类簇的数量和所述多个簇中心确定各所述模糊c均值模型的分离度;根据所述内聚度和所述分离度确定各所述模糊c均值模型的内聚外敛度;将具有最小的内聚外敛度的模糊c均值模型确定为所述目标模糊c均值模型。
[0155]
上述服务策略确定装置中各模块或单元的具体细节已经在对应的服务策略确定方法中进行了详细的描述,因此此处不再赘述。
[0156]
图10示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。
[0157]
需要说明的是,图10示出的电子设备的计算机系统1000仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
[0158]
如图10所示,计算机系统1000包括中央处理单元(cpu)1001,其可以根据存储在只读存储器(rom)1002中的程序或者从存储部分1008加载到随机访问存储器(ram)1003中的程序而执行各种适当的动作和处理。在ram 1003中,还存储有系统操作所需的各种程序和数据。cpu 1001、rom 1002以及ram 1003通过总线1004彼此相连。输入/输出(i/o)接口1005也连接至总线1004。
[0159]
以下部件连接至i/o接口1005:包括键盘、鼠标等的输入部分1006;包括诸如阴极射线管(crt)显示器、液晶显示器(lcd)等以及扬声器等的输出部分1007;包括硬盘等的存储部分1008;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至i/o接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010上,以便于从其上读出的计算机程序根据需要被安装入存储部分1008。
[0160]
特别地,根据本公开的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(cpu)1001执行时,执行本技术的方法和装置中限定的各种功能。
[0161]
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0162]
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献