一种银行数据集的聚类方法、装置及设备与流程

2022-02-24 14:44:44 来源：中国专利 TAG：

1.本技术涉及大数据技术领域，尤其涉及一种银行数据集的聚类方法、装置及设备。

背景技术：

2.随着信息时代的到来，需要处理的信息量呈现几何级别的增长。尤其对于银行业来说，需要处理的银行数据越来越多。在数据处理中，聚类是先将样本划分为簇，再根据各簇的特征确定类别，所以在面对大量无标记样本时，聚类可以适应样本的各种分布变化，都能得到聚类结果，这也是聚类的优势之一，因此，在银行业发展中引入数据集的聚类分析是有益且必要的。比如，在银行资产配置、客户价值评估以及精准营销策略制定等方面，对于数据集的聚类分析均可发挥积极作用。
3.但是目前许多现有的聚类算法和聚类有效性指标都存在着非常多的局限性，如无法对多种形状的数据集进行聚类等，导致聚类过程不稳定，且聚类效果较差。

技术实现要素：

4.本技术实施例的主要目的在于提供一种银行数据集的聚类方法、装置及设备，能够对不同形状的银行数据集进行聚类，且可以有效找到最佳类簇数和最优划分，同时降低时间消耗，达到较好的聚类效果。
5.第一方面，本技术实施例提供了一种银行数据集的聚类方法，所述方法包括：
6.获取待聚类的目标银行数据集；所述目标银行数据集包含n个样本点；所述n为大于0的正整数；
7.运用k-means算法，将所述目标银行数据集划分成k1个类簇；所述k1为大于的正整数；
8.运用层次聚类算法，通过调整新聚类有效性指标的取值，将所述k1个类簇进行逐步合并，直至缩减为2个类簇；所述新聚类有效性指标为将所述目标银行数据集被划分成k2个类簇的平均聚类综合度与将所述目标银行数据集被划分成k2 1个类簇的平均聚类综合度的差；所述k2为向上取整对应的正整数；
9.当所述新聚类有效性指标达到最大值时，将对应的类簇数量作为最佳类簇数量，并根据所述最佳类簇数量，实现对所述目标银行数据集的聚类划分。
10.可选的，所述运用k-means算法，将所述目标银行数据集划分成k1个类簇，包括：
11.从所述目标银行数据集选取k1个点，作为初始类簇中心点；
12.计算所述目标银行数据集中每个样本点与所述初始类簇中心点的欧氏距离；
13.将所述目标银行数据集中每个样本点分配到与之最近的类簇中心点所在的类簇中；
14.计算每个类簇的平均值，并将其作为新的类簇中心点；
15.计算所述新的类簇中心点与更新前的聚类中心点之间的欧氏距离；若所述欧氏距离为零，则得到所述目标银行数据集划分好的k1个类簇；若所述欧氏距离不为零，则重复执
行计算所述目标银行数据集中每个样本点与所述初始类簇中心点的欧氏距离及后续步骤，直至得到所述目标银行数据集划分好的k1个类簇。
16.可选的，所述运用层次聚类算法，通过调整新聚类有效性指标的取值，将所述k1个类簇进行逐步合并，直至缩减为2个类簇，包括：
17.重复计算所述k1个类簇中每两个类簇之间的最小距离，并将最小距离最近的两个类簇合并为一个新的类簇，直至合并后的类簇数量为2；
18.其中，在每一次合并过程中，计算类簇数为k2时的所有类簇的聚类综合度的平均值，直至合并后的类簇数量为2。
19.可选的，在所述当所述新聚类有效性指标达到最大值时，将对应的类簇数量作为最佳类簇数量，并根据所述最佳类簇数量，实现对所述目标银行数据集的聚类划分之前，所述方法还包括：
20.计算类簇数量从2到时各自对应的新聚类有效性指标。
21.第二方面，本技术实施例还提供了一种银行数据集的聚类装置，所述装置包括：
22.获取单元，用于获取待聚类的目标银行数据集；所述目标银行数据集包含n个样本点；所述n为大于0的正整数；
23.划分单元，用于运用k-means算法，将所述目标银行数据集划分成k1个类簇；所述k1为大于的正整数；
24.合并单元，用于运用层次聚类算法，通过调整新聚类有效性指标的取值，将所述k1个类簇进行逐步合并，直至缩减为2个类簇；所述新聚类有效性指标为将所述目标银行数据集被划分成k2个类簇的平均聚类综合度与将所述目标银行数据集被划分成k2 1个类簇的平均聚类综合度的差；所述k2为向上取整对应的正整数；
25.聚类单元，用于当所述新聚类有效性指标达到最大值时，将对应的类簇数量作为最佳类簇数量，并根据所述最佳类簇数量，实现对所述目标银行数据集的聚类划分。
26.可选的，所述划分单元包括：
27.选取子单元，用于从所述目标银行数据集选取k1个点，作为初始类簇中心点；
28.第一计算子单元，用于计算所述目标银行数据集中每个样本点与所述初始类簇中心点的欧氏距离；
29.分配子单元，用于将所述目标银行数据集中每个样本点分配到与之最近的类簇中心点所在的类簇中；
30.第二计算子单元，用于计算每个类簇的平均值，并将其作为新的类簇中心点；
31.第三计算子单元，用于计算所述新的类簇中心点与更新前的聚类中心点之间的欧氏距离；若所述欧氏距离为零，则得到所述目标银行数据集划分好的k1个类簇；若所述欧氏距离不为零，则重复调用执行第一计算子单元、分配子单元、第二计算子单元，直至得到所述目标银行数据集划分好的k1个类簇。
32.可选的，所述合并单元具体用于：
33.重复计算所述k1个类簇中每两个类簇之间的最小距离，并将最小距离最近的两个类簇合并为一个新的类簇，直至合并后的类簇数量为2；
34.其中，在每一次合并过程中，计算类簇数为k2时的所有类簇的聚类综合度的平均
值，直至合并后的类簇数量为2。
35.可选的，所述装置还包括：
36.计算单元，用于在所述当所述新聚类有效性指标达到最大值时，将对应的类簇数量作为最佳类簇数量，并根据所述最佳类簇数量，实现对所述目标银行数据集的聚类划分之前，计算类簇数量从2到时各自对应的新聚类有效性指标。
37.本技术实施例还提供了一种银行数据集的聚类设备，包括：处理器、存储器、系统总线；
38.所述处理器以及所述存储器通过所述系统总线相连；
39.所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述银行数据集的聚类方法中的任意一种实现方式。
40.本技术实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述银行数据集的聚类方法中的任意一种实现方式。
41.本技术实施例提供的一种银行数据集的聚类方法、装置及设备，首先获取待聚类的目标银行数据集；其中，目标银行数据集包含n个样本点；n为大于0的正整数，然后，运用k-means算法，将目标银行数据集划分成k1个类簇；其中，k1为大于的正整数，接着，运用层次聚类算法，通过调整新聚类有效性指标的取值，将k1个类簇进行逐步合并，直至缩减为2个类簇；其中，新聚类有效性指标为将目标银行数据集被划分成k2个类簇的平均聚类综合度与将目标银行数据集被划分成k2 1个类簇的平均聚类综合度的差；其中，k2为向上取整对应的正整数，进而在新聚类有效性指标达到最大值时，可以将对应的类簇数量作为最佳类簇数量，并根据该最佳类簇数量，实现对目标银行数据集的聚类划分，从而能够对不同形状的银行数据集进行聚类，且可以有效找到最佳类簇数和最优划分，同时降低时间消耗，达到较好的聚类效果。
附图说明
42.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
43.图1为本技术实施例提供的一种银行数据集的聚类方法的流程示意图；
44.图2为本技术实施例提供的银行数据集的聚类的整体流程图；
45.图3为本技术实施例提供的8个合成数据集的结构分布示意图；
46.图4为本技术实施例提供的降维后的3个真实数据集的结构分布示意图；
47.图5为本技术实施例提供的一种银行数据集的聚类装置的组成示意图。
具体实施方式
48.在银行业发展中引入数据集的聚类分析是有益且必要的。比如，在银行资产配置、
客户价值评估以及精准营销策略制定等方面，对于数据集的聚类分析均可发挥积极作用。
49.具体来讲，在银行资产配置中，可以通过聚类以及对业务自身特征的汇总，选出在各维度要求都具有明显优势的业务种类，使其成为需优先开展的业务，并依次得到控制开展业务以及压降规模业务，从而实现资产的最优配置。
50.在客户价值评估中，通过聚类可以得到对客户的更精确描述，进而实现有针对性地客户关系维护，拓展客户潜在价值，提升合作效果。
51.在精准营销策略制定中，可以通过聚类对客户进行特征分析以及关联性分析，找出活跃用户，选择重点营销群体，加强营销力度。挖掘不同客户的业务倾向，有针对性地提供产品营销，增加营销成功概率，为银行业的服务升级提供更有针对性的解决办法。
52.但是目前许多现有的聚类算法和聚类有效性指标都存在着非常多的局限性，如无法对多种形状的数据集进行聚类等，导致聚类过程不稳定，且聚类效果较差。
53.为解决上述缺陷，本技术实施例提供了一种银行数据集的聚类方法，首先获取待聚类的目标银行数据集；其中，目标银行数据集包含n个样本点；n为大于0的正整数，然后，运用k-means算法，将目标银行数据集划分成k1个类簇；其中，k1为大于的正整数，接着，运用层次聚类算法，通过调整新聚类有效性指标的取值，将k1个类簇进行逐步合并，直至缩减为2个类簇；其中，新聚类有效性指标为将目标银行数据集被划分成k2个类簇的平均聚类综合度与将目标银行数据集被划分成k2 1个类簇的平均聚类综合度的差；其中，k2为向上取整对应的正整数，进而在新聚类有效性指标达到最大值时，可以将对应的类簇数量作为最佳类簇数量，并根据该最佳类簇数量，实现对目标银行数据集的聚类划分，从而能够对不同形状的银行数据集进行聚类，且可以有效找到最佳类簇数和最优划分，同时降低时间消耗，达到较好的聚类效果。
54.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
55.第一实施例
56.参见图1，为本实施例提供的一种银行数据集的聚类方法的流程示意图，该方法包括以下步骤：
57.s101：获取待聚类的目标银行数据集；其中，目标银行数据集包含n个样本点；n为大于0的正整数。
58.需要说明的是，为了能够对不同形状的银行数据集进行聚类分析，并达到较好的聚类效果。首先获取待聚类的目标银行数据集，用以执行后续步骤s102。
59.其中，聚类分析指的是在缺失先验信息的条件下根据一些相似性标准将样本点划分为多个类簇，使同一类簇中的样本点尽可能的相似，不同类簇中的样本点尽可能的不同。聚类分析过程中通常要解决两个问题，即如何划分一个给定的数据集并使得划分结果最优以及将数据集划分为多少个类簇最为合适。其中，第一个问题通常由聚类算法来解决而第二个问题则由聚类有效性指标来评价。
60.聚类算法是聚类分析的基础，目前已经有许多不同的聚类算法被广泛使用，根据
聚类的不同方式，聚类算法主要可以被分为一下几种：基于划分的聚类算法、基于层次的聚类算法、基于密度的聚类算法、基于网格的聚类算法等。目前最常使用的聚类算法有基于划分的算法中的k-means算法和基于层次的算法中的层次聚类算法。对于k-means算法来说，该算法实现简单，能够快速收敛，但是对初始簇类中心点的选取非常敏感，容易陷入局部最优问题，同时k-means算法只适合处理凸型数据集。相反，层次聚类算法可以处理多种形状的数据集，聚类稳定性良好，但是计算复杂度高，耗时久。
61.聚类算法将样本点划分成不同的类簇，聚类有效性指标用于判断应该被划分成多少类簇合适。当前，已有的聚类有效性指标可以大体分为三类，即内部有效性指标、外部有效性指标和相对有效性指标。一些经典的和常用的指标有：ch指标、cop指标、db指标、dunn指标和i指标等。但是研究表明，许多现有的聚类有效性指标存在着一些缺点，比如在寻找最佳类簇数时不稳定、无法对多种形状的数据集进行正确评价等等。
62.由此，本技术提出了一种基于k-means算法和层次聚类算法的混合聚类算法，并针对该算法设计了一种适合的新的聚类有效性指标，在该混合聚类算法和新聚类有效性指标的基础上，提出了一种银行数据集的聚类方法，通过执行步骤s101-s104，可以对不同形状的银行数据集进行聚类，并可以有效找到最佳类簇数和最优划分，同时降低时间消耗，
63.s102：运用k-means算法，将目标银行数据集划分成k1个类簇；其中，k1为大于的正整数。
64.在本实施例中，通过步骤s101获取到待聚类的目标银行数据集后，进一步的，可以利用运用k-means算法，将目标银行数据集划分成k1个类簇，用以执行后续步骤s103。
65.其中，一种可选的实现方式是，本步骤s102的实现过程具体可以包括下述步骤a-e：
66.步骤a：从目标银行数据集选取k1个点，作为初始类簇中心点。
67.步骤b：计算目标银行数据集中每个样本点与初始类簇中心点的欧氏距离。
68.步骤c：将目标银行数据集中每个样本点分配到与之最近的类簇中心点所在的类簇中。
69.步骤d：计算每个类簇的平均值，并将其作为新的类簇中心点。
70.步骤e：计算新的类簇中心点与更新前的聚类中心点之间的欧氏距离；若所述欧氏距离为零，则得到目标银行数据集划分好的k1个类簇；若所述欧氏距离不为零，则重复执行计算目标银行数据集中每个样本点与初始类簇中心点的欧氏距离及后续步骤，直至得到目标银行数据集划分好的k1个类簇。
71.s103：运用层次聚类算法，通过调整新聚类有效性指标的取值，将k1个类簇进行逐步合并，直至缩减为2个类簇；其中，新聚类有效性指标为将目标银行数据集被划分成k2个类簇的平均聚类综合度与将目标银行数据集被划分成k2 1个类簇的平均聚类综合度的差；其中，k2为向上取整对应的正整数。
72.在本实施例中，通过步骤s102运用k-means算法，将目标银行数据集划分成k1个类簇后，进一步的，可以运用层次聚类算法，通过调整新聚类有效性指标的取值，将所述k1个类簇进行逐步合并，直至缩减为2个类簇，用以执行后续步骤s104。
73.其中，一种可选的实现方式是，本步骤s102的实现过程具体可以包括：重复计算k1
个类簇中每两个类簇之间的最小距离，并将最小距离最近的两个类簇合并为一个新的类簇，直至合并后的类簇数量为2；
74.其中，在每一次合并过程中，计算类簇数为k2时的所有类簇的聚类综合度的平均值，直至合并后的类簇数量为2。
75.s104：当新聚类有效性指标达到最大值时，将对应的类簇数量作为最佳类簇数量，并根据最佳类簇数量，实现对目标银行数据集的聚类划分。
76.在本实施例中，通过步骤s103运用层次聚类算法，通过调整新聚类有效性指标的取值，将所述k1个类簇进行逐步合并，直至缩减为2个类簇后，进一步的，可以计算类簇数量从2到时各自对应的新聚类有效性指标，并在新聚类有效性指标达到最大值时，将对应的类簇数量作为最佳类簇数量，并根据最佳类簇数量，实现对目标银行数据集的聚类划分。
77.具体来讲，在本实现方式中，为了解决现有的技术中使用k-means算法以及层次聚类算法处理数据的局限性，本技术提供了一种基于以上两种聚类算法的混合算法和新聚类有效性指标的聚类分析方法。
78.首先介绍新的混合算法，该设计基于如下的假设，即在欧氏空间rm中，数据集d＝{x1,x2,
…
,xn}具有n个样本点，每个样本点xi＝{x
i1
,x
i2
,
…
,x
im
}具有m个属性。在数据集d中，样本点xi和xj之间的欧氏距离dist(xi,xj)定义为：dist在给定的数据集d和类簇数k的情况下，首先通过运用k-means算法处理数据的方法将数据集d划分成k1个类簇。与其他算法不同的是，这一步骤生成的初始类簇的数量是一个较大预估值故初始类簇的数量k1要远远大于算法最终生成的类簇的数量k。其次，在生成的k1个初始类簇的基础上，运用层次聚类算法处理数据的方法将k1个初始类簇逐步合并，直到生成的类簇的数量等于k为止。该算法的主要步骤如下：
79.(1)输入数据集d＝{x1,x2,
…
,xn}，所述数据集包含n个样本点，每个样本点包含m个属性，类簇数为k。
80.(2)从数据集d中随机挑选k1个点
81.(3)将选取的k1个点作为数据集d的初始划分c＝{c1,c2,
…
,c
k1
}的类簇中心，即v＝{v1,v2,
…
,v
k1
}。
82.(4)计算数据集d中每个样本点与类簇中心点的欧氏距离dist(xi,vj)。
83.(5)将数据集d中的每个点xi分配到与之最近的类簇中心点vj所在的类簇cj中。
84.(6)计算每个类簇的平均值，将其作为新的中心点(xi表示类簇cj中的样本点的值，|cj|表示类簇cj中样本点的数量)。
85.(7)计算更新后的聚类中心点与更新前的聚类中心点之间的欧氏距离，若为0则得到划分好的k1个类簇，执行步骤(8)；若不为0跳转执行步骤(4)。
86.(8)对于第(7)步得到的k1个类簇，计算每两个类簇ci,cj之间的最小距离dist(vi,vj)，将距离最近的两个类簇(设为c
p
和cq)合并为一个新的类簇cr，即cr←cp
∪cq，并更新c
←
c-1。
87.(9)重复步骤(8)中的类簇合并，直到类簇数c等于k，得到最终的聚类结果c＝{c1,c2,
…
,ck}。
88.对于新的聚类有效性指标，同样基于欧式空间rm下的假设，假设数据集d被提出的混合算法划分成k个类簇,即c＝{c1,c2,...,ck}，且其中第i(i＝1,2,...,k)个类簇ci包含|ci|个样本点。本技术给出如下的定义：
89.(1)定义一：将由类簇ci中所有样本点构成的最小生成树的平均权重定义为类簇ci的簇内紧密度，记为cd(i)：其中,w(ci)是类簇ci中所有样本点的最小生成树的权重。
90.(2)定义二：将第i个类簇中的样本点与其他不同类簇中的样本点之间的最小距离的最小值定义为该类簇的簇间分离度，记为sd(i)：
91.(3)定义三：将第i个类簇的簇间分离度和簇内紧密度之差与簇内紧密度和簇间分离度之和的比值定义为聚类综合度，记为csd(i)：
92.(4)定义四：将所有类簇的聚类综合度的平均值定义为平均聚类综合度，记为e(k)：
93.(5)定义五：假设数据集d被提出的混合算法分别划分成k和k 1个类簇，即{c1,c2,...,ck}和{c1,c2,...,c
k 1
}。其中，{c1,c2,...,ck}是d的最优划分，将d被划分成k个类簇的平均聚类综合度e(k)与将d被划分成k 1个类簇的平均聚类综合度e(k 1)的差定义为衡量聚类效果的聚类有效性指标，记为das(k)：das(k)＝e(k)-e(k 1)。
94.(6)定义六：das(k)取得最大值时的k值即为最佳类簇数(kopt)：
95.基于以上提出的新算法和新聚类有效性指标，本技术提出了一种银行数据集的聚类方法。通常，类簇数的搜索范围为[2,k
max
]，根据通行的经验规则由于本技术中提出的混合算法在生成初始类簇的时候不必指定一个准确的k值，只需要给出一个较大的初始值即可，即混合算法中第一步k-means算法生成的类簇数要比实际数据集d的真实划分数量要多。在本技术中，k的初始值定为向上取整对应的正整数(即步骤s103中的k2)。相应的，改进算法生成的初始类簇的数量|c|也为向上取整对应的正整数。其中，c为生成的目标数据集d的初始划分。如图3所示，本技术提出的银行数据集的整体聚类分析方法如下：
[0096]
①
输入数据集d＝{x1,x2,
…
,xn}，根据数据集d的样本点的个数确定k的初始值,即向上取整对应的正整数。
[0097]
②
利用改进的混合算法的第(2)步到第(7)步对数据集d进行划分，得到d的初始划
分,即
[0098]
③
利用改进的混合算法的第(8)步逐步合并距离最近的两个类簇。在每一次合并过程中，利用定义四中的公式，计算类簇数为k时的平均综合度e(k)。直到类簇数缩减为2。
[0099]
④
根据第(3)步得到的e(k),并利用定义五的公式计算不同类簇数下的das(k)指标值。
[0100]
根据定义六，得到最佳类簇数k
opt
，并得到数据集d在类簇数为k
opt
时的最优划分c＝{c1,c2,...,c
kopt
}。
[0101]
这样，在聚类过程中，通过结合k-means算法和层次聚类算法，改进的混合算法综合了两种算法的优点，可以对多种形状的额数据集进行聚类，并减小计算复杂度，不会受随机因素影响，聚类结果稳定。同时，本技术提出的新聚类有效性指标考量了聚类结果类内相似度与类间分离度，在对非凸型数据集进行有效性评价时要优于当前已有的常用聚类有效性指标，使得到的聚类结果更准确。
[0102]
为便于理解本技术提供的银行数据集的聚类方法，接下来，将结合附图对该方法进行解释说明：
[0103]
具体来讲，为了验证本技术提出的银行数据集的聚类分析方法的有效性，使用了8个合成数据集和3个真实数据集来进行验证。数据集的结构和描述如下表1和表2所示：
[0104][0105][0106]
表1 8个人工合成数据集的描述
[0107]
数据集样本数维数聚类数k的范围k的初始值german10002422《＝k《＝3264iris150432《＝k《＝1326haberman306322《＝k《＝1836
[0108]
表2 3个真实数据集描述
[0109]
为了验证的准确性，对每个数据集运行10次，取10次运行结果的平均值和均方差。结果如下表3和表4所示。
[0110]
数据集均方差平均值circle40100circle50100parallel30100parallel40100ring40100semicircle30100norm60100norm120100german0.370.4iris2.773.4haberman0.386.1
[0111]
表3不同数据集的准确率(％)处理结果
[0112][0113][0114]
表4不同数据集获得的最佳类簇数结果
[0115]
其中，表3是提出的银行数据集的聚类方法在最优类簇数下的划分结果，可见，对于合成数据集，可以非常准确得进行聚类划分，并且拥有良好的稳定性。在对真实数据集的处理上，也可以得到较高的划分准确率和较高的稳定性。
[0116]
表4是提出的银行数据集的聚类方法获得的最佳类簇数，kopt是数据集的实际类
簇数。可见，对于合成数据集和真实数据集，提出的银行数据集的聚类方法都可以获得正确的最佳类簇数，进而证明了本技术提出的银行数据集的聚类分析方法的有效性。
[0117]
综上，本实施例提供的一种银行数据集的聚类方法，首先获取待聚类的目标银行数据集；其中，目标银行数据集包含n个样本点；n为大于0的正整数，然后，运用k-means算法，将目标银行数据集划分成k1个类簇；其中，k1为大于的正整数，接着，运用层次聚类算法，通过调整新聚类有效性指标的取值，将k1个类簇进行逐步合并，直至缩减为2个类簇；其中，新聚类有效性指标为将目标银行数据集被划分成k2个类簇的平均聚类综合度与将目标银行数据集被划分成k2 1个类簇的平均聚类综合度的差；其中，k2为向上取整对应的正整数，进而在新聚类有效性指标达到最大值时，可以将对应的类簇数量作为最佳类簇数量，并根据该最佳类簇数量，实现对目标银行数据集的聚类划分，从而能够对不同形状的银行数据集进行聚类，且可以有效找到最佳类簇数和最优划分，同时降低时间消耗，达到较好的聚类效果。
[0118]
第二实施例
[0119]
本实施例将对一种银行数据集的聚类装置进行介绍，相关内容请参见上述方法实施例。
[0120]
参见图5，为本实施例提供的一种银行数据集的聚类装置的组成示意图，该装置具体包括：
[0121]
获取单元501，用于获取待聚类的目标银行数据集；所述目标银行数据集包含n个样本点；所述n为大于0的正整数；
[0122]
划分单元502，用于运用k-means算法，将所述目标银行数据集划分成k1个类簇；所述k1为大于的正整数；
[0123]
合并单元503，用于运用层次聚类算法，通过调整新聚类有效性指标的取值，将所述k1个类簇进行逐步合并，直至缩减为2个类簇；所述新聚类有效性指标为将所述目标银行数据集被划分成k2个类簇的平均聚类综合度与将所述目标银行数据集被划分成k2 1个类簇的平均聚类综合度的差；所述k2为向上取整对应的正整数；
[0124]
聚类单元504，用于当所述新聚类有效性指标达到最大值时，将对应的类簇数量作为最佳类簇数量，并根据所述最佳类簇数量，实现对所述目标银行数据集的聚类划分。
[0125]
在本实施例的一种实现方式中，所述划分单元502包括：
[0126]
选取子单元，用于从所述目标银行数据集选取k1个点，作为初始类簇中心点；
[0127]
第一计算子单元，用于计算所述目标银行数据集中每个样本点与所述初始类簇中心点的欧氏距离；
[0128]
分配子单元，用于将所述目标银行数据集中每个样本点分配到与之最近的类簇中心点所在的类簇中；
[0129]
第二计算子单元，用于计算每个类簇的平均值，并将其作为新的类簇中心点；
[0130]
第三计算子单元，用于计算所述新的类簇中心点与更新前的聚类中心点之间的欧氏距离；若所述欧氏距离为零，则得到所述目标银行数据集划分好的k1个类簇；若所述欧氏距离不为零，则重复调用执行第一计算子单元、分配子单元、第二计算子单元，直至得到所述目标银行数据集划分好的k1个类簇。
[0131]
在本实施例的一种实现方式中，所述合并单元503具体用于：
[0132]
重复计算所述k1个类簇中每两个类簇之间的最小距离，并将最小距离最近的两个类簇合并为一个新的类簇，直至合并后的类簇数量为2；
[0133]
其中，在每一次合并过程中，计算类簇数为k2时的所有类簇的聚类综合度的平均值，直至合并后的类簇数量为2。
[0134]
在本实施例的一种实现方式中，所述装置还包括：
[0135]
计算单元，用于在所述当所述新聚类有效性指标达到最大值时，将对应的类簇数量作为最佳类簇数量，并根据所述最佳类簇数量，实现对所述目标银行数据集的聚类划分之前，计算类簇数量从2到时各自对应的新聚类有效性指标。
[0136]
综上，本实施例提供的一种银行数据集的聚类装置，首先获取待聚类的目标银行数据集；其中，目标银行数据集包含n个样本点；n为大于0的正整数，然后，运用k-means算法，将目标银行数据集划分成k1个类簇；其中，k1为大于的正整数，接着，运用层次聚类算法，通过调整新聚类有效性指标的取值，将k1个类簇进行逐步合并，直至缩减为2个类簇；其中，新聚类有效性指标为将目标银行数据集被划分成k2个类簇的平均聚类综合度与将目标银行数据集被划分成k2 1个类簇的平均聚类综合度的差；其中，k2为向上取整对应的正整数，进而在新聚类有效性指标达到最大值时，可以将对应的类簇数量作为最佳类簇数量，并根据该最佳类簇数量，实现对目标银行数据集的聚类划分，从而能够对不同形状的银行数据集进行聚类，且可以有效找到最佳类簇数和最优划分，同时降低时间消耗，达到较好的聚类效果。
[0137]
进一步地，本技术实施例还提供了一种银行数据集的聚类设备，包括：处理器、存储器、系统总线；
[0138]
所述处理器以及所述存储器通过所述系统总线相连；
[0139]
所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述银行数据集的聚类方法的任一种实现方法。
[0140]
进一步地，本技术实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述银行数据集的聚类方法的任一种实现方法。
[0141]
通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备，等等)执行本技术各个实施例或者实施例的某些部分所述的方法。
[0142]
需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。
[0143]
还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个
实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0144]
另外，需要说明的是，本发明提供的银行数据集的聚类方法、装置及设备可用于大数据领域以及金融领域。上述仅为示例，并不对本发明提供的银行数据集的聚类方法、装置及设备的应用领域进行限定。
[0145]
对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下，在其它实施例中实现。因此，本技术将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种高适应性多相颗粒弥散型燃料元件温度场计算方法与流程

一种银行数据集的聚类方法、装置及设备与流程

相关文献

最热文献