应试能力分析方法、装置、计算机设备及可读存储介质

2022-06-01 05:29:27 来源：中国专利 TAG：

1.本发明涉及数据分析领域，尤其涉及一种应试能力分析方法、装置、计算机设备及可读存储介质。

背景技术：

2.学生的平时分与应试能力存在一定关联，如学生的平时分高，代表学生的课堂出勤率高或学生在课堂上积极与老师沟通，可知学生积极参与课堂学习，因而学生更容易取得更高的考试成绩。不仅如此，因学生取得的成绩高低还能反映学习能力的强弱，故教师可根据学生的学习能力调整教学内容以实现因材施教。
3.也正因此，教师可通过k均值聚类算法，将平时分与应试能力均相近的多个学生划分为一类学生，进而得到不同类别的学生，从而根据不同学生的不同类别，确定取得不同平时分的学生未来可能将考取到的考试成绩。
4.但是，在利用k均值聚类算法将学生分类的过程中，k值和初始聚类中心的选取无疑是一大难题，k值和初始聚类中心的不同选取方式会带来不同的聚类结果，进而难以保障聚类结果的有效性。

技术实现要素：

5.有鉴于此，本发明提供一种应试能力分析方法、装置、计算机设备及可读存储介质，以改善在利用k均值聚类算法将学生分类的过程中，k值和初始聚类中心的不同选取方式会带来不同的聚类结果，进而难以保障聚类结果的有效性的现状。
6.第一方面，本发明实施例提供一种应试能力分析方法，包括：
7.将获取到的预设数量个学生的平时分和考试成绩关联，并利用关联的平时分和考试成绩构建数据集；
8.计算所述数据集的所有数据点对应的第一质心；
9.按照每个所述数据点与所述第一质心的距离越大序号越靠前的规则，将每个所述数据点排序，并设置每个所述数据点的状态数值为第一数值；
10.将所述数据集中序号最靠前且所述状态数值为第一数值的数据点作为当前点，并将所述当前点的状态数值设置为第二数值，其中，所述第二数值小于所述第一数值；
11.利用所述当前点与所述第一质心所构成的线段作为直径，并根据由所述直径构成的圆中的所有所述数据点计算第二质心；
12.将所述第二质心与所述第一质心构成的线段作为半径，所述第二质心为圆心，并将由所述半径和所述圆心构成的圆中的所有所述数据点的状态数值增大预设值；
13.若所述数据集中存在所述状态数值为第一数值的数据点，则执行将所述数据集中序号最靠前且所述状态数值为第一数值的数据点作为当前点，并将所述当前点的状态数值设置为第二数值的步骤，直至所述数据集中不存在所述状态数值为第一数值的数据点时，将所有所述第二质心作为初始聚类中心；
14.根据所述初始聚类中心执行k均值聚类算法，得到平时分和考试成绩的关系。
15.可选的，在本发明实施例提供的一种实施方式中，所述预设值包括第一预设值和第二预设值，所述第二预设值大于所述第一预设值；
16.所述将所述第二质心与所述第一质心构成的线段作为半径，所述第二质心为圆心，并将由所述半径和所述圆心构成的圆中的所有所述数据点的状态数值增大预设值，包括：
17.将所述第二质心与所述第一质心构成的线段作为半径，所述第二质心为圆心，确定由所述半径和所述圆心构成的圆；
18.针对所述由所述半径构成的圆包含的每个所述数据点，将所述状态数值不为所述第二数值的数据点的状态数值增大第一预设值，及将所述状态数值为所述第二数值的数据点的状态数值增大第二预设值。
19.可选的，在本发明实施例提供的一种实施方式中，所述按照每个所述数据点与所述第一质心的距离越大序号越靠前的规则，将每个所述数据点排序，并设置每个所述数据点的状态数值为第一数值之后，所述将所述数据集中序号最靠前且所述状态数值为第一数值的数据点作为当前点，并将所述当前点的状态数值设置为第二数值之前，所述方法还包括：
20.判断每个所述数据点是否均设置有状态数值；
21.若否，再次执行所述按照每个所述数据点与所述第一质心的距离越大序号越靠前的规则，将每个所述数据点排序，并设置每个所述数据点的状态数值为第一数值的步骤，直至每个所述数据点均设置有状态数值。
22.可选的，在本发明实施例提供的一种实施方式中，所述根据所述初始聚类中心执行k均值聚类算法，得到平时分和考试成绩的关系，包括：
23.确定每个所述状态数值为第三数值的数据点匹配的初始聚类中心，其中，所述第三数值大于所述第一数值，所述数据点与所述初始聚类中心匹配表示所述数据点的状态数值因所述初始聚类中心对应的第二质心而增大为第三数值；
24.将每个所述状态数值为第三数值的数据点作为匹配的初始聚类中心的类成员；
25.分别利用每个所述初始聚类中心的类成员更新每个所述初始聚类中心后，根据所述初始聚类中心执行k均值聚类算法，得到平时分和考试成绩的关系。
26.进一步的，在本发明实施例提供的一种实施方式中，所述分别利用每个所述初始聚类中心的类成员更新每个所述初始聚类中心后，根据所述初始聚类中心执行k均值聚类算法，得到平时分和考试成绩的关系，包括：
27.分别利用每个所述初始聚类中心的类成员更新每个所述初始聚类中心后，基于第一预设算式计算每个所述数据点分别与每个所述初始聚类中心的密度万有引力，其中，所述第一预设算式包括：
[0028][0029]
式中，θ表示密度万有引力，k表示初始聚类中心的类成员的数量，d
ij2
表示第i个数据点到第j个初始聚类中心的距离，r
l
表示初始聚类中心的第l个类成员到初始聚类中心的
距离；
[0030]
针对每个所述数据点，将所述数据点作为密度万有引力最大对应的初始聚类中心的类成员；
[0031]
针对每个所述初始聚类中心，根据所述初始聚类中心的类成员更新初始聚类中心；
[0032]
若每个初始聚类中心在更新前后均未发生变化，则根据每个更新后的初始聚类中心的类成员得到平时分和考试成绩的关系。
[0033]
可选的，在本发明实施例提供的一种实施方式中，所述将获取到的预设数量个学生的平时分和考试成绩关联，并利用关联的平时分和考试成绩构建数据集，包括：
[0034]
获取预设数量个学生的平时分和考试成绩，并将每个所述学生的平时分和考试成绩关联，得到所述预设数量个数据点；
[0035]
将不满足预设筛选规则的数据点标记为离群点；
[0036]
利用所有不为所述离群点的数据点构建数据集。
[0037]
进一步的，在本发明实施例提供的一种实施方式中，所述利用所有不为所述离群点的数据点构建数据集，包括：
[0038]
基于第二预设算式，对每个不为所述离群点的数据点的平时分和考试成绩均进行转换，其中，所述第二预设算式为：
[0039][0040]
式中，y’为转换后的考试成绩或平时分，y为转换前的考试成绩或平时分，y
max
和y
min
分别为所有不为所述离群点的数据点的考试成绩和平时分中，考试成绩或平时分最大值和最小值；
[0041]
根据所有转换后的数据点构建数据集。
[0042]
第二方面，本发明实施例提供一种应试能力分析装置，包括：
[0043]
获取模块，用于将获取到的预设数量个学生的平时分和考试成绩关联，并利用关联的平时分和考试成绩构建数据集；
[0044]
第一计算模块，用于计算所述数据集的所有数据点对应的第一质心；
[0045]
排序模块，用于按照每个所述数据点与所述第一质心的距离越大序号越靠前的规则，将每个所述数据点排序，并设置每个所述数据点的状态数值为第一数值；
[0046]
设置模块，用于将所述数据集中序号最靠前且所述状态数值为第一数值的数据点作为当前点，并将所述当前点的状态数值设置为第二数值，其中，所述第二数值小于所述第一数值；
[0047]
第二计算模块，用于利用所述当前点与所述第一质心所构成的线段作为直径，并根据由所述直径构成的圆中的所有所述数据点计算第二质心；
[0048]
增大模块，用于将所述第二质心与所述第一质心构成的线段作为半径，所述第二质心为圆心，并将由所述半径和所述圆心构成的圆中的所有所述数据点的状态数值增大预设值；
[0049]
中心获取模块，用于若所述数据集中存在所述状态数值为第一数值的数据点，则执行将所述数据集中序号最靠前且所述状态数值为第一数值的数据点作为当前点，并将所
述当前点的状态数值设置为第二数值的步骤，直至所述数据集中不存在所述状态数值为第一数值的数据点时，将所有所述第二质心作为初始聚类中心；
[0050]
关系获取模块，用于根据所述初始聚类中心执行k均值聚类算法，得到平时分和考试成绩的关系。
[0051]
第三方面，本发明实施例提供一种计算机设备，包括存储器以及处理器，存储器存储有计算机程序，计算机程序在处理器上运行时执行如第一方面中任一种公开的应试能力分析方法。
[0052]
第四方面，本发明实施例提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序在处理器上运行时执行如第一方面中任一种公开的应试能力分析方法。
[0053]
本发明实施例所提供的应试能力分析方法中，计算机设备首先将获取到的多个学生的平时分和考试成绩关联，以根据关联的平时分和考试成绩构建数据点，从而得到数据集；接着，计算数据集的所有数据点对应的中心位置，即第一质心；然后，基于数据点与第一质心的距离从大到小的规则，将每个数据点排序，同时设置每个数据点的状态数值为第一数值；之后，开始迭代运算，迭代运算包括：步骤1)从数据集中抽取序号最靠前且状态数值为第一数值的数据点以作为当前点，同时设置当前点的状态数值为第二数值；步骤2)利用当前点与第一质心所构成的线段作为直径，并根据由直径构成的圆中的所有数据点计算第二质心；步骤3)将第二质心与第一质心构成的线段作为半径，第二质心为圆心，并将由半径和圆心构成的圆中的所有数据点的状态数值增大预设值；步骤4)若数据集中存在状态数值为第一数值的数据点，则执行步骤1)，若不存在则将所有第二质心作为初始聚类中心。由此，得到多个初始聚类中心，进而根据初始聚类中心执行k均值聚类算法，从而得到平时分和考试成绩的关系。
[0054]
由此，本发明实施例在利用k均值聚类算法将学生分类以得到平时分和考试成绩的关系的过程中，基于平均考试成绩和平均平时分，即第一质心来完成初始聚类中心的选取，使得选取出的初始聚类中心满足数据集中数据点的分布情况，进而保证了聚类结果的有效性；也因此，将本发明实施例应用于实际环境中后，教师能根据选取好的初始聚类中心来执行k均值聚类算法，保证了平时分和考试成绩的关系的有效性，进而能有效地通过学生取得的平时分确定学生未来能取得的考试成绩，以此调整教学内容并实现因材施教。并且，本发明实施例提出的应试能力分析方法基于数据集中数据点的密集情况而自适应地确定出了初始聚类中心，避免了因人工选取初始聚类中心或k值，导致k均值聚类算法执行不佳的情况，进而提高了计算机设备推导平时分和考试成绩的关系的速率，也即提高了计算机设备的处理效率。
附图说明
[0055]
为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对本发明保护范围的限定。在各个附图中，类似的构成部分采用类似的编号。
[0056]
图1示出了本发明实施例提供的第一种应试能力分析方法的流程示意图；
[0057]
图2示出了本发明实施例提供的第二种应试能力分析方法的流程示意图；
[0058]
图3示出了本发明实施例提供的第三种应试能力分析方法的流程示意图；
[0059]
图4示出了本发明实施例提供的应试能力分析方法中s180的第一种流程图；
[0060]
图5示出了本发明实施例提供的应试能力分析方法中s180的第二种流程图；
[0061]
图6示出了本发明实施例提供的应试能力分析装置的结构示意图。
具体实施方式
[0062]
下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。
[0063]
通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0064]
在下文中，可在本发明的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合，并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。
[0065]
此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。
[0066]
除非另有限定，否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义，除非在本发明的各种实施例中被清楚地限定。
[0067]
参照图1，图1示出了本发明实施例提供的第一种应试能力分析方法的流程示意图，本发明实施例提供的应试能力分析方法包括：
[0068]
s110，将获取到的预设数量个学生的平时分和考试成绩关联，并利用关联的平时分和考试成绩构建数据集。
[0069]
也即，获取多个学生的平时分和考试成绩，并将属于同一个学生的平时分与考试成绩关联，从而得到一个数据点。在将多个学生的平时分和考试成绩均完成关联后，则得到包含多个数据点的数据集。
[0070]
可以理解的是，本发明实施例中的每个数据点均可理解为一个二维坐标，如将一个数据点的横坐标理解为学生的平时分，纵坐标相应理解为同一学生的考试成绩。
[0071]
可选的，为提高计算机设备执行k均值聚类算法的效率，并减少计算机设备推导平时分和考试成绩的关系的所需的计算机资源，在本发明实施例提供的一种实施方式中，具体可参考图2，图2示出了本发明实施例提供的第二种应试能力分析方法的流程示意图，即本发明实施例中的所述s110包括：
[0072]
s111，获取预设数量个学生的平时分和考试成绩，并将每个所述学生的平时分和考试成绩关联，得到所述预设数量个数据点；
[0073]
s112，将不满足预设筛选规则的数据点标记为离群点；
[0074]
s113，利用所有不为所述离群点的数据点构建数据集；
[0075]
也即，本发明实施例将属于同一学生的平时分和考试成绩关联以得到数据点后，将根据预设筛选规则筛选出离群点。可以理解的是，数据点为离群点时，表明数据点的数据可能为异常数据，即数据点与其他所有数据点的距离均较远，进而无法作为有效的样本来进行分析。因此，本发明实施例提出的预设筛选规则用于剔除所有数据集中的异常变量。并且，本发明实施例确定出异常变量，即离群点后，将不会使用离群点对应的数据来进行聚类分析。
[0076]
还可以理解的是，预设筛选规则的具体内容需根据实际情况设置，如在一种可行方式中，预设筛选规则包括：数据点的考试成绩不为0或空。需理解的是，考试成绩为空代表缺考。
[0077]
而在另一种可行方式中，预设筛选规则还包括：数据点的平时分和考试成绩成正相关，即数据点的平时分越高，则考试成绩越高。示范性的，若一个数据点的平时分为0分，考试成绩为满分，则数据点不满足预设筛选规则，进而将被认定为离群点。
[0078]
基于此，本发明实施例在构建数据集之前，将不合理的数据点，即离群点筛选出来，并使离群点不参与数据集的构建，进而后续的聚类分析中不存在掉离群点的分析过程，使得数据集中的数据点更为合理有效，并避免计算机设备在进行k均值聚类算法的过程中，因离群点的影响而产生错误的聚类结果的情况，保证了聚类结果的有效性；同时，还降低了计算机设备执行聚类分析所需的资源。
[0079]
进一步的，为进一步提高计算机设备执行k均值聚类算法的效率，并减少计算机设备推导平时分和考试成绩的关系的所需的计算机资源，在本发明实施例提供的一种实施方式中，所述s113包括：
[0080]
基于第二预设算式，对每个不为所述离群点的数据点的平时分和考试成绩均进行转换，其中，所述第二预设算式为：
[0081][0082]
式中，y’为转换后的考试成绩或平时分，y为转换前的考试成绩或平时分，y
max
和y
min
分别为所有不为所述离群点的数据点的考试成绩和平时分中，考试成绩或平时分最大值和最小值；
[0083]
根据所有转换后的数据点构建数据集。
[0084]
也即，在利用不为离群点的数据点构建数据集的过程中，本发明实施例还基于第二预设算式，将每个不为离群点的数据点的平时分和考试成绩映射至1至99的区间内，使得每个不为离群点的数据点均匀地分布在一个正方形的范围内，即对数据点对应的数据进行了缩放，使得所有数据分布在一个相同的区间内，降低了计算机设备后续执行聚类分析过程所需的资源。
[0085]
s120，计算所述数据集的所有数据点对应的第一质心。
[0086]
也即，根据所有数据点的横纵坐标计算所有数据点对应的中心位置，即第一质心。
[0087]
可选的，第一质心的计算可参考以下公式：
[0088][0089]
式中，c表示第一质心，m表示数据点的数量，xi表示第i个数据点。
[0090]
不难理解的是，第一质心即代表由所有数据点的横坐标平均值和所有数据点的纵坐标平均值构成的点，即由平时分的平均值和考试成绩的平均值构成的点。
[0091]
s130，按照每个所述数据点与所述第一质心的距离越大序号越靠前的规则，将每个所述数据点排序，并设置每个所述数据点的状态数值为第一数值。
[0092]
也即，根据每个数据点与第一质心的距离，以距离越大序号越靠前的规则，将每个数据点排序。在对数据点进行排序的同时，计算机设备还会将每个数据点的状态数值设为第一数值。其中，数据点的状态数值为第一数值表示数据点不与任意一个其他数据点接近，也代表数据点未被选取过。
[0093]
s140，将所述数据集中序号最靠前且所述状态数值为第一数值的数据点作为当前点，并将所述当前点的状态数值设置为第二数值，其中，所述第二数值小于所述第一数值。
[0094]
也即，计算机设备选取数据集中序号最靠前且状态数值为第一数值的数据点以作为当前点，再将当前点的状态数值更新为第二数值，进而计算机设备需再次从数据集中选取当前点时，上一个当前点对应的数据点为第二数值而非第一数值，进而避免了数据点的重复选取。
[0095]
s150，利用所述当前点与所述第一质心所构成的线段作为直径，并根据由所述直径构成的圆中的所有所述数据点计算第二质心。
[0096]
也即，利用当前点和第一质心构成直径，并利用直径确定对应的圆形范围。接着，利用直径对应的圆形范围所包含的所有数据点，计算圆形范围包含的所有数据点对应的中心位置，即第二质心。
[0097]
不难理解的是，与第一质心类似，第二质心代表由圆形范围所包含的所有数据点的横坐标平均值和纵坐标平均值构成的点。
[0098]
s160，将所述第二质心与所述第一质心构成的线段作为半径，所述第二质心为圆心，并将由所述半径和所述圆心构成的圆中的所有所述数据点的状态数值增大预设值。
[0099]
也即，利用第二质心和第一质心确定一个新的圆形范围，并将新的圆形范围所包含的每个数据点的状态数值增大预设值。
[0100]
也基于此，当计算机设备需再次选取当前点时，由于与上一个当前点序号相邻的数据点，即上一个当前点周围的数据点可能在新的圆形范围，因而计算机设备并不一定会选取与上一个当前点序号相连的数据点。
[0101]
可选的，在本发明实施例提供的一种实施方式中，具体可参考图3，图3示出了本发明实施例提供的第三种应试能力分析方法的流程示意图，即此实施方式中，所述预设值包括第一预设值和第二预设值，所述第二预设值大于所述第一预设值；
[0102]
所述s160包括：
[0103]
s161，将所述第二质心与所述第一质心构成的线段作为半径，所述第二质心为圆心，确定由所述半径和所述圆心构成的圆；
[0104]
s162，针对所述由所述半径构成的圆包含的每个所述数据点，将所述状态数值不
为所述第二数值的数据点的状态数值增大第一预设值，及将所述状态数值为所述第二数值的数据点的状态数值增大第二预设值。
[0105]
也即，针对新的圆形范围所包含的每个数据点，计算机设备将根据数据点的状态数值执行不同的步骤。
[0106]
在一种可行方式中，增大第二预设值的数据点的状态数值将大于第一数值，以避免数据点的状态数值从第二数值增大为第一数值，进而导致计算机设备再次抽取新的当前点时，将出现抽取到已被抽取过的数据点的情况，由此提高计算机推导平时分和考试成绩的关系的效率。
[0107]
可选的，在一种可行方式中，第一数值为0，第二数值为-1，第一预设值为1，第二预设值为2。
[0108]
s170，若所述数据集中存在所述状态数值为第一数值的数据点，则执行将所述数据集中序号最靠前且所述状态数值为第一数值的数据点作为当前点，并将所述当前点的状态数值设置为第二数值的步骤，直至所述数据集中不存在所述状态数值为第一数值的数据点时，将所有所述第二质心作为初始聚类中心。
[0109]
举例而言，设第一数值为0，第二数值为-1，第一预设值为1，第二预设值为2，则当计算机设备根据由半径和圆心构成的圆更新相应的数据点的状态数值后，判断每个数据点的状态数值是否均不为0，也即判断数据集中的每个数据点是否均在某个由第二质心和第一质心构成的圆形范围内，也可理解为判断每个数据点是否被选取过。
[0110]
不难理解的是，在一次迭代运算后，当数据点的状态数值为第一数值时，代表数据点不属于任意一个由第二质心和第一质心构成的圆形范围，数据点可能与其他数据点的距离较远，因而与其他数据点的类别不同，也可能是因为循环迭代的次数过少，即当前迭代次数下确定的第二质心过少，导致由第二质心构成的圆形范围无法很好地包裹每个数据点，进而将使计算机设备在完成一次状态数值的更新后，即执行s160之后，确定出数据集中的状态数值为第一数值的数据点以进行下一次迭代更新，直至数据集中不存在状态数值为第一数值的数据点。
[0111]
进一步的，若在一次迭代运算后数据点的状态数值为第二数值，即被计算机设备从第一数值更新为数值较小的第二数值，表明数据点已被计算机设备选取过，但不属于任意一个由第二质心和第一质心构成的圆形范围，可知数据点可能与其他数据点的距离较远，进而将被认定为离群点。
[0112]
而若在一次迭代运算后数据点的状态数值大于第一数值，即表示数据点属于至少一个由第二质心和第一质心构成的圆形范围。
[0113]
此外，为进一步提高计算机设备的计算效率，在本发明实施例提供的一种可行方式中，当数据集中不存在状态数值为第一数值的数据点时，计算机设备还会将所有状态数值为第二数值的数据点作为离群点，并使离群点不参与后续运算。
[0114]
不难理解的是，当完成迭代运算得到初始聚类中心后，若数据点的状态数值为第二数值，则表明数据点不在任意一个由第二质心和第一质心构成的圆形范围，即与其他数据点的距离较远，与其他数据点的差异较大，不能用于平时分和考试成绩的关系推导，进而本发明实施例将数据点作为离群点，以使离群点不再参与后续运算，从而提高计算机设备的处理效率。
[0115]
s180，根据所述初始聚类中心执行k均值聚类算法，得到平时分和考试成绩的关系。
[0116]
也即，根据s140至s170的迭代运算以得到多个初始聚类中心后，本发明实施例将基于初始聚类中心来执行k均值聚类算法，以将各个数据点聚类，即将数据集中的所有数据点对应的学生划分为不同类别，进而得到平时分和考试成绩的关系，如得到平时分在[30，50]的区间内，考试成绩在[60，80]的区间内的数据点对应的学生属于同一类别，平时分在[60，70]的区间内，考试成绩在[81，90]的区间内的数据点对应的学生属于同一类别。
[0117]
本发明实施例所提供的应试能力分析方法中，计算机设备首先将获取到的多个学生的平时分和考试成绩关联，以根据关联的平时分和考试成绩构建数据点，从而得到数据集；接着，计算数据集的所有数据点对应的中心位置，即第一质心；然后，基于数据点与第一质心的距离从大到小的规则，将每个数据点排序，同时设置每个数据点的状态数值为第一数值；之后，开始迭代运算，迭代运算包括：步骤1)从数据集中抽取序号最靠前且状态数值为第一数值的数据点以作为当前点，同时设置当前点的状态数值为第二数值；步骤2)利用当前点与第一质心所构成的线段作为直径，并根据由直径构成的圆中的所有数据点计算第二质心；步骤3)将第二质心与第一质心构成的线段作为半径，第二质心为圆心，并将由半径和圆心构成的圆中的所有数据点的状态数值增大预设值；步骤4)若数据集中存在状态数值为第一数值的数据点，则执行步骤1)，若不存在则将所有第二质心作为初始聚类中心。由此，得到多个初始聚类中心，进而根据初始聚类中心执行k均值聚类算法，从而得到平时分和考试成绩的关系。
[0118]
由此，本发明实施例在利用k均值聚类算法将学生分类以得到平时分和考试成绩的关系的过程中，基于平均考试成绩和平均平时分，即第一质心来完成初始聚类中心的选取，使得选取出的初始聚类中心满足数据集中数据点的分布情况，进而保证了聚类结果的有效性；也因此，将本发明实施例应用于实际环境中后，教师能根据选取好的初始聚类中心来执行k均值聚类算法，保证了平时分和考试成绩的关系的有效性，进而能有效地通过学生取得的平时分确定学生未来能取得的考试成绩，以此调整教学内容并实现因材施教。并且，本发明实施例提出的应试能力分析方法基于数据集中数据点的密集情况而自适应地确定出了初始聚类中心，避免了因人工选取初始聚类中心或k值，导致k均值聚类算法执行不佳的情况，进而提高了计算机设备推导平时分和考试成绩的关系的速率，也即提高了计算机设备的处理效率。
[0119]
可选的，为保证计算机设备能正常执行本发明实施例提供的应试能力分析方法，在本发明实施例提供的一种实施方式中，所述s130之后，所述s140之前，所述方法还包括：
[0120]
判断每个所述数据点是否均设置有状态数值；
[0121]
若否，再次执行所述按照每个所述数据点与所述第一质心的距离越大序号越靠前的规则，将每个所述数据点排序，并设置每个所述数据点的状态数值为第一数值的步骤，直至每个所述数据点均设置有状态数值。
[0122]
不难理解的是，本发明实施例中数据点的状态数值将影响初始聚类中心的选取，进而为保证初始聚类中心能描述出数据集中数据点的密集程度，因而在进行迭代运算之前，本发明实施例将检查每个数据点是否均设置有状态数值，以避免选取出的初始聚类中心无法表示数据点的密集程度。
[0123]
进一步的，当存在数据点未设置有状态数值时，可能是因计算机设备在设置状态数值时出现了意料不到的错误，进而本发明实施例将控制计算机设备重新设置各个数据点的状态数值。
[0124]
可选的，在本发明实施例提供的一种实施方式中，具体可参考图4，图4示出了本发明实施例提供的应试能力分析方法中s180的第一种流程图，即所述s180包括：
[0125]
s181，确定每个所述状态数值为第三数值的数据点匹配的初始聚类中心，其中，所述数据点与所述初始聚类中心匹配表示所述数据点的状态数值因所述初始聚类中心对应的第二质心而增大为第三数值；
[0126]
s182，将每个所述状态数值为第三数值的数据点作为匹配的初始聚类中心的类成员；
[0127]
s183，分别利用每个所述初始聚类中心的类成员更新每个所述初始聚类中心后，根据所述初始聚类中心执行k均值聚类算法，得到平时分和考试成绩的关系。
[0128]
也即，本发明实施例在基于初始聚类中心执行k均值聚类算法之前，还将根据循环迭代的结果更新各个初始聚类中心。
[0129]
需说明的是，循环迭代结束后，当数据点的状态数值为第三数值时，表明数据点仅在位于一个由第二质心和第一质心构成的圆形范围内。而若数据点的状态数值大于第三数值，则表明数据点处于多个由第二质心和第一质心构成的圆形范围，同时属于多个圆形范围。
[0130]
在一种可行方式，第一数值为0，第二数值为-1，当状态数值为0的数据点位于由第二质心和第一质心构成的圆形范围时，状态数值增加1，因而第三数值为1。
[0131]
也因此，本发明实施例在迭代运算结束后，将因初始聚类中心对应的第二质心而更新为第三数值的数值点分配给初始聚类中心，以作为初始聚类中心的类成员，并利用类成员更新初始聚类中心，使得初始聚类中心位于类成员的中心位置。
[0132]
可以理解的是，状态数值大于第三数值的数据点同时属于至少两个由第二质心和第一质心构成的圆形范围，因而难以确定状态数值大于第三数值的数据点与初始聚类中心的接近程度，故仅在k均值聚类算法的执行过程中确定状态数值大于第三数值的数据点的归属。
[0133]
进一步的，在本发明实施例提供的一种实施方式中，具体可参考图5，图5示出了本发明实施例提供的应试能力分析方法中s180的第二种流程图所述s183包括：
[0134]
s184，分别利用每个所述初始聚类中心的类成员更新每个所述初始聚类中心后，基于第一预设算式计算每个所述数据点分别与每个所述初始聚类中心的密度万有引力，其中，所述第一预设算式包括：
[0135][0136]
式中，θ表示密度万有引力，k表示初始聚类中心的类成员的数量，d
ij2
表示第i个数据点到第j个初始聚类中心的距离，r
l
表示初始聚类中心的第l个类成员到初始聚类中心的距离；
[0137]
s185，针对每个所述数据点，将所述数据点作为密度万有引力最大对应的初始聚类中心的类成员；
[0138]
s186，针对每个所述初始聚类中心，根据所述初始聚类中心的类成员更新初始聚类中心；
[0139]
s187，若每个初始聚类中心在更新前后均未发生变化，则根据每个更新后的初始聚类中心的类成员得到平时分和考试成绩的关系。
[0140]
不难发现的是，相比于常见的k均值聚类算法，本发明实施例提供的聚类方式中利用数据点与聚类中心的密度万有引力来代替了数据点与聚类中心的距离。
[0141]
基于此，相比于只能发现圆簇类别的常见k均值聚类算法，本发明实施例所提出的基于密度万有引力的k聚类算法，使得簇的边缘不单以距离衡量，即不同的学生不会简单地因对应的数据点的距离远近而区分类别，并且，基于第一预设算式可知，本发明实施例还使计算机设备在执行聚类分析的过程中，增强了数据点对聚类中心的影响，从而进一步提高了聚类结果的有效性。
[0142]
更进一步的，为进一步提高计算机设备的处理效率，在本发明实施例提供的一种实施方式中，所述方法还包括：
[0143]
当所述初始聚类中心的类成员的数量为零时，将所述类成员的数量为零的初始聚类中心删除。
[0144]
也即，在确定了初始聚类中心之后，若在任意一次更新过程后，初始聚类中心的类成员为零，即初始聚类中心对应的是空簇，则本发明实施例中的计算机设备将会将空簇对应的初始聚类中心删去，以减少计算机设备执行聚类分析过程所需的计算量。
[0145]
与本发明实施例提供的应试能力分析方法相对应的，本发明实施例还提供一种应试能力分析装置，参照图6，图6示出了本发明实施例提供的应试能力分析装置的结构示意图，本发明实施例提供的应试能力分析装置200包括：
[0146]
获取模块210，用于将获取到的预设数量个学生的平时分和考试成绩关联，并利用关联的平时分和考试成绩构建数据集；
[0147]
第一计算模块220，用于计算所述数据集的所有数据点对应的第一质心；
[0148]
排序模块230，用于按照每个所述数据点与所述第一质心的距离越大序号越靠前的规则，将每个所述数据点排序，并设置每个所述数据点的状态数值为第一数值；
[0149]
设置模块240，用于将所述数据集中序号最靠前且所述状态数值为第一数值的数据点作为当前点，并将所述当前点的状态数值设置为第二数值，其中，所述第二数值小于所述第一数值；
[0150]
第二计算模块250，用于利用所述当前点与所述第一质心所构成的线段作为直径，并根据由所述直径构成的圆中的所有所述数据点计算第二质心；
[0151]
增大模块260，用于将所述第二质心与所述第一质心构成的线段作为半径，所述第二质心为圆心，并将由所述半径和所述圆心构成的圆中的所有所述数据点的状态数值增大预设值；
[0152]
中心获取模块270，用于若所述数据集中存在所述状态数值为第一数值的数据点，则执行将所述数据集中序号最靠前且所述状态数值为第一数值的数据点作为当前点，并将所述当前点的状态数值设置为第二数值的步骤，直至所述数据集中不存在所述状态数值为第一数值的数据点时，将所有所述第二质心作为初始聚类中心；
[0153]
关系获取模块280，用于根据所述初始聚类中心执行k均值聚类算法，得到平时分
和考试成绩的关系。
[0154]
可选的，在一种可行的实施方式中，所述预设值包括第一预设值和第二预设值，所述第二预设值大于所述第一预设值；
[0155]
所述增大模块包括：
[0156]
确定子模块，用于将所述第二质心与所述第一质心构成的线段作为半径，所述第二质心为圆心，确定由所述半径和所述圆心构成的圆；
[0157]
增加子模块，用于针对所述由所述半径构成的圆包含的每个所述数据点，将所述状态数值不为所述第二数值的数据点的状态数值增大第一预设值，及将所述状态数值为所述第二数值的数据点的状态数值增大第二预设值。
[0158]
可选的，在一种可行的实施方式中，所述装置还包括：
[0159]
判断模块，用于判断每个所述数据点是否均设置有状态数值；
[0160]
再次设置模块，用于若否，再次执行所述按照每个所述数据点与所述第一质心的距离越大序号越靠前的规则，将每个所述数据点排序，并设置每个所述数据点的状态数值为第一数值的步骤，直至每个所述数据点均设置有状态数值。
[0161]
可选的，在一种可行的实施方式中，所述关系获取模块包括：
[0162]
匹配确定模块，用于确定每个所述状态数值为第三数值的数据点匹配的初始聚类中心，其中，所述第三数值大于所述第一数值，所述数据点与所述初始聚类中心匹配表示所述数据点的状态数值因所述初始聚类中心对应的第二质心而增大为第三数值；
[0163]
分配模块，用于将每个所述状态数值为第三数值的数据点作为匹配的初始聚类中心的类成员；
[0164]
更新模块，用于分别利用每个所述初始聚类中心的类成员更新每个所述初始聚类中心后，根据所述初始聚类中心执行k均值聚类算法，得到平时分和考试成绩的关系。
[0165]
可选的，在一种可行的实施方式中，所述更新模块包括：
[0166]
第一中心更新子模块，用于分别利用每个所述初始聚类中心的类成员更新每个所述初始聚类中心后，基于第一预设算式计算每个所述数据点分别与每个所述初始聚类中心的密度万有引力，其中，所述第一预设算式包括：
[0167][0168]
式中，θ表示密度万有引力，k表示初始聚类中心的类成员的数量，d
ij2
表示第i个数据点到第j个初始聚类中心的距离，r
l
表示初始聚类中心的第l个类成员到初始聚类中心的距离；
[0169]
引力分配子模块，用于针对每个所述数据点，将所述数据点作为密度万有引力最大对应的初始聚类中心的类成员；
[0170]
第二中心更新子模块，用于针对每个所述初始聚类中心，根据所述初始聚类中心的类成员更新初始聚类中心；
[0171]
联系获取子模块，用于若每个初始聚类中心在更新前后均未发生变化，则根据每个更新后的初始聚类中心的类成员得到平时分和考试成绩的关系。
[0172]
可选的，在一种可行的实施方式中，所述装置还包括：
[0173]
删除模块，用于当所述初始聚类中心的类成员的数量为零时，将所述类成员的数量为零的初始聚类中心删除。
[0174]
可选的，在一种可行的实施方式中，所述获取模块包括：
[0175]
数据点获取子模块，用于获取预设数量个学生的平时分和考试成绩，并将每个所述学生的平时分和考试成绩关联，得到所述预设数量个数据点；
[0176]
离群点标记子模块，用于将不满足预设筛选规则的数据点标记为离群点；
[0177]
数据集构建子模块，用于利用所有不为所述离群点的数据点构建数据集；
[0178]
进一步的，在一种可行的实施方式中，所述数据集构建子模块包括：
[0179]
转换单元，用于基于第二预设算式，对每个不为所述离群点的数据点的平时分和考试成绩均进行转换，其中，所述第二预设算式为：
[0180][0181]
式中，y’为转换后的考试成绩或平时分，y为转换前的考试成绩或平时分，y
max
和y
min
分别为所有不为所述离群点的数据点的考试成绩和平时分中，考试成绩或平时分最大值和最小值；
[0182]
数据集生成单元，用于根据所有转换后的数据点构建数据集。
[0183]
本技术实施例提供的应试能力分析装置能够实现图1公开的方法实施例中应试能力分析方法的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
[0184]
本发明实施例还提供一种计算机设备，包括存储器以及处理器，存储器存储有计算机程序，计算机程序在处理器上运行时执行如图1对应的方法实施例中公开的应试能力分析方法。
[0185]
本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序在处理器上运行时执行如图1对应的方法实施例中公开的应试能力分析方法。
[0186]
在本技术所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0187]
另外，在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或更多个模块集成形成一个独立的部分。
[0188]
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计
算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0189]
以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于时序分解的云虚拟机老化预测方法

应试能力分析方法、装置、计算机设备及可读存储介质

相关文献

最热文献