一种基于多维度评价的高校贫困生认证方法及其系统与流程

2022-02-20 01:35:33 来源：中国专利 TAG：

1.本发明属于高校学生贫困生资助领域，具体涉及一种基于多维度评价的高校贫困生认证方法及其系统。

背景技术：

2.贫困生资助是各大高校每年必做的工作，而目前，传统的贫困生资助认证方式单一，往往通过乡镇盖章，提交申请，学生小组认证评定的方式进行评定贫困生。然而传统的贫困生资助认证方式存在一系列的弊端，首先许多非贫困生也能轻易地拿到乡镇盖章，从而通过认证，申请到不属于他们的贫困生资助；其次，在学生小组认证评定过程中，容易受到参与认定的人员主观因数的影响，造成评定结果不准确；最后，贫困生认证往往一次认证，多年持续认定，不能实时检测该生是否仅为暂时贫困，使得不能确保助学金均落实到真正有需要的学生身上。为提高助学金的精准度，依托信息科学及平台，确保助学金真正落实到有需要的学生身上，急需建立了一种能实时检测学生是否贫困的认证系统。

技术实现要素：

3.为解决以上现有技术存在的问题，本发明提出了一种基于多维度评价的高校贫困生认证方法，该方法包括：获取待认定学生的信息；将获取的信息输入到学生贫困生认证预测模型中，得到贫困认证结果；根据贫困认证结果对待认证的学生进行分类，完成贫困生认定；
4.对贫困生认定模型进行训练的过程包括：
5.s1：获取学生的数据信息，将获取的数据信息集成数据库；
6.s2：采用smote算法对数据库中的数据进行预处理，对预处理后的数据进行划分，得到训练集和测试集；
7.s3：将训练集中的数据输入到学生贫困生认证预测模型中进行训练，得到当前训练的模型；
8.s4：将测试集中的数据输入到步骤s3中训练的模型中进行测试，根据测试结果计算贫困生预测的综合指标；
9.s5：调整学生贫困生认证预测模型的参数，并重复步骤s3～步骤s4，直到贫困生预测的综合指标达到最优值，则完成模型的训练。
10.优选的，获取的学生数据信息包括：学生家庭信息、学生个人消费信息、学生学习态度信息、学生日常行为信息、学生勤工俭学信息以及学生贷款申请信息。
11.优选的，将获取的数据信息集成数据库的过程包括：
12.步骤1：采用count函数对获取的数据信息进行整理分析，删除数据中重复的数据；
13.步骤2：将整理后的数据信息进行集合，得到数据表；
14.步骤3：采用聚类离群点的检测方法对数据表中的数据进行检测，删除异常数据，得到数据库。
15.进一步的，采用聚类离群点的检测方法对数据表中的数据进行检测的公式为：
[0016][0017]
其中，d表示数据集中所有样本数据的误差平方和，k表示分类的个数，p表示任意给定的样本数据，ci表示第i个簇，ni表示簇ci的均值。
[0018]
优选的，采用smote算法对数据库中的数据进行预处理的过程包括：
[0019]
第一步，对每一个稀有类样本x，找到与之距离最小的第k个邻近样本，令向上采样倍率为n，从这k个距离最小的邻近样本中随机选择n个样本，并记作(x1，x2，x3，
…
，xn)；
[0020]
第二步，在少数类数据样本x与xi(i＝1，2，
…
，n)之间，采用随机性的线性插值方法合成新的少数类样本x
new
＝x rand*(xi),其中rand代表0到1之间的任何一个随机数值，xi代表x的第i个随机样本；
[0021]
第三步，将合成的新样本插入到数据集中，形成新的数据集。
[0022]
优选的，将训练集中的数据输入到学生贫困生认证预测模型中进行训练的过程包括：
[0023]
s31：设置迭代次数k；
[0024]
s32：从训练集中进行k次有放回的抽样，每次抽取n个训练样本，得到k个训练子集s＝{s1,s2,
…
,sk}；
[0025]
s33：采用信息增益计算方法求取每个训练子集中所有属性的信息增益，选择信息增益最大的属性作为根节点的分裂属性；
[0026]
s34：根据根节点属性值采用信息增益计算方法建立后继枝，选择分枝中信息增益最大的属性进行分裂，直到所有分枝节点的样本属于同一类别；
[0027]
s35：对每个训练子集提取出的同一类别的数据进行提取，生成对应的分类器，并返回步骤s33，直到生成k个分类器；
[0028]
s36：将测试集中的数据输入到k个分类器中进行组合预测，输出结果。
[0029]
进一步的，采用信息增益计算方法计算训练子集中属性的信息增益的过程包括：将训练数据集s作为样本集，每个样本中有m个属性向量；若类别属性an具有k个不同取值，则根据不同的取值将样本集s划分为k个子集，得到样本集s的分类平均信息量h(s)；若类别属性a作为属性划分训练样本集s，训练样本集s被划分成k个子集{s1,s2,
…
,sk}，即将a的取值分为k个(a1，a2…ak
)，定义s中属于第i类的训练实例个数为s
ij
，计算属性a的条件信息熵h(s/a)；根据分类平均信息量h(s)和属性a的条件信息熵h(s/a)计算属性a的信息增益g(a,s)；设划分训练集的属性a有k个不同的值，则将属性a样本集划分为k个不同的子集；其中，样本子集sj包含样本集s中的部分样本，ai为它们在属性a上的值，以属性a的值为基准，对样本进行分割，则属性a的分裂信息熵s(s,a)为：其中，pj为sj为s中包含样本值的概率；划分属性a的信息增益率为：gr(s,a)＝g(a,s)/s(s,a)，其中，s(s,a)表示属性a的分裂信息熵，g(a,s)表示属性a的信息增益。
[0030]
优选的，贫困生预测的综合指标的计算公式为：
[0031]
[0032]
其中，p表示准确率，r表示召回率，f1表示贫困生预测的综合指标。
[0033]
一种基于多维度评价的高校贫困生认证系统，该系统包括：用户数据更新采集单元、数据分析集成检测与处理单元、pc端实时数据更新单元以及贫困生实时排名显示单元；
[0034]
用户数据更新采集单元包括学生家庭基本情况采集模块、学生个人消费基本情况采集模块、学生学习态度基本情况采集模块、学生日常行为基本情况采集模块、学生勤工俭学模块、学生贷款申请模块；
[0035]
所述学生家庭基本情况采集模块用于采集学生家庭的收入和支出信息，并采集学生家庭成员的年龄、姓名、性别以及健康状况信息；
[0036]
所述学生个人消费基本情况采集模块用于采集学生在校消费信息和校外消费信息；
[0037]
所述学生学习态度基本情况采集模块用于采集学生课堂出席信息、成绩信息、图书馆出入次数和图书借阅次数信息；
[0038]
所述学生日常行为基本情况采集模块用于采集学生进出宿舍次数和进出学校信息；
[0039]
所述学生勤工俭学模块用于采集学生个人工作次数、时长以及工资信息；
[0040]
所述学生贷款申请模块用于采集学生个人贷款次数和金额信息；
[0041]
数据分析集成检测与处理单元包括数据预处理模块以及贫困生认证模块；
[0042]
所述数据预处理模块用于获取用户数据更新采集单元采集的数据信息，对获取的数据信息进行预处理，将预处理后的数据输入到贫困生认证模块中；
[0043]
所述贫困生认证模块对预处理后的数据进行认证，得到贫困认证结果；
[0044]
pc端实时数据更新单元获取贫困认证结果，并根据贫困认证结果对数据进行实时更新；
[0045]
贫困生实时排名显示单元获取pc端实时数据更新单元对数据进行更新的结果，并根据更新结果对当前待认证的学生进行贫困生排名显示。
[0046]
本发明的有益效果：
[0047]
本发明中，采集的数据更加全面，不仅对申请者的个人消费情况、学习态度情况、日常行为情况、勤工俭学情况、助学贷款申请情况进行采集，还对申请者的家庭基本情况进行采集，使贫困资助系统更加数据更加精确，贫困评估更加全面。
附图说明
[0048]
图1为本发明的一种高校学生贫困认证系统的整体架构图。
具体实施方式
[0049]
下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0050]
一种基于多维度评价的高校贫困生认证方法，该方法包括：获取待认定学生的信息；将获取的信息输入到学生贫困生认证预测模型中，得到贫困认证结果；根据贫困认证结
果对待认证的学生进行分类，完成贫困生认定。
[0051]
本发明提出的贫困生认证系统主要是利用信息化平台，实时更新学生每天的基本情况，从多维度反映学生的基本情况，计算贫困因子，根据贫困因子形成学生贫困排行榜，认证贫困学生。
[0052]
对贫困生认定模型进行训练的过程包括：
[0053]
s1：获取学生的数据信息，将获取的数据信息集成数据库；
[0054]
s2：采用smote算法对数据库中的数据进行预处理，对预处理后的数据进行划分，得到训练集和测试集；
[0055]
s3：将训练集中的数据输入到学生贫困生认证预测模型中进行训练，得到当前训练的模型；
[0056]
s4：将测试集中的数据输入到步骤s3中训练的模型中进行测试，根据测试结果计算贫困生预测的综合指标；
[0057]
s5：调整学生贫困生认证预测模型的参数，并重复步骤s3～步骤s4，直到贫困生预测的综合指标达到最优值，则完成模型的训练。
[0058]
获取的学生数据信息包括：学生家庭信息、学生个人消费信息、学生学习态度信息、学生日常行为信息、学生勤工俭学信息以及学生贷款申请信息；所述学生家庭信息包括家庭收入信息、支出信息、家庭成员的年龄、姓名、性别、健康状况信息；学生个人消费信息包括学生在校消费信息和学生校外消费信息；学生学习态度信息包括学生课堂出席信息、成绩信息、图书馆出入次数和图书借阅次数信息；学生日常行为信息包括学生进出宿舍次数和进出学校信息；学生勤工俭学信息包括学生的个人工作次数、时长以及工资信息；学生贷款申请信息包括学生的个人贷款次数和金额信息。
[0059]
一种基于多维度评价的高校贫困生认证方法的具体实施方式，该方法包括：
[0060]
s1.集成数据库。
[0061]
第一步，利用count函数对获取的数据进行分析和整理；即在同一时间段、同一对象进出宿舍次数、进出学校次数、进出图书馆次数会出现重复刷卡记录，处理重复数据，保留最后一条记录，避免出现数据冗余。
[0062]
第二步，数据表的集成，利用mysql数据库将处理好的数据表进行匹配，合成数据表。
[0063]
第三步，数据表的数值检验，检测合成的数据表是否出现错误，本文使用聚类离群点的检测方法。这是由于数据的来源不同和数据采集时会出现误差，在数据表中通常会出现一些异常数据，这些异常数据会影响最终的计算结果，从而降低模型的可靠性，利用聚类离群点的检测方法，删除异常数据，该方法通过评估数据属于簇的程度，若样本对象是基于聚类离群点，则该对象不强属于任何簇，计算公式如下：
[0064][0065]
其中，d表示数据集中所有样本数据的误差平方和，k表示分类的个数，p表示任意给定的样本数据，ci表示第i个簇，ni表示簇ci的均值。
[0066]
s2.smote方法处理数据不平衡性。
[0067]
高校资助贫困对象认证所采集的数据具有天然的不平衡性，因为高校学生贫困认
证系统中90％的学生都是非资助的，认证的贫困对象个体数据数量较少，因此覆盖信息不够全面，数据具有不平衡性；本文采用smote方法处理数据，合成少数过采样方法(synthetic minority over-sampling technique，smote)采用k近邻和线性插值的方式合成新的少数类样本，能够有效的解决数据不平衡问题，还可以避免数据过拟合。采用smote算法对数据库中的数据进行预处理的过程包括：
[0068]
第一步，对每一个稀有类样本x，找到与之距离最小的第k个邻近样本，令向上采样倍率为n，从这k个距离最小的邻近样本中随机选择n个样本，并记作(x1，x2，x3，
…
，xn)；
[0069]
第二步，在少数类数据样本x与xi(i＝1，2，
…
，n)之间，采用随机性的线性插值方法合成新的少数类样本x
new
＝x rand*(xi),其中rand代表0到1之间的任何一个随机数值，xi代表x的第i个随机样本；
[0070]
第三步，将合成的新样本插入到数据集中，形成新的数据集。
[0071]
s3.c4.5决策树算法建立预测模型
[0072]
第一步，输入步骤s2处理后的数据；
[0073]
第二步，构建c4.5决策树算法的模型并训练；
[0074]
采用信息增益计算方法计算训练子集中属性的信息增益的过程包括：以训练数据集s作为样本集，每个样本中有m个属性向量，若类别属性an具有k个不同取值，则根据不同的取值可以将样本集s划分为k个子集，可得样本集s的分类的平均信息量；计算样本集s的分类的平均信息量的公式为：
[0075][0076]
其中，pi表示在样本集s中选择第si个样本数据的概率，k表示样本总数，i表示第i个样本数据。
[0077]
假设a作为属性划分训练样本集s，训练样本集s被划分成k个子集{s1,s2,
…
,sk}，即将a的取值分为k个(a1，a2…ak
)，定义s中属于第i类的训练实例个数为s
ij
，则属性a的条件信息熵为：
[0078][0079]
其中，p
ij
代表sj中第i类的样本概率值，s
ij
表示训练样本集s中属于第i类的实例个数，m表示实例的总个数，a表示属性。
[0080]
根据样本集s的分类的平均信息量和属性a的条件信息熵计算属性a的信息增益，属性a的信息增益公式为：
[0081]
g(a,s)＝h(s)-h(s/a)
[0082]
设划分训练集的属性a有k个不同的值,则将属性a样本集划分为k个不同的子集；其中,样本子集sj包含样本集s中的部分样本,ai为它们在属性a上的值；以属性a的值为基准，对样本进行分割，则属性a的分裂信息熵s(s,a)为：
[0083][0084]
其中，pj为sj为s中包含样本值的概率。
[0085]
根据则属性a的分裂信息熵划分属性a的信息增益率为：
[0086]
gr(s,a)＝g(a,s)/s(s,a)
[0087]
将训练集中的数据输入到学生贫困生认证预测模型中进行训练的过程包括：
[0088]
s31：设置迭代次数k；
[0089]
s32：从训练集中进行k次有放回的抽样，每次抽取n个训练样本，得到k个训练子集s＝{s1,s2,
…
,sk}；
[0090]
s33：采用信息增益计算方法求取每个训练子集中所有属性的信息增益，选择信息增益最大的属性作为根节点的分裂属性；
[0091]
s34：根据根节点属性值采用信息增益计算方法建立后继枝，选择分枝中信息增益最大的属性进行分裂，直到所有分枝节点的样本属于同一类别；
[0092]
s35：对每个训练子集提取出的同一类别的数据进行提取，生成对应的分类器ci，并返回步骤s33重复进行训练，直到生成k个分类器{c1,c2,...,ck}；
[0093]
s36：将测试集中的数据输入到k个分类器中进行组合预测，输出结果。
[0094]
第三步，采用测试集对第二步中训练得到的模型进行测试，计算贫困生预测的准确率和召回率，并采用如下公式计算贫困生预测的综合效果；
[0095]
计算贫困生预测的准确率的公式为：
[0096][0097]
计算贫困生预测的召回率的公式为：
[0098][0099]
其中，m代表贫困生类别数，tp为测试集中预测为贫困生并且实际也是贫困生的学生数量，fp为测试集中预测为贫困生但实际不是贫困生的学生数量，fn为测试集中预测不是贫困生但实际为贫困生的学生数量。
[0100]
贫困生预测的综合指标的计算公式为：
[0101][0102]
其中，p表示准确率，r表示召回率，f1表示贫困生预测的综合指标。
[0103]
第四步，调整c4.5决策树算法的模型参数，重复第二三步，直到得到最优的f1值，此时即可得到c4.5决策树算法的最优学生贫困认证预测模型。
[0104]
s4.将步骤s3的数据送入pc端实时数据更新单元，实时更新贫困学生状态。
[0105]
s5.将步骤s4的数据投射到贫困生实时排名显示单元，高校老师直接根据排名情况认证学生的贫困等级，使贫困生认证流程更为简洁，更能帮助到真正有需要的学生。
[0106]
一种基于多维度评价的高校贫困生认证系统，如图1所示，该系统包括：用户数据更新采集单元、数据分析集成检测与处理单元、pc端实时数据更新单元以及贫困生实时排名显示单元；
[0107]
用户数据更新采集单元包括学生家庭基本情况采集模块、学生个人消费基本情况
采集模块、学生学习态度基本情况采集模块、学生日常行为基本情况采集模块、学生勤工俭学模块、学生贷款申请模块；
[0108]
所述学生家庭基本情况采集模块用于采集学生家庭的收入和支出信息，并采集学生家庭成员的年龄、姓名、性别以及健康状况信息；
[0109]
所述学生个人消费基本情况采集模块用于采集学生在校消费信息和校外消费信息；
[0110]
所述学生学习态度基本情况采集模块用于采集学生课堂出席信息、成绩信息、图书馆出入次数和图书借阅次数信息；
[0111]
所述学生日常行为基本情况采集模块用于采集学生进出宿舍次数和进出学校信息；
[0112]
所述学生勤工俭学模块用于采集学生个人工作次数、时长以及工资信息；
[0113]
所述学生贷款申请模块用于采集学生个人贷款次数和金额信息；
[0114]
数据分析集成检测与处理单元包括数据预处理模块以及贫困生认证模块；
[0115]
所述数据预处理模块用于获取用户数据更新采集单元采集的数据信息，对获取的数据信息进行预处理，将预处理后的数据输入到贫困生认证模块中；
[0116]
所述贫困生认证模块对预处理后的数据进行认证，得到贫困认证结果；
[0117]
pc端实时数据更新单元获取贫困认证结果，并根据贫困认证结果对数据进行实时更新；
[0118]
贫困生实时排名显示单元获取pc端实时数据更新单元对数据进行更新的结果，并根据更新结果对当前待认证的学生进行贫困生排名显示。
[0119]
本发明中系统的具体实施方式与方法的具体实施方式相似。
[0120]
以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：图纸与数据的处理方法、装置、计算机设备和存储介质与流程

一种基于多维度评价的高校贫困生认证方法及其系统与流程

相关文献

最热文献