一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于图结构学习的多行为融合图神经网络学生成绩预测方法

2022-06-25 07:54:08 来源:中国专利 TAG:


1.本发明涉及模式识别和机器学习等领域,尤其是面向基于多源异构校园大数据的学生成绩预测任务。


背景技术:

2.教育大数据挖掘是数据挖掘领域的研究热点之一,教育大数据挖掘应用主要集中于学生学习风格识别以及学生成绩预测方面。高校学生在校园内生活学习,大部分行为数据记录在学生的信息管理系统,这些行为数据包含的学生一卡通消费信息、门禁信息、图书馆借阅数据、利用校园网浏览网页的上网信息以及学籍系统中学业相关信息,共同构成了多源异构的校园大数据集。相比于单一行为数据,多源异构行为数据具有关联关系复杂、时空分布不连续等问题,如何更好的利用多源异构校园大数据集进行学生行规律挖掘并预测学生成绩有赖于提出新的方法。
3.在学生成绩预测任务中,提取学生行为特征是整个研究的基础,利用单一行为对学生成绩进行分类预测时并不能准确描述学生的行为特征。真实世界中实体关系复杂,仅考虑学生的单一行为关系对学生成绩进行预测,会忽略其他行为给学生成绩带来的影响。节点特征表示通常的方法是使用k邻近算法生成节点的特征矩阵,但是使用单一行为上网节点特征矩阵很难完全捕捉到节点的特征信息。


技术实现要素:

4.为解决传统方法预测学生成绩时准确率较低的问题,本发明公开了一种基于图结构学习的多行为融合图神经网络学生成绩预测方法。该方法在基于多源异构校园大数据集的基础上,将学生多行为特征视图融合成新的行为特征视图,并利用特征空间学习模块与拓扑空间优化的图结构学习模块学习节点嵌入,最终完成学生成绩预测任务。
5.本发明提供一种基于图结构学习的多行为融合图神经网络学生成绩预测方法,包括以下步骤:
6.步骤1)构建多源异构的校园大数据集,
7.本发明采集的多源异构校园大数据如下:
8.学生基础信息数据,包括学生的人口统计信息和学籍信息,采用表示第i个学生的基础信息,其中di表示基础信息的数据属性个数;
9.一卡通数据,高校学生一卡通数据包括学生的消费数据,采用表示第i个学生的一卡通数据,其中dc表示一卡通数据的属性个数,表示第i个学生的消费记录数;
10.图书馆门禁数据,采用表示第i个学生的图书馆门禁数据,其中d
l
表示图书馆门禁数据的属性个数,表示第i个学生图书馆门禁的记录数;
11.学生上网数据,上网数据分为两部分:网关登陆数据和上网日志数据;采用学生上网数据,上网数据分为两部分:网关登陆数据和上网日志数据;采用表示第i个学生的上网数据,其中dw表示上网数据的属性个数,表示第i个学生的上网记录数;
12.基于上述描述,包含n个学生样本的多源异构校园大数据集d表示为 {(i1,c1,l1,w1),

,(ii,ci,li,wi),

,(in,cn,ln,wn)};
13.步骤2)对多源异构数据进行预处理与特征提取;
14.步骤3)构建学生成绩预测模型进行成绩预测,具体过程如下:
15.步骤3.1)将学生作为节点利用提取的行为特征构建学生多行为融合特征矩阵x, 1)将学生行为特征按其数据来源分为四类,每类行为特征单独构成一个单行为特征矩阵,用xi,xc,x
l
,xw表示,其中表示学生基本信息特征矩阵,di表示学生基本信息行为特征个数,表示学生一卡通行为特征矩阵,dc表示一卡通行为特征个数,表示学生图书馆行为特征矩阵,d
l
表示图书馆行为特征个数,表示学生上网行为特征矩阵,dw表示上网行为特征个数; 2)将单行为特征矩阵xi,xc,x
l
,xw按行合并为多行为融合节点特征矩阵,用行为融合节点特征矩阵,用表示,其中n是学生的个数,d是节点特征的维数,且d=di dc d
l
dw,公式表达如下:
16.x=xi∥xc∥x
l
∥xwꢀꢀꢀ
(4);
17.步骤3.2)利用单行为节点特征矩阵xi,xc,x
l
,xw的节点特征相似度分别构建单行为节点特征knn图将所有单行为节点特征knn图合并融合为一个多行为融合节点特征knn图af,其中是具有n个节点的knn图邻接矩阵;
18.步骤3.3)基于多行为融合节点特征矩阵x,利用k-means聚类算法将学生行为特征进行聚类分析,将学生作为节点,将节点的聚类结果是否一致作为边构建节点关系图,用表示,其中a
t
是具有n个节点的邻接矩阵,a
t
={a
ij
},公式如下:
[0019][0020]
其中,li和lj分别是节点i和节点j的聚类结果;
[0021]
步骤3.4)将得到的多行为融合节点特征knn图af作为特征空间学习模块的输入,学习到节点嵌入zf;
[0022]
步骤3.5)将得到的节点关系图a
t
输入优化的图结构学习模块,学习到节点嵌入z
t

[0023]
步骤3.6)将节点嵌入zf和z
t
求平均值,得到最终的节点表示z;
[0024]
步骤3.7)将节点嵌入z通过线性变换和softmax函数进行半监督分类任务,输出每个学生的成绩预测值。
[0025]
有益效果
[0026]
本发明所述的一种基于图结构学习的多行为融合图神经网络学生成绩预测方法,与现有的学生成绩预测方法相比,具有如下有益效果:
[0027]
1)在预测学生成绩时考虑了多行为特征之间复杂的关联关系,引入了多行为融合的knn特征视图构建节点特征空间,与现有方法相比可以有效提高学生行为特征的利用效率;
[0028]
2)所述方法利用kmeans聚类分析节点特征,将聚类结果作为节点标签细化拓扑图结构,实现图结构学习模块的优化,使其更好的学习节点嵌入表示;
[0029]
3)为了更好的融合特征空间与拓扑空间的共享信息,特征空间学习模块与优化的拓扑空间图结构学习模块具有共享的参数矩阵,与现有方法相比能够有效提高共享信息的学习效果。
附图说明
[0030]
图1、本发明方法流程图
具体实施方式
[0031]
本发明实验使用的数据集是从北京工业大学学生信息系统中采集的真实数据,主要包括学生学籍及课程数据、一卡通数据以及学生上网数据。
[0032]
首先对数据进行预处理。具体操作包括:
[0033]
1)为了保护学生隐私,学生基本数据中的学号将进行编码处理,然后将重复数据删除;
[0034]
2)对于学生所在院系、专业等基本信息以及行为数据集中的地点属性,本文将其全部转化为数字代码表示;
[0035]
3)对于学生成绩预测,选取学生学期平均绩点(grade point average,gpa)作为标签,按照绩点数值平均分为差、中、好三类,分别用0,1,2表示。gpa的计算公式如下:
[0036][0037]
其中c表示课程学分,a表示课程成绩。由于成绩预测本质上是分类任务,故选取三个评价指标来评价成绩预测效果:查准率(precision)用p表示,查全率(recall) 用r表示,f1系数(f1-score)用f1表示。其计算公式为:
[0038][0039][0040][0041]
其中,真正例(tp):将正类预测为正类数,假正例(fp):将负类预测为正类数,假反例(fn):将正类预测为负类数;
[0042]
4)针对学生的行为数据,利用重合或合并操作将重复数据去除。首先统一学生行为时间,起始时间为0:00,不同类型行为按不同的时间间隔k划分,并将时段从1 开始标号给每个时段赋索引值,以k=15为例,将一天24小时划分为96个时间段,每个时间段为15分钟,则时间8:10内包含32个15分钟,每个时段从1开始赋值索引,则8:10应转换为33。其次对就餐数据、购物数据、上网数据以及图书馆门禁数据中具有相同时间段及相同地点的数据进行就餐金额、购物消费金额、上网流量以及图书馆访问次数的合并。k值具体取值如下表1所示:
[0043][0044]
表1:不同类型行为下k的取值
[0045]
对预处理后的数据进行学生行为特征提取与选择。具体操作包括:
[0046]
1)对具有数的性质的定量属性,如消费金额,使用平均值、范围、众数表达其分布的集中趋势;采用最小值、最大值以及中位数表达分布的分散情况;
[0047]
2)对具有定性属性的数据利用香农熵来表达学生行为的规律性;
[0048]
3)为了提高特征质量,通过计算方差和皮尔逊相关系数的方法选择特征。
[0049]
本发明最终提取了240个学生行为特征。
[0050]
利用最终提取的学生行为特征构建多行为融合节点特征矩阵并作为学生成绩预测模型的输入。模型内具体过程为:
[0051]
1)利用节点特征矩阵构建多行为融合节点特征knn图,具体地,在knn算法中本发明为每个节点选择前2个相似节点,即k=2。
[0052]
2)利用kmeans聚类算法构建节点关系图,具体地,聚类个数为8。
[0053]
3)特征空间学习模块内与拓扑空间优化的图结构学习模块是具有两层的图卷积神经网络,本发明将最后一层的输出嵌入表示z
t
和zf的平均值作为最终的节点嵌入进行下游的学生成绩预测任务。
[0054]
4)模型采用adam作为优化器,采用交叉熵作为损失函数,采用dropout机制避免过拟合问题,将最终节点嵌入通过线性层和softmax函数得到学生的成绩预测结果,
[0055]
其中dropout=0.5。
[0056]
为了验证所提方法聚类效果的优越性,将本发明dmvgcn与逻辑回归,决策树,贝叶斯、随机森林、支持向量机、adaboost、k邻近、gcn几种方法进行比较。
[0057]
表2显示了在相同数据集上,dmvgcn与其他成绩预测方法的实验效果。显然,在大多数情况下,我们提出的方法性能明显优于许多现有的最先进的方法。
[0058]
表3列出了本发明方法的变体,dmvgcn-unsadj为去除图结构学习模块,只保留特征空间学习模块,dmvgcn-xx是基于图结构学习的单一行为图神经网络,-jc表示就餐行为特征网络,-url表示上网行为特征网络,-lib表示图书馆相关行为特征网络,
‑ꢀ
shopping表示购物行为特征网络。
[0059]
表4为其他成绩预测方法与本发明变体的预测效果对比。无论与其他方法相比还是与我们所提出方法的变体相比,我们提出的方法都比其他比较方法实现了更高的学生成绩预测能力,这预示着未来在实际应用中的良好前景。
[0060][0061]
表2:不同方法效果对比
[0062][0063]
表3:本发明方法与其变体效果对比
[0064][0065]
表4:所有成绩预测方法效果对比。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献