一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于混合深度学习及注意力机制的学生表现预测方法与流程

2021-10-24 10:10:00 来源:中国专利 TAG:学习 深度 注意力 混合 机制

基于混合深度学习及注意力机制的学生表现预测方法
(一)技术领域
1.本发明涉及机器学习、深度学习及数据挖掘等技术领域,具体是涉及基于混合深度学习及注意力机制的学生表现预测方法。
(二)

背景技术:

2.近年来,教育信息化发展迅速,远程教育、在线学习等系统的广泛应用为教育数据挖掘提供了大量丰富的数据,使得教育数据挖掘迎来了新的转折点。利用这些数据,研究者们能够识别学生的学习环境、学习条件、学习状态,实现对某些教育现象的解释,提高教育的有效性。其中,学生表现预测作为教育数据挖掘的重要领域之一,得到越来越多的关注。通过对学生表现进行预测,可以及早识别学习存在风险的学生,从而能够提前采取有效的措施,帮助这些学生提高学习成绩;同时通过对学生表现进行预测,还可以评估现有的教学模式,为指导老师、教学管理者提供教学建议,优化教学资源分配。
3.在已有的学生表现预测领域,可以根据使用的方法类型,简单的将其分为传统的机器学习方法和深度学习方法。在学生表现预测的早期研究中,通常使用回归方法、决策树、支持向量机、因子分解等传统的机器学习方法,这些方法简单、有效,能够较好的预测学生表现。然而随着深度学习的发展,以及其在许多领域取得的巨大成就,使得如何将深度学习的方法应用学生表现预测领域中成为新的研究热点。
4.在学生表现预测领域,已有基于深度学习方法的研究中,循环神经网络及其变体取得了极佳的实验效果,其从学生的学习行为数据中提取序列特征,实现对学生表现进行准确的预测。然而在学生表现预测领域中,现有的基于循环神经网络及其变体方法的研究中存在着三个明显的缺点:(1)在数据的处理阶段,仅仅依靠模型自身的能力来对特征进行处理,缺乏有效的特征提取过程。(2)多采用基于长短期记忆神经网络(lstm),该方法尽管与循环神经网络相比,可以学习更长的时间序列数据,然而其结构复杂,参数量大,尤其当将lstm扩展到深层时,其参数量剧增,使模型容易出现过拟合现象,同时还会导致训练速度缓慢。(3)学习过程是一个具有阶段性和整体性的过程,在已有的研究中,已经证明了基于整体性数据统计得到的特征对学生表现预测具有重要的影响,而基于循环神经网络及其变体的研究,注重对固定时间段内的累计数据的处理,而忽视了学习过程中的全部累计数据的影响。
(三)

技术实现要素:

5.基于混合深度学习及注意力机制的学生表现预测方法,利用学生在线学习过程中的行为记录日志信息,首先对其进行预处理和特征提取,使用相关性特征选择(cfs)的方法来获得对预测结果有重要影响的特征。然后考虑到学习过程中的阶段性和整体性,对提取到的特征,分别按特征类别进行周累计统计和全部累计统计。对于周累计统计的数据,考虑到lstm的缺点,该发明采用训练速度更快、效果更好的深层门限控制单元神经网络(deepgru)进行时序特征提取;对于全部累计统计,使用深层神经网络(dnn)进行潜在特征
提取。接着将提取到的时序特征和潜在特征进行拼接,但由于学习到的两类特征在量级和类别上差异较大,因此使用dnn进行高阶特征交互,学习更深层次的特征。同时考虑到不同特征对学生表现的影响程度不同,为了更好的进行预测,使用注意力机制(attention)为不同的深层次特征分配不同的权重。最后使用sigmoid分类器对学生是否能够通过某一门课程进行预测,从而提高预测的准确性。
6.本发明的目的是这样实现的:步骤1、对已下载的好的oulad数据集中的点击流数据进行筛选和预处理;步骤2、使用cfs对特征进行特征提取,根据特征与学生表现的相关性分析,提取相关性相对较高的特征。步骤3、对提取到的特征,分别按特征类别进行周累计统计和全部累计统计,从而生成两大类新特征。步骤4、使用deepgru模型,对周累计统计生成的特征,进行时序特征提取;使用dnn对全部累计统计生成的特征,进行潜在特征提取。步骤5、将提取到的时序特征和潜在特征进行拼接,然后使用dnn对拼接后的特征进行高阶特征交互,学习更深层的潜在特征,从而解决两种特征在类型和量级上不同得来的问题。步骤6、使用attention层来计算不同的深层潜在特征对学生表现的影响;步骤7、将步骤五中得到的特征向量和步骤六中得到的特征向量的影响权重进行加权,得到最终的表示向量,由于是对学生是否能够通过某一课程进行预测,是一个二分类问题,因此使用sigmoid层进行预测。
7.与现有的技术相比,本发明具有如下优势:(1)在构建模型前,对预处理后所存在的特征使用cfs进行提取,即选择和结果相关性比较大的特征,从而摒弃了关联性低以及无效的特征,可以提高结果的预测准确性。(2)在考虑学生学习过程中存在的时序性时,使用了deepgru模型进行时序特征提取,该模型是一个多层的gru模型,从模型本身的参数设置上,gru比lstm少了一个“门”,并且取消进行线性自更新的记忆单元,使得相比lstm少了将近四分之一的参数,因此可以降低过拟合,提高训练效率。同时深层结构可以更有效的提取时序特征。(3)将deepgru模型与dnn模型进行融合,不仅学习周累计数据统计特征中的学生学习过程中的时序特征,还能够学习全部累计统计中的潜在特征,同时考虑到了学习过程中的阶段性和整体性。(4)使用dnn对拼接后的特征进行后续处理,有效的解决两类不同模型学习到的特征在类型和量级不同所带来的问题。(5)最后引入attention,根据提取到的特征对最终结果影响的不同而分配不同的权重,能够快速有效的训练模型,从而提高模型的性能。
(四)附图说明
8.图1为本发明的模型的框架图。
9.图2为基于混合深度学习及注意力机制的学生表现预测的整体的流程图。
10.图3为模型中数据处理流程图。
11.图4为gru细胞结构示意图。
12.图5为attention层功能结构示意图。
(五)具体实施方式
13.为使本发明的目的、技术方案和优点更加清楚,以下结合具体实例,并参照附图,对本发明进一步详细阐述。
14.本发明以基于混合深度学习及注意力机制的学生表现预测为实例描述本发明方法的具体实施过程。
15.本发明的模型框架如图1所示。
16.本发明的整体流程如图2所示。结合示意图说明具体步骤:步骤1、在官网下载英国开放大学学习分析数据集(oulad),对数据进行筛选,以及预处理。步骤2、由于在oulad中,存在着多种类型的学生学习活动类型,然而对于不同的课程,其侧重的学习活动类型不同。当对一门课程进行学生表现预测时,需要对学习活动类型特征进行有效的筛选,因此对预处理后的数据中的特征集使用相关性特征选择,通过计算不同特征与学生表现的相关性,选择相关性高的特征,摒弃相关性低以及无关特征,从而实现特征的有效提取。步骤3、按照提取到的特征类型,分别从按周累计统计和全部累计统计两个维度来对数据进行统计。步骤4、使用deepgru网络从按周累计统计的数据中提取学生学习的时序特征;使用dnn网络从全部累计统计的数据中提取学生学习的潜在特征。步骤5、将步骤4中学习到的两类特征进行拼接,使用dnn网络对特征进行高阶交互,从而提取影响学生学习表现的更深层次的特征。步骤6、考虑到不同的特征对学生表现的影响程度不同,通过attention机制自适应地根据不同特征对预测的不同影响而赋予不同的权值,然后将不同时刻的特征向量与权重进行加权求和,从而得到用于预测的特征表示向量。步骤7、将步骤6中得到的用于预测的特征表示向量输入到分类层,使用sigmoid函数进行二分类预测。
17.本发明的数据处理流程如图3所示。结合示意图说明具体步骤:步骤1、从官网下载oulad比赛的数据集,该数据包含英国公开大学22个课程模块,共32593名学生的学习信息,所有数据存储在7张csv表中。数据集中的课程模块均为为期一个学期的课程,课程时长最长269天,最短240天。数据集主要存储表有学生评估表、学生信息表和学生交互表。学生评估表存储每个学生的每次测试的成绩;学生信息表存储每个学生在参加每门课程时的人口统计信息以及在该门课程上的成绩,其中成绩由四类标签(优秀、通过、失败、辍学)来表示;学生交互表存储每个学生每天在每门课程上每个交互类型的访问次数。本发明使用学生交互数据来预测学生表现,其预测标签为学生信息表中的成绩,同时为了平衡数据集,这里将成绩中的优秀和通过合为通过一类,而将失败和辍学合为失败一类。因此在数据集中,主要保留了学生交互表和学生信息表,并且在学生信息表中仅使用了学生成绩这一项。在学生交互表中,存储了32593名学生在22门课程共计10655280条学
生交互信息,这些交互信息共分为20类(resource、oucontent、url、homepage、subpage、glossary、forumng、oucollaborate、dataplus、quiz、ouelluminate、sharedsubpage、questionnaire、page、externalquiz、ouwiki、dualpane、repeatactivity、folder、htmlactivity)交互类型。此外由于该数据集中存在数据缺失等问题,因此需要对数据进行预处理,通过数据库的join等操作来保证数据的一致性、完整性。步骤2、对预处理好的数据集中的20种交互类型与学生的学习表现标签分别进行相关分析,提取相关性高的交互类型作为用于模型训练的特征,从而可以有效的筛出相关性低以及无效的特征。步骤3、按照提取到的特征类型,分别对数据进行按周累计统计和全部累计统计,其中在按周累计统计中,考虑到课程的授课天数不同,因此使用7天一周,共38周的统一约定来进行数据的按周累计统计。经过累计统计之后,在按周的累计统计上对每一个学生生成了一个大小为38*特征个数的行为向量矩阵,在全部累计统计上对每一个学生生成一个大小为1*特征个数的行为向量矩阵。步骤4、分别将按周累计统计生成的行为向量矩阵输入到deepgru网络中进行时序特征的提取,而将全部累计统计生成的行为向量矩阵输入到dnn网络中进行潜在特征提取。
18.本发明使用的gru细胞结构如图4所示。结合示意图说明具体步骤:步骤1、使用更新门,来决定前一时刻传递过来的信息是否要进行更改。将前一时刻传递来的信息h_(t

1)与当前时刻输入信息x_t分别进行线性变化,也就是分别右乘权重矩阵,然后相加后的数据送入更新门,计算得到的z_t数值在[0,1]之间,其中0为完全更新,1为不需要更新,公式如下:z
t
=σ(w
z
·
[h
t
‑1,x
t
])步骤2、使用重置门,来决定前一时刻传递过来的信息与当前时刻的输入信息有多大相关性。将前一时刻传递来的信息h
t
‑1与当前时刻输入信息x
t
分别进行线性变化,也就是分别右乘权重矩阵,然后相加后的数据送入充值门,计算得到r
t
数值在[0,1]之间,其中1为完全相关,0为不需完全不相关。尽管与步骤1的公式相似,但是两次的权重矩阵的数值和用处不同。公式如下:r
t
=σ(w
r
·
[h
t
‑1,x
t
])步骤3、使用重置门重置获得当前单元的信息。即利用充值门控制上一时刻传递过来的信息与当前时刻输入信息的数量,生成当前单元的信息。公式如下:步骤4、使用更新门计算当前时刻的隐藏状态输出,即当前时刻传递给下一时刻的信息。利用控制门控前一时刻传递过来的信息和当前时刻单元的信息的数据量,生成当前时刻要传递给下一时刻的信息。公式如下:
[0019]
本发明使用的attention层功能示意图如图5所示。结合示意图说明具体步骤:步骤1、使用学习函数a,对每一个输入的特征向量h
t
进行计算,学习每一个特征向量h
t
对的影响因子e
t
。公式如下:e
t
=a(h
t
)步骤2、对所有影响因子进行相加,然后使用每一个影响因子除以总和得到每个特
征向量对应的权重。通过这样的处理,可以保证所有特征向量的权重和为1。公式如下:步骤3、用特征向量与对应的权重进行加权求和得到最终的特征向量。公式如下:
[0020]
需要说明的是,以上所述实例仅是本发明的较优实施例,本发明并非局限于上述实施例和实施例方法。相关技术领域的从业者可在本发明的技术思路许可的范围内进行不同的细节调整和实施,故凡依本发明专利申请范围所述的构造、特征及原理所做的等效变化或修饰,均包括于本发明专利申请。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜