一种基于深度学习的在线学习投入度识别方法及系统与流程

2021-11-24 23:59:00 来源：中国专利 TAG：

1.本发明属于图像识别、图像分类技术领域，具体涉及一种基于深度学习的在线学习投入度识别方法及系统，以实现复杂在线学习场景下的学习投入度精准识别，以期为在线教育中教师改进教学策略和提供教学干预提供支撑。

背景技术：

2.随着互联网时代的到来，开放、共享式的在线学习日益成为一种重要的学习方式。在线学习突破了时空限制，其学习方式灵活、学习资源丰富，为教育领域注入了新的活力。学习投入是在线学习过程性评价的重要指标，当前许多相关研究已经充分证实学习效果与在线投入之间的联系，即学习投入度越高，学习效果越好。
3.在真实在线学习过程中，由于环境的复杂性和学习状态的内隐性，如何进行非侵入式的学习投入度识别仍然是一项具有挑战性的任务。因此，学习投入度识别的相关研究日益成为国内外在线教育的热点话题。传统用来衡量学习投入状态的工具如自我报告和人工观察法耗时费力、主观性强，缺乏理解投入状态和学习之间的相互作用所需的时间分辨率。因此，上述方法已无法满足在线学习的个性化学习需求。在线学习环境下，教师与学习者的时空的分离导致学习者的投入状态无法被直接观察，因此迫切需要一种自动化的识别方法解决该问题。
4.传统机器学习方法在面对大样本数据时，识别效率不高，且手工提取特征依赖以往经验，深度学习的出现有效缓解了此类问题。当前，越来越多的研究者聚焦于通过深度学习方法识别学习者投入度。最近，计算机视觉与教育教学的深度融合，为在线学习投入度自动识别带来了新的发展契机。基于计算机视觉的方法通常通过学习终端的摄像头采集学习者视频，然后通过面部图像提取获得学习投入特征，实现投入度的自动识别。然而，基于面部图像的在线学习投入度识别研究目前还存在许多问题：首先通过面部图像如何精准定义投入状态是一个难点问题，如若定义的有歧义，类别存在模糊性，会直接影响识别结果。其次，基于计算机视觉的方法通常建立在大样本数据库上，而当前公开的真实在线学习场景下的投入数据库较为缺乏，限制了此类研究的推进。
5.综上所述，通过面部特征识别学习投入度受到研究者广泛关注。当前识别的方法主要分为传统机器学习方法和深度学习的方法，但是这两种方法都有局限性：首先传统机器学习方法适合小样本分类问题，对于更复杂的特征提取不全面，而深度学习方法虽然对大样本容量或者复杂的分类问题有优势，但是由于深度网络层次结构较深，包含的参数较多，训练过程中容易得到局部最优值。
6.因此，本发明立足于研究内容，设计一种高效的深度学习方法实现在线学习投入度识别，为实时感知学习者学习状态提供技术支撑。

技术实现要素：

7.本发明针对当前学习投入度识别精度不高的问题，从视频中的学习者面部表情信
息入手，设计学习投入度识别算法评估学习者投入状态，本发明提供了一种基于深度学习的在线学习投入度识别方法，以期为在线教育中的教师改进教学策略、提供学习干预提供帮助。
8.本发明提供的一种基于深度学习的在线学习投入度识别方法，包括如下步骤：
9.步骤1，基于学习视频构建学习投入数据库；
10.步骤2，利用yolov4目标检测模型在学习投入数据库上进行迁移学习，用来进行学生人脸检测任务，并在公开人脸检测数据集上训练得到yolov4预训练模型；
11.步骤3，在学习投入数据库上，通过训练集不断训练网络模型，验证集测试网络模型性能，最终通过多次迭代和调整网络参数获取到最优的yolov4检测模型，并检测获得学习投入数据库上的人脸；
12.步骤4，修改vgg16网络结构模型，并利用改进的vgg16模型进行训练，调参获取最佳模型；
13.步骤5，利用训练好的改进的vgg16模型从检测到的人脸中识别学习投入度。
14.进一步的，步骤1的具体实现过程如下；
15.1a)在真实的学习环境中采集学生在线学习的视频，从收集的m个学生学习视频抽取图像帧并进行投入度标注，对每个视频片段按照每间隔a帧抽取一帧的规则进行抽取，从视频序列中抽取m张图片；
16.1b)进行数据标记，将m张图片中的学生个体进行标记，目的在于将学生与环境分离，并赋予图片标签值，为m张图片中的学生个体分配投入度标签值b，其中b有c类。
17.进一步的，改进的vgg16模型的网络结构如下；
18.(1)将vgg16网路结构模型的第18层max pool替换为global pool，减少参数量；
19.(2)将vgg16网路结构模型的第20
‑
21层full connet剔除，并将全连接层的节点数对应投入类别数目a；
20.(3)在vgg16最后一层全连接层之前引入dropout策略，以增强模型的鲁棒性。
21.进一步的，训练改进的vgg16模型时，采用数据增广方式，将训练数据集按照某种特定的变换规则，产生新的图像，具体包括；
22.a)图像向左旋转20度；
23.b)图像向右旋转20度；
24.c)图像水平翻转；
25.d)图像向左平移20个像素点；
26.e)随机设置部分像素值为零；
27.f)添加高斯噪声；
28.g)添加高斯模糊；
29.h)将每张图像每隔两行的像素点变成黑色的条带。
30.进一步的，所述改进的vgg16模型包括14个隐藏层，即13个卷积层和1个全连接层，所有隐藏层的激活单元都采用relu函数，relu的表达式f(x)以及其导数f’(x)的计算公式如下所示：
31.f(x)＝max(0，x)
ꢀꢀꢀ
(1)
[0032][0033]
relu函数是分段线性函数，把所有的负值都变为0，而正值不变，这种操作被成为单侧抑制。
[0034]
进一步的，采用深度确定性信息瓶颈dib作为vgg16模型的损失函数，弥补传统损失函数的不足，以获取较为紧致的特征表达，减少泛化误差，改善模型的通用性和稳定性，dib定义了一个最优的特征表示，即网络所学习到的输入数据的特征表示t应该与输入x之间的互信息mi最小，同时与理想输出y的互信息最大，互信息利用熵来描述变量之间的非线性相关性，mi的值反映变量之间的相关性强弱，mi值越大，说明相关性越强；两个变量之间的mi值定义为：
[0035]
i(y；t)＝h(y)
‑
h(y|t)
ꢀꢀꢀ
(3)
[0036]
其中，h(y)表示y的熵；h(y|t)表示给网络所学习到的输入数据的特征表示t的条件下，y和t的条件信息熵，t∈t，t为网络所学习到的输入数据的特征表示，y∈y；由于h(y)是一个与神经网络无关的参数，因此由公式(3)可以得到：
[0037][0038]
进一步的，给定一个训练数据集d＝(x
i
，y
i
)
i＝1，...，n
及其先验分布p(x
i
,y
i
)，其中n为训练数据集中样本个数，x
i
为输入的图像集合，y
i
为在输入x
i
图像情况下的理想输出的分类结果集合，从该分布中可以对训练集进行采样，条件概率pθ(t|x
i
)和pθ(y
i
|t)由θ进行参数化，其θ表示网络参数，e表示期望。然后，可以得到给网络所学习到的输入数据的特征表示t的条件下，y和t的条件信息熵：
[0039][0040]
进一步的，根据经验可以近似的得到平均交叉熵损失，即dib，其计算公式如下：
[0041][0042]
综上，dib可以解释为通过了加权可微互信息项i(y；t)而得的经典交叉损失熵。
[0043]
本发明还提供一种基于深度学习的在线学习投入度识别系统，包括如下模块：
[0044]
学习投入数据库构建模块，用于基于学习视频构建学习投入数据库；
[0045]
人脸检测模型构建模块，用于利用yolov4目标检测模型在学习投入数据库上进行迁移学习，用来进行学生人脸检测任务，并在公开人脸检测数据集上训练得到yolov4预训练模型；
[0046]
人脸检测模块，用于在学习投入数据库上，通过训练集不断训练网络模型，验证集测试网络模型性能，最终通过多次迭代和调整网络参数获取到最优的yolov4检测模型，并检测获得学习投入数据库上的人脸；
[0047]
学习投入度识别模型构建模块，用于修改vgg16网络结构模型，并利用改进的vgg16模型进行训练，调参获取最佳模型；
[0048]
最终识别模块，用于利用训练好的改进的vgg16模型从检测到的人脸中识别学习投入度。
[0049]
进一步的，所述改进的vgg16模型的网络结构如下；
[0050]
(1)将vgg16网路结构模型的第18层max pool替换为global pool，减少参数量；
[0051]
(2)将vgg16网路结构模型的第20
‑
21层full connet剔除，并将全连接层的节点数对应投入类别数目a；
[0052]
(3)在vgg16最后一层全连接层之前引入dropout策略，以增强模型的鲁棒性。
[0053]
进一步的，所述改进的vgg16模型包括14个隐藏层，即13个卷积层和1个全连接层，所有隐藏层的激活单元都采用relu函数，relu的表达式f(x)以及其导数f’(x)的计算公式如下所示：
[0054]
f(x)＝max(0,x)
ꢀꢀꢀ
(1)
[0055][0056]
relu函数是分段线性函数，把所有的负值都变为0，而正值不变，这种操作被成为单侧抑制。
[0057]
进一步的，采用深度确定性信息瓶颈dib作为vgg16模型的损失函数，弥补传统损失函数的不足，以获取较为紧致的特征表达，减少泛化误差，改善模型的通用性和稳定性，dib定义了一个最优的特征表示，即网络所学习到的输入数据的特征表示t应该与输入x之间的互信息mi最小，同时与理想输出y的互信息最大，互信息利用熵来描述变量之间的非线性相关性，mi的值反映变量之间的相关性强弱，mi值越大，说明相关性越强；两个变量之间的mi值定义为：
[0058]
i(y；t)＝h(y)
‑
h(y|t)
ꢀꢀꢀ
(3)
[0059]
其中，h(y)表示y的熵；h(y|t)表示给网络所学习到的输入数据的特征表示t的条件下，y和t的条件信息熵，t∈t，t为网络所学习到的输入数据的特征表示，y∈y；由于h(y)是一个与神经网络无关的参数，因此由公式(1)可以得到：
[0060][0061]
进一步的，给定一个训练数据集d＝(x
i
,y
i
)
i＝1,...，n
及其先验分布p(x
i
,y
i
)，其中n为训练数据集中样本个数，x
i
为输入的图像集合，y
i
为在输入x
i
图像情况下的理想输出的分类结果集合，从该分布中可以对训练集进行采样，条件概率pθ(t|x
i
)和pθ(y
i
|t)由θ进行参数化，其θ表示网络参数，，e表示期望；然后，可以得到给网络所学习到的输入数据的特征表示t的条件下，y和t的条件信息熵：
[0062][0063]
进一步的，根据经验可以近似的得到平均交叉熵损失，即dib，其计算公式如下：
[0064][0065]
综上，dib可以解释为通过了加权可微互信息项i(y；t)而得的经典交叉损失熵。
[0066]
本发明与现有技术相比，具有有益效果：
[0067]
1.本发明提供的基于深度学习的学习投入度识别方法及系统，将在线学习环境下的学生学习状态划分为不同的学习投入度状态，了解学生在不同网络学习时空中的学习状态，据此更好提供精准教学干预和个性化学习支持服务，为课程教学设计和学习设计优化提供依据。
[0068]
2.本发明采用迁移学习，在学生数据库上重新训练yolov4目标检测算法，并通过不断地调参，使得模型可以有效检测学生个体，且具备一定泛化能力。
[0069]
3.在分类模型方面，本发明针对vgg16网络参数量庞大、训练耗时等问题，提出了一种改进的vgg16模型，在保证模型特征信息不流失的前提下减少了模型参数量。
[0070]
4.在vgg16模型训练过程中，采用dib法弥补传统损失函数的不足，以获取较为紧致的特征表达，减少泛化误差，改善模型的通用性和稳定性，实现复杂在线学习场景下的投入度精准识别。
附图说明
[0071]
图1为本发明的基于深度学习的学习投入识别方法流程框图。
[0072]
图2为数据增广示意图；
[0073]
图3为仿真模拟所用数据分布图；
[0074]
图4为本发明模型测试样本时产生的混淆矩阵图；
具体实施方式
[0075]
以下参照附图，对本发明的技术方案和效果做进一步详细描述。
[0076]
为实现上述目的，按照本发明的第一方面，提供了一种基于深度学习的在线学习投入度识别方法，包括yolov4进行迁移学习过程和改进的vgg16模型进行投入度识别过程，主要步骤分为：
[0077]
利用yolov4目标检测模型在学习投入数据库上进行迁移学习，用来进行学生人脸检测任务，具体包括设置网络参数、训练网络模型以及验证网络模型；
[0078]
使用改进的vgg16模型进行学习投入度识别任务，具体包括激活函数的设置、损失函数的设计、优化算法的选择以及相关参数的调整；
[0079]
为了保证图像不受无关背景的影响，本发明通过迁移yolov4网络结构模型，在学习投入数据库上进行训练，获取最佳模型，进行人脸检测。其次，利用改进的vgg16网络结构进行学习投入识别，该改进可以缓解原vgg16网络参数量庞大、训练耗时等问题。然后，在模型训练过程中，采用深度确定性信息瓶颈方法(deep deterministic information bottleneck,dib)弥补传统损失函数的不足，以获取较为紧致的特征表达，减少泛化误差，改善模型的通用性和稳定性。最后，利用训练得到的模型实现复杂在线学习场景下的学习投入精准识别。
[0080]
具体步骤包括：
[0081]
1.基于视频构建学习投入数据库；
[0082]
1)优选的，数据的采集应尽可能接近真实的学习环境设置，如可能出现的各种头部姿势、低面部分辨率、光照和遮挡等问题，且考虑空间和时间维度，为后面的算法模型训练奠定良好的数据库基础。
[0083]
2)优选的，从收集到的m个学生学习视频中抽取帧进行投入度标注，对每个视频片段按照每间隔a帧抽取一帧的规则进行抽取，从视频序列中抽取m张图片。
[0084]
3)进一步的，进行数据标记，将m张图片中的学生个体进行标记，目的在于将学生与环境分离，并赋予图片标签值，为m张图片中的学生个体分配投入度标签值b(b有c类)。
[0085]
2.在公开人脸检测数据集上训练得到yolov4预训练模型；
[0086]
3.在学习投入数据库上，通过训练集不断训练网络模型，验证集测试网络模型性能，最终通过多次迭代和调整网络参数获取到最优的yolov4检测模型；
[0087]
4.进一步的，将训练的最佳模型保存，用于后续投入度识别任务中的人脸检测。
[0088]
5.修改vgg16网络结构模型，减少参数量和训练过程中的内存损耗；
[0089]
1)优选的，将vgg16网路结构模型的第18层max pool替换为global pool，减少参数量。
[0090]
2)进一步的，将vgg16网路结构模型的第20
‑
21层full connet剔除，并将全连接层的节点数对应投入类别数目a；
[0091]
3)进一步的，在vgg16最后一层全连接层之前引入dropout策略，以增强模型的鲁棒性。
[0092]
5.利用改进的vgg16模型进行训练，调参获取最佳模型；
[0093]
1)优选的，在训练时增强模型泛化能力，采用数据增广方式，将训练数据集按照某种特定的变换规则，产生新的图像，具体包括：
[0094]
a)图像向左旋转20度；
[0095]
b)图像向右旋转20度；
[0096]
c)图像水平翻转；
[0097]
d)图像向左平移20个像素点；
[0098]
e)随机设置部分像素值为零；
[0099]
f)添加高斯噪声；
[0100]
g)添加高斯模糊；
[0101]
h)将每张图像每隔两行的像素点变成黑色的条带。
[0102]
2)优选的，改进的vgg16结构模型包括14个隐藏层(13个卷积层和1个全连接层)，所有隐藏层的激活单元都采用relu函数。选用relu型函数作为模型激活函数，relu的表达式f(x)以及其导数f’(x)的计算公式如下所示：
[0103]
f(x)＝max(0，x)
ꢀꢀꢀ
公式1
[0104][0105]
relu函数其实是分段线性函数，把所有的负值都变为0，而正值不变，这种操作被成为单侧抑制。正因为有了这单侧抑制，才使得神经网络中的神经元也具有了稀疏激活性。
[0106]
3)优选的，采用深度确定性信息瓶颈(deep deterministic information bottleneck,dib)作为vgg16模型的损失函数，弥补传统损失函数的不足，以获取较为紧致的特征表达，减少泛化误差，改善模型的通用性和稳定性。dib方法源于信息瓶颈理论，信息瓶颈理论的主要思想如下：
[0107]
在特征提取阶段，通过整合所有局部特征得到了全局特征，这可能带来与故障诊断任务无关的冗余信息，因此，希望利用信息瓶颈思想过滤这部分信息，从而提取最精炼的特征表示。信息瓶颈理论定义了一个最优的特征表示，即网络所学习到的输入数据的特征表示t应该与输入x之间的互信息(mutual information，mi)最小，同时与理想输出y的互信息最大。互信息利用熵来描述变量之间的非线性相关性。mi的值可以反映变量之间的相关
性强弱，mi值越大，说明相关性越强。两个变量之间的mi值可以定义为：
[0108]
i(y；t)＝h(y)
‑
h(y|t)
ꢀꢀꢀ
公式3
[0109]
其中，h(y)表示y的熵；h(y|t)表示给网络所学习到的输入数据的特征表示t的条件下，y和t的条件信息熵，由于h(y)是一个与神经网络无关的参数，因此由公式3可以得到：
[0110][0111]
进一步的，给定一个训练数据集d＝(x
i
，y
i
)
i＝1，...，n
(n为训练数据集中样本个数，x
i
为输入的图像集合，y
i
为在输入x
i
图像情况下的理想输出的分类结果集合)及其先验分布p(x
i
,y
i
)，从该分布中可以对训练集进行采样，条件概率pθ(t|x
i
)和pθ(y
i
|t)由θ进行参数化(θ表示网络参数，t∈t，t为网络所学习到的输入数据的特征表示)，e表示期望。然后，可以得到给网络所学习到的输入数据的特征表示t的条件下，y和t的条件信息熵：
[0112][0113]
进一步的，根据经验可以近似的得到平均交叉熵损失，即本发明提出的dib方法，其计算公式如下：
[0114][0115]
综上，dib方法可以解释为通过了加权可微互信息项i(y；t)而的经典交叉损失熵。
[0116]
6.利用训练好的检测模型和识别模型从学习视频中识别学习投入度。
[0117]
按照本发明的第二方面，提供了一种基于深度学习的学习投入度识别系统，包括如下模块：
[0118]
学习投入数据库构建模块，用于基于学习视频构建学习投入数据库；
[0119]
人脸检测模型构建模块，用于利用yolov4目标检测模型在学习投入数据库上进行迁移学习，用来进行学生人脸检测任务，并在公开人脸检测数据集上训练得到yolov4预训练模型；
[0120]
人脸检测模块，用于在学习投入数据库上，通过训练集不断训练网络模型，验证集测试网络模型性能，最终通过多次迭代和调整网络参数获取到最优的yolov4检测模型，并检测获得学习投入数据库上的人脸；
[0121]
学习投入度识别模型构建模块，用于修改vgg16网络结构模型，并利用改进的vgg16模型进行训练，调参获取最佳模型；
[0122]
最终识别模块，用于利用训练好的改进的vgg16模型从检测到的人脸中识别学习投入度。
[0123]
各模块的具体实现方式与各步骤相应，本发明不予撰述。
[0124]
参照图1，即本发明的基于深度学习的学习投入度识别方法流程框图，具体实施步骤如下：
[0125]
1)本发明通过pascal voc2007数据集得到预训练模型yolov4，通过迁移学习的方式，将其用于学习者人脸检测任务中。在学习投入数据库上，通过训练集不断训练网络模型，验证集测试网络模型性能，最终通过多次迭代和调整网络参数获取到了最优的检测模型，将模型保存，用于后续学习投入度识别任务的人脸检测中。
[0126]
2)本发明所涉及的vgg16模型在实际应用中，其参数比较多，训练时不仅耗时而且
耗费内存，且训练网络前，learning rate初始值需要设置的比较低，但又容易导致模型收敛速度慢。基于此，本发明提出了一种改进的vgg16进行学习投入度识别，改进策略如下：
[0127]
2a)首先将vgg16的三个全连接层丢弃两个，仅保留一个全连接层，并将全连接层的节点数对应学习投入度类别数目4，该操作可以显著减少网络模型的参数量，学习投入获取的特征信息也能较好保留。
[0128]
2b)其次用一个全局池化层替代网络最后的最大池化层，再次减少参数量。
[0129]
2c)针对学习投入数据库容量不大，模型训练易产生过拟合问题，除了对数据进行增广操作，本发明在vgg16最后一层全连接层之前引入dropout策略，以增强模型的鲁棒性。
[0130]
vgg16和本发明的网络结构及参数对比如表1所示，改进模型因剔除掉了两层全连接层，且网络中最后一个池化层变成了全局池化层，参数量大幅减少，只有改进前的11％。因此本发明所采用的改进的vgg16模型可以有效减少内存空间占用。
[0131]
表1 vgg16和myvgg16网络结构及参数量对比
[0132][0133]
3)根据增广原理及数据库的特点，本文主要采用了以下方法进行图像增广：
[0134]
3a)图像向左旋转20度；
[0135]
3b)图像向右旋转20度；
[0136]
3c)图像水平翻转；
[0137]
3d)图像向左平移20个像素点；
[0138]
3e)随机设置部分像素值为零；
[0139]
3f)添加高斯噪声；
[0140]
3g)高斯模糊；
[0141]
3h)自定义一些变换函数，将每张图像每隔两行的像素点变成黑色的条带，关键点保留。
[0142]
图2为随机选取的一张图像通过以上8种方式增广后的情况，通过此种方式扩大样本容量。
[0143]
本发明的效果可以用下列的仿真实验进一步说明：
[0144]
(1)仿真条件
[0145]
本发明的仿真的硬件条件为：windows 10，intel xeon e5
‑
2620处理器、nvidia geforce gtx 1080ti x2；软件平台为：pycharm；
[0146]
仿真选用的图片来源于自然场景中收集的50名在校大学生在线学习投入度数据，得到了50位学习者的学习视频数据共计73个，经过裁剪标注，获得四个类别的学生投入度数据，每一类的标记样本数目如图3所示。
[0147]
仿真方法分别用本发明方法和现有深度学习方法：goolenet、resnet18、xception和vgg16(未修改前)以及传统机器学习方法：sift、hog、hog sift。
[0148]
(2)仿真内容及结果
[0149]
图4显示出本发明方法保存训练好的模型后随机抽取测试样本获得的混淆矩阵。水平轴表示实际的测试集类别，垂直轴表示预测结果。不难看出，disengagement、lowengagement、highengagement的识别率最高，准确率达到98％以上，mediumengagement最低。通过分析，发现类间的相似性和类内的差异性会影响识别的准确性。
[0150]
表2多种深度学习识别效果比较
[0151][0152]
表3与传统机器方法识别效果比较
[0153][0154][0155]
通过表2和表3我们可以发现，基于传统机器学习算法的识别结果都低于深度学习方法，但hog与sift特征间的融合的识别结果高于这两者单独的识别效果。主要原因在于单一的学习投入特征具有表征能力不足的问题。相反，深度学习的学习能力很强，提取的特征抽象层次更高，更具有泛化性。因此对于学习投入度识别研究，我们更推荐采用深度学习的方式。本发明提出的方法在与其他几个深度学习方法相比，识别结果是最好的。再次证明本发明的有效性。
[0156]
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种基于深度学习的在线学习投入度识别方法及系统与流程

相关文献

最热文献