学习状态识别方法、装置、设备及存储介质与流程

2023-01-15 07:57:56 来源：中国专利 TAG：

1.本发明涉及计算机技术领域，尤其涉及一种学习状态识别方法、装置、设备及存储介质。

背景技术：

2.随着科学技术的不断发展，随着移动互联网的发展和智能终端的普及，线上学习慢慢成为一种大众化的学习方式，学生可以足不出户进行学习，不需要到特定地点上课，通过电子设备与互联网进行学习即可。但由于不受地理、时间的约束，学生可自行选择学习的时间及地点，导致家长、老师等无法实时关注用户的学习状态，无法保证学生的学习效果。因此，如何通过对学习视频进行识别检测，以确定学生的学习状态，保证学生的学习效果，成为了亟需解决的技术问题。

技术实现要素：

3.本发明的主要目的是通过用户的学习视频进行识别检测，能够准确检测用户学习状态，提高用户的学习效率。
4.本发明第一方面提供了一种学习状态识别方法，包括：采集预设场景的实时视频图像，并将所述实时视频图像输入预设人脸识别模型，得到人脸识别结果；根据所述人脸识别结果，确定所述实时视频图像中目标对象的区域范围；根据所述目标对象的区域范围，从所述实时视频图像中提取所述目标对象对应的肢体图像和面部图像；分别对所述肢体图像和所述面部图像进行分类，得到所述肢体图像和所述面部图像的图像类型；根据所述图像类型，分别调用与所述图片类型对应的行为分析模型，通过所述行为分析模型对所述肢体图像和所述面部图像进行行为分析，得到行为分析结果，并根据所述行为分析结果确定所述目标对象的学习状态识别结果。
5.可选地，在本发明第一方面的第一种实现方式中，在所述采集预设场景的实时视频图像，并将所述实时视频图像输入预设人脸识别模型，得到人脸识别结果之前，还包括：采集预设场景的视频数据，并从所述视频数据中提取预设时间段的历史视频图像；对所述历史视频图像进行识别，得到每一帧所述历史视频图像中的目标对象的行为特征数据；根据所述目标对象的行为特征数据，计算所述目标对象的学习状态数据；将所述学习状态数据作为训练样本数据，并将所述训练样本数据输入至预设的神经网络模型进行训练，以得到行为分析模型。
6.可选地，在本发明第一方面的第二种实现方式中，所述根据所述目标对象的行为特征数据，计算所述目标对象的学习状态数据，包括：根据每一帧所述目标对象的行为特征数据，确定所述目标对象的头部位置和面部区域，并根据所述面部区域计算所述目标对象的人脸面积；根据所述目标对象的人脸面积和所述目标对象的五官位置，计算五官分布的偏离程度；基于所述五官分布的偏离程度，计算所述目标对象的学习状态数据。
7.可选地，在本发明第一方面的第三种实现方式中，所述的预设的神经网络模型包
括输入层、特征提取层、隐藏层、池化层和输出层，所述将所述训练样本数据输入至预设的神经网络模型进行训练，以得到行为分析模型，包括：将所述训练样本数据通过所述输入层输入预设的神经网络模型，并基于所述神经网络模型的特征提取层对所述训练样本数据进行特征提取，得到第一训练特征；将所述第一训练特征输入所述隐藏层，得到与所述第一训练特征对应的第二训练特征；基于所述池化层对所述第二训练特征进行特征降维，得到第三训练特征；基于所述第三训练特征进行分类，并通过所述输出层输出分类结果；基于所述分类结果，对所述神经网络模型的参数进行调整，直至所述神经网络模型收敛，得到行为分析模型。
8.可选地，在本发明第一方面的第四种实现方式中，所述通过所述行为分析模型对所述肢体图像和所述面部图像进行行为分析，得到所述目标对象的学习状态识别结果，包括：分别对所述目标对象对应的肢体图像和面部图像进行特征提取，得到所述目标对象的肢体动作特征向量和所述目标对象的表情特征数据向量；将所述肢体动作特征向量和所述表情特征数据向量进行特征融合，得到目标特征图；通过所述行为分析模型对所述目标特征图进行行为分析，得到所述目标对象的学习状态识别结果。
9.可选地，在本发明第一方面的第五种实现方式中，所述通过所述行为分析模型对所述肢体图像和所述面部图像进行行为分析，得到所述目标对象的学习状态识别结果，还包括：通过所述行为分析模型，对所述目标对象的面部图像进行情绪识别，得到所述目标对象的情绪识别结果；通过所述行为分析模型，对所述目标对象的肢体图像进行动作识别，得到所述目标对象的姿态识别结果；根据所述目标对象的情绪识别结果和所述目标对象的姿态识别结果，确定所述目标对象的学习状态识别结果。
10.可选地，在本发明第一方面的第六种实现方式中，在所述通过所述行为分析模型对所述肢体图像和所述面部图像进行行为分析，得到所述目标对象的学习状态识别结果后，还包括：若所述目标对象的学习状态识别结果异常，则触发提醒信息至预设终端，并生成状态识别报告；根据所述状态识别报告对所述目标对象进行提醒。
11.本发明第二方面提供了一种学习状态识别装置，包括：输入模块，用于采集预设场景的实时视频图像，并将所述实时视频图像输入预设人脸识别模型，得到人脸识别结果；
12.确定模块，用于根据所述人脸识别结果，确定所述实时视频图像中目标对象的区域范围；
13.第一提取模块，用于根据所述目标对象的区域范围，从所述实时视频图像中提取所述目标对象对应的肢体图像和面部图像；
14.分类模块，用于分别对所述肢体图像和所述面部图像进行分类，得到所述肢体图像和所述面部图像的图像类型；
15.分析模块，用于根据所述图像类型，分别调用与所述图片类型对应的行为分析模型，通过所述行为分析模型对所述肢体图像和所述面部图像进行行为分析，得到所述目标对象的学习状态识别结果。
16.可选地，在本发明第二方面的第一种实现方式中，所述学习状态识别装置还包括：第二提取模块，用于采集预设场景的视频数据，并从所述视频数据中提取预设时间段的历史视频图像；识别模块，用于对所述历史视频图像进行识别，得到每一帧所述历史视频图像中的目标对象的行为特征数据；计算模块，用于根据所述目标对象的行为特征数据，计算所
述目标对象的学习状态数据；训练模块，用于将所述学习状态数据作为训练样本数据，并将所述训练样本数据输入至预设的神经网络模型进行训练，以得到行为分析模型。
17.可选地，在本发明第二方面的第二种实现方式中，所述计算模块包括：确定单元，用于根据每一帧所述目标对象的行为特征数据，确定所述目标对象的头部位置和面部区域，并根据所述面部区域计算所述目标对象的人脸面积；计算单元，用于根据所述目标对象的人脸面积和所述目标对象的五官位置，计算五官分布的偏离程度；基于所述五官分布的偏离程度，计算所述目标对象的学习状态数据。
18.可选地，在本发明第二方面的第三种实现方式中，所述训练模块具体用于：将所述训练样本数据通过所述输入层输入预设的神经网络模型，并基于所述神经网络模型的特征提取层对所述训练样本数据进行特征提取，得到第一训练特征；将所述第一训练特征输入所述隐藏层，得到与所述第一训练特征对应的第二训练特征；基于所述池化层对所述第二训练特征进行特征降维，得到第三训练特征；基于所述第三训练特征进行分类，并通过所述输出层输出分类结果；基于所述分类结果，对所述神经网络模型的参数进行调整，直至所述神经网络模型收敛，得到行为分析模型。
19.可选地，在本发明第二方面的第四种实现方式中，所述分析模块具体用于：分别对所述目标对象对应的肢体图像和面部图像进行特征提取，得到所述目标对象的肢体动作特征向量和所述目标对象的表情特征数据向量；将所述肢体动作特征向量和所述表情特征数据向量进行特征融合，得到目标特征图；通过所述行为分析模型对所述目标特征图进行行为分析，得到所述目标对象的学习状态识别结果。
20.可选地，在本发明第二方面的第五种实现方式中，所述分析模块具体还用于：通过所述行为分析模型，对所述目标对象的面部图像进行情绪识别，得到所述目标对象的情绪识别结果；通过所述行为分析模型，对所述目标对象的肢体图像进行动作识别，得到所述目标对象的姿态识别结果；根据所述目标对象的情绪识别结果和所述目标对象的姿态识别结果，确定所述目标对象的学习状态识别结果。
21.可选地，在本发明第二方面的第六种实现方式中，所述学习状态识别装置还包括：生成模块，用于若所述目标对象的学习状态识别结果异常，则触发提醒信息至预设终端，并生成状态识别报告；提醒模块，用于根据所述状态识别报告对所述目标对象进行提醒。
22.本发明第三方面提供了一种学习状态识别设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；
23.所述至少一个处理器调用所述存储器中的所述指令，以使得所述学习状态识别设备执行上述的学习状态识别方法的各个步骤。
24.本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的学习状态识别方法的各个步骤。
25.本发明提供的技术方案中，通过从采集的实时视频流提取至少两帧包含目标对象的实时视频图像，并将实时视频图像输入人脸识别模型输出人脸识别结果；根据人脸识别结果，确定实时视频图像中目标对象的区域范围；根据目标对象的区域范围，从实时视频图像中提取目标对象对应的肢体图像和面部图像；将肢体图像和面部图像输入预设行为分析模型，通过行为分析模型对肢体图像和面部图像进行分析识别，得到目标对象的学习状态
识别结果。能够准确检测用户学习状态，提高用户的学习效率。
附图说明
26.图1为本发明提供的学习状态识别方法的第一个实施例示意图；
27.图2为本发明提供的学习状态识别方法的第二个实施例示意图；
28.图3为本发明提供的学习状态识别方法的第三个实施例示意图；
29.图4为本发明提供的学习状态识别装置的第一个实施例示意图；
30.图5为本发明提供的学习状态识别装置的第二个实施例示意图；
31.图6为本发明提供的学习状态识别设备的一个实施例示意图。
具体实施方式
32.本发明实施例提供了一种学习状态识别方法、装置、设备及存储介质，本发明的技术方案中，首先通过从采集的实时视频流提取至少两帧包含目标对象的实时视频图像，并将实时视频图像输入人脸识别模型输出人脸识别结果；根据人脸识别结果，确定实时视频图像中目标对象的区域范围；根据目标对象的区域范围，从实时视频图像中提取目标对象对应的肢体图像和面部图像；将肢体图像和面部图像输入预设行为分析模型，通过行为分析模型对肢体图像和面部图像进行分析识别，得到目标对象的学习状态识别结果。能够准确检测用户学习状态，提高用户的学习效率。
33.本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
34.为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中学习状态识别方法的第一个实施例包括：
35.101、采集预设场景的实时视频图像，并将实时视频图像输入预设人脸识别模型，得到人脸识别结果；
36.本实施例中，通过实施抓拍的方式，获得当前场景中包含有目标对象的实时视频图像，实时视频图像中包含有目标对象。然后将实时视频图像输入人脸识别模型中。所述人脸识别模型能够通过人脸，手脚等人体部位将实时视频图像中的目标对象识别出来，得到得到实时视频图像中各目标对象的区域范围。
37.102、根据人脸识别结果，确定实时视频图像中目标对象的区域范围；
38.本实施例中，根据人脸识别结果，确定实时视频图像中目标对象的区域范围。具体地，人脸识别模型能够通过人脸，手脚等人体部位将实时视频图像中的目标对象识别出来，得到得到实时视频图像中各目标对象的区域范围。
39.103、根据目标对象的区域范围，从实时视频图像中提取目标对象对应的肢体图像和面部图像；
40.本实施例中，根据实时视频图像中各目标对象的区域范围，从实时视频图像中提取各目标对象对应的办公图像，并确定办公图像的图像类型，图像类型包括包含目标对象面部的面部图像，包含目标对象手部的手部图像和目标对象的全身图像(身体姿势图像)。
41.104、分别对肢体图像和面部图像进行分类，得到肢体图像和面部图像的图像类型；
42.本实施例中，分别对肢体图像和面部图像进行分类，当图像类型为面部图像时，从预置模型库中调用人脸识别模型。其中，人脸识别模型(faced)为睡觉行为和吸烟行为提供识别结果数据，分为17层卷积层，1层池化层及2个全连接层。
43.105、将肢体图像和面部图像输入预设行为分析模型，通过行为分析模型对肢体图像和面部图像进行分析识别，得到目标对象的学习状态识别结果。
44.本实施例中，当图像类型为面部图像时，从预置模型库中调用人脸识别模型。其中，人脸识别模型(faced)为睡觉行为和吸烟行为提供识别结果数据，分为17层卷积层，1层池化层及2个全连接层。
45.此行为分析结果将能够应用于“手机游戏”和“睡觉行为”，比如，对“睡觉行为”，算法将首先识别手部姿势，常见的睡眠姿势可能为趴桌，模型将按照手部摆放姿势与睡眠姿势进行匹配并返还置信度数值；随后，将对人脸识别模型对睡觉行为的姿势进行匹配，若手部识别置信度达到阈值，则模型将未识别到面部进行赋值(趴桌睡姿一般识别不到面部)，对两者标注的最终结果进行加权，得出睡觉行为是否发生的判断。
46.对“手机游戏”，行为，算法将对肢体图像识别的结果进行检测，尝试归类为某种手机使用行为，再根据面部及手部的相对距离进行归类，根据面部手部的相对位置，对判断值进行加权，最后返还判断手机游戏行为的结果。随后，针对“违规抽烟”这个检测目标，我们将面部边界框的参数进行调整，使边界框下移δv将宽度增加参数δh，确保bounding box能在不同场景中更有效地覆盖香烟的重点出现部位(下巴及嘴唇部位)。根据识别结果确定目标对象的学习状态。
47.本发明实施例中，通过从采集的实时视频流提取至少两帧包含目标对象的实时视频图像，并将实时视频图像输入人脸识别模型输出人脸识别结果；根据人脸识别结果，确定实时视频图像中目标对象的区域范围；根据目标对象的区域范围，从实时视频图像中提取目标对象对应的肢体图像和面部图像；将肢体图像和面部图像输入预设行为分析模型，通过行为分析模型对肢体图像和面部图像进行分析识别，得到目标对象的学习状态识别结果。能够准确检测用户学习状态，提高用户的学习效率。
48.请参阅图2，本发明实施例中学习状态识别方法的第二个实施例包括：
49.201、采集预设场景的视频数据，并从视频数据中提取预设时间段的历史视频图像；
50.本实施例中，采集预设场景的视频数据，并从视频数据中提取预设时间段的历史视频图像。具体地，电子设备可预先设定上课时间段，在预先设定的上课时间段内，通过摄像头采集历史视频图像。举例进行说明，电子设备中可以预先设定上课时间段为早上8点到10点，则在该上课时间段内电子设备可通过摄像头采集历史视频图像。可选地，该上课时间段可以是目标对象手动根据实际需求输入的时间段，目标对象也可将课程表导入电子设备，电子设备对目标对象的课程表进行识别，并确定每天的上课时间段，更加方便快捷。
51.在另一个实施例中，电子设备也可以实时对运行的应用进行监测，在检测到学习类的应用程序启动运行时，可说明目标对象准确进行线上学习，则可通过摄像头采集历史视频图像。进一步地，电子设备在检测到应用程序启动时，可获取启动的应用程序的应用标识，并根据该应用标识获取应用类型，该应用标识可包括但不限于应用的编号、应用名称、版本号等，应用类型可包括但不限于娱乐应用、学习应用、社交应用等。应用标识与应用类型之间的对应关系可预先存储在电子设备中，电子设备可基于该对应关系获取启动的应用程序的应用类型。若启动的应用程序的应用类型为学习应用，则可通过摄像头采集历史视频图像。
52.202、对历史视频图像进行识别，得到每一帧历史视频图像中的目标对象的行为特征数据；
53.本实施例中，对历史视频图像进行识别，得到每一帧历史视频图像中的目标对象的行为特征数据。其中，对历史视频图像进行识别的方式可包括：对每一帧历史视频图像进行图像识别，提取每一帧历史视频图像中的特征点，并对属于全身及面部的特征点进行标记，从而得到一帧历史视频图像对应的动作特征数据和表情特征数据。例如，可对属于头部轮廓、人脸轮廓、五官轮廓的特征点进行标记等。
54.其中，动作特征数据是在每一帧历史视频图像中提取出的关于肢体信息的图像特征，包括目标对象的肢体位置、肢体动作、肢体形状等特征。表情特征数据是在每一帧历史视频图像中提取出的关于面部表情的图像特征，脸部特征可包括人脸区域、五官位置、五官大小等特征。
55.203、根据每一帧目标对象的行为特征数据，确定目标对象的头部位置和面部区域，并根据面部区域计算目标对象的人脸面积；
56.本实施例中，根据每一帧目标对象的行为特征数据，确定目标对象的头部位置和面部区域，并根据面部区域计算目标对象的人脸面积。具体的，人脸面积可指的是识别出的人脸图像区域占历史视频图像中的图像面积大小，五官分布的偏离程度可指的是从待识别历史视频图像中确定的五官分布位置相对标准历史视频图像中五官位置的偏离位置、偏离方向等，该标准历史视频图像指的是目标对象人脸正对摄像头时采集的图像。
57.204、根据目标对象的人脸面积和目标对象的五官位置，计算五官分布的偏离程度；
58.本实施例中，根据目标对象的人脸面积和目标对象的五官位置，计算五官分布的偏离程度。具体地，在一些实施例中，根据每一帧待识别历史视频图像对应的动作特征数据和表情特征数据，计算得到目标对象的面部信息，可包括：根据每一帧待识别历史视频图像中对应的目标对象头部位置和人脸区域，计算目标对象人脸面积；根据每一帧待识别历史视频图像中对应的目标对象人脸区域和五官位置，计算五官分布的偏离程度。
59.205、基于五官分布的偏离程度，计算目标对象的学习状态数据；
60.本实施例中，基于五官分布的偏离程度，计算目标对象的学习状态数据。具体地，目标对象学习状态可包括但不限于精神不集中状态、疲劳状态、未在设备前学习状态以及正常学习状态。其中，精神不集中状态指的是目标对象不专心学习、张望别处或专注于其它事情的状态；疲劳状态指的是目标对象打瞌睡、精神疲倦或睡眠状态；未在设备前学习状态指的是目标对象未在电子设备前进行学习的状态；正常学习状态指的是目标对象专心学习
的状态。
61.可根据目标对象人脸面积及五官分布的偏离程度，确定目标对象学习状态。例如，在人脸面积较小且五官分布的偏离程度较大时，可确定目标对象学习状态为精神不集中状态，在五官分布的偏离程度较小时，可确定目标对象学习状态为正常学习状态，但不限于此。
62.206、将训练样本数据通过输入层输入预设的神经网络模型，并基于神经网络模型的特征提取层对训练样本数据进行特征提取，得到第一训练特征；
63.本实施例中，将训练样本数据通过输入层输入预设的神经网络模型，并基于神经网络模型的特征提取层对训练样本数据进行特征提取，得到第一训练特征。其中，将训练数据通过神经网络的输入层进行输入，然后输入的训练数据到达特征提取层后，由特征提取层对训练数据进行特征提取，得到第一训练特征。
64.207、将第一训练特征输入隐藏层，得到与第一训练特征对应的第二训练特征；
65.本实施例中，将第一训练特征输入隐藏层，得到与第一训练特征对应的第二训练特征。具体地，该第一训练特征被输入神经网络的隐藏层，其中，隐藏层可以是一个rnn网络，通过隐藏层得到输入的训练数据的高维特征，也即第二训练特征。
66.208、基于池化层对第二训练特征进行特征降维，得到第三训练特征；
67.本实施例中，基于池化层对第二训练特征进行特征降维，得到第三训练特征。具体地，然后通过池化层对第二训练特征进行降维，将高维特征映射到低维度，得到第三训练特征。以客服系统为例，训练样本数据为历史客服过程中的录音音频。由于真实产生的业务数据中的负面情绪音频数量的占比极少，因此，需要对训练样本数据进行处理来缩减训练样本数据中的数据比例。
68.训练样本数据中包括正面情绪音频和负面情绪音频，正面情绪音频是指说话人的情绪为正面的，例如，高兴、振奋、感激等，而负面情绪音频是指说话人的情绪为负面的，例如，不满、愤懑、愤怒等。
69.对正面情绪音频和负面情绪音频进行特征提取，具体是指从正面情绪音频和负面情绪音频中提取出语音特征。其中，语音特征可以包括基频、基频对应的特征值、音强、音强对应的特征值、频谱以及频谱对应的特征值。
70.209、基于第三训练特征进行分类，并通过输出层输出分类结果；
71.本实施例中，基于第三训练特征进行分类，并通过输出层输出分类结果。具体地，根据第三训练特征进行二分类，并通过输出层输出分类结果。根据分类结果和训练数据中音频的情绪类型来计算预设的神经网络的损失函数，并对神经网络的参数进行迭代更新，直至损失函数的值达到预设值，认为神经网络收敛，将训练的神经网络作为情绪识别模型，完成模型训练。
72.210、基于分类结果，对神经网络模型的参数进行调整，直至神经网络模型收敛，得到行为分析模型；
73.本实施例中，基于分类结果，对神经网络模型的参数进行调整，直至神经网络模型收敛，得到行为分析模型。其中，将过滤后的训练样本数据和新增负面情绪音频共同作为训练数据，来对预设的神经网络进行模型训练，当预设的神经网络被训练至收敛时，将收敛的神经网络作为情绪识别模型。
74.通过对训练样本数据中的正面情绪音频进行过滤，以及对负面情绪音频的数据增强，缩减了训练数据中正面情绪音频和负面情绪音频的比例，使在基于真实的业务数据来进行模型训练时，能够解决模型训练过程中的正面情绪音频和负面情绪音频的数据不平衡问题，提高训练得到的情绪识别模型对于负面情绪音频的识别准确率。
75.211、采集预设场景的实时视频图像，并将实时视频图像输入预设人脸识别模型，得到人脸识别结果；
76.212、根据人脸识别结果，确定实时视频图像中目标对象的区域范围；
77.213、根据目标对象的区域范围，从实时视频图像中提取目标对象对应的肢体图像和面部图像；
78.214、分别对肢体图像和面部图像进行分类，得到肢体图像和面部图像的图像类型；
79.215、根据图像类型，分别调用与图片类型对应的行为分析模型，通过行为分析模型对肢体图像和面部图像进行行为分析，得到目标对象的学习状态识别结果。
80.本实施例中步骤211-215与第一实施例中的步骤101-105类似，此处不再赘述。
81.本发明实施例中，通过从采集的实时视频流提取至少两帧包含目标对象的实时视频图像，并将实时视频图像输入人脸识别模型输出人脸识别结果；根据人脸识别结果，确定实时视频图像中目标对象的区域范围；根据目标对象的区域范围，从实时视频图像中提取目标对象对应的肢体图像和面部图像；将肢体图像和面部图像输入预设行为分析模型，通过行为分析模型对肢体图像和面部图像进行分析识别，得到目标对象的学习状态识别结果。能够准确检测用户学习状态，提高用户的学习效率。
82.请参阅图3，本发明实施例中学习状态识别方法的第三个实施例包括：
83.301、采集预设场景的实时视频图像，并将实时视频图像输入预设人脸识别模型，得到人脸识别结果；
84.302、根据人脸识别结果，确定实时视频图像中目标对象的区域范围；
85.303、根据目标对象的区域范围，从实时视频图像中提取目标对象对应的肢体图像和面部图像；
86.304、分别对肢体图像和面部图像进行分类，得到肢体图像和面部图像的图像类型；
87.305、分别对目标对象对应的肢体图像和面部图像进行特征提取，得到目标对象的肢体动作特征向量和目标对象的表情特征数据向量；
88.本实施例中，分别对目标对象对应的肢体图像和面部图像进行特征提取，得到目标对象的肢体动作特征向量和目标对象的表情特征数据向量。
89.具体地，在机器学习、模式识别和图像处理中，特征提取从初始的一组测量数据开始，并建立旨在提供信息和非冗余的派生值(特征)，从而促进后续的学习和泛化步骤，并且在某些情况下带来更好的可解释性。特征提取与降维有关。特征的好坏对泛化能力有至关重要的影响。
90.306、将肢体动作特征向量和表情特征数据向量进行特征融合，得到目标特征图；
91.本实施例中，将肢体动作特征向量和表情特征数据向量进行特征融合，得到目标特征图。具体地，在当前的特征融合层处，对来自不同特征提取层的不同尺度的特征进行融
合，将所有尺度的特征对应的卷积图通过下采样或上采样操作缩放到相同大小；将来自各个特征提取层的不同尺度的特征的卷积图分别送往一个轻量级卷积分支；将不同卷积分支的结果在任意像素位置处的数值，作为当前特征融合层的卷积图像素位置处各个尺度的特征的权重系数，得到目标特征图。
92.307、通过行为分析模型对目标特征图进行分析识别，得到目标对象的学习状态识别结果；
93.本实施例中，通过行为分析模型对目标特征图进行分析识别，得到目标对象的学习状态识别结果。具体地，行为分析模型对目标特征图进行识别处理时，就可以得到图像识别结果，即该图像帧属于每种预设困惑表情类型的概率。在得到图像识别结果之后，就可以根据该图像识别结果确定目标对象的学习状态。
94.308、通过行为分析模型，对目标对象的面部图像进行情绪识别，得到目标对象的情绪识别结果；
95.本实施例中，通过行为分析模型，对目标对象的面部图像进行情绪识别，得到目标对象的情绪识别结果。具体地，行为分析模型为用于进行表情检查的神经网络模型，该行为分析模型的输入可以为目标对象的面部图像，该行为分析模型的输出可以为输入图像的情绪识别结果，例如，可以为该图像中人脸的表情属于多种预设表情(例如，预设困惑表情类型)的概率等数据。
96.309、通过行为分析模型，对目标对象的肢体图像进行动作识别，得到目标对象的姿态识别结果；
97.本实施例中，通过行为分析模型，对目标对象的肢体图像进行动作识别，得到目标对象的姿态识别结果。具体地，除了上述所描述的通过情绪识别的方式来确定目标对象的学习状态是否为困惑状态之外，还可以采用动作识别的方式来确定目标对象的学习状态。行为分析模型的输入数据为学习视频中的目标对象的肢体图像，行为分析模型的输出数据为目标对象的动作识别结果。
98.行为分析模型的动作识别过程包括：提取目标对象的肢体图像中目标对象的身体轮廓的特征点的位置信息，将该位置信息与预设困惑姿势的特征点的位置信息进行比对，从而确定目标对象的学习状态(即，目标对象的学习姿势)。其中，在一些可能的实施方式中，预设困惑姿势可包括：挠头、摇头、扶额、举手、捂脸等等任意能够表征人处于困惑状态的姿态，对此不做列举。
99.310、根据目标对象的情绪识别结果和目标对象的姿态识别结果，确定目标对象的学习状态识别结果；
100.本实施例中，根据目标对象的情绪识别结果和目标对象的姿态识别结果，确定目标对象的学习状态识别结果。具体地，可以预先设置多种困惑表情类型(即，预设困惑表情类型)，当行为分析模型对学习视频中的图像帧进行识别处理时，就可以得到图像识别结果，即该图像帧属于每种预设困惑表情类型的概率。在得到图像识别结果之后，就可以根据该图像识别结果确定目标对象的学习状态。
101.例如，预设困惑表情类型包括：预设困惑表情类型a1、预设困惑表情类型a2、预设困惑表情类型a3。在通过行为分析模型对学习视频中的图像帧进行识别处理之后，可以得到图像帧所属于预设困惑表情类型a1至a3的概率p1、p2和p3。之后，就可以根据概率p1、p2
和p3确定目标对象的学习状态。例如，可以设定阈值c1，若概率p1、p2和p3中包含大于阈值c1的概率，则确定目标对象的学习状态为困惑状态。
102.311、若目标对象的学习状态识别结果异常，则触发提醒信息至预设终端，并生成状态识别报告；
103.本实施例中，若目标对象的学习状态识别结果异常，则触发提醒信息至预设终端，并生成状态识别报告。具体地，在管理人员的端口中，如果显示未检测到睡觉/玩手机等非学习行为且显示绿色框，则表示目标对象无学习异常行为。如果对象显示红色框，则表示检测到学习异常行为，框外会对该学习异常行为进行标注，可以是一种也可以是多种，并触发提醒信息至预设终端，生成状态识别报告。
104.312、根据状态识别报告对目标对象进行提醒。
105.本实施例中，根据状态识别报告对目标对象进行提醒。具体地，系统检测到学习异常行为后将触发警告提示框并标注该目标对象，提示管理人员进行提醒管理。并且，因所有预设场景的设备皆属于边缘计算设备的一部分，系统可以直接在检测到学习异常行为的教室的设备上弹出提示，现场规范该目标对象的行为。
106.本实施例中步骤301-304与第一实施例中的步骤101-104类似，此处不再赘述。
107.本发明实施例中，通过从采集的实时视频流提取至少两帧包含目标对象的实时视频图像，并将实时视频图像输入人脸识别模型输出人脸识别结果；根据人脸识别结果，确定实时视频图像中目标对象的区域范围；根据目标对象的区域范围，从实时视频图像中提取目标对象对应的肢体图像和面部图像；将肢体图像和面部图像输入预设行为分析模型，通过行为分析模型对肢体图像和面部图像进行分析识别，得到目标对象的学习状态识别结果。能够准确检测用户学习状态，提高用户的学习效率。
108.上面对本发明实施例中学习状态识别方法进行了描述，下面对本发明实施例中学习状态识别装置进行描述，请参阅图4，本发明实施例中学习状态识别装置的第一个实施例包括：
109.输入模块401，用于采集预设场景的实时视频图像，并将所述实时视频图像输入预设人脸识别模型，得到人脸识别结果；
110.确定模块402，用于根据所述人脸识别结果，确定所述实时视频图像中目标对象的区域范围；
111.第一提取模块403，用于根据所述目标对象的区域范围，从所述实时视频图像中提取所述目标对象对应的肢体图像和面部图像；
112.分类模块404，用于分别对所述肢体图像和所述面部图像进行分类，得到所述肢体图像和所述面部图像的图像类型；
113.分析模块405，用于根据所述图像类型，分别调用与所述图片类型对应的行为分析模型，通过所述行为分析模型对所述肢体图像和所述面部图像进行行为分析，得到所述目标对象的学习状态识别结果。
114.本发明实施例中，通过从采集的实时视频流提取至少两帧包含目标对象的实时视频图像，并将实时视频图像输入人脸识别模型输出人脸识别结果；根据人脸识别结果，确定实时视频图像中目标对象的区域范围；根据目标对象的区域范围，从实时视频图像中提取目标对象对应的肢体图像和面部图像；将肢体图像和面部图像输入预设行为分析模型，通
过行为分析模型对肢体图像和面部图像进行分析识别，得到目标对象的学习状态识别结果。能够准确检测用户学习状态，提高用户的学习效率。
115.请参阅图5，本发明实施例中学习状态识别装置的第二个实施例，该学习状态识别装置具体包括：
116.输入模块401，用于采集预设场景的实时视频图像，并将所述实时视频图像输入预设人脸识别模型，得到人脸识别结果；
117.确定模块402，用于根据所述人脸识别结果，确定所述实时视频图像中目标对象的区域范围；
118.第一提取模块403，用于根据所述目标对象的区域范围，从所述实时视频图像中提取所述目标对象对应的肢体图像和面部图像；
119.分类模块404，用于分别对所述肢体图像和所述面部图像进行分类，得到所述肢体图像和所述面部图像的图像类型；
120.分析模块405，用于根据所述图像类型，分别调用与所述图片类型对应的行为分析模型，通过所述行为分析模型对所述肢体图像和所述面部图像进行行为分析，得到所述目标对象的学习状态识别结果。
121.本实施例中，所述学习状态识别装置还包括：
122.提取模块406，用于采集预设场景的视频数据，并从所述视频数据中提取预设时间段的历史视频图像；
123.识别模块407，用于对所述历史视频图像进行识别，得到每一帧所述历史视频图像中的目标对象的行为特征数据；
124.计算模块408，用于根据所述目标对象的行为特征数据，计算所述目标对象的学习状态数据；
125.训练模块409，用于将所述学习状态数据作为训练样本数据，并将所述训练样本数据输入至预设的神经网络模型进行训练，以得到行为分析模型。
126.本实施例中，所述计算模块408包括：
127.确定单元4081，用于根据每一帧所述目标对象的行为特征数据，确定所述目标对象的头部位置和面部区域，并根据所述面部区域计算所述目标对象的人脸面积；
128.计算单元4082，用于根据所述目标对象的人脸面积和所述目标对象的五官位置，计算五官分布的偏离程度；基于所述五官分布的偏离程度，计算所述目标对象的学习状态数据。
129.本实施例中，所述训练模块409具体用于：
130.将所述训练样本数据通过所述输入层输入预设的神经网络模型，并基于所述神经网络模型的特征提取层对所述训练样本数据进行特征提取，得到第一训练特征；
131.将所述第一训练特征输入所述隐藏层，得到与所述第一训练特征对应的第二训练特征；
132.基于所述池化层对所述第二训练特征进行特征降维，得到第三训练特征；
133.基于所述第三训练特征进行分类，并通过所述输出层输出分类结果；
134.基于所述分类结果，对所述神经网络模型的参数进行调整，直至所述神经网络模型收敛，得到行为分析模型。
135.本实施例中，所述识别模块407具体用于：
136.分别对所述目标对象对应的肢体图像和面部图像进行特征提取，得到所述目标对象的肢体动作特征向量和所述目标对象的表情特征数据向量；
137.将所述肢体动作特征向量和所述表情特征数据向量进行特征融合，得到目标特征图；
138.通过所述行为分析模型对所述目标特征图进行行为分析，得到所述目标对象的学习状态识别结果。
139.本实施例中，所述识别模块407具体还用于：
140.通过所述行为分析模型，对所述目标对象的面部图像进行情绪识别，得到所述目标对象的情绪识别结果；
141.通过所述行为分析模型，对所述目标对象的肢体图像进行动作识别，得到所述目标对象的姿态识别结果；
142.根据所述目标对象的情绪识别结果和所述目标对象的姿态识别结果，确定所述目标对象的学习状态识别结果。
143.本实施例中，所述学习状态识别装置还包括：
144.生成模块410，用于若所述目标对象的学习状态识别结果异常，则触发提醒信息至预设终端，并生成状态识别报告；
145.提醒模块411，用于根据所述状态识别报告对所述目标对象进行提醒。
146.本发明实施例中，通过从采集的实时视频流提取至少两帧包含目标对象的实时视频图像，并将实时视频图像输入人脸识别模型输出人脸识别结果；根据人脸识别结果，确定实时视频图像中目标对象的区域范围；根据目标对象的区域范围，从实时视频图像中提取目标对象对应的肢体图像和面部图像；将肢体图像和面部图像输入预设行为分析模型，通过行为分析模型对肢体图像和面部图像进行分析识别，得到目标对象的学习状态识别结果。能够准确检测用户学习状态，提高用户的学习效率。
147.上面图4和图5从模块化功能实体的角度对本发明实施例中的学习状态识别装置进行详细描述，下面从硬件处理的角度对本发明实施例中学习状态识别设备进行详细描述。
148.图6是本发明实施例提供的一种学习状态识别设备的结构示意图，该学习状态识别设备800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，cpu)810(例如，一个或一个以上处理器)和存储器820，一个或一个以上存储应用程序833或数据832的存储介质830(例如一个或一个以上海量存储设备)。其中，存储器820和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对学习状态识别设备800中的一系列指令操作。更进一步地，处理器810可以设置为与存储介质830通信，在学习状态识别设备800上执行存储介质830中的一系列指令操作，以实现上述各方法实施例提供的学习状态识别方法的步骤。
149.学习状态识别设备800还可以包括一个或一个以上电源840，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口860，和/或，一个或一个以上操作系统831，例如windows serve，mac os x，unix，linux，freebsd等等。本领域技术人员可以理解，
图6示出的学习状态识别设备结构并不构成对本技术提供的学习状态识别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
150.本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行上述学习状态识别方法的步骤。
151.所述领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
152.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read-only memory，rom)、随机存取存储器(random access memory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。
153.以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：基于图形化测试平台的自动测试系统的制作方法

学习状态识别方法、装置、设备及存储介质与流程

相关文献

最热文献