教学中的人脸的注意力、表情识别方法、系统、介质及装置与流程

2022-03-22 20:06:55 来源：中国专利 TAG：

1.本发明涉及图像识别技术领域，特别是涉及一种教学中的人脸的注意力、表情识别方法、系统、介质及装置。

背景技术：

2.人工智能技术在这些年的复兴，惠及各行各业，教育行业，作为对国民经济发展重要的一个产业，也有诸多人工智能应用的落地。
3.在音乐教育领域，基于嵌入式软硬件系统的智慧钢琴，可以通过人工智能的算法(传统统计学习、深度学习、强化学习、专家系统)在计算机视觉、语音处理、自然语言处理等领域进行诸多应用，既提高钢琴教育的有效性，又帮助寓教于乐，使孩子喜欢音乐，喜欢弹钢琴。
4.让孩子能够在课堂教学与自我学习中间保持注意力与专注度，同时又能兼顾孩子自尊心，使其保持对知识的兴趣。不同文化的教育理念对此有不同的理解，西方教育注重孩子个性发展，能容忍孩子在课堂里走神的情况，东方教育笃信“读书改变命运”，家长更注重孩童在教育期间的吸收、转化效率。
5.在实现本发明的过程中，发明人发现现有技术至少存在以下问题。
6.如何识别教学过程中学生对于教学的反应，如何在学生走神或对教学产生负面情绪时，及时提醒。
7.因此，希望能够解决如何实时识别学生的走神或负面表情的问题。

技术实现要素：

8.鉴于以上所述现有技术的缺点，本发明的目的在于提供一种教学中的人脸的注意力、表情识别方法、系统、介质及装置，用于解决现有技术中如何实时识别学生的走神或负面表情的问题。
9.为实现上述目的及其他相关目的，本发明提供一种教学中的人脸的注意力、表情识别方法，包括以下步骤：基于学生端的摄像头获取学生的人脸图片信息；基于所述人脸图片信息判断所述学生是否走神；将所述人脸图片信息输入已训练好的vgg(visual geometry group：视觉几何组)图像分类模型，基于所述vgg图像分类模型输出的向量判断所述学生的表情是否为负面表情；当所述学生走神或有负面表情时，向教师端发送相应提醒。
10.于本发明的一实施例中，所述基于所述人脸图片信息判断所述学生是否走神包括：每间隔预设时间小段采集所述人脸图片信息中的特征点信息，计算所述特征点信息的重心；计算预设时间大段内所述重心的均值；计算预设时间大段的重心的标准差；判断当前采集的特征点信息的重心减去均值的绝对值是否大于标准差的三倍；当大于标准差的三倍时，判断所述学生走神。
11.于本发明的一实施例中，计算所述特征点信息的重心包括：所述特征点包括眼睛、
鼻子、耳朵、嘴唇；以预设规则在人脸图片建立二维坐标系，获取所述特征点在所述二维坐标系的坐标；计算所述坐标的平均值即为重心。
12.于本发明的一实施例中，所述已训练好的vgg图像分类模型按照以下步骤训练得到：将定义标签的表情图像数据输入vgg图像分类模型；用测试集的数据验证所述vgg图像分类模型是否已训练好；当通过测试集的数据验证则所述vgg图像分类模型已训练好。
13.为实现上述目的，本发明还提供一种教学中的人脸的注意力、表情识别系统，包括：获取模块、判断走神模块、判断负面表情模块和提醒模块；所述获取模块用于基于学生端的摄像头获取学生的人脸图片信息；所述判断走神模块用于基于所述人脸图片信息判断所述学生是否走神；所述判断负面表情模块用于将所述人脸图片信息输入已训练好的vgg图像分类模型，基于所述vgg图像分类模型输出的向量判断所述学生的表情是否为负面表情；所述提醒模块用于当所述学生走神或有负面表情时，向教师端发送相应提醒。
14.于本发明的一实施例中，所述判断走神模块用于基于所述人脸图片信息判断所述学生是否走神包括：每间隔预设时间小段采集所述人脸图片信息中的特征点信息，计算所述特征点信息的重心；计算预设时间大段内所述重心的均值；计算预设时间大段的重心的标准差；判断当前采集的特征点信息的重心减去均值的绝对值是否大于标准差的三倍；当大于标准差的三倍时，判断所述学生走神。
15.于本发明的一实施例中，所述计算所述特征点信息的重心包括：所述特征点包括眼睛、鼻子、耳朵、嘴唇；以预设规则在人脸图片建立二维坐标系，获取所述特征点在所述二维坐标系的坐标；计算所述坐标的平均值即为重心。
16.于本发明的一实施例中，所述已训练好的vgg图像分类模型按照以下步骤训练得到：将定义标签的表情图像数据输入vgg图像分类模型；用测试集的数据验证所述vgg图像分类模型是否已训练好；当通过测试集的数据验证则所述vgg图像分类模型已训练好。
17.为实现上述目的，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现任一上述教学中的人脸的注意力、表情识别方法。
18.为实现上述目的，本发明还提供一种教学中的人脸的注意力、表情识别装置，包括：处理器和存储器；所述存储器用于存储计算机程序；所述处理器与所述存储器相连，用于执行所述存储器存储的计算机程序，以使所述教学中的人脸的注意力、表情识别装置执行任一上述的教学中的人脸的注意力、表情识别方法。
19.如上所述，本发明的一种教学中的人脸的注意力、表情识别方法、系统、介质及装置，具有以下有益效果：用于在教学时的实时识别学生的走神或负面表情，方便教师及时发现并提醒学生，进行更好、更有效率的教学。
附图说明
20.图1a显示为本发明的教学中的人脸的注意力、表情识别方法于一实施例中的流程图；
21.图1b显示为本发明的教学中的人脸的注意力、表情识别方法于一实施例中的vgg图像分类模型的结构图；
22.图2显示为本发明的教学中的人脸的注意力、表情识别系统于一实施例中的结构示意图；
23.图3显示为本发明的教学中的人脸的注意力、表情识别装置于一实施例中的结构示意图。
24.元件标号说明
25.21 获取模块
26.22 判断走神模块
27.23 判断负面表情模块
28.24 提醒模块
29.31 处理器
30.32 存储器
具体实施方式
31.以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。
32.需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，故图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。
33.本发明的教学中的人脸的注意力、表情识别方法、系统、介质及装置，用于在教学时的实时识别学生的走神或负面表情，方便教师及时发现并提醒学生，进行更好、更有效率的教学。
34.如图1a所示，于一实施例中，本发明的教学中的人脸的注意力、表情识别方法，包括以下步骤：
35.步骤s11、基于学生端的摄像头获取学生的人脸图片信息。
36.具体地，所述学生端为钢琴学生端，所述钢琴学生端为用于进行钢琴教学和弹奏的智能钢琴。所述智能钢琴设有用于拍摄获取学生的人脸图片信息的摄像头。
37.具体地，基于谷歌的mediapipe计算机视觉框架进行开发的，人脸检测模型以单阶段目标检测器(single-shot detector，ssd)识别人脸，获取坐标位置与置信度。该模型采用多尺度特征图用于检测，用扩展卷积进行检测，并利用基于局部贪心的“非极大值抑制”算法寻找置信度较高的先验框，获取人脸所在的矩形区域。该算法可以检测到位于相机中心的人脸，也可以检测到偏离相机中心的人脸。
38.步骤s12、基于所述人脸图片信息判断所述学生是否走神。
39.具体地，所述基于所述人脸图片信息判断所述学生是否走神包括：
40.每间隔预设时间小段采集所述人脸图片信息中的特征点信息，计算所述特征点信息的重心。计算所述特征点信息的重心包括：所述特征点包括眼睛、鼻子、耳朵、嘴唇；以预设规则在人脸图片建立二维坐标系，获取所述特征点在所述二维坐标系的坐标；计算所述坐标的平均值即为重心。即在人脸图片上建立二维坐标系，例如所述预设规则为都以人眼
中线为x轴，鼻子中线为y轴建立二维坐标系。获取眼睛、鼻子、耳朵、嘴唇这些特征点在以人脸图片为二维坐标系的坐标。获取眼睛、鼻子、耳朵、嘴唇在所述二维坐标系的坐标后，将其相加求坐标的平均值即为重心。所述每间隔预设时间小段是指每间隔预设时间小段采集一次预设时间小段，例如所述预设时间小段为1/30秒，即每秒30帧的频率采集人脸图片信息中的特征点信息。即每秒30帧的频率拍摄人脸图片，并采集人脸图片信息中的特征点信息。
41.计算预设时间大段内所述重心的均值。例如所述预设时间大段为十秒；而所述预设时间小段为1/30秒，那么在所述预设时间大段为十秒内能够获取300个重心，并计算所述300个重心的均值。
42.计算预设时间大段的重心的标准差。即计算所述300个重心的标准差。
43.当大于标准差的三倍时，判断所述学生走神。判断当前采集的特征点信息的重心减去均值的绝对值是否大于标准差的三倍；即|重心-均值|≥3*标准差。如果人脸“重心”的水平或垂直位置距离均值超过三倍以上方差，视为“走神”的异常状态，可以记录或进行提醒。
44.步骤s13、将所述人脸图片信息输入已训练好的vgg图像分类模型，基于所述vgg图像分类模型输出的向量判断所述学生的表情是否为负面表情。
45.具体地，所述已训练好的vgg图像分类模型按照以下步骤训练得到：将定义标签的表情图像数据输入vgg图像分类模型，例如vgg-16；用测试集的数据验证所述vgg图像分类模型是否已训练好；当通过测试集的数据验证则所述vgg图像分类模型已训练好。
46.具体地，所述定义标签的表情图像数据包括：分别标有高兴、难过、生气、厌恶、惊讶、害怕、中性标签的人脸图片；将标有不同标签的人脸图片输入vgg图像分类模型，这样进行所述vgg图像分类模型的训练。
47.具体地，所述vgg图像分类模型如图1b所示。具体地，是英国牛津大学与谷歌deepmind团队在2014年联袂提出来的vgg-16/19模型，对于给定的感受野(与输出有关的输入图片的局部大小)，采用堆积的3*3小卷积核提高感受野，并用多层卷积的堆叠增加网络深度来保证学习更复杂的模式，更好拟合非线性的图像特征，进行端到端的学习。结构如下表所示。
[0048][0049]
具体地，除了定义标签的表情图像数据，还有测试集的数据，所述测试集的数据是已经定义标签的表情图像数据，但是不参与将定义标签的表情图像数据输入vgg图像分类模型这一步，单独拿出来用于进行验证所述vgg图像分类模型是否已训练好，当通过测试集的数据验证则所述vgg图像分类模型已训练好。
[0050]
具体地，所述vgg图像分类模型可以先在云平台或工作站上完成训练之后，制作成轻量级的模型，在计算资源受限的平台上(如手机或find智慧钢琴的安卓操作系统例如：学生钢琴端)运行，其计算性能与推理精度，相比于在服务器训练阶段，不会有过多的损耗。
[0051]
步骤s14、当所述学生走神或有负面表情时，向教师端发送相应提醒。
[0052]
具体地，还包括统计所述学生走神或有负面表情的次数，用数据分析和图表展示的技术可视化学生在整个课堂教学期间的情绪(负面表情)与专注度(走神)分析结果，发送分析结果至所述教师端。方便教师掌握学生的学习态度情况。还包括发送分析结果至家长移动终端。例如家长的智能手机，方便家长掌握学生的学习态度情况。帮助学生、教师、家长，形成更为良好的三方互动。
[0053]
具体地，还包括当所述学生走神或有负面表情时，基于所述走神或负面表情在系统数据库里的教育学文档资料进行语义检索，获得教师应对学生不同情绪的指导建议以及帮助学生提高注意力建议，发送所述指导建议和提高注意力建议至教师钢琴端。从而方便
教师以人性化的方式同其进行沟通。一些后进的学生也不至于对学习音乐和钢琴失去兴趣或产生抵触情绪。
[0054]
具体地，还包括上传应对学生负面表情和走神的教学方法至云端，当所述学生走神或有负面表情时，向云端请求应对学生走神或有负面表情的教学方法，接收云端发送的应对学生走神或有负面表情的教学方法。从而帮助刚走上教师岗位的年轻的音乐类和师范类专业的老师获取处理类似场景的经验。
[0055]
如图2所示，于一实施例中，本发明的教学中的人脸的注意力、表情识别系统，包括：获取模块21、判断走神模块22、判断负面表情模块23和提醒模块24；所述获取模块21用于基于学生端的摄像头获取学生的人脸图片信息；所述判断走神模块22用于基于所述人脸图片信息判断所述学生是否走神；所述判断负面表情模块23用于将所述人脸图片信息输入已训练好的vgg图像分类模型，基于所述vgg图像分类模型输出的向量判断所述学生的表情是否为负面表情；所述提醒模块24用于当所述学生走神或有负面表情时，向教师端发送相应提醒。
[0056]
于本发明的一实施例中，所述判断走神模块22用于基于所述人脸图片信息判断所述学生是否走神包括：每间隔预设时间小段采集所述人脸图片信息中的特征点信息，计算所述特征点信息的重心；计算预设时间大段内所述重心的均值；计算预设时间大段的重心的标准差；判断当前采集的特征点信息的重心减去均值的绝对值是否大于标准差的三倍；当大于标准差的三倍时，判断所述学生走神。
[0057]
于本发明的一实施例中，所述计算所述特征点信息的重心包括：所述特征点包括眼睛、鼻子、耳朵、嘴唇；以预设规则在人脸图片建立二维坐标系，获取所述特征点在所述二维坐标系的坐标；计算所述坐标的平均值即为重心。
[0058]
于本发明的一实施例中，所述已训练好的vgg图像分类模型按照以下步骤训练得到：将定义标签的表情图像数据输入vgg图像分类模型；用测试集的数据验证所述vgg图像分类模型是否已训练好；当通过测试集的数据验证则所述vgg图像分类模型已训练好。
[0059]
需要说明的是，获取模块21、判断走神模块22、判断负面表情模块23和提醒模块24的结构和原理与上述教学中的人脸的注意力、表情识别方法中的步骤一一对应，故在此不再赘述。
[0060]
需要说明的是，应理解以上系统的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，x模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上x模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
[0061]
例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(application specific integrated circuit，简称asic)，或，
一个或多个微处理器(micro processor uint，简称mpu)，或，一个或者多个现场可编程门阵列(field programmable gate array，简称fpga)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(central processing unit，简称cpu)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称soc)的形式实现。
[0062]
于本发明一实施例中，本发明还包括一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一所述教学中的人脸的注意力、表情识别方法。
[0063]
本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
[0064]
如图3所示，于一实施例中，本发明的教学中的人脸的注意力、表情识别装置包括：处理器31和存储器32；所述存储器32用于存储计算机程序；所述处理器31与所述存储器32相连，用于执行所述存储器32存储的计算机程序，以使所述教学中的人脸的注意力、表情识别装置执行任一所述的教学中的人脸的注意力、表情识别方法。
[0065]
具体地，所述存储器32包括：rom、ram、磁碟、u盘、存储卡或者光盘等各种可以存储程序代码的介质。
[0066]
优选地，所述处理器31可以是通用处理器，包括中央处理器(central processing unit，简称cpu)、网络处理器(network processor，简称np)等；还可以是数字信号处理器(digital signal processor，简称dsp)、专用集成电路(application specific integrated circuit，简称asic)、现场可编程门阵列(field programmable gate array，简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0067]
综上所述，本发明教学中的人脸的注意力、表情识别方法、系统、介质及装置，用于在教学时的实时识别学生的走神或负面表情，方便教师及时发现并提醒学生，进行更好、更有效率的教学。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
[0068]
上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

教学中的人脸的注意力、表情识别方法、系统、介质及装置与流程

相关文献

最热文献