教室场景课堂切换判别方法、装置及电子设备与流程

2022-05-21 10:58:12 来源：中国专利 TAG：

1.本公开涉及视频分割领域，具体地，涉及一种教室场景课堂切换判别方法、装置及电子设备。

背景技术：

2.随着线下录课，线上回放的教育场景增多，课堂的智能切换显得尤为重要。尤其在线下场景较为复杂时，教师是否晚点上课，压堂等行为难以避免，每节课之间的间隔时间不一，造成了线上回放课的时间切割困难。
3.现有技术中，通常采用人工切割上下课时间，供线上回放，但是采用人工切割成本过高，尤其当录制的视频过多时，人工切割方案会严重拖慢视频上线速度。
4.另一方面，如果不采用人工切割方案，直接按照课表时间进行切割，需要强行要求教师在规定时间完成，不能兼容晚点上课、压堂等经常出现的场景。

技术实现要素：

5.本公开的目的是提供一种教室场景课堂切换判别方法、装置及电子设备，用于解决现有技术中存在的，人工切割方案会拖慢视频上线速度，直接按照课表时间进行切割又不能兼容特殊场景的技术问题。
6.为了实现上述目的，本公开第一方面提供一种教室场景课堂切换判别方法，所述方法包括：
7.获得布置在所述教室内的图像采集单元采集的同一时间段内学生区域的视频和教学区域的视频，并从所述学生区域的视频中截取不同时间点的照片；
8.基于从所述学生区域的视频中截取的不同时间点的照片和预先设置的服装检测算法，统计所述教室内不同时间点的学生的着装分类和着装的位置分布；
9.将所述不同时间点的学生的着装分类和着装的位置分布按照时间顺序排列，判别出所述学生区域的视频中的不同课次，以及不同课次对应的上课时间和下课时间；
10.根据所述学生区域的视频中包含的不同课次对应的上课时间和下课时间，以及所述学生区域的视频和所述教学区域的视频之间的时间对应关系，从所述教学区域的视频中切割出不同课次的子视频。
11.可选的，基于从所述学生区域的视频中截取的不同时间点的照片和预先设置的服装检测算法，统计所述教室内不同时间点的学生的着装分类和着装的位置分布，包括：
12.针对从所述学生区域的视频中截取的不同时间点的照片，采用目标检测算法从所述照片中提取出每个学生对应的感兴趣区域，并记录每个所述感兴趣区域在所述照片中的位置分布；
13.对每个所述感兴趣区域，采用所述服装检测算法，得到所述每个学生的着装分类，进而统计出所述教室内不同时间点的学生的着装分类。
14.可选的，所述服装检测算法为多标签算法；所述多标签检测算法采用卷积神经网
络对输入的照片进行特征提取，并在所述卷积神经网络的不同层级输出不同等级的分类结果；
15.其中，所述卷积神经网络的层级数量大于或等于2；所述不同等级的分类结果用于表征学生的着装款式。
16.可选的，所述卷积神经网络包括多个主干网络；所述照片经过所述多个主干网络中的第一主干网络生成第一全连接层的特征数据，利用softmax函数对所述第一全连接层的特征数据进行处理，得到相应的第一级分类结果；
17.所述第一全连接层的特征数据经过所述多个主干网络中的第二主干网络生成第二全连接层的特征数据，通过softmax函数对所述第二全连接层的特征数据进行处理，得到相应的第二级分类结果；
18.在所述多个主干网络的其他主干网络中，依次类推，直到所述卷积神经网络输出所有层级的分类结果。
19.可选的，所述卷积神经网络的损失函数为所述不同层级的损失函数之和；
20.在计算不同层级的损失函数时，对于每个层级，分别计算所述每个层级的交叉熵损失函数作为所述每个层级的损失函数。
21.可选的，所述卷积神经网络的主干网络为内卷卷积组成的网络，所述内卷卷积组成的网络采用内卷卷积算子。
22.可选的，所述方法还包括：
23.从所述教学区域的视频中截取不同时间点的照片；
24.基于从所述教学区域的视频中截取的不同时间点的照片和预先设置的教学内容识别算法，识别出不同时间点的教学内容的类别；
25.根据所述不同时间点的教学内容的类别，并结合所述不同课次对应的上课时间和下课时间，标记所述不同课次的子视频的类别。
26.可选的，基于从所述教学区域的视频中截取的不同时间点的照片和预先设置的教学内容识别算法，识别出不同时间点的教学内容的类别，包括：
27.基于从所述教学区域的视频中截取的不同时间点的照片，采用卷积神经网络对每张输入的照片进行分类，输出所述照片中的教学内容的位置和所述教学内容的类别。
28.可选的，所述卷积神经网络的主干网络为内卷卷积组成的网络，所述内卷卷积组成的网络采用内卷卷积算子。
29.本公开第二方面提供一种教室场景课堂切换判别装置，包括：
30.获得模块，用于获得布置在所述教室内的图像采集单元采集的同一时间段内学生区域的视频和教学区域的视频，并从所述学生区域的视频中截取不同时间点的照片；
31.统计模块，用于基于从所述学生区域的视频中截取的不同时间点的照片和预先设置的服装检测算法，统计所述教室内不同时间点的学生的着装分类和着装的位置分布；
32.判别模块，用于将所述不同时间点的学生的着装分类和着装的位置分布按照时间顺序排列，判别出所述学生区域的视频中的不同课次，以及不同课次对应的上课时间和下课时间；
33.视频切割模块，用于根据所述学生区域的视频中包含的不同课次对应的上课时间和下课时间，以及所述学生区域的视频和所述教学区域的视频之间的时间对应关系，从所
述教学区域的视频中切割出不同课次的子视频。
34.本公开第三方面提供一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面所述方法的步骤。
35.本公开第四方面提供一种电子设备，包括：
36.存储器，其上存储有计算机程序；
37.处理器，用于执行所述存储器中的所述计算机程序，以实现第一方面所述方法的步骤。
38.通过上述技术方案，通过判断教室内学生的着装分布，将这些分布按照时间顺序排列，进而判断是否是同一批次人员上课，并判断出不同课次的上课时间和下课时间，然后，根据学生区域的视频和所述教学区域的视频之间的时间对应关系，从所述教学区域的视频中切割出不同课次的子视频，上述方案避免了采用人工切割方案、以及直接按照课表时间进行切割，从而避免现有技术中存在的，人工切割方案会拖慢视频上线速度，直接按照课表时间进行切割又不能兼容特殊场景的技术问题，提供一种快速且准确的课堂切换判别方法及教学视频切割方案。
39.本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
40.附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：
41.图1a是根据一示例性实施例示出的教学区域的视频的示意图；
42.图1b是根据一示例性实施例示出的学生区域的视频的示意图；
43.图2是根据一示例性实施例示出的教室场景课堂切换判别方法的流程图；
44.图3是根据一示例性实施例示出的人脸区域与着装区域的示意图；
45.图4是根据一示例性实施例示出的检测网络的示意图；
46.图5是根据一示例性实施例示出的教学区域的示意图；
47.图6是根据一示例性实施例示出的检测方法的示意图；
48.图7是根据一示例性实施例示出的课堂切换判别装置的框图；
49.图8是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
50.以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。
51.本公开中的方案可适用于各种教室场景，包括教室不固定场景与教室固定场景。教室不固定场景，一般属于类似大学模式的场景，即每个教室每天上课的班次不一样，课程不一样。教室固定场景，一般属于小学，初中，高中等场景，即统一班级的学生会固定在一个教室内上课，但每天课表会不同。
52.为了更好地判断不同课堂内容，可以在教室部署两个摄像头，一个摄像头照老师，得到教学区域的视频，即需要进行切割的视频，如图1a所示，为教学区域的视频截图，一个照学生，得到学生区域的视频，如图1b所示，为学生区域的视频截图。
53.请参考图2，本公开实施例中的教室场景课堂切换判别方法包括以下步骤。
54.步骤201，获得布置在所述教室内的图像采集单元采集的同一时间段内学生区域的视频和教学区域的视频，并从所述学生区域的视频中截取不同时间点的照片。
55.本公开实施例中，判别和切割可以在视频录制过程中实时进行，也可以间隔一定时间周期回顾之前录制的视频，本公开对此不做限制。
56.步骤202，基于从所述学生区域的视频中截取的不同时间点的照片和预先设置的服装检测算法，统计所述教室内不同时间点的学生的着装分类和着装的位置分布。
57.其中，着装分类可以包括着装的颜色、款式、装饰物等等，着装的位置分布用于指示不同着装在教室中的位置分布。
58.步骤203，将所述不同时间点的学生的着装分类和着装的位置分布按照时间顺序排列，判别出所述学生区域的视频中的不同课次，以及不同课次对应的上课时间和下课时间。
59.由于不同课次的上课学生不一样，那么着装分布就完全不同，可以判断不同课次，以及，上课期间着装的位置分布应该十分稳定，而下课会有学生来回走动，那么根据着装分类和着装的位置分布，就可以判断不同课次和上下课时间。
60.步骤204，根据所述学生区域的视频中包含的不同课次对应的上课时间和下课时间，以及所述学生区域的视频和所述教学区域的视频之间的时间对应关系，从所述教学区域的视频中切割出不同课次的子视频。
61.本公开实施例的方案中，通过判断教室内学生的着装分布，将这些分布按照时间顺序排列，进而判断是否是同一批次人员上课，并结合着装的位置分布，准确判断出不同课次的上课时间和下课时间，避免了采用人工切割方案、以及直接按照课表时间进行切割，提供一种快速且准确的课堂切换判别方法及教学视频切割方案。
62.本公开实施例中，首先根据学生区域的视频检测出视频中的人员位置，其中，人员检测算法使用常用的检测算法即可，例如：ssd算法，faster rcnn算法和yolo算法。本公开中使用centernet网络检测人员位置；然后，针对每个人员的roi区域(感兴趣区域)，采用预先设置的服装检测算法，统计出着装分类，包括服装类型，颜色等。最后，通过统计人员着装分布，便可以达到区分不同课次的目的。
63.本公开实施例中，roi区域就是检测网络输出的区域，将一张图片输入到训练好的检测网络中，就可以得到想要目标的区域框(roi区域)与对应的类别。以本公开实施例中从学生区域的视频中截取的照片为例，对于输入的每一张照片，先提取出roi区域，也就是每个学生所在区域，比如，有30个学生，就会提取出30个roi区域，然后对每一个roi区域进行特征提取。
64.这样做的原因是在教室不固定场景中，相同教室的不同节课是不同批次的学生来上课的。从教室中学生衣着的不同，通常可以辨别课次的不同。传统方案可以用人脸识别的办法判断是不是同一批人，但是照学生的摄像头图片中通常人脸区域较小，而着装衣服等信息的区域相较于人脸区域会很大，如图3所示。结合现有深度学习检测与识别模型，对小目标(人脸)的检测识别准确率会很低，但是对大目标(着装等)的检测识别准确率会相比高很多，综上，利用服装检测来判别课堂切换，相较于利用人脸来判别，可以大幅度提高判别准确率。
65.接下来，对本公开实施例中的服装检测算法进行说明。
66.本公开实施例中，服装检测算法为多标签算法；在传统的检测算法中，输出的每一类目标都只有一个标签，如图4左侧的网络。而对于服装检测场景来讲，在上衣的大类中会有款式的中类，在款式的中类中会再有颜色小类，或者有更多的子类等。若把所有的类别都分成不同的类别，那么会导致网络输出过多，网络冗余，难以训练。本公开实施例中，利用卷积神经网络的特征提取特性，在不同层级输出，以解决输出过多的问题，其结构如图4右侧的网络所示。
67.请继续参考图4，本公开实施例中的检测网络使用最新的rednet18主干网络替代rednet50主干网络，因为rednet18使用了内卷卷积involution算子，比卷积操作更能提高最终输出准确率。并且，本公开实施例的算法中，使用这种中间输出的方式，在不同层级分别输出不同等级的标签。例如，输入一张包括衣服的照片，首先经过第一个rednet18主干网络，输出了大类分类的结果(如：蓝色衣服)；然后全连接层1继续经过第二个rednet18网络输出中类的结果(如：修身长款)；最后全连接层2经过第三个rednet18网络输出小类分类结果(如：带有扣子与领带装饰等)；这也符合正常深度学习网络的推理模式，微小的特征(扣子等)需要更深的网络模型来提取。
68.本公开实施例中，可以通过softmax函数对全连接层的特征数据进行处理，以得到各级分类结果，在实际应用中，也可以采用其他方式进行处理，本公开对此不做限制。
69.本公开实施例中，在计算不同层级的损失函数时，对于每个层级，分别计算所述每个层级的交叉熵损失函数作为所述每个层级的损失函数，所述卷积神经网络的损失函数为所述不同层级的损失函数之和。该网络的损失函数可以表示为loss＝∑kcrossentropyk,k∈k，其中k为输出类别数，例如图3中有小类，中类，大类三个类别，那么k＝3，其中crossentropy＝-∑p(x)logq(x)。由于每个层级的分类分别计算损失函数，再求和，并不是所有类别放在一起进行计算，这样会更加准确。
70.在一种可能的实施方式中，还可以结合教学区域的视频，标记不同课次的子视频的类别，例如：当前课是语文课、物理课等等。
71.本公开实施例中，在获得教学区域的视频后，从所述教学区域的视频中截取不同时间点的照片；然后，基于从所述教学区域的视频中截取的不同时间点的照片和预先设置的教学内容识别算法，识别出不同时间点的教学内容的类别；根据所述不同时间点的教学内容的类别，结合所述不同课次对应的上课时间和下课时间，标记所述不同课次的子视频的类别。
72.本公开实施例中，基于从所述教学区域的视频中截取的不同时间点的照片，同样可以采用卷积神经网络对每张输入的照片进行分类，输出所述照片中的教学内容的位置和所述教学内容的类别。
73.在一种可能的实施方式中，可以直接利用cornernet直接检测教师ppt教学区域进行分类，如图5所示。本专利使用cornernet作为主要的检测加分类网络，本方案的关键点在于将cornernet的主干网络换成rednet50，以获得更高的准确率。原始cornernet的主干网络是hourglass network，这个网络主要以普通的卷积为主，然而本公开实施例的方案中，rednet以内卷卷积为住，能够增加网络整体准确率。本公开实施例中，教学区域可以是ppt、黑板板书等，本公开实施例不对教学区域的形式进行限制。
74.如图6所示，本公开实施例中使用分类网络直接对ppt内容进行分类，即输入摄像头图片(从教学区域的视频中截取的照片)，然后，经过cornernet网络后，得到图片内ppt区域框的左上角坐标与框的宽高(x0，y0，w，h)以及分类的类别，比如当前课是语文课，分类标签即对应语文课进行输出。
75.通过本公开实施例中的方案，可以实现不同课次的智能判别、切割以及课次类别标记，在切割速度和准确性上均可以保证。
76.基于同一发明构思，如图7所示，本公开实施例还提供一种教室场景课堂切换判别装置700，包括：
77.获得模块701，用于获得布置在所述教室内的图像采集单元采集的同一时间段内学生区域的视频和教学区域的视频，并从所述学生区域的视频中截取不同时间点的照片；
78.统计模块702，用于基于从所述学生区域的视频中截取的不同时间点的照片和预先设置的服装检测算法，统计所述教室内不同时间点的学生的着装分类和着装的位置分布；
79.判别模块703，用于将所述不同时间点的学生的着装分类和着装的位置分布按照时间顺序排列，判别出所述学生区域的视频中的不同课次，以及不同课次对应的上课时间和下课时间；
80.视频切割模块704，用于根据所述学生区域的视频中包含的不同课次对应的上课时间和下课时间，以及所述学生区域的视频和所述教学区域的视频之间的时间对应关系，从所述教学区域的视频中切割出不同课次的子视频。
81.关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。
82.图8是根据一示例性实施例示出的一种电子设备800的框图。如图8所示，该电子设备800可以包括：处理器801，存储器802。该电子设备800还可以包括多媒体组件803，输入/输出(i/o)接口804，以及通信组件805中的一者或多者。
83.其中，处理器801用于控制该电子设备800的整体操作，以完成上述的中的全部或部分步骤。存储器802用于存储各种类型的数据以支持在该电子设备800的操作，这些数据例如可以包括用于在该电子设备800上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器802可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(static random access memory，简称sram)，电可擦除可编程只读存储器(electrically erasable programmable read-only memory，简称eeprom)，可擦除可编程只读存储器(erasable programmable read-only memory，简称eprom)，可编程只读存储器(programmable read-only memory，简称prom)，只读存储器(read-only memory，简称rom)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件803可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器802或通过通信组件805发送。音频组件还包括至少一个扬声器，用于输出音频信号。i/o接口804为处理器801和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件805用于该电子设备800与其他
设备之间进行有线或无线通信。无线通信，例如wi-fi，蓝牙，近场通信(near field communication，简称nfc)，2g、3g、4g、nb-iot、emtc、或其他5g等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件805可以包括：wi-fi模块，蓝牙模块，nfc模块等等。
84.在一示例性实施例中，电子设备800可以被一个或多个应用专用集成电路(application specific integrated circuit，简称asic)、数字信号处理器(digital signal processor，简称dsp)、数字信号处理设备(digital signal processing device，简称dspd)、可编程逻辑器件(programmable logic device，简称pld)、现场可编程门阵列(field programmable gate array，简称fpga)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的教室场景课堂切换判别方法。
85.在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的教室场景课堂切换判别方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器802，上述程序指令可由电子设备800的处理器801执行以完成上述的教室场景课堂切换判别方法。
86.在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的教室场景课堂切换判别方法的代码部分。
87.以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。
88.另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。
89.此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：使用增强型转速计上数据信号协议通过变量读取和写入命令与信息处理系统空气移动器通信的制作方法

教室场景课堂切换判别方法、装置及电子设备与流程

相关文献

最热文献