一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

图像分类方法、装置、计算机设备和存储介质与流程

2023-02-06 18:43:42 来源:中国专利 TAG:


1.本技术涉及人工智能技术领域,特别是涉及一种图像分类方法、装置、计算机设备和存储介质。


背景技术:

2.线上教学由于缺乏培养技能和进行试验的环境等原因,造成实际教学效果与现场教学之间存在较大的差距。因此,提高线上教学的互动性监督和反馈能力对于提升线上教育效果起到至关重要的作用。
3.现有的提升线上教学的互动性监督和反馈能力的方法一般采用人工智能图形识别的方法对学生的表情进行收集分类,通过深度学习模型完成人脸情感识别任务,根据人脸情感识别结果,可以高效更为客观的获取到课堂的满意度。
4.但是,仅通过表情识别的训练模型难以准确地描述学生的学习状态,导致无法有效反映学生的真实学习情况。


技术实现要素:

5.基于此,有必要针对上述技术问题,提供一种能够通过多模态行为对学生的情感状态进行智能识别的图像分类方法、装置、计算机设备和存储介质。
6.第一方面,本技术提供了一种图像分类方法,方法包括:
7.获取待分类图像中多个目标对象的表情图像和肢体图像;
8.将表情图像输入至已经训练好的双模态分类模型的第一分类模型中,得到表情分类结果;
9.将肢体图像输入至已经训练好的双模态分类模型的第二分类模型中,得到肢体分类结果;
10.将表情分类结果和肢体分类结果进行融合,通过双模态分类模型的决策器得到待分类图像中多个目标对象的学习状态,以及每种学习状态对应的实际概率分布值;
11.根据每种学习状态对应的实际概率分布值与预设概率分布值之间的相似度,确定待分类图像对应的学习效果。
12.在其中一个实施例中,将表情图像输入至已经训练好的双模态分类模型的第一分类模型中,得到表情分类结果,包括:
13.将表情图像输入至已经训练好的双模态分类模型的第一分类模型中,通过第一分类模型对表情图像进行切片处理,得到多张特征图;
14.将多张特征图输入至第一分类模型的注意力模块中,通过注意力模块的降维处理后,得到第一维度的第一数据矩阵;
15.将第一数据矩阵输入至第一分类模型的注意力模块,通过注意力模块的降维处理后,得到第二维度的第二数据矩阵;第二维度小于第一维度;
16.对第二数据矩阵依次进行卷积操作、归一化操作、激活操作和池化操作后,得到第
三维度的第三数据矩阵;第三维度小于第二维度;
17.将第一数据矩阵、第二数据矩阵和第三数据矩阵分别输入至第一分类模型的全连接层,得到表情分类结果。
18.在其中一个实施例中,将第一数据矩阵输入至第一分类模型的注意力模块,通过注意力模块的降维处理后,得到第二维度的第二数据矩阵,包括:
19.将第一数据矩阵输入至第一分类模型的注意力模块中,通过注意力模块中卷积层对第一数据矩阵依次进行卷积操作、归一化操作和激活操作,得到第一卷积结果;
20.对第一卷积结果依次进行卷积操作、残差处理和卷积操作后,得到第二卷积结果;
21.对第一卷积结果进行卷积操作,得到第三卷积结果;
22.将第二卷积结果和第三卷积结果进行级联,得到级联矩阵;
23.对级联矩阵依次进行归一化处理、激活处理和注意力特征提取处理,得到第二维度的第二数据矩阵。
24.在其中一个实施例中,学习效果为待分类图像对应的课堂实际难度级别,根据每种学习状态对应的实际概率分布值与预设概率分布值之间的相似度,确定待分类图像的学习效果,包括:
25.确定待分类图像对应的课堂预估难度级别;
26.根据至少一个预估模型,获取课堂预估难度级别对应的预设概率分布值;
27.计算待分类图像的每种学习状态对应的实际概率分布值与预设概率分布值之间的相似度;
28.若相似度小于预设阈值,则将课堂预估难度级别作为待分类图像对应的课堂实际难度级别。
29.在其中一个实施例中,预估模型包括至少一个预估模块,根据至少一个预估模型,获取课堂预估难度级别对应的预设概率分布值,包括:
30.获取与课堂预估难度级别匹配的多个预估模型,以及多个预估模型对应的多个预设概率分布值;
31.计算待分类图像的每种学习状态对应的实际概率分布值与多个预估模型的预设概率分布值之间的聚类距离,根据最小的聚类距离对应的预估模型,确定待分类图像对应的预设概率分布值。
32.在其中一个实施例中,所述方法还包括:
33.若相似度大于预设阈值,则重新执行确定待分类图像对应的课堂预估难度级别的步骤,直至相似度小于预设阈值。
34.在其中一个实施例中,所述方法还包括:
35.获取训练样本,每个训练样本包括表情样本、标注表情样本的第一表情分类结果、肢体样本、标注肢体样本的第一肢体分类结果以及标注表情样本和肢体样本对应的第一决策结果;
36.将表情样本输入至第一分类模型,获取第一分类模型的第二表情分类结果,根据第二表情分类结果和第一表情分类结果之间差异,调整第一分类模型的参数;
37.将肢体样本输入至第二分类模型,获取第二分类模型的第二肢体分类结果,根据第二肢体分类结果和第一肢体分类结果之间差异,调整第二分类模型的参数;
38.将第二表情分类结果和第二肢体分类结果输入双模态分类模型的决策器中,获取决策器输出的第二决策结果,根据第二决策结果与第一决策结果之间的差异,调整决策器的参数,完成一次训练;
39.迭代多次训练过程,当损失函数满足目标值时,停止训练得到已训练好的双模态分类模型。
40.第二方面,本技术还提供了一种图像分类装置。所述装置包括:
41.获取模块,用于获取待分类图像中多个目标对象的表情图像和肢体图像;
42.表情分类模块,用于将表情图像输入至已经训练好的双模态分类模型的第一分类模型中,得到表情分类结果;
43.肢体分类模块,用于将肢体图像输入至已经训练好的双模态分类模型的第二分类模型中,得到肢体分类结果;
44.融合决策模块,用于将表情分类结果和肢体分类结果进行融合,通过双模态分类模型的决策器得到待分类图像中多个目标对象的学习状态,以及每种学习状态对应的实际概率分布值;
45.确定模块,用于根据每种学习状态对应的实际概率分布值与预设概率分布值之间的相似度,确定待分类图像对应的学习效果。
46.第三方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
47.获取待分类图像中多个目标对象的表情图像和肢体图像;
48.将表情图像输入至已经训练好的双模态分类模型的第一分类模型中,得到表情分类结果;
49.将肢体图像输入至已经训练好的双模态分类模型的第二分类模型中,得到肢体分类结果;
50.将表情分类结果和肢体分类结果进行融合,通过双模态分类模型的决策器得到待分类图像中多个目标对象的学习状态,以及每种学习状态对应的实际概率分布值;
51.根据每种学习状态对应的实际概率分布值与预设概率分布值之间的相似度,确定待分类图像对应的学习效果。
52.第四方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
53.获取待分类图像中多个目标对象的表情图像和肢体图像;
54.将表情图像输入至已经训练好的双模态分类模型的第一分类模型中,得到表情分类结果;
55.将肢体图像输入至已经训练好的双模态分类模型的第二分类模型中,得到肢体分类结果;
56.将表情分类结果和肢体分类结果进行融合,通过双模态分类模型的决策器得到待分类图像中多个目标对象的学习状态,以及每种学习状态对应的实际概率分布值;
57.根据每种学习状态对应的实际概率分布值与预设概率分布值之间的相似度,确定待分类图像对应的学习效果。
58.第五方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算
机程序,该计算机程序被处理器执行时实现以下步骤:
59.获取待分类图像中多个目标对象的表情图像和肢体图像;
60.将表情图像输入至已经训练好的双模态分类模型的第一分类模型中,得到表情分类结果;
61.将肢体图像输入至已经训练好的双模态分类模型的第二分类模型中,得到肢体分类结果;
62.将表情分类结果和肢体分类结果进行融合,通过双模态分类模型的决策器得到待分类图像中多个目标对象的学习状态,以及每种学习状态对应的实际概率分布值;
63.根据每种学习状态对应的实际概率分布值与预设概率分布值之间的相似度,确定待分类图像对应的学习效果。
64.上述图像分类方法、装置、计算机设备和存储介质,通过双模态分类模型识别待分类图像中多目标对象的表情分类结果和肢体分类结果,基于目标对象的表情分类结果和肢体分类结果的决策结果,得到目标对象的学习状态,从多维度识别目标对象的情感态度,提高情感态度在目标对象的情感敏感度更高,并根据每种学习状态对应的实际概率分布值与预设概率分布值之间的相似度,确定待分类图像对应的学习效果,可以有效反映学生的真实学习情况。
附图说明
65.图1为一个实施例中图像分类方法的应用环境图;
66.图2为一个实施例中图像分类方法的流程示意图;
67.图3为一个实施例中双模态分类模型的结构示意图;
68.图4为另一个实施例中得到表情分类结果的流程示意图;
69.图5为一个实施例中第一分类模块中切片操作的示意图;
70.图6为一个实施例中第一分类模型的数据处理流程图;
71.图7为一个实施例中第一分类模型中注意力模块的处理流程图;
72.图8为一个实施例中得到第二维度的第二数据矩阵的流程示意图;
73.图9为一个实施例中确定待分类图像的学习效果的流程示意图;
74.图10为一个实施例中获取课堂预估难度级别对应的预设概率分布值的流程示意图;
75.图11为一个实施例中双模态分类模型的训练流程示意图;
76.图12为一个实施例中图像分类装置的结构框图;
77.图13为一个实施例中计算机设备的内部结构图。
具体实施方式
78.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
79.本技术实施例提供的图像分类方法,可以应用于如图1所示的应用环境中。其中,终端102获取待分类图像中多个目标对象的表情图像和肢体图像;将表情图像输入至已经
训练好的双模态分类模型的第一分类模型中,得到表情分类结果;将肢体图像输入至已经训练好的双模态分类模型的第二分类模型中,得到肢体分类结果;将表情分类结果和肢体分类结果进行融合,通过双模态分类模型的决策器得到待分类图像中多个目标对象的学习状态,以及每种学习状态对应的实际概率分布值;根据每种所述学习状态对应的实际概率分布值与预设概率分布值之间的相似度,确定待分类图像对应的学习效果。终端102通过网络与服务器104进行通信。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能电视、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
80.在一个实施例中,如图2所示,提供了一种图像分类方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
81.步骤202,获取待分类图像中多个目标对象的表情图像和肢体图像。
82.其中,待分类图像指包含学生在线上或者线下上课时的面部表情和上肢动作的图像。目标对象指待分类图像中需要识别的对象,例如,目标对象可以是待分类图像中的人物。表情图像包括眉毛上扬、眉头紧锁、眼睛眯起、紧绷嘴角、嘴角上扬、嘴角下垂、面颊提起和挤出酒窝等表情;肢体图像包括抬头、低头、左顾右盼和趴下等动作。
83.可选地,终端通过拍摄设备或者终端的截图功能,获取线上学习或线下学习时同一拍摄设备获取的图片,对图片进行过滤处理,过滤掉不包括目标对象的面部表情和上肢动作的图片,将筛选后的图片大小调整为统一大小,将调整后的图像作为待分类图像。
84.步骤204,将表情图像输入至已经训练好的双模态分类模型的第一分类模型中,得到表情分类结果。
85.其中,双模态分类模型指具有处理和理解多模态信息的能力的学习模型,多模态信息可以是图像中两个不同对象,也可以是图像、音频、视频、语义之间的多模态学习。本实施例的双模态分类模型的结构如图3所示,多模态信息指处于同一图像中的目标对象的面部表情和上肢动作。
86.第一分类模型用于识别待分类图像中表情图像的所属类别,表情分类结果是待分类图像中表情图像中表情映射的情绪类别。例如,困惑主要表现为眉毛低垂,眼睑紧绷,若待分类图像中表情图像对应的分类概率阈值超过设定值(初始值=0.4),就认为表情图像映射的情绪类别属于困惑。使用模糊推理算法对表情图像中分类的面部表情与“专注”、“喜悦”、“厌烦”、“走神”、“困惑”和“沮丧”6种表情进行映射。
87.其中,第一分类模型采用多目标识别模型,利用划分网格的方法,采用自适应锚框算法确定用于识别待分类图像中目标对象的面部表情的目标框大小,识别不同大小的目标框内的面部表情。
88.可选地,终端将待分类图像中表情图像输入至已经训练好的双模态分类模型的第一分类模型中,第一分类模型对表情图像进行识别,得到表情图像的面部表情,根据面部表情与情绪的映射关系,确定待分类图像中表情图像的表情分类结果。
89.步骤206,将肢体图像输入至已经训练好的双模态分类模型的第二分类模型中,得到肢体分类结果。
90.其中,第二分类模型用于识别待分类图像中肢体图像的所属类别。肢体分类结果
是待分类图像中肢体图像的所属类别。
91.可选地,终端将待分类图像中肢体图像输入至已经训练好的双模态分类模型的第二分类模型中,第二分类模型对肢体图像进行识别,得到肢体分类结果。
92.步骤208,将表情分类结果和肢体分类结果进行融合,通过双模态分类模型的决策器得到待分类图像中多个目标对象的学习状态,以及每种学习状态对应的实际概率分布值。
93.其中,在实际场景中,只有当学习者处于“抬头”状态下才能完整观察到学习者的面部表情,并且在学习者的肢体动作为低头、左顾右盼和趴下等动作时,可以很容易判别出学习者的学习状态,因此,本实施例只针对“抬头”这种情况进行最后的决策融合。通过双模态分类模型的决策器得到的待分类图像中多个目标对象的学习状态包括:认真听讲、不感兴趣、开小差、疑惑、没有听懂、犯困、疲劳、睡觉、交头接耳、不确定等学习状态。双模态分类模型的决策器可以采用模糊推理算法或者模式识别算法,模式识别算法如支持向量、近邻、树集合和神经网络等方法。
94.每种学习状态对应的实际概率分布值指待分类图像中每种学习状态在待分类图像中目标对象的总数中的占比。例如,待分类图像中有100个目标对象,其中,70个目标对象的学习状态为认真听讲,10个目标对象的学习状态为没有听懂,5个目标对象的学习状态为犯困,15个目标对象的学习状态为不确定,则可以确定认真听讲的实际概率分布值为70%,没有听懂的实际概率分布值为10%,犯困的实际概率分布值为5%,不确定的实际概率分布值为15%。
95.可选地,终端通过模糊推理算法或者模式识别算法将表情分类结果和肢体分类结果进行融合,通过双模态分类模型的决策器得到待分类图像中多个目标对象的学习状态,根据每种学习状态占目标对象总数的比例,确定每种学习状态对应的实际概率分布值。
96.步骤210,根据每种学习状态对应的实际概率分布值与预设概率分布值之间的相似度,确定待分类图像对应的学习效果。
97.其中,预设概率分布值指待分类图像中多个目标对象的学习状态的期望概率分布值。若每种学习状态对应的实际概率分布值与预设概率分布值之间越相似,则表征当前的学习效果越好;若每种学习状态对应的实际概率分布值与预设概率分布值之间越不相似,则表征当前的学习效果越差,教师需要调整授课方案。
98.学习效果是用于反映教师的授课效率,以及学生对授课内容的吸收效率。可以通过学生对授课内容的满意度、接受度或难度系数等参数体现学习效果。
99.可选地,终端确定当前授课内容的预设概率分布值,计算每种学习状态对应的实际概率分布值与预设概率分布值之间的相似度,若相似度小于预设值,则表征当前的学习效果越好;若每种学习状态对应的实际概率分布值与预设概率分布值之间越不相似,则表征当前的学习效果越差,教师需要调整授课方案。
100.上述图像分类方法中,通过双模态分类模型识别待分类图像中多目标对象的表情分类结果和肢体分类结果,基于目标对象的表情分类结果和肢体分类结果的决策结果,得到目标对象的学习状态,从多维度识别目标对象的情感态度,提高情感态度在目标对象的情感敏感度更高,并根据每种学习状态对应的实际概率分布值与预设概率分布值之间的相似度,确定待分类图像对应的学习效果,可以有效反映学生的真实学习情况。
101.在一个实施例中,第一分类模型和第二分类模型的结构可以相同,也可以不相同。由于上身姿态识别较为简单,对上身姿态直接使用简单的卷积神经网络模型进行智能识别“抬头”、“低头”、“左顾右盼”和“趴下”四种行为。因此,本实施例只介绍第一分类模型的分类过程。具体的,如图4所示,将表情图像输入至已经训练好的双模态分类模型的第一分类模型中,得到表情分类结果,包括:
102.步骤402,将表情图像输入至已经训练好的双模态分类模型的第一分类模型中,通过第一分类模型对表情图像进行切片处理,得到多张特征图。
103.其中,切片处理是在一张图片中每隔一个像素拿到一个值,类似于邻近下采样,这样就拿到了四张图片,四张图片互补,长的差不多,但是没有信息丢失,拼接起来的图片相对于原先的rgb三通道模式变成了12个通道,最后将得到的新图片再经过卷积操作,最终得到了没有信息丢失情况下的二倍下采样特征图。例如,如图5所示,维度为4
×4×
3的图像切片后变成维度为2
×2×
12的特征图。再比如,如图6所示,原始608
×
608
×
3的图像进行切片处理后,得到4张304
×
304
×
12的特征图,再经过一次32个卷积核的卷积操作,最终变成304
×
304
×
32的特征图。其中,卷积核初始值是随机的,比如预设卷积核的大小都是3
×
3。
104.可选地,终端将608
×
608
×
3的表情图像输入至已经训练好的双模态分类模型的第一分类模型中,通过第一分类模型的切片结构对表情进行切片处理,得到4张304
×
304
×
12的特征图,再经过一次32个卷积核的卷积操作,最终变成304
×
304
×
32的特征图。
105.步骤404,将多张特征图输入至第一分类模型的注意力模块中,通过注意力模块的降维处理后,得到第一维度的第一数据矩阵。
106.其中,在第一分类模型识别特征图的过程中,由于特征矩阵过大,导致计算量大,以及第一分类模型的训练时间长的问题,因此,为解决上述问题,本实施例通过注意力模块的降维处理,降低第一分类模型的计算量,从而提高分类、聚类算法的精度,避免维数灾难问题。
107.注意力机制(attention mechanism)是一种聚焦于局部信息的机制,即用于图像识别中对图片中关注的特征值增加权重大小,来获取到图片中的重要信息,本实施例在第一分类模型中加入注意力机制目标检测算法,注意力因子对面部表情(例如眼睛、眉毛和嘴角)特征值进行放大,对学生的面部表情进行神经网络图形识别实现分类。
108.由于降维的次数与注意力模块的卷积核的大小以及步长大小有关,因此,根据特征图的维度和所需的第一维度的第一数据矩阵之间的差异,确定目标降维量;根据注意力模块的卷积核和步长大小,确定目标降维次数。例如,注意力模块的卷积核大小一般为3
×
3,步长为2,输入的表情图像维度为608
×
608,第一维度为76
×
76,因此,目标降维次数为2,如图6所示,需要设置两个注意力模块对输入的特征图进行两次降维处理,将维度为304
×
304的特征图降维至维度为152
×
152的特征图后,再将维度为152
×
152的特征图降维至76
×
76的特征图,从而得到维度为76
×
76的第一数据矩阵。
109.可选地,终端将多张特征图输入至第一分类模型的注意力模块中,根据注意力模块的卷积核和步长大小,确定目标降维次数,根据目标降维次数确定第一分类模型中注意力模块的个数,通过多个注意力模块对特征图进行多次降维处理后,得到第一维度的第一数据矩阵。
110.步骤406,将第一数据矩阵输入至第一分类模型的注意力模块,通过注意力模块的
降维处理后,得到第二维度的第二数据矩阵;第二维度小于第一维度。
111.其中,为了提高第一分类模型的识别精度,以及避免第一分类模型过拟合,本实施例在获取了第一维度的第一数据矩阵的基础上,再次获取第二维度的第二数据矩阵,从多维度识别特征图的分类结果。以图6为例,假设第二维度为38
×
38,则需要一个注意力模块进行一次降维处理后,即可将维度为76
×
76的第一数据矩阵降维至维度为38
×
38的第二数据矩阵。
112.可选地,终端根据第二维度和第一维度之间的维度差值,确定目标降维次数,根据目标降维次数确定注意力模块的个数,将第一维度的第一数据矩阵输入至第一分类模型的注意力模块,通过注意力模块的降维处理后,得到第二维度的第二数据矩阵。
113.步骤408,对第二数据矩阵依次进行卷积操作、归一化操作、激活操作和池化操作后,得到第三维度的第三数据矩阵;第三维度小于第二维度。
114.其中,对第二数据矩阵依次进行卷积操作可以起到降维的作用。一般用于预测的三个特征图尺寸为:19
×
19
×
255、38
×
38
×
255和76
×
76
×
255,其中,255表示80个分类数量对应的特征图的矩阵厚度,因此,以图6为例,第二维度的第二数据矩阵经过降维后得到19
×
19的第三数据矩阵。
115.可选地,终端对第二数据矩阵依次进行卷积操作、归一化操作、激活操作和池化操作后,得到第三维度的第三数据矩阵。
116.步骤410,将第一数据矩阵、第二数据矩阵和第三数据矩阵分别输入至第一分类模型的全连接层,得到表情分类结果。
117.其中,全连接层将第一数据矩阵、第二数据矩阵和第三数据矩阵进行连接,得到拼接矩阵,根据拼接矩阵识别特征图的分类结果,提高第一分类模型的识别精度,以及避免第一分类模型过拟合。
118.可选地,终端将第一分类模型的第一数据矩阵、第二数据矩阵和第三数据矩阵分别输入至第一分类模型的全连接层,得到拼接矩阵,识别拼接矩阵映射的表情分类结果。
119.本实施例中,一方面,在第一分类模型中引入注意力模块,通过注意力模块对待分类图像中表情图像的特征值进行放大,提高特征提取效率,便于第一分类模型对待分类图像中表情图像的面部表情进行识别;另一方面,对表情图像进行多次降维处理,得到不同维度的第一数据矩阵、第二数据矩阵和第三数据矩阵,根据第一数据矩阵、第二数据矩阵和第三数据矩阵的拼接矩阵,识别拼接矩阵映射的表情分类结果,可以降低第一分类模型的计算量,从多维度识别特征图的分类结果,提高第一分类模型的识别精度,以及避免第一分类模型过拟合。
120.在一个实施例中,注意力模块中的卷积计算单元的归一处理和激活函数使用频率很高,但是实际中并不需要过度归一和激活,导致第一分类模块的计算量大。因此,为解决上述问题,本实施例改进注意力模块的结构,注意力模块的处理流程如图7所示,采用多个卷积计算后统一归一和激活,可降低归一和激活的次数。由于本实施例中注意力模块的结构相同,因此,在此只介绍第一分类模型中一个注意力模块的结构。具体的,如图8所示,将第一数据矩阵输入至第一分类模型的注意力模块,通过注意力模块的降维处理后,得到第二维度的第二数据矩阵,包括:
121.步骤802,将第一数据矩阵输入至第一分类模型的注意力模块中,通过注意力模块
中卷积层对第一数据矩阵依次进行卷积操作、归一化操作和激活操作,得到第一卷积结果。
122.其中,卷积操作、归一化操作和激活操作是第一分类模型的最小计算单元,可以起到降维的作用。第一数据矩阵经过最小计算单元处理后,维度从第一维度降维至第二维度。第一卷积结果是维度为第二维度的数据矩阵。
123.可选地,终端将第一数据矩阵输入至第一分类模型的注意力模块中,通过注意力模块中卷积层对第一数据矩阵依次进行卷积操作、归一化操作和激活操作,得到第一卷积结果。
124.步骤804,对第一卷积结果依次进行卷积操作、残差处理和卷积操作后,得到第二卷积结果。
125.其中,残差处理可以缓解由于网络加深带来的梯度爆炸、梯度消失的问题。卷积操作、残差处理和卷积操作分别由注意力模块的第一个卷积层、残差组件和第二个卷积层处理。第一个卷积层的卷积核为3
×
3,步长为1,第一卷积结果经过第一卷积层处理后维度不变;第二个卷积层的卷积核为3
×
3,步长为2,这样可以起到降维作用。
126.可选地,终端将第一卷积结果输入至注意力模块中,通过注意力模块分别对第一卷积结果依次进行卷积操作、残差处理和卷积操作后,得到第二卷积结果。
127.步骤806,对第一卷积结果进行卷积操作,得到第三卷积结果。
128.其中,第三卷积结果的作用是与第二卷积结果进行级联,这种级联结构可以使得大量特梯度信息被重用,有利于网络学习。第三卷积结果是由注意力模块的第三个卷积层对第一卷积结果进行卷积操作得来的。
129.可选地,终端将第一卷积结果输入至第一分类模型的注意力模块的第三个卷积层,通过第三个卷积层对第一卷积结果进行卷积操作,得到第三卷积结果。
130.步骤808,将第二卷积结果和第三卷积结果进行级联,得到级联矩阵。
131.其中,级联结构可以使得大量特梯度信息被重用,有利于网络学习。本实施例通过注意力模块的全连接层对第二卷积结果和第三卷积结果进行级联。
132.可选地,终端将第二卷积结果和第三卷积结果分别输入至第一分类模块的注意力模块的全连接层,通过全连接层对第二卷积结果和第三卷积结果进行级联,得到级联矩阵。
133.步骤810,对级联矩阵依次进行归一化处理、激活处理和注意力特征提取处理,得到第二维度的第二数据矩阵。
134.其中,本实施例的第一卷积结果经过第一个卷积层、第二个卷积层和第三个卷积层做卷积处理后,再进行归一化处理和激活处理,采用多个卷积计算后统一归一和激活,可降低归一和激活的次数。激活处理可以选用激活函数进行处理,激活函数可以选择leaky relu激活函数或者mish激活函数。
135.注意力特征提取处理可以采用注意力因子进行处理,例如,可以选用senet注意力机制对面部表情(例如眼睛、眉毛和嘴角)特征值进行放大。
136.本实施例中,对第一卷积结果进行卷积操作后,立即执行残差处理,而非进行归一化操作和激活操作,将归一化操作和激活操作放置在注意力模块的结构尾部,采用多个卷积计算后统一归一和激活,可降低归一和激活的次数。
137.在一个实施例中,若学习效果为待分类图像对应的课堂实际难度级别,则如图9所示,根据每种学习状态对应的实际概率分布值与预设概率分布值之间的相似度,确定待分
类图像的学习效果,包括:
138.步骤902,确定待分类图像对应的课堂预估难度级别。
139.其中,课堂预估难度级别可以是教师根据授课内容预估的难度级别,也可以是终端根据授课内容中知识点的难度系数确定的难度级别。
140.步骤904,根据至少一个预估模型,获取课堂预估难度级别对应的预设概率分布值。
141.其中,每一个课堂预估难度级别对应一个总体的预设概率分布值。例如,将课堂预估难度级别设置为10级,1级最简单,10级最难,若难度等级为10级,则对应的总体的预设概率分布值可以是22%采样点认真听讲,46%疑惑/没有听懂,23%犯困/疲劳/睡觉、5%不感兴趣/开小差、1%交头接耳、3%不确定。
142.预设概率分布值可以根据一个预估模型的预测值确定,也可以是根据多个预估模型的预测值确定。若根据多个预估模型的预测值确定预设概率分布值,则根据多个预估模型的预测值与实际概率分布值之间的聚类距离,选最小的聚类距离对应的预测值作为最终的预设概率分布值。
143.采用不同难度等级下对应的待分类图像作为训练样本,在训练样本上标注难度等级,预估模型识别样本上的目标对象的面部表情,根据目标对象的面部表情,确定与面部表情对应的学习状态,计算学习状态对应的概率分布值,根据概率分布值输出训练样本对应的难度等级,若难度等级与样本标注的难度等级的误差值小于预设值,则完成一次训练;若难度等级与样本标注的难度等级的误差值大于预设值,则调整预估模型的参数,迭代多次训练过程,直至满足迭代次数满足预设次数,以及预估模型输出的难度等级与样本标注的难度等级相同时,停止训练得到已训练好的预估模型。
144.可选地,终端确定待分类图像对应的课堂预估难度级别,通过至少一个预估模型获取与课堂预估难度级别对应的预设概率分布值。
145.步骤906,计算待分类图像的每种学习状态对应的实际概率分布值与预设概率分布值之间的相似度。
146.其中,实际概率分布值与预设概率分布值之间的相似度可以计算实际概率分布值与预设概率分布值之间的距离确定,例如,可以采用kmeans聚类算法计算实际概率分布值与预设概率分布值之间的聚类距离。若聚类距离越接近0,则说明实际概率分布值与预设概率分布值越相似,待分类图像对应课堂实际难度等级越接近课堂预估难度级别。换言之,待分类图像的学习效果越接近实际情况。
147.可选地,终端采用聚类算法计算待分类图像的每种学习状态对应的实际概率分布值与预设概率分布值之间的相似度。
148.步骤908,若相似度小于预设阈值,则将课堂预估难度级别作为待分类图像对应的课堂实际难度级别。
149.其中,相似度小于预设阈值,则说明课堂实际难度等级越接近课堂预估难度级别。例如,课堂预估难度级别为10级,若相似度小于预设阈值,则将课堂预估难度级别,即10级,作为待分类图像对应的课堂实际难度级别。
150.在一些实施例中,若相似度大于预设阈值,则重新执行确定待分类图像对应的课堂预估难度级别的步骤,直至相似度小于预设阈值。
151.其中,相似度大于预设阈值,则说明课堂实际难度等级与课堂预估难度级别相差甚远,学生对当前的授课内容的接受度低,教师需要对授课内容进行调整。在相似度大于预设阈值时,为获取待分类图像对应的学习效果,本实施例,需要重新确定待分类图像对应的课堂预估难度级别,根据待分类图像的每种学习状态对应的实际概率分布值与预设概率分布值之间的相似度确定课堂实际难度等级,
152.可选地,终端根据待分类图像的每种学习状态对应的实际概率分布值与预设概率分布值之间的相似度与预设阈值之间的关系,确定待分类图像对应的学习效果,若相似度小于预设阈值,则将课堂预估难度级别作为待分类图像对应的课堂实际难度级别;若相似度大于预设阈值,则重新执行确定待分类图像对应的课堂预估难度级别的步骤,直至相似度小于预设阈值。
153.本实施例中,根据待分类图像的每种学习状态对应的实际概率分布值与预设概率分布值之间的相似度与预设阈值之间的关系,确定待分类图像对应的课堂实际难度级别,建立学习状态与课堂实际难度级别之间映射关系,根据映射关系,可以从学习转台和课堂实际难度级别多维度评价待分类图像对应的学习效果,使得学习效果可以有效反映学生的真实学习情况。
154.在一个实施例中,预估模型包括至少一个预估模块,即通过多个预估模型获取与课堂预估难度级别对应的预设概率分布值,则根据至少一个预估模型,获取课堂预估难度级别对应的预设概率分布值,如图10所示,包括以下步骤:
155.步骤1002,获取与课堂预估难度级别匹配的多个预估模型,以及多个预估模型对应的多个预设概率分布值。
156.其中,每个课堂预估难度级别都对应至少一个预估模型,该预估模型输出在对应的课堂预估难度级别下的学习状态的预设概率分布值。预设概率分布值可以根据一个预估模型的预测值确定,也可以是根据多个预估模型的预测值确定。本实施例才用多个预估模型的预测值确定课堂预估难度级别匹配的预设概率分布值,每个预估模型可以采用不同的模型训练得到,并且每个预估模型输出的预设概率分布值各不相同。
157.可选地,终端根据课堂预估难度级别,获取多个用于预估当前的课堂预估难度级别下的学习状态的预设概率分布值的预估模型,获取多个预估模型对应的预设概率分布值。
158.步骤1004,计算待分类图像的每种学习状态对应的实际概率分布值与多个预估模型的预设概率分布值之间的聚类距离,根据最小的聚类距离对应的预估模型,确定待分类图像对应的预设概率分布值。
159.其中,若根据多个预估模型的预测值确定预设概率分布值,则根据多个预估模型的预测值与实际概率分布值之间的聚类距离,选最小的聚类距离对应的预测值作为最终的预设概率分布值。
160.实际概率分布值与多个预估模型的预设概率分布值之间的聚类距离可以采用以下算法进行计算:
[0161][0162]
其中,ai表示权重;xi表示实际概率分布值;yi表示预设概率分布值;k表示待分类
图像对应的学习状态的种类数;h(z)表示聚类距离。
[0163]
例如,待分类图像对应的学习状态的实际概率分布值为27%采样点认真听讲,41%疑惑/没有听懂,15%犯困/疲劳/睡觉,6%不感兴趣/开小差,1%交头接耳,11%不确定,待分类图像对应的学习状态的预设概率分布值为22%采样点认真听讲,46%疑惑/没有听懂,23%犯困/疲劳/睡觉,5%不感兴趣/开小差,1%交头接耳,3%不确定,将权重设置为1,则实际概率分布值与预设概率分布值之间的聚类距离为:
[0164][0165]
采用相同的原理,计算待分类图像的每种学习状态对应的实际概率分布值与多个预估模型的预设概率分布值之间的聚类距离,选最小的聚类距离对应的预测值作为最终的预设概率分布值。
[0166]
可选地,终端计算待分类图像的每种学习状态对应的实际概率分布值与多个预估模型的预设概率分布值之间的聚类距离,选最小的聚类距离对应的预测值作为待分类图像对应的最终的预设概率分布值。
[0167]
本实施例中,根据多个预估模型的预测值与实际概率分布值之间的聚类距离,选最小的聚类距离对应的预测值作为最终的预设概率分布值,通过上述方法选择最接近课堂实际难度等级的课堂预估难度级别,可以提高计算待分类图像的每种学习状态对应的实际概率分布值与预设概率分布值之间的相似度的计算精度,使得确定的课堂实际难度级别可以有效反映学生的真实学习情况。
[0168]
在一个实例中,如图11所示,双模态分类模型的训练过程包括以下步骤:
[0169]
步骤1102,获取训练样本,每个训练样本包括表情样本、标注表情样本的第一表情分类结果、肢体样本、标注肢体样本的第一肢体分类结果以及标注表情样本和肢体样本对应的第一决策结果。
[0170]
其中,训练样本可以是教师在授课的过程中包括学生面部表情和上肢动作的图像。
[0171]
可选地,终端将训练样本中包括学生面部表情的图像区域作为表情样本,并在训练样本中标注表情样本的第一表情分类结果,将训练样本中包括学生上肢动作的图像区域作为上肢样本,并在训练样本中标注肢体样本的第一肢体分类结果,并根据训练样本中标注的第一表情分类结果和第一肢体分类结果,确定当前训练样本的第一决策结果。
[0172]
步骤1104,将表情样本输入至第一分类模型,获取第一分类模型的第二表情分类结果,根据第二表情分类结果和第一表情分类结果之间差异,调整第一分类模型的参数。
[0173]
其中,第一分类模型将面部表情分为专注、喜悦、厌烦、走神、困惑和沮丧六种表情,即第二表情分类结果包括六种表情中至少一种表情。为避免第一分类模型出现过拟合现象,本实施例随机去掉10%的表情样本。
[0174]
第二表情分类结果和第一表情分类结果之间差异通过损失函数确定。通过损失函数更新第一分类模型的权重,第一分类模型的节点均分配有随机权重和偏差值,根据第一分类模型的单次迭代输出,确定单次迭代输出与输入标注信息之间的误差值,将误差值和成本函数的梯度一起反馈给第一分类模型以更新第一分类模型的权重,以便减少后续迭代中的误差值。
[0175]
可选地,终端将表情样本输入至第一分类模型,获取第一分类模型的第二表情分
类结果,根据损失函数确定第二表情分类结果和第一表情分类结果之间误差值,将误差值和成本函数的梯度一起反馈给第一分类模型以更新第一分类模型的权重。
[0176]
步骤1106,将肢体样本输入至第二分类模型,获取第二分类模型的第二肢体分类结果,根据第二肢体分类结果和第一肢体分类结果之间差异,调整第二分类模型的参数。
[0177]
其中,第二分类模型将上肢动作分为抬头、低头、左顾右盼和趴下四种行为,即第二表情分类结果包括四种动作中至少一种动作。为避免第二分类模型出现过拟合现象,本实施例随机去掉10%的肢体样本。
[0178]
第二分类模型的训练过程与第一分类模型的训练过程相同,因此,在此不再累述。
[0179]
步骤1108,将第二表情分类结果和第二肢体分类结果输入双模态分类模型的决策器中,获取决策器输出的第二决策结果,根据第二决策结果与第一决策结果之间的差异,调整决策器的参数,完成一次训练。
[0180]
其中,决策器的训练过程与第一分类模型的训练过程相同,因此,在此不再累述。
[0181]
步骤1110,迭代多次训练过程,当损失函数满足目标值时,停止训练得到已训练好的双模态分类模型。
[0182]
可选地,迭代多次训练过程,直至第一分类模型、第二分类模型和决策器的损失函数均满足目标值,此时,训练结束,可得到已训练好的双模态分类模型。
[0183]
本实施例中,第一分类模型、第二分类模型和决策器组成了残差网络结构,在训练时由于双模态分类模型为残差网络结构的,从而提高了网络的训练效率和特征提取精度。
[0184]
在一个实施例中,提供一种图像分类方法,具体包括以下步骤:
[0185]
步骤1,获取待分类图像中多个目标对象的表情图像和肢体图像。
[0186]
步骤2,将表情图像输入至已经训练好的双模态分类模型的第一分类模型中,通过第一分类模型对所述表情图像进行切片处理,得到多张特征图。
[0187]
步骤3,将多张特征图输入至第一分类模型的注意力模块中,通过注意力模块的降维处理后,得到第一维度的第一数据矩阵。
[0188]
步骤4,将第一数据矩阵输入至第一分类模型的注意力模块中,通过注意力模块中卷积层对第一数据矩阵依次进行卷积操作、归一化操作和激活操作,得到第一卷积结果。
[0189]
步骤5,对第一卷积结果依次进行卷积操作、残差处理和卷积操作后,得到第二卷积结果。
[0190]
步骤6,对第一卷积结果进行卷积操作,得到第三卷积结果。
[0191]
步骤7,将第二卷积结果和第三卷积结果进行级联,得到级联矩阵。
[0192]
步骤8,对级联矩阵依次进行归一化处理、激活处理和注意力特征提取处理,得到第二维度的第二数据矩阵。
[0193]
步骤9,对第二数据矩阵依次进行卷积操作、归一化操作、激活操作和池化操作后,得到第三维度的第三数据矩阵;第三维度小于第二维度。
[0194]
步骤10,将第一数据矩阵、第二数据矩阵和第三数据矩阵分别输入至第一分类模型的全连接层,得到表情分类结果。
[0195]
步骤11,将肢体图像输入至已经训练好的双模态分类模型的第二分类模型中,得到肢体分类结果。
[0196]
步骤12,将表情分类结果和肢体分类结果进行融合,通过双模态分类模型的决策
器得到待分类图像中多个目标对象的学习状态,以及每种学习状态对应的实际概率分布值。
[0197]
步骤13,确定待分类图像对应的课堂预估难度级别。
[0198]
步骤14,获取与课堂预估难度级别匹配的多个预估模型,以及多个预估模型对应的多个预设概率分布值。
[0199]
步骤15,计算待分类图像的每种学习状态对应的实际概率分布值与多个所述预估模型的预设概率分布值之间的聚类距离,根据最小的聚类距离对应的预估模型,确定待分类图像对应的预设概率分布值。
[0200]
步骤16,计算待分类图像的每种学习状态对应的实际概率分布值与预设概率分布值之间的相似度。
[0201]
步骤17,若相似度小于预设阈值,则将课堂预估难度级别作为待分类图像对应的课堂实际难度级别。
[0202]
步骤18,若相似度大于预设阈值,则重新执行确定待分类图像对应的课堂预估难度级别的步骤,直至相似度小于预设阈值。
[0203]
本实施例中,通过待分类图像中目标对象的面部表情和肢体动作,融合决策待分类图像对应的课堂实际难度级别,并在不降低双模态分类模型的识别精度的同时,降低双模态分类模型的计算量。
[0204]
在一些实施例中,一般的,线上教育平台包括权限管理模块、面部识别认证模块、虚拟背景合成模块和课堂评价模块,本实施例提供一种图像分类方法应用在线上教育平台中课堂评价模块的场景,其中,线上教育平台的各模块作用分别如下:
[0205]
权限管理模块,用于创建用户,用户分为教师、学生和管理员三种角色。教师具有创建删除修改查询自身的课堂和对自己管理的课堂有增、删、改、查学员的功能。学生具有选课的权限。管理员对系统有最高权限,可以对课堂和学员都全部权限。
[0206]
面部识别认证模块,针对学生上传近期的面部照片,为身份认证中的面部识别匹配提供对比基线,即为打卡签到提供服务,比如防止比如代替上课的问题,并自动实现点名报到的功能。
[0207]
虚拟背景合成模块,分为图像收集子模块、图像处理子模块、图像合成子模块、图形背景呈现子模块。其中,虚拟背景合成模块的各子模块的作用如下:
[0208]
图像采集子模块,通过摄像头采集的图形子线程每隔一段时间(比如每30秒,或是60s)进行一次更新收集,并根据课堂的座位表进行合并处理加工,可以有效减少图形处理的数据量。
[0209]
图像处理子模块,为保障图形合成的相对不违和性,即由于不同的摄像头距离和学生不同,有的学生的头像呈像大小不同,因此需要对此进行处理,图像处理管理器处理方法从两个角度展开,一是对学生的摄像头进行提示一定范围的距离,进行预处理。二是对一定距离范围的获取的图形进行放大或者缩小的图形处理,使面部大小基本上为处于相近的范围内,避免头像合成违和性。
[0210]
图像合成子模块,通过对学生的摄像头收集的图像按照一定的策略进行合并处理,并加以虚拟背景墙合成虚拟背景。教师侧可以实时查看学生的摄像头按照课堂座位表或者其他策略设置方式的图像合并处理后的合影,也可以点击标签页切换到分屏模式。图
形合并的策略可以上传学生的课堂座位表,也可以通过学号排序、自动生成等其他方式进行课堂座位的排序。策略通过策略管理器实现。对于没有识别出头像的面部使用空白的影像拼接,可以一下子识别出来没有出席的同学。
[0211]
图像背景呈现子模块,用于对图形合成子模块合成的虚拟背景进行图像呈现。也可以切换为分屏,即未处理的摄像头的图像,可以通过点击分屏页的学生进行页面抖动或者弹窗,对注意力不集中的学生进行及时的提醒,提高学习的互动性。对于连续多次没有头像出现在图像中的进行教师侧的报警。可以过图像识别进行。虚拟背景有模板也可以上传背景。比如可以添加课桌,添加装饰等。
[0212]
课堂评价模块,对虚拟背景合成模块中图像处理子模块的处理过的学生摄像头图像进行拟随机采样,同一个摄像头下获取相同的课程图像,采用相同的所属id标记。对图片进行一式两份的处理。通道一用于图像的背景合成,通道二为课程评价的图像识别服务。通道二将相同的所属id的采集的图片放入图片处理过滤器,对图片进行过滤处理。每个学生的采样的摄像头的头像要包含表情,如果不包含的头像直接作为垃圾图像废弃,剩下的图像随机丢弃10%的图像,然后进行预处理,包含大小处理,处理成训练集的大小为608*608,并进行存储,有利于后面的进行图形识别的情绪分类,然后用于识别每个学生面部的参考点,例如现在比较流行的面部识别数据集有68个采样点。对其进行三角剖分以获得几何特征,采用多目标识别算法实现面部表情和上肢动作的识别。
[0213]
本实施例中,智能识别出摄像头下学生的人脸图像的表情和上肢的姿态动作,双模态建模一方面决策识别学生的情感,另一方面通过智能算法评分对课程进行客观的评价。
[0214]
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0215]
基于同样的发明构思,本技术实施例还提供了一种用于实现上述所涉及的图像分类方法的图像分类装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个图像分类装置实施例中的具体限定可以参见上文中对于图像分类方法的限定,在此不再赘述。
[0216]
在一个实施例中,如图12所示,提供了一种图像分类装置,包括:
[0217]
获取模块100,用于获取待分类图像中多个目标对象的表情图像和肢体图像;
[0218]
表情分类模块200,用于将表情图像输入至已经训练好的双模态分类模型的第一分类模型中,得到表情分类结果;
[0219]
肢体分类模块300,用于将肢体图像输入至已经训练好的双模态分类模型的第二分类模型中,得到肢体分类结果;
[0220]
融合决策模块400,用于将表情分类结果和肢体分类结果进行融合,通过双模态分类模型的决策器得到待分类图像中多个目标对象的学习状态,以及每种学习状态对应的实
际概率分布值;
[0221]
确定模块500,用于根据每种学习状态对应的实际概率分布值与预设概率分布值之间的相似度,确定待分类图像对应的学习效果。
[0222]
在一个实施例中,表情分类模块200还用于:将表情图像输入至已经训练好的双模态分类模型的第一分类模型中,通过第一分类模型对表情图像进行切片处理,得到多张特征图;
[0223]
将多张特征图输入至第一分类模型的注意力模块中,通过注意力模块的降维处理后,得到第一维度的第一数据矩阵;
[0224]
将第一数据矩阵输入至第一分类模型的注意力模块,通过注意力模块的降维处理后,得到第二维度的第二数据矩阵;第二维度小于第一维度;
[0225]
对第二数据矩阵依次进行卷积操作、归一化操作、激活操作和池化操作后,得到第三维度的第三数据矩阵;第三维度小于第二维度;
[0226]
将第一数据矩阵、第二数据矩阵和第三数据矩阵分别输入至第一分类模型的全连接层,得到表情分类结果。
[0227]
在一个实施例中,表情分类模块200还用于:将第一数据矩阵输入至第一分类模型的注意力模块中,通过注意力模块中卷积层对第一数据矩阵依次进行卷积操作、归一化操作和激活操作,得到第一卷积结果;
[0228]
对第一卷积结果依次进行卷积操作、残差处理和卷积操作后,得到第二卷积结果;
[0229]
对第一卷积结果进行卷积操作,得到第三卷积结果;
[0230]
将第二卷积结果和第三卷积结果进行级联,得到级联矩阵;
[0231]
对级联矩阵依次进行归一化处理、激活处理和注意力特征提取处理,得到第二维度的第二数据矩阵。
[0232]
在一个实施例中,学习效果为待分类图像对应的课堂实际难度级别,确定模块500还用于:确定待分类图像对应的课堂预估难度级别;
[0233]
根据至少一个预估模型,获取课堂预估难度级别对应的预设概率分布值;
[0234]
计算待分类图像的每种学习状态对应的实际概率分布值与预设概率分布值之间的相似度;
[0235]
若相似度小于预设阈值,则将课堂预估难度级别作为待分类图像对应的课堂实际难度级别。
[0236]
在一个实施例中,预估模型包括至少一个预估模块,确定模块500还用于:
[0237]
获取与课堂预估难度级别匹配的多个预估模型,以及多个预估模型对应的多个预设概率分布值;
[0238]
计算待分类图像的每种学习状态对应的实际概率分布值与多个预估模型的预设概率分布值之间的聚类距离,根据最小的聚类距离对应的预估模型,确定待分类图像对应的预设概率分布值。
[0239]
在一个实施例中,确定模块500还用于:若相似度大于预设阈值,则重新执行确定待分类图像对应的课堂预估难度级别的步骤,直至相似度小于预设阈值。
[0240]
在一个实施例中,所述装置还包括训练模块600,训练模块600用于获取训练样本,每个训练样本包括表情样本、标注表情样本的第一表情分类结果、肢体样本、标注肢体样本
的第一肢体分类结果以及标注表情样本和肢体样本对应的第一决策结果;
[0241]
将表情样本输入至第一分类模型,获取第一分类模型的第二表情分类结果,根据第二表情分类结果和第一表情分类结果之间差异,调整第一分类模型的参数;
[0242]
将肢体样本输入至第二分类模型,获取第二分类模型的第二肢体分类结果,根据第二肢体分类结果和第一肢体分类结果之间差异,调整第二分类模型的参数;
[0243]
将第二表情分类结果和第二肢体分类结果输入双模态分类模型的决策器中,获取决策器输出的第二决策结果,根据第二决策结果与第一决策结果之间的差异,调整决策器的参数,完成一次训练;
[0244]
迭代多次训练过程,当损失函数满足目标值时,停止训练得到已训练好的双模态分类模型。
[0245]
上述图像分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0246]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图13所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、移动蜂窝网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种图像分类方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置,显示屏可以是液晶显示屏或电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
[0247]
本领域技术人员可以理解,图13中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0248]
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
[0249]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0250]
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0251]
需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
[0252]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory,mram)、铁电存储器(ferroelectric randomaccess memory,fram)、相变存储器(phase change memory,pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(randomaccess memory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static randomaccess memory,sram)或动态随机存取存储器(dynamic randomaccess memory,dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
[0253]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0254]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献