一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种图像分类方法、电子设备、存储介质及程序产品与流程

2022-04-25 02:21:33 来源:中国专利 TAG:


1.本技术涉及图像处理技术领域,特别是涉及一种图像分类方法、电子设备、存储介质及程序产品。


背景技术:

2.随着计算机技术的发展,图像分类模型可以实现对各种待分类图像的分类,其中,图像分类模型在训练阶段,学习并区分了各样本图像的特征。如果用于模型训练的样本集中,各类别样本图像数量不均衡,可能会导致图像分类模型不能很好地学习并区分各类别样本图像的特征,从而影响图像分类模型的准确性。
3.然而,大部分样本集中的样本图像都具有类别不均的问题,因此,训练得到的图像分类模型往往在准确性方面都还有较大的提升空间。如何提升图像分类模型的准确性,对于图像分类模型的未来发展有着重要意义。


技术实现要素:

4.鉴于上述问题,本发明实施例提供了一种图像分类方法、电子设备、存储介质及程序产品,以便克服上述问题或者至少部分地解决上述问题。
5.本发明实施例的第一方面,提供了一种图像分类方法,所述方法包括:
6.获取待分类图像;
7.将所述待分类图像输入图像分类模型,得到所述待分类图像的分类预测结果,其中,所述图像分类模型是使用基础损失和类间损失,对预设模型进行训练得到的;
8.所述基础损失是根据所述预设模型预测的每个样本图像的分类预测结果,和每个样本图像的真实类别标签确定的;
9.所述类间损失是根据所述预设模型预测的每个样本图像的分类预测结果,和每个样本图像的软类别标签确定的,一个样本图像的软类别标签是根据各样本图像被预测为该样本图像的真实类别的置信度确定的。
10.可选地,所述图像分类模型的训练过程包括以下步骤:
11.获取多个携带真实类别标签的样本图像,并输入所述预设模型,得到每个样本图像的分类预测结果;
12.根据每个样本图像的分类预测结果和该样本图像的真实类别标签之间的差异,建立所述基础损失;
13.根据每个样本图像的分类预测结果和该样本图像的软类别标签之间的差异,建立所述类间损失;
14.基于所述基础损失和所述类间损失,对所述预设模型进行训练,得到所述分类模型。
15.可选地,根据每个样本图像的分类预测结果和该样本图像的软类别标签之间的差异,建立所述类间损失,包括:
16.根据每个样本图像的分类预测结果和该样本图像携带的真实类别标签,建立混淆矩阵,所述混淆矩阵中的元素表征:真实类别为该元素所在行的类别的多个样本,被预测为该元素所在列的类别的平均置信度;
17.取所述混淆矩阵中每个样本图像对应的列向量作为该样本图像的软类别标签,一个样本图像对应的列向量表征各样本被预测为该样本的真实类别的置信度;
18.根据每个样本图像的分类预测结果和该样本图像对应的列向量之间的差异,建立所述类间损失。
19.可选地,根据每个样本图像的分类预测结果和该样本图像携带的真实类别标签,建立混淆矩阵,包括:
20.获取每个样本图像被预测为除背景类别之外的各类别的置信度;
21.对所述每个样本图像被预测为除背景类别之外的各类别的置信度进行归一化,得到每个样本图像的归一化预测结果;
22.根据所述每个样本图像的归一化预测结果和携带的真实类别标签,建立混淆矩阵。
23.可选地,得到每个样本图像的分类预测结果,包括:
24.得到在不同训练批次每个样本图像的分类预测结果;
25.根据每个样本图像的分类预测结果和该样本图像携带的真实类别标签,建立混淆矩阵,包括:
26.根据每个样本图像的真实类别标签和在每个训练批次该样本图像的分类预测结果,建立不同训练批次的混淆矩阵;
27.对所述不同训练批次的混淆矩阵中对应位置的元素进行平均,得到混淆矩阵的元素,进而建立混淆矩阵。
28.可选地,所述预设模型为未训练的实例分割模型的分类分支,所述未训练的实例分割模型还包括位置预测分支;所述实例分割模型中的分类分支的训练过程至少包括以下步骤:
29.获取包含样本对象的图像样本的图像特征,所述各样本对象携带自身的真实类别标签;
30.将所述图像样本的图像特征输入所述未训练的实例分割模型,得到所述位置预测分支输出的所述图像样本中各样本对象的第一预测位置框,以及所述分类分支输出的所述图像样本中各样本对象的第一预测类别;
31.基于所述各样本对象的第一预测位置框以及第一预测类别,对所述图像样本的图像特征进行更新;
32.基于所述图像样本更新后的图像特征,得到所述分类分支输出的所述图像样本中各样本对象的第二预测类别;
33.根据每个样本中各样本对象的第二预测类别,以及各样本对象的真实类别标签之间的差异,建立所述分类分支的基础损失;
34.根据每个样本中各样本对象的第二预测类别,以及各样本对象被预测为该样本对象的真实类别的置信度之间的差异,建立所述分类分支的类间损失;
35.基于所述分类分支的基础损失和类间损失,对所述分类分支进行训练。
36.可选地,还包括:
37.获取所述位置预测分支基于所述图像样本更新后的图像特征输出的所述图像样本中各样本对象的第二预测位置框;
38.基于所述分类分支的基础损失和类间损失,对所述分类分支进行训练,包括:
39.基于所述分类分支的基础损失及其权重和所述分类分支的类间损失及其权重,对所述分类分支进行训练,得到中间分支;
40.以所述中间分支为所述分类分支、以所述第二预测位置框为所述第一预测位置框、以所述第二预测类别为所述第一预测类别,重复对分类分支进行训练得到中间分支的步骤;
41.以最后一次得到的中间分支,作为所述实例分割模型的分类分支。
42.可选地,重复对分类分支进行训练得到中间分支的步骤,包括:
43.在重复对分类分支进行训练的得到中间分支的过程中,逐渐增大所述分类分支的类间损失的权重。
44.可选地,还包括:
45.获取包含待分类对象的未分类图像;
46.将所述未分类图像输入所述实例分割模型,得到所述实例分割模型的分类分支确定的所述未分类图像中各待分类对象的预测类别。
47.本发明实施例的第二方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,所述处理器执行所述计算机程序以实现如本技术实施例公开的所述的图像分类方法。
48.本发明实施例的第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现如本技术实施例公开的所述的图像分类方法。
49.本发明实施例的第四方面,提供了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现如本技术实施例公开的所述的图像分类方法。
50.本发明实施例的第五方面,提供了一种对象分类装置,包括:
51.获取模块,用于获取待分类图像;
52.分类模块,用于将所述待分类图像输入图像分类模型,得到所述待分类图像的分类预测结果,其中,所述图像分类模型是使用基础损失和类间损失,对预设模型进行训练得到的;所述基础损失是根据所述预设模型预测的每个样本图像的分类预测结果,和每个样本图像的真实类别标签确定的;所述类间损失是根据所述预设模型预测的每个样本图像的分类预测结果,和每个样本图像的软类别标签确定的,一个样本图像的软类别标签是根据各样本图像被预测为该样本图像的真实类别的置信度确定的。
53.本发明实施例包括以下优点:
54.本实施例中,可以获取待分类图像;将所述待分类图像输入图像分类模型,得到所述待分类图像的分类预测结果,其中,所述图像分类模型是使用基础损失和类间损失,对预设模型进行训练得到的;所述基础损失是根据所述预设模型预测的每个样本图像的分类预测结果,和每个样本图像的真实类别标签确定的;所述类间损失是根据所述预设模型预测的每个样本图像的分类预测结果,和每个样本图像的软类别标签确定的,一个样本图像的
软类别标签是根据各样本图像被预测为该样本图像的真实类别的置信度确定的。如此,基础损失是基于样本图像的分类预测结果和真实类别标签确定的,因此使用基础损失对预设模型进行训练,可以引导预设模型在对样本图像进行分类时,尽力将该样本图像分为该样本图像所属的真实类别。类间损失是基于样本图像的分类预测结果和各样本图像被预测为该样本图像的真实类别标签的置信度确定的;因此使用类间损失对预设模型进行训练,针对每个样本图像而言,可以使预设模型将其它类别的样本图像错分为该样本图像的真实类别的置信度,等于将该样本图像错分为其它错误类别的置信度;采用了对抗训练的思想,实现对错误分类的纠偏。因此,同时利用基础损失和类间损失对预设模型进行训练,可以得到准确性较高的图像分类模型,从而利用图像分类模型实现对待分类图像的准确分类。
附图说明
55.为了更清楚地说明本技术实施例的技术方案,下面将对本技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
56.图1是本发明实施例中一种图像分类方法的步骤流程图;
57.图2是本发明实施例中混淆矩阵的示意图;
58.图3是本发明实施例中平均不同训练批次的混淆矩阵得到最终混淆矩阵的示意图;
59.图4是本发明实施例中一种图像分类装置的结构示意图。
具体实施方式
60.为使本技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本技术作进一步详细的说明。
61.近年来,基于人工智能的计算机视觉、深度学习、机器学习、图像处理、图像识别等技术研究取得了重要进展。人工智能(artificial intelligence,ai)是研究、开发用于模拟、延伸人的智能的理论、方法、技术及应用系统的新兴科学技术。人工智能学科是一门综合性学科,涉及芯片、大数据、云计算、物联网、分布式存储、深度学习、机器学习、神经网络等诸多技术种类。计算机视觉作为人工智能的一个重要分支,具体是让机器识别世界,计算机视觉技术通常包括人脸识别、活体检测、指纹识别与防伪验证、生物特征识别、人脸检测、行人检测、目标检测、行人识别、图像处理、图像识别、图像语义理解、图像检索、文字识别、视频处理、视频内容识别、行为识别、三维重建、虚拟现实、增强现实、同步定位与地图构建(slam)、计算摄影、机器人导航与定位等技术。随着人工智能技术的研究和进步,该项技术在众多领域展开了应用,例如安防、城市管理、交通管理、楼宇管理、园区管理、人脸通行、人脸考勤、物流管理、仓储管理、机器人、智能营销、计算摄影、手机影像、云服务、智能家居、穿戴设备、无人驾驶、自动驾驶、智能医疗、人脸支付、人脸解锁、指纹解锁、人证核验、智慧屏、智能电视、摄像机、移动互联网、网络直播、美颜、美妆、医疗美容、智能测温等领域。
62.为解决相关技术中图像分类模型的准确性不高的技术问题,申请人提出:使用基础损失和类间损失二者共同对模型进行训练,以提升训练得到的图像分类模型的准确性。
63.参照图1所示,示出了本发明实施例中一种图像分类方法的步骤流程图,如图1所示,该图像分类方法具体可以包括以下步骤:
64.步骤s11:获取待分类图像;
65.步骤s12:将所述待分类图像输入图像分类模型,得到所述待分类图像的分类预测结果,其中,所述图像分类模型是使用基础损失和类间损失,对预设模型进行训练得到的;所述基础损失是根据所述预设模型预测的每个样本图像的分类预测结果,和每个样本图像的真实类别标签确定的;所述类间损失是根据所述预设模型预测的每个样本图像的分类预测结果,和每个样本图像的软类别标签确定的,一个样本图像的软类别标签是根据各样本图像被预测为该样本图像的真实类别的置信度确定的。
66.对待分类图像进行分类,可以是指对图像本身进行分类(例如图像的类别可以是风景图像、人物图像、动物图像等),也可以是指对图像中的前景对象进行分类(例如将猫的照片分类为猫,将狗的照片分类为狗)。本技术实施例以对图像中的前景对象进行分类为例,对图像分类方法进行说明,可以理解的是,对图像本身进行分类也是类似的思想。
67.将待分类图像输入图像分类模型,图像分类模型可以预测该待分类图像属于各个类别的置信度,并将该待分类图像属于各个类别的置信度作为该待分类图像的分类预测结果进行输出,或将各个类别中置信度最高的类别作为该待分类图像的分类预测结果进行输出。
68.图像分类模型是使用基础损失和类间损失,对预设模型进行训练得到的。预设模型在训练过程中确定的样本图像的分类预测结果是该样本图像属于各个类别的置信度。各个类别是指训练时使用的所有样本图像各自的类别和背景类别。可以是先设定各个类别的顺序,然后根据预设模型确定的样本图像属于各个类别的置信度生成向量,用该向量表示该样本图像的分类预测结果。例如,总共有猫、狗、猪、背景四个类别,设定上述四个类别的顺序依次为:猫、狗、猪、背景,预设模型确定的一个样本图像属于各个类别的置信度分别为:猫-0.5,狗-0.3,猪-0.1,背景0.1,则预设模型确定的该样本图像的分类预测结果用向量表示可以为[0.5,0.3,0.1,0.1]。
[0069]
可选地,为了使预设模型尽量学习到除背景类别外的各类别的样本图像的特征,可以删除分类预测结果中背景类别所属的置信度,然后将其余置信度进行归一化。沿用前文的例子,分类预测结果[0.5,0.3,0.1,0.1]在删除背景类别的置信度之后,可以得到新的分类预测结果约为[0.56,0.33,0.11]。
[0070]
样本图像的真实类别标签表征该样本图像真实所属的类别,和样本图像的分类预测结果相对应,真实类别标签也可以为向量,真实类别标签的向量中各元素表征的类别的顺序和样本图像的分类预测结果中各元素表征的类别的顺序相同。继续沿用前文的例子,若一个样本图像真实所属的类别为狗,则该样本图像的真实类别标签可以为[0,1,0,0],当然,在删除背景类别后,该样本图像的真实类别标签可以为[0,1,0]。
[0071]
针对每个样本图像,基于该样本图像的分类预测结果和该样本图像的真实类别标签,可以建立基础损失。使用基础损失对预设模型进行训练,可以引导预设模型在对样本图像进行分类时,尽力将该样本图像分为该样本图像所属的真实类别。
[0072]
还可以使用类间损失对预设模型进行训练,类间损失是根据样本图像的分类预测结果和软类别标签确定的,一个样本图像的软类别标签是根据各样本图像被预测为该样本
图像的真实类别的置信度确定的。可以理解的是,同一真实类别的样本图像的软类别标签相同。和样本图像的分类预测结果相对应,软类别标签也可以为向量,软类别标签的向量中各元素表征的类别的顺序和样本图像的分类预测结果中各元素表征的类别的顺序相同。
[0073]
例如,所有的样本图像的类别总共为猫、狗、猪,一个真实类别为狗的样本图像的软类别标签是所有样本图像被预测为狗的置信度,若所有猫样本图像被预测为狗的平均置信度为0.2,所有狗样本图像被预测为狗的平均置信度为0.6,所有猪样本图像被预测为狗的平均置信度为0.1,则狗样本图像的软类别标签可以为[0.2,0.6,0.1],可选地,可以对该软类别标签进行归一化为[0.22,0.67,0.11]。
[0074]
使用类间损失对预设模型进行训练,针对每个样本图像而言,可以使预设模型将其它类别的样本图像错分为该样本图像的真实类别的置信度,等于将该样本图像错分为其它类别的的置信度;如此,形成一种对抗训练,引导模型区分被预测为同一类别的各个样本图像之间的区别,实现对错误分类的纠偏。
[0075]
采用本技术实施例的技术方案,基础损失是基于样本图像的分类预测结果和真实类别标签确定的,因此使用基础损失对预设模型进行训练,可以引导预设模型在对样本图像进行分类时,尽力将该样本图像分为该样本图像所属的真实类别。类间损失是基于样本图像的分类预测结果和各样本图像被预测为该样本图像的真实类别标签的置信度确定的;因此使用类间损失对预设模型进行训练,针对每个样本图像而言,可以使预设模型将其它类别的样本图像错分为该样本图像的真实类别的置信度,等于将该样本图像错分为其它类别的置信度;采用了对抗训练的思想,实现对错误分类的纠偏。因此,同时利用基础损失和类间损失对预设模型进行训练,可以得到准确性较高的图像分类模型。
[0076]
可选地,图像分类模型是采用多个携带真实类别标签的样本图像,基于基础损失和类间损失,对预设模型进行训练得到的。可选地,基础损失是根据每个样本图像的分类预测结果和该样本图像的真实类别标签之间的差异,建立的交叉熵损失,类间损失是根据每个样本图像的分类预测结果和该样本图像的软类别标签之间的差异,建立的交叉熵损失。
[0077]
针对部分样本图像容易被错分为其它类别的问题,采用类间损失对预设模型进行训练,可以促使模型关注容易错分为另一类别的各样本图像之间的差异,从而使模型“认识”到该类别样本图像与该另一类别的各样本图像之间的差异。例如,样本图像的真实类别为猫或狗,预设模型容易将一部分猫(例如:无毛猫)预测为狗,则可以以各样本图像被预测为狗的置信度生成软类别标签,并利用该软类别标签建立类间损失对模型进行训练,使模型更加关注被预测为狗的各样本图像(无毛猫和真实的狗)之间的差异,从而使训练好的模型能够尽可能地区分无毛猫和狗。
[0078]
可选地,在对模型进行训练时,可以只针对被错误预测的概率较高的类别样本图像,计算该类别的样本图像容易被错分为的类别计算类间损失。
[0079]
可选地,可以利用混淆矩阵来建立类间损失,混淆矩阵是一种可视化工具,可以更加直观地反映样本图像的真实类别、预设模型对样本图像的分类预测结果,以及真实类别和分类预测结果之间的联系。本技术实施例中以行表征样本图像的真实类别,以列表征样本图像的预测类别,可以理解的是,行和列的表征也可以调换,并相应地调整其它技术手段。
[0080]
混淆矩阵中的元素,是基于每类样本图像的平均分类预测结果确定的。混淆矩阵
的每一行表征了该行对应的真实类别的各样本图像的平均分类预测结果,每一列表征了各类别样本图像被预测为该列对应的预测类别的平均置信度。
[0081]
图2示出了一个混淆矩阵的示意图,该混淆矩阵表征的含义是,真实类别为猫的各样本图像被预测为猫的置信度为0.6,被预测为狗的置信度为0.3,被预测为猪的置信度为0.1;真实类别为狗的各样本被预测为猫的置信度为0.2,被预测为狗的置信度为0.7,被预测为猪的置信度为0.1;真实类别为猪的各样本被预测为猫的置信度为0.1,被预测为狗的置信度为0.1,被预测为猪的置信度为0.8。其中,该混淆矩阵的第一列表征了所有样本中,所有猫样本被预测为猫的概率为0.6,所有狗样本被错误预测为猫的概率为0.2,所有猪样本被错误预测为猫的概率为0.1。
[0082]
每个样本图像对应的列向量表示混淆矩阵中,该样本图像的真实类别对应的预测类别所在的列中各个元素构成的向量,根据每个样本图像的分类预测结果和该样本图像对应的列向量之间的差异,可以建立类间损失。例如,图2中所有猫样本图像的软类别标签为[0.6,0.2,0.1],所有狗样本图像的软类别标签为[0.3,0.7,0.2],所有猪样本图像的软类别标签为[0.1,0.1,0.7]。
[0083]
实际训练过程中,预设模型确定的各样本图像属于各个类别的置信度时,还会确定出各样本图像属于背景类别的置信度。可选地,为了使预设模型尽量学习到除背景类别外的各类别的样本图像的特征,提高训练得到的图像分类模型的分类准确性,在建立混淆矩阵时,可以只将背景类别所属的列进行删除,然后将混淆矩阵中剩余元素进行归一化;或者可以只获取每个样本图像被预测为除背景类别之外的各类别的置信度,将每个样本图像被预测为除背景类别之外的各类别的置信度进行归一化,得到每个样本图像的归一化预测结果,然后根据每个样本图像的归一化预测结果和携带的真实类别标签,建立混淆矩阵。
[0084]
可选地,对预设模型进行了多轮训练,累计每轮训练得到的每个样本图像的分类预测结果,得到混淆矩阵。可以是直接根据每轮训练中的每个样本图像的分类预测结果,生成一个该训练批次的混淆矩阵,然后将多个混淆矩阵中对应位置的元素进行平均,得到最终的混淆矩阵的元素,进而建立混淆矩阵。图3示出了平均不同训练批次的混淆矩阵得到最终混淆矩阵的示意图,该图中平均了两个不同训练批次的混淆矩阵,得到了最终的混淆矩阵。
[0085]
也可以是直接将每个样本图像在多轮训练批次中的分类预测结果进行平均,并根据平均后的分类预测结果建立混淆矩阵。将分类预测结果进行平均是指,针对将类别的置信度进行平均,例如,一个样本图像的一次分类预测结果为猫-0.5,狗-0.3,另一次的分类预测结果为猫0.3,狗0.1,则平均这两次的分类预测结果,得到的平均后分类预测结果为猫-0.4,狗-0.2。
[0086]
可选地,对不同训练批次的混淆矩阵进行平均,以及对不同训练批次的分类预测结果进行平均,都可以是指数滑动平均,指数滑动平均增大了时间靠后的训练批次的分类预测结果的权重。
[0087]
采用本技术实施例的技术方案,平均多轮训练的分类预测结果建立混淆矩阵,可以使得到的混淆矩阵更加准确,避免一次训练的结果严重影响模型的训练效果,从而提高训练好的图像分类模型的准确性。
[0088]
可选地,作为一个实施例,预设模型是未训练的实例分割模型的分类分支,未训练
的实例分割模型还包括位置预测分支;可以采用如下步骤对未训练的实例分割模型中的分类分支进行训练,得到实例分割模型中的分类分支:
[0089]
步骤s21:获取包含样本对象的图像样本的图像特征,所述各样本对象携带自身的真实类别标签。
[0090]
利用图像样本对实例分割模型中的分类分支进行训练,图像样本中包括至少一个样本对象,各样本对象携带自身的真实类别标签。获取图像样本的图像特征,包括图像样本的颜色特征、纹理特征、形状特征、空间关系特征等。本技术实施例中对图像样本的图像特征提取方法不做限制。
[0091]
步骤s22:将所述图像样本的图像特征输入所述未训练的实例分割模型,得到所述位置预测分支输出的所述图像样本中各样本对象的第一预测位置框,以及所述分类分支输出的所述图像样本中各样本对象的第一预测类别。
[0092]
可选地,可以将图像样本的图像特征输入未训练的实例分割模型,或者直接将图像样本输入未训练的实例分割模型,由实例分割模型提取图像样本的图像特征。
[0093]
实例分割模型中的位置预测分支可以预测图像样本中的样本对象的位置,分类分支可以预测样本对象的类别。在对实例分割模型进行训练时,位置预测分支输出图像样本中各样本对象的第一预测位置框,分类分支输出的图像样本中各样本对象的第一预测类别。
[0094]
步骤s23:基于所述各样本对象的第一预测位置框以及第一预测类别,对所述图像样本的图像特征进行更新。
[0095]
在得到第一预测位置框以及第一预测类别后,可以将第一预测位置框的特征,以及第一预测类别的特征,融合进图像样本的图像特征中,得到更新后的图像特征。
[0096]
步骤s24:基于所述图像样本更新后的图像特征,得到所述分类分支输出的所述图像样本中各样本对象的第二预测类别。
[0097]
根据更新后的图像特征,分类分支可以输出该图像样本中各样本对象的第二预测类别。
[0098]
步骤s25:根据每个样本中各样本对象的第二预测类别,以及各样本对象的真实类别标签之间的差异,建立所述分类分支的基础损失。
[0099]
基于各样本对象的第二预测类别,以及各样本对象的真实类别标签,可以建立分类分支的基础损失,分类分支的基础损失的具体建立方法可以参照前文建立分类模型的基础损失的方法,在此不再赘述。
[0100]
步骤s26:根据每个样本中各样本对象的第二预测类别,以及各样本对象被预测为该样本对象的真实类别的置信度之间的差异,建立所述分类分支的类间损失;
[0101]
基于各样本对象的第二预测类别,以及各样本对象被预测为该样本对象的真实类别的置信度,可以建立分类分支的类间损失,分类分支的类间损失的具体建立方法可以参照前文建立分类模型的类间损失的方法,在此不再赘述。
[0102]
步骤s27:基于所述分类分支的基础损失和类间损失,对所述分类分支进行训练。
[0103]
基于分类分支的基础损失和类间损失,对分类分支进行训练,得到训练好的分类分支。
[0104]
采用本技术实施例的技术方案,在对分类分支进行训练时,利用分类分支的第一
预测位置框以及第一预测类别对图像特征进行更新,利用更新后的图像特征再进行样本对象的分类,可以得到更加准确的第二预测类别;同时采用分类分支的基础损失和类间损失对分类分支进行训练,可以提升训练得到的分类分支的准确性。
[0105]
可选地,作为一个实施例,可以是对分类分支进行了多轮训练,在每轮训练时都获取了位置预测分类预测的各样本对象的第二预测位置框,并基于第二预测位置框和第二预测类别对一次更新后的图像特征再进行一次更新,得到二次更新后的图像特征,并以该轮训练后的分类分支为中间分支。
[0106]
以中间分支为分类分支、以第二预测位置框为第一预测位置框、以第二预测类别为所述第一预测类别,重复对分类分支进行训练得到中间分支的步骤,直到满足预设条件,停止对分类分支的训练,并以最后一次得到的中间分支,作为实例分割模型的训练好的分类分支。其中,预设条件可以是实例分割模型的准确性达到预设阈值。在实际训练中,本技术人发现,重复2或3次分类分支进行训练得到中间分支的步骤,即可得到训练效果较佳的分类分支。可以理解的是,分类分支的基础损失和类间损失是随着每轮的分类预测结果不断更新的。
[0107]
也就是说,在得到二次更新后的图像特征后进行了下一轮训练为:利用二次更新后的图像特征,基于分类分支的基础损失和类间损失,再进行分类分支的训练,以得到样本对象的第三预测类别,并获取位置预测分支输出的第三预测位置框。
[0108]
可选地,分类分支的基础损失和类间损失都有各自对应的权重,直接赋予分类分支的类间损失较大的权重,可能会影响分类分支的分类准确性。因此,可以在每轮训练中,逐渐增大分类分支的类间损失。
[0109]
在训练好实例分割模型的分类分支后,将包含待分类对象的未分类图像输入实例分割模型,可以得到实例分割模型的分类分支确定的未分类图像中各待分类对象的预测类别。其中,未分类图像中的待分类对象,为该未分类图像中的前景图像。
[0110]
可以理解的是,分类分支的基础损失和类间损失只在分类分支进行训练时使用,训练好的实例分割模型的分类分支在实际应用时,模型内部也经过了图像特征的多次更新,但其中并不涉及分类分支的基础损失和类间损失。
[0111]
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
[0112]
图4是本发明实施例的一种图像分类装置的结构示意图,如图4所示,一种图象分类装置,包括获取模块和分类模块,其中:
[0113]
获取模块,用于获取待分类图象;
[0114]
分类模块,用于将所述待分类图像输入图像分类模型,得到所述待分类图像的分类预测结果,其中,所述图像分类模型是使用基础损失和类间损失,对预设模型进行训练得到的;所述基础损失是根据所述预设模型预测的每个样本图像的分类预测结果,和每个样本图像的真实类别标签确定的;所述类间损失是根据所述预设模型预测的每个样本图像的分类预测结果,和每个样本图像的软类别标签确定的,一个样本图像的软类别标签是根据
各样本图像被预测为该样本图像的真实类别的置信度确定的。
[0115]
可选地,作为一个实施例,所述图像分类模型的训练过程包括以下步骤:
[0116]
获取多个携带真实类别标签的样本图像,并输入所述预设模型,得到每个样本图像的分类预测结果;
[0117]
根据每个样本图像的分类预测结果和该样本图像的真实类别标签之间的差异,建立所述基础损失;
[0118]
根据每个样本图像的分类预测结果和该样本图像的软类别标签之间的差异,建立所述类间损失;
[0119]
基于所述基础损失和所述类间损失,对所述预设模型进行训练,得到所述分类模型。
[0120]
可选地,作为一个实施例,根据每个样本图像的分类预测结果和该样本图像的软类别标签之间的差异,建立所述类间损失,包括:
[0121]
根据每个样本图像的分类预测结果和该样本图像携带的真实类别标签,建立混淆矩阵,所述混淆矩阵中的元素表征:真实类别为该元素所在行的类别的多个样本,被预测为该元素所在列的类别的平均置信度;
[0122]
取所述混淆矩阵中每个样本图像对应的列向量作为该样本图像的软类别标签,一个样本图像对应的列向量表征各样本被预测为该样本的真实类别的置信度;
[0123]
根据每个样本图像的分类预测结果和该样本图像对应的列向量之间的差异,建立所述类间损失。
[0124]
可选地,作为一个实施例,根据每个样本图像的分类预测结果和该样本图像携带的真实类别标签,建立混淆矩阵,包括:
[0125]
获取每个样本图像被预测为除背景类别之外的各类别的置信度;
[0126]
对所述每个样本图像被预测为除背景类别之外的各类别的置信度进行归一化,得到每个样本图像的归一化预测结果;
[0127]
根据所述每个样本图像的归一化预测结果和携带的真实类别标签,建立混淆矩阵。
[0128]
可选地,作为一个实施例,得到每个样本图像的分类预测结果,包括:
[0129]
得到在不同训练批次每个样本图像的分类预测结果;
[0130]
根据每个样本图像的分类预测结果和该样本图像携带的真实类别标签,建立混淆矩阵,包括:
[0131]
根据每个样本图像的真实类别标签和在每个训练批次该样本图像的分类预测结果,建立不同训练批次的混淆矩阵;
[0132]
对所述不同训练批次的混淆矩阵中对应位置的元素进行平均,得到混淆矩阵的元素,进而建立混淆矩阵。
[0133]
可选地,作为一个实施例,所述预设模型为未训练的实例分割模型的分类分支,所述未训练的实例分割模型还包括位置预测分支;所述实例分割模型中的分类分支的训练过程至少包括以下步骤:
[0134]
获取包含样本对象的图像样本的图像特征,所述各样本对象携带自身的真实类别标签;
[0135]
将所述图像样本的图像特征输入所述未训练的实例分割模型,得到所述位置预测分支输出的所述图像样本中各样本对象的第一预测位置框,以及所述分类分支输出的所述图像样本中各样本对象的第一预测类别;
[0136]
基于所述各样本对象的第一预测位置框以及第一预测类别,对所述图像样本的图像特征进行更新;
[0137]
基于所述图像样本更新后的图像特征,得到所述分类分支输出的所述图像样本中各样本对象的第二预测类别;
[0138]
根据每个样本中各样本对象的第二预测类别,以及各样本对象的真实类别标签之间的差异,建立所述分类分支的基础损失;
[0139]
根据每个样本中各样本对象的第二预测类别,以及各样本对象被预测为该样本对象的真实类别的置信度之间的差异,建立所述分类分支的类间损失;
[0140]
基于所述分类分支的基础损失和类间损失,对所述分类分支进行训练。
[0141]
可选地,作为一个实施例,所述装置还包括:
[0142]
第二获取模块,用于获取所述位置预测分支基于所述图像样本更新后的图像特征输出的所述图像样本中各样本对象的第二预测位置框;
[0143]
基于所述分类分支的基础损失和类间损失,对所述分类分支进行训练,包括:
[0144]
基于所述分类分支的基础损失及其权重和所述分类分支的类间损失及其权重,对所述分类分支进行训练,得到中间分支;
[0145]
以所述中间分支为所述分类分支、以所述第二预测位置框为所述第一预测位置框、以所述第二预测类别为所述第一预测类别,重复对分类分支进行训练得到中间分支的步骤;
[0146]
以最后一次得到的中间分支,作为所述实例分割模型的分类分支。
[0147]
可选地,作为一个实施例,重复对分类分支进行训练得到中间分支的步骤,包括:
[0148]
在重复对分类分支进行训练的得到中间分支的过程中,逐渐增大所述分类分支的类间损失的权重。
[0149]
可选地,作为一个实施例,所述装置还包括:
[0150]
图像获取模块,用于获取包含待分类对象的未分类图像;
[0151]
类别预测模块,用于将所述未分类图像输入所述实例分割模型,得到所述实例分割模型的分类分支确定的所述未分类图像中各待分类对象的预测类别。
[0152]
需要说明的是,装置实施例与方法实施例相近,故描述的较为简单,相关之处参见方法实施例即可。
[0153]
本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,所述处理器执行所述计算机程序以实现如本技术实施例公开的所述的图像分类方法。
[0154]
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现如本技术实施例公开的所述的图像分类方法。
[0155]
本发明实施例还提供了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现如本技术实施例公开的所述的图像分类方法。
[0156]
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与
其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
[0157]
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0158]
本发明实施例是参照根据本发明实施例的方法、装置、电子设备和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0159]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0160]
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0161]
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
[0162]
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
[0163]
以上对本技术所提供的一种图像分类方法、电子设备、存储介质及程序产品,进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的一般技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本技术的限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献