图像分类模型的训练方法、装置、电子设备及存储介质与流程

2022-04-13 18:55:46 来源：中国专利 TAG：

1.本公开涉及计算机技术领域，尤其涉及一种图像分类模型的训练方法、装置、电子设备及存储介质。

背景技术：

2.目前，神经网络在图像分类、图像识别等领域应用广泛。具体的，可以获取多个图片和该多个图片各自对应的分类标签，并且对某一神经网络模型训练；然后将某一待识别图片输入训练完成的神经网络模型以得到该待识别图片对应的类别。
3.但是，上述对神经网络模型进行训练的过程，可能需要获取大量不同类别的图片，以及可能需要通过人工为该大量不同类别的图片分配相应的分类标签。如此，当训练样本的数量不足，或者人工分配分类标签的准确度较低时，可能会影响神经网络模型的训练效率，进而影响图像分类的准确度。

技术实现要素：

4.本公开提供一种图像分类模型的训练方法、装置、电子设备及存储介质，解决了神经网络模型的训练过程中，当训练样本的数量不足，或者人工分配分类标签的准确度较低时，可能会影响神经网络模型的训练效率，进而影响图像分类的准确度的技术问题。
5.本公开实施例的技术方案如下：
6.根据本公开实施例的第一方面，提供一种图像分类模型的训练方法。该方法可以包括：获取多个待识别图片；将该多个待识别图片分别输入到初始图像分类模型，以得到该多个待识别图片各自对应的分类结果；基于该分类结果，获取该多个待识别图片各自的分类判别信息，其中，每个待识别图片的分类判别信息用于表征该每个待识别图片对应的分类结果是否正确；基于分类结果相同的至少两个待识别图片各自的分类判别信息以及该至少两个待识别图片各自的初始特征，确定目标损失，该至少两个待识别图片中每一个待识别图片的初始特征为将该每一个待识别图片输入到该初始图像分类模型后进行特征识别得到的；基于该目标损失迭代更新该初始图像分类模型的参数，得到目标图像分类模型。
7.可选地，每个待识别图片的分类判别信息包括分类正确或分类错误，上述基于该分类结果，获取该多个待识别图片各自的分类判别信息具体包括：将目标图片输入到该初始图像分类模型，进行特征识别，得到该目标图片的初始特征，该目标图片为对应的真实结果与第一待识别图片对应的分类结果相同的图片，该第一待识别图片为该多个待识别图片中的一个；当该第一待识别图片的初始特征与该目标图片的初始特征之间的相似度大于或等于相似度阈值时，获取第一分类判别信息，该第一分类判别信息用于表征该第一待识别图片的分类判别信息为分类正确。
8.可选地，上述图像分类模型的训练方法还包括：当该第一待识别图片的初始特征与该目标图片的初始特征之间的相似度小于该相似度阈值时，获取第二分类判别信息，该第二分类判别信息用于表征该第一待识别图片的分类判别信息为分类错误。
9.可选地，上述图像分类模型的训练方法还包括：获得第一损失，该第一损失用于表征至少一个已识别图片中每个已识别图片的真实结果与该每个已识别图片在该初始图像分类模型中的预测结果之间的不一致程度；上述基于分类结果相同的至少两个待识别图片各自的分类判别信息以及该至少两个待识别图片各自的初始特征，确定目标损失具体包括：根据该至少两个待识别图片各自的分类判别信息以及该至少两个待识别图片各自的初始特征，确定第二损失；根据该至少两个待识别图片各自的分类判别信息，确定第三损失；将该第一损失、该第二损失以及该第三损失的和，确定为该目标损失。
10.可选地，上述根据该至少两个待识别图片各自的分类判别信息以及该至少两个待识别图片各自的初始特征，确定第二损失具体包括：确定第一待识别图片的初始特征与第二待识别图片的初始特征之间的距离函数，该距离函数用于表征该第一待识别图片的初始特征与该第二待识别图片的初始特征之间的不一致程度，该第一待识别图片为该至少两个待识别图片中的一个，该第二待识别图片为该至少两个待识别图片中除该第一待识别图片以外的图片；当该第一待识别图片的分类判别信息与该第二待识别图片的分类判别信息相同时，将该距离函数确定为该第二损失。
11.可选地，上述图像分类模型的训练方法还包括：当该第一待识别图片的分类判别信息与该第二待识别图片的分类判别信息不相同时，将预设常量与该距离函数之间的差值确定为第二损失。
12.可选地，上述根据该至少两个待识别图片各自的分类判别信息，确定第三损失具体包括：当第一待识别图片的分类判别信息与第二待识别图片的分类判别信息相同时，将第一损失阈值确定为该第三损失，该第一待识别图片为该至少两个待识别图片中的一个，该第二待识别图片为该至少两个待识别图片中除该第一待识别图片以外的图片；当该第一待识别图片的分类判别信息与该第二待识别图片的分类判别信息不相同时，将第二损失阈值确定为第三损失，该第二损失阈值大于该第一损失阈值。
13.可选地，上述获得第一损失具体包括：获取该至少一个已识别图片以及该至少一个已识别图片中每个已识别图片的真实结果；将目标已识别图片输入到该初始图像分类模型，以确定目标概率，该目标概率为该目标已识别图片被预测为目标真实结果的概率，该目标已识别图片为该至少一个已识别图片中的一个，该目标真实结果为该目标已识别图片的真实结果；基于该目标概率，确定该目标已识别图片对应的损失；将该至少一个已识别图片各自对应的损失之和，确定为该第一损失，并且获取该第一损失。
14.根据本公开实施例的第二方面，提供一种图像分类模型的训练装置。该装置可以包括：获取模块、处理模块以及确定模块；该获取模块，被配置为获取多个待识别图片；该处理模块，被配置为将该多个待识别图片分别输入到初始图像分类模型，以得到该多个待识别图片各自对应的分类结果；该获取模块，还被配置为基于该分类结果，获取该多个待识别图片各自的分类判别信息，其中，每个待识别图片的分类判别信息用于表征该每个待识别图片对应的分类结果是否正确；该确定模块，还被配置为基于分类结果相同的至少两个待识别图片各自的分类判别信息以及该至少两个待识别图片各自的初始特征，确定目标损失，该至少两个待识别图片中每一个待识别图片的初始特征为将该每一个待识别图片输入到该初始图像分类模型后进行特征识别得到的；该处理模块，还被配置为基于该目标损失迭代更新该初始图像分类模型的参数，得到目标图像分类模型。
15.可选地，每个待识别图片的分类判别信息包括分类正确或分类错误；该处理模块，具体被配置为将目标图片输入到该初始图像分类模型，进行特征识别，得到该目标图片的初始特征，该目标图片为对应的真实结果与第一待识别图片对应的分类结果相同的图片，该第一待识别图片为该多个待识别图片中的一个；该确定模块，还被配置为当该第一待识别图片的初始特征与该目标图片的初始特征之间的相似度大于或等于相似度阈值时，获取第一分类判别信息，该第一分类判别信息用于表征该第一待识别图片的分类判别信息为分类正确。
16.可选地，该确定模块，还被配置为当该第一待识别图片的初始特征与该目标图片的初始特征之间的相似度小于该相似度阈值时，获取第二分类判别信息，该第二分类判别信息用于表征该第一待识别图片的分类判别信息为分类错误。
17.可选地，该获取模块，还被配置为获得第一损失，该第一损失用于表征至少一个已识别图片中每个已识别图片的真实结果与该每个已识别图片在该初始图像分类模型中的预测结果之间的不一致程度；该确定模块，具体被配置为根据该至少两个待识别图片各自的分类判别信息以及该至少两个待识别图片各自的初始特征，确定第二损失；该确定模块，具体还被配置为根据该至少两个待识别图片各自的分类判别信息，确定第三损失；该确定模块，具体还被配置为将该第一损失、该第二损失以及该第三损失的和，确定为该目标损失。
18.可选地，该确定模块，具体还被配置为确定第一待识别图片的初始特征与第二待识别图片的初始特征之间的距离函数，该距离函数用于表征该第一待识别图片的初始特征与该第二待识别图片的初始特征之间的不一致程度，该第一待识别图片为该至少两个待识别图片中的一个，该第二待识别图片为该至少两个待识别图片中除该第一待识别图片以外的图片；该确定模块，具体还被配置为当该第一待识别图片的分类判别信息与该第二待识别图片的分类判别信息相同时，将该距离函数确定为该第二损失。
19.可选地，该确定模块，具体还被配置为当该第一待识别图片的分类判别信息与该第二待识别图片的分类判别信息不相同时，将预设常量与该距离函数之间的差值确定为第二损失。
20.可选地，该确定模块，具体还被配置为当第一待识别图片的分类判别信息与第二待识别图片的分类判别信息相同时，将第一损失阈值确定为该第三损失，该第一待识别图片为该至少两个待识别图片中的一个，该第二待识别图片为该至少两个待识别图片中除该第一待识别图片以外的图片；该确定模块，具体还被配置为当该第一待识别图片的分类判别信息与该第二待识别图片的分类判别信息不相同时，将第二损失阈值确定为第三损失，该第二损失阈值大于该第一损失阈值。
21.可选地，该获取模块，具体被配置为获取该至少一个已识别图片以及该至少一个已识别图片中每个已识别图片的真实结果；该确定模块，还被配置为将目标已识别图片输入到该初始图像分类模型，以确定目标概率，该目标概率为该目标已识别图片被预测为目标真实结果的概率，该目标已识别图片为该至少一个已识别图片中的一个，该目标真实结果为该目标已识别图片的真实结果；该确定模块，还被配置为基于该目标概率，确定该目标已识别图片对应的损失；该确定模块，还被配置为将该至少一个已识别图片各自对应的损失之和，确定为该第一损失；该获取模块，具体还被配置为获取该第一损失。
22.根据本公开实施例的第三方面，提供一种电子设备，可以包括：处理器和被配置为存储处理器可执行指令的存储器；其中，处理器被配置为执行所述指令，以实现上述第一方面中任一种可选地图像分类模型的训练方法。
23.根据本公开实施例的第四方面，提供一种计算机可读存储介质，计算机可读存储介质上存储有指令，当该计算机可读存储介质中的指令由电子设备执行时，使得该电子设备能够执行上述第一方面中任一种可选地图像分类模型的训练方法。
24.根据本公开实施例的第五方面，提供一种计算机程序产品，该计算机程序产品包括计算机指令，当该计算机指令在电子设备上运行时，使得该电子设备执行如第一方面中任一种可选地图像分类模型的训练方法。
25.本公开的实施例提供的技术方案至少带来以下有益效果：
26.基于上述任一方面，本公开中，电子设备可以获取多个待识别图片，并且将该多个待识别图片分别输入到初始图像分类模型，以得到该多个待识别图片各自对应的分类结果；然后电子设备基于该分类结果，获取该多个待识别图片各自的分类判别信息，即表征该多个待识别图片各自对应的分类结果是否正确。电子设备可以基于分类结果相同的至少两个待识别图片各自的分类判别信息以及该至少两个待识别图片各自的初始特征，确定目标损失，可以理解为基于该分类判别信息和该初始特征，确定该至少两个待识别图片之间的差异，进而确定该初始图像分类模型当前的损失；然后基于该目标损失迭代更新该初始图像分类模型的参数，得到目标图像分类模型。本公开实施例中，电子设备可以获取未被添加分类标签的多个待识别图片各自的分类判别信息，由于该多个待识别图片中每个待识别图片的分类判别信息用于表征该每个待识别图片对应的分类结果是否正确，进而结合该至少两个待识别图片各自的初始特征，电子设备可以确定出初始图像分类模型当前的损失(即目标损失)，以及基于该目标损失迭代更新该初始图像分类模型的参数，得到预测准确性较高的目标图像分类模型。能够提升图像分类模型的训练效率，进而提升图像分类的准确度。
27.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。
附图说明
28.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。
29.图1示出了本公开实施例提供的一种图像分类模型的训练方法的流程示意图；
30.图2示出了本公开实施例提供的又一种图像分类模型的训练方法的流程示意图；
31.图3示出了本公开实施例提供的又一种图像分类模型的训练方法的流程示意图；
32.图4示出了本公开实施例提供的又一种图像分类模型的训练方法的流程示意图；
33.图5示出了本公开实施例提供的又一种图像分类模型的训练方法的流程示意图；
34.图6示出了本公开实施例提供的又一种图像分类模型的训练方法的流程示意图；
35.图7示出了本公开实施例提供的又一种图像分类模型的训练方法的流程示意图；
36.图8示出了本公开实施例提供的又一种图像分类模型的训练方法的流程示意图；
37.图9示出了本公开实施例提供的一种图像分类模型的训练装置的结构示意图；
38.图10示出了本公开实施例提供的又一种图像分类模型的训练装置的结构示意图。
具体实施方式
39.为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。
40.需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
41.还应当理解的是，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其他特征、整体、步骤、操作、元素和/或组件的存在或添加。
42.本公开所涉及的数据可以为经用户授权或者经过各方充分授权的数据。
43.如背景技术中所描述，由于现有技术中当训练样本的数量不足，或者人工分配分类标签的准确度较低时，可能会影响神经网络模型的训练效率，进而影响图像分类的准确度的技术问题。
44.基于此，本公开实施例提供一种图像分类模型的训练方法，电子设备可以获取未被添加分类标签的多个待识别图片各自的分类判别信息，由于该多个待识别图片中每个待识别图片的分类判别信息用于表征该每个待识别图片对应的分类结果是否正确，进而结合该至少两个待识别图片各自的初始特征，电子设备可以确定出初始图像分类模型当前的损失(即目标损失)，以及基于该目标损失迭代更新该初始图像分类模型的参数，得到预测准确性较高的目标图像分类模型。能够提升图像分类模型的训练效率，进而提升图像分类的准确度。
45.本公开实施例提供的图像分类模型的训练方法、装置、电子设备及存储介质，应用于图像分类场景中。当电子设备获取到多个待识别图片时，可以依据本公开实施例提供的方法，更新初始图像分类模型的参数，得到目标图像分类模型。
46.以下结合附图对本公开实施例提供的图像分类模型的训练方法进行示例性说明：
47.可以理解的是，执行本公开实施例提供的图像分类模型的训练方法的电子设备可以是手机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，umpc)、上网本，以及蜂窝电话、个人数字助理(personal digital assistant，pda)、增强现实(augmented reality，ar)\虚拟现实(virtual reality，vr)设备等可以安装并使用内容社区应用的设备，本公开对电子设备的具体形态不作特殊限制。其可以与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互。
48.如图1所示，本公开实施例提供的图像分类模型的训练方法可以包括s101-s105。
49.s101、获取多个待识别图片。
50.应理解，该多个待识别图片为未被分配标签的训练数据，即当电子设备获取到该多个待识别图片时，并未获取到该多个待识别图片各自对应的真实结果。
51.s102、将多个待识别图片分别输入到初始图像分类模型，以得到多个待识别图片各自对应的分类结果。
52.应理解，该初始图像分类模型可以为该电子设备基于至少一个已识别图片以及该至少一个已识别图片各自对应的真实结果(或分类标签)训练完成的图像分类模型。该多个待识别图片各自对应的分类结果为该初始图像分类模型对该多个待识别图片的预测结果。
53.s103、基于分类结果，获取多个待识别图片各自的分类判别信息。
54.其中，每个待识别图片的分类判别信息用于表征该每个待识别图片对应的分类结果是否正确。
55.可以理解的是，由于该多个待识别图片为没有真实结果(或分类标签)的训练数据，电子设备无法确定该多个待识别图片各自对应的真实结果。可以通过获取该多个待识别图片的分类判别信息，确定该多个待识别图片中每个待识别图片经由该初始图像分类模型预测后得到的分类结果(即预测结果)是否正确。
56.在本公开实施例的一种实现方式中，上述多个待识别图片各自的分类判别信息可以是人工判断后得到的，电子设备可以在人工判断之后获取该多个待识别图片各自的分类判别信息。
57.在本公开实施例的另一种实现方式中，对于每个待识别图片而言，电子设备还可以对比该待识别图片和目标图片(该目标图片对应的真实结果与该待识别图片对应的分类结果相同)，然后基于对比结果确定并为该待识别图片添加分类判别信息。
58.s104、基于分类结果相同的至少两个待识别图片各自的分类判别信息以及至少两个待识别图片各自的初始特征，确定目标损失。
59.其中，该至少两个待识别图片中每一个待识别图片的初始特征为将该每一个待识别图片输入到该初始图像分类模型后进行特征识别得到的。
60.具体的，该初始图像分类模型中可以包括初始特征提取器和初始分类器。电子设备将该每一个待识别图片输入该初始特征提取器，得到该每一个待识别图片的初始特征；然后将该每一个待识别图片的初始特征输入该初始分类器，以得到该每一个待识别图片对应的分类结果。
61.可以理解的是，上述多个待识别图片中可能会存在对应的分类结果相同的待识别图片，当某两个待识别图片对应的分类结果相同时，说明该两个待识别图片经由初始图像分类模型被确定或分为同一类别。本公开实施例中，电子设备可以从多个类别的任一类别中选择或确定该至少两个待识别图片。
62.应理解，虽然该至少两个待识别图片各自对应的分类结果相同，但是该至少两个待识别图片各自的分类判别信息可能相同，也可能不同。当该至少两个待识别图片各自对应的分类判别信息相同时，该至少两个待识别图片各自的初始特征之间可能具有一定的相似性；当该至少两个待识别图片各自对应的分类判别信息不同时，该至少两个待识别图片各自对应的初始特征之间可能具有一定的差异性。
63.本公开实施例中，电子设备可以基于至少两个待识别图片各自的分类判别信息以及该至少两个待识别图片各自的初始特征，确定该至少两个待识别图片之间的差异，进而确定该目标损失，即确定初始图像分类模型当前的损失。
64.s105、基于目标损失迭代更新初始图像分类模型的参数，得到目标图像分类模型。
65.在本公开实施例的一种实现方式中，电子设备基于该目标损失迭代更新该初始图像分类模型的参数，直到当前图像分类模型的预测准确度大于或等于准确度阈值，此时可
以将该当前图像分类模型确定为该目标图像分类模型。
66.上述实施例提供的技术方案至少能够带来以下有益效果：由s101-s105可知，电子设备可以获取多个待识别图片，并且将该多个待识别图片分别输入到初始图像分类模型，以得到该多个待识别图片各自对应的分类结果；然后电子设备基于该分类结果，获取该多个待识别图片各自的分类判别信息，即表征该多个待识别图片各自对应的分类结果是否正确。电子设备可以基于分类结果相同的至少两个待识别图片各自的分类判别信息以及该至少两个待识别图片各自的初始特征，确定目标损失，可以理解为基于该分类判别信息和该初始特征，确定该至少两个待识别图片之间的差异，进而确定该初始图像分类模型当前的损失；然后基于该目标损失迭代更新该初始图像分类模型的参数，得到目标图像分类模型。本公开实施例中，电子设备可以获取未被添加分类标签的多个待识别图片各自的分类判别信息，由于该多个待识别图片中每个待识别图片的分类判别信息用于表征该每个待识别图片对应的分类结果是否正确，进而结合该至少两个待识别图片各自的初始特征，电子设备可以确定出初始图像分类模型当前的损失(即目标损失)，以及基于该目标损失迭代更新该初始图像分类模型的参数，得到预测准确性较高的目标图像分类模型。能够提升图像分类模型的训练效率，进而提升图像分类的准确度。
67.结合图1，如图2所示，在本公开实施例的一种实现方式中，每个待识别图片的分类判别信息包括分类正确或分类错误，上述基于分类结果，获取多个待识别图片各自的分类判别信息，包括s1031-s1032。
68.s1031、将目标图片输入到初始图像分类模型，进行特征识别，得到目标图片的初始特征。
69.其中，该目标图片为对应的真实结果与第一待识别图片对应的分类结果相同的图片，该第一待识别图片为上述多个待识别图片中的一个。
70.应理解，该目标图片可以为上述至少一个已识别图片中的一个，即该目标图片存在对应的真实结果(或分类标签)。本公开实施例中，电子设备可以从该至少一个已识别图片中，确定一个真实结果与该第一待识别图片对应的分类结果相同的图片，并将该图片确定为该目标图片，进而得到该目标图片的初始特征。
71.s1032、当第一待识别图片的初始特征与目标图片的初始特征之间的相似度大于或等于相似度阈值时，获取第一分类判别信息。
72.其中，该第一分类判别信息用于表征该第一待识别图片的分类判别信息为分类正确。
73.结合上述实施例的描述，应理解，电子设备可以将第一待识别图片输入到初始图像分类模型，进行特征识别，得到该第一待识别图片的初始特征。当该第一待识别图片的初始特征与该目标图片的初始特征之间的相似度大于或等于该相似度阈值时，说明该第一待识别图片的初始特征与该目标图片的初始特征较为相似，即该第一待识别图片与该目标图片较为相似，如此电子设备可以确定该第一待识别图片对应的分类结果是正确的，即获取该第一分类判别信息。
74.上述实施例提供的技术方案至少能够带来以下有益效果：由s1031-s1032可知，电子设备可以将目标图片(即对应的真实结果与第一待识别图片对应的分类结果相同的图片)输入到初始图像分类模型，进行特征识别，得到目标图片的初始特征；当该第一待识别
图片的初始特征与该目标图片的初始特征之间的相似度大于或等于相似度阈值时，说明该第一待识别图片的初始特征与该目标图片的初始特征较为相似，即该第一待识别图片与该目标图片较为相似，如此电子设备可以确定该第一待识别图片对应的分类结果是正确的，即获取表征该第一待识别信息为分类正确的第一分类判别信息。本公开实施例中，电子设备可以基于目标图片与第一待识别图片之间的相似度，确定该第一待识别图片的分类结果是否正确，并且在该第一待识别图片的分类结果正确的情况下获取第一分类判别信息。能够准确、有效地获取每一个待识别图片的分类判别信息，提升图像分类模型的训练效率，提高目标图像分类模型的预测准确度。
75.结合图2，如图3所示，本公开实施例提供的图像分类模型的训练方法还包括s1033。
76.s1033、当第一待识别图片的初始特征与目标图片的初始特征之间的相似度小于相似度阈值时，获取第二分类判别信息。
77.其中，该第二分类判别信息用于表征该第一待识别图片的分类判别信息为分类错误。
78.可以理解的是，当该第一待识别图片的初始特征与该目标图片的初始特征之间的相似度小于该相似度阈值时，说明该第一待识别图片的初始特征与该目标图片的初始特征不相似，具体为该第一待识别图片与该目标图片不相似，如此电子设备可以确定该第一待识别图片对应的分类结果是错误的，即获取该第二分类判别信息。
79.上述实施例提供的技术方案至少能够带来以下有益效果：由s1033可知，当第一待识别图片的初始特征与目标图片的初始特征之间的相似度小于相似度阈值时，说明该第一待识别图片的初始特征与该目标图片的初始特征不相似，即该第一待识别图片与该目标图片不相似，如此电子设备可以确定该第一待识别图片对应的分类结果是错误的，即获取表征该第一待识别信息为分类错误的第二分类判别信息。本公开实施例中，电子设备可以基于目标图片与第一待识别图片之间的相似度，确定该第一待识别图片的分类结果是否正确，并且在该第一待识别图片的分类结果错误的情况下获取第二分类判别信息。能够准确、有效地获取每一个待识别图片的分类判别信息，提升图像分类模型的训练效率，提高目标图像分类模型的预测准确度。
80.结合图1，如图4所示，本公开实施例提供的图像分类模型的训练方法还包括s106。
81.s106、获得第一损失。
82.其中，该第一损失用于表征至少一个已识别图片中每个已识别图片的真实结果与该每个已识别图片在上述初始图像分类模型中的预测结果之间的不一致程度。
83.继续如图4所示，上述基于分类结果相同的至少两个待识别图片各自的分类判别信息以及至少两个待识别图片各自的初始特征，确定目标损失，包括s1041-s1043。
84.s1041、根据至少两个待识别图片各自的分类判别信息以及至少两个待识别图片各自的初始特征，确定第二损失。
85.应理解，该第二损失用于表征分类判别信息为分类正确的待识别图片的特征与分类判别信息为分类错误的待识别图片的特征之间的不一致程度。
86.s1042、根据至少两个待识别图片各自的分类判别信息，确定第三损失。
87.可以理解的是，该第三损失用于表征分类判别信息造成的损失。
88.需要说明的是，本公开实施例不限制上述s1041和s1042的执行顺序。例如可以先执行s1041后执行s1042，也可以先执行s1042后执行s1041，还可以同时执行s1041和s1042，为了方便说明，图3中以先执行s1041后执行s1042进行示例。
89.s1043、将第一损失、第二损失以及第三损失的和，确定为目标损失。
90.上述实施例提供的技术方案至少能够带来以下有益效果：由s106以及s1041-s1043可知，电子设备可以获得第一损失；然后根据至少两个待识别图片各自的分类判别信息以及该至少两个待识别图片各自的初始特征，确定第二损失，并且根据该至少两个待识别图片各自的分类判别信息确定第三损失；之后，电子设备将该第一损失、该第二损失以及该第三损失的和，确定为目标损失。能够完整、有效地确定出目标损失，进而提升图像分类模型的训练效率。
91.结合图4，如图5所示，在本公开实施例的一种实现方式中，上述根据至少两个待识别图片各自的分类判别信息以及至少两个待识别图片各自的初始特征，确定第二损失，包括s1041a-s1041b。
92.s1041a、确定第一待识别图片的初始特征与第二待识别图片的初始特征之间的距离函数。
93.其中，该距离函数用于表征该第一待识别图片的初始特征与该第二待识别图片的初始特征之间的不一致程度，该第一待识别图片为上述至少两个待识别图片中的一个，该第二待识别图片为该至少两个待识别图片中除该第一待识别图片以外的图片。
94.s1041b、当第一待识别图片的分类判别信息与第二待识别图片的分类判别信息相同时，将距离函数确定为第二损失。
95.结合上述实施例的描述，应理解，当该第一待识别图片的分类判别信息与该第二待识别图片的分类判别信息相同时，说明该第一待识别图片的初始特征与该第二待识别图片的初始特征之间有一定的相似性。如此，电子设备可以将该第一待识别图片的初始特征与该第二待识别图片的初始特征之间的距离函数确定为第二损失。
96.在一种可选的实现方式中，上述将距离函数确定为第二损失，具体可以包括：确定第二损失满足下述公式：
97.loss
contrastive
＝dist(fa,fb)
98.其中，loss
contrastive
表示该第二损失，fa表示该第一待识别图片的初始特征，fb表示该第二待识别图片的初始特征，dist(fa,fb)表示该第一待识别图片的初始特征与该第二待识别图片的初始特征之间的距离函数。
99.具体的，dist()可以理解为某一距离函数，该距离函数用于表征两个元素(例如fa和fb)之间的差异，当dist(fa,fb)得到的值，即第二损失(loss
contrastive
)越大时，说明该第一待识别图片的初始特征(fa)与该第二待识别图片的初始特征(fb)之间的差异越大；相应地，当该第二损失越小时，说明该第一待识别图片的初始特征与该第二待识别图片的初始特征之间的差异越小(即该两个初始特征越相似)。
100.上述实施例提供的技术方案至少能够带来以下有益效果：由s1041a-s1041b可知，电子设备可以确定第一待识别图片的初始特征与第二待识别图片的初始特征之间的距离函数；当该第一待识别图片的分类判别信息有该第二待识别图片的分类判别信息相同时，说明该第一待识别图片的初始特征与该第二待识别图片的初始特征之间具有一定的相似
性；由于该距离函数用于表征该第一待识别图片的初始特征与该第二待识别图片的初始特征之间的不一致程度，如此，电子设备可以将该距离函数确定为第二损失。本公开实施例中，当第一待识别图片的初始特征与第二待识别图片的初始特征之间存在一定的相似性时，电子设备可以将该第一待识别图片的初始特征与该第二待识别图片的初始特征之间的距离函数确定为第二损失，可以准确、有效地确定出第二损失，进而能够提升目标损失的确定准确性。
101.结合图5，如图6所示，本公开实施例提供的图像分类模型的训练方法还包括s1041c。
102.s1041c、当第一待识别图片的分类判别信息与第二待识别图片的分类判别信息不相同时，将预设常量与距离函数之间的差值确定为第二损失。
103.应理解，该距离函数为第一待识别图片的初始特征与第二待识别图片的初始特征之间的距离函数。当该第一待识别图片的分类判别信息与该第二待识别图片的分类判别信息不相同时，说明该第一待识别图片的初始特征与该第二待识别图片的初始特征之间具有一定的差异性。如此，电子设备可以将该预设常量与该距离函数之间的差值确定为第二损失。
104.在一种可选的实现方式中，上述将预设常量与距离函数之间的差值确定为第二损失，具体可以包括：确定第二损失满足下述公式：
105.loss
contrastive
＝ε-dist(fa,fb)；
106.其中，loss
contrastive
表示该第二损失，fa表示该第一待识别图片的初始特征，fb表示该第二待识别图片的初始特征，dist(fa,fb)表示该第一待识别图片的初始特征与该第二待识别图片的初始特征之间的距离函数，ε表示预设常量，ε＞0。
107.上述实施例提供的技术方案至少能够带来以下有益效果：由s1041c可知，当第一待识别图片的分类判别信息与第二待识别图片的分类判别信息不相同时，说明该第一待识别图片的初始特征与该第二待识别图片的初始特征之间具有一定的差异性。如此，电子设备可以将预设常量与距离函数(具体为该第一待识别图片的初始特征与该第二待识别图片的初始特征之间的距离函数)之间的差值确定该第二损失，可以准确、有效地确定出第二损失，进而能够提升目标损失的确定准确性。
108.结合图4，如图7所示，在本公开实施例的一种实现方式中，上述根据至少两个待识别图片各自的分类判别信息，确定第三损失，具体包括s1042a-s1042b。
109.s1042a、当第一待识别图片的分类判别信息与第二待识别图片的分类判别信息相同时，将第一损失阈值确定为第三损失。
110.结合上述实施例的描述，应理解，该第一待识别图片为上述至少两个待识别图片中的一个，该第二待识别图片为该至少两个待识别图片中除该第一待识别图片以外的图片。
111.s1042b、当第一待识别图片的分类判别信息与第二待识别图片的分类判别信息不相同时，将第二损失阈值确定为第三损失。
112.其中，该第二损失阈值大于该第一损失阈值。
113.结合上述实施例的描述，应理解，由于该第一待识别图片对应的分类结果与该第二待识别图片对应的分类结果相同。当该第一待识别图片的分类判别信息与该第二待识别
图片的分类判别信息相同时，说明该第一待识别图片的初始特征与该第二待识别图片的初始特征之间有一定的相似性；当该第一待识别图片的分类判别信息与该第二待识别图片的分类判别信息不相同时，说明该第一待识别图片的初始特征与该第二待识别图片的初始特征之间有一定的差异性。
114.本公开实施例中，当该第一待识别图片的初始特征与该第二待识别图片的初始特征之间有一定的差异性时，该第三损失可以较大(对应与上述第二损失阈值)，当该第一待识别图片的初始特征与该第二待识别图片的初始特征之间有一定的相似性时，该第三损失可以较小(对应于上述第一损失阈值)
115.可选地，该第一损失阈值可以为0，该第一损失阈值可以为1。
116.上述实施例提供的技术方案至少能够带来以下有益效果：由s1042a-s1042b可知，当第一待识别图片的分类判别信息与第二待识别图片的分类判别信息相同时，电子设备可以将第一损失阈值确定为第三损失；反之，即当该第一待识别图片的分类判别信息与该第二待识别图片的分类判别信息不相同时，电子设备可以将第二损失阈值确定为第三损失，该第二损失阈值大于该第一损失阈值。本公开实施例中，电子设备可以基于至少两个待识别图片各自的分类判别信息为第三损失分配不同的值(即第一损失阈值或第二损失阈值)，能够快速、有效地地确定出第三损失，进而提升图像分类模型的训练效率。
117.结合图4，如图8所示，在本公开实施例的一种实现方式中，上述获得第一损失，包括s1061-s1064。
118.s1061、获取至少一个已识别图片以及至少一个已识别图片中每个已识别图片的真实结果。
119.结合上述实施例的描述，应理解，该至少一个已识别图片为存在真实结果(即分类标签)的图片，上述初始图像分类模型为电子设备基于该至少一个已识别图片以及该至少一个已识别图片各自对应的真实结果训练得到的。
120.s1062、将目标已识别图片输入到初始图像分类模型，以确定目标概率。
121.其中，该目标概率为该目标已识别图片被预测为目标真实结果的概率，该目标已识别图片为该至少一个已识别图片中的一个，该目标真实结果为该目标已识别图片的真实结果。
122.应理解，该目标概率为该目标已识别图片被该初始图像分类模型预测为该目标已识别图片对应的真实结果的概率。本公开实施例中，电子设备可以将该至少一个已识别图片中每个已识别图片输入到该初始图像分类模型，以确定该每个已识别图片对应的概率。
123.可以理解的是，对于该目标已识别图片而言，电子设备将该目标已识别图片输入到该初始图像分类模型，可以得到多个分类以及该多个分类各自的概率；然后电子设备可以将该多个分类各自的概率中的最大值，确定为该目标概率，并且将该目标概率对应的分类确定为该目标已识别图片对应的分类结果，此时该分类结果即为该目标真实结果。
124.s1063、基于目标概率，确定目标已识别图片对应的损失。
125.可以理解的是，电子设备可以基于上述每一个已识别图片对应的概率，确定该每一个已识别图片对应的损失。
126.s1064、将至少一个已识别图片各自对应的损失之和，确定为第一损失，并且获取第一损失。
127.上述实施例提供的技术方案至少能够带来以下有益效果：由s1061-s1064可知，电子设备可以获取至少一个已识别图片以及该至少一个已识别图片中每个已识别图片的真实结果，该电子设备将目标已识别图片(即该至少一个已识别图片中的一个已识别图片)输入到初始图像分类模型，以确定目标概率(即目标已识别图片被预测为该目标已识别图片对应的真实结果的概率)。然后电子设备基于该目标概率，确定该目标已识别图片对应的损失，至此，电子设备可以确定出该至少一个已识别图片各自对应的损失。然后该电子设备可以将该至少一个已识别图片各自对应的损失之和，确定为第一损失，并且获取该第一损失。本公开中，电子设备能够准确、有效地获得第一损失，提升第一损失的获取效率，进而提升目标损失的确定效率，提升目标图像分类模型的预测效率。
128.在本公开实施例的一种实现方式中，上述基于目标概率，确定目标已识别图片对应的损失，包括步骤a。
129.步骤a、确定目标已识别图片对应的损失满足下述公式：
[0130][0131]
其中，loss
ce
表示该目标已识别图片对应的损失，c表示真实结果的总数量，yi表示该目标概率。
[0132]
至此，电子设备可以基于上述公式确定出上述至少一个已识别图片中每个已识别图片对应的损失。
[0133]
上述实施例提供的技术方案至少能够带来以下有益效果：由步骤a可知，电子设备可以基于特定的公式准确、有效地确定出目标已识别图片对应的损失，即可以准确地确定出至少一个已识别图片中每个已识别图片对应的损失。进而提升第一损失的确定效率，提高图像分类模型的训练效率。
[0134]
可以理解的，在实际实施时，本公开实施例所述的电子设备可以包含有用于实现前述对应图像分类模型的训练方法的一个或多个硬件结构和/或软件模块，这些执行硬件结构和/或软件模块可以构成一个电子设备。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的算法步骤，本公开能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。
[0135]
基于这样的理解，本公开实施例还对应提供一种图像分类模型的训练装置，图9示出了本公开实施例提供的图像分类模型的训练装置的结构示意图。如图9所示，该图像分类模型的训练装置10可以包括：获取模块101、处理模块102以及确定模块103。
[0136]
获取模块101，被配置为获取多个待识别图片。
[0137]
处理模块102，被配置为将该多个待识别图片分别输入到初始图像分类模型，以得到该多个待识别图片各自对应的分类结果。
[0138]
获取模块101，还被配置为基于该分类结果，获取该多个待识别图片各自的分类判别信息，其中，每个待识别图片的分类判别信息用于表征该每个待识别图片对应的分类结果是否正确。
[0139]
确定模块103，还被配置为基于分类结果相同的至少两个待识别图片各自的分类
判别信息以及该至少两个待识别图片各自的初始特征，确定目标损失，该至少两个待识别图片中每一个待识别图片的初始特征为将该每一个待识别图片输入到该初始图像分类模型后进行特征识别得到的。
[0140]
处理模块102，还被配置为基于该目标损失迭代更新该初始图像分类模型的参数，得到目标图像分类模型。
[0141]
可选地，每个待识别图片的分类判别信息包括分类正确或分类错误。
[0142]
处理模块102，具体被配置为将目标图片输入到该初始图像分类模型，进行特征识别，得到该目标图片的初始特征，该目标图片为对应的真实结果与第一待识别图片对应的分类结果相同的图片，该第一待识别图片为该多个待识别图片中的一个。
[0143]
确定模块103，还被配置为当该第一待识别图片的初始特征与该目标图片的初始特征之间的相似度大于或等于相似度阈值时，获取第一分类判别信息，该第一分类判别信息用于表征该第一待识别图片的分类判别信息为分类正确。
[0144]
可选地，确定模块103，还被配置为当该第一待识别图片的初始特征与该目标图片的初始特征之间的相似度小于该相似度阈值时，获取第二分类判别信息，该第二分类判别信息用于表征该第一待识别图片的分类判别信息为分类错误。
[0145]
可选地，获取模块101，还被配置为获得第一损失，该第一损失用于表征至少一个已识别图片中每个已识别图片的真实结果与该每个已识别图片在该初始图像分类模型中的预测结果之间的不一致程度。
[0146]
确定模块103，具体被配置为根据该至少两个待识别图片各自的分类判别信息以及该至少两个待识别图片各自的初始特征，确定第二损失。
[0147]
确定模块103，具体还被配置为根据该至少两个待识别图片各自的分类判别信息，确定第三损失。
[0148]
确定模块103，具体还被配置为将该第一损失、该第二损失以及该第三损失的和，确定为该目标损失。
[0149]
可选地，确定模块103，具体还被配置为确定第一待识别图片的初始特征与第二待识别图片的初始特征之间的距离函数，该距离函数用于表征该第一待识别图片的初始特征与该第二待识别图片的初始特征之间的不一致程度，该第一待识别图片为该至少两个待识别图片中的一个，该第二待识别图片为该至少两个待识别图片中除该第一待识别图片以外的图片。
[0150]
确定模块103，具体还被配置为当该第一待识别图片的分类判别信息与该第二待识别图片的分类判别信息相同时，将该距离函数确定为该第二损失。
[0151]
可选地，该确定模块，具体还被配置为当该第一待识别图片的分类判别信息与该第二待识别图片的分类判别信息不相同时，将预设常量与该距离函数之间的差值确定为第二损失。
[0152]
可选地，确定模块103，具体还被配置为当第一待识别图片的分类判别信息与第二待识别图片的分类判别信息相同时，将第一损失阈值确定为该第三损失，该第一待识别图片为该至少两个待识别图片中的一个，该第二待识别图片为该至少两个待识别图片中除该第一待识别图片以外的图片。
[0153]
确定模块103，具体还被配置为当该第一待识别图片的分类判别信息与该第二待
识别图片的分类判别信息不相同时，将第二损失阈值确定为第三损失，该第二损失阈值大于该第一损失阈值。
[0154]
可选地，获取模块101，具体被配置为获取该至少一个已识别图片以及该至少一个已识别图片中每个已识别图片的真实结果。
[0155]
确定模块103，还被配置为将目标已识别图片输入到该初始图像分类模型，以确定目标概率，该目标概率为该目标已识别图片被预测为目标真实结果的概率，该目标已识别图片为该至少一个已识别图片中的一个，该目标真实结果为该目标已识别图片的真实结果。
[0156]
确定模块103，还被配置为基于该目标概率，确定该目标已识别图片对应的损失。
[0157]
确定模块103，还被配置为将该至少一个已识别图片各自对应的损失之和，确定为该第一损失。
[0158]
获取模块101，具体还被配置为获取该第一损失。
[0159]
如上所述，本公开实施例可以根据上述方法示例对图像分类模型的训练装置进行功能模块的划分。其中，上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。另外，还需要说明的是，本公开实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。
[0160]
关于上述实施例中的图像分类模型的训练装置，其中各个模块执行操作的具体方式、以及具备的有益效果，均已经在前述方法实施例中进行了详细描述，此处不再赘述。
[0161]
图10是本公开提供的另一种图像分类模型的训练装置的结构示意图。如图图像分类模型的训练，该图像分类模型的训练装置20可以包括至少一个处理器201以及用于存储处理器可执行指令的存储器203。其中，处理器201被配置为执行存储器203中的指令，以实现上述实施例中的图像分类模型的训练方法。
[0162]
另外，图像分类模型的训练装置20还可以包括通信总线202以及至少一个通信接口204。
[0163]
处理器201可以是一个处理器(central processing units，cpu)，微处理单元，asic，或一个或多个用于控制本公开方案程序执行的集成电路。
[0164]
通信总线202可包括一通路，在上述组件之间传送信息。
[0165]
通信接口204，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如以太网，无线接入网(radio access network，ran)，无线局域网(wireless local area networks，wlan)等。
[0166]
存储器203可以是只读存储器(read-only memory，rom)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，ram)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，eeprom)、只读光盘(compact disc read-only memory，cd-rom)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线与处理单元相连接。存储器也可以和处理单元集成在一
起。
[0167]
其中，存储器203用于存储执行本公开方案的指令，并由处理器201来控制执行。处理器201用于执行存储器203中存储的指令，从而实现本公开方法中的功能。
[0168]
在具体实现中，作为一种实施例，处理器201可以包括一个或多个cpu，例如图10中的cpu0和cpu1。
[0169]
在具体实现中，作为一种实施例，图像分类模型的训练装置20可以包括多个处理器，例如图10中的处理器201和处理器207。这些处理器中的每一个可以是一个单核(single-cpu)处理器，也可以是一个多核(multi-cpu)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
[0170]
在具体实现中，作为一种实施例，图像分类模型的训练装置20还可以包括输出设备205和输入设备206。输出设备205和处理器201通信，可以以多种方式来显示信息。例如，输出设备205可以是液晶显示器(liquid crystal display，lcd)，发光二级管(light emitting diode，led)显示设备，阴极射线管(cathode ray tube，crt)显示设备，或投影仪(projector)等。输入设备206和处理器201通信，可以以多种方式接受用户的输入。例如，输入设备206可以是鼠标、键盘、触摸屏设备或传感设备等。
[0171]
本领域技术人员可以理解，图10中示出的结构并不构成对图像分类模型的训练装置20的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。
[0172]
另外，本公开还提供一种计算机可读存储介质，包括指令，当指令由电子设备执行时，使得电子设备执行如上述实施例所提供的图像分类模型的训练方法。
[0173]
另外，本公开还提供一种计算机程序产品，包括指令，当指令由电子设备执行时，使得电子设备执行如上述实施例所提供的图像分类模型的训练方法。
[0174]
本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种图像处理方法、装置、设备及介质与流程

图像分类模型的训练方法、装置、电子设备及存储介质与流程

相关文献

最热文献