图像识别模型的训练方法、装置、电子设备及存储介质与流程

2022-02-25 18:13:34 来源：中国专利 TAG：

1.本技术涉及人工智能技术领域，具体而言，涉及一种图像识别模型的训练方法、装置、电子设备及存储介质。

背景技术：

2.在利用大规模图像数据集进行图像识别模型的训练时，由于大规模图像数据集中一般存在较多的噪声样本，需要对图像数据集进行一定的数据清洗，以剔除图像数据集中的至少部分噪声样本，从而提升图像识别模型的训练效果。
3.然而，目前的数据清洗方案较为复杂，导致图像识别模型的训练效率较低。

技术实现要素：

4.本技术的目的在于提供一种图像识别模型的训练方法、装置、电子设备及存储介质，能够提升图像识别模型的训练效率。
5.为了实现上述目的，本技术采用的技术方案如下：
6.第一方面，本技术提供一种图像识别模型的训练方法，应用于电子设备，所述电子设备保存有待训练的第一图像识别模型和训练完成的第二图像识别模型；所述方法包括：
7.将训练样本图像分别输入所述第一图像识别模型和所述第二图像识别模型，以使所述第一图像识别模型提取所述训练样本图像对应的特征信息，以及使所述第二图像识别模型输出所述训练样本图像对应的类型识别结果；其中，所述类型识别结果表征所述训练样本图像为噪声样本或者是干净样本；
8.当所述训练样本图像为噪声样本，则丢弃所述特征信息；
9.当所述训练样本图像为干净样本，则利用所述特征信息对所述第一图像识别模型进行训练。
10.第二方面，本技术提供一种图像识别模型的训练装置，应用于电子设备，所述电子设备保存有待训练的第一图像识别模型和训练完成的第二图像识别模型；所述装置包括：
11.数据处理模块，用于将训练样本图像分别输入所述第一图像识别模型和所述第二图像识别模型，以使所述第一图像识别模型提取所述训练样本图像对应的特征信息，以及使所述第二图像识别模型输出所述训练样本图像对应的类型识别结果；其中，所述类型识别结果表征所述训练样本图像为噪声样本或者是干净样本；
12.模型训练模块，用于当所述训练样本图像为噪声样本，则丢弃所述特征信息；
13.所述模型训练模块还用于，当所述训练样本图像为干净样本，则利用所述特征信息对所述第一图像识别模型进行训练。
14.第三方面，本技术提供一种电子设备，所述电子设备包括存储器，用于存储一个或多个程序；处理器；当所述一个或多个程序被所述处理器执行时，实现上述的图像识别模型的训练方法。
15.第四方面，本技术提供一种计算机可读存储介质，其上存储有计算机程序，该计算
机程序被处理器执行时实现上述的图像识别模型的训练方法。
16.本技术提供的一种图像识别模型的训练方法、装置、电子设备及存储介质，通过将训练样本图像分别输入待训练的第一图像识别模型和训练完成的第二图像识别模型，从而由第一图像识别模型提取该训练样本图像对应的特征信息，且由第二图像识别模型输出该训练样本图像的类型识别结果；以使当第二图像识别模型输出的类型识别结果表征该训练样本图像为噪声样本，则丢弃该训练样本图像对应的特征信息，而当第二图像识别模型输出的类型识别结果表征该训练样本图像为干净样本，则利用该训练样本图像对应的特征信息对第一图像识别模型进行训练；如此，可以在利用大规模训练样本进行训练时，由训练完成的第二图像识别模型指导对第一图像识别模型的训练，使第一图像识别模型仅利用干净样本进行训练，能够提升图像识别模型的训练效率。
17.为使本技术的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。
附图说明
18.为了更清楚地说明本技术的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本技术的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它相关的附图。
19.图1示出本技术提供的电子设备的一种示意性结构框图；
20.图2示出本技术提供的训练方法的一种训练网络示意图；
21.图3示出本技术提供的图像识别模型的训练方法的一种示意性流程框图；
22.图4示出本技术提供的图像识别模型的训练装置的一种示意性结构框图。
23.图中：100-电子设备；101-存储器；102-处理器；103-通信接口；300-训练装置；301-数据处理模块；302-模型训练模块。
具体实施方式
24.为使本技术的目的、技术方案和优点更加清楚，下面将结合本技术的一些实施例中的附图，对本技术中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本技术的组件可以以各种不同的配置来布置和设计。
25.因此，以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围，而是仅仅表示本技术选定的一些实施例。基于本技术中的一部分实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
26.应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本技术的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。
27.需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存
在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
28.在例如上述的对图像数据集中的噪声样本进行清洗的场景中，对应的噪声样本一般包括标签混乱的样本和异常样本；其中，标签混乱的样本一般是指某个标签下的部分训练样本在其他标签下也含有，即一个训练样本包括有多个标签；而异常样本一般是指标签错误的样本，即一个训练样本对应的标签不属于训练集中的任意一个。
29.为此，在对图像识别模型进行训练时，一般需要对训练样本进行数据清洗，以提高对图像识别模型的训练效果。
30.其中，一些数据清洗策略包括离线数据清洗和在线数据清洗；离线数据清洗一般需要用户人为的对训练样本进行清洗，这种方式一般需要耗费大量的人力成本，不适合利用大规模图像数据集对图像识别模型进行训练的场景。
31.在线数据清洗则一般是通过训练两个相同的网络进行实现，然后根据两个训练好的网络针对同一训练样本给出的预测分数，从而根据两个网络各自的预测分数来判断该训练样本是否为噪声样本；若两个网络都给出高置信度预测分数，则判定该训练样本是干净样本；若两个网络中至少有一个给出低置信度预测分数，则判定该训练样本为噪声样本。
32.但这种在线训练方案较为复杂，由于需要两个网络都给出训练样本的置信度，训练效率较低，并且一般需要占用较多的例如显卡等计算机资源才能完成大规模批量样本的清洗。
33.为此，基于上述缺陷，本技术提供的一种可能的实施方式为：通过将训练样本图像分别输入待训练的第一图像识别模型和训练完成的第二图像识别模型，从而由第一图像识别模型提取该训练样本图像对应的特征信息，且由第二图像识别模型输出该训练样本图像的类型识别结果；以使当第二图像识别模型输出的类型识别结果表征该训练样本图像为噪声样本，则丢弃该训练样本图像对应的特征信息，而当第二图像识别模型输出的类型识别结果表征该训练样本图像为干净样本，则利用该训练样本图像对应的特征信息对第一图像识别模型进行训练；从而由训练完成的第二图像识别模型指导对第一图像识别模型的训练，以提升图像识别模型的训练效率。
34.下面结合附图，对本技术的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。
35.请参阅图1，图1示出本技术提供的电子设备100的一种示意性结构框图，在一些实施例中，电子设备100可以包括存储器101、处理器102和通信接口103，该存储器101、处理器102和通信接口103相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。比如，在一些实施例中，电子设备100可以是但不限于是个人电脑(personal computer，pc)、平板电脑、服务器等等。
36.存储器101可用于存储软件程序及模块，如本技术提供的训练装置对应的程序指令/模块，处理器102通过执行存储在存储器101内的软件程序及模块，从而执行各种功能应
用以及数据处理，进而执行本技术提供的图像识别模型的训练方法的步骤。该通信接口103可用于与其他节点设备进行信令或数据的通信。
37.其中，存储器101可以是，但不限于，随机存取存储器(random access memory，ram)，只读存储器(read only memory，rom)，可编程只读存储器(programmable read-only memory，prom)，可擦除只读存储器(erasable programmable read-only memory，eprom)，电可擦除可编程只读存储器(electric erasable programmable read-only memory，eeprom)等。
38.处理器102可以是一种集成电路芯片，具有信号处理能力。该处理器102可以是通用处理器，包括中央处理器(central processing unit，cpu)、网络处理器(network processor，np)等；还可以是数字信号处理器(digital signal processing，dsp)、专用集成电路(application specific integrated circuit，asic)、现场可编程门阵列(field－programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
39.可以理解的是，图1所示的结构仅为示意，电子设备100还可以包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
40.另外，在一些实施例中，电子设备100可以保存有待训练的第一图像识别模型和训练完成的第二图像识别模型，本技术提供的图像识别模型的训练方法，在利用大规模数据集进行图像识别模型的训练时，可以基于知识蒸馏的原理，利用训练完成的第二图像识别模型对训练样本进行识别，以判断训练样本为噪声样本或是干净样本，从而仅利用干净样本对待训练的第一图像识别模型进行训练，以提高利用大规模图像数据集对图像识别模型进行训练时的训练效率。
41.比如，结合图2所示，在一些可能的实施例中，该第一图像识别模型可以为学生网络，第二图像识别模型可以为教师网络，从而在电子设备100执行本技术提供的图像识别模型的训练方法时，可以由地教师网络指导学生网络进行训练，以提升学生网络的训练效率。
42.当然，可以理解的是，图2仅为示例，将学生网络作为第一图像识别模型、以及将教师网络作为第二图形识别模型进行说明，在本技术其他一些可能的实施方式中，第一图像识别模型和第二图像识别模型还可以采用其他的一些网络，本技术对此不进行限定。
43.下面以图1所示的电子设备100作为示意性执行主体为例，对本技术提供的图像识别模型的训练方法进行示例性说明。
44.请参阅图3，图3示出本技术提供的图像识别模型的训练方法的一种示意性流程框图，该训练方法可以包括以下步骤：
45.步骤201，将训练样本图像分别输入第一图像识别模型和第二图像识别模型；
46.步骤203，第一图像识别模型提取训练样本图像对应的特征信息；
47.步骤205，第二图像识别模型输出训练样本图像对应的类型识别结果；其中，当训练样本图像为噪声样本，执行步骤207；当训练样本图像为干净样本，执行步骤209；
48.步骤207，丢弃特征信息；
49.步骤209，利用特征信息对第一图像识别模型进行训练。
50.结合图2所示，在一些实施例中，可以将训练样本图像分别输入学生网络和教师网
络，由学生网络提取该训练样本图像对应的特征信息，且由教师网络输出该训练样本图像对应的类型识别结果，其中，教师网络输出的类型识别结果用于表征该训练样本图像为噪声样本或者是干净样本。
51.在一些实施例中，当教师网络输出的类型识别结果表征该训练样本图像为噪声样本，则电子设备可以丢弃学生网络提取的该训练样本图像对应的特征信息，即不利用该训练样本图像对学生网络进行训练；当教师网络输出的类型识别结果表征该训练样本图像为干净样本，则电子设备可以利用该特征信息对学生网络进行训练；如此，可以在利用大规模训练样本进行训练时，由教师网络指导学生网络进行学习，从而提升学生网络的训练效率。
52.可见，基于上述设计，本技术提供的图像识别模型的训练方法，通过将训练样本图像分别输入待训练的第一图像识别模型和训练完成的第二图像识别模型，从而由第一图像识别模型提取该训练样本图像对应的特征信息，且由第二图像识别模型输出该训练样本图像的类型识别结果；以使当第二图像识别模型输出的类型识别结果表征该训练样本图像为噪声样本，则丢弃该训练样本图像对应的特征信息，而当第二图像识别模型输出的类型识别结果表征该训练样本图像为干净样本，则利用该训练样本图像对应的特征信息对第一图像识别模型进行训练；如此，可以在利用大规模训练样本进行训练时，由训练完成的第二图像识别模型指导对第一图像识别模型的训练，使第一图像识别模型仅利用干净样本进行训练，能够提升图像识别模型的训练效率。
53.需要说明的是，在例如图1所示的流程框图中，步骤203与步骤205之间并无先后的执行顺序，在一些实施例中，可以是先执行步骤203，再执行步骤205；也可以是先执行步骤205，再执行步骤203，本技术对此不进行限定；比如，在本技术其他一些实施例中，步骤203与步骤205还可以一并执行。
54.其中，在一些实施例中，为了使第一图像识别网络能够针对一些困难样本进行学习，可以结合topk策略生成该训练样本图像对应的类型识别结果。
55.比如，结合图2所示，在利用第二图像识别模型输出该训练样本图像对应的类型识别结果时，电子设备可以先将该训练样本图像输入第二图像识别模型，由第二图像识别模型输出该训练样本图像对应的预测类别向量；其中，该预测类别向量包括多个预测标签类别各自对应的预测参数，每一预测参数表征该训练样本图像属于对应预测标签类别的概率。
56.然后，电子设备可以根据接收的标签类别，在该预测类别向量中确定出该接收的标签类别对应的目标预测参数；其中，所述接收的标签类别属于所述多个预测标签类别中的一个。
57.接下来，电子设备可以根据预先配置的topk策略，以一预设配置的正整数k，当该目标预测参数在该预测类别向量包含的所有预测参数中，按照从大到小的顺序排列在前k个，则确定该训练样本图像为干净样本；当该目标预测参数在该预测类别向量包含的所有预测参数中，按照从大到小的顺序未排列在前k个，则确定该训练样本图像为噪声样本。
58.如此，通过设置的topk策略，可以使第一图像识别模型也可以针对一些困难样本进行学习，从而提升第一图像识别模型的识别性能以及训练效果。
59.需要说明的是，图像识别模型的训练效果一般与训练次数成正相关，训练次数越多，训练效果越好。在一些实施例中，在结合topk策略对第一图像识别模型进行训练时，当
训练次数较少，可以将k设置为较小的值，比如将k设置为1，从而使第一图像识别模型仅针对干净样本进行训练；而随着训练次数的增加，可以不断的增大k的值，从而使第一图像识别模型针对一些困难样本也进行学习。
60.因此，作为一种可能的实施方式，在本技术提供的训练方法中，当该第一图像识别模型的训练次数达到设定的次数阈值，电子设备可以对k进行更新，比如将k按照设定的步长增大；并以更新后的k，以及新的训练样本图像，继续对第一图像识别模型进行训练，直至该第一图像识别模型收敛。如此，通过动态的调节topk策略中的k值，能够提升第一图像识别模型的泛化性。
61.另外，在一些实施例中，在对第一图像识别模型进行训练时，电子设备可以根据第二图像识别模型输出的类型识别结果，并利用对应的类型识别结果为干净样本的训练样本图像计算损失函数，以使第一图像识别模型进行正确的梯度更新。
62.其中，电子设备可以利用交叉熵函数构建第一图像识别模型的损失函数。比如，作为一种可能的实施方式，该第一图像识别模型的损失函数可以表示如下：
63.loss＝-log(1-p
θ
(xi,y
t
))
64.其中，xi表示该训练样本图像的特征信息，在该计算公式中，该特征信息可以利用特征向量进行标识；y
t
表示接收的标签类别；p
θ
(xi,y
t
)表示训练样本图像对应于该接收的标签类别的权重参数。
65.由该计算公式可以分析出，第一图像识别模型的损失值主要取决于权重参数p
θ
(xi,y
t
)的大小；当权重参数p
θ
(xi,y
t
)的值越接近于1，则计算出的损失值越小；当权重参数p
θ
(xi,y
t
)的值约接近于0，则计算出的损失值越大。
66.其中，作为一种可能的实现方式，权重参数p
θ
(xi,y
t
)的计算可以采用softmax函数，其计算公式可以表示如下：
[0067][0068]
其中，该计算公式的分子为该接收的标签类别所对应的预测分数值，而分母包含两部分，其一为左边的分子部分，其二为右边的表征除该接收的标签类别以外的其他标签类别的预测分数值；当整个计算公式的分子的值越小，表征损失值越大，从而能利于第一图像识别模型的训练。
[0069]
为了能使第二图像识别模型识别出的干净样本对第一图像识别模型的训练起到更好的效果，在一些实施例中，可以利用一个根据预测分数值生成的自适应的权重再分配函数来使得损失函数的分母增大，从而使损失函数的输出值变小，以产生更大的损失来训练第一图像识别模型。
[0070]
比如，示例性地，该自适应权重再分配函数可以表示为：
[0071][0072]
其中，δ表示设定的超参数。
[0073]
如此，根据上述的自适应权重再分配函数，上述的权重参数p
θ
(xi,y
t
)的计算公式可以更新为如下：
[0074]
s表示设定的超参数。
[0075]
当然，可以理解的是，上述的损失函数仅为示意，在本技术其他一些可能的实施方式中，第一图像识别模型还可以采用其他的一些损失函数进行梯度更新，本技术对此不进行限定。
[0076]
另外，基于与本技术提供的上述图像识别模型的训练方法相同的发明构思，结合图4所示，本技术还提供一种图像识别模型的训练装置300，该训练装置300包括数据处理模块301及模型训练模块302；其中：
[0077]
数据处理模块301，用于将训练样本图像分别输入第一图像识别模型和第二图像识别模型，以使第一图像识别模型提取训练样本图像对应的特征信息，以及使第二图像识别模型输出训练样本图像对应的类型识别结果；其中，类型识别结果表征训练样本图像为噪声样本或者是干净样本；
[0078]
模型训练模块302，用于当训练样本图像为噪声样本，则丢弃特征信息；
[0079]
模型训练模块302还用于，当训练样本图像为干净样本，则利用特征信息对第一图像识别模型进行训练。
[0080]
可选地，作为一种可能的实施方式，数据处理模块301在将训练样本图像输入第二图像识别模型，以使第二图像识别模型输出训练样本图像对应的类型识别结果时，具体用于：
[0081]
将训练样本图像输入第二图像识别模型，由第二图像识别模型输出训练样本图像对应的预测类别向量；其中，预测类别向量包括多个预测标签类别各自对应的预测参数，每一预测参数表征训练样本图像属于对应预测标签类别的概率；
[0082]
确定出接收的标签类别在预测类别向量中对应的目标预测参数；其中，接收的标签类别属于多个预测标签类别中的一个；
[0083]
当目标预测参数在预测类别向量包含的所有预测参数中，按照从大到小的顺序排列在前k个，则确定训练样本图像为干净样本；其中，k为正整数；
[0084]
当目标预测参数在预测类别向量包含的所有预测参数中，按照从大到小的顺序未排列在前k个，则确定训练样本图像为噪声样本。
[0085]
可选地，作为一种可能的实施方式，数据处理模块301还用于：
[0086]
当第一图像识别模型的训练次数达到设定的次数阈值，对k进行更新，并以更新后的k，以及新的训练样本图像，继续将训练样本图像分别输入第一图像识别模型和第二图像识别模型，以使第一图像识别模型提取训练样本图像对应的特征信息，以及使第二图像识别模型输出训练样本图像对应的类型识别结果，直至第一图像识别模型收敛。
[0087]
在本技术所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本技术的一些实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部
分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。
[0088]
也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。
[0089]
也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0090]
另外，在本技术的一些实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。
[0091]
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术的一些实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。
[0092]
以上所述仅为本技术的部分实施例而已，并不用于限制本技术，对于本领域的技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。
[0093]
对于本领域技术人员而言，显然本技术不限于上述示范性实施例的细节，而且在不背离本技术的精神或基本特征的情况下，能够以其它的具体形式实现本技术。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本技术的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本技术内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：动态调整区域服务器线程的方法及装置与流程

图像识别模型的训练方法、装置、电子设备及存储介质与流程

相关文献

最热文献