用于对象属性分类模型训练的方法、设备和存储介质与流程

2023-02-10 17:25:14 来源：中国专利 TAG：

1.本公开涉及对象识别，尤其涉及对象属性分类。

背景技术：

2.近年来，静态图像或一系列运动图像(诸如视频)中的对象检测/ 识别/比对/跟踪被普遍地和重要地应用于图像处理、计算机视觉和识别领域，例如web图像自动标注、海量图像搜索、图像内容过滤、机器人、安全监视、医学远程会诊等多种领域，并且在其中起到重要作用。对象可以是人、人的身体部位，诸如脸部、手部、身体等，其它生物或者植物，或者任何其它希望检测的物体。对象识别/验证是最重要的计算机视觉任务之一，其目标是根据输入的照片/视频来准确地识别或验证其中的特定对象。人体部位识别、尤其是人脸识别，目前获得广泛的应用，而一张人脸图像上往往包含很多的属性信息，包括眼型、眉型、鼻型、脸型、发型、胡子种类等众多信息。对人脸属性进行分类将有助于对人像具有更加清晰的认知。

技术实现要素：

3.提供该发明内容部分以便以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。
4.根据本公开的一些实施例，提供了一种用于对象属性分类的模型的训练方法，包括以下步骤：获取与要执行分类任务的待分类属性相关的二分类属性数据，所述二分类属性数据包含指示该待分类属性对于至少一个分类标签中的每一个为“是”或“否”的数据；基于所述二分类属性数据进行用于对象属性分类的模型的预训练。
5.根据本公开的另一些实施例，提供了一种用于对象属性分类的模型的训练装置，包括二分类属性数据获取单元，被配置为获取与要执行分类任务的待分类属性相关的二分类属性数据，所述二分类属性数据包含指示该待分类属性对于至少一个分类标签中的每一个为“是”或
ꢀ“
否”的数据；以及预训练单元，被配置为基于所述二分类属性数据进行用于对象属性分类的模型的预训练。
6.根据本公开的一些实施例，提供一种电子设备，包括：存储器；和耦接至存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行本公开中所述的任一实施例的方法。
7.根据本公开的一些实施例，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行本公开中所述的任一实施例的方法。
8.通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征、方面及其优点将会变得清楚。
附图说明
9.下面参照附图说明本公开的优选实施例。此处所说明的附图用来提供对本公开的进一步理解，各附图连同下面的具体描述一起包含在本说明书中并形成说明书的一部分，用于解释本公开。应当理解的是，下面描述中的附图仅仅涉及本公开的一些实施例，而非对本公开构成限制。在附图中：
10.图1示出根据本公开的实施例的对象属性分类的概念性示意图。
11.图2示出了根据本公开的实施例的用于对象属性分类的模型训练方法的流程图。
12.图3a示出了根据本公开的实施例的示例性人脸属性分类的模型预训练的示意图，并且图3b示出了根据本公开的实施例的示例性人脸属性分类的模型训练的示意图。
13.图4示出了根据本公开的实施例的用于对象属性分类的模型训练设备的框图。
14.图5示出本公开的电子设备的一些实施例的框图。
15.图6示出本公开的电子设备的另一些实施例的框图。
16.应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不一定是按照实际的比例关系绘制的。在各附图中使用了相同或相似的附图标记来表示相同或者相似的部件。因此，一旦某一项在一个附图中被定义，则在随后的附图中可能不再对其进行进一步讨论。
具体实施方式
17.下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，但是显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。以下对实施例的描述实际上也仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例。
18.应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值应被解释为仅仅是示例性的，不限制本公开的范围。
19.本公开中使用的术语“包括”及其变型意指至少包括后面的元件/ 特征、但不排除其他元件/特征的开放性术语，即“包括但不限于”。此外，本公开使用的术语“包含”及其变型意指至少包含后面的元件/特征、但不排除其他元件/特征的开放性术语，即“包含但不限于”。因此，包括与包含是同义的。术语“基于”意指“至少部分地基于”。
20.整个说明书中所称“一个实施例”、“一些实施例”或“实施例”意味着与实施例结合描述的特定的特征、结构或特性被包括在本发明的至少一个实施例中。例如，术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例
”ꢀ
表示“至少一些实施例”。而且，短语“在一个实施例中”、“在一些实施例中”或“在实施例中”在整个说明书中各个地方的出现不一定全都指的是同一个实施例，但是也可以指同一个实施例。
21.需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关
系。除非另有指定，否则“第一”、
ꢀ“
第二”等概念并非意图暗示如此描述的对象必须按时间上、空间上、排名上的给定顺序或任何其他方式的给定顺序。
22.需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。
23.本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。
24.在图像/视频的对象识别中，对象往往会包含多种属性，对于属性进行分类有助于更加准确地认知和识别对象。以人脸为例，人脸上可以包含各种属性信息、例如眼型、眉型、鼻型、脸型、发型、胡子种类等众多信息。因此，在人脸作为待识别的对象时，对于这些属性信息中的每一种进行分析/分类，即识别/分析出每种属性的类型/样式等，诸如眉毛类型，眼睛类型等，将有助于人脸的准确认知和识别。
25.当针对特定的图像、视频等进行对象属性分析/分类时，通常是将该图像、视频等输入相应的模型以进行处理来实现。模型可通过采用训练样本，例如预先获取的图像样本进行训练而获得。在模型训练中，通常还可以包括基于图像样本进行预训练，随后针对属性分类任务对预训练得到的模型进行进一步的调整和变换，从而得到尤其适合于属性分类任务的模型。通过利用所获得的模型，可以完成希望的属性分类。如图1示出了对象属性分类过程的基本示图，其中包括模型预训练、模型训练和模型应用。
26.目前对于一个人脸属性分类任务，以眉毛属性分类为例，现有技术通过收集不同的眉型数据，进行人工标注后，采用加载imagenet 预训练模型在此数据上进行训练。但是通常imagenet预训练模型是在通用种类的数据集imagenet上预训练得到的，该模型主要关注于全局的种类分类，例如车，船，鸟等，而非特定对象的特定属性，特别地，人脸属性分类并不属于imagenet训练模型的已有类型，这样的种类分类与人脸属性相差太大，无法准确区分，因此直接拿来作为人脸属性分类的预训练模型无法实现良好的效果。另一种解决方案是使用对应属性的数据(眉毛种类数据)进行预训练，但在实际场景中，并不存在眉型的多分类数据集，因此难以获得对应属性的预训练模型来增强模型的效果。
27.鉴于此，本公开提出了改进的对象属性分类的模型预训练，其中高效地获取特定类型的属性相关数据，并采用特定类型的属性相关数据来进行用于对象属性分类的模型预训练，从而能够高效、准确地获得预训练模型以用于对象属性分类。根据一些实施例，该特定类型的属性相关数据能够以低歧义的方式指示属性与类型/分类标签之间的关系，并且能够高效、低成本地被获取。该特定类型的属性相关数据可以为各种适当的形式，尤其是特别地为二分类属性数据，其指示了属性对于某一分类标签为是或否。也就是说，二分类属性数据指示了属性的分类标签为“是”或“否”。
28.另外，本公开还提出了一种改进的对象属性分类的训练方法，其中如上所述地进行模型预训练以获得预训练的模型，然后利用属性分类任务所涉及的属性分类标签数据基于预训练模型进一步进行训练，继而获得改进的属性分类模型。
29.还另外的，本公开还提出了一种改进的对象属性分类方法，其中可以基于前述的预训练模型来实现更加准确、适当的分类。特别地，可以如前所述地基于前述的预训练模型来获得改进的属性分类模型，并且基于该分类模型来进行对象属性分类，从而获得更好地分类效果。
30.下面结合附图对本公开的实施例进行详细说明，但是本公开并不限于这些具体的实施例。下面这些具体实施例可以相互结合，对于相同或者相似的概念或过程可能在某些实施例不再赘述。此外，在一个或多个实施例中，特定的特征、结构或特性可以由本领域的普通技术人员从本公开将清楚的任何合适的方式组合。
31.应理解，本公开对于如何获得待识别/分类的包含对象属性的图像也不做限制。在本公开的一个实施例中，可以从存储装置，例如内部存储器或者外部存储装置获取，在本公开的另一个实施例中，可以调动摄影组件来拍摄。作为示例，所获取的图像可以是一张采集到的图像，也可以是采集到的视频中的一帧图像，并不特别局限于此。
32.在本公开的上下文中，图像可指的是多种图像中的任一种，诸如彩色图像、灰度图像等。应指出，在本说明书的上下文中，图像的类型未被具体限制。此外，图像可以是任何适当的图像，例如由摄像装置获得的原始图像，或者已对原始图像进行过特定处理的图像，例如初步过滤、去混叠、颜色调整、对比度调整、规范化等等。应指出，图像在进行预训练/训练/识别之前还可进行预处理操作，预处理操作还可以包括本领域已知的其它类型的预处理操作，这里将不再详细描述。
33.图2示出了根据本公开的实施例的用于对象属性分类的模型的预训练方法。在方法200中，在步骤s201(被称为获取步骤)，获取与属性分类任务的待分类属性相关的二分类属性数据，所述二分类属性数据包含指示该待分类属性对于至少一个分类标签中的每一个为“是
”ꢀ
或“否”的数据；并且在步骤s202(被称为预训练步骤)，基于所述二分类属性数据进行用于对象属性分类的模型的预训练。
34.应指出，待分类属性可指的是要执行属性分类任务的属性。例如在要进行人脸属性分类，例如眉型分类的情况下，眉型可以被称为待分类的属性。人脸区域中的其它属性，例如眼部、嘴部等可以被称为其它属性。
35.根据本公开的实施例，二分类属性数据的含义可以为直接指示属性的某一分类标签为“是”还是“否”，这样歧义性较低，而且可以容易地收集，从而能够被高效地获取。应指出，二分类属性数据可以为各种适当的形式/取值。例如，对于每一分类可以为“0”或“1”，其中“1
”ꢀ
指示该属性是该分类，“0”指示该属性不是该分类，反之亦然。当然二分类数据还可以是任意两个不同的值之一，这两个值中的一个值指示
ꢀ“
是”，而另一个值指示“否”。
36.根据本公开的实施例，所述二分类属性数据可以包括与所述至少一个分类标签一一对应的至少一个数据，每个数据指示该待分类属性对于该至少一个分类标签中的相对应的一个标签为“是”或“否”。特别地，属性相关的二分类属性数据可以为包含一个以上值的集合、向量等形式，其中的每个值对应于一个分类标签，并且指示该属性对于该分类为“是”或“否”。这样，相比于现有的多分类属性数据通常仅指示属性属于其中一种分类，二分类属性数据可以涵盖一个以上分类的各种组合，特别地涵盖了属性属于多个分类的情况，能够获得更加全面的属性分类数据。以眉型属性为例，眉型的分类标签可能包括浓眉，柳叶眉，则眉型属性的二分类属性数据包括指示眉型是否为浓眉的数据以及指示眉型是否为柳叶眉的数据。这样，所获取的眉型属性的二分类属性数据可以涵盖眉型属性为浓眉且为柳叶眉的情况。
37.根据一些实施例，二分类属性数据所对应的至少一个分类标签和/ 或标签数量可
被适当地设定。作为一个示例，该分类标签的数量可以小于、甚至显著小于属性分类任务中所规定的分类标签的数量，这样所需要的采集的数据量少，从而可以快速、高效地获取二分类属性数据。在一些实施例中，二元分类属性数据对应的分类标签可以属于粗分类标签，和/或彼此之间可以具有较高的可区分性，使得分类标签可以容易地相互区分，例如可以是容易判断和标记的类别。具体地，在一些实施例中，二元分类属性数据对应的分类标签可以从属性的代表性类别中选择，尤其是对象属性的关联性低的不同类别。以眉型属性为例，眉型属性的类别可以包含眉毛的浓密度、形状等，其中浓密度类别可以包括浓眉、稀疏眉等分类标签，形状类别可包括一字眉、柳叶眉等形状分类标签，则分类标签可以分别选自这些不同的方面，并且数量可以被适当地设定。例如，二分类属性数据的分类标签可以分别选自这两个类别中，例如一个类别中选择一个或者多个分类标签。这样，通过对应于不同类别的分类标签数据的适当组合，能够获得属性划分更加全面的数据，从而进一步提高模型训练准确率。特别地，在分类标签来自不同类别且数量较少的情况下，可以快速、高效地获取二分类属性数据，而且所获得的数据的组合能够涵盖比较全面的情况，从而进一步提高模型训练精度。
38.根据本公开的实施例，属性分类任务中涉及的分类标签可能属于细分类标签，和/或可能彼此之间具有低可区分性，例如，通常难以彼此区分，并且在被判断/标记时可能会模棱两可。例如，分类标签可以包括从同一类别的对象属性中选择的具有低可分性的多个标签。
39.根据本公开的实施例，二分类属性数据所对应的分类标签可被包含在属性分类任务所涉及的分类标签中，和/或可以不包含在该分类标签中。特别地，二分类属性数据所对应的分类标签可以全部包含在属性分类任务的分类标签内，但是数量小的多；或者可以全部不同于属性分类任务的分类标签；或者一部分在属性分类任务的分类标签内，另一部分在属性分类任务的分类标签之外。作为示例，对于眉型分类而言，其二分类属性数据可指示眉型是否属于某一眉型分类，而该某一眉型分类可能被包含在要执行的眉型分类任务所涉及的数种眉型分类中，也可能是该数种眉型分类之外。
40.根据本公开的实施例，二分类属性数据是与待分类的属性相关的，其可以不仅仅包含待分类的属性自身的二分类属性数据，还可以包括与待分类的属性相关联的其它属性的二分类属性数据。在此情况下，二分类属性数据可以包含对应于多于一种的属性的数据，通常每个属性具有各自的二分类属性数据，各种属性的二分类属性数据指示该属性对于各自有关的分类为是或否，并且可以如前文所述地以与待分类属性的二分类属性数据类似方式来表示。此情况下的二分类属性数据可以为各种适当的形式，特别地可以为数据集/数据向量的形式，其中集合中的每个值指示某一属性是否为某个分类。或者可以为矩阵的形式，其中行和列分别指示属性以及该属性对应的分类标签的“是”或
ꢀ“
否”。相关联的属性数据一起用于预训练，能够让训练得到的属性分类性更加关注于相关联的图像区域，减少全局特征带来的细节丢失。
41.根据另一些实施例，相关联的其它属性可以由各种适当的方式来确定，例如可通过属性之间的邻近程度或者语义相近程度来判定。
42.在一些实施例中，属性之间的语义相近指的是属性之间的关联性强、关系紧密，例如它们可以共同构成表征对象的特征。例如在对象是人脸、待分类的属性是眉型的情况
下，与眉型语义接近的属性可包括能够用于表征人脸的且通常与眉毛一起被识别的属性，例如眉毛附近的人脸部位，诸如眼睛、眼袋等等。关于属性之间语义接近的条件，例如哪些特征之间可被认为是语义相近等等，可以被适当地设定，例如可以由用户根据经验设定，或者可以依赖于要识别的对象的特征分布特点被设定，这里将不再详细描述。
43.在一些实施例中，属性之间的邻近程度可例如由属性之间的距离来表征，特别地，如果属性之间的距离小于等于特定阈值，则可认为属性是邻近的，继而可认为它们之间相互关联。作为示例，相关联的其它属性可以是在包含待分类属性的图像中所包含的与该待分类属性邻近的其它属性，诸如为与待分类属性的图像区域邻近的图像区域中所包含的其它属性。还以眉型为例，其中在眉毛邻近的图像区域中存在其它属性，例如眼睛属性，则眼睛属性可作为其他属性来获取二分类数据。相邻属性的二分类属性数据一起用于预训练，能够让卷积神经网络更加关注于这一大体区域，减少全局特征带来的细节丢失。
44.还在一些实施例中，可以考虑属性之间的语义相近程度和距离两者。特别地，对于待分类属性而言，与该待分类属性语义相近且距离小于等于特定阈值的其它属性可被认为是相关联的属性，并且获取其二分类属性数据以共同用于预训练。
45.根据一些实施例，二分类属性数据可以对于图像被设定/获取的。例如，在构建图像属性分类的训练样本集时，可以对于每一训练样本图像，获取该图像中待分类属性的二分类属性数据，并且可选地，可以获得图像中与该待分类属性相关联的其它属性的二分类属性数据。特别地，对于图像，获取图像中属性分类任务对应区域(其可以包括待分类属性区域，还可以包括邻近属性区域)所包含的一种或多种属性。例如，人脸图像中眉型作为图像分类任务的待分类属性的情况下，可以获取图像中眉毛区域中所包含的眉型的二分类数据，进一步还可以获取眉毛区域邻近区域(例如眼睛或者眼睛的一部分)中的属性的二分类属性数据。
46.根据本公开的实施例，二分类属性数据可以通过各种方式被获取。根据本公开的一些实施例，所述二分类属性数据是通过对训练图片进行标注而获取的，或者是选自预定数据库的。以下将描述根据本公开的实施例的二分类属性数据的获取。
47.以眉型分类为例，假设其分类任务为无眉毛，s型眉毛，一字眉，弯曲眉，折线眉，稀疏眉六分类任务。可以首先需要获得人脸属性分类任务对应区域的多种属性的二分类数据，比如眉毛区域的二分类数据和与眉毛区域接近的眼睛属性二分类数据。二分类属性数据的含义为该属性的标签为是或否，因此歧义性较低，同时更容易收集。收集二分类属性数据有以下两种方式：
48.从公开数据集进行收集/获取：目前已经有针对人脸属性分类的二分类数据集，包括celeba和maad等数据集。celeba数据包含针对人脸属性的40个二分类标签，包括是否浓眉，是否柳叶眉，是否小眼睛，是否有眼袋，是否带眼镜等二分类标签数据。maad数据集包含针对人脸属性的47个二分类标签，包括是否浓眉，是否柳叶眉，是否褐色眼睛，是否有眼袋，是否带眼镜等二分类标签数据。因此可以简单方便地得到对应属性区域的一些二分类数据。
49.人工标注：采用标注人员标注的方式。也就是说，标注人员对于某张图片，尤其是图片中所包含的属性，来标注其所属的分类。本公开的实施例中采用让标注人员进行二分类标注来快速获得预训练数据，作为示例，二分类标注即为对于该人脸图片是否是柳叶眉
只做是否判断。这样，标注人员只需要判断是否，速度较快，同时错误率较低。
50.根据本公开的实施例，在属性分类模型训练中，二分类属性数据可以以适当的方式关联到要用于训练的图像或者图像区域集合，例如可以是作为标注数据、辅助信息等，以指示该图像或图像区域中属性的分类状态，作为训练用样本。作为示例，模型输入是完整的一张人脸图像，所采集的人脸图像的属性分类任务区域具有相应的二分类属性标签，那么使用图像和对应标签就可以进行网络预训练，为后续正式的属性多分类任务提供好的预训练模型。
51.根据本公开的一些实施例，所述预训练步骤包括基于所述二分类属性数据训练得到能够按照二分类属性数据所对应的属性分类将对象属性分类的预训练模型。特别地，基于所采集的二分类数据集来进行训练，从而所获得的模型是针对二分类属性数据的分类的。
52.应指出，预训练模型可以是任何适当类型的模型，例如包括常用的对象识别模型、属性分类模型等，诸如神经网络模型、深度学习模型等等。根据本公开的一些实施例，预训练模型可以是基于卷积神经网络的、其可以依次包括由卷积神经网络组成特征抽取模型、全连接层、以及二分类属性分类器。其中的全连接层可以采用本领域中已知的各种类型，二分类属性分类器是与二分类属性数据的分类标签一一对应的，一个分类器对应于一个属性分类标签，特别地可包括待分类属性本身的以及相关联的其它属性的分类标签。
53.根据本公开的实施例，可以采用适当的方式来执行预训练过程。例如，可以从训练样本集中的每个训练样本/训练图片抽取对象属性特征，并且结合对于每个训练样本中所获取的属性的二分类属性数据，进行模型的预训练。对象属性特征可以表现为任何适当的形式，例如矢量形式，并且预训练过程可以采用本领域中各种适当的方式来执行，作为一个示例，可以基于所抽取的特征和二分类属性数据利用损失函数来执行训练，优化模型的参数权重。具体而言，进行特征提取和下采样之后，获得特征矩阵，然后特征矩阵经过全连接层来进行特征分类，分类是就通过计算损失来进行训练的。特别地，计算损失就是基于特征抽取之后的特征向量与二分类属性数据来计算损失，比如将特征抽取之后的特征向量与二分类属性数据进行比较来获得。损失可以通过各种适当方式来计算，比如交叉熵损失。预训练过程还可以采用其他适当的方式进行，这里将不再详细描述。
54.由此，根据本公开的实施例，高效地获取二分类属性图片和标签数据用来进行模型预训练，获取有效的预训练模型，其可用作好的权重初始值，使得可以在预训练模型的基础上来获得更好的属性分类模型以更好地完成属性分类任务。特别的，高效表现在收集属性二分类数据速度更快，歧义更小，同时数据更多，能够高效地获取有效的预训练模型。
55.图3a示出了根据本公开的实施例的示例性预训练模型训练过程。
56.预训练模型可以具有本领域中已知的模型架构，诸如分层模型架构，例如模型由基本的神经网络模型backbone和全连接层fc组成，其中backbone和fc可以是目前已提出的经典的模块，没有明显的限制。在预训练阶段，预训练模型可以采用backbone fc，最后一层为多个二分类属性分类器，这可能与最终眉型分类的模型有一定的区别。应指出，此时的每个分类器是对应于所获取的图像的二分类，而不一定是要最终分类的模型。
57.输入为训练样本集，其中包含对象属性的图像，以及相应的二分类属性数据。这
样使用收集到的二分类属性进行模型的预训练。作为示例，对于模型训练数据集中的每个图片，标注或者获取每个图片中的包含待属性分类的图像区域中的各个属性的二分类数据，然后作为输入来进行模型训练。在预训练阶段，模型最后的输出是多个属性二分类，分类采用交叉熵损失进行训练，训练完成后便可得到可用于最终的眉型分类任务的高效预训练模型。
58.根据本公开的一些实施例，还提出了基于属性分类任务涉及的分类标签相关的分类属性数据和经预训练得到的预训练模型来训练用于对象属性分类的模型。如图2中的步骤s203所示。应指出，步骤s203 用虚线示出以指示该模型训练步骤是可选的，并且即使不包含该步骤，本公开的预训练方法的构思也是完整的，并且能够实现前述有利的技术效果。
59.根据本公开的一些实施例，所述分类属性数据对应于对象属性的多分类标签数据。应指出，这里的分类属性数据并不同于前文提及的二分类属性数据，其可以是多分类属性数据，例如对于眉型属性，可以采用两个以上不同的值中的一个来指示不同的眉型，而不如前文所述那样仅仅指示“是”或“否”。作为示例，输入数据是人脸图像，其中包含要执行分类的眉毛，分类任务为无眉毛，s型眉毛，一字眉，弯曲眉，折线眉，稀疏眉。假设对应于分类认为，标签分别为0，1，2， 3，4，5，那么多分类属性数据例如标注标签就以上述标签中的任一数字呈现。
60.根据本公开的一些实施例，训练模型的基础结构可以与预训练模型基本一致，例如包括卷积神经网络模型、在卷积神经网络模型之后的多分类全连接层。这里的卷积神经网络模型可以是如与前述的预训练模型中的模型一样，多分类全连接层对应于前述多分类标签数据，可以相对于预训练模型的连接层有所不同或者进行适当的调整。
61.根据本公开的实施例，在如前所述的获得了预训练模型之后，就可以基于所获得的预训练模型针对属性分类任务进行全量训练或微调，特别地以预训练阶段获得的神经网络和全连接层的参数作为初始值来进行微调或者全量训练。全量训练或者微调训练可采用各种适当的方式来进行。在一些实施例中，全量训练指的是把所有多分类标签的数据作为训练样本集，输入训练模型来用来进行训练。这种情况下可以同时调整神经网络和连接层的参数。在另一实施例中，微调是加载二分类属性数据来作为预训练模型来进行微调，微调的过程通常是保持神经网络的参数不变，训练时只更新全连接层的参数。
62.图3b示出了根据本公开的实施例的示例性属性分类训练过程。在如前所述地得到高效的预训练模型后，可基于预训练模型在最终的人脸属性任务上进一步进行模型训练。如图3b所示，首先加载预训练模型backbone和对应的全连接层，并将该模型的最后一层多个二分类属性分类器替换成一层多分类fc层，在例子中为对应于眉型6 分类的多分类fc层。例如通过使用已有的少量的无眉毛，s型眉毛，一字眉，弯曲眉，折线眉，稀疏眉六分类标签数据作为输入数据，并采用交叉熵损失进行最后的模型训练或者模型微调。这样，相比于不使用预训练模型和使用imagenet预训练模型的方式，最终的结果能够获得进一步改进的分类模型，其比直接不使用预训练和imagenet 分类准确度更高，可得到更好的分类效果。在最终的属性多分类任务上都有较大的提升。
63.本公开主要是提出了一种基于属性的高效预训练方案，该方案使用与对象属性分类对应区域包含和/或相近的一些二分类属性数据来进行模型预训练，该数据较易获
得，有相应公开的数据集，即使是采用人工标注，标注二分类属性数据成本也较为低廉，速度快，能够较快获得所需的预训练数据。并采用这些二分类属性数据进行模型的预训练。本文提出的基于二分类对象属性的高效预训练方案能够在最终的属性分类结果上带来准确率提升，例如提升2-3％。尽管上文主要针对人脸属性进行了描述，但是应理解，本公开的基本构思可以同样地应用于其他类型的对象属性分析/分类，这里将不再详细描述。根据本公开所训练得到的模型可以应用于各种应用场景，例如人脸识别、人脸检测、人脸检索、人脸聚类、人脸比对等等。
64.根据本公开的实施例，还公开了一种对象属性分类方法，包括采用根据前述方法来获取用于对象属性分类的模型；以及采用所述模型对待处理图像中的对象进行属性分类。特别地，由于如前文所述，本公开训练得到的模型能够实现更高的分类准确度，从而基于该模型的对象属性分类可得到更好的分类效果。在最终的属性多分类任务上都有较大的提升。
65.以下将参照附图来描述根据本公开的实施例的训练装置。图4示出了根据本公开的实施例的用于对象属性分类的模型训练装置。装置 400包括二分类属性数据获取单元401，被配置为获取与属性分类任务的待分类属性相关的二分类属性数据，所述二分类属性数据包含指示该待分类属性对于至少一个分类标签中的每一个为“是”或“否”的数据；模型预训练单元402，被配置为基于所述二分类属性数据进行用于对象属性分类的模型的预训练；以及模型训练单元403，被配置为基于属性分类任务涉及的分类标签相关的分类属性数据和经预训练得到的预训练模型来训练用于对象属性分类的模型。其中，所述预训练单元可进一步配置为基于所述二分类属性数据训练得到能够按照二分类属性数据所对应的分类标签将对象属性分类的预训练模型。
66.应指出，训练单元403用虚线示出以指示训练单元403也可以位于模型训练装置400之外，例如在此情况下，装置400高效地获得预训练模型，并且将之提供给其它设备以进行进一步的训练，而装置400 仍能够实现如前所述的本公开的有利效果。
67.应注意，上述各个单元仅是根据其所实现的具体功能划分的逻辑模块，而不是用于限制具体的实现方式，例如可以以软件、硬件或者软硬件结合的方式来实现。在实际实现时，上述各个单元可被实现为独立的物理实体，或者也可由单个实体(例如，处理器(cpu或dsp 等)、集成电路等)来实现。此外，上述各个单元在附图中用虚线示出指示这些单元可以并不实际存在，而它们所实现的操作/功能可由处理电路本身来实现。
68.此外，尽管未示出，该设备也可以包括存储器，其可以存储由设备、设备所包含的各个单元在操作中产生的各种信息、用于操作的程序和数据、将由通信单元发送的数据等。存储器可以是易失性存储器和/或非易失性存储器。例如，存储器可以包括但不限于随机存储存储器(ram)、动态随机存储存储器(dram)、静态随机存取存储器 (sram)、只读存储器(rom)、闪存存储器。当然，存储器可也位于该设备之外。可选地，尽管未示出，但是该设备也可以包括通信单元，其可用于与其它装置进行通信。在一个示例中，通信单元可以被按照本领域已知的适当方式来实现，例如包括天线阵列和/或射频链路等通信部件，各种类型的接口、通信单元等等。这里将不再详细描述。此外，设备还可以包括未示出的其它部件，诸如射频链路、基带处理单元、网络接口、处理器、控制器等。这里将不再详细描述。
69.本公开的一些实施例还提供一种电子设备，其可以操作以实现前述的模型预训
练设备和/或模型训练设备的操作/功能。图5示出本公开的电子设备的一些实施例的框图。例如，在一些实施例中，电子设备5可以为各种类型的设备，例如可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、pda(个人数字助理)、pad(平板电脑)、 pmp(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字tv、台式计算机等等的固定终端。例如，电子设备5可以包括显示面板，以用于显示根据本公开的方案中所利用的数据和/或执行结果。例如，显示面板可以为各种形状，例如矩形面板、椭圆形面板或多边形面板等。另外，显示面板不仅可以为平面面板，也可以为曲面面板，甚至球面面板。
70.如图5所示，该实施例的电子设备5包括：存储器51以及耦接至该存储器51的处理器52。应当注意，图5所示的电子设备50的组件只是示例性的，而非限制性的，根据实际应用需要，该电子设备50 还可以具有其他组件。处理器52可以控制电子设备5中的其它组件以执行期望的功能。
71.在一些实施例中，存储器51用于存储一个或多个计算机可读指令。处理器52用于运行计算机可读指令时，计算机可读指令被处理器52 运行时实现根据上述任一实施例所述的方法。关于该方法的各个步骤的具体实现以及相关解释内容可以参见上述的实施例，重复之处在此不作赘述。
72.例如，处理器52和存储器51之间可以直接或间接地互相通信。例如，处理器52和存储器51可以通过网络进行通信。网络可以包括无线网络、有线网络、和/或无线网络和有线网络的任意组合。处理器 52和存储器51之间也可以通过系统总线实现相互通信，本公开对此不作限制。
73.例如，处理器52可以体现为各种适当的处理器、处理装置等，诸如中央处理器(cpu)、图形处理器(graphics processing unit，gpu)、网络处理器(np)等；还可以是数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。中央处理元(cpu)可以为x86 或arm架构等。例如，存储器51可以包括各种形式的计算机可读存储介质的任意组合，例如易失性存储器和/或非易失性存储器。存储器 51例如可以包括系统存储器，系统存储器例如存储有操作系统、应用程序、引导装载程序(boot loader)、数据库以及其他程序等。在存储介质中还可以存储各种应用程序和各种数据等。
74.另外，根据本公开的一些实施例，根据本公开的各种操作/处理在通过软件和/或固件实现的情况下，可从存储介质或网络向具有专用硬件结构的计算机系统，例如图6所示的计算机系统600安装构成该软件的程序，该计算机系统在安装有各种程序时，能够执行各种功能，包括诸如前文所述的功能等等。图6是示出根据本公开的实施例的中可采用的计算机系统的示例结构的框图。
75.在图6中，中央处理单元(cpu)601根据只读存储器(rom) 602中存储的程序或从存储部分608加载到随机存取存储器(ram) 603的程序执行各种处理。在ram 603中，也根据需要存储当cpu 601 执行各种处理等时所需的数据。中央处理单元仅仅是示例性的，其也可以是其它类型的处理器，诸如前文所述的各种处理器。rom 602、 ram 603和存储部分608可以是各种形式的计算机可读存储介质，如下文所述。需要注意的是，虽然图6中分别示出了rom 602、ram 603 和存储装置608，但是它们中的一个或多个可以合并或者位于相同或不
同的存储器或存储模块中。
76.cpu 601、rom 602和ram 603经由总线604彼此连接。输入/ 输出接口605也连接到总线604。
77.下述部件连接到输入/输出接口605：输入部分606，诸如触摸屏、触摸板、键盘、鼠标、图像传感器、麦克风、加速度计、陀螺仪等；输出部分607，包括显示器，比如阴极射线管(crt)、液晶显示器 (lcd)，扬声器，振动器等；存储部分608，包括硬盘，磁带等；和通信部分609，包括网络接口卡比如lan卡、调制解调器等。通信部分609允许经由网络比如因特网执行通信处理。容易理解的是，虽然图6中示出电子设备600中的各个装置或模块是通过总线604来通信的，但它们也可以通过网络或其它方式进行通信，其中，网络可以包括无线网络、有线网络、和/或无线网络和有线网络的任意组合。
78.根据需要，驱动器610也连接到输入/输出接口605。可拆卸介质 611比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器610上，使得从中读出的计算机程序根据需要被安装到存储部分608中。
79.在通过软件实现上述系列处理的情况下，可以从网络比如因特网或存储介质比如可拆卸介质611安装构成软件的程序。
80.根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行根据本公开的实施例的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置609从网络上被下载和安装，或者从存储装置608被安装，或者从rom 602被安装。在该计算机程序被 cpu 601执行时，执行本公开实施例的方法中限定的上述功能。
81.需要说明的是，在本公开的上下文中，计算机可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是，但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、rf(射频)等等，或者上述的任意合适的组合。
82.上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未
装配入该电子设备中。
83.在一些实施例中，还提供了一种计算机程序，包括：指令，指令当由处理器执行时使处理器执行上述任一个实施例的方法。例如，指令可以体现为计算机程序代码。
84.在本公开的实施例中，可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言，诸如java、smalltalk、c ，还包括常规的过程式程序设计语言，诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络(，包括局域网(lan)或广域网(wan))连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
85.附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
86.描述于本公开实施例中所涉及到的模块、部件或单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块、部件或单元的名称在某种情况下并不构成对该模块、部件或单元本身的限定。
87.本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示例性的硬件逻辑部件包括：现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品 (assp)、片上系统(soc)、复杂可编程逻辑设备(cpld)等等。
88.根据本公开的一些实施例，提出了一种用于对象属性分类的模型的训练方法，包括以下步骤：获取与要执行分类任务的待分类属性相关的二分类属性数据，所述二分类属性数据包含指示该待分类属性对于至少一个分类标签中的每一个为“是”或“否”的数据；以及基于所述二分类属性数据进行用于对象属性分类的模型的预训练。
89.在一些实施例中，二分类属性数据包括与至少一个分类标签一一对应的至少一个值，每个值指示该待分类属性对于该至少一个分类标签中的一个标签为“是”或“否”。
90.在一些实施例中，至少一个分类标签包括选自该待分类属性有关的不同类别的分类标签。
91.在一些实施例中，至少一个分类标签不同于属性分类任务所涉及的分类标签，或者与属性分类任务所涉及的分类标签至少部分地重叠。
92.在一些实施例中，至少一个分类标签包括彼此之间差别大的粗分类的分类标签。
93.在一些实施例中，属性分类任务所涉及的分类标签包括细分类的分类标签。
94.在一些实施例中，二分类属性数据还包括与该待分类属性相关联的至少一个其它属性的二分类属性数据，其中，所述至少一个其它属性中的每个其它属性的二分类属性数据指示该其它属性对于各自有关的分类为是或否。
95.在一些实施例中，与待分类属性相关联的其它属性包括与待分类属性语义接近的其它属性。
96.在一些实施例中，与待分类属性相关联的其它属性包括与待分类属性之间的距离小于等于特定阈值的其它属性。
97.在一些实施例中，与待分类属性相关联的其它属性包括从与待分类属性的图像区域和/或预待分类属性的图像区域邻近的至少一个其他图像区域中获取的其它属性。
98.在一些实施例中，所述二分类属性数据是通过对训练图片进行标注而获取的，或者是选自预定数据库的。
99.在一些实施例中，所述预训练步骤包括基于所述二分类属性数据训练得到能够按照二分类属性数据所对应的分类标签将对象属性分类的预训练模型。
100.在一些实施例中，所述预训练模型包括依次布置的卷积神经网络模型、全连接层以及与二分类属性数据的分类标签一一对应的二分类属性分类器。
101.在一些实施例中，该方法还包括基于属性分类任务的分类标签数据和所述预训练模型来训练用于对象属性分类的模型。
102.在一些实施例中，训练得到的模型包括依次布置的卷积神经网络模型和对应于属性分类任务的分类标签的多分类全连接层。
103.根据本公开的一些实施例，提出了一种用于对象属性分类的模型的训练装置，包括获取单元，被配置为获取与要执行分类任务的待分类属性相关的二分类属性数据，所述二分类属性数据包含指示该待分类属性对于至少一个分类标签中的每一个为“是”或“否”的数据；以及预训练单元，被配置为基于所述二分类属性数据进行用于对象属性分类的模型的预训练。
104.在一些实施例中，该训练装置还包括训练单元，被配置为基于属性分类任务的分类标签数据和所述预训练模型来训练用于对象属性分类的模型。
105.根据本公开的又一些实施例，提供一种电子设备，包括：存储器；和耦接至所述存储器的处理器，所述存储器中存储有指令，所述指令当由所述处理器执行时，使得所述电子设备执行本公开中所述的任一实施例的方法。
106.根据本公开的又一些实施例，提供一种计算机可读存储介质，其上存储有计算机程序，该程序由处理器执行时实现本公开中所述的任一实施例的方法。
107.根据本公开的又一些实施例，提供计算机程序，包括：指令，指令当由处理器执行时使处理器执行本公开中所述的任一实施例的方法。
108.根据本公开的一些实施例，提供一种计算机程序产品，包括指令，所述指令当由处理器执行时实现本公开中所述的任一实施例的方法。
109.以上描述仅为本公开的一些实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类
似功能的技术特征进行互相替换而形成的技术方案。
110.在本文提供的描述中，阐述了许多特定细节。然而，理解的是，可以在没有这些特定细节的情况下实施本发明的实施例。在其他情况下，为了不模糊该描述的理解，没有对众所周知的方法、结构和技术进行详细展示。
111.此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
112.虽然已经通过示例对本公开的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本公开的范围。本领域的技术人员应该理解，可在不脱离本公开的范围和精神的情况下，对以上实施例进行修改。本公开的范围由所附权利要求来限定。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：用于确定潜力推荐信息的方法及装置与流程

用于对象属性分类模型训练的方法、设备和存储介质与流程

相关文献

最热文献