目标识别方法及装置、电子设备和存储介质

2022-06-11 11:19:22 来源：中国专利 TAG：

1.本公开涉及计算机技术领域，尤其涉及一种目标识别方法及装置、电子设备和存储介质。

背景技术：

2.目标识别是指利用计算机对图像中目标的种类进行识别。当前深度学习技术兴起，目前主流的目标识别算法通常是基于深度神经网络(dnns)的。例如，在imagenet数据集上，基于dnns的目标识别方法甚至可以在识别准确率上超过人类。但是，这些方法模型在鲁棒性上依旧与人类有很大差距。其中，在鲁棒性上最令人担忧的事情之一是dnns的对抗样本：通过对输入图片添加一个特定扰动，甚至是人类甚至难以察觉的微小的像素级扰动，dnns会出现人类难以理解的错误并大幅降低识别准确率。其中，对抗样本不仅在数字世界中存在(例如，对图像中的目标添加特定的扰动)，其也存在于物理世界中(例如，为目标添加特定扰动后，再获取目标的图像)。这给基于dnns的识别算法在应用中带来了巨大隐患。因此，提高基于dnns的识别模型的鲁棒性，有着十分重要的现实意义和应用价值。
3.在相关技术中，提高dnns对于对抗样本的防御效果的方法有很多类，包括：图像预处理，通过诸如去噪的方式去除潜在的对抗噪声；损失函数优化：通过修改标准分类模型通常使用的softmax cross-entroy损失函数以期模型的决策边界更为明显从而达到能正确识别部分对抗样本：梯度约束：通过监督信号对输入梯度的约束降低对抗样本产生的空间；对抗训练：将生成的对抗样本在线地纳入dnns模型的训练集中，以期提高深度学习模型对对抗样本的识别效果。
4.虽然相关技术中的防御方法能对已有的一些对抗样本攻击方法有一定的效果，但大部分方法仍然能被针对该防御方法的适应性攻击(adaptive attacks)所攻破，例如，有针对性地添加特殊的扰动，使得上述防御方法难以识别。例如，对抗训练是目前公认的最佳的防御方法，然而，对抗训练也存在着不能很好泛化到新攻击类型上的问题。除此之外，即便是对抗训练后的神经网络模型，其在对抗样本上的准确率和在干净样本上的准确率仍然有很大差距。另外，目前的防御方法都没有考虑人类基于部件的识别过程和人类先验知识对于提高模型鲁棒性的作用。显然，人类的识别过程是很难被对抗样本所干扰的，根据认知心理学的结论，人类倾向于通过组成部分识别物体，且人类具有大量的常识性知识，但目前基于dnns识别模型通常仅仅是通过图片上物体的类别标签监督训练，这不可避免地会让模型学到一些人类难以理解的特征从而导致会出现人类难以理解的错误。

技术实现要素：

5.本公开提出了一种目标识别方法及装置、电子设备和存储介质。
6.根据本公开的一方面，提供了一种目标识别方法，包括：通过分割网络，对待处理图像进行分割处理，获得所述待处理图像中的目标对象的各预测类别的组成部分的第一特征图，其中，所述预测类别的组成部分包括，在将目标对象的类别识别为所述预测类别的情
况下，组成所述目标对象的至少一个结构；分别对各预测类别的至少一个第一特征图进行评价，获得各预测类别的评价分数，其中，所述评价包括置信度评价与匹配度评价，所述评价分数包括置信度评价分数和匹配度评价分数，其中，所述置信度评价分数与预测类别的置信度正相关，所述匹配度评价分数与预测类别的组成部分的连接关系的准确性正相关；根据各预测类别的评价分数，在各预测类别中，确定所述待处理图像中的目标对象所属的类别信息。
7.在一种可能的实现方式中，通过分割网络，对待处理图像进行分割处理，获得所述待处理图像中的目标对象的各预测类别的组成部分的第一特征图，包括：通过所述分割网络，对所述待处理图像进行分割处理，获得各组成部分的第二特征图，以及背景区域的第三特征图；根据所述各组成部分的预测类别，将所述第二特征图进行分组，获得各预测类别的第二特征图组；将所述第三特征图添加至各预测类别的第二特征图组，获得所述各预测类别的组成部分的第一特征图。
8.在一种可能的实现方式中，分别对各预测类别的至少一个第一特征图进行评价，获得各预测类别的评价分数，包括：根据所述预测类别的至少一个第一特征图，获得所述预测类别的最大响应特征图，所述最大响应特征图的各像素点的像素值为所述至少一个第一特征图中对应像素点的像素值的最大值；根据所述最大响应特征图和所述预测类别的至少一个第一特征图，获得所述最大响应特征图对应的索引特征图，其中，所述索引特征图的各像素点的像素值为所述最大响应特征图中对应像素点在所述至少一个第一特征图中的索引信息；根据所述最大响应特征图和所述索引特征图，获得所述置信度评价分数。
9.在一种可能的实现方式中，分别对各预测类别的至少一个第一特征图进行评价，获得各预测类别的评价分数，包括：对所述索引特征图中的至少一个最大连通域的连接关系进行统计，获得所述匹配度评价分数。
10.在一种可能的实现方式中，分别对各预测类别的至少一个第一特征图进行评价，获得各预测类别的评价分数，包括：预设多种连接规则，获得连接规则集；在包括多个样本图像组成的样本集中，统计各所述连接规则的出现次数；获取所述预测类别的组成部分的连接关系；根据所述连接关系和所述出现次数，获得所述预测类别的匹配度评价分数。
11.在一种可能的实现方式中，分别对各预测类别的至少一个第一特征图进行评价，获得各预测类别的评价分数，包括：对所述置信度评价分数和所述匹配度评价分数进行加权求和处理，获得所述预测类别的评价分数。
12.在一种可能的实现方式中，所述方法还包括：通过具有目标对象的组成部分的标注信息的训练图像，训练所述分割网络。
13.根据本公开的一方面，提供了一种目标识别装置，包括：分割模块11，用于通过分割网络，对待处理图像进行分割处理，获得所述待处理图像中的目标对象的各预测类别的组成部分的第一特征图，其中，所述预测类别的组成部分包括，在将目标对象的类别识别为所述预测类别的情况下，组成所述目标对象的至少一个结构；评价模块12，用于分别对各预测类别的至少一个第一特征图进行评价，获得各预测类别的评价分数，其中，所述评价包括置信度评价与匹配度评价，所述评价分数包括置信度评价分数和匹配度评价分数，其中，所述置信度评价分数与预测类别的置信度正相关，所述匹配度评价分数与预测类别的组成部分的连接关系的准确性正相关；类别确定模块13，用于根据各预测类别的评价分数，在各预
测类别中，确定所述待处理图像中的目标对象所属的类别信息。
14.在一种可能的实现方式中，所述分割模块进一步用于：通过所述分割网络，对所述待处理图像进行分割处理，获得各组成部分的第二特征图，以及背景区域的第三特征图；根据所述各组成部分的预测类别，将所述第二特征图进行分组，获得各预测类别的第二特征图组；将所述第三特征图添加至各预测类别的第二特征图组，获得所述各预测类别的组成部分的第一特征图。
15.在一种可能的实现方式中，所述评价模块进一步用于：根据所述预测类别的至少一个第一特征图，获得所述预测类别的最大响应特征图，所述最大响应特征图的各像素点的像素值为所述至少一个第一特征图中对应像素点的像素值的最大值；根据所述最大响应特征图和所述预测类别的至少一个第一特征图，获得所述最大响应特征图对应的索引特征图，其中，所述索引特征图的各像素点的像素值为所述最大响应特征图中对应像素点在所述至少一个第一特征图中的索引信息；根据所述最大响应特征图和所述索引特征图，获得所述置信度评价分数。
16.在一种可能的实现方式中，所述评价模块进一步用于：对所述索引特征图中的至少一个最大连通域的连接关系进行统计，获得所述匹配度评价分数。
17.在一种可能的实现方式中，所述评价模块进一步用于：预设多种连接规则，获得连接规则集；在包括多个样本图像组成的样本集中，统计各所述连接规则的出现次数；获取所述预测类别的组成部分的连接关系；根据所述连接关系和所述出现次数，获得所述预测类别的匹配度评价分数。
18.在一种可能的实现方式中，所述评价模块进一步用于：对所述置信度评价分数和所述匹配度评价分数进行加权求和处理，获得所述预测类别的评价分数。
19.在一种可能的实现方式中，所述装置还包括：训练模块，用于通过具有目标对象的组成部分的标注信息的训练图像，训练所述分割网络。
20.根据本公开的一方面，提供了一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为调用所述存储器存储的指令，以执行上述方法。
21.根据本公开的一方面，提供了一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述方法。
22.根据本公开的实施例的目标识别方法，可通过与人类利用先验知识进行识别的过程类似的方式，将目标对象的组成部分进行分割及分类，并对各预测类别进行评价，以确定目标对象的类别。由于可对各组成部分分别进行分类，使得扰动信息难以对目标对象的整体识别过程造成较大的影响，可提升目标识别的鲁棒性和抗干扰能力。
23.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。
附图说明
24.此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。
25.图1示出根据本公开实施例的目标识别方法的流程图；
26.图2示出根据本公开实施例的索引特征图的示意图；
27.图3示出根据本公开实施例的匹配度评价分数的示意图；
28.图4示出根据本公开的实施例的目标识别方法的应用示意图；
29.图5示出根据本公开实施例的目标识别装置的框图；
30.图6示出根据本公开实施例的一种电子设备的框图。
具体实施方式
31.以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。
32.在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
33.本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括a、b、c中的至少一种，可以表示包括从a、b和c构成的集合中选择的任意一个或多个元素。
34.另外，为了更好地说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。
35.图1示出根据本公开实施例的目标识别方法的流程图，如图1所示，所述方法包括：
36.在步骤s11中，通过分割网络，对待处理图像进行分割处理，获得所述待处理图像中的目标对象的各预测类别的组成部分的第一特征图，其中，所述预测类别的组成部分包括，在将目标对象的类别识别为所述预测类别的情况下，组成所述目标对象的至少一个结构；
37.在步骤s12中，分别对各预测类别的至少一个第一特征图进行评价，获得各预测类别的评价分数，其中，所述评价包括置信度评价与匹配度评价，所述评价分数包括置信度评价分数和匹配度评价分数，其中，所述置信度评价分数与预测类别的置信度正相关，所述匹配度评价分数与预测类别的组成部分的连接关系的准确性正相关；
38.在步骤s13中，根据各预测类别的评价分数，在各预测类别中，确定所述待处理图像中的目标对象所属的类别信息。
39.根据本公开的实施例的目标识别方法，可通过与人类利用先验知识进行识别的过程类似的方式，将目标对象的组成部分进行分割及分类，并对各预测类别进行评价，以确定目标对象的类别。由于可对各组成部分分别进行分类，使得扰动信息难以对目标对象的整体识别过程造成较大的影响，可提升目标识别的鲁棒性和抗干扰能力。
40.在一种可能的实现方式中，本公开可训练分割网络，该分割网络为能够将目标对象的各个组成部分进行分割的神经网络模型。在相关技术中，能够在图像中将目标对象分割或识别出来的神经网络模型的训练过程通常需要多张带有目标对象的标注信息的图像，并分别经神经网络模型处理，获得分割结果，并利用分割结果与目标对象的标注信息之间
的误差来反馈调节神经网络模型的参数，使得神经网络模型具有能够识别及分割目标对象的功能。而本公开的分割网络的训练则与相关技术不同，在训练过程中，训练使用的训练图像中的标注信息并非图像中的目标对象的标注信息，而是目标对象的各个组成部分的标注信息。所述方法还包括：通过具有目标对象的组成部分的标注信息的训练图像，训练所述分割网络。
41.在示例中，某个训练图像为鸟类的图像，在相关技术中使用其对神经网络进行训练时，可对鸟类的类别以及该鸟类在图像中所在的区域进行整体标注。而在对本公开的分割网络进行训练时，可对鸟类的各个组成部分及其所在的区域进行标注，例如，鸟类的头部所在的区域，鸟类的身体所在的区域，鸟类的翅膀所在的区域，鸟腿所在的区域等。
42.在一种可能的实现方式中，所述分割网络可对训练图像中的各个组成部分进行分割，获得各个组成部分的特征图，所述各个组成部分的特征图可表示组成部分的类别及其在训练图像中所在的区域，进而，可将类别及区域与标注信息中的描述的类别及区域进行比较，以确定分割网络的误差，即，损失函数，进而可利用反向传播的方式，调整分割网络的参数，使得损失函数逐步缩小，并在损失函数符合误差要求时，完成训练，获得训练后的分割网络。
43.在一种可能的实现方式中，在步骤s11中，使用该分割网络即可对任意待处理图像进行分割处理，获得待处理图像中的目标对象的各个组成部分的特征图，以及特征图中的组成部分的类别。所述组成部分的类别可包括该组成部分所属的目标对象的预测类别，以及该组成部分自身的类别。例如，某个特征图的类别为“鸟类的翅膀”，则其所属的目标对象的预测类别为“鸟类”，其自身的类别为“翅膀”。本公开对特征图的具体类别不做限制。
44.在一种可能的实现方式中，上述特征图为表示目标对象的某个组成部分的特征图，该特征图由上述分割网络获得，即，由分割网络分割出待处理图像中的该组成部分。在示例中，分割网络获得的特征图可表示对于该组成部分的概率响应，例如，分割网络可求解各像素点是否属于该组成部分的概率，如果某个像素点属于该组成部分，则该像素点的像素值(即，概率响应)较高，否则，则像素值较低，进而可依据所述概率响应判断各像素点是否属于所述组成部分，进一步地，属于所述组成部分的多个像素点可构成所述组成部分所在的区域。
45.在示例中，在特征图中，各像素点的像素值可表示为该像素点属于该组成部分的概率，例如，以“鸟类的翅膀”的特征图为例，特征图中某个像素点的像素值可表示为该像素点属于“鸟类的翅膀”所在区域的概率，因此，在特征图中，“鸟类的翅膀”所在区域内的像素点的像素值较高，而其他区域的像素点的像素值较低，即，“鸟类的翅膀”所在区域内的像素点属于“鸟类的翅膀”所在区域的概率较高，例如，达到或接近1，其他区域则较低，例如，达到或接近0，本公开对特征图的像素点的像素值的具体取值不做限制。
46.在一种可能的实现方式中，所述分割网络可分割出目标对象多个组成部分的特征图以及背景区域，这些特征图可按照所属的目标对象的预测类别进行分组，可获得各预测类别的组成部分的第一特征图。步骤s11可包括：通过所述分割网络，对所述待处理图像进行分割处理，获得各组成部分的第二特征图，以及背景区域的第三特征图；根据所述各组成部分的预测类别，将所述第二特征图进行分组，获得各预测类别的第二特征图组；将所述第三特征图添加至各预测类别的第二特征图组，获得所述各预测类别的组成部分的第一特征
图。
47.在一种可能的实现方式中，如上所述，分割网络获得的各组成部分的特征图(即，第二特征图)的类别包括该组成部分所属的目标对象的预测类别，以及该组成部分自身的类别，可基于所述目标对象的预测类别进行分组，例如，在一张包括鸟类的待处理图像的各特征图中，“鸟类的头部”的第二特征图，“鸟类的身体”的第二特征图，“鸟类的翅膀”的第二特征图，可基于其所属的目标对象的预测类别为“鸟类”，可被分为一组。在分割网络的分割处理中，也可能发生对组成部分的分类错误，例如，将树枝错分类为“狗类的尾巴”等，因此，基于其所属的目标对象的预测类别为狗类，可将该第二特征图分为一组。通常，正确的预测类别的分组中，第二特征图的数量较多，错误的预测类别的分组中，第二特征图的数量较少。
48.在一种可能的实现方式中，分割网络获得的特征图可包括(k 1)
×h×
w个维度(k、h和w均为正整数)，其中，h
×
w表示特征图的尺寸，k表示第二特征图的数量，即，分割出的组成部分的数量，(k 1)表示组成部分和背景的总数，即，第二特征图和第三特征图的总数。在上述分组过程中，可按照所属的目标对象的预测类别进行分组，在第c个分组中，可包括kc(kc为正整数)个第二特征图，例如，在“鸟类”的分组中，可包括“鸟类的头部”、“鸟类的身体”和“鸟类的翅膀”三个第二特征图，即，第c个分组为“鸟类”的分组时，kc＝3。
49.进一步地，可将背景的第三特征图添加至所有分组中，例如，基于预测类别，可将第二特征图分为n(n为正整数)组，则可将第三特征图复制n次，并分别加入每个分组中，加入背景的第三特征图后，每个分组的特征图即为该分组的第一特征图。第c个分组的第一特征图的维度为(kc 1)
×h×
w，其中，(kc 1)即为该分组中的第二特征图和第三特征图的总数。例如，在“鸟类”的分组中，可包括“鸟类的头部”、“鸟类的身体”、“鸟类的翅膀”以及背景的特征图，该四个特征图即为“鸟类”的预测类别的四个第一特征图。可将预测类别中的各第一特征图作为该预测类别的目标对象的各组成部分的概率响应。例如，如果将目标对象分类为鸟类，则该预测类别中的四个特征图分别为对鸟类的头部的概率响应，对鸟类的身体的概率响应，对鸟类的翅膀的概率响应以及对背景的概率响应。
50.在一种可能的实现方式中，在步骤s12中，可对各预测类别的第一特征图进行评价，以确定各预测类别的评价分数。在评价过程中，可模拟人类利用先验知识，通过组成部分来识别整体的识别方式，对各预测类别的第一特征图(即，各组成部分)进行评价，并对各组成部分的连接方式进行评价(例如，基于先验知识，鸟类的头部应与鸟类身体相连，鸟类的翅膀应与鸟类的翅膀相连等)以获得评价分数，该评价分数为确定哪个预测类别为目标对象的所属类别的依据。
51.在一种可能的实现方式中，可对各预测类别的第一特征图进行评价，例如，可对各组成部分的第一特征图的概率响应的置信度进行评价，即，评价各组成部分分分类是否正确的可信度。在示例中，可对各第一特征图分别进行评价，也可将各第一特征图进行综合评价，获得预测类别的整体的置信度。
52.在一种可能的实现方式中，以下着重说明综合评价的方法，以获得各预测类别的整体置信度。步骤s12可包括：根据所述预测类别的至少一个第一特征图，获得所述预测类别的最大响应特征图，所述最大响应特征图的各像素点的像素值为所述至少一个第一特征图中对应像素点的像素值的最大值；根据所述最大响应特征图和所述预测类别的至少一个
第一特征图，获得所述最大响应特征图对应的索引特征图，其中，所述索引特征图的各像素点的像素值为所述最大响应特征图中对应像素点在所述至少一个第一特征图中的索引信息；根据所述最大响应特征图和所述索引特征图，获得所述置信度评价分数。
53.在一种可能的实现方式中，如上所述，特征图中的像素点的像素值可表示为该像素点是否属于该组成部分的概率，即，如果该像素点属于该组成部分，则该像素点的像素值较高，否则，像素值较低。因此，在各组成部分的特征图中，组成部分所在区域的像素点的像素值较高，其他区域的像素值较低，例如，在“鸟类”的预测类别中，“鸟类的头部”的特征图中，鸟类的头部所在区域的像素值较高，“鸟类的翅膀”的特征图中，鸟类的翅膀所在区域的像素值较高
……
因此，在最大响应特征图中，各像素点的像素值为各第一特征图中，相同位置的像素点的最大值，例如，在最大响应特征图中的鸟类的头部所在区域，该区域的像素值等于“鸟类的头部”的特征图中鸟类头部所在区域的像素点的像素值，在最大响应特征图中的鸟类的翅膀所在区域，该区域的像素值等于“鸟类的翅膀”的特征图中鸟类翅膀所在区域的像素点的像素值
……
在示例中，可通过以下公式(1)来获得所述最大响应特征图：
[0054]vc
(i，j)＝maxrc(i，j)
ꢀꢀꢀ
(1)
[0055]
其中，vc为第c个预测类别的最大响应特征图，vc(i，j)为最大响应特征图中坐标为(i，j)的像素点的像素值，rc为第c个预测类别的至少一个第一特征图，max rc(i，j)为所述至少一个第一特征图中，坐标为(i，j)的像素点的像素值的最大值。
[0056]
在一种可能的实现方式中，可确定所述最大响应特征图对应的索引特征图，所述索引特征图中各像素点的像素值为最大响应特征图中对应像素点的索引信息，即，该像素点来自哪个第一特征图。
[0057]
在示例中，可通过以下公式(2)确定索引特征图：
[0058]
tc(i，j)＝arg max rc(i，j)
ꢀꢀꢀ
(2)
[0059]
其中，tc为第c个预测类别的索引特征图，tc(i，j)为索引特征图中坐标为(i，j)的像素点的像素值，arg max为索引函数，表示最大响应特征图中坐标为(i，j)的像素点的像素值与哪个第一特征图中坐标为(i，j)的像素点的像素值相等。
[0060]
图2示出根据本公开实施例的索引特征图的示意图，如图2所示，坐标为(1，1)的像素点的像素值为3，表示第3个第一特征图中坐标为(1，1)的像素点的像素值最大，即，在最大响应特征图中，坐标为(1，1)的像素点的像素值与第3个第一特征图中坐标为(1，1)的像素点的像素值相等；类似地，坐标为(1，2)的像素点的像素值为1，表示第1个第一特征图中坐标为(1，2)的像素点的像素值最大，即，在最大响应特征图中，坐标为(1，2)的像素点的像素值与第1个第一特征图中坐标为(1，2)的像素点的像素值相等......
[0061]
在一种可能的实现方式中，可根据以上获得的各预测类别的最大响应特征图和索引特征图获得置信度评价分数，所述置信度评价分数可根据以下公式(3)确定：
[0062][0063]
其中，1
[
·
]
为示性函数，可表示坐标为(i，j)的索引信息如果是背景的第三特征图，则示性函数取值为0，否则为1，pc为第c个预测类别的置信度评价分数，该置信度评价分数可表示第c个预测类别至少一个第一特征图中非背景区域的平均置信度。
[0064]
在示例中，获取置信度评价分数的方式可不限于此，可使用其他方式求解置信度
评价分数，例如，可将索引特征图中各像素点的像素值作为权值，对最大响应特征图中各像素点的像素值进行加权平均处理，获得置信度评价分数等，本公开对此不做限制。
[0065]
通过上述方式，可通过最大响应特征图和索引特征图，获得对各预测类型的置信度进行评价的置信度评价分数，可获得各预测类型的预测的可信度，为确定目标对象的类别提供客观的数据基础。
[0066]
在一种可能的实现方式中，在步骤s12中，评价分数除了包括置信度评价分数之外，还包括匹配度评价分数，匹配度评价分数用于描述预测类别的各组成部分之间的连接关系。例如，鸟类的头部所在区域与鸟类的身体所在区域连接，鸟类的翅膀所在区域与鸟类的身体所在区域连接等。匹配度评价分数可用于使正确的预测类别和错误的预测类别之间的分数差距扩大。
[0067]
在示例中，如果某个预测类别正确，则该预测类别中的第一特征图数量较多，各组成部分之间的连接关系也较多，连接关系的准确度也较高。而错误的预测类别不仅第一特征图数量少，各组成部分之间的连接关系较少，且连接关系的准确度也不高。以上述鸟类和狗类为例，如果待处理图像中的目标对象为鸟类，则可检测到多种连接关系，例如，鸟类的头部所在区域与鸟类的身体所在区域连接，鸟类的翅膀所在区域与鸟类的身体所在区域连接；而如果将树枝等物体误识别为狗类的尾巴，该尾巴没有与狗类的其他组成部分相连接的连接关系，因而使得连接关系的数量少于鸟类的连接关系，更不存在连接关系的准确性的概念，因此，可使得鸟类的匹配度评价分数高于狗类的匹配度评价分数，目标对象的类别为鸟类的可能性则大于狗类。
[0068]
在一种可能的实现方式中，步骤s12可包括：对所述索引特征图中的至少一个最大连通域的连接关系进行统计，获得所述匹配度评价分数。
[0069]
在一种可能的实现方式中，基于以上分析，可直接通过连接关系的数量来确定各预测类别的匹配度评价分数，也可参考连接关系的正确性。在示例中，每个预测类别均可具有预定义的连接关系，例如，鸟类的预定义的连接关系可包括鸟类的头部所在区域与鸟类的身体所在区域连接，鸟类的翅膀所在区域与鸟类的身体所在区域连接，鸟类的腿部所在区域与鸟类的身体所在区域连接等。匹配度评价分数与预测类别的组成部分的连接关系的准确性正相关。在示例中，如果检测到鸟类的头部所在区域与鸟类的身体所在区域连接，即，与预定义的连接关系匹配(换言之，与先验知识匹配)，则连接关系正确，如果鸟类的腿部所在区域与鸟类的头部所在区域连接，即，与预定义的连接关系不匹配(换言之，与先验知识不匹配)，则连接关系错误。
[0070]
在一种可能的实现方式中，在进行所述统计处理的过程中，可统计连接关系与预定义的连接关系匹配的连接关系。可使用索引特征图来进行连接关系的统计，索引特征图中的像素点的像素值即为该像素点在哪个第一特征图中能够获得最大的概率响应，亦为，该像素点属于哪个组成部分。例如，鸟类头部区域的第一特征图的索引值为1，鸟类身体区域的第一特征图的索引值为2，鸟类翅膀区域的第一特征图的索引值为3，则索引特征图中像素值为1的区域，即可表示鸟类的头部区域，像素值为2的区域，即可表示鸟类的身体区域，像素值为3的区域，即可表示鸟类的翅膀区域。
[0071]
在一种可能的实现方式中，可确定索引特征图中的最大连通域，例如，在分割网络进行分割处理的过程中，可能存在某些像素点的误检，从而造成一个或多个孤立的像素点，
确定索引特征图中的最大连通域可排除孤立像素点的干扰，获得各组成部分所在的区域。进一步地，可统计各最大连通域之间的正确的连接关系，例如，像素值为1的最大连通域与像素值为2的最大连通域相连，则统计数加1，像素值为2的最大连通域与像素值为3的最大连通域相连，则统计数加1，但如果像素值为1的最大连通域与像素值为3的最大连通域相连，则该连接关系与预定义的连接关系不匹配，则不统计该连接关系。最终获得的统计数可确定为匹配度评价分数。
[0072]
图3示出根据本公开实施例的匹配度评价分数的示意图，如图3所示，像素值为1的最大连通域、像素值为2的最大连通域和像素值为3的最大连通域均通过实线框框选出来，像素值为0的区域为背景区域。在统计过程中，像素值为1的最大连通域与像素值为2的最大连通域相连，像素值为2的最大连通域与像素值为3的最大连通域相连，且二者均与预定义的连接关系匹配，因此，可确定匹配度评价分数qc＝2。
[0073]
通过上述方式，可通过匹配度评价分数进一步扩大正确的预测类别与错误的预测类别的区分度，提升类别信息的准确性。
[0074]
在一种可能的实现方式中，还可在计算匹配度评价分数时，参考各种连接关系的重要性，例如，鸟类的头部与身体的连接关系通常可明显地呈现在图像中，因此，二者之间的连接关系对于判断鸟类较为重要，并且与人类的先验知识匹配。然而，鸟类的腿部在图像中所占的面积通常较小，容易受到树枝的遮挡，或者，鸟类在多数姿态下不容易观察到腿部，因此，腿部与身体的连接关系的重要性较低，并且与人类识别鸟类时经常注意到的特征不符(即，人类在识别鸟类时，很少通过鸟腿来识别)。因此，可为各种连接关系设置权重，以基于连接关系的重要性来计算匹配度评价分数。
[0075]
在一种可能的实现方式中，步骤s12可包括：预设多种连接规则，获得连接规则集；在包括多个样本图像组成的样本集中，统计各所述连接规则的出现次数；获取所述预测类别的组成部分的连接关系；根据所述连接关系和所述出现次数，获得所述预测类别的匹配度评价分数。
[0076]
在一种可能的实现方式中，所述连接规则集中可包括预测类别的多种预定义的连接关系，即，连接规则。进一步地，可在多个样本图像组成的样本集中来统计各种连接关系的出现次数，出现次数越多，则表示连接关系越重要，例如，在多个样本图像组成的样本集中，可包括多张鸟类的图像，在这些鸟类图像中，大多数图像中均出现了鸟类的头部与身体之间的连接关系，而由于遮挡、姿态等因素，鸟腿与身体的连接关系则仅在较少的图像中出现，因此，鸟类的头部与身体之间的连接关系的出现次数更多，重要性也更高。
[0077]
在一种可能的实现方式中，可获取预测类别的组成部分的连接关系，例如，可通过上述利用索引特征图中的最大连通域的方式统计连接关系，也可直接对待处理图像本身进行检测，以统计各组成部分的连接关系，还可对其他特征图进行统计，例如，对最大响应特征图中的连接关系进行统计等，本公开对此不做限制。
[0078]
在一种可能的实现方式中，可利用上述连接关系在样本集中的出现次数对预测类别的组成部分的连接关系进行加权，获得考虑重要性因素后的匹配度评价分数。在示例中，匹配度评价分数可通过以下公式(4)获得：
[0079]
[0080]
其中，nr表示第r种连接关系在样本集中的出现次数，1
[match(r，c)]
表示第c个预测类别中检测到的第r种连接关系是否与预定义的连接关系匹配，即，第r种连接关系是否正确，lc表示所述连接规则集。
[0081]
通过这种方式，可获得考虑连接关系的重要性之后的匹配度评价分数，使得匹配度评价分数更加准确和客观，提升类别信息的准确性。
[0082]
在一种可能的实现方式中，在获得置信度评价分数和匹配度评价分数后，可基于二者，确定预测类别的评价分数，步骤s12可包括：对所述置信度评价分数和所述匹配度评价分数进行加权求和处理，获得所述预测类别的评价分数。
[0083]
在示例中，可通过以下公式(5)获得所述评价分数：
[0084]
sc＝α
·
pc (1-α)
·
qcꢀꢀꢀ
(5)
[0085]
其中，sc表示第c个预测类别的评价分数，α表示权重，亦为置信度评价分数和匹配度评价分数的平衡系数。可通过公式(5)获得各个预测类别的评价分数。
[0086]
在示例中，也可通过其他方式计算评价分数，例如，对二者直接求平均，或者通过其他公式对二者进行计算，获得评价分数，本公开对此不做限制。
[0087]
在一种可能的实现方式中，在步骤s13中，可基于各预测类别的评价分数确定目标对象的类别，例如，可将评价分数最高的预测类别确定为待处理图像中目标对象的类别信息。例如，目标对象的类别信息为c
*
＝arg max
c∈{1，
…
，c，
…
}
sc，即，多个评价分数中的最大值对应的预测类别。
[0088]
根据本公开的实施例的目标识别方法，可通过与人类利用先验知识进行识别的过程类似的方式，将目标对象的组成部分进行分割及分类，并对各预测类别进行评价，以确定目标对象的类别。由于可对各组成部分分别进行分类，使得扰动信息难以对目标对象的整体识别过程造成较大的影响，可提升目标识别的鲁棒性和抗干扰能力。并且，可基于置信度评价分数可获得各预测类型的预测的可信度，并可通过匹配度评价分数进一步扩大正确的预测类别与错误的预测类别的区分度，还可在计算匹配度评价分数时，考虑连接关系的重要性，使得匹配度评价分数更加准确和客观，提升类别信息的准确性。
[0089]
图4示出根据本公开的实施例的目标识别方法的应用示意图，如图4所示，可通过分割网络对待处理图像(例如，图4中输入分割网络的鸟类图像)进行分割处理，获得待处理图像中各个组成部分的特征图，例如，“鸟类的翅膀”的特征图、“鸟类的头部”的特征图、鸟类的身体”的特征图、“狗类的尾巴”的特征图。并可按照各组成部分所述目标对象的预测类别，将特征图分为多组，即，多个通道，例如，将“鸟类的翅膀”的特征图、“鸟类的头部”的特征图和鸟类的身体”的特征图归类为“鸟”通道，将“狗类的尾巴”的特征图归类为“狗”通道，并且，每个通道中，包括个预测类别的特征图，以及背景区域的特征图。
[0090]
在一种可能的实现方式中，可对各通道的特征图进行评价，可通过公式(1)获得各通道的最大响应特征图，以“鸟”通道为例，通过公式(1)，将各特征图中的像素(即，概率响应)最大的区域，组成“鸟”通道的最大响应特征图，并根据公式(2)获得各通道的索引特征图，即，确定最大响应特征图中的各像素点分别来自哪个特征图，亦为，获得各像素点的索引信息，并根据公式(3)获得各通道的置信度评价分数，例如，鸟通道的p
bird
。
[0091]
在一种可能的实现方式中，可根据鸟的先验知识在样本集中确定各组成部分的连接关系的出现次数，并且确定待处理图像中目标对象的各组成部分的连接关系，并可通过
公式(4)为待处理图像中目标对象的各组成部分的连接关系加权，获得匹配度评价分数，例如，鸟通道的q
bird
。类似地，可根据狗的先验知识在样本集中确定各组成部分的连接关系的出现次数，并且确定待处理图像中目标对象的各组成部分的连接关系，并可通过公式(4)为待处理图像中目标对象的各组成部分的连接关系加权，获得匹配度评价分数，例如，狗通道的q
dog
。基于公式(4)可知，如果某个预测类别正确，则该预测类别中的特征图数量较多，各组成部分之间的连接关系也较多，连接关系的准确度也较高。而错误的预测类别不仅特征图数量少，各组成部分之间的连接关系较少，且连接关系的准确度也不高。对比上述鸟类和狗类，输入的待处理图像为鸟类的图像，则可检测到多种连接关系，例如，鸟类的头部所在区域与鸟类的身体所在区域连接，鸟类的翅膀所在区域与鸟类的身体所在区域连接等。而如果将树枝等物体误识别为狗类的尾巴，该尾巴没有与狗类的其他组成部分相连接的连接关系，因而使得连接关系的数量少于鸟类的连接关系，更不存在连接关系的准确性的概念。因此，可使得鸟类的匹配度评价分数高于狗类的匹配度评价分数，目标对象的类别为鸟类的可能性则大于狗类。
[0092]
在一种可能的实现方式中，可通过公式(5)求解各通道的评价分数，例如，鸟通道的s
bird
，并通过arg max函数，获得评价分数最大值对应的预测类别，并将该预测类别确定为待处理图像中目标对象的类别信息，在示例中，鸟类的评价分数大于狗类的评价分数，因此，可确定类别信息为鸟类，对类别的判断准确率较高。
[0093]
在一种可能的实现方式中，所述目标识别方法可利用人类先验知识，根据各组成部分的识别以及连接关系的评价来提高目标识别的准确性和鲁棒性，使得目标识别的抗干扰性和通用型更强，并且，也可新增连接规则集中的预定义的连接关系，即，连接规则，可方便地引入多种先验知识，进一步提升目标识别的鲁棒性。
[0094]
可以理解，本公开提及的上述各个方法实施例，在不违背原理逻辑的情况下，均可以彼此相互结合形成结合后的实施例，限于篇幅，本公开不再赘述。本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
[0095]
此外，本公开还提供了目标识别装置、电子设备、计算机可读存储介质、程序，上述均可用来实现本公开提供的任一种目标识别方法，相应技术方案和描述和参见方法部分的相应记载，不再赘述。
[0096]
图5示出根据本公开实施例的目标识别装置的框图，如图5所示，所述装置包括：分割模块11，用于通过分割网络，对待处理图像进行分割处理，获得所述待处理图像中的目标对象的各预测类别的组成部分的第一特征图，其中，所述预测类别的组成部分包括，在将目标对象的类别识别为所述预测类别的情况下，组成所述目标对象的至少一个结构；评价模块12，用于分别对各预测类别的至少一个第一特征图进行评价，获得各预测类别的评价分数，其中，所述评价包括置信度评价与匹配度评价，所述评价分数包括置信度评价分数和匹配度评价分数，其中，所述置信度评价分数与预测类别的置信度正相关，所述匹配度评价分数与预测类别的组成部分的连接关系的准确性正相关；类别确定模块13，用于根据各预测类别的评价分数，在各预测类别中，确定所述待处理图像中的目标对象所属的类别信息。
[0097]
在一种可能的实现方式中，所述分割模块进一步用于：通过所述分割网络，对所述待处理图像进行分割处理，获得各组成部分的第二特征图，以及背景区域的第三特征图；根
据所述各组成部分的预测类别，将所述第二特征图进行分组，获得各预测类别的第二特征图组；将所述第三特征图添加至各预测类别的第二特征图组，获得所述各预测类别的组成部分的第一特征图。
[0098]
在一种可能的实现方式中，所述评价模块进一步用于：根据所述预测类别的至少一个第一特征图，获得所述预测类别的最大响应特征图，所述最大响应特征图的各像素点的像素值为所述至少一个第一特征图中对应像素点的像素值的最大值；根据所述最大响应特征图和所述预测类别的至少一个第一特征图，获得所述最大响应特征图对应的索引特征图，其中，所述索引特征图的各像素点的像素值为所述最大响应特征图中对应像素点在所述至少一个第一特征图中的索引信息；根据所述最大响应特征图和所述索引特征图，获得所述置信度评价分数。
[0099]
在一种可能的实现方式中，所述评价模块进一步用于：对所述索引特征图中的至少一个最大连通域的连接关系进行统计，获得所述匹配度评价分数。
[0100]
在一种可能的实现方式中，所述评价模块进一步用于：预设多种连接规则，获得连接规则集；在包括多个样本图像组成的样本集中，统计各所述连接规则的出现次数；获取所述预测类别的组成部分的连接关系；根据所述连接关系和所述出现次数，获得所述预测类别的匹配度评价分数。
[0101]
在一种可能的实现方式中，所述评价模块进一步用于：对所述置信度评价分数和所述匹配度评价分数进行加权求和处理，获得所述预测类别的评价分数。
[0102]
在一种可能的实现方式中，所述装置还包括：训练模块，用于通过具有目标对象的组成部分的标注信息的训练图像，训练所述分割网络。
[0103]
在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。
[0104]
本公开实施例还提出一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述方法。计算机可读存储介质可以是非易失性计算机可读存储介质。
[0105]
本公开实施例还提出一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为调用所述存储器存储的指令，以执行上述方法。
[0106]
本公开实施例还提供了一种计算机程序产品，包括计算机可读代码，当计算机可读代码在设备上运行时，设备中的处理器执行用于实现如上任一实施例提供的目标识别方法的指令。
[0107]
本公开实施例还提供了另一种计算机程序产品，用于存储计算机可读指令，指令被执行时使得计算机执行上述任一实施例提供的目标识别方法的操作。
[0108]
电子设备可以被提供为终端、服务器或其它形态的设备。
[0109]
图6示出根据本公开实施例的一种电子设备1900的框图。例如，电子设备1900可以被提供为终端或服务器。参照图6，电子设备1900包括处理组件1922，其进一步包括一个或多个处理器，以及由存储器1932所代表的存储器资源，用于存储可由处理组件1922的执行的指令，例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1922被配置为执行指令，以执行上述方法。
[0110]
电子设备1900还可以包括一个电源组件1926被配置为执行电子设备1900的电源管理，一个有线或无线网络接口1950被配置为将电子设备1900连接到网络，和一个输入输出(i/o)接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统，例如windows server
tm
，mac os x
tm
，unix
tm
,linux
tm
，freebsd
tm
或类似。
[0111]
在示例性实施例中，还提供了一种非易失性计算机可读存储介质，例如包括计算机程序指令的存储器1932，上述计算机程序指令可由电子设备1900的处理组件1922执行以完成上述方法。
[0112]
本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
[0113]
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式压缩盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
[0114]
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。
[0115]
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如smalltalk、c 等，以及常规的过程式编程语言—诸如“c”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。
[0116]
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/
或框图中各方框的组合，都可以由计算机可读程序指令实现。
[0117]
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
[0118]
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
[0119]
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0120]
该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(software development kit，sdk)等等。
[0121]
以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于YOLOv5网络的无人机目标检测模型

目标识别方法及装置、电子设备和存储介质

相关文献

最热文献