图像分类方法、装置、电子装置和存储介质与流程

2022-03-08 22:08:58 来源：中国专利 TAG：

1.本发明涉及图像处理技术领域，具体而言，涉及一种图像分类方法、装置、电子装置和存储介质。

背景技术：

2.在线上大规模图像识别工作需求中，同一图像可能包含来自不同类别、尺度和位置的多个实例对象，因此仅仅应用单标签数据集进行图像识别，例如，基于视觉对象识别研究的可视化数据库imagenet预训练的卷积神经网络模型cnn，仍然不是最终的图像分类解决方案。
3.另外，基于强监督分类模型的图像分类方案中，由于强监督分类模型所需的手工标注目标位置框的资源耗费严重，因此，如何提升仅依赖于图像标签的弱监督多标签图像分类模型的性能，降低图像分类系统的总体成本，对于基于图像识别的实际工作需求存在重要的研究价值。
4.针对上述的问题，目前尚未提出有效的解决方案。

技术实现要素：

5.本发明实施例提供了一种图像分类方法、装置、电子装置和存储介质，以至少解决相关技术中图像分类处理方法的资源耗费成本较高的技术问题。
6.根据本发明实施例的一个方面，提供了一种图像分类方法，包括：获取待分类图像；对上述待分类图像进行分析，得到第一特征图，其中，上述第一特征图为具备实例感知的特征图；基于上述第一特征图，从上述待分类图像中获取区域放大图像，其中，上述区域放大图像为上述待分类图像中的局部实例区域；利用上述区域放大图像预测上述待分类图像的归属类别。
7.根据本发明实施例的另一方面，还提供了一种图像分类方法，包括：接收来自于客户端的待分类图像；对上述待分类图像进行分析，得到第一特征图，基于上述第一特征图从上述待分类图像中获取区域放大图像，以及利用上述区域放大图像预测上述待分类图像的归属类别，其中，上述第一特征图为具备实例感知的特征图，上述区域放大图像为上述待分类图像中的局部实例区域；将上述待分类图像的归属类别反馈至上述客户端。
8.根据本发明实施例的另一方面，还提供了一种图像分类装置，包括：第一获取模块，用于获取待分类图像；分析模块，用于对上述待分类图像进行分析，得到第一特征图，其中，上述第一特征图为具备实例感知的特征图；第二获取模块，用于基于上述第一特征图，从上述待分类图像中获取区域放大图像，其中，上述区域放大图像为上述待分类图像中的局部实例区域；分类模块，用于利用上述区域放大图像预测上述待分类图像的归属类别。
9.根据本发明实施例的另一方面，还提供了一种非易失性存储介质，上述非易失性存储介质包括存储的程序，其中，在上述程序运行时控制上述非易失性存储介质所在设备执行任意一项上述的图像分类方法。
10.根据本发明实施例的另一方面，还提供了一种处理器，上述处理器用于运行程序，其中，上述程序运行时执行任意一项上述的图像分类方法。
11.根据本发明实施例的另一方面，还提供了一种电子装置，包括：处理器；以及存储器，与上述处理器连接，用于为上述处理器提供处理以下处理步骤的指令：步骤1，获取待分类图像；步骤2，对上述待分类图像进行分析，得到第一特征图，其中，上述第一特征图为具备实例感知的特征图；步骤3，基于上述第一特征图，从上述待分类图像中获取区域放大图像，其中，上述区域放大图像为上述待分类图像中的局部实例区域；步骤4，利用上述区域放大图像预测上述待分类图像的归属类别。
12.在本发明实施例中，采用基于实例感知特征图进行局部区域识别，并预测待分类图像的归属分类的方式，通过对获取到的待分类图像进行分析，得到具备实例感知的第一特征图；基于上述第一特征图，从上述待分类图像中获取区域放大图像，由于该区域放大图像为上述待分类图像中的局部实例区域；进而可以利用上述区域放大图像预测上述待分类图像的归属类别，达到了降低图像分类处理的资源耗费成本的目的，从而实现了进一步降低实现实际图像分类工作需求的资源成本的技术效果，进而解决了相关技术中图像分类处理方法的资源耗费成本较高的技术问题。
附图说明
13.此处所说明的附图用来提供对本发明的进一步理解，构成本技术的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：
14.图1示出了一种用于实现图像分类方法的计算机终端(或移动设备)的硬件结构框图；
15.图2是根据本发明实施例的一种图像分类方法的流程图；
16.图3是根据本发明实施例的一种图像分类系统的结构示意图；
17.图4是根据本发明实施例的另一种图像分类方法的流程图；
18.图5根据本发明实施例的一种图像分类装置的结构示意图；
19.图6是根据本发明实施例的一种计算机终端的结构框图。
具体实施方式
20.为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。
21.需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品
或设备固有的其它步骤或单元。
22.首先，在对本技术实施例进行描述的过程中出现的部分名词或术语适用于如下解释：
23.转换器transformer:基于编码器-解码器的变换器网络结构，利用注意力机制实现并行化捕捉序列依赖，在视觉任务中使用时通常仅保留编码器，
24.视觉变换器网络(vit)：用于将图片或者图像进行序列化处理。
25.在相关技术中，针对多标签图像分类的研究方向大致可以分为四类，首先，第一个方向是基于区域建议的工作，其次，第二个方向基于视觉注意力机制的工作，再次，第三个方向是知识注入的工作，最后，其他研究方向是以上一些方向的结合或者其他方向的研究。
26.针对第一个方向，通常利用目标检测的方法，从图像中提取对象预测框，然后把多标签图像分类问题转化为多类别多实例学习问题，该方法的缺点是需要利用边界框的监督信息，以及计算量过大。
27.针对第二个方向，需要利用注意力机制，通过卷积捕获标签之间的潜在关系。该方向的模型通常准确率不够高。
28.针对第三个方向，目前流行使用gcn来建模标签之间潜在的依赖关系，基于数据集中标签共现关系的统计。然而该类方法可能会面临统计关系不牢靠的问题。对于其他研究方向，有些方案需要引入大型的预训练目标检测模型，提取图像中的目标类别以及目标之间的空间关系，同时和gcn网络结合。然而此类方法的缺点也很明显，通过在目标数据集上的效果依赖于检测模型的性能，则当预训练数据集和目标数据集差异过大时，模型性能可能会下降。
29.实施例1
30.根据本发明实施例，提供了一种图像处理方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
31.本技术实施例1所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现图像分类方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，
……
，102n来示出)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外，还可以包括：显示器、输入/输出接口(i/o接口)、通用串行总线(usb)端口(可以作为bus总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。
32.应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本技术实施例中所涉及到的，
该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
33.存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的图像分类方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的图像分类方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
34.传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(network interface controller，nic)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(radio frequency，rf)模块，其用于通过无线方式与互联网进行通讯。
35.显示器可以例如触摸屏式的液晶显示器(lcd)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
36.在上述运行环境下，本发明提供了如图2所示的一种图像分类方法，图2是根据本发明实施例的一种图像分类方法的流程图，如图2所示，该方法包括：
37.步骤s202，获取待分类图像；
38.步骤s204，对上述待分类图像进行分析，得到第一特征图，其中，上述第一特征图为具备实例感知的特征图；
39.步骤s206，基于上述第一特征图，从上述待分类图像中获取区域放大图像，其中，上述区域放大图像为上述待分类图像中的局部实例区域；
40.步骤s208，利用上述区域放大图像预测上述待分类图像的归属类别。
41.在本发明实施例中，采用基于实例感知特征图进行局部区域识别，并预测待分类图像的归属分类的方式，通过对获取到的待分类图像进行分析，得到具备实例感知的第一特征图；基于上述第一特征图，从上述待分类图像中获取区域放大图像，由于该区域放大图像为上述待分类图像中的局部实例区域；进而可以利用上述区域放大图像预测上述待分类图像的归属类别，达到了降低图像分类处理的资源耗费成本的目的，从而实现了进一步降低实现实际图像分类工作需求的资源成本的技术效果，进而解决了相关技术中图像分类处理方法的资源耗费成本较高的技术问题。
42.需要说明的是，上述步骤s202至s206的执行主体为saas客户端，通过对获取到的待分类图像进行分析处理，预测得到待分类图像的归属类别。
43.可选的，上述待分类图像可以为待进行分类处理的多标签图像，例如，该多标签图像可以为包含来自不同类别、尺度和位置的多个对象的图像。可选的，上述实例感知可以但不限于包括：类别语义感知和空间关系感知。
44.在本发明实施例中，通过对待分类图像进行分析，得到具备实例感知的第一特征图；由于该第一特征图具备实例感知，因此，可以基于该第一特征图，从上述待分类图像中获取局部实例区域的区域放大图像，在定位该区域放大图像之后，可以利用该区域放大图像预测上述待分类图像的归属类别。
45.在本发明实施例中，通过将图像卷积处理的操作建模成二维序列处理问题，可以使得图像分类模型的整体结构更为完备和优质；本发明实施例通过实例感知的注意力图来有效发现不同的实例感知，提供了一种有效视角来利用视觉变换器网络提取的类别语义信息和空间关系信息。
46.本发明实施例中的上述图像分类方法，可以理解为是一种基于视觉变换器网络的实例感知的多标签图像分类方法，经过大规模数据集预训练的变换器网络可以有效捕捉该待分类图像的全局依赖关系；通过获得具备实例感知能力的区域放大图像，即注意力图像，然后通过定位方法获得局部实例区域的预测框，从而在待分类图像的基础上确定局部实例区域，进而可以利用区域放大图像预测上述待分类图像的归属类别，达到了降低图像分类处理的资源耗费成本的目的，从而实现了进一步降低实现实际图像分类工作需求的资源成本的技术效果。
47.在一种可选的实施例中，对上述待分类图像进行分析，得到上述第一特征图包括：
48.步骤s302，对上述待分类图像进行序列化处理，得到第一处理结果；
49.步骤s304，对上述第一处理结果进行变换处理，得到第二处理结果和第三处理结果；
50.步骤s306，利用上述第二处理结果和上述第三处理结果，获取上述第一特征图。
51.可选的，可以先将待分类图像直接序列化处理为第一处理结果，例如，该第一处理结果可以为图像块分词(patch token)，上述变换处理即采用变换器网络结构transformer进行变换处理，第二处理结果即将其中第二维以后的图像块分词patch token取出的结果，第三处理结果即自注意力权重矩阵。
52.作为一种可选的实施例，若进行预处理后的待分类图像x的维度为(b,c,h,w)，其中，b是批量尺寸大小，c是通道大小，h是特征图的高，w是特征图的宽；序列化操作级是指通过卷积降维操作conv；经过序列化操作后的特征图转化为二维序列x’，维度为(b,n,d)，其中，n为图像块patch的数量，d为conv的输出通道数。
53.并且，本发明实施例中，还可以同时初始化位置编码patch embedding和分类分词cls token，其中，位置编码patch embedding和patch token进行相加操作，cls token和patch token进行合并操作。
54.在一种可选的实施例中，利用上述第二处理结果和上述第三处理结果，获取上述第一特征图包括：
55.步骤s402，对上述第二处理结果进行卷积降维处理，得到多个第二特征图，其中，上述多个第二特征图为具有语义类别感知的特征图；
56.步骤s404，对上述多个第二特征图进行全局平均池化处理，得到第一类别预测结果，其中，上述第一类别预测结果为全局尺度的类别预测结果；
57.步骤s406，基于上述第一类别预测结果从上述多个第二特征图选取多个第三特征图；
58.步骤s408，对上述第三处理结果和上述多个第三特征图进行重定位处理，得到上述第一特征图。
59.可选的，如图3所示图像分类系统的结构示意图，在本发明实施例中，在将进行序列化处理操作得到的图像块分词patch token，送入加载预训练权重的转换器层
(transformer层)进行计算；其中，transformer层的网络结构可以包括n个结构相同的堆叠的编码层encoder layer；对上述二维序列x’可以先经过自注意力self-attention模块进行处理，再送入前馈神经网络(feed forward neural network)模块，该自注意力模块的核心是多头注意力机制；该前馈神经网络模块可以由两层全连接层组成，全连接层之间由激活函数连接。
60.在本发明实施例中，经过transformer层计算输出的最后隐层状态值，将其中第二维以后的patch token取出来，送入1*1卷积进行降维处理，得到具有类别感知的多个第二特征图a，再进行全局平均池化操作，得到全局尺度的第一类别预测结果y；然后根据y的取值，从多个第二特征图a中取出前topn个第三特征图a’进行后续重定位处理，得到上述第一特征图。
61.其中，上述y即类别置信度，与每个类别可能出现的概率是等价的。因此在本发明实施例中，可以将y按照大小进行倒序排序，根据排序得到的序列选取第二特征图a中topn个第三特征图a’进行下一步的空间关系感知加强以及动态实例定位。
62.在一种可选的实施例中，基于上述第一特征图，从上述待分类图像中获取上述区域放大图像包括：
63.步骤s502，利用最大联通区域选择方式，获取上述第一特征图的区域建议坐标；
64.步骤s504，通过上述区域建议坐标对上述待分类图像进行裁剪和放大处理，得到上述区域放大图像。
65.作为一种可选的实施例，如图3所示，将上述topn个具有语义类别感知特征图和自注意力权重矩阵进行重定位操作，得到实例感知特征图；并通过最大联通区域选择算法，获取第一特征图的区域建议坐标，如图3所示的的区域建议1、区域建议2等坐标，同时通过该区域建议坐标对待分类图像进行区域裁剪并放大和待分类图像相同的分辨率。
66.需要说明的是，上述最大联通区域选择算法集成在sklearn库的计算模块中；通过最大联通区域选择算法得到区域建议坐标，即最大联通区域中左上顶点和右下顶点的坐标值；通过区域裁剪和放大选择双线性差值算法，得到上述区域放大图像。
67.在一种可选的实施例中，利用上述区域放大图像预测上述待分类图像的归属类别包括：
68.步骤s602，对上述区域放大图像进行序列化处理，得到第四处理结果；
69.步骤s604，对上述第四处理结果进行变换处理，得到第五处理结果；
70.步骤s606，利用上述第五处理结果预测上述待分类图像的归属类别。
71.由于相关技术中存在标注数据成本较高，对感兴趣区域提取能力不足的问题，因此可以利用transformer本身计算所输出的多头自注意力权重进行图像特征图中的区域定位；另外，由于相关技术中还面临统计关系不牢靠，且标签共现矩阵稀疏的问题，很难迁移到其他数据集。
72.在上述可选的实施例中，通过区域放大图像进行序列化处理，得到第四处理结果，以及对上述第四处理结果进行变换处理transformer，得到第五处理结果；再利用上述第五处理结果预测上述待分类图像的归属类别。
73.在一种可选的实施例中，利用上述第五处理结果预测上述待分类图像的归属类别包括：
74.步骤s702，对上述第五处理结果进行卷积降维处理，得到多个第四特征图，其中，上述多个第四特征图为具有语义类别感知的特征图；
75.步骤s704，对上述第四特征图进行全局平均池化处理，得到第二类别预测结果，其中，上述第二类别预测结果为局部尺度的类别预测结果；
76.步骤s706，基于上述第二类别预测结果，预测上述待分类图像的归属类别。
77.可选的，在得到上述第五处理结果之后，再进行卷积降维处理，得到具有语义类别感知的第四特征图；通过对上述第四特征图进行全局平均池化处理，得到局部尺度的第二类别预测结果；进而可以基于上述第二类别预测结果，预测上述待分类图像的归属类别。
78.在上述可选的实施例中，由于需要将相同尺寸的第四特征图再次送入transformer层进行计算，结合动态的变换器网络结构，可以在模型训练和推理阶段保持模型性能不下降的同时可以减少计算量，而且可以摒弃相关技术中使用标签共现矩阵的弊端。
79.作为一种可选的实施例，可以同时将每层编码器encoder得到的自注意力权重进行输出保存，对所有保存的自注意力权重进行计算，得到自注意力权重矩阵，即本发明实施例中所需的空间关系感知矩阵。经过transformer计算得到的多头自注意力权重，首先进行归一化操作，然后由第一层开始进行累乘操作，最后取出倒数第一层的权重值，得到自注意力权重矩阵。
80.在一种可选的实施例中，上述图像分类方法还包括：
81.步骤s802，获取上述第一类别预测结果对应的第一损失，以及获取上述第二类别预测结果对应的第二损失；
82.步骤s804，基于上述第一损失和上述第二损失对上述待分类图像的归属类别进行反向传播优化。
83.在本发明实施例中，通过获取第一类别预测结果对应的第一损失，以及第二类别预测结果对应的第二损失，即将两个不同尺度的分类预测输出分别计算损失并相加，进行反向传播优化。
84.在本发明实施例中，通过提供了一种基于视觉变换器网络vit的实例感知多标签图像分类方法，经过大规模数据集预训练的视觉变换器网络，可以有效捕捉图像的全局依赖关系；针对多标签图像包含来自不同类别、尺度和位置的多个对象，不仅仅利用全局信息，而是充分利用视觉变换器网络vit的图像块分词和自注意力机制来挖掘多标签图像中的丰富实例。为此，本发明实施例分别提出类别语义感知模块和空间关系感知模块，然后通过重定位策略将两者结合，从而获得具备实例感知能力的注意力图像。
85.本发明还提供了如图4所示的一种图像分类方法，图4是根据本发明实施例的一种图像分类方法的流程图，如图4所示，该方法包括：
86.步骤s902，接收来自于客户端的待分类图像；
87.步骤s904，对上述待分类图像进行分析，得到第一特征图，基于上述第一特征图从上述待分类图像中获取区域放大图像，以及利用上述区域放大图像预测上述待分类图像的归属类别，其中，上述第一特征图为具备实例感知的特征图，上述区域放大图像为上述待分类图像中的局部实例区域；
88.步骤s906，将上述待分类图像的归属类别反馈至上述客户端。
89.采用基于实例感知特征图进行局部区域识别，并预测待分类图像的归属分类的方式，通过对获取到的待分类图像进行分析，得到具备实例感知的第一特征图；基于上述第一特征图，从上述待分类图像中获取区域放大图像，由于该区域放大图像为上述待分类图像中的局部实例区域；进而可以利用上述区域放大图像预测上述待分类图像的归属类别，达到了降低图像分类处理的资源耗费成本的目的，从而实现了进一步降低实现实际图像分类工作需求的资源成本的技术效果，进而解决了相关技术中图像分类处理方法的资源耗费成本较高的技术问题。
90.需要说明的是，上述步骤s902至s906的执行主体为saas服务端，与saas客户端通信连接，采用saas服务端通过对获取到的待分类图像进行分析处理，预测得到待分类图像的归属类别，并将预测到的归属类别返回至saas客户端。
91.可选的，上述待分类图像可以为待进行分类处理的多标签图像，例如，该多标签图像可以为包含来自不同类别、尺度和位置的多个对象的图像。可选的，上述实例感知可以但不限于包括：类别语义感知和空间关系感知。
92.在本发明实施例中，通过对待分类图像进行分析，得到具备实例感知的第一特征图；由于该第一特征图具备实例感知，因此，可以基于该第一特征图，从上述待分类图像中获取局部实例区域的区域放大图像，在定位该区域放大图像之后，可以利用该区域放大图像预测上述待分类图像的归属类别。
93.在本发明实施例中，通过将图像卷积处理的操作建模成二维序列处理问题，可以使得图像分类模型的整体结构更为完备和优质；本发明实施例通过实例感知的注意力图来有效发现不同的实例感知，提供了一种有效视角来利用视觉变换器网络提取的类别语义信息和空间关系信息。
94.本发明实施例中的上述图像分类方法，可以理解为是一种基于视觉变换器网络的实例感知的多标签图像分类方法，经过大规模数据集预训练的变换器网络可以有效捕捉该待分类图像的全局依赖关系；通过获得具备实例感知能力的区域放大图像，即注意力图像，然后通过定位方法获得局部实例区域的预测框，从而在待分类图像的基础上确定局部实例区域，进而可以利用区域放大图像预测上述待分类图像的归属类别，达到了降低图像分类处理的资源耗费成本的目的，从而实现了进一步降低实现实际图像分类工作需求的资源成本的技术效果。
95.需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。
96.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个非易失性存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。
97.实施例2
98.根据本发明实施例，还提供了一种用于实施上述图像分类方法的装置实施例，图5根据本发明实施例的一种图像分类装置的结构示意图，如5所示，上述装置包括：第一获取模块500、分析模块502、第二获取模块504和分类模块506，其中，
99.第一获取模块500，用于获取待分类图像；分析模块502，用于对上述待分类图像进行分析，得到第一特征图，其中，上述第一特征图为具备实例感知的特征图；第二获取模块504，用于基于上述第一特征图，从上述待分类图像中获取区域放大图像，其中，上述区域放大图像为上述待分类图像中的局部实例区域；分类模块506，用于利用上述区域放大图像预测上述待分类图像的归属类别。
100.此处需要说明的是，上述第一获取模块500、分析模块502、第二获取模块504和分类模块506对应于实施例1中的步骤s202至步骤s208，四个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
101.在本发明实施例中，采用基于实例感知特征图进行局部区域识别，并预测待分类图像的归属分类的方式，通过对获取到的待分类图像进行分析，得到具备实例感知的第一特征图；基于上述第一特征图，从上述待分类图像中获取区域放大图像，由于该区域放大图像为上述待分类图像中的局部实例区域；进而可以利用上述区域放大图像预测上述待分类图像的归属类别，达到了降低图像分类处理的资源耗费成本的目的，从而实现了进一步降低实现实际图像分类工作需求的资源成本的技术效果，进而解决了相关技术中图像分类处理方法的资源耗费成本较高的技术问题。
102.需要说明的是，本实施例的优选实施方式可以参见实施例1中的相关描述，此处不再赘述。
103.实施例3
104.根据本发明实施例，还提供了一种电子装置的实施例，该电子装置可以是计算设备群中的任意一个计算设备。该电子装置包括：处理器和存储器，其中：
105.处理器；以及存储器，与上述处理器连接，用于为上述处理器提供处理以下处理步骤的指令：步骤1，获取待分类图像；步骤2，对上述待分类图像进行分析，得到第一特征图，其中，上述第一特征图为具备实例感知的特征图；步骤3，基于上述第一特征图，从上述待分类图像中获取区域放大图像，其中，上述区域放大图像为上述待分类图像中的局部实例区域；步骤4，利用上述区域放大图像预测上述待分类图像的归属类别。
106.在本发明实施例中，采用基于实例感知特征图进行局部区域识别，并预测待分类图像的归属分类的方式，通过对获取到的待分类图像进行分析，得到具备实例感知的第一特征图；基于上述第一特征图，从上述待分类图像中获取区域放大图像，由于该区域放大图像为上述待分类图像中的局部实例区域；进而可以利用上述区域放大图像预测上述待分类图像的归属类别，达到了降低图像分类处理的资源耗费成本的目的，从而实现了进一步降低实现实际图像分类工作需求的资源成本的技术效果，进而解决了相关技术中图像分类处理方法的资源耗费成本较高的技术问题。
107.需要说明的是，本实施例的优选实施方式可以参见实施例1中的相关描述，此处不再赘述。
108.实施例4
109.根据本发明的实施例，还可以提供一种计算机终端的实施例，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。
110.可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
111.在本实施例中，上述计算机终端可以执行图像分类方法中以下步骤的程序代码：获取待分类图像；对上述待分类图像进行分析，得到第一特征图，其中，上述第一特征图为具备实例感知的特征图；基于上述第一特征图，从上述待分类图像中获取区域放大图像，其中，上述区域放大图像为上述待分类图像中的局部实例区域；利用上述区域放大图像预测上述待分类图像的归属类别。
112.可选地，图6是根据本发明实施例的一种计算机终端的结构框图。如图6所示，该计算机终端可以包括：一个或多个(图中仅示出一个)处理器602、存储器604、以及外设接口606。
113.其中，存储器可用于存储软件程序以及模块，如本发明实施例中的图像分类方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的图像分类方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
114.处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取待分类图像；对上述待分类图像进行分析，得到第一特征图，其中，上述第一特征图为具备实例感知的特征图；基于上述第一特征图，从上述待分类图像中获取区域放大图像，其中，上述区域放大图像为上述待分类图像中的局部实例区域；利用上述区域放大图像预测上述待分类图像的归属类别。
115.可选的，上述处理器还可以执行如下步骤的程序代码：对上述待分类图像进行序列化处理，得到第一处理结果；对上述第一处理结果进行变换处理，得到第二处理结果和第三处理结果；利用上述第二处理结果和上述第三处理结果，获取上述第一特征图。
116.可选的，上述处理器还可以执行如下步骤的程序代码：对上述第二处理结果进行卷积降维处理，得到多个第二特征图，其中，上述多个第二特征图为具有语义类别感知的特征图；对上述多个第二特征图进行全局平均池化处理，得到第一类别预测结果，其中，上述第一类别预测结果为全局尺度的类别预测结果；基于上述第一类别预测结果从上述多个第二特征图选取多个第三特征图；对上述第三处理结果和上述多个第三特征图进行重定位处理，得到上述第一特征图。
117.可选的，上述处理器还可以执行如下步骤的程序代码：利用最大联通区域选择方式，获取上述第一特征图的区域建议坐标；通过上述区域建议坐标对上述待分类图像进行裁剪和放大处理，得到上述区域放大图像。
118.可选的，上述处理器还可以执行如下步骤的程序代码：对上述区域放大图像进行
序列化处理，得到第四处理结果；对上述第四处理结果进行变换处理，得到第五处理结果；利用上述第五处理结果预测上述待分类图像的归属类别。
119.可选的，上述处理器还可以执行如下步骤的程序代码：对上述第五处理结果进行卷积降维处理，得到多个第四特征图，其中，上述多个第四特征图为具有语义类别感知的特征图；对上述第四特征图进行全局平均池化处理，得到第二类别预测结果，其中，上述第二类别预测结果为局部尺度的类别预测结果；基于上述第二类别预测结果，预测上述待分类图像的归属类别。
120.可选的，上述处理器还可以执行如下步骤的程序代码：获取上述第一类别预测结果对应的第一损失，以及获取上述第二类别预测结果对应的第二损失；基于上述第一损失和上述第二损失对上述待分类图像的归属类别进行反向传播优化。
121.可选的，上述处理器还可以执行如下步骤的程序代码：接收来自于客户端的待分类图像；对上述待分类图像进行分析，得到第一特征图，基于上述第一特征图从上述待分类图像中获取区域放大图像，以及利用上述区域放大图像预测上述待分类图像的归属类别，其中，上述第一特征图为具备实例感知的特征图，上述区域放大图像为上述待分类图像中的局部实例区域；将上述待分类图像的归属类别反馈至上述客户端。
122.采用本发明实施例，提供了一种图像分类方法的方案。采用基于实例感知特征图进行局部区域识别，并预测待分类图像的归属分类的方式，通过对获取到的待分类图像进行分析，得到具备实例感知的第一特征图；基于上述第一特征图，从上述待分类图像中获取区域放大图像，由于该区域放大图像为上述待分类图像中的局部实例区域；进而可以利用上述区域放大图像预测上述待分类图像的归属类别，达到了降低图像分类处理的资源耗费成本的目的，从而实现了进一步降低实现实际图像分类工作需求的资源成本的技术效果，进而解决了相关技术中图像分类处理方法的资源耗费成本较高的技术问题。
123.本领域普通技术人员可以理解，图6所示的结构仅为示意，计算机终端也可以是智能手机(如android手机、ios手机等)、平板电脑、掌声电脑以及移动互联网设备(mobile internet devices，mid)、pad等终端设备。图6其并不对上述电子装置的结构造成限定。例如，计算机终端还可包括比图6中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图6所示不同的配置。
124.本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读非易失性存储介质中，非易失性存储介质可以包括：闪存盘、只读存储器(read-only memory，rom)、随机存取器(random access memory，ram)、磁盘或光盘等。
125.实施例5
126.根据本发明的实施例，还提供了一种非易失性存储介质的实施例。可选地，在本实施例中，上述非易失性存储介质可以用于保存上述实施例1所提供的图像分类方法所执行的程序代码。
127.可选地，在本实施例中，上述非易失性存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。
128.可选地，在本实施例中，非易失性存储介质被设置为存储用于执行以下步骤的程序代码：获取待分类图像；对上述待分类图像进行分析，得到第一特征图，其中，上述第一特
征图为具备实例感知的特征图；基于上述第一特征图，从上述待分类图像中获取区域放大图像，其中，上述区域放大图像为上述待分类图像中的局部实例区域；利用上述区域放大图像预测上述待分类图像的归属类别。
129.可选地，在本实施例中，非易失性存储介质被设置为存储用于执行以下步骤的程序代码：对上述待分类图像进行序列化处理，得到第一处理结果；对上述第一处理结果进行变换处理，得到第二处理结果和第三处理结果；利用上述第二处理结果和上述第三处理结果，获取上述第一特征图。
130.可选地，在本实施例中，非易失性存储介质被设置为存储用于执行以下步骤的程序代码：对上述第二处理结果进行卷积降维处理，得到多个第二特征图，其中，上述多个第二特征图为具有语义类别感知的特征图；对上述多个第二特征图进行全局平均池化处理，得到第一类别预测结果，其中，上述第一类别预测结果为全局尺度的类别预测结果；基于上述第一类别预测结果从上述多个第二特征图选取多个第三特征图；对上述第三处理结果和上述多个第三特征图进行重定位处理，得到上述第一特征图。
131.可选地，在本实施例中，非易失性存储介质被设置为存储用于执行以下步骤的程序代码：利用最大联通区域选择方式，获取上述第一特征图的区域建议坐标；通过上述区域建议坐标对上述待分类图像进行裁剪和放大处理，得到上述区域放大图像。
132.可选地，在本实施例中，非易失性存储介质被设置为存储用于执行以下步骤的程序代码：对上述区域放大图像进行序列化处理，得到第四处理结果；对上述第四处理结果进行变换处理，得到第五处理结果；利用上述第五处理结果预测上述待分类图像的归属类别。
133.可选地，在本实施例中，非易失性存储介质被设置为存储用于执行以下步骤的程序代码：对上述第五处理结果进行卷积降维处理，得到多个第四特征图，其中，上述多个第四特征图为具有语义类别感知的特征图；对上述第四特征图进行全局平均池化处理，得到第二类别预测结果，其中，上述第二类别预测结果为局部尺度的类别预测结果；基于上述第二类别预测结果，预测上述待分类图像的归属类别。
134.可选地，在本实施例中，非易失性存储介质被设置为存储用于执行以下步骤的程序代码：获取上述第一类别预测结果对应的第一损失，以及获取上述第二类别预测结果对应的第二损失；基于上述第一损失和上述第二损失对上述待分类图像的归属类别进行反向传播优化。
135.可选地，在本实施例中，非易失性存储介质被设置为存储用于执行以下步骤的程序代码：接收来自于客户端的待分类图像；对上述待分类图像进行分析，得到第一特征图，基于上述第一特征图从上述待分类图像中获取区域放大图像，以及利用上述区域放大图像预测上述待分类图像的归属类别，其中，上述第一特征图为具备实例感知的特征图，上述区域放大图像为上述待分类图像中的局部实例区域；将上述待分类图像的归属类别反馈至上述客户端。
136.上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
137.在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
138.在本技术所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为
一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。
139.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
140.另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
141.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取非易失性存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个非易失性存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的非易失性存储介质包括：u盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
142.以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：视觉信息展示方法、装置、计算机设备和存储介质与流程

图像分类方法、装置、电子装置和存储介质与流程

相关文献

最热文献