一种使用分区决策机制提高图像分类准确率的方法

2022-07-13 18:03:32 来源：中国专利 TAG：

1.本发明涉及人工智能计算机视觉图像识别技术领域，更具体的说是涉及一种使用分区决策机制提高图像分类准确率的方法。

背景技术：

2.图像识别，是指利用计算机等设备对图像进行处理和分析，提取图像特征，并完成分类、目标检测、匹配等任务。图像识别是计算机视觉领域的重要研究方向，随着近些年人工智能技术的发展，涌现出了越来越多的方法和应用成果。图像分类是图像识别领域重要的子任务，许多计算机视觉工作都要在图像分类的基础上展开，例如目标检测任务的一个核心问题就是如何正确识别检测框中的子图的类别。目前，解决图像分类问题最常用的是深度学习方法，通过构造深度卷积神经网络，使用梯度下降的优化方法，让模型在训练中自动学习抽取图像特征的方法，完成图像分类。但是目前许多主流的卷积神经网络改进方法都存在以下问题：
3.1)改进效果不稳定。在不同的数据集和应用场景中，改进方法对模型准确率的提高效果难以保证，甚至可能出现低于原始模型准确率的情况；
4.2)可移植性差。多数改进方法之间是互斥的，无法同时采用，由此导致一项研究的有效性常常建立在对其他研究的否定上；
5.3)可解释性差。许多改进方法本质上是依赖于算力和数据规模的堆砌，改进效果难以得到合理解释，且可能导致系统运行代价的增高。
6.集成学习是一种能够有效克服上述问题的模型改进思想，它通过训练多个模型，或对单个模型进行多次基于不同数据的训练，利用概率论原理，降低模型简单地单次识别时的错误概率，达到提高模型准确率的效果。基于一些简单的概率论原理相关计算，集成学习对模型准确率的提升效果是容易证明的，且能够稳定、良好地适用于绝大多数场景。
7.因此，如何提升图像识别模型的准确率，且不增加额外的运算开销是本领域技术人员亟需解决的问题。

技术实现要素：

8.有鉴于此，本发明提供了一种使用分区决策机制提高图像分类准确率的方法，基于集成学习思想，使用分区决策机制，让模型针对图像不同区域进行识别，将多个识别结果汇总，进而推断出整张图像所属类别，提供了一种能够稳定、可靠地提高图像分类准确率的模型改进方法，且模型训练流程简单，提高卷积神经网络模型进行图像分类时的准确率，同时不为训练带来过大的额外运算开销。
9.为了实现上述目的，本发明采用如下技术方案：
10.一种使用分区决策机制提高图像分类准确率的方法，包括以下步骤：
11.步骤1：收集大量针对目标应用场景的图像数据，为这些图像人工标注类别标签，或直接使用相关的公开数据集，将其组织成原始图像数据集，并划分为训练集和测试集；
12.步骤2：对步骤1中所得的原始图像数据集中的图像进行分区裁剪，生成裁剪后的子图数据集；
13.其中，对于分区裁剪算法，针对数据集中的不同图像，既可以全部按照相同的裁剪方案进行裁剪，也可以根据每张图像形状、尺寸的差异分别采用不同的裁剪方案裁剪为统一尺寸；该子图数据集将代替原始图像数据集，参与卷积神经网络模型的训练；
14.步骤3：构造数据集读取器，并对数据集读取器从所述子图数据集中分批选取出的若干子图像进行数据预处理，获得训练图像；
15.数据集读取器用于控制每批次训练时从数据集中读取数据的流程，包括选取多少张图像、选取算法、如何对图像进行预处理、如何获取图像真实标签等，其中，针对步骤2中所得的子图数据集，选取算法可以分为随机选取子图、顺序选取来自同一张图像中的子图，或两者相结合等方式实现；而数据预处理流程包括各种数据增广、标准化方法等；
16.所述数据预处理的具体过程为：
17.步骤31：对选取出的若干子图像按照预设尺寸进行缩放；
18.步骤32：对缩放后的子图像进行像素填充，并将填充后的图像随机裁剪为所述预设尺寸，获得重新裁剪图像；
19.步骤33：将所述重新裁剪图像以0.5的概率随机沿竖直中心轴左右翻转，即随机选取一半所述重新裁剪图像沿竖直中心轴左右翻转，以进行数据增广；将翻转后的图像和所述重新裁剪图像构成增广图像集；
20.步骤34：根据预设三通道均值和预设三通道方差对增广图像集中所有图像进行标准化，生成所述训练图像；
21.步骤4：构造卷积神经网络模型作为分类任务的基础模型；根据所述分类基础模型结构确定损失函数和优化器，并根据所述优化器设定分类基础模型训练的训练参数；
22.为了提高模型的分类性能，或减小训练时间开销，可以选择将模型的参数初始化为在大规模数据集上完成了预训练的参数数值，但也可以采用随机初始化等方法；
23.其中，对于分类问题，一般使用交叉熵损失函数，而常见且常用的优化器包括adam、sgd等；
24.设置模型训练的训练参数包括初始学习率、衰减系数等；其中，具体需要设置哪些训练参数，取决于所得的优化器的要求；
25.步骤5：在每批次训练中，使用步骤三中所得的数据集读取器，从步骤2中所得的子图数据集的训练集中选取若干子图，将经过处理后的训练图像输入步骤4中所得的模型进行训练；
26.其中，模型的训练过程包括三步：
27.步骤51：将所有输入依次通过模型的不同网络层完成卷积等运算，最终获得当前模型针对输入的输出结果；
28.步骤52：根据输出结果和图像真实标签，通过所得的损失函数计算输出的损失值；
29.步骤53：根据损失值，进行反向传播，对模型进行梯度下降，完成模型的参数更新；
30.步骤54：使用步骤5中所得的优化器，对涉及的训练参数进行调整；
31.步骤55：所述数据集读取器选取图像是否结束，如果否，则选取下一批训练图像进行训练，并返回所述步骤51；如果是，则模型训练结束，利用步骤1中的原始图像数据集对当
前分类基础模型的训练结果进行测试，获得所述图像分类模型；即将测试步骤移动到整个训练过程完成后，只进行一次测试，可以节省训练时间；
32.步骤6：将待分类图像进行分区裁剪并依次输入所述图像分类模型，获得输出结果，采用分区决策机制对所有输出结果进行综合决策，获得最终分类结果；
33.在使用原始图像数据集的测试集进行测试时，或者在训练结束后使用其他自然图像进行测试时，利用训练好的图像分类模型进行分类测试，测试流程和模型训练时数据的处理流程不同，具体如下：
34.步骤61：对于测试图像，使用步骤2中所得的分区裁剪算法，采用和原始图像数据集的训练集图像完全一致的裁剪策略，裁剪为若干不同分区的子图；
35.步骤62：对于步骤61中所得的每张子图，依次输入训练好的模型中，获得模型针对每张子图的输出结果；
36.步骤63：根据所有子图的输出结果，使用一定的分区决策机制，计算出这些子图的输出结果结合起来后的决策结果，作为整张原始图像的最终输出结果；
37.其中，步骤63中的分区决策机制的具体实现包括许多，绝大多数的集成学习方法和群体决策方法都可以使用。
38.经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种使用分区决策机制提高图像分类准确率的方法，模块化设计模型训练和分类识别过程，在图像分类模型训练过程中，对训练图像进行分区裁剪，分批训练卷积神经网络模型，在使用训练好的图像分类模型进行图像识别分类过程中，采用分区决策机制对待分类图像的模型分类结果进行综合决策，获得的决策结果作为最终的图像分类结果。基于概率论原理，经简单计算，以10分类问题为例，在极端恶劣情况下只需有基础模型的准确率大于0.27即可保证本发明方法对准确率的提升效果，具有较强的可靠性。由于本发明方法基于模块化设计，移植性强，能够较容易地被迁移到任意基础模型结构和应用场景上，且具有一定鲁棒性。相比于一般的集成学习方法，本发明所提出的方法又具有鲜明的可解释性，对模型准确率的提升原理易于理解，且不会带来过多额外的运算开销。
附图说明
39.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。
40.图1附图为本发明提供的使用分区决策机制提高图像分类准确率的方法的流程示意图。
具体实施方式
41.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
42.本发明实施例公开了一种使用分区决策机制提高图像分类准确率的方法，方法流程如图1所示，具体包括如下步骤：
43.s1：收集大量针对目标应用场景的图像数据，为这些图像人工标注类别标签，或直接使用相关的公开数据集，将其组织成原始图像数据集，并划分为训练集和测试集；
44.下载并使用cifar-10、cifar-100、cassava disease、imagenette、kylberg texture、dtd及deepweeds共7个公开数据集，作为实验数据集；
45.s2：对s1中所得的原始图像数据集中的图像进行分区裁剪，生成裁剪后的子图数据集；
46.对于所有数据集，统一按照原始图像尺寸与子图尺寸为15:8的比例，等距裁剪为3
×
3共9张子图；例如，原始图像尺寸为224
×
224，则子图尺寸为120
×
120；
47.s3：构造数据集读取器，并设计数据预处理流程；
48.设置数据集读取器的数据读取方式为每批次训练随机选择128张子图，数据预处理流程设计如下：
49.s31：将图像缩放为统一尺寸；对于cifar-10、cifar-100和kylberg texture数据集，图像缩放为32
×
32；对于其余四个数据集，图像缩放为224
×
224；
50.s32：为图像周围填充宽度为4的像素，再将图像重新随机裁剪为与第一步中所述相同的尺寸；
51.s33：随机将一些图像沿竖直中心轴左右翻转；
52.s34：使用三通道均值为(0.485,0.456,0.406)、方差为(0.229,0.224,0.225)的数值对图像进行标准化；
53.其中，s32和s33只对训练集使用，不对测试集使用；
54.s4：构造卷积神经网络模型作为分类任务的基础模型；选择合适的损失函数和优化器；设置模型训练的初始学习率、衰减系数等训练参数；
55.使用resnet18作为基础模型，同时对于步骤三中图像预处理尺寸为32
×
32的数据集，将resnet18的第一层卷积核大小从7
×
7缩小为3
×
3，以获得更好的结果；
56.使用交叉熵损失函数，使用sgd作为优化器；
57.设置初始学习率为0.1，权重衰减系数为5
×
10-4
，动量为0.9；
58.s5：在每批次训练中，使用s3中所得的数据集读取器，从s2中所得的子图数据集的训练集中选取若干子图，输入s4中所得的模型进行训练；
59.模型的训练过程包括三步：
60.s51：将所有输入依次通过模型的不同网络层完成卷积等运算，最终获得当前模型针对输入的输出结果；
61.s52：根据输出结果和图像真实标签，通过交叉熵损失函数计算输出的损失值；
62.s53：根据损失值，进行反向传播，对模型进行梯度下降，完成模型的参数更新；
63.s54：使用s4中所得的优化器，对s4中涉及的训练参数进行调整；
64.学习率将在第135、185、235个迭代后依次衰减为0.01、0.001、0.0001
65.s55：重复s51-s54，利用每批训练图像进行模型训练，直至完成模型的整个训练过程；然后使用s1中所得的原始图像数据集的测试集，对当前模型的训练结果进行测试，获得图像分类模型；
66.s6：将待分类图像输入图像分类模型，获得输出结果，采用分区决策机制对输出结果进行结合判断，获得最终分类结果，具体过程为：
67.s61：对于测试图像，使用s2中所得的分区裁剪算法，采用和原始图像数据集的训练集图像完全一致的裁剪策略，裁剪为若干不同分区的子图；
68.s62：对于s61中所得的每张子图，依次输入训练好的模型中，获得模型针对每张子图的输出结果；
69.s63：根据所有子图的输出结果，计算出这些子图的输出结果之和，作为整张原始图像的最终输出结果；
70.s7：进行模型评估；使用准确率作为模型评估指标。
71.实施例
72.本实例使用硬件为cpu：intel(r)xeon(r)gold 5218cpu@2.30ghz、gpu：geforce rtx 3090，显存24g、内存：128gb、硬盘：8tb。操作系统为ubuntu 18.04.5lts。软件为cuda(11.2.0)、cudnn(11.2)、python(3.9.7)、tensorflow-gpu(2.5.0)、torch(1.9.1)、torchvision(0.10.1)、numpy(1.19.5)、opencv-python(4.5.3.56)。
73.本发明所述的使用分区决策机制提高图像分类准确率的方法在本实例的各个数据集上的测试结果如下表1所示。
74.表1本发明方法与基础模型在各个数据集上的测试结果
[0075][0076][0077]
由上表可知，本发明所述方法对比基础模型在全部数据集上均取得了明显更高的图像分类准确率结果，所以本发明所述方法具有稳定的图像分类准确率提升能力。
[0078]
本发明的有益效果：
[0079]
1)具有更高的稳定性，能够在不同的应用场景和数据集中表现出稳定的图像分类准确率提升效果；
[0080]
2)基于模块化设计，具有优秀的可移植性，与其他卷积神经网络模型改进方法可以同时使用；
[0081]
3)原理和设计思想具有可解释性，运行流程易于理解；
[0082]
4)对模型训练效率的影响较小，能够在保证效果的同时不带来过多的额外运算开销。
[0083]
本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说
明即可。
[0084]
对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于异构平台的神经网络推理加速方法

一种使用分区决策机制提高图像分类准确率的方法

相关文献

最热文献