基于奇异值分解特征增强的少样本目标检测方法与流程

2022-02-21 09:22:16 来源：中国专利 TAG：

1.本发明属于计算机视觉图像检测技术领域，特别涉及图像的少样本目标检测，且具体是一种基于奇异值分解特征增强的少样本目标检测方法，可用于机器人导航、智能视频监控等领域。

背景技术：

2.目标检测是一种基于目标几何和统计特征的图像分割，它可以同时对目标进行定位和识别。现有的目标检测方法主要分为两类：基于rpn的两阶段方法和基于ssd和yolov1/v2/v3的单阶段方法。基于rpn的两阶段方法专注于提高目标检测的精度，比如rcnn、fast-rcnn、faster-rcnn、mask rcnn等。基于ssd和yolov1/v2/v3的单阶段方法专注于提高目标检测的速度，比如retinanet的端到端方法等。
3.shaoqing ren和kaiming he等人在2016年的computer vision and pattern recognition会议上发表的名为“faster r-cnn:towards real-time object detection with region proposal networks”，其数据处理流程是，第一步将数据输入特征提取网络之中得到提取到的特征图；第二步是将提取到的特征输入rpn模块生成候选框区域；第三步是将生成的候选框区域通过roi对齐层对齐；第四步是将对齐后的特征图输入边框回归器和分类器对目标进行定位与分类。
4.但是现有的目标检测任务都依赖于大量的标注图像进行训练，在实际应用中收集和标注样本费时费力且代价昂贵，限制了目标检测在一些场景下的应用和推广。
5.少样本目标检测就是利用极少的标签数据学习具有一定泛化能力的模型，从而解决现有目标检测的问题。当前，已有研究人员发现将基于微调的方法应用于少样本目标检测，例如，xin wang和thomas e huang等人在2020年的international conference on machine learning会议上发表的名为“frustratingly simple few-shot object detection”文章，公开了一种基于微调的少样本目标检测，该方法分为两个阶段，第一阶段是利用大量的基类标注样本对常用的目标检测网络(如faster-rcnn)进行训练，网络的损失函数由三部分构成：rpn网络损失、分类损失和边框回归损失；第二阶段是基于少样本图像的微调，将新类随机初始化的权值分配给分类和回归预测网络，在固定特征提取器网络参数的情形下微调预测网络，即微调目标检测网络模型的最后一层。
6.尽管现有的目标检测方法在图像的定位与分类方面取得了良好的性能，但在仅有少量标注图像的情形下目标检测仍存在很大挑战，因此促进了少样本目标检测的发展。但在现有的少样本目标检测方法中，在特征提取中提取到的特征难以泛化，并且判别能力较弱，学习到的模型不具有很好的泛化性和判别性，难以将图像中的目标精准分类与定位。

技术实现要素：

7.本发明的目的在于克服上述技术存在的不足，提出了一种显著提高目标检测定位与分类精度的基于奇异值分解特征增强的少样本目标检测方法。
8.本发明是一种基于奇异值分解特征增强的少样本目标检测方法，其特征在于，包括如下步骤：
9.(1)获取目标检测的图像数据集：图像数据集包括训练样本集和测试样本集，少样本目标检测的常用数据集为pascal voc和coco数据集，对数据集具体操作如下：
10.1.1)获取训练样本集：voc数据集总共有20个类别，其中随机选取15类被划分为基类，基类含有丰富的带标签样本，另外5类被划分为新类，新类含有少数带标签的样本，将voc2007和voc2012的训练集和验证集合并作为训练样本集；coco数据集总共有80个类别，其中与voc数据集重合的20类被划分为新类，另外60类被划分为基类，将coco2014训练集作为训练样本集；
11.1.2)获取测试样本集：待检测的目标检测图像数据从新类中选取，将voc2007测试集作为测试样本集；将coco2014验证集作为测试样本集；
12.(2)对训练样本集中的图像进行特征提取：基于faster r-cnn的网络，将训练样本集中的图像输入在imagenet数据集上预训练的resnet-101网络进行特征提取，该网络中第3个阶段卷积的输出作为特征图f输出，该特征图的矩阵输出维数为1024维；
13.(3)构建特征增强模块，对提取的特征进行增强：所构建的特征增强模块具体是，对提取到的特征图进行特征增强，针对提取到的特征图通过奇异值分解并学习得到泛化特征图e和判别特征图d，同时基于字典学习从判别特征图学习到高级的判别信息；
14.(4)rpn模块生成候选框区域：将泛化特征图e输入rpn模块进行分类及粗略的边框回归，将候选框分为两类：前景和背景；利用分类的概率值执行非最大值抑制进行初始边框回归，输出生成的候选框区域p；
15.(5)候选框区域进行roi对齐：对生成的候选框区域p进行roi对齐，将每个候选框区域特征图p输入roi对齐层得到一个7
×
7特征图的输出，得到经roi对齐后的特征图；
16.(6)对两种特征图进行融合，形成特征融合层：将生成的候选框区域特征图p用字典学习中的码字集进行编码表示，表示为rep，再将表示rep与生成的候选框区域特征图p通过roi对齐层进行对齐，对齐后将两者进行特征融合；将对齐后的生成的候选框区域特征图p与字典学习学习到的融合关系表示x两者进行特征融合；对上述两种特征图的特征融合均是通过矩阵拼接的方式进行融合，形成特征融合层，得到具有融合特征的泛化特征图和判别特征图；
17.(7)目标物体的边框定位与分类：将上述网络处理得到的信息与训练样本集标签信息输入边框回归器和分类器，得到目标物体的边框定位与分类结果，得到改进后的faster r-cnn网络；
18.7.1)目标物体的边框定位：将rpn模块初始边框回归的信息与标签真实边框信息输入边框回归器，得到目标物体边框的精确回归结果；
19.7.2)对融合后的特征图利用l
kl
损失函数约束分类结果：对具有融合特征的泛化特征图和判别特征图分别对应性输入泛化特征分类器和判别特征分类器进行类别预测，得到各自的分类结果，分类器约束损失函数l
kl
对两个分类器进行约束，得到改进后的faster r-cnn网络；
20.(8)对改进后的faster r-cnn网络进行训练：将训练样本集的数据输入改进后的faster r-cnn网络中，通过最小化损失函数实现网络的最优化：
21.8.1)对网络进行初始化：使用imagenet数据集上预训练的resnet-101网络参数对网络进行初始化，得到初始化的resnet-101网络；
22.8.2)设置整体网络的损失函数：整体改进后的faster r-cnn网络的损失函数l为：l＝l
cls
l
loc
l
rpn
λl
kl
，l
cls
是分类器的交叉熵损失函数，l
loc
是边框回归的定位损失函数，l
rpn
是rpn模块的前景背景分类损失函数，l
kl
作为插件插入现有的各种少样本目标检测的损失函数，其中λ是l
kl
的权重系数，取值为0-1；
23.8.3)执行训练：返回步骤(1)，将经过步骤(1)获取的训练样本集的图像及对应的标签信息输入初始化resnet-101网络，输出提取到的特征图，对特征图进行奇异值分解得到对应的泛化特征图和判别特征图，并对判别特征图进行字典学习，将泛化特征图通过rpn模块实现初始边框回归和生成候选框区域，通过roi对齐层将两种特征图分别进行融合，输入边框回归器与分类器，对两个分类器做一个kl损失约束，对损失函数l最小化实现对整个网络的训练，且在训练网络时采用深度学习工具箱pytorch中的sgd优化器，其动量为0.9，衰减权重为0.0001；
24.8.4)训练过程中采用两级微调的方式对网络进行优化，首先使用训练样本集中的基类对整个网络进行训练，再使用平衡的新类和基类微调分类器，新类与基类样本数量一致，分类器使用随机初始化，得到一个最优化的改进后的faster r-cnn网络；
25.(9)对待检测的图像进行目标检测：从测试样本集中选取新类的待检测图像，将待检测图像输入到训练好的resnet-101网络中，得到待检测图像特征；将待检测图像特征输入到训练好的特征增强模块，输出待检测图像的泛化特征图和判别特征图；将泛化特征图和判别特征图输入rpn模块、roi对齐层和特征融合层，通过边框回归器和分类器，实现待检测图像的目标定位与分类。
26.本发明解决了现有少样本目标检测中的因为提取到的特征代表性不强以及泛化性、判别性较弱使得定位与分类精度不够高的问题。
27.本发明与现有技术相比，具有如下优点：
28.提高特征图的泛化性和判别性：本发明提出了基于奇异值分解的特征增强模块，通过对现有的少样本目标检测提取到的特征进行奇异值分解，分解后的较大的奇异值及其对应的特征向量学习泛化特征图，分解后的较小的奇异值及其对应的特征向量学习判别特征图，并基于字典学习从判别特征图学习到高级判别信息，改善了现有方法特征提取的代表性，提高了增强后特征图的泛化性和判别性。
29.明显提高图像的定位与分类精度：本发明借助特征增强模块，可以学习到图像更本质的特征和在高维空间的判别信息，通过特征融合层对增强特征进行融合，有效提高了少样本目标检测的定位与分类性能。
30.特征增强模块、特征融合层和l
kl
损失函数即插即用：本发明可看作一个插件，通过将特征增强模块、特征融合层和l
kl
损失函数插入现有的少样本目标检测方法之中，实现明显提升图像的目标检测性能的效果。
附图说明：
31.图1是本发明的流程框图；
32.图2是本发明的数据处理流程图；
33.图3-a-图3-e是现有方法mpsr的在不同k取值下的检测结果图，其中图3-a是k＝1时的检测结果图，图3-b是k＝2时的检测结果图，图3-c是k＝3时的检测结果图，图3-d是k＝5时的检测结果图，图3-e是k＝10时的检测结果图；
34.图4-a-图4-e是现有方法fsce的在不同k取值下的检测结果图，其中图4-a是k＝1时的检测结果图，图4-b是k＝2时的检测结果图，图4-c是k＝3时的检测结果图，图4-d是k＝5时的检测结果图，图4-e是k＝10时的检测结果图；
35.图5-a-图5-e是本发明与mpsr结合在不同k取值下的检测结果图，其中图5-a是k＝1时的检测结果图，图5-b是k＝2时的检测结果图，图5-c是k＝3时的检测结果图，图5-d是k＝5时的检测结果图，图5-e是k＝10时的检测结果图。
具体实施方案
36.以下结合附图和具体实施例，对本发明详细描述：
37.实施例1
38.现有的少样本目标检测方法中，由于样本数量少，提取到的特征不能很好的代表这一类别的特征，学习到的模型泛化性和判别性较差。本发明针对上述问题展开研究，提供了一种基于奇异值分解特征增强的少样本目标检测方法。
39.本发明是一种基于奇异值分解特征增强的少样本目标检测方法，参见图1，图1是本发明的流程框图，本发明的基于奇异值分解特征增强的少样本目标检测方法包括如下步骤：
40.(1)获取目标检测的图像数据集：图像数据集包括训练样本集和测试样本集，少样本目标检测的常用数据集为pascal voc和coco数据集，对数据集具体操作如下：
41.1.1)获取训练样本集：voc数据集总共有20个类别，其中随机选取15类被划分为基类，基类含有丰富的带标签样本，另外5类被划分为新类，新类含有少数带标签的样本，将voc2007和voc2012的训练集和验证集合并作为训练样本集，合计11,530张图像；coco数据集总共有80个类别，其中与voc数据集重合的20类被划分为新类，另外60类被划分为基类，将coco2014训练集作为训练样本集，合计82,783张图像。
42.1.2)获取测试样本集：待测的目标检测图像数据从新类中选取，将voc2007测试集作为测试样本集，合计4,952张图像；将coco2014验证集作为测试样本集，合计40,775张图像。
43.上述voc和coco数据集中的图像，含有丰富的标签信息，其中包含有真实的分类信息和精确的目标边框位置信息。
44.(2)对训练样本集中的图像进行特征提取：基于faster r-cnn的网络，将在imagenet数据集上预训练的resnet-101网络参数赋初值给resnet-101网络，实现resnet-101网络的初始化，其中resnet-101网络为faster r-cnn网络的特征提取部分的网络模型。将训练样本集中的图像输入初始化后的resnet-101网络进行特征提取，将该初始化后的resnet-101网络中第3个阶段卷积的输出作为特征图f输出，该特征图f就是提取的特征图，该特征图的矩阵输出维数为1024维。
45.(3)构建特征增强模块，对提取的特征进行增强：本发明所构建的特征增强模块具体是，将提取到的1024维特征图进行特征增强，针对提取到的特征图进行奇异值分解，较大
的奇异值及对应的特征向量学习泛化特征图e，较小的奇异值及对应的特征向量学习判别特征图d，得到的两个特征图的尺寸与维度输入特征图一样。利用无监督聚类的思想，基于字典学习学习到判别特征图d的高级判别信息。也就是利用判别特征图进行了字典学习，学习到了字典学习的码字集c和融合关系表示x。
46.本发明的特征增强模块输入为resnet-101网络提取到的特征，具体为1024维的特征图的矩阵输出。特征增强模块输出为泛化特征图、判别特征图、字典学习的码字集c和融合关系表示x。在特征增强模块中，实现了对提取特征的增强。
47.(4)rpn模块生成候选框区域：rpn是一个全卷积神经网络，可输入任何大小的输入，其输出是一系列矩形的带有概率值的候选框区域。将泛化特征图e输入rpn模块进行分类及粗略的边框回归，先进行3
×
3卷积，得到rpn分类和初始边框回归的共享特征图。在不关心目标类别的条件下将候选框分为两类：前景和背景，候选框的中心点称之为锚点。使用1
×
1的卷积操作，分别得到通道数为18的类别概率图和类别数为36的位置回归图。利用分类的概率值执行非最大值抑制进行边框回归，得到目标物体的位置信息，并输出其中概率值前2,000的区域，即为生成的候选框区域p，其中候选框区域包含了目标位置的边框信息。通常iou阈值选为0.7，阈值的选取可以调整，主要与数据集相关。
48.(5)候选框区域进行roi对齐：上述生成的候选框区域，是一个锚点同时生成1:1,1:2,2:1,2:2不同比例的区域，因此需要对生成的候选框区域进行roi对齐。具体是将每个候选框区域特征图p输入roi对齐层得到一个7
×
7特征图的输出，得到roi对齐后的特征图。将对齐后的特征图再输入到resnet-101网络第四个卷积层，通过一个3
×
3卷积得到全局平均池化的向量，用于后续的图像分类与回归。
49.(6)对两种特征图进行融合，形成特征融合层：将生成的候选框区域特征图p用字典学习中的码字集进行编码表示，表示为rep，再将表示rep与生成的候选框区域特征图p通过roi对齐层进行对齐，对齐后将两者进行特征融合。将对齐后的生成的候选框区域特征图p与字典学习学习到的融合关系表示x两者进行特征融合。对上述两种特征图的特征融合均是通过矩阵拼接的方式进行融合，形成特征融合层，得到具有融合特征的泛化特征图和判别特征图。
50.换句话说，将用字典学习表示的候选框区域特征图p融入候选框区域p，使泛化特征图具有高级判别信息。通过卷积操作将roi对齐后的泛化特征图融入具有高级判别信息的融合关系表示，使判别特征图具有泛化性。并对两种特征图分别通过矩阵拼接的方式实现特征融合，得到具有融合特征的两种特征图。
51.本步骤说明了本发明如何将增强后的特征图与原有的方法的边框回归器与分类器结合起来。
52.本发明中从步骤(2)到步骤(6)进行了网络处理以及一系列数据处理，得到目标的初始边框信息和具有融合特征的特征图。
53.(7)得到目标物体的边框定位与分类：将上述网络处理得到的边框回归信息、两种特征图与训练样本集标签信息输入边框回归器和分类器，其中边框回归器和分类器是目标检测中的常用模块，训练样本集标签信息包含目标物体的真实分类结果与精确的边框位置信息，由此得到目标物体的边框定位与分类结果，得到改进后的faster r-cnn网络。包括如下步骤：
54.7.1)目标物体边框定位：将rpn模块边框回归的信息与标签真实边框信息输入边框回归器，得到目标检测边框的精确回归结果。
55.7.2)对融合后的特征图利用l
kl
损失函数约束分类结果：为保证融合后的特征图输入分类器之后，使用sgd优化器训练优化时结果是收敛的，需要对两种特征图对应的分类器的结果作kl损失函数约束，使得两个分类器具有相同的分布，即输入同一张图像时，两个分类器有相同的类别预测结果。具体步骤是，对步骤(6)得到的具有融合特征的泛化特征图和判别特征图分别对应性输入泛化特征分类器和判别特征分类器进行类别预测，得到各自的分类结果，分类器约束损失函数l
kl
对两个分类器进行约束，最终得到改进后的faster r-cnn网络。
56.(8)对改进后的faster r-cnn网络进行训练：将训练样本集的数据输入改进后的faster r-cnn网络中，通过最小化损失函数l实现网络的最优化：
57.8.1)对网络进行初始化：使用imagenet数据集上预训练的resnet-101网络参数对网络进行初始化，得到初始化的resnet-101网络。
58.8.2)设置整体网络的损失函数：整体改进后的faster r-cnn网络的损失函数l为：l＝l
cls
l
loc
l
rpn
λl
kl
，其中l
cls
、l
loc
、l
rpn
均是faster r-cnn网络中目标检测中常用的损失函数，具体计算方式同需要插入的少样本目标检测方法中的计算方式，l
cls
是分类器的交叉熵损失函数，l
loc
是边框回归的定位损失函数，l
rpn
是rpn模块的前景背景分类损失函数，l
kl
是分类器约束损失函数，l
kl
作为插件插入现有的各种少样本目标检测的损失函数，其中λ是l
kl
的权重系数，取值为0-1。
59.8.3)执行训练：返回步骤(1)，将经过步骤(1)获取的训练样本集的图像及对应的标签信息输入初始化resnet-101网络，输出提取到的特征图，对特征图进行奇异值分解得到对应的泛化特征图和判别特征图，并对判别特征图进行字典学习，将泛化特征图通过rpn模块实现初始边框回归和生成候选框区域，通过roi对齐层将两种特征图分别进行融合，输入边框回归器与分类器，对两个分类器计算l
kl
约束损失函数，对损失函数l最小化实现对整个网络的训练，且在训练网络时采用深度学习工具箱pytorch中的sgd优化器，其动量为0.9，衰减权重为0.0001。
60.8.4)训练过程中采用两级微调的方式对网络进行优化，首先使用训练样本集中的基类对整个网络进行训练，再使用平衡的新类和基类微调分类器，平衡指新类与基类样本数量一致，分类器使用服从高斯分布的随机初始化值，微调以后得到一个最优化的改进后的faster r-cnn网络。
61.(9)对待检测的图像进行目标检测：从测试样本集中选取新类的待检测图像，将待检测图像输入到训练好的resnet-101网络中，得到待检测图像特征；将待检测图像特征输入到训练好的特征增强模块，输出待检测图像的泛化特征图和判别特征图；将泛化特征图和判别特征图输入rpn模块、roi对齐层和特征融合层，通过边框回归器和分类器，实现待检测图像的目标定位与分类。
62.本发明给出了一个实现基于奇异值分解特征增强的少样本目标检测方法的整体技术方案。
63.在现有的少样本目标检测方法之中，提取到的特征不能很好的代表这一类别的特征，因此学习到的模型泛化性和判别性较差。
64.本发明的技术思路是，通过对特征提取网络提取到的特征进行奇异值分解实现特征增强，对较大的奇异值及其对应的特征向量学习泛化性特征，对较小的奇异值及其对应的特征向量学习判别性特征，同时使用字典学习从判别特征图学习到高级的判别信息，并对增强后的特征进行融合。
65.本发明具体方案为：获取目标检测的图像数据集；通过resnet-101网络对训练样本集中的图像进行特征提取；构建特征增强模块，通过奇异值分解的思路对提取到的特征进行特征增强，得到泛化特征图和判别特征图；通过rpn模块生成候选框区域；对候选框区域进行roi对齐；对增强后的两种特征图进行融合，形成特征融合层；目标物体的边框定位与分类；对改进后的faster r-cnn网络进行训练；对待检测的图像进行目标检测。从而解决了少样本目标检测中泛化能力和判别能力弱的问题，明显提高了目标检测定位与分类的精度。
66.实施例2
67.基于奇异值分解特征增强的少样本目标检测方法同实施例1，步骤(3)中所述的构建特征增强模块，进行特征增强包括有如下步骤：
68.3.1)对特征图进行奇异值分解：将步骤(2)提取到的特征图f，重新调整为对调整后的特征图f进行奇异值分解，得到其中u是奇异值分解后的左奇异矩阵，v是奇异值分解后的右奇异矩阵，u与v属于正交的酉矩阵，σ是对角线奇异值按大小排序的m
×
n的对角阵，其维度为2k，m是特征图f的通道数，ω是特征图f的宽度，h是特征图f的高度，n是调整后特征图f的维度,n＝ω
×
h。
69.3.2)学习泛化特征图：选取奇异值分解后的对角阵σ的前k个奇异值与其对应的特征向量计算g为计算特征图过程中的一个中间变量，g与f进行矩阵加法操作得到泛化特征图e，具体过程如下：
70.e＝g f
71.其中，um×k是矩阵u的前k列，是矩阵v
t
的前k行，σk×k是一个k
×
k的矩阵，e是增强后的泛化特征图，后续调整为e输入rpn模块，
72.3.3)学习判别特征图：选取奇异值分解后的σ的剩余k个奇异值与其对应的特征向量去计算判别特征图d，方法同3.2。
73.3.4)基于字典学习从判别特征图学习到高级的判别信息，定义一个码字集其包含q个码字，判别特征图d中的每个列向量为每个码字分配一个权重a
ij
，残差向量被定义为r
ij
＝d
i-cj，其中i＝1,2,
…
,n，具体过程如下：
[0074][0075]
其中，sj表示对应码字cj的可学习平滑因子，字典学习的输出是一个固定长度融合关系表示x，意味着融合判别特征图d与码字集c，
[0076]
通过字典学习，学习得到了码字集c和融合关系表示x，他们包含了高级的判别信
息。
[0077]
针对现有少样本目标检测中的特征提取部分，提取到的特征不具有代表性，使得学习到的模型在少样本目标检测中表现不佳。因此，本发明提出了基于奇异值分解的特征增强模块，借助特征增强模块，可以学习到图像更本质的特征和在高维空间的判别信息，通过对现有的少样本目标检测提取到的特征进行奇异值分解，分解后的较大的奇异值及其对应的特征向量学习得到泛化特征图，分解后的较小的奇异值及其对应的特征向量学习得到判别特征图，并基于字典学习从判别特征图学习得到高级的判别信息，改善了现有特征提取的代表性，提高了增强后特征图的泛化性和判别性。
[0078]
实施例3
[0079]
基于奇异值分解特征增强的少样本目标检测方法同实施例1-2，步骤(6)中所述的对两种特征图进行融合，形成特征融合层，包括有如下步骤：
[0080]
6.1)泛化特征图融合高级判别信息：将生成的候选框区域特征图p用字典学习学习到的码字集进行编码表示，表示为rep，再将表示rep与生成的候选框区域特征图p通过roi对齐层进行对齐，对齐后将两者通过矩阵拼接的方式实现特征融合，得到具有融合特征的泛化特征图[φ(p),φ(rep)]，表示过程如下：
[0081][0082]
其中，ψ是将特征图p映射到字典空间的一层全连接层，p是p的特征子图，所有构成了z表示候选框区域p的数量，o表示候选框区域p的尺寸，φ表示roi对齐层，是一个两层全连接层。
[0083]
6.2)判别特征图融合泛化性：将对齐后的生成的候选框区域特征图p与字典学习学习到的融合关系表示x两者进行特征融合；将步骤(4)得到的候选框区域p通过roi对齐层对齐，同时将字典学习学习到的融合关系表示x输入单层卷积层，将两者的结果通过矩阵拼接的方式实现特征融合，得到具有融合特征的判别特征图[φ(p),ωcx bc]，其中，φ表示roi对齐层，是一个两层全连接层，ωc、bc表示卷积层的权重与偏差，是一个可学习的参数，[,]表示矩阵拼接。
[0084]
参见图2，本发明在进行了泛化特征图融合高级判别信息和判别特征图融合泛化性之后，得到特征融合层。
[0085]
本发明针对增强之后的特征，采用何种方法将它与现有的目标检测数据处理流程融合，也是一个需要解决的技术问题。本发明借助矩阵拼接的方法，将增强后的特征图通过rpn模块生成候选框区域，将得到的两种特征图通过roi对齐层，对齐后借助矩阵拼接的方法，成功实现了特征的融合，融合后的特征具有较好的泛化性和判别性。
[0086]
本发明中融合关系表示x是在字典学习中的约束项，将判别特征图d与码字集c之间建立起联系，同时学习到码字集c。rep是将对齐后候选框区域p映射到字典中，将其用编码集中的码字表示出来，是一种编码表示。本发明通过特征融合层对特征进行融合，有效提高了少样本目标检测的定位与分类性能。
[0087]
实施例4
[0088]
基于奇异值分解特征增强的少样本目标检测方法同实施例1-3，步骤(7.2)中所述
的对融合后的特征图利用l
kl
损失函数约束分类结果，包括有如下步骤：
[0089]
7.2.1)具有融合特征的泛化特征图分类：将融合后的特征经过roi对齐层对齐，输入泛化特征分类器中，即可预测目标的分类结果，分类函数y
rep
如下：
[0090]yrep
＝cls([φ(p),φ(rep)])
[0091]
其中，φ表示roi对齐层，rep是候选框区域p用字典学习的编码表示，'cls'表示分类器网络。
[0092]
7.2.2)具有融合特征的判别特征图分类：将融合后的特征输入判别特征分类器中，即可预测目标的分类结果，分类函数y如下：
[0093]
y＝cls([φ(p),ωcx bc])
[0094]
其中，φ表示roi对齐层，ωc、bc表示卷积层的权重与偏差，是一个可学习的参数，'cls'表示分类器网络。
[0095]
7.2.3)利用l
kl
损失函数约束分类结果：为保证两种思路得到的分类器具有相同的分布，两个分类器之间权重共享，并利用l
kl
损失函数对两个分类损失函数进行约束，l
kl
损失约束函数的计算公式如下：
[0096]
l
kl
＝∑y
rep
(logy
rep-logy)
[0097]
其中，y
rep
表示泛化特征分类器的预测分类结果，y表示判别特征分类器的预测分类结果。
[0098]
也就是说，对特征融合层中的具有融合特征的泛化特征图和判别特征图分别对应性输入泛化特征分类器和判别特征分类器进行类别预测，得到各自的分类结果，分类器约束损失函数l
kl
对两个分类器进行约束。
[0099]
经过目标检测边框定位和约束分类，最终得到改进后的faster r-cnn网络。
[0100]
针对融合之后的两种特征图，本发明采用了l
kl
损失函数对两种特征图对应的分类器的分类损失函数进行约束，使得两个分类器之间权重共享，保证两种特征图对应的分类器具有相同的分布，监督特征增强模块和特征融合模块。
[0101]
在仅有少量带标签样本的情形下，本发明学习到图像的更本质的特征和在高维空间的判别信息，使得学习到的特征具有很好的泛化性和判别性，在少样本目标检测中，显著提高了目标检测的分类与定位的精度，具有广泛的应用前景。
[0102]
实施例5
[0103]
基于奇异值分解特征增强的少样本目标检测方法同实施例1-4，本发明还是一种基于奇异值分解特征增强的少样本目标检测方法的即插即用方法。分类器约束损失函数l
kl
作为插件插入现有的各种少样本目标检测的损失函数中，在现有的目标检测流程中，将基于奇异值分解特征增强的少样本目标检测方法与现有的方法结合，将特征增强模块、特征融合层和l
kl
损失函数插入现有的方法中，实现更为精确的目标检测分类与定位，包括有如下步骤：
[0104]
步骤a：现有的目标检测流程是，第一步将数据输入特征提取网络之中得到提取到的特征图；第二步是将提取到的特征输入rpn模块生成候选框区域；第三步是将生成的候选框区域通过roi对齐层对齐；第四步是将对齐后的特征图输入边框回归器和分类器对目标进行定位与分类。
[0105]
步骤b：将基于奇异值分解特征增强的少样本目标检测方法的特征增强模块引入
现有的目标检测流程之中，在现有的目标检测流程的第一步与第二步之间插入特征增强模块，对提取到的特征图进行特征增强。
[0106]
步骤c：将基于奇异值分解特征增强的少样本目标检测方法的特征融合层引入现有的目标检测流程之中，在现有的目标检测流程的第三步与第四步之间插入特征融合层，将增强以后的特征分别进行融合。
[0107]
步骤d：将基于奇异值分解特征增强的少样本目标检测方法的l
kl
损失函数插入现有的目标检测流程之中，将l
kl
插入原有目标检测网络损失函数之中，通过l
kl
损失函数实现提升目标检测分类与定位精度的效果。
[0108]
本发明可以作为一个插件，与其他少样本目标检测方法结合，即插即用，改善其他方法的定位与分类精度。针对本发明提出的特征增强模块、特征融合层和l
kl
损失函数，可与现有的少样本目标检测的方法相结合，改善现有方法的目标检测精度。通过将特征增强模块、特征融合层和l
kl
损失函数插入现有的方法中，实现更为精确的目标检测分类与定位。
[0109]
下面给出一个详细的例子，对本发明进一步说明：
[0110]
实施例6
[0111]
基于奇异值分解特征增强的少样本目标检测方法同实施例1-5，参照图2，本发明基于奇异值分解特征增强的少样本目标检测方法，将其与mpsr结合，其具体实现步骤包括如下：
[0112]
步骤1，获取目标检测的图像数据集。
[0113]
少样本目标检测的常用数据集为pascal voc和coco数据集，具体设置如下：
[0114]
1.1)voc数据集总共有20个类别，其中随机选取15类被划分为基类，基类含有丰富的带标签样本，另外5类被划分为新类，新类含有少数带标签的样本，具体使用voc2007和voc2012的训练集和验证集作为训练样本集，使用voc2007测试集测试，其中对于每个新类带标签样本数量k设置为1，2，3，5，10，同时基类和新类的随机划分遵循现有少样本目标检测任务设置，并分别命名为划分1、划分2、划分3；
[0115]
1.2)coco数据集总共有80个类别，其中与voc数据集重合的20类被划分为新类，另外60类被划分为基类，并使用coco2014验证集中的5,000张图像作为测试样本集，其中新类带标签样本数量k设置为10，30。
[0116]
1.3)新类的随机选取及划分标准同现有的各种少样本目标检测任务设置，上述提及的数据集可从对应的官网进行下载，注意下载的版本要与本发明中提到的一致，不同版本的数据集划分存在细微差别。
[0117]
步骤2，对训练样本集中的图像进行特征提取。
[0118]
基于mpsr方法中增加了强化分支的faster r-cnn的网络，在mpsr方法中，相较于faster r-cnn网络，增加了强化分支，利用多尺度的目标物体的真实边框信息增加前景的样本数量，因此增加了各种尺度目标物体的检测精度。特征提取的具体步骤是，将训练样本集中的图像输入在imagenet数据集上预训练的resnet-101网络进行特征提取，选取该网络中第3个阶段卷积的输出作为特征图f输出，该特征图的矩阵输出维数为1024维。
[0119]
步骤3，构建特征增强模块，对提取的特征进行增强。
[0120]
对上述经过特征提取网络得到的特征进行特征增强，针对提取到的特征图通过奇异值分解并学习泛化特征图e和判别特征图d，同时基于字典学习从判别特征图学习到高级
的判别信息。
[0121]
3.1)对特征图进行奇异值分解。具体是将步骤2提取到的特征图调整为调整后的特征图f为m
×
n维，其中n＝ω
×
h，m,ω,h分别表示特征图的通道数、宽度、高度，m取值为1024，ω,h取决于输入图像的尺寸，在目标检测中输入图像的尺寸通常不一致，导致卷积得到的特征图尺寸不一致。对调整后的特征图f进行奇异值分解，得到其中和是奇异值分解后得到的正交的酉矩阵，σ是对角线奇异值按大小排序的m
×
n的对角阵，其维度为2k，其中k＝512。
[0122]
3.2)学习泛化特征图。对上述分解得到的矩阵，选取σ前k个奇异值与其对应的特征向量去计算泛化特征图g与f进行矩阵加法操作得到泛化性增强的特征图e，具体过程如下：
[0123][0124]
其中，um×k和是矩阵u的前k列和v
t
的前k行，σk×k是一个k
×
k的矩阵，是增强后的泛化特征图，后续可拆分为输入rpn模块。
[0125]
3.3)学习判别特征图。选取奇异值分解后的σ的剩余k个奇异值与其对应的特征向量去计算判别特征图方法同3.2。
[0126]
3.4)基于判别特征图的字典学习，利用无监督聚类的思想从判别特征图学习到高级的判别信息。具体地，定义一个编码集其包含q个码字，本发明中q取值为23，判别特征图d中的每个列向量为每个码字分配一个权重a
ij
，残差向量被定义为r
ij
＝d
i-cj，其中i＝1,2,
…
,n，具体过程如下：
[0127][0128]
其中，sj表示对应码字cj的可学习平滑因子，在训练中学得，字典学习的输出是一个固定长度的融合关系表示
[0129]
步骤4，rpn模块生成候选框区域。
[0130]
rpn是一个全卷积神经网络，可接收任何大小的输入，其输出是一系列矩形的候选框区域，并且每一个候选框都有一个概率值。首先对预测区域进行分类及粗略的边框回归，在不关心目标类别的条件下将候选框分为两类：前景和背景，利用分类的概率值执行非最大值抑制，进行边框回归。分类的概率值即intersection over union，简记为iou，表示候选框区域与真实边框的交并比，阈值设置为0.7，并输出其中概率值排序靠前的区域，即生成的候选框区域。
[0131]
将步骤3得到的泛化特征图生成预选框，依据rpn的输出和预选框解码之后映射到图像输入得到候选框，个数为(h/16)*(ω/16)*9，然后依据rpn预测的概率值选出前1,2000个候选框，进行阈值为0.7的非极大值抑制，对处理后的候选框区域依据概率值大小选出前2,000个，得到生成的候选框区域。
[0132]
具体地，将步骤3得到的泛化特征图e拆分为输入rpn模块，得到一系列候选框区域，过程如下：
[0133]
p＝rpn(e)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0134]
其中，生成的候选框区域z是生成候选框区域的数量，m是字典学习融合关系表示的维数，也是泛化特征图的通道数，o
×
o表示生成候选框区域的尺寸。
[0135]
步骤5，候选框区域进行roi对齐。
[0136]
对步骤4得到的候选框区域进行roi对齐，具体是为每个候选框区域特征图p输入roi对齐层，进行卷积操作得到一个7
×
7特征图的输出。通过roi对齐，可以将不同大小的候选框区域映射为同一尺寸大小，是一种池化方式，便于后续边框回归器与分类器的处理。
[0137]
步骤6，对两种特征图进行融合，形成特征融合层。
[0138]
6.1)泛化特征图融合高级判别信息：将生成的候选框区域特征图p用字典学习中的码字集进行编码表示，表示为rep，再将表示rep与生成的候选框区域特征图p通过roi对齐层进行对齐，对齐后将两者通过矩阵拼接的方式实现特征融合，得到具有融合特征的泛化特征图[φ(p),φ(rep)]，表示过程如下：
[0139][0140]
其中，ψ是将特征图p映射到字典空间的一层全连接层，p是p的特征子图，所有构成了z表示候选框区域特征图p的数量，o表示候选框区域特征图p的尺寸，φ表示roi对齐层，是一个两层全连接层。
[0141]
6.2)判别特征图融合泛化性：将对齐后的生成的候选框区域特征图p与字典学习学习到的融合关系表示x两者进行特征融合；将步骤(4)得到的候选框区域p通过roi对齐层对齐，同时将字典学习学习到的融合关系表示x输入单层卷积层，将两者的结果通过矩阵拼接的方式实现特征融合，得到具有融合特征的判别特征图[φ(p),ωcx bc]。其中，φ表示roi对齐层，是一个两层全连接层，ωc、bc表示卷积层的权重与偏差，是一个可学习的参数，[,]表示矩阵拼接。
[0142]
本发明中从步骤2到步骤6进行了网络处理以及一系列数据处理，得到目标的初始边框信息和具有融合特征的特征图。
[0143]
步骤7，目标物体边框定位与分类。
[0144]
将上述网络处理得到的信息与训练样本集标签信息输入边框回归器和分类器，得到目标检测的边框定位与分类结果，得到改进后的增加了强化分支的faster r-cnn的网络。
[0145]
7.1)目标物体边框定位。将rpn模块初始边框回归的信息与标签真实边框信息输入边框回归器，得到目标物体边框的精确回归结果。
[0146]
7.2)对融合后的特征图利用l
kl
损失函数约束分类结果。对步骤6得到的具有融合特征的泛化特征图和判别特征图分别对应性输入泛化特征分类器和判别特征分类器进行类别预测，得到各自的分类结果，分类器约束损失函数l
kl
对两个分类器进行约束，最终得到改进后的增加了强化分支的faster r-cnn网络。
[0147]
7.2.1)具有融合特征的泛化特征图分类。将融合后的特征经过roi对齐层对齐，输
入泛化特征分类器中，即可预测目标的分类结果，分类函数y
rep
如下：
[0148]yrep
＝cls([φ(p),φ(rep)])
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0149]
其中，φ表示roi对齐层，rep是候选框区域p用字典学习的编码表示，'cls'表示分类器网络。
[0150]
7.2.2)具有融合特征的判别特征图分类。将融合后的特征输入判别特征分类器中，即可预测目标的分类结果，分类函数y如下：
[0151]
y＝cls([φ(p),ωcx bc])
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0152]
其中，φ表示roi对齐层，ωc、bc表示卷积层的权重与偏差，是一个可学习的参数，'cls'表示分类器网络。
[0153]
7.2.3)利用l
kl
损失函数约束分类结果：为保证两种思路得到的分类器具有相同的分布，两个分类器之间权重共享，利用l
kl
损失函数对两个分类损失函数进行约束，l
kl
损失函数的计算公式如下：
[0154][0155]
其中，z表示输入的第z张图像，n表示训练样本集中的图像数量，y
repz
表示输入的第z张图像的泛化特征分类器的预测分类结果，yz表示输入的第z张图像的判别特征分类器的预测分类结果。
[0156]
经过目标检测边框定位和约束分类，最终得到改进后的增加了强化分支的faster r-cnn网络。
[0157]
步骤8，对改进后的增加了强化分支的faster r-cnn网络进行训练。
[0158]
8.1)对网络进行初始化。使用imagenet预训练的参数对网络进行初始化，得到初始化的resnet101网络。
[0159]
8.2)设置整体网络的损失函数。整体网络的损失函数l为：l＝l
cls
l
loc
l
rpn
λl
kl
，其中l
kl
是本发明中提出损失函数，l
cls
、l
loc
、l
rpn
是mpsr方法中的损失函数，l
cls
是分类器的交叉熵损失函数，l
loc
是边框回归的定位损失函数，l
rpn
是增加了强化分支的rpn模块的前景背景分类损失函数，相较于与之前的方法增加了强化分支部分的损失，l
kl
是分类器约束损失函数，l
kl
作为插件插入现有的各种少样本目标检测的损失函数，其中λ是l
kl
的权重系数，取值为0-1，本发明中实验时设置为1。
[0160]
8.3)执行训练。返回步骤1，将经过步骤1获取的训练样本集的图像及其对应的标签信息输入初始化resnet-101网络中，输出网络提取的特征图，对特征图进行奇异值分解得到对应的泛化特征图和判别特征图，并对判别特征图进行字典学习，将泛化特征图通过rpn模块实现初始边框回归和生成候选框区域，通过roi对齐层将两种特征图进行融合，输入边框回归器与分类器，对两个分类器计算l
kl
损失函数；同时将目标物体的真实边框对应的图像输入强化分支模块，得到的强化信息分别输入分类器的交叉熵损失函数和rpn模块的前景背景分类损失函数，弥补缺少多尺度信息的不足，该分支不干扰主流的数据处理流程，只是作为辅助信息增加多尺度信息，本发明与mpsr结合也与该分支无关联。通过对损失函数l最小化实现对整个网络的训练。在训练网络时采用深度学习工具箱pytorch中的sgd优化器，其动量为0.9，衰减权重为0.0001。训练时batchsize设置为4，同时使用2个gpu，每个gpu同时训练2张图像。
[0161]
8.4)训练过程中采用两级微调的方式对网络进行优化。第一阶段使用训练样本集中的基类对整个网络进行训练，所有的网络参数都随着更新。第二阶段固定特征提取部分网络、特征增强模块和特征融合层，使用平衡的新类和基类微调边框回归器与分类器，平衡的新类和基类指新类与基类带标签样本数量一致，边框回归器与分类器随机初始化，得到一个最优化的改进后的增加了强化分支的faster r-cnn网络。
[0162]
步骤9，对待检测的图像进行目标检测。从测试样本集中选取新类的待检测图像，将待检测图像输入到训练好的resnet-101网络中，得到待检测图像特征；将待检测图像特征输入到训练好的特征增强模块，输出待检测图像的泛化特征图和判别特征图；将泛化特征图和判别特征图输入rpn模块、roi对齐层和特征融合层，通过边框回归器和分类器，实现待检测图像的目标定位与分类。
[0163]
本发明提出了一种基于奇异值分解特征增强的少样本目标检测方法，主要解决了现有少样本目标检测方法的泛化性和判别性表现不佳的问题。其方案为：获取训练样本集；通过resnet-101网络对训练样本集中的图像进行特征提取；通过奇异值分解的思路对提取到的特征进行特征增强，得到泛化性特征和判别性特征；通过将泛化性特征输入rpn模块生成候选框区域；对候选框区域进行roi对齐；对对齐后的特征分别进行融合；执行faster r-cnn的回归与分类并用kl损失约束两个分类器的结果；将待检测的图像输入网络之中进行目标检测。本发明学习到图像的更本质的特征和在高维空间的判别信息，有效提高了少样本目标检测的定位与分类性能。
[0164]
以下结合仿真实验，对本发明的技术效果再作说明。
[0165]
实施例7
[0166]
基于奇异值分解特征增强的少样本目标检测方法同实施例1-6。
[0167]
仿真条件：使用型号为nvidia gtx titan v的gpu，基于深度学习的工具箱pytorch进行仿真实验。
[0168]
仿真内容：在两个公开的专门用于目标检测方法性能测试的数据集pascal voc和coco上进行仿真实验，其中：
[0169]
voc数据集总共有20个类别，其中随机选取15类被划分为基类，另外5类被划分为新类，具体使用voc2007和voc2012的训练集和验证集训练，使用voc2007测试集测试。
[0170]
coco数据集总共有80个类别，其中与voc数据集重合的20类被划分为新类，另外60类被划分为基类。
[0171]
用本发明和现有基于深度卷积神经网络的少样本目标检测方法，在上述两个公开数据集voc和coco上进行仿真对比实验，结果分别如表1、表2所示。
[0172]
表1在voc数据集上不同设置下的的各种方法的分类精度表
[0173][0174]
表2在coco数据集上不同设置下的的各种方法的分类精度表
[0175][0176]
仿真结果与分析：
[0177]
表1中的nap50表示iou的值取50％时在新类上的精度，现有的少样本目标检测方法mpsr、fsce已有了不错的表现，超越了之前传统的少样本目标检测。仿真实验中，在本发明与mpsr、fsce相结合以后，得到了比仅用mpsr、fsce更好的结果，从表1可以观察到在三种划分中的分类精度均有至少1％的提升效果，尤其是在k＝1的设置下，最好的表现相较于mpsr提升了5％。
[0178]
表2中的aps、apm和ap
l
分别表示在小型目标、中性目标、大型目标上的分类精度。仿真实验中，在本发明与mpsr、fsce相结合以后，得到了比仅用mpsr、fsce更好的结果，从表2可以观察到不同k值下的分类精度均有1％的提升效果，尤其是在小型目标和中性目标上的分类精度相较于mpsr提升了1-2％。
[0179]
实验数据证明，本发明与现有少样本目标检测方法mpsr、fsce相结合，分类精度出现了明显的提高。
[0180]
实施例8
[0181]
基于奇异值分解特征增强的少样本目标检测方法同实施例1-6，仿真条件和内容在实施例7的基础上，对划分1的检测结果如下：
[0182]
本发明基于奇异值分解特征增强的少样本目标检测方法，在voc数据集上，5种新类(狗类、鸟类、马类、猫类、牛类)在现有的少样本目标检测方法mpsr、fsce和本发明与mpsr结合的检测结果进行可视化，结果如图3、4、5所示。
[0183]
图3、图4、图5分别对应mpsr、fsce和本发明与mpsr结合的方法的目标检测结果，图3-a、图4-a、图5-a是k＝1时上述三种方法对狗类的目标检测结果，图3-b、图4-b、图5-b是k＝2时上述三种方法对鸟类的目标检测结果，图3-c、图4-c、图5-c是k＝3时上述三种方法对马类的目标检测结果，图3-d、图4-d、图5-d是k＝5时上述三种方法对猫类的目标检测结果，图3-e、图4-e、图5-e是k＝10时上述三种方法对牛类的目标检测结果。
[0184]
图3-a-图3-e是现有方法mpsr的在不同k取值下对5种新类的检测结果图，图4-a-图4-e是现有方法fsce的在不同k取值下对5种新类的检测结果图，图5-a-图5-e是本发明与mpsr结合的方法在不同k取值下对5种新类的检测结果图。
[0185]
针对目标检测任务设置，其中同一类别的物体检测出的边框用同种颜色标注，不同类别的物体检测出的边框用不同颜色标注。
[0186]
仿真结果与分析：
[0187]
图3-a、图4-a、图5-a均是k＝1时对狗类的目标检测结果，图3-a不仅检测出了狗的边框信息，对影子也检测出来并标记为一种新类，出现了错误检测结果；图4-a检测出了狗的边框信息，虽然没有对影子的错误检测，但检测出两种边框信息，意味着标记为两种类别；本发明与mpsr结合则既没有影子的错误检测，也没有检测出两个边框，正确检测出狗的边框信息。
[0188]
参见图3-e、图4-e、图5-e是k＝10时对牛类的目标检测结果，图3-e仅检测出了人及右边白色牛的边框信息，未检测出左边被人遮挡的黑白相间牛；图4-e检测出了人、右边白色牛和左边被人遮挡的黑白相间牛三个目标物体，但检测出的边框信息标记范围过大，不够精确；本发明与mpsr结合则能检测出人、右边白色牛和左边被人遮挡的黑白相间牛三个目标物体，并对三个物体的边框信息精确定位。
[0189]
对比图3-b、图4-b，对比图3-c、图4-c，对比图3-d、图4-d，也是相同的问题，图5-b、图5-c、图5-d均明显提升了分类和边框信息的精度。
[0190]
在mpsr方法中，依据目标物体的边缘信息对目标物体进行检测，导致对图像的影子也会进行检测定位并标记为一种新类，同时在目标物体存在边缘遮挡时，往往检测不出目标物体的边框信息。
[0191]
在fsce方法中，对目标物体检测出的边框往往远大于目标物体的实际大小，这表明检测出的位置信息包含很多无关信息。
[0192]
只有本发明与mpsr结合的方法中，不仅没有出现错误检测的现象，并且检测到的位置信息也十分精确，显著提高了目标检测的定位精度。
[0193]
综上所述，本发明提出了一种基于奇异值分解特征增强的少样本目标检测方法，主要解决了现有少样本目标检测方法的泛化性和判别性较差的问题。其实现包括：获取目标检测的图像数据集；通过resnet-101网络对训练样本集中的图像进行特征提取；构建特征增强模块，通过奇异值分解的思路对提取到的特征进行特征增强，得到泛化特征图和判别特征图；通过rpn模块生成候选框区域；对候选框区域进行roi对齐；对增强后的两种特征图分别进行融合，形成特征融合层；目标物体边框定位与分类；对改进后的faster r-cnn网络进行训练；对待检测的图像进行目标检测。本发明提出了特征增强模块、特征融合层和l
kl
损失函数三个部分，学习到图像的更本质的特征和在高维空间的判别信息，使得学习到的特征具有很好的泛化性和判别性，有效提高了少样本目标检测的定位与分类精度，可用于
机器人导航、智能视频监控等领域。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

基于奇异值分解特征增强的少样本目标检测方法与流程

相关文献

最热文献