一种基于注意力区域选择的深度模型压缩方法

2022-04-13 19:43:47 来源：中国专利 TAG：

1.本发明属于计算机视觉技术领域，尤其涉及一种基于注意力区域选择的深度模型压缩方法。

背景技术：

2.作为计算机视觉领域的基础和热门话题之一，目标检测已经引起了广泛的关注和讨论。最近的研究提出了许多基于深度学习的方法来处理目标检测的任务，这些方法往往依赖于复杂的骨干网络的运算，这可以极大地提高模型的性能，同时占用大量的内存和花费大量的计算时间。
3.先进的模型加速方法，如手动设计轻量级神经网络，包含剪枝的模型压缩技术和量化,以及网络架构搜索(nas)都有减少模型大小和加快推理速度的效果。
4.知识提炼(knowledge distillation，简称kd)是模型压缩中常用的有效方法，它通过训练紧凑的学生模型来模仿大型教师模型的能力，从而获得卓越的泛化能力。目前kd的主要研究工作多应用于分类任务，较少用于目标检测任务，因为目标检测不是简单地将一张图片归入相应的类别，而是要找出物体的位置并对找到的物体进行分类。虽然已经提出了基于对数的知识、基于特征的知识和基于关系的知识等，但kd在目标检测方面的应用还远未完善，因为它需要一些额外的操作和设计。

技术实现要素：

5.本发明提供了一种基于注意力区域选择的深度模型压缩方法，降低了模型的参数量，加快模型的推理速度，降低了模型所需存储空间，减少计算资源消耗。
6.为实现以上目的，本发明采用以下技术方案：
7.一种基于注意力区域选择的深度模型压缩方法，包括以下步骤：
8.步骤1：提取教师网络和学生网络的指定层的输出作为待计算特征图；
9.步骤2：应用注意力函数计算所述特征图的注意力图；
10.步骤3：应用区域选择算法计算出选择的区域；
11.步骤4：学生网络和教师网络同时提取选中的区域的注意力图；
12.步骤5：学生网络通过学习该区域的信息得到教师网络的能力。
13.以上所述步骤中，步骤2中所述注意力函数为：
[0014][0015][0016]
定义一个卷积层，与该层相关的激活张量为其中f为相关层的激活函数，其输入的维度为(h，w，c)，h和w表示特征图的宽度和高度，c表示通道的数量，输出为一张注意力图，大小为h
×
w，ai＝a(i；：；：)为matlab表示法，表示张量a的第i个通道，ai的维度
为h
×
w，表示输入为激活张量a，上标p表示为p次方，下标sum表示求和；
[0017]
步骤3具体包括以下步骤：
[0018]
步骤3.1：得到预测框和真值框的iou值
[0019]
iou(intersection over union)表示存在对象的预测区域和真值区域之间的相似性，对于每一个预测框，计算其与每一个真值框的iou值并添加到ious中；
[0020]
步骤3.2：取ious中最大的iou，maxiou，并设置fai值为0.5
[0021]
maxiou
←
max(ious)
[0022]
其中，max表示取最大值
[0023]
步骤3.3：过滤掉iou值小于threshold＝maxiou
×
fai的预测框；
[0024]
步骤3.4：对选取的所有iou值大于阈值threshold的预测框进行或操作，得到最终的掩码mask，也就是选定的区域；
[0025]
mask为一个由0，1组成的矩阵，维度为片
×
w；
[0026]
或操作表示按位或的操作，只要是预测框包含到的位置都置为1；
[0027]
步骤4中提取选中的区域的注意力图：
[0028]
mask(mask，t)＝mask点乘
[0029]
mask(mask，s)＝mask点乘
[0030]
其中，t，s分别表示教师网络和学生网络卷积层的激活张量，mask(mask，t)和mask(mask，s)分别为教师网络和学生网络选定区域的注意力图；
[0031]
步骤5具体包括以下步骤：
[0032]
步骤5.1：学生网络的区域选择损失函数：
[0033][0034][0035]
mask是区域选择的掩码，n
p
是选择区域的点的数量，f
adap
是适应函数，i和j表示二维特征图上的第i行第j列，学生网络和教师网络的输出维度可能不一样，需要添加适应层，将两个网络的输出拉伸到一样大小；
[0036]
步骤5.2整体的损失函数
[0037]
loss＝l
gt
λl
rat
[0038]
l
gt
是指原始目标检测损失，λ是rat损失权重系数，用于平衡l
gt
和l
rat
之间的权重。
[0039]
步骤5.3：学生网络通过最小化整体损失函数学习到教师网络的信息；
[0040]
进一步的，训练网络并最小化整体损失函数，迭代训练至损失收敛。
[0041]
有益效果：本发明提供了一种基于注意力区域选择的深度模型压缩方法，利用区域选择和注意机制相结合的简单蒸馏方法进行目标检测，在全面分析的基础上，引入了本发明的方法，首先根据预测框选择蒸馏区域，然后提取该区域的注意图进行蒸馏，在几个目标检测数据集和不同的检测框架上的实验结果验证了本发明方法的有效性，分析并证明了在蒸馏过程中应用区域选择和注意机制的重要作用；而且本发明容易实现，可以应用于单阶段和双阶段检测框架，具有普适性。本发明使用faster r-cnn模型在pascal voc基准上
评估了我们的方法，与教师相比，本发明提高了检测效果，减少了模型大小。
附图说明
[0042]
图1是本发明实施例中的整体流程图；
[0043]
图2是本发明实施例中步骤2的结果图；
[0044]
图3是本发明实施例中步骤3的结果图；
[0045]
图4是本发明实施例中步骤4的结果图。
具体实施方式
[0046]
下面结合附图和具体实施例对本发明进行详细说明：
[0047]
如图1所示，一种基于注意力区域选择的深度模型压缩方法，包括以下步骤：
[0048]
步骤1.1提取指定网络层
[0049]
提取教师网络和学生网络的指定层的输出t，s作为待计算特征图；
[0050]
进一步的，教师网络为基于resnet152-fpn的faster r-cnn，学生网络为基于resnet34-fpn的faster r-cnn，选择用于蒸馏的层为fpn的最高层；
[0051]
步骤2.1规定注意力函数
[0052][0053][0054]
其中特征f的维度为(h，w，c)，h，w表示特征图的宽度和高度，c表示通道的数量，注意力图的大小为h
×
w。上标p表示为p次方，将p设置为2；
[0055]
步骤2.2代入公式计算该特征图的注意力图
[0056]
进一步的，将步骤1.1获取的t，s代入到步骤2.1规定的注意力函数中，即
[0057]
步骤3.1得到预测框和真值框的iou值
[0058]
iou(intersection over union)表示存在对象的预测区域和真值区域之间的相似性，对于每一个预测框，计算其与每一个真值框的iou值并添加到ious中；
[0059]
步骤3.2取ious中最大的iou，maxiou，并设置fai值为0.5
[0060]
maxiou
←
max(ious)
[0061]
其中，max表示取最大值
[0062]
步骤3.3过滤掉iou值小于threshold＝maxiou
×
fai的预测框；
[0063]
步骤3.4对选取的所有iou值大于阈值threshold的预测框进行或操作，得到最终的掩码mask，也就是选定的区域；
[0064]
进一步的，mask为一个由0，1组成的矩阵，维度为h
×
w，或操作表示按位或的操作，只要是预测框包含到的位置都置为1。
[0065]
步骤4.1计算选定区域的注意力图
[0066]
mask(mask，t)＝mask点乘
[0067]
mask(mask，s)＝mask点乘其中，t，s分别表示步骤1.1教师网络和学生网络卷积层输出的激活张量，mask(mask，t)和mask(mask，s)分别为教师网络和学生网络选定区
域的注意力图，mask为步骤3.4得到的掩码，即选择的区域；
[0068]
步骤5.1学生网络的区域选择损失函数：
[0069][0070][0071]
mask是区域选择的掩码，n
p
是选择区域的点的数量，f
adap
是适应函数，i，j表示二维特征图上的第i行第j列，学生网络和教师网络的输出维度可能不一样，需要添加适应层，将两个网络的输出拉伸到一样大小；
[0072]
步骤5.2整体的损失函数
[0073]
l
oss
＝l
gt
λl
rat
[0074]
l
gt
是指原始目标检测损失，λ是rat损失权重系数，用于平衡l
gt
和l
rat
之间的权重；
[0075]
步骤5.3学生网络通过最小化整体损失函数学习到教师网络的信息。
[0076]
进一步的，训练网络并最小化整体损失函数，迭代训练至损失收敛；
[0077]
使用faster r-cnn模型在pascal voc基准上评估了本发明的方法，如表1结果显示与教师相比，本发明提高了检测效果，减少了模型大小。
[0078]
进一步的，评估的指标为map(mean average precision)和模型占用内存大小；
[0079]
进一步的要计算map，首先要计算p精确度和r召回率；
[0080][0081][0082]
其中，tp(true positive)为一个判定检测正确的样本，即预测的边界框中的目标分类正确且边界框与真实边界框的重叠大于阈值。
[0083]
fp(false positive)为一个判定检测错误的样本，即预测的边界框中的目标分类错误或边界框与真实边界框的重叠小于阈值。
[0084]
fn(false negative)为一个没有被检测出来的样本，也就是漏检的样本。
[0085]
ap(average precision)为准确率-召回率曲线的面积。计算方式如下：
[0086][0087]
map为综合所有类别的ap的平均值。计算方式如下：
[0088][0089]
其中n为总类别数，i表示某一个类别。
[0090]
表1上述方法的对比评估结果
[0091][0092]
以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：录像数据处理方法、装置、电子设备和存储介质与流程

一种基于注意力区域选择的深度模型压缩方法

相关文献

最热文献