一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于混合监督训练的目标检测方法与流程

2022-03-08 22:33:12 来源:中国专利 TAG:


1.本发明涉及计算机视觉与多媒体分析领域,具体地说是一种基于混合监督训练的目标检测方法。


背景技术:

2.目标检测是计算机领域的基本任务,目标是针对给定的类别,从输入图像中定位并输出该类别对象的矩形边界框。目标检测器主要分为一阶段目标检测器和二阶段目标检测器。二阶段目标检测器基于加州大学伯克利girshick提出的r-cnn结构,首先通过低等级计算机视觉算法产生感兴趣区域,然后对其进行分类和定位。微软研究院he提出的sppnet和微软研究院girshick提出的fast r-cnn利用空间金字塔池化一次性产生特征并通过roi池化产生区域特征,有效减少冗余计算。中国科学技术大学ren等人提出的faster r-cnn通过使用区域提议网络代替耗时的区域提议算法进一步提升性能。微软研究院dai等人提出的r-fcn通过全卷积网络产生位置敏感得分来避免对于每个感兴趣区域的处理。facebook人工智能研究院he等人提出的mask r-cnn利用感兴趣区域对齐层有效解决粗糙空间量化的问题。facebook人工智能研究院lin等人提出的fpn通过一个从上到下通路和跳过连接,对低分辨率语义信息强的特征和高分辨率语义信息弱的特征进行融合,解决尺度变化问题。传统上讲,二阶段检测器可以获得较好的检测性能但却经常有较大的计算开销,不符合实时应用的需求。为了解决这种情况,一阶段检测器避免了耗时的提议生成步骤,直接对预定义的检测框进行分类,例如华盛顿大学redmon等人提出的yolo和北卡罗来纳大学liu等人提出的ssd模型。现有训练一个目标检测器通常采用全监督训练,即数据集同时标注每一个物体的类别和包围框,然而此类数据集标注成本高昂,耗时,同时部分如医学场景下也较难获得,尤其在复杂稠密场景中,物体实例数量较多,同时物体分布较为密集,此外物体之间还存在严重的相互遮挡,包围框的成本较高,训练成本高企。同时部分研究提出弱监督方法,即数据集只标注图片中出现的类别而不需标出包围框,此类标注方式可以显著降低标注成本,然而现有弱监督方法看作一个多实例学习,由于缺乏显式的位置信息监督,通常性能和全监督检测器存在较大差别。因此,使用混合监督的训练,即同时使用少部分全监督标注数据和大量易于获得的弱监督标注数据,训练目标检测网络可以做到很好的在保证性能的同时降低训练成本。
3.本发明所公开的方法,首次提出轻量级混合监督训练的目标检测方法,在性能相当的基础上,大幅降低模型的训练标注成本。同时在相同标注成本下显著优于现有方法。


技术实现要素:

4.根据上述实际需求和关键问题,本发明的目的在于:提出基于混合监督训练的目标检测方法,在训练过程中分别使用少量的全监督标注数据训练模型的分类和回归头,以及数量较多的低成本的弱监督标注数据训练模型分类头。模型对弱标注数据训练分类头的分类分支,同时引入类别峰值激活响应机制,建模从分类信息到粗粒度位置信息的映射,在
测试阶段通过将提取到的粗粒度位置信息与原始位置信息特征图融合,来在抑制噪声的同时,增强物体所在位置的响应。
5.本发明包含如下3个步骤:
6.步骤s100,对于训练数据集的弱标注图像,使用网络损失函数,计算类别标签和模型分类预测的损失,使用梯度反向传播方法最小化损失函数训练模型的分类分支;
7.步骤s200,对于训练数据集的全标注图像,使用网络损失函数,分别计算类别标签与分类预测,和位置标签与定位预测的损失函数,使用梯度反向传播方法最小化损失函数,训练模型的分类和定位分支;
8.步骤s300,对于检测图像,使用通过上述方法训练好网络权重的卷积神经网络进行前向计算,并将其中峰值类别激活响应分支的结果经过偏移后融合到中心点检测分支中,并使用增强后的检测特征,对特征计算得到预测框。
附图说明
9.图1是本发明基于混合监督训练的目标检测方法的流程图;
10.图2是本发明基于混合监督训练的目标检测方法的框架图;
11.图3是本发明基于混合监督训练的目标检测方法的训练策略图;
12.图4是本发明基于混合监督训练的目标检测方法的融合检测图。
具体实施方式
13.下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
14.另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
15.需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
16.需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
17.本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。下面结合附图和具体实施方式对本发明的具体实施方式做进一步详细描述。以下实施例或者附图用于说明本发明,但不用来限制本发明的范围。
18.图1为本发明一种基于混合监督训练的目标检测方法流程图,包括以下步骤:
19.步骤s100,对于训练数据集的弱标注图像,使用网络损失函数,计算类别标签和模型分类预测的损失,使用梯度反向传播方法最小化损失函数训练模型的分类分支;
20.步骤s200,对于训练数据集的全标注图像,使用网络损失函数,计算类别标签与分类预测,计算位置标签与定位预测的损失函数,使用梯度反向传播方法最小化损失函数,训练模型的分类和定位分支;
21.步骤s300,对于检测图像,使用通过上述方法训练好网络权重的卷积神经网络进行前向计算,将峰值类别激活响应分支的结果经过偏移后融合到中心点检测分支中,使用增强后的检测热度图预测,与长宽预测,中心点偏移预测,构成最终的检测框。
22.参阅图2本发明基于混合监督训练的目标检测方法的框架图和图3本发明基于混合监督训练的目标检测方法的训练策略图,本发明提出的基于混合监督训练的目标检测方法在训练过程中包含如下步骤:
23.步骤s100,对于训练数据集的弱标注图像,使用网络损失函数,计算类别标签和模型分类预测的损失,使用梯度反向传播方法最小化损失函数训练模型的分类分支。
24.使用弱监督标注的训练图片和对应的类别标签训练峰值类别激活响应分支和中心点检测分支的中心热度图预测,以及中心点检测分支的中心热度图预测的分类能力,其中,弱标注图像为标注只有类别标签而没有包围框标签的图像。弱监督训练的分类损失函数为:
[0025][0026]
其中,s
aggr
为峰值聚合响应置信度,其中,表示峰值类别激活响应图峰值点的峰值点响应,(ik,jk)表示峰值类别激活响应图峰值点的峰值位置,nc表示峰值点的数量,label为数据集标注中的类别标签向量,bce为交叉熵损失函数。maxpool表示最大化池化操作,将n
×c×h×
w维度的预测向量池化为n
×
c的类别预测向量这里,峰值聚合响应置信度为峰值类别激活响应分支的预测通过聚合后得到的置信度。
[0027]
步骤s200,对于训练数据集的全标注图像,使用网络损失函数,分别计算类别标签与分类预测,和位置标签与定位预测的损失函数,使用梯度反向传播方法最小化损失函数,训练模型的分类和定位分支。
[0028]
根据步骤s100中训练好的模型,使用类别标注训练全标注图像的峰值类别激活响应分支和中心点检测分支的分类部分,使用全监督数据训练提出模型的中心点检测分支的预测头,这里,全标注图像表示标注有类别标签和包围框标签的图像,中心点检测分支的损失函数如下:
[0029][0030]
其中,表示中心点热度图预测,表示长宽尺度预测、表示中心点偏移预测,为向中心偏移量预测,y表示根据数据集标注通过centernet算法产生的热度图,(wi,hi)表示根据数据集标注通过centernet算法产生的长宽尺度,(δwi,δhi)表示根据数据集标注通过centernet算法产生的中心点偏移,(δpxi,δpyi)表示根据数据集标注通过centernet算法产生的中心偏移量的学习目标,上述预测头分别使用损失函数focalloss和l1距离损失训练。表示中心热度图预测的损失,表示向中心偏移量预测的损失,表示中心点偏移预
测的损失,gt labels表示数据集类别标注,表示峰值聚合响应置信度预测的损失,gt boxes表示数据集包围框标注,表示长宽尺度预测的损失。
[0031]
对于峰值激活响应分支使用全监督数据训练分类头,峰值类别激活响应分支在全监督训练时使用的峰值类别激活响应分支损失函数为:
[0032][0033]
其中,s
aggr
为峰值聚合响应置信度,label为数据集标注中的类别标签向量,bce为交叉熵损失函数。
[0034]
全监督训练的损失函数为:
[0035][0036]
如图4所示,参阅图4本发明基于混合监督训练的目标检测方法的融合检测图,本发明提出的基于混合监督训练的目标检测方法在测试推理检测过程中包含如下步骤:
[0037]
步骤s300,对于检测图像,使用通过步骤s100和s200方法训练好网络权重的卷积神经网络进行前向计算,将其中峰值类别激活响应分支的结果经过偏移后融合到中心点检测分支中,使用增强后的检测热度图预测,与长宽预测,中心点偏移预测,构成最终的检测框。
[0038]
在模型的检测过程中,使用通过上述步骤训练的混合监督训练模型,使用峰值类别激活响应分支获得分支响应,使用中心点检测分支获得热度图预测,长宽尺度预测,中心点偏移预测和中心偏移量预测,最后使用通过中心偏移量的偏移,使峰值点的位置相对靠近于中心点位置,并与中心热度图对应位置的响应进行融合,得到增强的中心点热度图。增强的中心点热度图预测与长宽预测,中心点偏移预测,一起构成最终的检测框。
[0039]
对于峰值类别激活响应分支,构造类别激活响应图,计算最后一层输出的类别概率yc对于当前层特征图所有像素a
i,j
的偏导数其中,yc为分类输出的概率向量,为特征图a的第k通道上第(i,j)位置的像素。对每个像素的偏导数在空间维度上取平均,得到此类别c对于每个通道上的权重系数:
[0040][0041]
得到通道k的特征对于分类c的贡献权重α,其中,z=i
×
j,z表示所有像素的数量。
[0042]
将权重与特征图进行加权求和与线性组合,经过激活函数relu处理得到类别激活响应图:
[0043][0044]
其中,为c类别的类别激活响应的热力图,ak表示对特征图a所有通道k进行操作。
[0045]
选择类别激活响应图上的峰值点作为峰值类别激活响应的输出,使用最大池化操作选择给定邻域窗口内的一系列局部最大值:
[0046][0047]
分别表示类别c的类别激活响应图的局部最大值的位置,可以使用最大池化滑窗计算获得。其中,nc表示c类别的局部最大值的数量。这里,最大池化滑窗可以是通过最大池化取邻域最大值的操作。领域窗口表示以当前像素为中心,上下左右一定范围k以内的一个正方形区域,通过采样函数得到领域窗口内的最大值。
[0048]
对于中心点检测分支,预测热度图长宽尺度中性点偏移向中心偏移量
[0049]
对于待检测图像,通过训练好网络权重的卷积神经网络进行前向计算,将峰值类别激活响应分支的结果经过偏移后融合至中心点检测分支:
[0050][0051]
其中,为融合增强的中心点热度图,表示输出的峰值点位置,表示峰值点对应位置的类别激活响应,表示每个点向中心点的偏移量,β为超参数控制峰值类别激活响应在整个融合过程中的占比。
[0052]
使最后选择融合增强的中心点热度预测图中高响应的点构成最终检测框:
[0053][0054]
这里,表示表示第i个位置为中心构成的预测包围框的宽度,表示表示第i个位置为中心构成的预测包围框的高度,表示表示第i个位置为中心构成的预测包围框的横坐标,表示表示第i个位置为中心构成的预测包围框的纵坐标,分别表示x和y坐标的偏移量。
[0055]
以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献