一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于金字塔渐进擦除学习的自步学习排序方法与流程

2021-11-06 00:41:00 来源:中国专利 TAG:


1.本发明涉及.计算机视觉技术领域,尤其是涉及一种基于金字塔渐进擦除学习的自步学习排序方法。


背景技术:

2.目标定位是计算机视觉领域一个重要的组成部分,它旨在识别场景中不同目标的位置。作为许多高级视觉任务的前提,目标定位可以应用于很多实际场景,例如视频智能监控,图像检索,机器人导航,无人机巡航,增强现实等。随着深度学习技术在计算机视觉领域的大规模应用,目标定位已经取得了巨大的突破,在识别准确度,定位准确度上已经可以应用于很多实际应用,随着大量研究人员的大投入研究,针对目标定位的研究成果层出不穷,是计算机视觉领域十分重要的研究课题。
3.然而,目前最先进的目标定位模型都需要大量人工标注的精细位置注释,这种位置注释需要大量人力物力来获取,意味着只有获取大量精细标注才有可能训练能够实际应用的模型。毫无疑问,这种完全监督的方式严重影响了目标定位算法的实际应用。因为在现实场景中,精细的位置注释往往难以获得,大部分获取的数据仅仅只有图像级标签,有些位置标签也存在缺失严重的情况,并且在人为的位置注释下也很容易引入人工误差影响实际模型训练。为了解决这个问题,仅仅利用图像级标签训练目标定位的弱监督算法开始成为很多研究者重点关注的热点,受到越来越多的关注。
4.目前,弱监督目标定位主流的方法是多实例学习(multiple instances learning,mil),这种方法通过将实例看做一个个实例,通过迭代的方式挑选置信度最高的实例。这种多实例学习方式容易引入噪声,在训练中容易陷入局部最小值。尽管已经有很多方法改进这些问题,现有的方法与全监督的方式仍然有较大差距。
5.类激活映射(classactivation mappings,cam)从一个新的角度提出了弱监督目标定位的新方法,直接利用了卷积网络分类器学习到的具有辨别力的特征进行目标定位。随后,在类激活映射的基础上,wei等人通过训练一个额外的分类网络实现了对抗擦除,通过将已经擦除部分辨别力特征的图片训练另一个分支网络,然后将多个分支的定位图融合从而定位完整的目标。然而这种方法必须花费更多的训练时间和计算资源来训练几个独立的网络以获得完整的目标区域。考虑到这些问题,zhang等人提出了一种新颖的对抗互补学习方法(adversarial complementary learning,acol)以端到端的弱监督训练了一个精确的目标定位网络用于发现完整的语义目标。然而,这种方法仍然需要训练额外的分类器。为了实现更有效的对抗擦除学习,choe等人又提出了adl(attention

based dropout layer)层,一种轻量级但功能强大的方法,该方法利用自我注意机制来擦除对象的最有区别的部分。本发明在上述基础上,充分考虑上述方法的优缺点,提出基于自步对抗学习的弱监督目标定位方法,可以实现效果良好的目标定位网络。


技术实现要素:

6.为解决上述问题,本发明提出了一种基于金字塔渐进擦除学习的自步学习排序方法,用于克服上述弱监督目标定位问题的多种或至少解决部分上述问题。
7.本发明所采用的技术方案是:一种基于金字塔渐进擦除学习的自步学习排序方法,包括一种基于金字塔渐进擦除学习的自步学习排序方法,其特征在于,所述自步学习排序方法包括如下步骤:
8.s1:提出定位网络,所述定位网络包括两个子网络,分别为粗金字塔网络和细金字塔网络;
9.s2:在s1中的所述粗金字塔网络中,提出金字塔对抗擦除机制,所述金字塔对抗擦除机制用于逐层擦除和融合不同尺度的目标,并鼓励所述粗金字塔网络发现完整的目标,以此在最后的定位图中分割出初始目标区域;
10.s3:对s2中的所述初始目标区域进行掩码操作,提出相关得分,用于对初始目标区域的伪标注标签;
11.s4:在s1中的所述细金字塔网络中,将s3中的所述初始目标区域及其伪标注标签用于训练,并提出掩码兴趣区域网络层,所述掩码兴趣区域网络层可以在保留输入大小的同时仅仅保留兴趣区域;
12.s5:使用金字塔对抗机制以细化更准确的目标边界,结束。
13.优选的,所述s2中的金字塔对抗擦除机制定义为:在以resnet50为基本架构的网络中,逐步擦除四种尺寸的特征图,所述特征图的尺寸包括{56
×
56,28
×
28,14
×
14,7
×
7},进而将所述金字塔对抗擦除机制重新定义为ae step{1,2,3,4},在每一个ae step中,包括如下步骤:
14.步骤一:定义每个ae step i开始的第一层为最后一层为
15.步骤二:将和归一化到[0,1],其输出定义为和
[0016]
步骤三:在中,将最具辨别力的部分定义为特征图一系列像素点的值大于给定阈值δ的部分,通过将其像素值置为0,从而擦除中最具辨别力的部分;
[0017]
步骤四:单纯地擦除无法鼓励网络发现目标的不同部分,因此,使用跳远连接(skip connection)对擦除前和擦除后的相同大小的层进行特征融合,
[0018]
步骤五:令表示融合过的层,其计算方式为对和逐元素求最大值,如下式所示:
[0019]
优选的,所述s2中,在最后的定位图中分割出初始目标区域的操作步骤如下:
[0020]
步骤一:获取最后一层的融合定位图;
[0021]
步骤二:调整定位图与原始图片一样的大小;
[0022]
步骤三:使用固定的阈值分割前景和背景,用于产生相应的预测回归框用于定位;
[0023]
步骤四:寻找覆盖前景像素中最大连接区域的边界框;
[0024]
步骤五:生成对应的回归框。
[0025]
优选的,所述s4中,使用对抗多标签损失函数对初始目标区域及其伪标注标签进行训练,所述对抗多标签损失函数定义如下:
[0026]
假设训练集包含n张图片,需要识别的目标有k类,将训练集表述为其中i表示表示相应图片,l表示相应图片的标签,其可以形式化为为k维向量l=[l1,l2,...,l
k
]
t
,这里每个l用1或者0表示是否相应的目标是否在图片中出现,网络的最后输出添加了一个对抗分支,对应添加了一个对抗标签如下述公式:
[0027][0028]
这里每个l显示是否图片包括相应的目标,同样的是,每个l
a
表示是否图片不包含相应的目标。为了计算最后的损失,对于输入的图片i,前向计算获取最后的两个k维向量输出p(i)以及p
a
(i),两个输出均通过sigmoid函数实现了概率化处理,p(i)和p
a
(i)分别表示每个目标出现的概率和每个目标不会出现的概率,对于某一张输入图片,对于第i类的损失可以定义为下式:
[0029][0030]
总损失通过对所有训练样例以及所有类别进行求和和平均得到,如下式所示:
[0031][0032]
优选的,所述s3中的提出相关得分的过程包绕如下步骤:
[0033]
步骤一:将掩码后的初始目标区域作为输入;
[0034]
步骤二:将输出后分类得分下降的程度作为相关得分的指标,即将相关得分形式化为k维向量s={s1,s2,...,s
k
},
[0035]
步骤三:将一系列初始目标区域表示为p,输入的图片定义为i,以p中某个目标提案为例,表示对进行掩码操作的图像,进而可用表示网络输入原始图像后的输出,即包含每个目标的概率,表示网络输入掩码图像后的输出;
[0036]
步骤四:相关得分的计算方式如下式所示:
[0037][0038]
其中softmax保证了初始目标区域所有目标的相关得分s1 s2

s
k
=1,所有的操作都是逐元素进行的。
[0039]
优选的,引入自步学习协议对原始数据集从易到难进行排序,以降低数据集噪声的影响,其具体协议包括:
[0040]
定义各种指标衡量图片的难度,包括注释目标的数量,不同目标的数量,目标占整张图片的比例,是否被遮挡及被遮挡的程度,已经被认为识别困难的目标数量,对每一指标指定相应的得分,最后使用kendall'τ排序系数综合判定图片难度,对相应训练数据集进行
排序。
[0041]
更优选的,本发明提供的方法中具体包括训练和测试两个部分,具体表现为:利用已经排序完成的数据集对所述粗金字塔网络和所述细金字塔网络进行训练,训练完成后,输入测试图片,可以得到相应的定位图中使用阈值分割出的相应目标区域,并得到最后的定位结果。
[0042]
本发明的技术原理:在模型训练前,首先使用自步学习协议对训练集进行排序操作,用于降低大规模数据集所存在的噪声影响。定位网络包括两个子网络:粗金字塔网络和细金字塔网络。在粗金字塔网络中,提出金字塔对抗擦除机制,该机制逐层擦除和融合不同尺度的目标,鼓励网络发现完整的目标,以此在最后的定位图中分割出初始的目标区域;对初始目标区域进行掩码操作,提出相关得分,用于目标区域的伪标注标签。在细金字塔网络中,将初始目标区域及其伪标签用于训练,提出掩码兴趣区域网络层,该网络层可以保留输入大小而仅仅保留兴趣区域,最后使用金字塔对抗机制以细化更准确的目标边界。
[0043]
本发明提出的基于自步对抗学习的弱监督目标定位方法是一种新颖,简洁,耗费资源少的弱监督目标定位方法,通过深度学习技术,对大量数据进行弱监督学习,在仅有图像级标签的情况下可以训练相对准确的目标定位网络,避免了人工位置注释的成本和风险。弱监督学习可以显著解决现实应用对于精细位置注释的需求。
[0044]
本发明与现有技术相比较,其具有以下有益效果:
[0045]
(1)有效减少了对于大量精细位置注释的依赖,只需要采用可以简单获取的得到的图像级标签就可以训练定位比较准确的网络,避免了人工的风险和依赖。
[0046]
(2)消耗资源较少,相较于目前存在的弱监督目标定位方法,本发明提供的定位网络相对较少,而且可拓展,适用于多目标定位任务。
[0047]
(3)网络训练更稳定,引入自步学习可以有效解决大规模数据中的噪声影响,保证网络训练的稳定性。
[0048]
(4)应用广泛,由于不需要对于数据进行人工位置注释,本方法可以很容易迁移到其它视觉任务。
附图说明
[0049]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
[0050]
图1为本发明具体网络结构图;
[0051]
图2为本发明中粗金字塔网络结构示意图;
[0052]
图3为本发明中金字塔擦除机制示意图;
[0053]
图4为本发明中细金字塔网络结构示意图;
[0054]
图5为本发明部分测试结果示意图;
[0055]
图6为本发明与其它方法的对比示意图。
[0056]
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0057]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0058]
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后
……
)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
[0059]
另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
[0060]
具体实施方案:本发明提出一种基于金字塔渐进擦除学习的自步学习排序方法,其包括如下步骤:
[0061]
s1:提出定位网络,定位网络包括两个子网络,分别为粗金字塔网络和细金字塔网络;
[0062]
s2:在s1中的粗金字塔网络中,提出金字塔对抗擦除机制,金字塔对抗擦除机制用于逐层擦除和融合不同尺度的目标,并鼓励粗金字塔网络发现完整的目标,以此在最后的定位图中分割出初始目标区域;
[0063]
s3:对s2中的初始目标区域进行掩码操作,提出相关得分,用于对初始目标区域的伪标注标签;
[0064]
s4:在s1中的细金字塔网络中,将s3中的初始目标区域及其伪标注标签用于训练,并提出掩码兴趣区域网络层,掩码兴趣区域网络层可以在保留输入大小的同时仅仅保留兴趣区域;
[0065]
s5:使用金字塔对抗机制以细化更准确的目标边界,结束。
[0066]
参阅图1可知,本发明中网络结构包括粗金字塔网络和细金字塔网络两个子网络。
[0067]
参阅图2可知,在本实施例中,在粗金字塔网络中,提出金字塔对抗擦除机制,该机制逐层擦除和融合不同尺度的目标,鼓励粗金字塔网络发现完整的目标,以此在最后的定位图中分割出初始的目标区域;对初始目标区域进行掩码操作,提出相关得分,用于目标区域的伪标注标签。
[0068]
参阅图3可知,在本实施例中,金字塔对抗擦除机制定义为:在以resnet50为基本架构的网络中,逐步擦除四种尺寸的特征图,特征图的尺寸包括{56
×
56,28
×
28,14
×
14,7
×
7},进而将金字塔对抗擦除机制重新定义为ae step{1,2,3,4},在每一个ae step中,包括如下步骤:
[0069]
步骤一:定义每个ae step i开始的第一层为最后一层为
[0070]
步骤二:将和归一化到[0,1],其输出定义为和
[0071]
步骤三:在中,将最具辨别力的部分定义为特征图一系列像素点的值大于给定阈值δ的部分,通过将其像素值置为0,从而擦除中最具辨别力的部分;
[0072]
步骤四:单纯地擦除无法鼓励网络发现目标的不同部分,因此,使用跳远连接
(skip connection)对擦除前和擦除后的相同大小的层进行特征融合,
[0073]
步骤五:令表示融合过的层,其计算方式为对和逐元素求最大值,如下式所示:
[0074]
作为本发明的一种优选实施方式,在最后的定位图中分割出初始目标区域的操作步骤如下:
[0075]
步骤一:获取最后一层的融合定位图;
[0076]
步骤二:调整定位图与原始图片一样的大小;
[0077]
步骤三:使用固定的阈值分割前景和背景,用于产生相应的预测回归框用于定位;
[0078]
步骤四:寻找覆盖前景像素中最大连接区域的边界框;
[0079]
步骤五:生成对应的回归框。
[0080]
作为本发明的另一种优选实施方式,s3中的提出相关得分的过程包绕如下步骤:
[0081]
步骤一:将掩码后的初始目标区域作为输入;
[0082]
步骤二:将输出后分类得分下降的程度作为相关得分的指标,即将相关得分形式化为k维向量s={s1,s2,...,s
k
},
[0083]
步骤三:将一系列初始目标区域表示为p,输入的图片定义为i,以p中某个目标提案为例,表示对进行掩码操作的图像,进而可用表示网络输入原始图像后的输出,即包含每个目标的概率,表示网络输入掩码图像后的输出;
[0084]
步骤四:相关得分的计算方式如下式所示:
[0085][0086]
其中softmax保证了初始目标区域所有目标的相关得分s1 s2

s
k
=1,所有的操作都是逐元素进行的。
[0087]
参阅图4的细金字塔网络结构可知,将s3中的初始目标区域及其伪标注标签用于训练,并提出掩码兴趣区域网络层,利用掩码兴趣区域网络层(mroi,mask region ofinterest)可以在保留输入大小的同时仅仅保留兴趣区域,最后使用金字塔对抗机制以细化更准确的目标边界。
[0088]
在本实施例中,使用对抗多标签损失函数对初始目标区域及其伪标注标签进行训练,对抗多标签损失函数定义如下:
[0089]
假设训练集包含n张图片,需要识别的目标有k类,将训练集表述为其中i表示表示相应图片,l表示相应图片的标签,其可以形式化为为k维向量l=[l1,l2,...,l
k
]
t
,这里每个l用1或者0表示是否相应的目标是否在图片中出现,网络的最后输出添加了一个对抗分支,对应添加了一个对抗标签如下述公式:
[0090][0091]
这里每个l显示是否图片包括相应的目标,同样的是,每个l
a
表示是否图片不包含相应的目标。为了计算最后的损失,对于输入的图片i,前向计算获取最后的两个k维向量输出p(i)以及p
a
(i),两个输出均通过sigmoid函数实现了概率化处理,p(i)和p
a
(i)分别表示每个目标出现的概率和每个目标不会出现的概率,对于某一张输入图片,对于第i类的损失可以定义为下式:
[0092][0093]
总损失通过对所有训练样例以及所有类别进行求和和平均得到,如下式所示:
[0094][0095]
此外,在本实施例中,引入自步学习协议对原始数据集从易到难进行排序,以降低数据集噪声的影响,其具体协议包括:
[0096]
定义各种指标衡量图片的难度,包括注释目标的数量,不同目标的数量,目标占整张图片的比例,是否被遮挡及被遮挡的程度,已经被认为识别困难的目标数量,对每一指标指定相应的得分,最后使用kendall'τ排序系数综合判定图片难度,对相应训练数据集进行排序。
[0097]
在本实施例中,为了验证本发明的弱监督目标定位效果,在通用目标检测数据集pascal voc 2007上进行了测试,该数据集包括20种通用目标,包括aero,bike,bird,boat等,具体可参见表1测试结果。测试指标为corloc,其中corloc表示测试图片中预测回归框不真实值大于等于0.5iou(intersection overunion,交并比)的比例。
[0098]
表1显示了pascal voc 2007上,本发明与多个先进弱监督目标定位算法的在corloc上的比较(单位%)。
[0099]
[0100][0101]
其中lcl(chong wang,weiqiang ren,kaiqi huang,and tieniu tan,'weakly su

pervised object localization with latent category learning',in european conference on computer vision),wsddn(chong wang,weiqiang ren,kaiqi huang,and tieniu tan,'weakly supervised object localization with latent category learning',in european conference on computer vision),ts2c(wei y,shen z,cheng b,et al.ts2c:tight box mining with surrounding segmentation context for weakly supervised object detection[c]//proceedings of the european conference on computervision)
[0102]
如表1所示,本发明相较于其他弱监督目标定位算法在各种目标上的定位均有一定提升,表现出优异的定位性能。在实际可视化定位框中,配合参见图5,预测定位框(绿色)与真实定位框(红色)差距很小,可以定位十分准确的目标,当然本发明在密集目标的定位上也存在一些误判,还需要进一步的提升。
[0103]
参阅图6可知,本发明也与类激活映射(cam)方法在五种类型定位错误上进行了详细对比,具体包括:
[0104]
(1)corloc;(2)gt in hypo(预测框包含真实框);(3)hypo in gt(真实框包含预测框);(4)low overlap(有小的重叠);(5)no overlap(无重叠)。
[0105]
由图6分析可知,本发明可以更好地捕捉完整的目标,定位更加准确。
[0106]
本发明的一种基于金字塔渐进擦除学习的自步学习排序方法以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献