一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于弱监督学习的域自适应实例分割方法及装置

2022-06-11 06:06:04 来源:中国专利 TAG:


1.本发明涉及实例分割技术领域,具体涉及一种基于弱监督学习的域自适应实例分割方法及装置。


背景技术:

2.在过去十年中,实例分割一直是研究和工程的活跃领域。它被用于多个信号处理领域,例如图像编辑、场景理解、自动驾驶和人机交互。随着深度卷积神经网络(deep convolutional neural network,dcnn)的快速发展,当前的实例分割方法获得了令人满意的效果和效率。然而,当涉及到域自适应,从源域学习的分割模型应用于目标域时,由于源域和目标域之间存在数据漂移(data drift),它们遇到了性能迅速下降的尴尬。目标域上大量图像像素级的标注需要极大的时间成本,而无监督方法最小化源域的任务特定损失和域对抗性损失,受到源域和目标域之间分布重叠的限制。另外一些方法采用自训练策略,通过使用目标特定的伪标签来微调分割模型,由于伪标签中的噪声或引入了强假设,只能获得有限的改进。


技术实现要素:

3.本发明的目的在于针对现有技术的不足,提供一种基于弱监督学习的域自适应实例分割方法及装置。
4.本发明的目的是通过以下技术方案来实现的:
5.根据本说明书的第一方面,提供一种基于弱监督学习的域自适应实例分割方法,该方法包括以下步骤:
6.(1)在源域上训练初始实例分割模型,输出骨干网络特征和语义分数张量,所述语义分数张量包括每个像素所属不同实例的概率;
7.(2)在目标域上利用源域训练得到的初始实例分割模型进行实例分割,输出每张图像对应的骨干网络特征和语义分数张量;
8.(3)在步骤(2)得到的语义分数张量的实例维度上取最大值,得到目标域每张图像的实例分割掩码;将目标域每张图像的实例分割掩码分别与目标域骨干网络特征、目标域语义分数张量相乘,得到目标域每个实例的掩码特征和掩码语义分数张量;
9.(4)将步骤(3)得到的实例t的掩码特征f
t
和掩码语义分数张量s
t
进行拼接,得到实例t的增强掩码特征f
t

10.(5)使用层次凝聚聚类(hierarchical agglomerative clustering,hac)构建每个类别对应的语义树,将属于该类别的每个实例的增强掩码特征视为一个叶节点,每次凝聚选择实例间增强掩码特征的欧式距离最小的两个子节点进行合并得到合并节点,子节点包括叶节点和中间节点,所述合并节点的增强掩码特征和掩码语义分数张量分别是子节点对应增强掩码特征和掩码语义分数张量的线性组合;
11.(6)对于每个语义树,基于设定的抽样率对语义树的叶节点进行抽样,快速判断实
例分割掩码是否准确,标注判断结果;
12.(7)将类别k对应的语义树上的所有抽样实例的标注结果的统计值例如均值与设定阈值比较:如果统计值大于阈值说明类别k的预测准确,不准确的抽样实例会利用准确的抽样实例进行掩码修正;如果统计值小于等于阈值说明类别k的预测不准确,将对应的语义树拆分为两个子树,每个子树重新抽样实例计算标注结果的统计值,再与设计阈值进行比较,重复拆分-比较过程直到子树不可拆分或子树不包含任何准确的抽样实例;
13.(8)根据目标域掩码修正结果微调初始实例分割模型,从而改善实例分割模型的有效性。
14.进一步地,步骤(5)具体为:
15.将实例t对应的子节点和实例o对应的子节点进行合并得到合并节点nj,合并节点nj的增强掩码特征f
j
和掩码语义分数张量sj是子节点对应增强掩码特征和掩码语义分数张量的线性组合:
[0016][0017]
sj=w
tst
woso[0018]
其中,权重w
t
和wo与子节点的大小相关:
[0019][0020]
其中,p
t
和po分别为相应子节点包含的实例个数;对于叶子节点,w
t
=w0=1/2;
[0021]
通过多次凝聚合并节点,最终构建成每个类别对应的语义树;语义树根节点表示为n0,其余中间节点表示为其中jk是类别k的中间节点数。
[0022]
进一步地,步骤(7)中,类别k对应的语义树上的所有抽样实例的标注结果的统计值qk的计算公式为:
[0023][0024]
其中,n是对于类别k的语义树进行抽样的实例个数,实例的编号为k1,

,kn,l
t
是步骤(6)中实例分割掩码的判断结果。
[0025]
进一步地,所述初始实例分割模型的骨干网络由swin transformer构成;在源域,训练数据集包括图像集{x
source
}和相应实例掩码图像集{y
source
};在目标域,测试数据集仅包括图像集{x
tatget
}。
[0026]
进一步地,所述初始实例分割模型在训练阶段进行数据增强,数据增强包括水平/垂直翻转、平移和尺度伸缩;初始实例分割模型使用adamw优化器进行训练,初始学习率为0.001,遵循多项式衰减策略,权重衰减为0.0001,实验中的批量大小为4。
[0027]
进一步地,步骤(3)中,目标域实例t的掩码特征f
t
和掩码语义分数张量s
t
的具体表现为:
[0028]
掩码特征f
t
为目标域骨干网络特征乘以目标域实例t的实例分割掩码,掩码语义分数张量s
t
为目标域语义分数张量乘以目标域实例t的实例分割掩码,s
t
∈rw×h×k,k是图像所包含的实例个数,w
×
h为图像尺寸。
[0029]
进一步地,步骤(6)中,对语义树的叶节点进行抽样,具体为:
[0030]
对于类别k构建的语义树tk,基于设定的抽样率r随机选择n个实例分割掩码标注者快速判断选择的实例分割掩码是否准确,如果预测的实例分割掩码m
t
准确则用1标注,不准确用0标注。
[0031]
进一步地,本发明在pascal voc 2012数据集和coco数据集上实施,pascal voc 2012数据集由1464张训练图像和1449张验证图像组成,并带有源分割结果,pascal voc 2012数据集中有20个类别,评估预测分割掩码质量的指标是平均交并比(mean intersection over union,miou);coco数据集中有80个类,评价标准是预测框平均精度ap
box
和掩码平均精度ap
mask

[0032]
根据本说明书的第二方面,提供一种基于弱监督学习的域自适应实例分割装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,用于实现如第一方面所述的基于弱监督学习的域自适应实例分割方法。
[0033]
根据本说明书的第三方面,提供一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时,实现如第一方面所述的基于弱监督学习的域自适应实例分割方法。
[0034]
相比于现有技术,本发明具有的有益效果为:
[0035]
1.在源域上训练初始实例分割模型,在目标域上利用源域训练得到的初始实例分割模型进行实例分割,输出目标域每个实例的掩码特征和掩码语义分数张量,利用层次凝聚聚类方法构建语义树,分层探索预测图像之间的外观和语义相似度。
[0036]
2.对语义树的叶节点进行抽样,快速判断实例分割掩码是否准确,利用准确样本对不准确样本进行掩码修正,根据掩码修正结果微调初始实例分割模型,解决了在域自适应方面,虽然可以通过引入来自目标域数据集的监督信号来改进分割模型,但人工标注繁琐耗时,并且自训练在伪标签中包含太多噪声的问题。
[0037]
3.在pascal voc 2012数据集和coco数据集的实验结果表明,与其他先进方法相比,本发明花费了有限的人力资源进行标签验证,并获得了接近监督学习方法的有效性,具有可观的竞争力。
附图说明
[0038]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0039]
图1是本发明实施例提供的域自适应问题的说明示意图;
[0040]
图2是本发明实施例提供的基于弱监督学习的域自适应实例分割的整体框架示意图;
[0041]
图3是本发明实施例提供的语义树构建示意图;
[0042]
图4是本发明实施例在pascal voc 2012数据集上的分段输出示意图;
[0043]
图5是本发明实施例在coco数据集上的分段输出示意图;
[0044]
图6是本发明实施例提供的基于弱监督学习的域自适应实例分割装置结构框图。
具体实施方式
[0045]
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
[0046]
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
[0047]
图1为域自适应问题示意,本发明提供一种基于弱监督学习的域自适应实例分割方法,解决了在域自适应方面,虽然可以通过引入来自目标域数据集的监督信号来改进分割模型,但人工标注繁琐耗时,并且自训练在伪标签中包含太多噪声的问题。
[0048]
本发明实施例提供的一种基于弱监督学习的域自适应实例分割方法,如图2所示,该方法包括以下步骤:
[0049]
1.源域训练初始分割模型
[0050]
在源域上训练初始实例分割模型,训练数据集包括图像集{x
source
}和相应实例掩码图像集{y
source
},输出骨干网络特征和语义分数张量,所述语义分数张量包括每个像素所属不同实例的概率。
[0051]
在训练阶段,数据增强包括水平/垂直翻转、平移和尺度方差。
[0052]
初始实例分割模型的骨干网络由swin transformer构成。初始实例分割模型使用adamw优化器进行训练,初始学习率为0.001,遵循多项式衰减策略,权重衰减为0.0001,实验中的批量大小为4。
[0053]
2.目标域应用初始分割模型
[0054]
在目标域上利用源域训练得到的初始实例分割模型进行实例分割,测试数据集仅包括图像集{x
tatget
},输出每张图像对应的骨干网络特征和语义分数张量。
[0055]
3.提取目标域特征
[0056]
在步骤2得到的语义分数张量的实例维度上取最大值,得到目标域每张图像的实例分割掩码;将目标域每张图像的实例分割掩码分别与目标域骨干网络特征、目标域语义分数张量相乘,得到目标域每个实例的掩码特征和掩码语义分数张量;
[0057]
目标域实例t的掩码特征f
t
和掩码语义分数张量s
t
具体为:掩码特征f
t
为目标域骨干网络特征乘以目标域实例t的实例分割掩码,掩码语义分数张量s
t
为目标域语义分数张量乘以目标域实例t的实例分割掩码,s
t
∈rw×h×k,k是图像所包含的实例个数,w
×
h为图像尺寸。
[0058]
4.拼接特征
[0059]
将步骤3得到的实例t的掩码特征f
t
和掩码语义分数张量s
t
进行拼接,得到实例t的增强掩码特征f
t

[0060]
5.构建语义树
[0061]
如图3所示,使用层次凝聚聚类构建每个类别对应的语义树,将属于该类别的每个实例的增强掩码特征视为一个叶节点,每次凝聚选择实例间增强掩码特征的欧式距离最小的两个子节点进行合并得到合并节点,所述合并节点的增强掩码特征和掩码语义分数张量分别是子节点对应增强掩码特征和掩码语义分数张量的线性组合;具体为:
[0062]
将实例t对应的子节点和实例o对应的子节点进行合并得到合并节点nj,合并节点
nj的增强掩码特征f
j
和掩码语义分数张量sj是子节点对应增强掩码特征和掩码语义分数张量的线性组合:
[0063][0064]
sj=w
tst
woso[0065]
其中,权重w
t
和wo与子节点的大小相关:
[0066][0067]
其中,p
t
和po分别为相应子节点包含的实例个数;对于叶子节点,w
t
=wo=1/2;
[0068]
通过多次凝聚合并节点,最终构建成每个类别对应的语义树;语义树根节点表示为n0,其余中间节点表示为其中jk是类别k的中间节点数。
[0069]
6.抽样快速判断掩码准确性
[0070]
对于类别k构建的语义树tk,基于设定的抽样率r随机选择n个实例分割掩码标注者快速判断选择的实例分割掩码是否准确,如果预测的实例分割掩码m
t
准确则用1标注,不准确用0标注。
[0071]
7.掩码修正
[0072]
将类别k对应的语义树上的所有抽样实例的标注结果的统计值与设定阈值比较:如果统计值大于阈值说明类别k的预测准确,不准确的抽样实例会利用准确的抽样实例进行掩码修正;如果统计值小于等于阈值说明类别k的预测不准确,将对应的语义树拆分为两个子树,每个子树重新抽样实例计算标注结果的统计值,再与设计阈值进行比较,重复拆分-比较过程直到子树不可拆分或子树不包含任何准确的抽样实例;
[0073]
类别k对应的语义树上的所有抽样实例的标注结果的统计值qk的计算公式为:
[0074][0075]
其中,n是对于类别k的语义树进行抽样的实例个数,实例的编号为k1,

,n,
t
是步骤6中实例分割掩码的判断结果。
[0076]
8.微调初始实例分割模型
[0077]
根据目标域掩码修正结果微调初始实例分割模型,从而改善实例分割模型的有效性。
[0078]
本发明在pascal voc 2012数据集和coco数据集上实施,pascal voc 2012数据集由1464张训练图像和1449张验证图像组成,并带有源分割结果,pascal voc 2012数据集中有20个类别,评估预测分割掩码质量的指标是平均交并比(mean intersection over union,miou);coco数据集中有80个类,评价标准是预测框平均精度ap
box
和掩码平均精度ap
mask

[0079]
申请人在pascal voc 2012数据集和coco数据集的实验结果如图4和图5所示,实验结果表明,与其他先进方法相比,本发明花费了有限的人力资源进行标签验证,并获得了接近监督学习方法的有效性,具有可观的竞争力。
[0080]
与前述基于弱监督学习的域自适应实例分割方法的实施例相对应,本发明还提供了基于弱监督学习的域自适应实例分割装置的实施例。
[0081]
参见图6,本发明实施例提供的一种基于弱监督学习的域自适应实例分割装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,用于实现上述实施例中的基于弱监督学习的域自适应实例分割方法。
[0082]
本发明基于弱监督学习的域自适应实例分割装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图6所示,为本发明基于弱监督学习的域自适应实例分割装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图6所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
[0083]
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
[0084]
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0085]
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于弱监督学习的域自适应实例分割方法。
[0086]
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(smart media card,smc)、sd卡、闪存卡(flash card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
[0087]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0088]
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺
序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0089]
在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0090]
应当理解,尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
[0091]
以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本说明书一个或多个实施例,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例保护的范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献