一种基于密集语义对比的自监督视觉模型预训练方法与流程

2022-02-22 02:34:08 来源：中国专利 TAG：

1.本发明涉及计算机软件技术领域，具体涉及一种基于密集语义对比的自监督视觉模型预训练方法。

背景技术：

2.随着大规模有标注数据集的使用，有监督学习的计算机视觉任务取得很高的性能，但是有标注的数据集需要大量的人工标注成本，而且经过有标注数据预训练得到的模型不够通用，再加上现实中我们面临的更多的是无标注数据，因此各种无监督方法应运而生。而自监督学习实际上是无监督学习的一个变种，是数据能够提供监督信息的一种无监督学习方式。自监督学习通过解决自定义的代理任务，进行模型的预训练，将训练好的模型进行迁移或是微调以解决特定的下游任务，如分类、检测和分割等。
3.从粒度上来说，目前已有的自监督学习方法可分为两个大类，一个是实例级别的学习方法，另一个是像素级别的学习方法。基于实例级别的学习方法，根据实现的方式，又可以大致分为实例判别和实例级别的语义挖掘。
4.实例判别的方法将每一个样本都当作单独的一类，通过对比学习，将正样本拉近(或同时将负样本推远)，从而学习特定于实例的判别性表示。着眼于实例级别的语义关系，现有的语义挖掘方法按照实现方式又可以分为两类：一类是查询邻居，另一类是深度聚类。查询邻居的方法通过发现样本锚定的邻居，以此来推理潜在的类别决策边界。深度聚类方法又可分为交替迭代和代理任务。交替迭代的方法是指对特征进行迭代聚类，并使用后续的聚类分配结果来更新深度网络；代理任务是指使用代理任务作为监督信号，同时学习标签分配和特征更新。
5.为了探索更适合于下游密集预测任务的复杂多前景图像预训练方法，像素级别的自监督学习从更密集的角度出发，实现像素判别。这类方法将每个像素都当作一个单独的类别，并学习像素的判别表示，显著缩小了预训练的模型和下游密集预测任务之间的差距。
6.1,实例判别：
7.实例判别的方法，把所有的样本都当作单独的一类，忽略了样本之间潜在的语义关系。换言之，这类方法将每个图像视为单独的一个类别，忽略了两个图像包含相同语义类别的前景目标的信息。
8.2,基于实例的语义挖掘：
9.目前已有的语义挖掘方法都是基于实例级别的，所以当两个图像里分别有两个不同的目标时，这类方法会简单地因为二者的整体相似度不高，而把这两个图像聚为两类，忽略了图像中不同前景目标之间的语义关系。
10.3,像素判别：
11.基于像素判别的方法，把每一个像素都当作单独的一类，彼此推远。由于每个像素的任何非线性类内变化都没有被建模，所以这类方法缺乏像素级别的语义类别判别能力。
因此，这类方法仅限于单个像素水平上的中、低级别的视觉理解，在缩小预训练模型与下游密集预测任务的差距时遇到了瓶颈。

技术实现要素：

12.针对现有技术中存在的技术问题，本发明的目的在于提供一种基于密集语义对比的自监督视觉模型预训练方法。本发明提出密集语义的概念，用于在像素级显示地建模语义类别决策边界，在语义上建立了实例到实例和像素到像素的连接。同时构建一个用于多粒度表示学习的密集跨图像语义对比学习框架，弥补以往自监督学习预训练方法中语义的缺陷。
13.本发明提出一个多任务多结构的融合框架，以整合不同的标记结构，使它们为子类分类器提供多方面的先验知识和相似性约束。首次提出像素判别任务缺乏语义类别决策边界推理的能力。这种能力的不足导致迁移的模型不能准确地为一个目标的像素分配相同的类别标签，导致预先训练的模型与下游密集预测任务之间存在差距。因此，本发明显示地建模语义决策边界来缩小这一差距。
14.本发明提出一个用于多粒度表示学习的密集跨图像语义对比学习框架。与之前的自监督学习预训练方法不同，该框架同时考虑了图像内和图像间像素的语义关系。本发明同时学习实例、像素和语义粒度中的判别信息，以确保像素级别类内特征的多样性和类间特征的判别性。
15.本发明的技术方案为：
16.一种基于密集语义对比的自监督视觉模型预训练方法，其步骤包括：
17.1)对于样本图像xi，利用数据增强方法a对样本图像xi增强后输入第一编码器网络分支得到基础特征然后将基础特征输入全局映射模块得到实例级特征将基础特征输入密集映射模块得到实例样本xi的每一个像素点的特征，比如像素pi的像素级特征表示为利用数据增强方法b对样本图像xi增强后输入第二编码器网络分支得到基础特征然后将基础特征输入全局映射模块得到实例级特征将基础特征输入密集映射模块得到实例样本xi的每一个像素点的特征，比如像素 pi的像素级特征表示为
18.2)基于和进行对比学习，得到实例判别损失l
ins
；基于和进行对比学习，得到像素判别损失l
pix
；
19.3)对于样本图像xi中的任意一像素点pi，根据该像素点pi对应的正样本集计算邻居判别损失l
nei
；其中，ni是像素点pi的邻居数量；
20.4)对数据增强方法a增强后的样本图像对应的像素级特征va(包含样本图像中各像素点的特征)执行聚类操作，获得k个聚类集群；对数据增强方法b增强后的样本图像对应的的像素级特征vb(包含样本图像中各个像素点的特征)执行聚类，获得k 个聚类集群；然后对每个集群进行对比学习，计算聚类对比损失l
km
；
21.5)将损失函数l＝l
ins
l
pix
l
sem
作为自监督视觉模型预训练的最终损失函数，对自监督视觉模型进行端到端的训练；其中l
sem
为l
nei
、l
km
或l
pm
，l
pm
表示对一个像素进行原型映射的损失。
22.进一步的，其中，τ
ins
代表实例级别的温度系数；s(,)是相似度函数，z_为除xi自身之外的其他所有样本构成负样本集。
23.进一步的，其中，τ
pix
代表像素级别的温度系数，s(,)是相似度函数，v-为来自于除xi之外的其他图像的像素点构成负样本集。
24.进一步的，a、b的相似度
25.进一步的，，
26.进一步的，其中ec为第c个集群的质心特征，为对像素级特征va进行聚类操作得到的第c个集群的质心特征，为对像素级特征vb进行聚类操作得到的第c个集群的质心特征，τ
km
为温度系数，e-表示对像素级特征 va进行聚类所得k个集群中除第c个集群之外的其他所有k-1个集群的质心。
27.进一步的，
28.本发明具有如下有益效果：
29.本发明首先探索了一种邻居发现方法来增强图像内部像素的相关性，它从多个视图中挖掘邻居。此外，还采用某些聚类方法，设计了一个用于跨图像语义关系建模的密集语义模块。对于其他粒度，分别进行实例和像素判别，执行标准的对比学习。本发明在imagenet和mscoco上预训练的模型迁移到丰富的下游密集预测任务中。实验结果表明，本发明比以往的工作具有更好的性能。
附图说明
30.图1为本发明方法流程图。
31.图2为不同视图下的邻居挖掘示意图。
32.图3为不同视图下的聚类对齐图。
33.图4为不同k在pascal voc数据集目标检测的性能和效率对比图。
具体实施方式
34.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例
中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
35.本发明提出了密集语义对比的概念，用于在像素级显示地建模语义类别决策边界，并设计了多粒度表示学习的密集跨图像语义对比学习框架(dsc)。dsc包含三个不同的粒度：实例、像素和语义级别。在实例和像素级别分别进行实例判别和像素判别，执行标准的对比学习操作。如图1所示，给定输入样本xi，经过两种数据增强方法a和b可以得到两种不同的视图，这两种视图分别送到两个编码器网络分支得到基础特征和再分别经过全局映射模块得到和两个全局特征(实例级特征)；经过密集映射模块得到和两个密集特征(像素级特征)，然后分别按照公式(1)和(2)进行对比学习操作。本发明中的数据增强方法a和b分别是一组集成的操作，参照已有的方法，包含随机裁剪，并重新调整大小为 224*224；水平翻转；随机灰度；同时，随机选择使用颜色抖动和高斯滤波。编码器网络分支，都使用卷积神经网络resnet50；全局映射模块使用标准的多层感知机mlp；密集映射模块也使用多层感知机mlp，唯一的一点区别在于把mlp的最后一个线性层替换为1*1的卷积层，以此可以得到样本中每一个像素点的特征，也即“密集特征”。
36.其中s(a,b)是用余弦距离表示的相似度(公式(3))，超参τ
ins
和τ
pix
分别代表实例和像素级别的温度系数，z-和v-分别代表实例和像素级别的负样本集。对于实例级别，除xi自身之外的其他所有样本构成负样本集z-；对于像素级别，来自于除xi之外的其他图像的像素点构成负样本集v-。注，实例判别损失l
ins
表示对每一个实例进行对比学习的损失；而像素判别损失l
pix
表示对每一个实例内的像素进行对比学习的损失。
[0037][0038][0039][0040]
在语义级别，从图像内和图像间两个角度补充不同目标之间的语义信息。对于图像内，从多个视图中搜索邻居，如图2所示，邻居不仅来源于不同的视图，还可以来源于相同的视图。理论上，所有这些样本都应该属于同一个语义范畴。这些邻居在理论上都属于同一个语义类别，所以应该构成正样本集ni是相同视图下像素点pi的邻居数量。关于邻居的确定，本发明计算一张图像的相同视图下的所有像素点(pi除外)与像素点pi的相似度，然后选取相似度最大的ni个像素点，作为像素点pi的邻居，其中相似度使用公式(3) 计算。加入邻居约束的对比学习可以定义为邻居判别损失l
nei
，可以用公式(4)表示。
进方法可比的性能，有的甚至高出了现有方法。此外，还采用在ms coco上预训练的模型，在pascal voc的目标检测和语义分割任务进行消融实验。
[0050]
表1展示了在pascal voc数据集上目标检测的性能。实验结果显示，对于在ms coco 和imagenet上预训练的模型，dsc-km和dsc-pm都可以达到比前两种方法更好的性能。特别是在ms coco预训练模型上，dsc-pm比moco-v2高出5.1％ap性能，比mscoco 模型的baseline densecl高出0.8％ap；在imagenet预训练模型上，dsc-km比moco-v2 高出1.6％ap，比densecl高出0.3％ap。实验结果表明，通过推理语义类别决策边界，预训练模型与下游密集预测任务之间的差距将大大缩小。
[0051]
表2分别展示了在ms coco和imagenet上预先训练的pascal voc和cityscapes数据集上语义分割的性能。对于pascal voc数据集的语义分割任务，dsc-km和dsc-pm都显著提高了性能。特别是，在ms coco预训练时，dsc-pm比moco-v2高出9.3％miou，比densecl高出1.2％miou；在imagenet预训练时，dsc-pm比moco-v2高出3.3％miou，比densecl高出0.7％miou，这再次验证了语义类别决策边界建模的有效性。对于cityscapes 数据集的语义分割任务，当在ms coco上预训练时，dsc-km比moco-v2高出3.3％miou，比densecl高0.4％miou。当在imagenet上预训练时，dsc-km比moco-v2高3.4％miou，比densecl高0.5％miou。语义分割任务的显著性能改进表明，本发明方法中的语义类别标签分配比任何其他子监督学习的预训练方法都更准确。
[0052]
表3展示了在ms coco数据集上目标检测和实例分割的性能。通过ms coco预训练， dsc-km比moco-v2高2.2％apb，2.0％apm，比densecl高0.4％apb，0.4％apm。对于 imagenet，dsc-pm比moco-v2高0.5％apb，0.5％apm，比densecl高0.2％apb，0.2％apm。该任务在ms coco和imagenet预训练模型中都受到限制，因为ms coco包含了许多真实的场景图像，这对自监督学习的预训练仍然是一个挑战。
[0053]
表4展示了不同语义策略在pascal voc数据集上目标检测和语义分割的性能。实验结果表明，所有的策略都在一定程度上提高了下游密集预测任务的性能，表明像素语义的补充有助于在数据集中获得更好的语义结构。此外，可以看到“ce”、“pm”和“km”的性能优于
ꢀ“
neighbor”和“triplet”，这证明了探索跨图像像素之间的全局关系比挖掘单个图像中像素的局部关系更有效。
[0054]
在dsc-km中，随着k的增加，下游任务的性能变得更好，这表明适度的过聚类对语义表示学习更有益。而随着k的增长，耗时的情况也变得很严重。为了平衡性能改进和时间成本，本发明在dsc-km中选择k＝100，dsc-pm选择k＝150。
[0055]
表5展示了不同粒度在pascal voc数据集上目标检测和语义分割的影响。随着粒度的增加，下游密集预测任务的性能显示了一种渐进的上升趋势。通过联合学习多个粒度中的特征表示，dsc模型不仅在实例或像素级别上获得了中、低级的视觉理解，而且在语义类别级别上获得了高水平的视觉理解。这种多粒度的考虑有利于在执行下游密集预测任务时进行准确的类别分配。
[0056]
表1在pascal voc数据集上目标检测的性能。
[0057]
预训练方法apap
50
ap
75
moco-v2 cc*52.179.056.7densecl cc*56.481.862.7
dsc-km57.082.163.0dsc-pm57.282.363.4simclr in51.579.455.6byol in51.981.056.5moco in55.981.562.6moco-v2 in*57.182.063.9densecl in*58.482.765.7dsc-km58.782.765.6dsc-pm58.682.865.6
[0058]
其中，cc和in分别指在ms coco和imagenet数据集上进行预训练。*代表我们的重新实现。
[0059]
表2在pascal voc和cityscapes数据集上语义分割的性能。
[0060][0061][0062]
其中，cc和in分别指在ms coco和imagenet数据集上进行预训练。*代表我们的重新实现。
[0063]
表3在ms coco数据集上目标检测和实例分割的性能。
[0064]
预训练方法apbap
b50
ap
b75
apmap
m50
ap
m75
moco-v2 cc*37.055.940.233.553.135.9densecl cc*38.858.442.635.155.437.7dsc-km39.258.842.835.555.938.0dsc-pm39.058.642.535.155.537.7moco-v2 in*38.958.542.535.255.637.8densecl in*39.258.742.935.556.037.7dsc-km39.458.843.035.656.138.1dsc-pm39.458.943.235.756.138.3
[0065]
其中，cc和in分别指在ms coco和imagenet数据集上进行预训练。*代表我们的重新实现。
[0066]
表4不同语义策略在pascal voc数据集上目标检测和语义分割的性能。
[0067]
语义策略apap
50
ap
75
miou-56.481.862.756.7
neighbor56.681.663.057.5triplet55.580.961.453.5ce56.881.963.058.1km56.881.962.857.7pm57.182.263.357.9
[0068]
其中，neighbor、triplet、ce、km和pm分别代表以下语义策略：邻居挖潜、三元组损失、交叉熵损失、k-means和原型映射。
[0069]
表5不同粒度在pascal voc数据集上目标检测和语义分割的影响
[0070]
实例像素语义apap
50
ap
75
miou√
ꢀꢀ
54.781.060.648.6√√ 56.481.862.756.7√√√57.182.263.357.9
[0071]
尽管为说明目的公开了本发明的具体实施例，其目的在于帮助理解本发明的内容并据以实施，本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换、变化和修改都是可能的。因此，本发明不应局限于最佳实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：数据信息推荐方法、装置、终端设备和存储介质与流程

一种基于密集语义对比的自监督视觉模型预训练方法与流程

相关文献

最热文献