基于三分图视觉Transformer语义信息解码器的抠图方法与装置

2022-12-13 22:38:28 来源：中国专利 TAG：

技术特征：
1.一种基于三分图视觉transformer语义信息解码器的抠图方法，其特征在于，包括如下步骤：(1)用连续的卷积层构建起一个轻量化的细节特征提取层，使用该特征提取层处理图片i，得到细节特征图组{d1，d2，d3，d4}；(2)使用三分图视觉transformer语义信息解码器处理细节特征图d4和三分图trimap，得到语义特征图s4；(3)通过连续使用抠图解码器，处理上层语义特征图和对应细节特征图，得到融合语义特征图以及层级抠图输出；(4)在训练数据集上训练由步骤(1)-(3)构建的基于三分图视觉transformer解码器的抠图网络至收敛；(5)使用步骤(4)训练好的抠图网络处理待抠图图片，最后一层抠图解码器输出的层级抠图输出结果，即为最终的抠图结果。2.如权利要求1所述的基于三分图视觉transformer语义信息解码器的抠图方法，其特征在于，所述三分图视觉transformer语义信息解码器通过以下步骤实现：(2.1)记输入原始图片i的维度为(h，w，3)，则输入的原始三分图trimap的维度为(h，w，1)，细节特征图d4的维度为使用最近邻插值下采样trimap，并在在第三维度上升维至与细节特征图d4维度相同，得到triamp
′
，其维度为(2.2)将处理后的三分图triamp
′
与细节特征图d4相加，并通过一个线性层；将线性层的输出结果与细节特征图d4相加，构建基于三分图的残差结构，最终得到语义特征图s
tri
；(2.3)级联朴素视觉transformer层，构建朴素视觉transformer；(2.4)根据已有的掩码自编码器方法在图像分类数据集上预训练朴素视觉transformer，得到模型的预训练权重。3.如权利要求1或2所述的基于三分图视觉transformer语义信息解码器的抠图方法，其特征在于，所述抠图解码器通过以下步骤实现：(3.1)在抠图解码器md
i
中，先将来自于上层抠图解码器或三分图视觉transformer语义信息解码器的上层语义特征图s
i 1
进行双线性插值上采样，并通过卷积层，得到语义特征图s
i 1
′
；(3.2)将语义特征图s
i 1
′
和细节特征图d
i
拼接，得到中间特征图ms
i
，将ms
i
通过卷积层，生成新的融合语义特征图s
i
；并且将ms
i
进行反卷积，然后进行三个轻量化卷积同时使用归一化指数函数，得到层级抠图输出α
i
；(3.3)在训练时，使用损失函数对所有的层级抠图输出进行监督，对已经训练好的网络，使用最后一层抠图输出α1为最终抠图结果。4.如权利要求2所述的基于三分图视觉transformer语义信息解码器的抠图方法，其特征在于，所述步骤(2.2)的计算公式为s
tri
＝d4 linear(d4 triamp
′
)，其中linear表示线性层。5.如权利要求4所述的基于三分图视觉transformer语义信息解码器的抠图方法，其特征在于，所述线性层采用全零初始化。
6.如权利要求2所述的基于三分图视觉transformer语义信息解码器的抠图方法，其特征在于，在所述步骤(2.3)中，每层朴素视觉transformer层block_n，将中间语义特征图ms
n-1
映射为矩阵查询矩阵q
n
，键矩阵k
n
和值矩阵v
n
，通过自注意力机制和线性层，得到新的中间语义特征图ms
n
。7.如权利要求2所述的基于三分图视觉transformer语义信息解码器的抠图方法，其特征在于，在所述步骤(2.4)中进行训练时，使用mae预训练后的朴素视觉transformer权重对所述朴素视觉transformer模块进行初始化。8.如权利要求1或2所述的基于三分图视觉transformer语义信息解码器的抠图方法，其特征在于，所述步骤(3.2)的计算公式为：s
i
＝conv(ms
i
)α
i
＝softmax(convs(transconv(ms
i
)))其中，upsample表示双线性插值上采样，表示拼接操作，transconv表示反卷积，conv表示卷积，convs表示连续卷积，softmax表示归一化指数函数。9.如权利要求3所述的基于三分图视觉transformer语义信息解码器的抠图方法，其特征在于，在所述步骤(3)中，对层级抠图输出采用深度监督的训练策略。10.一种基于三分图视觉transformer语义信息解码器的抠图装置，其特征在于：包括至少一个处理器和存储器，所述至少一个处理器和存储器之间通过数据总线连接，所述存储器存储能被所述至少一个处理器执行的指令，所述指令在被所述处理器执行后，用于完成权利要求1-9中任一项所述的基于三分图视觉transformer语义信息解码器的抠图方法。

技术总结
本发明公开了一种基于三分图视觉Transformer语义信息解码器的抠图方法：用连续的卷积层构建起一个轻量化的细节特征提取层，使用该特征提取层处理图片I，得到细节特征图组{D1,D2,D3,D4}；使用三分图视觉Transformer语义信息解码器处理细节特征图D4和三分图Trimap，得到语义特征图S4；通过连续使用抠图解码器，处理上层语义特征图和对应细节特征图，得到融合语义特征图以及层级抠图输出；在训练数据集上训练构建的基于三分图视觉Transformer解码器的抠图网络至收敛；使用训练好的抠图网络处理待抠图图片，最后一层抠图解码器输出的层级抠图输出结果，即为最终的抠图结果。本发明还提供了相应的基于三分图视觉Transformer语义信息解码器的抠图装置。Transformer语义信息解码器的抠图装置。Transformer语义信息解码器的抠图装置。

技术研发人员：姚劲枫王兴刚刘文予
受保护的技术使用者：华中科技大学
技术研发日：2022.08.31
技术公布日：2022/12/12

再多了解一些

2/2 首页上一页 1 2

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：含光储的配电台区电动汽车调度方法、系统及存储介质

基于三分图视觉Transformer语义信息解码器的抠图方法与装置

相关文献

最热文献