一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于三分图视觉Transformer语义信息解码器的抠图方法与装置

2022-12-13 22:38:28 来源:中国专利 TAG:

技术特征:
1.一种基于三分图视觉transformer语义信息解码器的抠图方法,其特征在于,包括如下步骤:(1)用连续的卷积层构建起一个轻量化的细节特征提取层,使用该特征提取层处理图片i,得到细节特征图组{d1,d2,d3,d4};(2)使用三分图视觉transformer语义信息解码器处理细节特征图d4和三分图trimap,得到语义特征图s4;(3)通过连续使用抠图解码器,处理上层语义特征图和对应细节特征图,得到融合语义特征图以及层级抠图输出;(4)在训练数据集上训练由步骤(1)-(3)构建的基于三分图视觉transformer解码器的抠图网络至收敛;(5)使用步骤(4)训练好的抠图网络处理待抠图图片,最后一层抠图解码器输出的层级抠图输出结果,即为最终的抠图结果。2.如权利要求1所述的基于三分图视觉transformer语义信息解码器的抠图方法,其特征在于,所述三分图视觉transformer语义信息解码器通过以下步骤实现:(2.1)记输入原始图片i的维度为(h,w,3),则输入的原始三分图trimap的维度为(h,w,1),细节特征图d4的维度为使用最近邻插值下采样trimap,并在在第三维度上升维至与细节特征图d4维度相同,得到triamp

,其维度为(2.2)将处理后的三分图triamp

与细节特征图d4相加,并通过一个线性层;将线性层的输出结果与细节特征图d4相加,构建基于三分图的残差结构,最终得到语义特征图s
tri
;(2.3)级联朴素视觉transformer层,构建朴素视觉transformer;(2.4)根据已有的掩码自编码器方法在图像分类数据集上预训练朴素视觉transformer,得到模型的预训练权重。3.如权利要求1或2所述的基于三分图视觉transformer语义信息解码器的抠图方法,其特征在于,所述抠图解码器通过以下步骤实现:(3.1)在抠图解码器md
i
中,先将来自于上层抠图解码器或三分图视觉transformer语义信息解码器的上层语义特征图s
i 1
进行双线性插值上采样,并通过卷积层,得到语义特征图s
i 1

;(3.2)将语义特征图s
i 1

和细节特征图d
i
拼接,得到中间特征图ms
i
,将ms
i
通过卷积层,生成新的融合语义特征图s
i
;并且将ms
i
进行反卷积,然后进行三个轻量化卷积同时使用归一化指数函数,得到层级抠图输出α
i
;(3.3)在训练时,使用损失函数对所有的层级抠图输出进行监督,对已经训练好的网络,使用最后一层抠图输出α1为最终抠图结果。4.如权利要求2所述的基于三分图视觉transformer语义信息解码器的抠图方法,其特征在于,所述步骤(2.2)的计算公式为s
tri
=d4 linear(d4 triamp

),其中linear表示线性层。5.如权利要求4所述的基于三分图视觉transformer语义信息解码器的抠图方法,其特征在于,所述线性层采用全零初始化。
6.如权利要求2所述的基于三分图视觉transformer语义信息解码器的抠图方法,其特征在于,在所述步骤(2.3)中,每层朴素视觉transformer层block_n,将中间语义特征图ms
n-1
映射为矩阵查询矩阵q
n
,键矩阵k
n
和值矩阵v
n
,通过自注意力机制和线性层,得到新的中间语义特征图ms
n
。7.如权利要求2所述的基于三分图视觉transformer语义信息解码器的抠图方法,其特征在于,在所述步骤(2.4)中进行训练时,使用mae预训练后的朴素视觉transformer权重对所述朴素视觉transformer模块进行初始化。8.如权利要求1或2所述的基于三分图视觉transformer语义信息解码器的抠图方法,其特征在于,所述步骤(3.2)的计算公式为:s
i
=conv(ms
i

i
=softmax(convs(transconv(ms
i
)))其中,upsample表示双线性插值上采样,表示拼接操作,transconv表示反卷积,conv表示卷积,convs表示连续卷积,softmax表示归一化指数函数。9.如权利要求3所述的基于三分图视觉transformer语义信息解码器的抠图方法,其特征在于,在所述步骤(3)中,对层级抠图输出采用深度监督的训练策略。10.一种基于三分图视觉transformer语义信息解码器的抠图装置,其特征在于:包括至少一个处理器和存储器,所述至少一个处理器和存储器之间通过数据总线连接,所述存储器存储能被所述至少一个处理器执行的指令,所述指令在被所述处理器执行后,用于完成权利要求1-9中任一项所述的基于三分图视觉transformer语义信息解码器的抠图方法。

技术总结
本发明公开了一种基于三分图视觉Transformer语义信息解码器的抠图方法:用连续的卷积层构建起一个轻量化的细节特征提取层,使用该特征提取层处理图片I,得到细节特征图组{D1,D2,D3,D4};使用三分图视觉Transformer语义信息解码器处理细节特征图D4和三分图Trimap,得到语义特征图S4;通过连续使用抠图解码器,处理上层语义特征图和对应细节特征图,得到融合语义特征图以及层级抠图输出;在训练数据集上训练构建的基于三分图视觉Transformer解码器的抠图网络至收敛;使用训练好的抠图网络处理待抠图图片,最后一层抠图解码器输出的层级抠图输出结果,即为最终的抠图结果。本发明还提供了相应的基于三分图视觉Transformer语义信息解码器的抠图装置。Transformer语义信息解码器的抠图装置。Transformer语义信息解码器的抠图装置。


技术研发人员:姚劲枫 王兴刚 刘文予
受保护的技术使用者:华中科技大学
技术研发日:2022.08.31
技术公布日:2022/12/12
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献