一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于形状与语义增强的多模态图像语义分割方法

2023-02-01 22:25:23 来源:中国专利 TAG:


1.本发明属于图像处理技术领域,具体涉及一种基于形状与语义增强的多模态图像语义分割方法。


背景技术:

2.语义分割是对图像中的每个像素打上类别标签,属于密集预测。其在很多实际应用中起到重要的作用,如自动驾驶、医学影像分析、地理信息分析等,并随着自动驾驶以及人工辅助驾驶的普及,城市道路场景的语义分割得到了更多人的关注。近年来,随着深度学习技术的长足发展,使用卷积神经网络(cnn)的语义分割在大量任务上的性能已经超过了传统的语义分割算法。但当前主流的语义分割多使用的是常规摄像头捕获的rgb图像,或者使用的是深度摄像头捕获的rgb图像和depth图像。这两种方式都容易受到光照条件的影响,即当环境的光照条件过亮或过暗时,语义分割的性能就会大大降低。为了进一步提高语义分割的性能,从而提高自动驾驶汽车的安全性,最近的研究更多的关注于使用thermal图像进一步补充rgb图像,减少了在环境过亮或过暗时造成的信息缺失。thermal图像可以在恶劣的光照条件下提供良好的成像信息,它可以反映温度高于绝对零度的任何物体的热辐射,从而为rgb图像补充丰富的语义信息和轮廓信息。
3.sun等人提出的rtfnet网络设计了新的解码器模块来恢复特征的分辨率,此解码器块主要依据残差结构进行设计,并叠加了多个卷积层。但此结构明显地增大了模型的参数量和计算量,且难以迁移到其他的模型上。guo等人提出的mlfnet采用多级跳转连接,灵活地融合各级特征,进一步利用了特征的上下文信息。并对解码器各层级的特征进行通道拼接用于最后解码器块的融合。zhou等人提出了egfnet网络,使用先验边缘信息和语义信息对网络进行多任务深度监控,生成高质量的分割结果。其采用boundary标签对编码器每层进行深度监督,并同时使用boundary标签和semantic标签对模型进行监督。zhou等人提出的mffenet和gmnet都进行了类别形状与边缘的监督约束。区别在于,前者对编码器的多级特征进行融合,从而对解码器提供更为丰富的特征信息。后者对编码器的多级特征采用分级监督,将特征信息进行差异化的约束。两者都采用了形状和边缘标签对解码器进行了优化。上述部分网络没有关注分割对象的整体信息,忽略了像素间的联系,未能有效地加强语义分割对象的区域联系。虽然mffenet和gmnet都有采用形状监督,但会对分割对象的语义信息产生较大的破坏。
4.而且现有的rgb-thermal(rgb-t)多模态图像语义分割网络多数集中在多模态的特征融合上,使用多种注意力机制来提高不同模态的融合性能。这些方法多数集中在编码器端,忽视了对融合后编码特征的恢复。仅有rtfnet网络和mlfnet网络明确地对解码器的解码块进行了优化,但并非能有效的应用到其他的网络上。而其他方法仅有在优化编码器的同时对解码器端采用了简单的深度监督,它们都未能对解码器提出有效的、针对性的优化策略。由于网络的编码器都采用下采样操作来提取高级特征,那么解码器就担负着恢复特征信息的重任。若解码器端未能缓解因下采样操作而造成的信息损失,这将使得分割结
的卷积层conv进行降维,得到特征其中τ=16,然后通过relu激活函数和一个1
×
1卷积层进行升维,得到特征最后通过如式(2)所示的sigmoid激活函数得到加权系数wn,具体计算如式(3)所示;将得到的wn与输入特征进行加权相乘并相加得到如式(4)所示;最后通过原始网络的解码器块dj得到clse-d的输出特征如式(5)所示;
[0020][0021]
其中,x表示输入特征的每个像素值;
[0022][0023]
其中,表示逐个元素相加;
[0024][0025]
其中,表示逐个元素相乘;
[0026][0027]
步骤2.3、在多阶段形状监督分支,分别对语义监督分支的多阶段解码特征进行深度监督;首先将特征或通过一个1
×
1卷积进行降维,得到一个单通道的特征,然后通过标准的批量归一化层bn与随机纠正线性单元激活函数rrelu;如果输入是特征还需与前一层的输出特征相加;最后通过双线性插值up2进行两倍上采样得到如式(6)和式(7)所示,
[0028][0029][0030]
进一步地,步骤3的具体过程如下:
[0031]
步骤3.1、采用训练集q
train
训练模型,学习率设置为0.01,使用指数函数降低学习率,迭代次数为200次;优化器采用0.9的momentum,权重衰减设置为0.0005;数据增强策略和批次大小与插入的现有技术中的网络设置一致;
[0032]
步骤3.2、通过训练,将语义监督分支得到的输出特征通过如式(8)所示的softmax函数得到p
seg
,然后与语义标签q进行加权ce损失计算,得到语义损失值l
seg
,如式(9)所示;将形状监督分支得到的输出特征通过tanh激活函数得到p
shape
,然后与如式(10)所示的符号距离图标签s进行平均绝对误差损失值计算,得到形状损失值l
shape
,如式(11)所示;最后将计算后的两个损失值进行权重相加得到总损失值l
total
,如式(12)所示,
[0033][0034]
其中,k为类别的个数,xk表示第k个类别的预测值,p
seg
表示语义监督分支得到的预测结果;
[0035][0036]
其中,m表示输入图像的宽度,n表示输入图像的高度,m表示图像的横坐标索引,n表示图像的纵坐标索引,x
mn
表示坐标(m,n)对应的图像像素值,q表示语义分割的语义标签,w表示每个类别对应的权重,l
seg
表示语义监督分支得到的损失值;
[0037][0038]
其中,p和q分别表示语义标签中不同的像素,||*||2表示欧几里得范数,表示以目标对象的边界作为下确界,表示目标对象的边界,ω
in
和ω
out
分别表示目标对象的内部区域和外部区域,s(p)表示符号距离图在p点的结果;
[0039][0040]
其中,p
shape
表示形状监督分支得到的预测结果,s表示符号距离图标签;
[0041]
l
total
=λ1×
l
seg
λ2×
l
shape
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(12)
[0042]
其中,λ1和λ2分别表示l
seg
和l
shape
的对应权重;
[0043]
步骤3.3、通过迭代训练,保存结果最好的网络模型参数;
[0044]
步骤3.4、通过测试集q
test
对训练好的模型进行预测,得到语义分割结果,若预测的结果与测试集对应,则证明当前训练完成的网络模型性能良好,保存当前模型,否则,返回重新训练,直到得到性能良好的网络模型。
[0045]
本发明所带来的有益技术效果:
[0046]
本发明明确地提出了对rgb-t语义分割网络的解码器的优化策略,提出的网络作为即插即用的模块有效地提高了现有网络的性能。采用的符号距离图相比现有网络采用的binary ground truth,对解码器的语义信息影响更小。并使用多阶段深度监督更有效的提高了解码器的形状保持能力。最后采用通道注意力来减少形状监督对语义信息的影响,提高解码器对类别语义信息的提取能力。本发明提出的方法具有即插即用的特性,可以和现有的语义分割网络结合,有效提高图像分割性能。本发明能够有效实现多模态图像(比如rgb-thermal,rgb-depth)的像素级语义分割,可以推广到自动驾驶、医学影像分析等应用场景,预期创造可观的经济价值。
附图说明
[0047]
图1为本发明基于形状与语义增强的多模态图像语义分割模型构建和训练的流程图;
[0048]
图2为本发明形状与语义增强的多模态语义分割网络模型整体结构框图;
[0049]
图3为图2中通道级语义增强模块的结构示意图。
具体实施方式
[0050]
下面结合附图以及具体实施方式对本发明作进一步详细说明:
[0051]
如附图1所示,本发明包括以下步骤:
[0052]
步骤1、从可见光传感器(简称rgb传感器)和热红外传感器(简称thermal传感器)中分别获取rgb图像和thermal图像,并通过手动或者标定算法进行图像对齐,再通过裁剪图像得到统一大小的图像,图像大小统一为640x480。由此构成数据集q,将数据集q划分为训练集q
train
和测试集q
test

[0053]
步骤2、构建基于形状和语义增强的多模态图像语义分割网络模型m
t

[0054]
基于原本的rgb-t语义分割模型,插入本发明方法可以有效地增强分割结果的形状信息和类别语义信息。附图2概述了所提出网络模型的整体结构。本发明方法主要作为即插即用的模块用于不同的网络,用于提高解码器端的特征恢复能力。首先,将网络的解码器端分为多阶段形状监督分支和语义监督分支(结构如附图2所示)。其中,
[0055]
语义监督分支包含多个clse-d解码器块(通道级语义增强解码器块),每个clse-d包含模块clse-m(通道级语义增强器块)和解码器块dj(j表示第个解码器块)。本发明实施例中,设置了四个解码器块,分别为d1、d2、d3、d4。clse-m模块结构如附图3所示,解码器块dj和原始网络的结构保持一致。
[0056]
在多阶段形状监督分支,为了建立像素间的关系,而选择强化类别的形状信息。具体的说,通过使用符号距离图进行监督来保持分割结果的几何形状信息。因为符号距离图可以捕获几何物体的轮廓以及距离信息,对于边缘距离的过渡非常平滑,可以使得模型在网络浅层上的形状监督更为柔和。相比于二值掩码图标签的监督对浅层特征的语义信息影响更小。同时为了增强解码器对于特征的恢复能力,还通过形状监督分支对语义监督分支进行多阶段的深度监督。但仅仅使用形状监督分支不仅会降低类别的语义信息,也无法增强原本就难以识别的类别特征。为了解决这一问题,并进一步优化分割结果。通过在语义监督分支插入通道注意力(结构如附图3所示)来强化分割结果的语义信息,进而加强分割结果的几何形状信息。这使得语义监督分支不仅可以优化类别几何形状,还可以分割出某些场景中难以识别的物体,得到更好的分割性能。后者对前者的搭配,不仅可以增强像素间的联系,还可以进一步提高解码器对于融合后编码特征的利用效果。下面将详细描述该网络。
[0057]
如附图2所示,该模型的具体工作流程为:
[0058]
步骤2.1、分别将传感器采集的rgb图像和thermal图像数据输入到rgb编码器和thermal编码器中,模态融合模块对编码器中的图像数据进行融合,得到特征c表示特征的通道数1024,h表示特征的高度30,w表示特征的宽度40,其编码器可以是任何多模态融合网络的编码器。
[0059]
步骤2.2、在语义监督分支,通过clse-d解码器块得到每层解码器的输出如式(1)所示。
[0060][0061]
式中,表示上一层通道级语义增强解码器块的输出;clse-m(*)表示通道级语义增强模块;dj表示第j个解码器块;表示通道级语义增强解码器块的输出特征。
[0062]
clse-d解码器块的具体工作过程为:
[0063]
如附图3所示,在clse-m模块中,首先将输入特征分别通过一个全局最大池化gmp和全局平均池化gap,然后将输出结果进行对应像素相加,得到特征接着通过一个1
×
1的卷积层conv进行降维,得到特征其中τ=16,然后通过rel u激活函数和一个1
×
1卷积层进行升维,得到特征最后通过sigmoid激活函数(如式(2)所示)得到加权系数wn,如式(3)所示。将得到的wn与输入特征进行加权相乘并相加得到如式(4)所示。最后通过原始网络的解码器块dj得到clse-d的输出特征如式(5)所示。
[0064][0065]
其中,x表示特征的每个像素值。
[0066][0067]
其中,表示逐个元素相加。
[0068][0069]
其中,表示逐个元素相乘。
[0070][0071]
步骤2.3、在多阶段形状监督分支,分别对语义监督分支的多阶段解码特征进行深度监督。首先将特征或通过一个1
×
1卷积进行降维,得到一个单通道的特征,然后通过标准的批量归一化层bn与随机纠正线性单元激活函数rrelu。如果输入是特征还需与前一层的输出特征相加。最后通过双线性插值up2进行两倍上采样得到如式(6)和式(7)所示。
[0072][0073][0074]
步骤3、对多模态图像语义分割网络模型进行模型训练,保存训练完成且性能良好的网络模型。具体过程如下:
[0075]
步骤3.1、采用训练集q
train
训练模型,学习率设置为0.01,使用指数函数降低学习率,迭代次数为200次。优化器采用0.9的momentum,权重衰减设置为0.0005。数据增强策略和批次大小与插入的现有技术中的网络设置一致。
[0076]
步骤3.2、通过训练,将语义监督分支得到的输出特征通过softmax函数(如式(8)所示)得到p
seg
,然后与标签q(语义标签)进行加权ce(交叉熵)损失计算,得到语义损失值l
seg
,如式(9)所示;将形状监督分支得到的输出特征通过tanh激活函数得到p
shape
,然后与标签s(符号距离图)(如式(10)所示)进行l1(平均绝对误差)损失值计算,得到形状损失值l
shape
,如式(11)所示;最后将计算后的两个损失值进行权重相加得到总损失值l
total
,如式(12)所示,
[0077][0078]
其中,k为类别的个数9,xk表示第k个类别的预测值,p
seg
表示语义监督分支得到的预测结果。
[0079][0080]
其中,m表示输入图像的宽度640,n表示输入图像的高度480,m表示图像的横坐标索引,n表示图像的纵坐标索引,x
mn
表示坐标(m,n)对应的图像像素值,q表示语义分割的语义标签,w表示每个类别对应的权重(如1,10,10,10,10,10,10,10,10),l
seg
表示语义监督分支得到的损失值。
[0081][0082]
其中,p和q分别表示语义标签中不同的像素,表示目标对象的边界,||*||2表示欧几里得范数,表示以目标对象的边界作为下确界,ω
in
和ω
out
分别表示目标对象的内部区域和外部区域,s(p)表示符号距离图在p点的结果。
[0083][0084]
其中,p
shape
表示形状监督分支得到的预测结果,s表示符号距离图标签。
[0085]
l
total
=λ1×
l
seg
λ2×
l
shape
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(12)
[0086]
其中,λ1和λ2分别表示l
seg
和l
shape
的对应权重,为1和0.5。
[0087]
步骤3.3、通过迭代训练,保存结果最好的网络模型参数。
[0088]
步骤3.4、通过测试集q
test
对训练好的模型m
t
进行预测,得到语义分割结果,若预测的结果与测试集对应,则证明当前训练完成的网络模型性能良好,保存当前模型,否则,返回重新训练,直到得到性能良好的网络模型。
[0089]
步骤4、rgb传感器和thermal传感器实时获取rgb图像和thermal图像,输入当前训练完成且性能良好的网络模型,对当前图像进行语义分割。
[0090]
相比于现有rgb-t语义分割网络的,本发明对解码器提出了有效的、针对性的优化策略,主要采用了符号距离图对解码器进行了多阶段的深度监督,有效提高解码器对类别形状的保持能力,有效建立了像素间的联系。相比于二值掩码图标签,对解码器的语义影响更小。由于仅采用形状监督会降低语义分支的语义信息,为此,本发明提出了clse-m模块用于缓解形状监督分支对语义分支的影响,并进一步提高解码器的语义信息提取能力。
[0091]
当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献