一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于跨模态特征强化与交互的多模态图像语义分割方法

2023-01-15 02:51:59 来源:中国专利 TAG:


1.本发明涉及一种基于跨模态特征强化与交互的多模态图像语义分割方法,属于图像语义分割技术领域。


背景技术:

2.红外图像与可见光图像的成像方式有所不同,利用红外对于行人车辆等热目标的成像特性,可以弥补暗场景下可见光分割效果。由于mfnet数据集中将红外图像与可见光图像进行了配对,使得两个模态的图像在像素上对齐,因此共有目标的特征空间响应区域是相同的,这为后续的特征融合提供了方便。
3.在mfnet实验中发现,单纯地把双模态图像堆叠成四通道,送入常见的分割网络,效果不如双分支独立编码提取特征再处理的网络,因此在rbg-t语义分割网络中,也都是采用的双分支编码结构。最早引入红外模态的原因是作为可见光模态的补充,rtfnet(其网络结构如图1所示,具体内容详见论文《rtfnet:用于城市场景语义分割的rgb和红外融合网络》)与fuseseg(其网络结构如图2所示,具体内容详见论文《fuseseg:基于rgb和thermal数据融合的城市场景语义分割》)在网络设计上都是把红外分支作为可见光分支的辅助,在各个编码阶段把红外融入可见光。部分网络设计的时候选择将融合模块作为一条网络链路,双编码分支作为特征提取器,例如abmdrnet(其网络结构如图1所示,具体内容详见论文《abmdrnet:用于rgb-t语义分割的自适应加权双向模态差异还原网络》)和gmnet(其网络结构如图1所示,具体内容详见论文《gmnet: 基于梯度特征多标签学习网络的城市热像场景语义分割》)。
4.如果是将红外作为辅助,对于红外图片的特征挖掘能力是有限的,再加上没有高效的融合模块,最后rtfnet与fuseseg的分割指标并不是很高。abmdrnet通过模态信息转换尽可能提取跨模态不变特征,减小rgb特征和热特征之间的模态差异,由于只提取了模态间共性特征,信息量变少,对于弱小目标的识别能力不足。目前的网络结构设计上,无法尽可能多地提取两个模态的信息,数据流的传输链路限制,导致编码器只能提取各自模态的信息,无法获取互补信息,降低了特征提取能力。


技术实现要素:

5.发明目的:针对现有技术所存在的问题,本发明提供一种基于跨模态特征强化与交互的多模态图像语义分割方法,通过特征交互模块对多模态的有效特征进行增强和交互,交互之后的特征既能保留各自模态的差异性,同时又能利用另一个模态的互补性,从而最大程度利用跨模态信息解析场景。
6.技术方案:为实现上述目的,本发明提供一种基于跨模态特征强化与交互的多模态图像语义分割方法,包括:将对应的可见光图像和红外图像作为输入,采用双分支编码结构分别提取可见光图像特征及红外图像特征;在各个编码阶段,首先通过特征交互模块(cfim)对提取的可见光图像特征及红外
图像特征进行增强和交互,并将交互之后的可见光图像特征及红外图像特征分别送入下一阶段的编码模块,而后通过特征融合模块将经过增强和交互之后的可见光图像特征及红外图像特征进行融合,并将融合特征送入对应阶段的解码模块,最后采用上采样和跳层连接逐级解码,获得多模态图像语义分割结果。
7.进一步的,所述双分支编码结构采用resnet作为骨干网络,形成可见光支路和红外支路两组编码模块。
8.进一步的,所述特征交互模块(cfim)的增强过程具体包括:,,,其中,分别表示当前阶段编码模块所提取的可见光图像特征和红外图像特征,分别表示经过一维卷积和二维卷积处理后的可见光图像特征,分别表示增强后的可见光图像特征和红外图像特征,表示sigmoid函数,表示一维卷积,对应的卷积核大小为,c表示输入特征图的通道数,表示卷积核为7
×
7的二维卷积,表示maxpool操作,表示avgpool操作,表示按位点乘运算。的计算过程与相同,这里不再赘述。
9.进一步的,所述特征交互模块(cfim)的交互过程具体包括:,,其中,分别表示当前阶段编码模块所提取的可见光图像特征和红外图像特征,分别表示输出到下一阶段编码模块的可见光图像特征和红外图像特征,分别表示增强后的可见光图像特征和红外图像特征,为设定的权重因子。
10.进一步的,所述特征融合模块实现的融合过程具体包括:对于经过增强和交互之后的可见光图像特征及红外图像特征,首先在通道维度上进行堆叠,而后经过通道融合模块(cfm)融合,输出当前编码阶段的融合特征,其中通道融合模块包含两个1
×
1的卷积层、一个3
×
3的卷积层、一个激活层、一个1
×
1的卷积层、两个归一化层和一个跳层连接。
11.进一步的,每个解码模块的输入为上一个阶段的解码模块输出与当前阶段特征融合模块输出的融合特征相加。
12.进一步的,所述解码模块包括3个级联的卷积模块,每个卷积模块包括一个3
×
3卷积层、一个归一化层和一个激活层。
13.有益效果:本发明充分考虑了红外和可见光分支模态的差异性,创造性地提出了跨模态特征交互模块(cfim),通过空间和通道注意力机制有效增强各自模态的特征,并将增强后的特征与另一模态的特征交互,既利用了模态的互补性,又保证了模态的差异性,同时引入多级跳层连接,大大增加了网络的场景解析能力。
附图说明
14.图1为现有技术中rtfnet的网络结构图;图2为现有技术中fuseseg的网络结构图;图3为现有技术中abmdrnet的网络结构图;图4为现有技术中gmnet的网络结构图;图5为本发明实施例中cfeinet的整体网络结构图;图6为本发明实施例中编码模块的网络参数表;图7为本发明实施例中特征交互模块(cfim)的网络结构图;图8为本发明实施例中特征融合模块的网络结构图;图9为本发明实施例中通道融合模块(cfm)的网络结构图;图10为本发明实施例中解码模块的网络结构图;图11为本发明实施例中cfeinet与其他算法在mfnet数据集上的iou对比。
具体实施方式
15.下面将结合附图对本发明的优选实施方式进行描述,更加清楚、完整地阐述本发明的技术方案。
16.如图5所示为一种基于跨模态特征强化与交互的多模态图像语义分割网络模型cfeinet,该模型采用双分支编码结构,将可见光图像(rgb)和红外图像(thermal)作为各自的输入,分别提取可见光图像特征及红外图像特征,在各个编码阶段,通过cfim(特征交互模块)增强特征并对互补特征进行交互,运算后的特征送入下一阶段的编码器,解码器部分使用上采样和跳层连接逐级解码,最后获得分割结果(prediction)。
17.1、编码模块;resnet在图像检测分割等下游任务中都有不错的效果,残差连接的设计解决了深层网络的退化问题,因此采用resnet作为编码模块的骨干网络。本实施例把resnet的stage0~stage4作为可见光支路的编码器,resnet有一个初始模块,该模块包括一个卷积层,一个批处理归一化(bn)层,和一个校正的线性单元(relu)激活层。由于红外支路的输入为1通道的图片,因此将resnet stage0中的卷积层输入通道数修改为1,然后作为红外支路的编码器,每经过一个编码阶段,各个支路特征图的尺寸都会减少一半,如图6所示,图中1
×
1,3
×
3,7
×
7等表示卷积核的大小,64、128、256等表示卷积核数量,stride 2表示卷积层的跨度为2,max_pool表示最大池化操作,每个阶段的归一化层和激活层均未显示出来。
18.2、特征交互模块;虽然配对的可见光图像和红外图像可以提供许多互补信息,但是单分支对于特征
的挖掘能力有限,当试图融合可见光和红外特征时,会有两个主要问题。一个问题是由于rgb和热模式的固有差异而导致的特征之间的兼容性。另一个问题是,在不利的光照条件下,原始的rgb图像可能会携带误导性和不完整的信息,这些信息可能会误导分割,热图像对各种光照不利条件都是稳健的,但是自身成像原因导致噪声过多。
19.基于此,本发明提出跨模态特征交互模块(cfim),利用cfim对输入的可见光和热特征进行增强后交互,交互之后的特征保留了各自模态的差异性,同时又利用了另一个模态的互补性,之后将特征送入各自编码器,进行下一阶段的编码,从而逐级挖掘出高维的特征信息,cfim的整体结构如图7所示。
20.图中分别表示输入的可见光图像特征和红外图像特征,分别表示输出到下一阶段的可见光图像特征和红外图像特征,,的计算如下:,,其中,分别表示增强后的可见光图像特征和红外图像特征,为权重因子,本实施例中的取值为。通过将本模态的原始特征加上另一模态的增强特征,来完成模态间的信息交互,权重因子的设定是为了引入互补信息的同时不影响本模态的特性。
21.各自模态的特征增强通过空间注意力机制和通道注意力机制实现,注意力机制是人类视觉行为的仿生,其模拟人类在观察物体上将注意力集中在对当前要获取目标更关键的信息而忽略不相关的信息,利用注意力机制去增强各自模态的特征,使其能更好地提供模态间互补信息。如图7所示,增强特征的计算过程如下:,,,其中,分别表示经过一维卷积和二维卷积处理后的可见光图像特征,表示sigmoid函数,表示一维卷积,对应的卷积核大小为,c表示输入特征图的通道数,这里使用一维卷积是为了减少运算量,表示卷积核为7
×
7的二维卷积,表示最大池化操作,表示平均池化操作,表示按位点乘运算,在的计算中,表示对每一个通道乘以对应的权重,在的计算中,表示在不同空间位置上乘以对应的权重。的计算过程与相同,这里不再赘述。
22.3、特征融合模块;
在经过增强和交互之后,两个模态的特征已经具备足够的信息,在前面的设计中,尽力保留了模态间的差异性,也就是说两个模态的特征没有对齐,因此直接相加会导致信息的损失,所以本发明设计了特征融合模块,将模态间的特征进行了融合,并将其连接到解码输入中。
23.如图8所示,对于每一个阶段交互后的可见光特征和红外特征,首先在通道维度上进行堆叠,这时特征的通道数翻倍,经过通道融合模块(cfm)之后得到,特征通道又数降回来,是每个编码阶段输出的融合特征。在fcn与unet中,都利用了跳层连接的结构,跳层连接的方式可以有效弥补卷积降采样过程中,由于分辨率下降所导致的信息丢失,而分割任务是非常需要上下文信息的,所以我们将在对应的解码阶段进行连接。
24.如图9所示,cfm依次包含两个1
×
1的卷积层,一个3
×
3的卷积层,激活层,一个1
×
1的卷积层,两个归一化层,按顺序连接并加入跳层连接,得到cfm网络。输入通道数为2c的特征,经过两个卷积模块之后,层数降低为c/r,其中r=2,用于减少卷积的运算量。
25.4、解码模块;如图10所示,这里把一个3
×
3卷积层、归一化层和激活层组合在一起,形成卷积模块,将3个卷积模块级联,并在最后加入上采样与跳层连接,实现解码模块。每个解码模块将上一个阶段的解码模块输出与对应的编码阶段融合结果相加,作为当前解码模块的输入,输入特征经过一个解码模块后,通道数减半,特征图尺寸变为两倍。
26.5、损失函数;模型的总损失函数由交叉熵损失函数和集合相似度损失函数组成:,其中,表示两个损失函数的权重因子,本实施例中的取值为。
27.,,其中,n表示样本数量,c表示类别数,表示样本i的符号函数,如果样本i的真实类别为j则,否则,表示样本i被预测为第j类的概率,是为了加速训练时的收敛速度引入的参数,本实施例中的取值为。
28.6、实验测试;
实验使用mfnet发布的公共数据集,该数据集为infrec r500摄像头采集的城市场景数据,包含1569对分辨率为640
×
480的可见光图像和红外热图像,其中820幅为白天场景,749幅为夜间场景。数据集中包括八类标注目标(汽车、人、自行车、车道线、停车位、护栏、三角锥、升降柱),加上未标注背景一共9个语义类。数据集划分方式是,训练集包含50%的白天图像和50%的夜间图像,验证集和测试集分别包含25%的白天图像和25%的夜间图像。
29.实验采用的cfenet网络环境配置为,pytorch 1.8.0,cuda 11.4和cudnn 8.2.4,在nvidia rtx 2080ti上进行训练。因为红外支路 stage0中的卷积层输入通道数为1,所以将原始resnet 3通道卷积层参数求均值,作为红外支路stage0中卷积层的权重初始值,其余网络层均使用torchversion中resnet的预训练模型进行初始化。实验使用随机梯度下降法(sgd)进行训练,动量和权重衰减设置为momentum=0.9,weight_decay =0.0005,初始学习率为0.01,使用指数衰减方式更新学习率,指数设置为gamma=0.95。训练集的处理上,使用了镜像和随机裁切做数据增广,每次读取2份数据,一共训练200个轮次。
30.实验采用平均交并比(miou)评价指标来定量分析语义分割性能,这是语义分割中标准度量方法,被广泛使用。它通过计算真实值和预测值的交并集的比,在具体的相关问题中,可以理解为真正例与假正、假反的计算组合,在每个类上分别计算iou,最后计算类的平均,具体计算如下:,其中m表示目标类别数,t表示对应的类别,,,,tp(true positive)表示真正例:模型预测为正例,真实值为正例,fp(false positive)表示假正例:模型预测为正例,真实值为反例,fn(false negative)表示假反例:模型预测为反例,真实值为正例。k是测试图像的数量,k表示对应帧数,是第k帧中第t类被正确识别成第t类的像素数量,是第k帧中第s类被错误识别成第t类的像素数量,是第k帧中第t类被错误识别成第s类的像素数量。
31.下面将提出的cfeinet与其他算法在mfnet数据集上进行iou的对比,各类别的交并比和平均交并比如图11所示。
32.在单标签训练的情况下,cfeinet网络相较于其他方法能够取得优异的分割效果,甚至高于mffenet的多标签训练结果,与gmnet的分割效果持平,这证明了本算法具有优异的场景分析能力。
33.本发明针对城市场景多模态图像数据,并设计了一种基于跨模态特征强化与交互的多模态图像语义分割模型,以resnet为骨干网络,设计了端到端的双分支编码器-解码器架构。本发明充分考虑红外和可见光分支模态的差异性,创造性地提出了特征交互模块(cfim),通过空间和通道注意力机制有效增强各自模态的特征,交互模块既利用了模态的互补性,又保证了模态的差异性,同时引入多级跳层连接增加网络的场景解析能力。实验证
明了本算法的有效性,该方法的分割效果优于现有的rgb-t分割网络,在只利用单标签训练的情况下,获得了和多标签相同的效果,这足以体现本算法的网络优势,这给全天时自动驾驶提供了新的解决方案。
34.上述具体实施方式仅仅对本发明的优选实施方式进行描述,而并非对本发明的保护范围进行限定。在不脱离本发明设计构思和精神范畴的前提下,本领域的普通技术人员根据本发明所提供的文字描述、附图对本发明的技术方案所作出的各种变形、替代和改进,均应属于本发明的保护范畴。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献