一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于跨模态特征强化与交互的多模态图像语义分割方法

2023-01-15 02:51:59 来源:中国专利 TAG:

技术特征:
1.一种基于跨模态特征强化与交互的多模态图像语义分割方法,其特征在于,包括:将对应的可见光图像和红外图像作为输入,采用双分支编码结构分别提取可见光图像特征及红外图像特征;在各个编码阶段,首先通过特征交互模块对提取的可见光图像特征及红外图像特征进行增强和交互,并将交互之后的可见光图像特征及红外图像特征分别送入下一阶段的编码模块,而后通过特征融合模块将经过增强和交互之后的可见光图像特征及红外图像特征进行融合,并将融合特征送入对应阶段的解码模块,最后采用上采样和跳层连接逐级解码,获得多模态图像语义分割结果。2.根据权利要求1所述的一种基于跨模态特征强化与交互的多模态图像语义分割方法,其特征在于,所述双分支编码结构采用resnet作为骨干网络,形成可见光支路和红外支路两组编码模块。3.根据权利要求1所述的一种基于跨模态特征强化与交互的多模态图像语义分割方法,其特征在于,所述特征交互模块的增强过程具体包括:,,,其中,分别表示当前阶段编码模块所提取的可见光图像特征和红外图像特征,分别表示经过一维卷积和二维卷积处理后的可见光图像特征,分别表示增强后的可见光图像特征和红外图像特征,表示sigmoid函数,表示一维卷积,对应的卷积核大小为,c表示输入特征图的通道数,表示卷积核为7
×
7的二维卷积,表示maxpool操作,表示avgpool操作,表示按位点乘运算,的计算过程与相同。4.根据权利要求1所述的一种基于跨模态特征强化与交互的多模态图像语义分割方法,其特征在于,所述特征交互模块的交互过程具体包括:,,其中,分别表示当前阶段编码模块所提取的可见光图像特征和红外图像特征,分别表示输出到下一阶段编码模块的可见光图像特征和红外图像特征,分别表示增强后的可见光图像特征和红外图像特征,为设定的权重因子。5.根据权利要求1所述的一种基于跨模态特征强化与交互的多模态图像语义分割方法,其特征在于,所述特征融合模块实现的融合过程具体包括:
对于经过增强和交互之后的可见光图像特征及红外图像特征,首先在通道维度上进行堆叠,而后经过通道融合模块融合,输出当前编码阶段的融合特征,其中通道融合模块包含两个1
×
1的卷积层、一个3
×
3的卷积层、一个激活层、一个1
×
1的卷积层、两个归一化层和一个跳层连接。6.根据权利要求1所述的一种基于跨模态特征强化与交互的多模态图像语义分割方法,其特征在于,每个解码模块的输入为上一个阶段的解码模块输出与当前阶段特征融合模块输出的融合特征相加。7.根据权利要求6所述的一种基于跨模态特征强化与交互的多模态图像语义分割方法,其特征在于,所述解码模块包括3个级联的卷积模块,每个卷积模块包括一个3
×
3卷积层、一个归一化层和一个激活层。

技术总结
本发明公开了一种基于跨模态特征强化与交互的多模态图像语义分割方法,包括:将对应的可见光图像和红外图像作为输入,采用双分支编码结构分别提取两种图像特征,在各个编码阶段,首先通过特征交互模块对提取的两种图像特征进行增强和交互,并将交互之后的特征送入下一阶段的编码模块,而后通过特征融合模块将经过增强和交互之后的特征进行融合,并将融合特征送入对应阶段的解码模块,最后采用上采样和跳层连接逐级解码,获得多模态图像语义分割结果。本发明从编码网络的数据流出发,利用注意力机制增强各自模态的有效特征,将增强后的特征与另一模态的特征交互,对单一模态的信息进行补充,最大程度利用跨模态信息解析场景。最大程度利用跨模态信息解析场景。最大程度利用跨模态信息解析场景。


技术研发人员:韩静 王川 陈霄宇 瞿超 徐启涵 蒋韫骋
受保护的技术使用者:南京理工大学
技术研发日:2022.11.23
技术公布日:2022/12/30
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献