一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于视差估计的多模态图像配准方法

2022-12-13 19:58:34 来源:中国专利 TAG:


1.本发明涉及远红外波段以及深度学习技术领域,对不同模态的图像提取共有特征并进行立体匹配估计视差,实现跨模态图像的对齐与融合。


背景技术:

2.人们身处多模态环境,人工智能想要更好的理解环境就需要具备解析多模态信息的能力。随着深度学习的发展,不少研究学者尝试通过神经网络来对多模态信息进行特征提取,以此获得更好的数据表现。多模态学习研究的各个方向之间的联系和影响都会对最终的结果产生作用。当前,多模态学习主要有五个研究方向:表征,转化,对齐,融合,以及协同学习。多模态图像的对齐融合被广泛应用于医学、生物学、军事、计算视觉等领域,因此如何处理多模态异质性来源的数据具备重要的研究意义和落地价值。
3.20世纪80年代美国麻省理工学院的marr提出了一种基于双眼匹配的视觉计算理论,使两张有视差的平面图经过处理能够产生有深度的立体图,从而实现三维重建。随后,国际上在双目视觉方向上开展了诸多研究并取得了一系列成果。国内相关研究虽然起步较晚,但随着计算机技术的不断发展,双目立体视觉在工业、农业、军事等领域发挥了巨大的应用价值。然而,立体视觉局限于双目的可见光图像范围内,在弱光、过曝等极端环境下无法达到任务需求。
4.可见光成像具有丰富的对比度、颜色与形状信息,可以准确、迅速地获得双目图像之间的匹配特征,进而获取场景的深度信息。但可见光图像也存在缺陷,如在强光、雾雨、雪天或夜晚,成像质量大大下降,从而影响匹配的精度与准确度。而红外波段成像其不受雾、雨、雪、光照影响的优势可弥补可见光波段成像的不足,从而获取更完整、精确的融合信息。现代学者们展开了对红外与可见光这两种不同模态图像的配准问题的研究,做了很多大量且有效的工作,但由于红外与可见光图像的视场角、空间分辨率以及传感器位置等不一致造成的两种模态差异过大且图像间出现不可避免的平移、旋转等问题,多模态图像的高效精确的配准具有极大的挑战。目前多模态图像的配准研究大多忽略了图像中不同像素的视差差异,仅实现了多模态图像的局部对齐,精度较低、效果较差,离人们的要求和实际工程需要还有较大的差距,因此研究更为准确、高效、鲁棒的多模态配准方法是当前的研究重点。


技术实现要素:

5.本发明提供了一种基于视差估计的多模态图像配准方法,考虑到红外图像和可见光图像较大的模间差异,本发明设计了一种双支路特征提取的神经网络分别提取不同模态图像的共有特征和特有特征,保证两种模态图像提取出来的共有特征是相对应的。再将提取到的共有特征进行立体匹配,得到所需要的视差信息。在尽可能保证模型轻量化的同时,对采集到的不同模态的图像进行视差估计,实现多模态图像的对齐与融合。
6.本发明采用的技术方案如下:
7.基于视差估计的多模态图像配准方法,包括以下步骤:
8.步骤1,同时采集不同波段的红外图像和可见光图像,并进行图像的畸变矫正与立体矫正,得到红外-可见光的多模态立体图像对;
9.步骤2,构建数据集,包括训练集和测试集;所述数据集中包括步骤1得到的多模态立体图像对以及利用生成对抗网络得到的多模态立体图像对;
10.步骤3,将训练集中的多模态立体图像对数据输入神经网络,所述神经网络包括特征提取编码器、风格迁移解码器、立体匹配子网络以及对齐融合模块;对于红外-可见光的两种不同模态的输入图像,所述神经网络采用双支路策略,通过特征提取编码器对不同模态图像分别提取其对应的共有特征与特有特征,然后将跨模态的不同特征交叉送入所述风格迁移解码器,完成图像的风格迁移;
11.步骤4,将步骤3所得的不同模态图像的共有特征送入所述立体匹配子网络,其包括通道注意力增强模块、匹配代价构建模块、代价聚合模块以及视差回归模块;所述通道注意力增强模块先对不同模态图像的共有特征进行特征增强,然后所述匹配代价构建模块根据增强后的特征构建基于视差的匹配代价,再通过所述代价聚合模块进行匹配代价的正则化,最终通过视差回归模块得到输出视差图;
12.步骤5,利用步骤4所求得的视差图,通过所述对齐融合模块,采用单应性扭曲方法将不同模态和不同视角的图像对齐到同一视角,实现多模态图像的配准融合;
13.步骤6,构建所述神经网络的损失函数,该损失函数包括平均绝对损失函数与最小二乘生成对抗损失函数;对所述神经网络进行训练;
14.步骤7,在测试阶段,将测试集中的多模态立体图像对数据输入到已训练的神经网络中,得到配准融合后的多模态图像。
15.进一步地,所述步骤2中,利用生成对抗网络得到多模态立体图像对的具体步骤为:先使用生成对抗网络在已有多模态配对数据集上进行网络模型预训练,实现可见光图像到红外图像的风格转换;然后将训练好的网络模型在已有可见光图像的立体数据集上进行风格转换,生成所需要的多模态立体图像对。
16.进一步地,所述步骤3中,特征提取编码器分为共有特征提取编码器与特有特征提取编码器,其中所述共有特征提取编码器使用基本残差块提取可靠特征,进行下采样后,得到输入图像的共有特征;所述特有特征提取编码器在浅层网络使用大卷积核以及最大池化操作进行下采样,在深层网络处使用步长为2的卷积进行下采样,得到不同尺度的特征,提取输入图像的风格特征。
17.进一步地,所述步骤3中,在图像输入到所述特有特征提取编码器进行风格特征提取前,先使用模糊操作,破坏图像的结构信息,得到抽象的风格特征,避免错误结构信息的干扰。
18.进一步地,所述模糊操作为:设定一个固定窗口大小的随机块在图像上进行滑动,每次滑动后都将随机块内所有像素随机打乱顺序,遍历整张图像;然后对随机块打乱后的图像进行均值滤波,去除噪点,得到结构模糊图像。
19.进一步地,所述步骤3中,风格迁移解码器接收来自特征提取编码器的共有特征与不同尺度的深层特有特征,使用反卷积进行上采样操作;所述风格迁移解码器在深层网络使用不同尺度的特有特征,以类u-net型网络结构不断进行特征连接与融合,并在浅层网络
连接共有特征,通过不断地上采样-特征连接-特征融合操作,得到风格迁移后的生成图像。
20.进一步地,所述步骤3中,所述风格迁移解码器在解码过程中进行两次解码,第一次是域内解码,使用相同模态的共有特征和特有特征,实现模态内原图像重建;第二次是跨域解码,使用不同模态的共有特征与特有特征,完成跨模态交叉风格转换,保证不同的特征具备其对应的模态性质,同时实现图像的风格迁移。
21.进一步地,所述步骤3中,所述步骤4中,通道注意力增强模块对输入的不同模态图像的共有特征进行增强,将共有特征中对应接近的通道给予高权重,相差较大的通道给予低权重,提升不同模态共有特征的匹配度。
22.进一步地,所述步骤6中,对所述神经网络进行训练的具体步骤为:步骤61,在不使用所述立体匹配子网络的情况下,仅仅使用所述特征编码器与所述风格迁移解码器完成图像风格转换任务,训练神经网络并使之收敛,从而可以得到匹配度较高的不同模态共有特征;步骤62,训练所述立体匹配子网络,此时将神经网络其他部分进行冻结,网络参数固定不变化;利用所述特征提取编码器提取的不同模态的共有特征,进行立体匹配,通过视差回归求出场景视差图;步骤63,将整个神经网络联合起来进行训练,使用平均绝对损失函数与最小二乘生成对抗损失函数进行监督,将网络模型中风格迁移部分与立体匹配部分联合训练,使网络进一步收敛,达到更精确的视差估计结果,实现更优的多模态图像对齐与融合效果。
23.本发明利用跨模态的网络结构来处理不同模态的图像,提取所需要的共有特征,在保证准确度的前提下实现多模态图像的对齐融合。相较于现有技术,本发明具有以下优点:
24.(1)本发明涉及到远红外波段图像和可见光图像的模态差异处理,可以通过不同视角的不同模态图像求出对应的精确视差图,进而实现跨模态图像的对齐和融合。
25.(2)在进行不同模态图像的特征提取时,提出双支路策略来分别提取共有特征和特有特征,并将跨模态的不同特征交叉进行风格图像生成,完成图像的风格迁移,实现输入图像的模态转换。
26.(3)本发明提出的通道注意力增强模块对共有特征进行通道增强,使不同模态的共有特征更为对应接近,提升了立体匹配与视差估计的准确度,最终增强多模态图像配准融合效果。
27.(4)利用本发明方法生成的多模态融合图像符合人的视觉感知,在视频监控、目标跟踪等方向都有重要的应用。
附图说明
28.图1是本发明方法的流程示意图;
29.图2是本发明方法的整体网络结构图;
30.图3是本发明实施例中共有特征提取编码器的结构图;
31.图4是本发明实施例中特有特征提取编码器的结构图;
32.图5是本发明实施例中风格迁移解码器的结构图;
33.图6是本发明实施例中立体匹配子网络通道注意力增强模块的结构图。
具体实施方式
34.下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施。
35.本实施例提供一种基于视差估计的多模态图像配准方法,如图1所示,包括以下步骤:
36.(1)搭建多相机阵列成像系统,使用不同模态的相机对拍摄场景进行同步采集,得到不同波段红外图像和可见光图像的多模态立体图像对数据,并对其进行畸变矫正与立体矫正。
37.(2)构造数据集,包括训练集和测试集,数据集中包括利用生成对抗网络gans得到的多模态立体图像对数据,以及多相机阵列成像系统采集到的图像对数据,这些多模态立体图像对数据包含所需要的视差信息。
38.(3)将训练集中多模态立体图像对数据输入神经网络模型,采用双支路策略,通过特征提取编码器,对不同模态图像分别提取其对应的共有特征与特有特征,并将跨模态的不同特征交叉送入风格迁移解码器,实现图像的风格迁移。
39.(4)将所得的不同模态图像的共有特征送入立体匹配子网络,通过通道注意力增强模块进行特征增强,根据增强后的特征构建基于视差的匹配代价,通过代价聚合模块进行匹配代价的正则化,最终通过视差回归模块得到输出视差图。
40.(5)在对齐融合模块中,利用所求得的输出视差图,通过单应性扭曲将不同视角的不同模态图像对齐到同一视角,实现多模态图像的配准融合。
41.(6)构建神经网络模型的损失函数,该损失函数包括平均绝对损失函数(l1 loss)与最小二乘生成对抗损失函数(lsgan loss);其中,构建平均绝对损失函数以减少生成风格图像以及最终输出视差图的绝对误差,构建最小二乘生成对抗损失函数使得生成的风格图像的质量更高效果更优;然后对神经网络进行训练。
42.(7)在测试阶段,将测试集中的多模态图像输入到已训练的神经网络中,得到风格迁移后的生成图像、预测视差图以及配准融合后的多模态图像。
43.1、对步骤(1)中所涉及的多相机阵列成像系统搭建的部分进行详细描述:
44.本实施例搭建了一个成像系统,使用一个可见光相机和两个红外相机组成多相机阵列,完成不同波段红外图像和可见光图像的同时采集。其中,可见光相机位于两个红外相机的中点,三相机水平放置,对同一拍摄场景进行同步采集。随后通过相机标定方法获取相机的内参与外参,进行畸变校正,并对左右不同视角的不同模态图像进行立体对极线校正,得到标准的多模态立体图像数据。
45.2、对步骤(2)中所涉及的数据集构造部分进行详细描述:
46.本实施例利用生成对抗神经网络gans进行风格迁移,生成多模态立体图像对数据,解决双目多模态数据集的匮乏问题。本方法先使用生成对抗网络在已有红外-可见光的多模态配对数据集上对网络模型进行预训练,实现可见光图像到红外图像的风格转换,然后将训练好的网络模型运行于已有的可见光图像立体数据集上,进行风格转换,生成相同视角的红外图像,得到所需要的红外-可见光的多模态立体图像对。
47.3、本实施例的整体网络结构如图2所示,下面对步骤(3)(4)和(5)中所涉及的特征提取编码器、风格迁移解码器、立体匹配子网络以及对齐融合模块部分进行详细描述,这些
网络模块构成整个神经网络模型:
48.3.1特征提取编码器,分为共有特征提取编码器与特有特征提取编码器,分别用于提取不同模态图像的共有特征与特有特征,其网络模型结构图分别见图3与图4。
49.表1共有特征提取(左)与特有特征提取(右)编码器的具体结构
[0050][0051]
共有特征提取编码器使用基本残差块提取可靠特征,设置步长为2进行两次下采样,最后输出相同分辨率的有效特征表示out2与out3(见表1),作为输入图像的共有特征;特有特征提取编码器在浅层网络使用步长为2的大卷积核进行卷积下采样,同时使用最大池化操作来弱化结构信息,深层网络处使用步长为2的基本残差块进行下采样,共进行六次下采样得到不同尺度的特征,最后输出4种不同尺度的深度特征表示out4、out5、out6与out7(见表1)作为提取得到的输入图像风格特征。
[0052]
此外,对于特有特征提取编码器,先对输入图像使用模糊操作,破坏图像的结构信息,然后送入该编码器进行风格特征提取。本实施例使用随机块操作,设定一个固定窗口大小的块patch在图像上进行滑动,每次滑动后都将块内所有像素随机打乱顺序,遍历整张图像。随后对随机块打乱后的图像进行均值滤波,去除噪点,得到结构模糊图像。使用此种模糊操作来破坏图像的结构信息,更有利于求得抽象的风格特征,避免错误结构信息的干扰,提高匹配的准确度。
[0053]
3.2风格迁移解码器,如图5所示,利用来自特征提取编码器的共有特征与特有特征,生成风格迁移后的模态转换图像。
[0054]
表2风格迁移解码器的具体结构
[0055][0056]
该解码器接收来自特征提取编码器的共有特征(表2中cont_out2与cont_out3)与4种不同尺度的特有特征(表2中sty_out4、sty_out5、sty_out6与sty_out7),使用基本残差块进行卷积操作,得到可靠的特征表示,并使用反卷积操作来进行特征图的上采样。网络层次从深到浅,接收不同尺度的多模态特征,配合卷积操作,进行特征连接与融合,通过不断地上采样-特征连接-特征融合操作,实现不同模态图像的风格转换。
[0057]
3.3立体匹配子网络,其包括通道注意力增强模块、匹配代价构建模块、代价聚合模块以及视差回归模块。
[0058]
3.3.1通道注意力增强模块,能够对不同模态的共有特征进行增强,提升不同模态共有特征的匹配度。如图6所示,来自共有特征提取编码器的不同模态共有特征输入该模块,在入口处进行特征连接,随后经过一系列的卷积操作,得到与单个输入特征相同尺寸的中间特征图,最后通过1
×
1卷积与sigmoid函数激活,得到输出注意力权重特征。该权重特征与两个输入共有特征分别进行点乘操作,随后分别加上对应的原有特征,最终输出增强后的不同模态共有特征。该模块所使用的通道注意力增强机制,可以对共有特征中对应接近的通道给予高权重,而相差较大的通道则给予低权重,可以有效增加不同模态共有特征的匹配度,提升最终视差估计以及对齐融合的精度。
[0059]
3.3.2匹配代价构建模块,利用不同视角提取到的特征图,经过通道注意力增强后,构建匹配代价,用于后续的视差求解。本方法利用不同视角不同模态的两张输入图像,经过共有特征提取编码器得到有效共有特征表示,并通过通道注意力增强模块进行特征增强,随后在不同的视差上进行特征平移与连接,构建一个4d的匹配代价体:
[0060]
c(c,d,h,w)=cat《fr(c,h,w),f
shift
[f
t
(c,h,w),d]》
[0061]
其中f
shift
[
·
,
·
]表示在给定视差d时将目标特征f
t
移动扭曲(warp)到参考特征fr,cat《.,.》表示将移动扭曲后的目标特征与对应的参考特征在视差维度上相互连接(concatenate),(h,w)与c分别表示提取特征的空间与通道维度,此方法可以得到一个4d的匹配代价c(c,d,h,w)。
[0062]
3.3.3代价聚合模块,用于对构建好的匹配代价体进行信息聚合并正则化。因为构建的匹配代价是4d维度,因此需要使用3d卷积进行滤波处理,实现性能优异的正则化效果。为了利用更多的上下文信息,本实施例采用基于3d-cnn架构的堆叠沙漏结构(stacked hourglass),使用多个中间层监督,由细到粗再由粗到细,进行代价体的聚合与正则化。
[0063]
3.3.4视差回归模块,用于将已聚合并正则化后的匹配代价进行视差回归,输出估计的场景视差图。本方法采用一种soft argmin的操作来进行视差回归,估计出连续且精确的视差图。此操作是对在视差d下的匹配代价cd进行softmax操作σ(.),来计算得到一个概率体素,并根据视差范围(-d
max
到d
max
)对其进行视差加权求和,得到最终估计的视差
[0064][0065]
3.4对齐融合模块,利用已经求得的视差图,实现不同视角不同模态图像的对齐与融合。本实施例采用单应性扭曲操作,对于目标图像的每个像素,利用其已求得的视差值,将其进行移动扭曲,平移到参考图像上。对所有像素执行此次操作,便可将目标视角的图像移动到参考视角上,完成不同视角图像的转换。本方法将不同视角的不同模态图像转换到同一视角,实现了图像的对齐,随后使用融合操作,设定两种模态图像的不同权重,实现多模态图像融合。
[0066]
4、对步骤(3)中所涉及的网络模型的双支路策略部分进行详细描述:
[0067]
为了保证编码器所提取的共有特征和特有特征的互补性,提升特征匹配的准确度,本方法的网络模型采用双支路策略。如图2所示,对于两种不同模态的输入图像,网络使用1路共用的共有特征编码器来提取不同模态的共有特征,并使用2路特有特征编码器与2路风格迁移解码器,分别对应两种不同模态的编码与解码。
[0068]
在解码过程中进行两次解码,第一次是域内解码,使用相同模态的共有特征和特有特征,实现模态内原图像重建;第二次是跨域解码,使用不同模态的共有特征与特有特征,完成跨模态交叉风格转换,保证不同的特征具备其对应的模态性质,同时实现图像的风格迁移。
[0069]
5、对步骤(6)中所涉及的训练神经网络部分进行详细描述:
[0070]
为了较好地提取不同模态图像的共有特征,完成特征匹配并求出准确的视差图,本方法提出一种三步训练策略。
[0071]
首先在不使用立体匹配子网络的情况下,仅仅使用特征编码器与解码器完成图像风格转换任务,训练神经网络模型并使之收敛,从而可以得到匹配度较高的不同模态共有特征。在这一步,本方法使用的是平均绝对损失函数与最小二乘生成对抗损失函数来对神经网络进行监督,减少生成风格图像误差,提升风格图像质量。
[0072]
第二步,训练立体匹配子网络,此时将神经网络其他部分进行冻结,网络参数固定不变化。利用共有特征提取编码器求得的不同模态共有特征,进行立体匹配,通过视差回归
求出场景视差图。这里采用平均绝对损失函数来对输出视差图进行监督,使神经网络能够准确估计场景视差图。
[0073]
第三步,则将整个神经网络模型联合起来进行训练。使用前两步所用损失函数进行监督,将网络模型中风格迁移部分与立体匹配部分联合训练,使网络进一步收敛,达到更精确的视差估计结果,实现更优的多模态图像对齐与融合效果。
[0074]
6、对步骤(7)中所涉及的神经网络模型测试部分进行详细描述:
[0075]
在测试阶段,首先使神经网络模型加载已训练好的网络参数,接着输入测试多模态图像到神经网络中,通过步骤(3)所描述的特征编码与解码器,获取不同模态的共有特征,然后输入到步骤(4)中的立体匹配子网络,求出精确的场景视差图,最后通过步骤(5)所描述的对齐融合模块,得到配准融合后的多模态图像。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献