一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于多模态图像融合的目标检测方法及装置与流程

2022-07-02 08:29:34 来源:中国专利 TAG:


1.本发明属于目标检测技术领域,具体涉及一种基于多模态图像融合的目标检测方法及装置。


背景技术:

2.长期以来,如何帮助视力障碍弱势群体获得更好的行动能力一直是备受关注的社会问题。及时、正确地感知周围环境是协助提升目标个体活动安全性和生活质量必不可少的条件。借助近年来迅猛发展的计算机视觉技术,基于卷积神经网络(cnn)的各种深度学习模型已经能够在对于自然场景图像的实时识别任务中表现出突出的能力,甚至拥有超越人类的准确性及稳定性,并被成功部署于产品之中,例如近来取得优秀成果的自动驾驶技术。
3.一些不断涌现的针对视障人群研发的视觉辅助感知穿戴型电子设备也获益于此,借助设备上的微型摄像头或传感器采集实时场景中的图像或视频数据,由其搭载的模型进行对应的计算,从而为穿戴者提供场景目标检测的结果信息。然而,大多数目标检测模型都是基于亮度充足的可见光彩色图像数据进行建模的,这使得模型在接收环境光照条件较差(如夜晚、阴暗空间等生活中的场景)的可见光图像输入时性能大大降低,无法达到足够的识别能力,相应的视障辅助设备也就不能够为穿戴者及时地提供危险警报。


技术实现要素:

4.为了解决现有技术中存在的上述问题,本发明提供一种基于多模态图像融合的目标检测方法及装置。
5.为了实现上述目的,本发明采用以下技术方案。
6.第一方面,本发明提供一种基于多模态图像融合的目标检测方法,包括以下步骤:
7.实时获取分别由视频摄像头和红外摄像头拍摄的视频图像和红外图像,并分别输入至由transformer构成的目标检测模型;
8.利用由transformer编码器构成的特征编码模块对所述视频图像和红外图像分别进行全局特征提取;
9.利用由transformer解码器构成的特征融合模块对提取的视频图像特征和红外图像特征进行融合;
10.将视频图像和红外图像的融合特征输入由transformer全连接层构成的预测模块,输出目标类别和目标位置。
11.进一步地,所述方法在进行全局特征提取前还包括对输入的视频图像和红外图像分别进行的如下操作:
12.将图像切割成n个切片;
13.将每个切片在通道维度展开,输入至一个线性全连接层得到一个d维向量;
14.计算切片行和列方向的正余弦位置编码,并加至线性全连接层的输出得到n
×
d编码矩阵。
15.更进一步地,所述特征编码模块由transformer编码器堆叠而成,每个transformer编码器包括一个多头自注意力模块层和一个前馈网络层以及与每层相连的一个规范化层及残差单元;输入到多头自注意力模块的视频图像或红外图像的n
×
d编码矩阵,经过三种不同的线性变换得到大小为n
×d′
的查询向量、键向量和值向量,查询向量和键向量之间通过带缩放系数的向量点积计算相似度,并经softmax函数归一化后获得注意力权重矩阵,所述权重矩阵与值向量相乘后得到一路注意力结果;将多路注意力结果拼接后再映射回原来的维度d

,得到视频图像或红外图像的特征编码。
16.更进一步地,所述特征融合模块由transformer解码器堆叠而成,每个transformer解码器包括一个多头自注意力模块层、一个多头互注意力模块层和一个前馈网络层以及与每层相连的一个规范化层及残差单元;第i个transformer解码器的多头互注意力模块层的询问向量qi来自多头自注意力模块层的输出,键向量ki和值向量vi分别来自特征编码模块输出的视频图像特征a和红外图像特征b;第i 1个transformer解码器的多头互注意力模块层的询问向量q
i 1
来自多头自注意力模块层的输出,键向量k
i 1
和值向量v
i 1
分别来自b和a;键向量ki和值向量vi均为n
×d′
矩阵,询问向量qi为n
′×d′
矩阵,n

《n;i=1,2,


17.进一步地,所述方法还包括:根据目标类别和目标位置判断危险目标及其方位,并发出危险预警信息。
18.第二方面,本发明提供一种基于多模态图像融合的目标检测装置,包括:
19.图像获取模块,用于实时获取分别由视频摄像头和红外摄像头拍摄的视频图像和红外图像,并分别输入至由transformer构成的目标检测模型;
20.特征提取模块,用于利用由transformer编码器构成的特征编码模块对所述视频图像和红外图像分别进行全局特征提取;
21.特征融合模块,用于利用由transformer解码器构成的特征融合模块对提取的视频图像特征和红外图像特征进行融合;
22.目标预测模块,用于将视频图像和红外图像的融合特征输入由transformer全连接层构成的预测模块,输出目标类别和目标位置。
23.进一步地,所述装置还包括向量嵌入模块,用于:
24.将图像切割成n个切片;
25.将每个切片在通道维度展开,输入至一个线性全连接层得到一个d维向量;
26.计算切片行和列方向的正余弦位置编码,并加至线性全连接层的输出得到n
×
d编码矩阵。
27.进一步地,所述特征编码模块由transformer编码器堆叠而成,每个transformer编码器包括一个多头自注意力模块层和一个前馈网络层以及与每层相连的一个规范化层及残差单元;输入到多头自注意力模块的视频图像或红外图像的n
×
d编码矩阵,经过三种不同的线性变换得到大小为n
×d′
的查询向量、键向量和值向量,查询向量和键向量之间通过带缩放系数的向量点积计算相似度,并经softmax函数归一化后获得注意力权重矩阵,所述权重矩阵与值向量相乘后得到一路注意力结果;将多路注意力结果拼接后再映射回原来的维度d

,得到视频图像或红外图像的特征编码。
28.更进一步地,所述特征融合模块由transformer解码器堆叠而成,每个
transformer解码器包括一个多头自注意力模块层、一个多头互注意力模块层和一个前馈网络层以及与每层相连的一个规范化层及残差单元;第i个transformer解码器的多头互注意力模块层的询问向量qi来自多头自注意力模块层的输出,键向量ki和值向量vi分别来自特征编码模块输出的视频图像特征a和红外图像特征b;第i 1个transformer解码器的多头互注意力模块层的询问向量q
i 1
来自多头自注意力模块层的输出,键向量k
i 1
和值向量v
i 1
分别来自b和a;键向量ki和值向量vi均为n
×d′
矩阵,询问向量qi为n
′×d′
矩阵,n

《n;i=1,2,


29.进一步地,所述装置还包括危险预警模块,用于根据目标类别和目标位置判断危险目标及其方位,并发出危险预警信息。
30.与现有技术相比,本发明具有以下有益效果。
31.本发明通过实时获取视频图像和红外图像,利用由纯transformer构成的目标检测模型对所述视频图像和红外图像分别进行全局特征提取,并对提取的视频图像特征和红外图像特征进行融合,基于融合特征进行目标类别预测,实现了基于多模态图像融合的目标检测。本发明利用纯transformer构建目标检测模型,可充分发挥transformer整体结构带来的模型优势;本发明基于视频图像和红外图像的特征融合进行目标检测,可以实现任何光照条件下的目标检测,解决了现有检测系统在夜晚等黑暗环境下检测效果差的问题。
附图说明
32.图1为本发明实施例一种基于多模态图像融合的目标检测方法的流程图。
33.图2为本发明实施例的目标检测模型的整体结构示意图。
34.图3为自注意力机制原理示意图。
35.图4为两个transformer解码器的连接示意图。
36.图5为本发明实施例一种基于多模态图像融合的目标检测装置的方框图。
具体实施方式
37.为使本发明的目的、技术方案及优点更加清楚、明白,以下结合附图及具体实施方式对本发明作进一步说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
38.图1为本发明实施例一种多模态图像融合的目标检测方法的流程图,包括以下步骤:
39.步骤101,实时获取分别由视频摄像头和红外摄像头拍摄的视频图像和红外图像,并分别输入至由transformer构成的目标检测模型;
40.步骤102,利用由transformer编码器构成的特征编码模块对所述视频图像和红外图像分别进行全局特征提取;
41.步骤103,利用由transformer解码器构成的特征融合模块对提取的视频图像特征和红外图像特征进行融合;
42.步骤104,将视频图像和红外图像的融合特征输入由transformer全连接层构成的预测模块,输出目标类别和目标位置。
43.本实施例中,步骤101主要用于实时获取视频图像和红外图像。现有的用于辅助视障人员的目标检测模型,大多数都是基于亮度充足的可见光彩色图像数据进行建模的,这使得模型在接收环境光照条件较差(如夜晚、阴暗空间等生活中的场景)的可见光图像输入时性能大大降低,无法达到要求的识别能力。为此,本实施例在获取视频图像的同时还获取红外图像。由于红外线摄像头的成像原理不受光照条件的影响,所采集的红外图像能够在黑暗环境下提供场景目标信息的有力补充,因此基于视频和红外两种图像融合的目标检测模型,可在光照或黑暗场景下均具有高水平的泛化能力。本实施例的目标检测模型采用纯transformer结构,充分发挥transformer整体结构带来的模型优势,在图像识别任务上能够达到比卷积神经网络cnn模型更好的效果和泛化能力。目标检测模型的整体结构如图2所示。
44.本实施例中,步骤102主要用于进行图像特征提取。本实施例利用由transformer编码器构成的特征编码模块对所述视频图像和红外图像分别进行特征提取。transformer编码器采用注意力机制,主要由多头自注意力模块组成,能够提取输入图像的全局性特征,相比cnn只能提取图像局部特征对目标检测精度有很大改进。
45.本实施例中,步骤103主要用于进行多模态特征融合。本实施例利用由transformer解码器构成的特征融合模块对提取的视频图像特征和红外图像特征进行融合。现有的基于cnn的网络结构模型在完成多模态图像融合任务时所采用的融合方案主要有三种,分别称为早期(early)、中期(middle)和晚期(late)融合:早期融合即在模型输入端将来自多模态的图像在通道维度上直接拼接(concatenate)起来作为整个网络的输入;中期融合为不同的模态拥有独立的特征提取器,利用各种定义的融合计算方式来融合各个模态在某一层次阶段的特征图;晚期融合则是将各模态经过相互独立的特征提取器的最终结果融合起来进行预测。不论是哪一种融合方式,事实上都只是简单地寻求融合的输入,而并没有足够的理论解释性支撑,或者说任务指向性,并且假设了模态之间的特征在空间位置上是一一对应的,卷积也只进行了局部的融合计算。然而,不同模态的图像乃至特征图是会存在一定的位置偏差的,只进行局部的计算可能会导致相应的特征无法对齐,这会使得融合效率低下,检测效果差。本实施例利用transformer提供基于注意力(transformer解码器包括多头自注意力模块和多头互注意力模块)的多模态融合方式来取代cnn,让不同模态的信息能够进行全局范围上的相互注意,从而不受到位置偏差带来的限制,使融合更有效、更具理论支撑性。
46.本实施例中,步骤104主要用于对目标类别进行预测。本实施例通过将视频图像和红外图像的融合特征输入由transformer全连接层构成的预测模块,实现目标类别的预测。本实施例的目标是指对行动造成可能威胁的危险目标,根据危险等级划分目标类别,例如正前方的坑道或电线杆等为高危,侧方停放的自行车等为中危等。预测模块输出目标类别的同时一般还输出目标位置。预测模块由两个全连接层分支构成,其中一个分支由n1层全连接层组成,完成对目标类别的预测,另一个分支由n2层全连接层组成,完成对目标位置(检测框左上角和右下角坐标)的回归预测,从而实现目标检测任务。两个分支的输入相同,均为特征融合模块最后输出的融合特征。
47.作为一可选实施例,所述方法在进行全局特征提取前还包括对输入的视频图像和红外图像分别进行的如下操作:
48.将图像切割成n个切片;
49.将每个切片在通道维度展开,输入至一个线性全连接层得到一个d维向量;
50.计算切片行和列方向的正余弦位置编码,并加至线性全连接层的输出得到n
×
d编码矩阵。
51.本实施例给出了对输入的视频图像和红外图像进行向量嵌入的一种技术方案。对于输入的视频图像和红外图像,需要先进行嵌入编码将其转换为transformer可以接受的序列型输入。具体地,对于大小为c
×h×
w的图像输入,对其进行切片(patch),不妨假设所切每个patch的空间大小为h
×
w,则能够得到n=(h/h)
×
(w/w)张大小为c
×h×
w的切片。将每个切片沿通道c的维度展平得到c
×h×
w维的向量,n
×
(c
×h×
w)的矩阵输入一个线性全连接层中计算改变维度至d维。另外,为了让patch的编码含有二维的位置信息而不是呈现出排列不变性,通过对行和列方向分别计算固定的d维正弦或余弦位置编码,并加到线性层的输出上,最终获得n
×
d的矩阵即输入图像的线性嵌入编码表示,其中每一行的d维向量就是一个patch的代表向量,矩阵的行数n可以被称为代表向量的数量。需指出的是,n随所设置的patch大小不同而不同,n可以根据具体任务的实际需求灵活设置。
52.作为一可选实施例,所述特征编码模块由transformer编码器堆叠而成,每个transformer编码器包括一个多头自注意力模块层和一个前馈网络层以及与每层相连的一个规范化层及残差单元;输入到多头自注意力模块的视频图像或红外图像的n
×
d编码矩阵,经过三种不同的线性变换得到大小为n
×d′
的查询向量、键向量和值向量,查询向量和键向量之间通过带缩放系数的向量点积计算相似度,并经softmax函数归一化后获得注意力权重矩阵,所述权重矩阵与值向量相乘后得到一路注意力结果;将多路注意力结果拼接后再映射回原来的维度d

,得到视频图像或红外图像的特征编码。
53.本实施例给出了进行特征提取的一种具体的技术方案。特征提取由特征编码模块实现,该模块由transformer编码器堆叠而得,具体堆叠层数可以依据特定任务调试决定,并且对应两种图像的两个分支的编码器相互独立,堆叠层数可以相同也可以不同。每一个transformer编码器的具体结构(按顺序)由一层多头自注意力模块层、一层前向传播模块层以及在每个层都施加的残差连接与标准化构成。其中自注意力机制的计算过程可以参照图3,输入的n
×
d编码矩阵分别经过线性映射函数wq、wk、wv变换得到n
×d′
大小的查询向量(query)、键向量(key)、值向量(value),查询向量和键向量之间依据带缩放系数的向量点积计算相似度,并经过softmax函数归一化后,获得注意力权重矩阵,用公式表示如下:
[0054][0055]
式中,α为权重矩阵,q为查询向量,k
t
为键向量的转置。权重矩阵用于与值向量相乘(即相当于依据该权重对value向量进行按列的加权求和来获得结果矩阵上某一点的数值)。多头自注意力即将该过程独立重复多次,将多次的结果拼接(concatenate)起来再映射回原来的特征维度d

。前向转播模块层即一个含有一层隐藏层的多层感知机(mlp)结构。经过transformer编码器,输入图像能够对自身建模全局尺度上的特征编码,即每个代表向量都会和其他所有的代表向量包括自身计算相似度,拥有用cnn提取图像特征所不具备的全局性。
[0056]
作为一可选实施例,所述特征融合模块由transformer解码器堆叠而成,每个
transformer解码器包括一个多头自注意力模块层、一个多头互注意力模块层和一个前馈网络层以及与每层相连的一个规范化层及残差单元;第i个transformer解码器的多头互注意力模块层的询问向量qi来自多头自注意力模块层的输出,键向量ki和值向量vi分别来自特征编码模块输出的视频图像特征a和红外图像特征b;第i 1个transformer解码器的多头互注意力模块层的询问向量q
i 1
来自多头自注意力模块层的输出,键向量k
i 1
和值向量v
i 1
分别来自b和a;键向量ki和值向量vi均为n
×d′
矩阵,询问向量qi为n
′×d′
矩阵,n

《n;i=1,2,


[0057]
本实施例给出了进行特征融合的一种具体的技术方案。两种模态图像特征的融合由特征融合模块实现,该模块由transformer解码器堆叠而得,连续堆叠两个transformer解码器的结构示意图如图4所示。同样地,解码器具体堆叠层数可由特定任务调试决定。每一个transformer解码器的详细结构(按顺序)由一层多头自注意力模块层、一层多头互注意力模块层、前向转播模块层以及每一层都施加的残差连接与标准化组成。其中的多头自注意力模块层以及前向传播模块层和transformer编码器中的相同。多头互注意力模块层的计算机制与自注意力是相同的,唯一不同的是其所接收的查询向量来自前面多头自注意力模块层的输出,键向量和值向量则分别来自特征编码模块输出的视频图像特征a和红外图像特征b。值得说明的是,相邻解码器的所述键向量和值向量连接的图像特征a、b的顺序正好相反,比如,如果当前解码器的所述键向量和值向量分别连接a、b,则上一解码器和下一解码器的所述键向量和值向量分别连接b、a,从而能够实现查询向量交替对两个模态的特征进行注意力计算并融合。这样设计能够有效地平衡两种模态之间可能存在的一些信息偏差,包括位置偏差,既提取出分布相近的有效内容,又建模了全局上可能存在的关键相互关系。但需注意的是,需要为第一层transformer解码器单独初始化特殊定义的查询向量作为输入,该查询向量为一组可学习的参数,能够隐式地学习如何提取多模态图像中存在目标的区域的位置编码,并在融合中起到中介作用,具备良好的任务指向性和先验性,是完成目标检测任务以及多模态融合任务的关键组成部分。该查询向量的维度与模态图像编码的维度相同,但大小n

(或数量,即编码矩阵的行数)应远小于模态图像编码的数量n,即n

《《n,稍大于数据图像中待检测目标数量的最大值,从而能够减少漏检,以及在注意力计算的过程中仅交互必要的特征,减少信息的冗余,同时大大降低计算成本。
[0058]
作为一可选实施例,所述方法还包括:根据输出的目标类别和目标位置判断危险目标及其方位,并发出危险预警信息。
[0059]
本实施例给出了进行危险预警的一种技术方案。危险预警属于后处理步骤,本实施例基于预测模块输出的目标类别和目标位置判断危险目标,并计算目标相对用户的方位(还可包括距离),最后通过语音模块向用户发出报警信息,提醒用户引起注意或进行规避。
[0060]
图5为本发明实施例一种多模态图像融合的目标检测装置的组成示意图,所述装置包括:
[0061]
图像获取模块11,用于实时获取分别由视频摄像头和红外摄像头拍摄的视频图像和红外图像,并分别输入至由transformer构成的目标检测模型;
[0062]
特征提取模块12,用于利用由transformer编码器构成的特征编码模块对所述视频图像和红外图像分别进行全局特征提取;
[0063]
特征融合模块13,用于利用由transformer解码器构成的特征融合模块对提取的
视频图像特征和红外图像特征进行融合;
[0064]
目标预测模块14,用于将视频图像和红外图像的融合特征输入由transformer全连接层构成的预测模块,输出目标类别和目标位置。
[0065]
本实施例的装置,可以用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。后面的实施例也是如此,均不再展开说明。
[0066]
作为一可选实施例,所述装置还包括向量嵌入模块,用于:
[0067]
将图像切割成n个切片;
[0068]
将每个切片在通道维度展开,输入至一个线性全连接层得到一个d维向量;
[0069]
计算切片行和列方向的正余弦位置编码,并加至线性全连接层的输出得到n
×
d编码矩阵。
[0070]
作为一可选实施例,所述特征编码模块由transformer编码器堆叠而成,每个transformer编码器包括一个多头自注意力模块层和一个前馈网络层以及与每层相连的一个规范化层及残差单元;输入到多头自注意力模块的视频图像或红外图像的n
×
d编码矩阵,经过三种不同的线性变换得到大小为n
×d′
的查询向量、键向量和值向量,查询向量和键向量之间通过带缩放系数的向量点积计算相似度,并经softmax函数归一化后获得注意力权重矩阵,所述权重矩阵与值向量相乘后得到一路注意力结果;将多路注意力结果拼接后再映射回原来的维度d

,得到视频图像或红外图像的特征编码。
[0071]
作为一可选实施例,所述特征融合模块由transformer解码器堆叠而成,每个transformer解码器包括一个多头自注意力模块层、一个多头互注意力模块层和一个前馈网络层以及与每层相连的一个规范化层及残差单元;第i个transformer解码器的多头互注意力模块层的询问向量qi来自多头自注意力模块层的输出,键向量ki和值向量vi分别来自特征编码模块输出的视频图像特征a和红外图像特征b;第i 1个transformer解码器的多头互注意力模块层的询问向量q
i 1
来自多头自注意力模块层的输出,键向量k
i 1
和值向量v
i 1
分别来自b和a;键向量ki和值向量vi均为n
×d′
矩阵,询问向量qi为n
′×d′
矩阵,n

《n;i=1,2,


[0072]
作为一可选实施例,所述装置还包括危险预警模块,用于根据目标类别和目标位置判断危险目标及其方位,并发出危险预警信息。
[0073]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献