一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于消防通道占用目标检测的目标检测模型、方法及应用与流程

2022-05-26 14:18:46 来源:中国专利 TAG:


1.本技术涉及目标检测领域,特别是涉及用于消防通道占用目标检测的目标检测模型、方法及应用。


背景技术:

2.近十年来以深度学习取得了巨大的进步和影响力,主要的驱动力是神经网络的复兴,尤其是卷积神经网络(convnets);在过去的十年里,计算机视觉识别领域成功地从设计特征提取器转移到设计神经网络架构,与此同时自然语言处理(nlp)的神经网络设计走了一条非常不同的道路,transformer模型取代了rnn成为主导的主干架构。
3.传统卷积网络通常采用从上到下的单行结构;对于大物体而言,其语义信息将出现在较深的特征图中;而对于小物体,其语义信息出现在较浅的特征图中,随着网络的加深,其细节信息可能会完全消失。而特别是在目标检测的场景中,模型需要对不同尺度的物体都能检测出来,这要求模型对于尺度要具有鲁棒性。在多尺度的物体中,大尺度的物体由于面积大、特征丰富,通常来讲较为容易检测;难度较大的主要是小尺度的物体,而这部分小物体在实际工程中却占据了较大的比例。通常认为绝对尺寸小于32
×
32的物体,可以视为小物体或者物体宽高是原图宽高的1/10以下,可以视为小物体;小物体由于其尺寸较小,可利用的特征有限,这使得其检测较为困难。
4.当前的检测算法对于小物体并不友好,体现在以下4个方面:1、过大的下采样率:假设当前小物体尺寸为15
×
15,一般的物体检测中卷积下采样率为16,这样导致在特征图上过大的下采样率使得小物体连一个像素点都占据不到;2、过大的感受野:在卷积网络中,特征图上特征点的感受野比下采样率大很多,导致在特征图上的一个点中,小物体占据的特征更少,会包含大量周围区域的特征,从而影响其检测结果;3、语义与空间的矛盾:当前检测算法,如faster rcnn,其backbone大都是自上到下的方式,深层与浅层特征图在语义性与空间性上没有做到更好的均衡;4、ssd一阶算法缺乏特征融合:ssd虽然使用了多层特征图,但浅层的特征图语义信息不足,没有进行特征的融合,致使小物体检测的结果较差。
5.总结而言,目前的卷积神经网络在实际设计和使用中仍面临许多问题,主要体现在以下几个方面:(1)对于大物体而言,其语义信息将出现在较深的特征图中;而对于小物体,其语义信息出现在较浅的特征图中,随着网络的加深,其细节信息可能会完全消失;而目标检测中,模型需要对不同尺度的物体都能检测出来,这要求模型对于尺度要具有鲁棒性。
6.尽管目标检测网络在架构设计、训练策略等方面变得越加强大,但检测对于大尺度变化的目标并没有改变。近期的研究仍然依赖于优越的主干设计,但这会使得高级特征与低级特征之间的信息交换不足。
7.(2)大多数优秀的细粒度图像识别方法通过发掘目标的局部特征来辅助识别,却没有对局部信息进行标注,而是采取弱监督或无监督的方式来定位局部特征位置。而且大部分的方法采用预训练的检测器,无法很好地捕捉目标与局部特征的关系。


技术实现要素:

8.本技术实施例提供了一种用于消防通道占用目标检测的目标检测模型、方法及应用,可提高小目标检测精度,特别适用于消防通道占用目标检测的特定应用场景。
9.第一方面,本技术实施例提供了一种目标检测模型的构建方法,所述方法包括:依次连接的主干网络、颈部多尺度特征融合网络以及神经网络头部,其中主干网络包括切片操作、转置瓶颈残差模块和3*3卷积,输入图像在切片操作后经过3*3卷积输入到转置瓶颈残差模块中,经上一级转置瓶颈残差模块输出的图像特征在切片操作后输入到下一级转置瓶颈残差模块,不同级转置瓶颈残差模块分别输出不同尺度的尺度特征;其中颈部多尺度特征融合网络包括数量同于转置瓶颈残差模块的1*1卷积、跳跃交叉融合模块以及上下文感知的注意力网络,不同尺度的尺度特征分别输入对应的1*1卷积中进行特征融合和特征通道统一化得到不同尺度的,不同尺度的所述初始特征经跳跃交叉融合模块进行高层语义信息和低层空间特征的融合得到不同尺度的跳跃交叉融合特征,不同尺度的跳跃交叉融合特征传入上下文感知的注意力网络得到预测特征;其中神经网络头部分为分类预测网络和边框预测网络。
10.第二方面,本技术实施例提供了一种目标检测模型,根据上述构建方法构建得到。
11.第三方面,本技术实施例提供了一种目标检测方法,包括以下步骤:获取包含待检测目标的待检测图像;主干网络包括独立的切片操作、转置瓶颈残差模块和3*3卷积,待检测图像在切片操作后经过3*3卷积输入到转置瓶颈残差模块中,经上一级转置瓶颈残差模块输出的图像特征在切片操作后输入到下一级转置瓶颈残差模块,不同级转置瓶颈残差模块分别输出不同尺度的尺度特征;不同尺度的尺度特征输入颈部多尺度特征融合网络中对应层级的1*1卷积中进行特征融合和特征通道统一化得到不同层级的初始特征,不同层级的初始特征经跳跃交叉融合模块进行高层语义信息和低层空间特征的融合得到不同层级的跳跃交叉融合特征,不同层级的跳跃交叉融合特征分别输入到上下文感知的注意力网络输出预测特征;预测特征输入神经网络头部中得到待检测目标。
12.第四方面,本技术实施例提供了一种消防通道占用情况检测方法,包括:获取涵盖消防通道区域的待检测图像;将待检测图像输入到消防通道占用目标检测模型中进行检测,若检测到占有目标,则判断消防通道上有占有目标,其中消防通道占用目标检测模型利用标记占有目标的消防通道的图像作为训练样本训练所述的目标检测模型得到。
13.第五方面,本技术实施例提供了一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以所述的目标检测方法或所述的消防通道占有目标检测方法。
14.第六方面,本技术实施例提供一种计算机程序产品,包括软件代码部分,当所述计算机程序产品在计算机上被运行时,所述软件代码部分用于执行所述的目标检测方法或所述的消防通道占有目标检测方法。
15.第七方面,本技术实施例提供一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括根据执行所述的目标检测方法或所述的消防通道占有目标检测方法。
16.本发明的主要贡献和创新点如下:本技术实施例提供的目标检测模型的主干网络由独立的切片操作、转置瓶颈残差模块和3*3卷积,转置瓶颈残差模块,在浮点运算量和精度上的权衡比一般残差模块泛化性更强:转置瓶颈残差模块使用了深度可分离卷积,即分组数等于输入通道数,在单个通道内做空间信息的混合加权,且转置瓶颈残差模块中使用的7*7的深度可分离卷积放到了反瓶颈的开头仅混合空间维度中的信息;把计算复杂度比较高的深度可分离卷积层r往前移动,使得复杂的模块将有更少的通道,而高效、密集的1*1层将有更多的通道;采用小维度到大维度再到小维度的形式,这样能让信息在不同维度特征空间之间转换时避免压缩维度带来的信息损失。
17.颈部多尺度融合网络利用1*1的卷积进行特征融合和特征通道统一,然后是深度为7层的跳跃和交叉连接的特征融合层,最后是一个上下文感知的注意力网络。不仅包含跳跃层连接,还包含跨尺度连接,以克服多尺度的变化,考虑同层和邻层的特征,分别采用双线性插值和最大池化作为上采样和下采样函数,跳跃层和跨尺度连接的机制使得尺度目标检测模型需要具有足够的高、低层次的信息交换,跳跃层和跨尺度连接以特征拼接的方式进行堆叠;有效地解决大尺度方差问题,在跳跃层和跨尺度连接下,可以实现高级语义信息和低级空间信息的充分交换,这种方式可以有效地学习对不同尺度的特征,有助于目标检测精度的提升,特别是检测小和大的对象;有效的缓解由大尺度变化引起的问题。
18.上下文感知的注意力网络能够高效地编码局部特征的位置信息和外观信息,注意力网络将卷积网络输出的图像特征作为输入,学习调整特征中不同区域的重要性,从而得出局部区域的丰富的外观特征及其空间特征,进而进行准确的分类;带来可观的细粒度分类性能提升,捕捉目标或场景间的细微差别,注意力网络综合考虑像素级特征、小区域特征、大区域特征以及图片级特征的上下文信息进行分类。
19.本技术的一个或多个实施例的细节在以下附图和描述中提出,以使本技术的其他特征、目的和优点更加简明易懂。
附图说明
20.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:图1是根据本技术一种实施例的目标检测模型的整体框架示意图。
21.图2是根据本技术一种实施例的转置瓶颈残差子模块的结构示意图;图3是根据本技术一种实施例的颈部多尺度融合网络的结构示意图;图4是根据本技术一种实施例的上下文感知的注意力网络的结构示意图;图5是根据本技术一种实施例的长短时记忆网络的示意图;图6是根据本技术一种实施例的目标检测装置的框架示意图;图7是根据本技术实施例的电子装置的硬件结构示意图。
具体实施方式
22.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例
中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
23.需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
24.实施例一如图1所示,第一方面,本技术实施例提供了一种目标检测模型的构建方法,包括:依次连接的主干网络、颈部多尺度特征融合网络以及神经网络头部,其中主干网络包括切片操作、转置瓶颈残差模块和3*3卷积,输入图像在切片操作后经过3*3卷积输入到转置瓶颈残差模块中,经上一级转置瓶颈残差模块输出的图像特征在切片操作后输入到下一级转置瓶颈残差模块,不同级转置瓶颈残差模块分别输出不同尺度的尺度特征;其中颈部多尺度特征融合网络包括数量同于转置瓶颈残差模块的1*1卷积、跳跃交叉融合模块以及上下文感知的注意力网络,不同尺度的尺度特征分别输入对应的1*1卷积中进行特征融合和特征通道统一化得到不同尺度的初始特征,不同尺度的所述初始特征经跳跃交叉融合模块进行高层语义信息和低层空间特征的融合得到不同尺度的跳跃交叉融合特征,不同尺度的跳跃交叉融合特征输入上下文感知的注意力网络得到预测特征;其中神经网络头部分为分类预测网络和边框预测网络,预测特征输入神经网络头部分进行目标预测。
25.其中,主干网络包括四个切片操作、四个转置瓶颈残差模块以及一个3*3卷积以实现五次降采样,每一切片操作的输出对应一转置瓶颈残差模块,其中位于首位的切片操作的输出经历3*3卷积后输入到对应的转置瓶颈残差模块,其他切片操作的输出直接输入到对应的转置瓶颈残差模块中。每一转置瓶颈残差模块的输出后输入到颈部多尺度特征融合网络中。
26.具体的,主干网络包括依次连接的第一级切片操作、3*3卷积、第一级转置瓶颈残差模块、第二级切片操作、第二级转置瓶颈残差模块、第三级切片操作、第三转置瓶颈残差模块、第四级切片操作、第四级转置瓶颈残差模块。其中输入图像分别在第一级切片操作、3*3卷积、第二级切片操作、第三级切片操作、第四级切片操作中进行降采样。
27.所述转置瓶颈残差模块包括至少一组的转置瓶颈残差子模块,不同层级的转置瓶颈残差模块包括不同数量组的转置瓶颈残差子模块。在本方案中,第一级转置瓶颈残差模块内包括三组串联的转置瓶颈残差子模块,第二级转置瓶颈残差模块包括三组串联的转置瓶颈残差子模块,第三级转置瓶颈残差模块包括九组串联的转置瓶颈残差子模块,第四级转置瓶颈残差模块包括三组串联的转置瓶颈残差子模块。如图2所示,图2为本方案的转置瓶颈残差子模块的结构示意图,每组转置瓶颈残差子模块内包括依次连接的7*7深度可分离卷积,第一1*1卷积、第二1*1卷积以及drop_path,其中7*7深度可分离卷积和第一1*1卷积之间归一处理,第一1*1卷积和第二1*1卷积之间设置使用一层激活层,每组转置瓶颈残差子模块的输入和输出进行元素级相加。
28.本方案提供的转置瓶颈残差模块使用了深度可分离卷积和大的卷积核,使其在浮
点运算量和精度上的权衡比一般残差模块泛化性更强。深度可分离卷积的分组数等于输入通道数,由于每个卷积核单独处理一个通道,在单个通道内做空间信息的混合加权,即仅混合空间维度中的信息,以降低浮点运算量。然而为了弥补精度损失,通道数从64增加到96,本方案随着浮点运算量的增加,网络性能增强。
29.值得一提的是,本方案的7*7深度可分离卷积置于转置瓶颈残差子模块的反瓶颈的开头,把计算复杂度比较高的深度可分离卷积往前移动,使得复杂的模块将有更少的通道,而高效、密集的1*1层将有更多的通道;采用小维度到大维度再到小维度的形式,这样能让信息在不同维度特征空间之间转换时避免压缩维度带来的信息损失。
30.考虑到太频繁地做非线性投影对于网络特征的信息传递实际上是有害的,在本方案中,7*7深度可分离卷积之后使用归一处理后输入到第一1*1卷积,第一1*1卷积和第二1*1卷积之间使用一层激活层,所述激活层可以是sum激活函数,归一处理采用层归一化处理。从而在两个1*1卷积层之间没有使用归一化层,只做了非线性投影。
31.本方案提供的转置瓶颈残差模块的技术改进点有:使用smu激活函数,更少的激活函数和归一化层,仅在1*1卷积之间使用激活函数,仅在7*7卷积和1*1卷积之间使用归一化层,将批量归一化替换为层归一化。
32.如图3所示,图3为本方案的颈部多尺度融合网络的结构示意图。颈部多尺度特征融合网络利用1*1卷积分别对主干网络输出的不同尺度的尺度特征进行特征融合和特征通道统一得到不同尺度的初始特征,其中不同尺度的初始特征的特征通道数一致,不同层的初始特征在跳跃交叉融合模块中进行跳跃和交叉连接得到不同尺度的跳跃交叉融合特征,不同尺度的跳跃交叉融合特征分别输入到上下文感知的注意力网络中得到预测特征。
33.在本方案中,低尺度的尺度特征输入到颈部多尺度特征融合网络的1*1卷积中得到低尺度的初始特征,高尺度的尺度特征输入到颈部多尺度特征融合网络的1*1卷积中得到高尺度的初始特征。图3中的初始特征m2为图2中的尺度特征c2输入到1*1卷积中处理得到,同样的,初始特征m3为尺度特征c3输入到1*1卷积中处理得到,初始特征m4为尺度特征c4输入到1*1卷积中处理得到,初始特征m5为尺度特征c5输入到1*1卷积中处理得到。初始特征m2用于检测小目标,初始特征m3,m4用于检测中目标,初始特征m5用于检测大目标。
34.同一层的特征图的分辨率是相同的,比如m5这一层的特征分辨率都是一样的。同一层只加深了神经网络,丰富了特征图的语义信息,为了融合不同尺度的初始特征使其能够兼备有高层语义信息和低层空间特征,本方案将不同尺度的初始特征输入到跳跃交叉融合模块中进行融合处理。本方案的跳跃交叉融合模块不仅包含跳跃层连接,还包含跨尺度连接,以克服多尺度的变化。考虑同层和邻层的特征,分别采用双线性插值和最大池化作为上采样和下采样函数,跳跃层和跨尺度连接的机制使得颈部多尺度融合网络需要具有足够的高、低层次的信息交换,跳跃层和跨尺度连接以特征拼接的方式进行堆叠;有效地解决大尺度方差问题,在跳跃层和跨尺度连接下,可以实现高级语义信息和低级空间信息的充分交换,这种方式可以有效地让不同尺度的特征互相学习,有助于目标检测精度的提升,特别是检测小和大的对象,从而有效地缓解由大尺度变化引起的问题。这种结构可进行不同空间尺度以及不同级别潜在语义的密集信息交换,并帮助检测器在网络的早期阶段以相同的优先级处理高级语义信息和低级空间信息,使其在检测任务中更有效。
35.具体的,由于本方案的主干网络包括四个转置瓶颈残差模块,对应的本方案的颈
部多尺度特征融合网络包括四个1*1卷积,四个1*1卷积的输出分别产生四个层级的初始特征,所述初始特征输入到跳跃交叉融合模块中进行跳跃交叉融合。
36.具体的,本方案的跳跃交叉融合模块采用深度为7层的跳跃和交叉连接。跳跃交叉融合模块包括对应不同层级的初始特征的多层级特征融合层,每一层级特征融合层的深度为7层,同一层级特征融合层内部以及不同层级的特征融合层之间采用跳跃层连接和跨尺度连接的方式,采用双线性插值作为上采样函数,采用最大池化作为下采样函数,且跳跃层连接和跨尺度层连接之间以特征拼接的方式进行堆叠。
37.在一具体实施例中,同一层级的特征融合层包括依次连接的不同深度的深度层,同一层级的特征融合层的不同深度层之间跳跃连接;不同层级的特征融合层的奇数深度层采用下采样,偶数深度层采用上采样,不同层级的特征融合层之间的同一深度层采用跨尺度连接;最低尺度的特征融合层的深度层和相邻上一尺度的特征融合层的深度层采用下采样的交叉连接;最高尺度的特征融合层的深度层和相邻下一尺度的特征融合层的深度层采用上采样的交叉连接。
38.具体的,在“同一层级的特征融合层的不同深度层之间跳跃连接”步骤中,同一层级的特征融合层的深度层和间隔的深度层进行跳跃连接。
39.在“不同层级的特征融合层的奇数深度层采用下采样,偶数深度层采用上采样”中,采用双线性插值作为上采样函数,采用最大池化作为下采样函数。
40.在“不同层级的特征融合层之间的同一深度层采用跨尺度连接”步骤中,特征融合层的同一深度层和间隔的特征融合层的同一深度层跨尺度连接,且采用下采样的方式进行跨尺度连接。不同层级的特征融合层的最低深度的深度层不进行跨尺度连接。
41.具体的,本方案包括对应低尺度的第一特征融合层,对应中间尺度的第二特征融合层和第三特征融合层,以及对应高尺度的第四特征融合层,每一层特征融合层根据深度深浅依次分为第一深度层、第二深度层、第三深度层、第四深度层、第五深度层、第六深度层以及第七深度层。
42.则在“同一层级的特征融合层的不同深度层之间跳跃连接”步骤中,第一深度层与第三深度层、第五深度层和第七深度层跳跃连接,第二深度层与第四深度层和第六深度层跳跃连接,第三深度层与第五深度层和第七深度层跳跃连接,第四深度层和第六深度层跳跃连接,第七深度层和第九深度层跳跃连接。
43.在“不同层级的特征融合层之间的同一深度层采用跨尺度连接”步骤中,第一特征融合层的深度层和第三特征融合层的深度层连接,第二特征融合层和第四特征融合层的深度层连接,第一特征融合层、第二特征融合层、第三特征融合层和第四特征融合层的第一深度层不参与跨尺度连接。
44.在“最低尺度的特征融合层的深度层和相邻上一尺度的特征融合层的深度层采用下采样的交叉连接”步骤中,第一特征融合层的第一深度层和第二特征融合层的第二深度层之间采用下采样的交叉连接,第一特征融合层的第二深度层和第二特征融合层的第三深度层之间采用下采样的交叉连接,第一特征融合层的第三深度层和第二特征融合层的第四深度层之间采用下采样的交叉连接,第一特征融合层的第四深度层和第二特征融合层的第五深度层之间采用下采样的交叉连接,第一特征融合层的第五深度层和第二特征融合层的第六深度层之间采用下采样的交叉连接,第一特征融合层的第六深度层和第二特征融合层
的第七深度层之间采用下采样的交叉连接。
45.在“最高尺度的特征融合层的深度层和相邻下一尺度的特征融合层的深度层采用上采样的交叉连接”步骤中,第四特征融合层的第一深度层和第三特征融合层的第二深度层之间采用上采样的交叉连接,第四特征融合层的第二深度层和第三特征融合层的第三深度层之间采用上采样的交叉连接,第四特征融合层的第三深度层和第三特征融合层的第四深度层之间采用上采样的交叉连接,第四特征融合层的第四深度层和第三特征融合层的第五深度层之间采用上采样的交叉连接,第四特征融合层的第五深度层和第三特征融合层的第六深度层之间采用上采样的交叉连接,第四特征融合层的第六深度层和第三特征融合层的第七深度层之间采用上采样的交叉连接。
46.本方案的初始特征在经历以上的跳跃交叉融合模块之后得到四个尺度的跳跃交叉特征,四个尺度的跳跃交叉特征分别输入到上下文感知的注意力网络中以获取更精准的感兴趣区域。
47.如图4所示,图4是上下文感知的注意力网络的结构图。注意力网络能够高效地编码局部特征的位置信息和外观信息,注意力网络将上文中得到的跳跃交叉特征作为输入,学习调整特征中不同区域的重要性,从而得出局部区域的丰富的外观特征及其空间特征,进而进行准确的分类;带来可观的细粒度分类性能提升,捕捉目标或场景间的细微差别。
48.本方案提供的注意力网络综合考虑像素级特征、小区域特征、大区域特征以及图片级特征的上下文信息进行分类,上下文感知的注意力网络将分别输入的跳跃交叉融合特征进行放大宽高衍生出系列的候选区域,所有候选区域覆盖跳跃交叉融合特征的所有区域位置,将不同大小区域的候选区域采用双线性插值表现为固定大小的特征,相似的固定大小的特征进行加权处理后得到上下文向量,上下文向量经历全局平均池化后转换为区域序列,区域序列输入到长短时记忆网络中得出对应的隐藏状态序列,该隐藏状态序列作为预测特征用于后续的头部预测。
49.同一跳跃交叉融合特征作为i行j列的候选区域被衍生出系统不同大小区域的候选区域rn,每一候选区域采用双线性插值的方式转换为统一大小的特征fn,不同特征fn彼此加权处理后得到系列的上下文向量cn,其中每一上下文向量对应每一候选区域,对上下文向量进行全局平均池化得到区域序列sn,多个区域序列输入到长短时记忆网络中得到对应的隐藏状态序列;其中由统一大小特征f得到上下文特征向量c的公式如下所示:具体的公式如下:
ꢀꢀꢀ
(1)
ꢀꢀꢀꢀꢀꢀ
(2) (3)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)该公式中参数矩阵w
β
和w
β'
用来将输入特征转换为查询项和关键项,w
α
为非线性组
合,b
α
和b
β
为偏置项,整体的可学习参数为w
β
、w
β'
、w
α
、b
α
和b
β
,而注意力项α则代表两个特征之间的相似性上下文向量c能够代表区域统一大小特征f蕴含的上下文信息,这些信息是根据其与其它区域的相关程度获得的;上下文向量c描述了区域的关键程度和特点。
50.具体的,颈部多尺度特征融合网络提取到的跳跃交叉特征作为输入,其输入特征为i,宽高为w、h,为了更高效地学习上下文信息,在输入特征i上定义不同粒度级别的基本区域,粒度级别由区域的大小决定;以输入特征的i行j列为例,最小区域为(

x,

y),可通过放大宽高衍生出一系列区域(候选区域r1、r2、r3到rn),在不同的位置产生相似的区域合集r,得到最终的区域合集r,r覆盖了所有的位置的不同宽高比区域,可以提供全面的上下文信息,帮助在图像的不同层级提供细微特征;在特征图上得到r个区域,大小从最小的

x*

y*c到最大的w*h*c,采用双线性插值将不同大小区域表示为固定大小的特征(f1、f2、f3到fn);双线性池化将目标坐标映射回原图,取最近的四个点,按距离进行输出,最终得到池化后的固定特征;根据fn与其它统一大小特征的相似性进行加权输出,使得模型能够选择性的关注更相关的区域,从而产生更全面的上下文信息。
51.为了进一步加入空间排列相关的结构信息,将区域的上下文向量c转为区域序列输入到循环神经网络中,使用循环神经网络的隐藏状态单元h来表达结构特征;为了增加泛化能力和减少计算量,区域序列s由上下文向量c进行全局平均池化得到,最终输出区域序列s对应的隐藏状态序列h,用于后续头部预测模块中;细致地考虑从像素到目标到场景的信息,定位了局部特征或目标的位置,还从多个维度描述其丰富且互补的特征,从而得出完整图像或目标的内容;模块能够高效地编码局部特征的位置信息和外观信息,该模块将卷积网络输出的图像特征作为输入,学习调整特征中不同区域的重要性,从而得出局部区域的丰富的外观特征及其空间特征,进而进行准确的分类进而更好的定位。
52.如图5所示,图5为本方案的长短时记忆网络的框架示意图。由图可知,当前层的区域序列、上一层输出的隐藏状态序列以及上一层的上下文向量作为当前长短时记忆网络的输入,经过长短时记忆网络的处理后得到当前层的隐藏状态序列作为输出。具体的,上一层输出的隐藏状态序列和当前层的区域序列融合后和上一层的上下文向量进行元素级相乘,关于长短时记忆网络的公式如下所示:具体的公式如下:(6) (7)(8)(9)(10)(11)第一,其中[h
r-1
,sr]表示前一序列隐藏状态序列h
r-1
和当前区域序列sr的特征堆叠,f
t
通过一个忘记门的σ(sigmoid)单元来处理的,它通过查看两者堆叠的特征信息来输
出一个0到1之间的向量,该向量里面的0到1之间的值表示前一序列上下文向量c
r-1
中哪些信息保留或丢弃,0表示丢弃,1表示保留;第二,给细胞状态添加哪些新的信息,首先利用堆叠后的特征通过输入门操作决定更新哪些信息,然后再将堆叠的特征信息通过一个tanh层得到新的候选细胞信息ar;ir同f
t
一样也是一个元素介于[0,1]区间内的向量;第三,更新旧的细胞信息c
r-1
,变为新的细胞信息cr,即当前序列上下文向量。更新的规则就是通过忘记门选择忘记旧细胞信息的一部分,通过输入门选择添加候选细胞信息ar的一部分得到新的细胞信息c
r-1
;第四,将输入经过一个称为输出门的sigmoid层得到判断条件,然后将细胞状态经过tanh层得到一个-1到1区间值的向量,该向量与输出门得到的判断条件相乘就得到了最终的输出。
[0053]
搭建完上述目标检测模型之后,需要对其进行训练,以下阐述目标检测模型的训练方式:根据待测目标的不同选择不同的训练样本数据,训练配置从基线模型到最终模型基本一致,在训练样本数据上训练300epoch并进行5epoch的warm-up,训练初始warm-up把学习率参数设置得很小,随着训练的进行,学习率逐渐上升,最终达到正常训练的学习率。在本方案的具体示例中,训练时选择的优化器为sgd,初始学习率为0.01,学习率变化策略为cosine decaying schedule,weight decay设置为0.05,momentum设置为0.9,batch视硬件设备而定,输入尺寸从448以步长32均匀过渡到832;随机初始化各层的连接权值w和偏置b,给定学习速率η和最小批次batch,选定激活函数smu,选定边框损失函数为ciou_loss以及当前数据下最大迭代次数进行训练。本方案训练所用的深度学习框架为pytorch,确定以上神经网络参数之后,输入处理后的数据,反复迭代直到神经网络输出层误差达到预设精度要求或训练次数达到最大迭代次数,结束训练,保存网络结构和参数,得到训练好的神经网络模型。
[0054]
值得一提的是,本专利中应用了显式正则化方法dropblock和隐式正则化方法数据增强,以此提高模型的泛化能力。
[0055]
这种引入随机变量的设计有效的克服了过拟合使模型有了更好的泛化能力。至此可训练得到检测待测目标的目标检测模型,根据训练样本不同可训练得到检测不同目标的目标检测模型。在本方案的一些实施例中,可利用标记有占有目标的消防通道作为训练样本,此时可训练得到消防通道占用目标检测模型。
[0056]
测试和推理阶段通过加载模型预测图像或视频中的目标,进行最后的卷积输出结果;所述输出的结果是推理时运行非极大值抑制:对于预测层最后的特征会划分多个格子,每个特征单元格中的任何一个都会有三个预测的边界框;其次抛弃概率低的预测,即模型认为这个网格中什么都没有的边界框;在推理阶段对于多种检测目标,对于每个类别单独运行非极大值抑制,输出最后的预测边框即为本次模型加载之后预测边框的能力。
[0057]
本方案提供的目标检测模型具有几大技术改进:(1)转置瓶颈残差模块,在浮点运算量和精度上的权衡比一般残差模块泛化性更强;(2)颈部多尺度融合网络,有效地解决大尺度方差问题,在跳跃层和跨尺度连接下,可以实现高级语义信息和低级空间信息的充分交换,这种方式可以让不同尺度的特征彼此学习,有助于目标检测精度的提升,特别是检测小和大的对象从而有效的缓解由大尺度变化引起的问题;(3)上下文感知的注意力网络,细致地考虑从像素到目标到场景的信息,定位
了局部特征或目标的位置,还从多个维度描述其丰富且互补的特征,从而得出完整图像或目标的内容;模块能够高效地编码局部特征的位置信息和外观信息,该模块将卷积网络输出的图像特征作为输入,学习调整特征中不同区域的重要性,从而得出局部区域的丰富的外观特征及其空间特征,进而进行准确的分类进而更好的定位。
[0058]
实施例二,本技术实施例提供了一种目标检测方法,具体地,该目标检测方法借助训练过的第一方面所述的目标检测模型进行目标检测,所述目标检测模型依次连接的主干网络、颈部多尺度特征融合网络以及神经网络头部,所述方法包括:获取包含待检测目标的待检测图像;主干网络包括独立的切片操作、转置瓶颈残差模块和3*3卷积,待检测图像在切片操作后经过3*3卷积输入到转置瓶颈残差模块中,经上一级转置瓶颈残差模块输出的图像特征在切片操作后输入到下一级转置瓶颈残差模块,不同级转置瓶颈残差模块分别输出不同尺度的尺度特征;不同尺度的尺度特征输入颈部多尺度特征融合网络中对应层级的1*1卷积中进行特征融合和特征通道统一化得到不同层级的初始特征,不同层级的初始特征经跳跃交叉融合模块进行高层语义信息和低层空间特征的融合得到不同层级的跳跃交叉融合特征,不同层级的跳跃交叉融合特征输入到上下文感知的注意力网络输出预测特征;预测特征输入神经网络头部中得到待检测目标。
[0059]
值得说明的是,本方案提及的所述神经网络头部已被训练,故其可基于输入的跳跃交叉融合特征预测得到待检测目标。根据训练的样本不同,神经网络头部可用于预测不同的目标。示例性,若训练样本为消防通道的占用目标,则该方案可用于预消防通道的占用目标,此时,待检测目标为消防通道的占用目标。
[0060]
主干网络的每一切片操作的输出对应一转置瓶颈残差模块,其中位于首位的切片操作的输出经历3*3卷积后输入到对应的转置瓶颈残差模块,其他切片操作的输出直接输入到对应的转置瓶颈残差模块中。在一些实施例中,主干网络包括主干网络包括四个切片操作、四个转置瓶颈残差模块以及一个3*3卷积,实现五次降采样。
[0061]
所述转置瓶颈残差模块包括至少一组的转置瓶颈残差子模块,不同层级的转置瓶颈残差模块包括不同数量组的转置瓶颈残差子模块。在本方案中,第一级转置瓶颈残差模块内包括三组串联的转置瓶颈残差子模块,第二级转置瓶颈残差模块包括三组串联的转置瓶颈残差子模块,第三级转置瓶颈残差模块包括九组串联的转置瓶颈残差子模块,第四级转置瓶颈残差模块包括三组串联的转置瓶颈残差子模块。每组转置瓶颈残差子模块内包括依次连接的7*7深度可分离卷积,第一1*1卷积、第二1*1卷积以及drop_path,其中7*7深度可分离卷积和第一1*1卷积之间归一处理,第一1*1卷积和第二1*1卷积之间设置使用一层激活层,每组转置瓶颈残差子模块的输入和输出进行元素级相加。
[0062]
在本方案中,7*7深度可分离卷积之后使用归一处理后输入到第一1*1卷积,第一1*1卷积和第二1*1卷积之间使用一层激活层,所述激活层可以是sum激活函数,归一处理采用层归一化处理。从而在两个1*1卷积层之间没有使用归一化层,只做了非线性投影。
[0063]
颈部多尺度特征融合网络利用1*1卷积分别对主干网络输出的不同尺度的尺度特征进行特征融合和特征通道统一得到不同尺度的初始特征,其中不同尺度的初始特征的特征通道数一致,不同层的初始特征在跳跃交叉融合模块中进行跳跃和交叉连接得到不同尺
度的跳跃交叉融合特征,不同尺度的跳跃交叉融合特征分别输入到上下文感知的注意力网络中得到预测特征。
[0064]
在“不同尺度跳跃交叉融合特征输入到上下文感知的注意力网络输出预测特征”步骤中,上下文感知的注意力网络将跳跃交叉融合特征进行放大宽高衍生出系列的候选区域,所有候选区域覆盖跳跃交叉融合特征的所有区域位置。将不同大小区域的候选区域采用双线性插值表现为固定大小的特征,相似的固定大小的特征进行加权处理后得到上下文向量,上下文向量经历全局平均池化后转换为区域序列,区域序列输入到长短时记忆网络中得出对应的隐藏状态序列作为预测特征。
[0065]
关于颈部多尺度特征融合网络和注意力网络的特征内容参考实施例一。
[0066]
实施例三,本方案提供一种消防通道占用目标检测方法,将消防通道占用目标作为训练样本对第一方面提到的目标检测模型进行训练,得到消防通道占用目标检测模型。众所周知的是,消防通道内堆积的目标尺寸可小,任何堆积在消防通道的非消防用具都可认为是占用目标,这些占用目标会影响消防通道的正常使用。而本方案提供的目标检测模型特别适用于检测不同尺度的目标,特别适合用于消防通道的占用目标的检测。
[0067]
借此手段,本方案可基于城市管理已建的固定摄像头利用消防通道占用目标检测模型,自动检测监控画面中消防通道占用问题,为消防通道占用治理提供了一种方便、快捷和开放的信息化管理空间,并依托深度学习技术,实现消防通道占用智能管理和运行的高效。依据神经网络检测的结果,使消防通道占用结案更加准确和快速定位破损位置,让城市治理更加高效执行和管理。
[0068]
具体的,该消防通道占用目标检测方法包括以下步骤:获取涵盖消防通道区域的待检测图像;所述待检测图像输入到消防通道占用目标检测模型中进行检测,若检测到占有目标,则判断消防通道上有占有目标,其中消防通道占用目标检测模型利用标记占有目标的消防通道的图像作为训练样本训练如上所述的目标检测模型得到。
[0069]
在“获取涵盖消防通道区域的待检测图像”步骤中,选取监控消防通道的摄像头的图像作为待检测图像。在一些实施例中,可对系统接口设置受摄像头地址和算法类型,回调地址等参数,接口启动一个新进程进而开始对摄像头的视频流抓取图像帧,并存入redis,同时通知监听程序;监听程序在收到通知过后从redis取出待测图像。
[0070]
关于消防通道占用目标检测模型的训练,选择标记占有目标的消防通道的图像作为训练样本。在一些实施例中,可对训练样本进行数据增强,具体可选择以下技术手段:采集的基础数据进行数据增强,增强方法为:1.颜色变换;2.旋转变换;3.添加噪声;4.锐化和模糊;5.缩放变换;6.平移变换:向上下左右四个维度移动图像;7.翻转变换;8.裁剪变换;9.仿射变换:对图像进行一次线性变换并接上一个平移变换。
[0071]
利用标记占有目标的消防通道的图像训练后的消防通道占用目标检测模型在实际使用时,将待检测图像输入到消防通道占用目标检测模型中输出消防通道占用目标包围框的位置与目标的置信度。
[0072]
另外,可在消防通道占用目标检测模型的使用过程中对其进行迭代处理:搜集一批新的数据,让消防通道占用目标检测模型去检测这一批数据,将检测结果划分为两大类
有框图像和无框图像,有框图像又分为真正目标图像和误报目标图像,无框图像又可分为未检测目标的图像和图像中本来就没有目标的图像,其中将误报目标图像作为负样本,将含有消防通道占用目标但未检测到的图像作为训练样本,随后这些没检测到目标图像进行数据标注和数据增强,然后在原有模型的基础上在训练出一个新的消防通道占用目标检测模型,测试模型效果检查精度是否达标,如果新的消防通道占用目标检测模型未达标加入新的数据并对网络调整参数训练,如果模型精度已经达到要求并且在目前训练数据下最优时停止训练,循环这个步骤以达到消防通道占用目标检测模型适合实际环境中样本的复杂度。
[0073]
为了实现对占有目标的消防通道进行管理,本消防通道占用目标检测方法还包括以下步骤:当检测到消防通道中含有占有目标,通知对应的管理部门。
[0074]
实施例三基于相同的构思,参考图6,本技术还提出了一种目标检测装置,包括:图像获取单元301,用于获取包含待检测目标的待检测图像;尺度特征获取单元302,用于处理待检测图像得到不同尺度的尺度特征,待检测图像在切片操作后经过3*3卷积输入到转置瓶颈残差模块中,经上一级转置瓶颈残差模块输出的图像特征在切片操作后输入到下一级转置瓶颈残差模块,不同级转置瓶颈残差模块分别输出不同尺度的尺度特征;预测特征获取单元303,用于处理尺度特征得到预测特征,不同尺度的尺度特征输入颈部多尺度特征融合网络中对应层级的1*1卷积中进行特征融合和特征通道统一化得到不同层级的初始特征,不同层级的初始特征经跳跃交叉融合模块进行高层语义信息和低层空间特征的融合得到不同尺度的跳跃交叉融合特征,不同尺度的跳跃交叉融合特征输入分别到上下文感知的注意力网络输出预测特征;预测单元304,用于将预测特征输入神经网络头部中得到待检测目标。
[0075]
关于目标检测方法的技术特征的可详见上述实施例的介绍,为了避免重复介绍,在此不进行累赘说明。
[0076]
实施例四本实施例还提供了一种电子装置,参考图7,包括存储器404和处理器402,该存储器404中存储有计算机程序,该处理器402被设置为运行计算机程序以执行上述任一项目标检测方法或者消防通道目标检测方法的实施例中的步骤。
[0077]
具体地,上述处理器402可以包括中央处理器(cpu),或者特定集成电路(applicationspecificintegratedcircuit,简称为asic),或者可以被配置成实施本技术实施例的一个或多个集成电路。
[0078]
其中,存储器404可以包括用于数据或指令的大容量存储器404。举例来说而非限制,存储器404可包括硬盘驱动器(harddiskdrive,简称为hdd)、软盘驱动器、固态驱动器(solidstatedrive,简称为ssd)、闪存、光盘、磁光盘、磁带或通用串行总线(universalserialbus,简称为usb)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器404可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器404可在数据处理装置的内部或外部。在特定实施例中,存储器404是非易失性(non-volatile)存储器。在特定实施例中,存储器404包括只读存储器(read-onlymemory,简称为rom)和随机
存取存储器(randomaccessmemory,简称为ram)。在合适的情况下,该rom可以是掩模编程的rom、可编程rom(programmableread-onlymemory,简称为prom)、可擦除prom(erasableprogrammableread-onlymemory,简称为eprom)、电可擦除prom(electricallyerasableprogrammableread-onlymemory,简称为eeprom)、电可改写rom(electricallyalterableread-onlymemory,简称为earom)或闪存(flash)或者两个或更多个以上这些的组合。在合适的情况下,该ram可以是静态随机存取存储器(staticrandom-accessmemory,简称为sram)或动态随机存取存储器(dynamicrandomaccessmemory,简称为dram),其中,dram可以是快速页模式动态随机存取存储器404(fastpagemodedynamicrandomaccessmemory,简称为fpmdram)、扩展数据输出动态随机存取存储器(extendeddateoutdynamicrandomaccessmemory,简称为edodram)、同步动态随机存取内存(synchronousdynamicrandom-accessmemory,简称sdram)等。
[0079]
存储器404可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器402所执行的可能的计算机程序指令。
[0080]
处理器402通过读取并执行存储器404中存储的计算机程序指令,以实现上述实施例中的任意一种目标检测方法或者消防通道目标检测方法的。
[0081]
可选地,上述电子装置还可以包括传输设备406以及输入输出设备408,其中,该传输设备406和上述处理器402连接,该输入输出设备408和上述处理器402连接。
[0082]
传输设备406可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中,传输设备包括一个网络适配器(network interface controller,简称为nic),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备406可以为射频(radio frequency,简称为rf)模块,其用于通过无线方式与互联网进行通讯。
[0083]
输入输出设备408用于输入或输出信息。在本实施例中,输入的信息可以是消防通道的监控视频等,输出的信息可以是占有目标等。
[0084]
可选地,在本实施例中,上述处理器402可以被设置为通过计算机程序执行以下步骤:获取包含待检测目标的待检测图像;主干网络包括独立的切片操作、多级转置瓶颈残差模块和3*3卷积,待检测图像在切片操作后经过3*3卷积输入到转置瓶颈残差模块中,经上一级转置瓶颈残差模块输出的图像特征在切片操作后输入到下一级转置瓶颈残差模块,不同级转置瓶颈残差模块分别输出不同尺度的尺度特征;不同尺度的尺度特征输入颈部多尺度特征融合网络中对应层级的1*1卷积中进行特征融合和特征通道统一化得到不同层级的初始特征,不同层级的初始特征经跳跃交叉融合模块进行高层语义信息和低层空间特征的融合得到不同层级的跳跃交叉融合特征,不同层级跳跃交叉融合特征分别输入到上下文感知的注意力网络输出预测特征;步骤s104、预测特征输入神经网络头部中得到待检测目标。
[0085]
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
[0086]
通常,各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发
明的一些方面可以以硬件来实现,而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件来实现,但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示,但是应当理解,作为非限制性示例,本文中描述的这些框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。
[0087]
本发明的实施例可以由计算机软件来实现,该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行,或者由硬件来实现,或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中,并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外,在这一点上,应当注意,如图中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如dvd及其数据变体、cd等光学介质上。物理介质是非瞬态介质。
[0088]
本领域的技术人员应该明白,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0089]
以上实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献