一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种改进Yolox算法的火焰烟雾目标检测方法与流程

2023-10-22 12:17:48 来源:中国专利 TAG:

一种改进yolox算法的火焰烟雾目标检测方法
技术领域
1.本技术涉及一种改进yolox算法的火焰烟雾目标检测方法,属于火焰烟雾检测领域。


背景技术:

2.火灾指在时间或空间上失去控制的燃烧,常发生于森林、仓库、工厂等场所。仓库是物资集中存储的场所,包括国家、集体和个人经营的储存物品的各类货物集中地。森林、仓库等由于易燃物密集、占地面积大、火焰燃烧迅速,一旦失火,将会造成巨大的经济损失及社会影响。如何准确、快速地检测火情,一直以来都是研究的热点问题。
3.目前,火灾检测方法主要分为基于传感器检测和图像目标检测两大类。传统的传感器检测方式受检测距离影响,响应时间慢,实时性差,且难以获取失火地点的现场状况:如燃烧特征、火势大小等,一旦失火将会导致火势蔓延难以控制。近年来深度学习算法发展迅速,基于深度学习的火灾检测算法具有抗干扰能力强、准确率高等特点,成为当前热门的研究方向。深度学习的火灾检测研究主要分为火灾图片分类任务和火灾目标检测任务,hosseini等人细化火灾特征类别,将火灾图片类别分为八类,提出高效可裁剪的卷积神经网络并通过投票机制对图片进行火灾分类,同时检测出视频帧的火灾和烟雾;li等人设计了一种轻量级one-stage的火焰目标检测框架,并通过火灾定位策略将火灾位置映射到真实世界中;xu等人将特征提取网络的最后一层替换为sepvit(separable vision transformer)结构,在网络中加入全局注意力机制gam(global attention mechanism),提高了获取全局信息的能力;张彬彬等人通过改进特征金字塔网络对局部信息进行二次提取,使用大尺度卷积以获取不同尺度的全局空间信息,通过改进通道空间注意力机制提高有效信息。上述深度学习方法从数据、网络结构等方面提升了模型精度,在火灾检测表现出很好的效果,但是现有的火灾检测技术都是特定场景的火灾检测或者依靠自建的数据集训练模型。这使得模型的泛化能力有限,在实际应用的过程中无法应对更加复杂的火灾场景。并且火焰烟雾目标的形态多样性,提高了检测难度,使得检测复杂环境中的火焰和烟雾目标更具挑战性。


技术实现要素:

4.本技术的目的在于提供一种改进yolox算法的火焰烟雾目标检测方法,提高了火焰烟雾目标检测的检测精度和检测速度,可以在复杂场景进行火焰烟雾图像目标检测。
5.为实现上述目的,本技术第一方面提供了一种改进yolox算法的火焰烟雾目标检测方法,包括:
6.获取火焰烟雾的图像数据,并通过数据增强对图像数据进行预处理,得到数据集;
7.通过acmix注意力机制和条件卷积对yolox模型进行改进,得到yolox-act模型;
8.基于所述数据集对所述yolox-act模型进行训练并得到火焰烟雾目标的预测框;
9.设计whiou损失函数,通过所述whiou损失函数计算所述预测框与真实框之间的长
宽耦合损失,并通过梯度回传更新所述yolox-act模型的参数,得到最优模型权重;
10.基于所述最优模型权重和所述yolox-act模型得到目标检测模型,通过所述目标检测模型对火焰烟雾目标进行检测。
11.在一种实施方式中,所述通过数据增强对图像数据进行预处理包括:
12.针对复杂场景下的图像数据,使用moscia算法对复杂环境进行模拟,增强图像数据的背景信息。
13.在一种实施方式中,所述通过数据增强对图像数据进行预处理包括:
14.对所述图像数据进行标注,并在标注过程中利用mixup算法对图像数据进行图像增强,降低图像数据的噪声。
15.在一种实施方式中,所述通过acmix注意力机制和条件卷积对yolox模型进行改进包括:
16.通过acmix注意力机制设计第一改进模块,通过所述第一改进模块替换所述yolox模型特征提取部分中的末端特征提取层;
17.通过条件卷积设计第二改进模块,通过所述第二改进模块替换所述yolox模型特征融合部分和预测层中的普通卷积。
18.在一种实施方式中,所述第一改进模块中,输入的图像数据先通过两个卷积层,然后分别通过三个尺寸不同的最大池化层以提取不同尺度的空间信息,将三个不同尺度的空间信息拼接后通过卷积层再经过acmix自适应的关注不同的目标区域,捕获特征信息。
19.在一种实施方式中,所述第二改进模块中,图像数据先通过卷积层,后经过条件卷积得到三通道输出,其中,所述三通道输出分别是类别、回归和iou输出;
20.所述yolox-act模型基于所述三通道输出得到火焰烟雾目标的预测框。
21.在一种实施方式中,所述通过whiou损失函数计算所述预测框与真实框之间的长宽耦合损失包括:
22.分别计算所述预测框与真实框之间的宽度损失和高度损失,并将宽度损失和高度损失进行耦合,得到所述长宽耦合损失,其中,当预测框与真实框的宽度相同时,将所述高度损失作为所述长宽耦合损失,当预测框与真实框的高度相同时,将所述宽度损失作为所述长宽耦合损失。
23.在一种实施方式中,当所述高度损失和所述宽度损失都趋于零时,所述whiou损失函数等于diou损失函数。
24.本技术第二方面提供了一种电子设备,包括:存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述第一方面或者上述第一方面的任一实施方式中的步骤。
25.本技术第三方面提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序被处理器执行时实现上述第一方面或者上述第一方面的任一实施方式中的步骤。
26.由上可见,本技术提供了一种改进yolox算法的火焰烟雾目标检测方法,使用acmix注意力机制和条件卷积改进并优化yolox模型的网络结构,使改进后得到的模型能够自适应地关注不同的目标区域并捕获更多的特征信息,提升模型的检测精度;同时针对火焰烟雾目标形状的多样性,设计使用了whiou损失函数,进一步考虑预测框和真实框的长宽
耦合损失,提高了模型的检测性能,使模型在训练过程中更好的学习烟火目标的形状特征。此外,还采用数据增强方式对图像数据进行预处理,丰富图片的背景信息和数据集火灾特征信息,抑制了标签噪声,进一步提升模型的定位能力和泛化能力。本技术提供的火焰烟雾目标检测方法在火焰烟雾检测任务中具有良好的实验效果,在不增加模型参数的情况下,提高了模型的精度、准确率和泛化能力。
附图说明
27.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
28.图1为本技术实施例提供的一种火焰烟雾目标检测方法的流程示意图;
29.图2为本技术实施例提供的一种经过预处理的图像数据示意图;
30.图3为本技术实施例提供的一种第一改进模块的结构示意图;
31.图4为本技术实施例提供的一种第二改进模块的结构示意图;
32.图5为本技术实施例提供的一种ciou、eiou和whiou评估预测框和真实框损失的对比图;
33.图6为本技术实施例提供的一种数据集分析图;
34.图7为本技术实施例提供的一种训练过程中的损失值曲线图;
35.图8为本技术实施例提供的一种yolox模型的检测效果图;
36.图9为本技术实施例提供的一种yolox-act模型的检测效果图。
具体实施方式
37.以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本技术实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其他实施例中也可以实现本技术。在其它情况下,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本技术的描述。
38.应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
39.还应当理解,在本技术说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本技术。如在本技术说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
40.下面结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术的一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本技术保护的范围。
41.在下面的描述中阐述了很多具体细节以便于充分理解本技术,但是本技术还可以采用其它不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本技术内涵的
情况下做类似推广,因此本技术不受下面公开的具体实施例的限制。
42.实施例一
43.本技术实施例提供了一种改进yolox算法的火焰烟雾目标检测方法,如图1所示,该火焰烟雾目标检测方法包括:
44.s100获取火焰烟雾的图像数据,并通过数据增强对图像数据进行预处理,得到数据集;
45.可选的,将上述数据集分为训练集、验证集和测试集。通过训练集对后续改进后的yolox-act模型进行训练,然后通过验证集对训练后的模型进行效果验证并通过测试集测试模型性能,以得到最终的目标检测模型。
46.可选的,在训练过程通过数据增强对图像数据进行预处理,其中,数据增强方式包括moscia算法和mixup算法。
47.在一种实施方式中,由于火焰烟雾图像场景复杂,且在各类场景样本分布不均,因此使用moscia算法对复杂环境进行模拟。其中,moscia算法的操作过程为按批次从训练集中选取四张样本,将四张样本进行随机裁剪和缩放,按照左上、右上、左下和右下的顺序拼接为一张图。moscia算法增加了火焰烟雾图像数据的背景信息,提高了模型检测火焰烟雾目标的精度;同时变相增加了批次数量,使得单gpu就可以完成复杂数据训练,降低了训练成本。
48.进一步的,在数据集的标注过程中,可能存在标注不准确的问题,使得训练过程中存在噪声,因此本技术实施例使用mixup算法增强图像后,降低噪声对模型的影响。其中,mixup算法的具体操作是将两张图片按比例叠加,生成一张新图像。mixup算法提高了模型的泛化能力,使模型在检测真实火焰烟雾场景时也具有较高的精度。moscia和mixup算法进行数据增强的效果如图2所示。
49.进一步的,得到数据集后,通过数据处理将数据集中各图像数据的尺寸调整为适合模型的输入尺寸后,再输入至yolox-act模型,以便更快得到较为准确的预测框,其中,适合模型的输入尺寸可以为640*640的特征图,也可以为其他尺寸的特征图,此处不做限定。
50.s200通过acmix注意力机制和条件卷积对yolox模型进行改进,得到yolox-act模型;
51.在一种实施方案中,基础的yolox模型有六个版本:nano,tiny,s,m,l和x。yolox模型的默认输入数据尺寸为640*640。为了模型可以更轻便的在低算力设备上使用,本技术实施例选择了参数最少的yolox-nano模型作为实验的基础模型并进行改进。该模型主要分为三部分,第一部分是特征提取,由cspdarknet(cross stage partial darknet)结构堆叠而成,特征由第3、4、5层输出,输出特征大小为[1,64,80,80]、[1,128,40,40]、[1,256,20,20];第二部分是特征融合,采用pafpn结构,由上采样传递高层特征,下采样传递低层特征,通过拼接和csplayers(cross stage partial layers)完成特征融合,特征融合后的输出特征层大小为[1,64,80,80],[1,128,40,40],[1,256,20,20];第三部分是预测层,与传统的耦合预测层不同,yolox采用了解耦预测层结构。解耦结构将回归和分类任务分离,对于火焰和烟雾检测任务,解耦预测层输出为2维物体类别 1维类别置信度 4维的特征点回归参数,拼接得到组合维度数7。
[0052]
可选的,所述通过acmix注意力机制和条件卷积对yolox模型进行改进包括:
[0053]
通过acmix注意力机制设计第一改进模块,通过所述第一改进模块替换所述yolox模型特征提取部分中的末端特征提取层;
[0054]
通过条件卷积设计第二改进模块,通过所述第二改进模块替换所述yolox模型特征融合部分和预测层中的普通卷积。
[0055]
在一种实施方式中,注意力机制使视觉神经网络在提取特征时更多地关注特征的本质部分,在计算机视觉领域取得了重大研究成果。近年来,人们提出了新的注意机制来提高网络性能如:parnet、s2注意力、金字塔挤压注意力、coatnet注意力、outlook注意力、acmix等。传统的注意力机制如eca、cbam、se等本质上是对卷积的增强,证明了注意力机制的有效性,而自注意力则是使用独立的块代替卷积。目前主流的研究是将注意力和卷积集成到单个块中,没有考虑和利用它们之间的联系。acmix结合了卷积和自注意力的优势,将卷积和自注意力阶段合并,在各自进行卷积偏置计算和注意力权重计算后凝聚局部特征。最终将卷积和自注意力路径的结果加权求和。与其他注意力不同,加权求和可以使模型根据学习情况分配卷积和注意力的权重,使注意力的添加更有效。acmix将卷积和注意力的一阶段合并,具有较低的计算开销,其自注意力分支能够增强模型对火焰和烟雾特征的提取能力,提高模型的准确性。因此本技术实施例在yolox特征提取部分,使用acmix来设计新的末端特征提取层。改进模块1(即第一改进模块)的具体结构如图3所示,其中h为特征图的高,w为特征图的宽,c为特征通道数,n为自注意力头的数量,k为卷积核尺寸,α为卷积路径的权重,β为自注意力路径的权重。在改进模块1中,输入数据首先通过两个卷积核尺寸为3
×
3的卷积层,后分别通过尺寸为5、9、13的最大池化层提取不同尺度的空间信息,将三个通道的信息拼接后经过卷积核尺寸为3
×
3的卷积再经过acmix自适应的关注不同的目标区域,捕获更多的特征信息,其中偏移求和是将卷积核和特征图的位置进行偏移,然后进行聚合,注意力聚合为注意力权重和value矩阵的聚合,即聚集局部特征。
[0056]
在一种实施方式中,动态卷积的提出是为了在不增加卷积核数量的情况下提高网络的表达能力。近年来提出了许多新的卷积形式,如条件卷积、内卷卷积、活力卷积等。条件卷积中的卷积核参数是多个专家知识的线性组合,可以通过增加专家数量来提升卷积核生成函数的尺寸与复杂度,而且专家知识只组合一次,这样就可以在提升模型容量的同时保持高效推理。因此本技术实施例将csplayer和预测头中的普通卷积替换成条件卷积,条件卷积结构如图4所示。数据通过卷积操作后,又经过条件卷积得到三通道输出,分别是类别、回归和iou输出,这使得在结构参数相同甚至更少时,模型具有更强的表达能力,可以学习更多火焰和烟雾特征信息。所述yolox-act模型基于所述三通道输出即可得到火焰烟雾目标的预测框。s300基于所述数据集对所述yolox-act模型进行训练并得到火焰烟雾目标的预测框;
[0057]
可选的,在训练过程中,将经过数据处理的特征图输入到yolox-act模型中,经过模型预测得到三通道输出,对该三通道输出进行数据后处理得到预测框,其中,数据后处理包括解码输出和非极大值抑制。
[0058]
s400设计whiou损失函数,通过所述whiou损失函数计算所述预测框与真实框之间的长宽损失,并通过梯度回传更新所述yolox-act模型的参数,得到最优模型权重;
[0059]
在一种实施方式中,损失用于评估预测值和实际值之间的差异,指导模型的优化方向,iou损失是最经典的边界框回归损失。为了增强模型学习数据特征的能力,随后出现
了giou、diou、ciou和eiou。iou直接计算预测框和实际框的相交比,giou解决了预测框和实际框如何相交问题,diou考虑了预测框与实际框的中心距离。ciou和eiou都引入形状差异的计算,以反映预测框与真实框形状的接近程度,但以上方法都没有考虑预测框与真实框的长宽差异的问题,因此若采用以上方法对火焰烟雾目标进行检测,会存在因火焰烟雾目标形态多样性而产生较大误差的问题,为了更真实地反映预测框和真实框的接近程度,学习火焰和烟雾的形状特征,本技术实施例提出了whiou损失算法,基于whiou损失函数将宽度和高度的计算耦合。
[0060]
可选的,所述通过whiou损失函数计算所述预测框与真实框之间的长宽耦合损失包括:
[0061]
分别计算所述预测框与真实框之间的宽度损失和高度损失,并将宽度损失和高度损失进行耦合,得到所述长宽耦合损失,其中,当预测框与真实框的宽度相同时,将所述高度损失作为所述长宽耦合损失,当预测框与真实框的高度相同时,将所述宽度损失作为所述长宽耦合损失。
[0062]
在一种实施方式中,whiou损失函数包括:
[0063]
whiou=diou-α*ν
[0064][0065][0066][0067]
其中,ρ2(b,b
gt
)指的是预测框与真实框之间的中心距离值。ρ(w,w
gt
)用来计算宽度差值,ρ(h,h
gt
)用来计算高度差值,β是学习率参数,a为预测框面积,b为真实框面积,ν为形状损失值,α为形状损失值的权重,c为预测框与真实框最大对角线的长度。
[0068]
进一步的,whiou损失函数同时考虑了预测框和真实框之间的宽度和高度差异,并将这些差异结合起来,以更好地描述火灾烟雾的形状。当预测框与真实框的宽度和高度同时存在差值时,公式就会产生惩罚项,从而使计算的损失值更大,模型向更准确的预测方向收敛。而当预测框与真实框的宽度或高度相同时,宽度或高度损失被单独计算。此时,所述whiou损失函数包括:
[0069][0070][0071]
当所述高度损失和所述宽度损失都趋于零时,所述whiou损失函数等于diou损失函数。此时,所述whiou损失函数包括:
[0072]
[0073][0074]
s500基于所述最优模型权重和所述yolox-act模型得到目标检测模型,通过所述目标检测模型对火焰烟雾目标进行检测。
[0075]
图5中,(a)、(b)和(c)分别展示了采用ciou、eiou和whiou评估预测框和真实框状差异的计算示意图。图中阴影部分的面积为计算得到的真实框与预测框形状差异的评估值。ciou分别计算预测框和真实框宽高比,然后通过作差法得到预测和真实框形状的差异值;eiou则分别计算宽度和高度的差值的平方,将得到的两个平方值进行求和,得到形状差异的度量;whiou通过计算真实框与预测框的宽和高差值的完全平方,得到对形状差异的评估。与eiou的不同在于引入了两倍宽高差异的乘积,增加了真实框和预测框的宽和高同时存在差异时的惩罚项,并且差值越大惩罚越大,这使得模型在训练时更快更准确的学习火焰和烟雾的形状特征。
[0076]
由上可见,本技术实施例提供了一种改进yolox算法的火焰烟雾目标检测方法,使用acmix注意力机制和条件卷积改进并优化yolox模型的网络结构,使改进后得到的模型能够自适应地关注不同的目标区域并捕获更多的特征信息,提升模型的检测精度;同时针对火焰烟雾目标形状的多样性,设计使用了whiou损失函数,进一步考虑预测框和真实框的长宽耦合损失,提高了模型的检测性能,使模型在训练过程中更好的学习烟火目标的形状特征。此外,还采用数据增强方式对图像数据进行预处理,丰富图片的背景信息和数据集火灾特征信息,抑制了标签噪声,进一步提升模型的定位能力和泛化能力。
[0077]
实施例二
[0078]
本技术实施例通过对比实验对实施例一提供的火焰烟雾目标检测方法的效果进行展示,具体实验过程如下:
[0079]
由于目前缺乏标准的火灾烟雾图像检测数据集,本技术实施例中通过互联网收集、标注,并整合现有的火灾烟雾数据,形成复杂场景(森林、商场、居民楼、室内、车、野营等场景)下的火焰烟雾检测数据集(fs-dataset)。将数据集按8:1:1划分为训练集、验证集和测试集,如表1所示。
[0080]
表1数据集划分
[0081]
数据集训练集验证集测试集总计fs-dataset159841777197419735
[0082]
如图6为数据集分析示意图,图6(a)表示类别数量分布、图6(b)表示真实框形状可视化、图6(c)表示真实框的中心在原图的相对位置、图6(d)表示真实框宽高占原图的比例。fs-dataset数据集中共有19735张图像,其中火焰目标为26330个,烟雾目标为14332个,如图6(a)所示。图6(b)为标签(真实框)形状可视化,图中的矩形框代表真实框的形状,种类越多则真实框的形状越复杂。图6(c)和图6(d)为标签(真实框)的二维直方图,展示了真实框的空间分布情况,图中颜色越深代表此区域的标签分布越集中,颜色越淡代表标签空间分布越离散。图6(c)的x、y轴坐标表示真实框中心点的位置,从图6(c)可以看出,大多数标签位置都集中分布在x轴的中心,在y轴上离散分布。图6(d)对真实框的大小进行了归一化,其坐标分别表示真实框的宽度和高度。从图6(d)可以看出,真实框的宽度和高度多数都集中在(0.0,0.2]的区间中,面积约占整个图形的1/25。综上,fs-dataset中火焰烟雾目标不仅
形状多样,且位置分布不一,极大的丰富了样本的多样性。
[0083]
实验环境及参数设置如下:
[0084]
实验中使用了windows 11操作系统,intelcorei9-13900h cpu@2.60ghz处理器,16gb内存,以及nvidia geforce rtx4060 laptop gpu。该实验基于pytorch2.0,使用cuda 11.8进行运算。实验使用sgd优化器进行训练,初始学习率为0.01,动量为0.937,衰减率为0.001。数据训练150次,批次大小等于4。
[0085]
实验评估指标如下:
[0086]
在本技术实施例中,精度(p)、召回率(r)、平均精度(ap)和均值平均精度(map)被用作模型性能的评价指标,通过真阳性(tp)、假阳性(fp)、真阴性(tn)和假阴性(fn)计算。其中tp是指正样本被正确识别的数量,fp是指误报的负样本数量,tn是指负样本被正确识别的数量,fn是指漏报的正样本数。ap是pr曲线(以p作为纵坐标轴,r作为横坐标轴的曲线)与坐标轴包围的面积,map是n个类别的ap平均值。具体公式如下:
[0087][0088][0089][0090][0091]
fps表示每秒钟检测到的图像数量,是评估模型速度的一个基本指标。为了获得对检测速度的准确衡量,计算100张图像的平均fps,并将该值作为最终的fps。prepro,inference,postpro,分别代表图像预处理、推理和后处理的时间。
[0092][0093]
实验结果及分析如下:
[0094]
为验证数据增强的有效性,对比方法如下:使用未进行数据增强、进行moscia数据增强以及moscia和mixup数据增强的数据进行对比实验,实验使用yolox为基础模型。实验结果如表2所示。使用moscia和mixup数据增强技术后,使数据多样性增加,提升了模型的泛化能力,模型map提高了5.03%。
[0095]
表2数据增强技术对比
[0096]
[0097]
为了验证whiou方法的有效性,下面设置了一系列的消融实验。实验以yolox为基础模型,在数据增强的基础上进行,在测试集上将whiou和其他常用的损失函数进行了比较测试。
[0098]
表3不同损失方法的对比
[0099][0100]
由表3可以看出,对比其他方法whiou损失方法的召回率明显提高。其中采用whiou的yolox与采用iou的yolox相比,识别火焰的召回率提高了2.87%,识别烟雾的召回率提高了3.06%。与使用eiou的yolox相比,识别火焰的召回率提高了2.09%,识别烟雾的召回率提高了2.02%。在图7训练过程的损失值曲线中,使用whiou的模型能够更详细的考虑预测框和真实框之间的形状差异,更好地描述火焰烟雾的形状,在训练时能够更快的收敛。
[0101]
为了验证acmix和condconv结构的有效性,表4设置了不同注意力机制的对比试验以及不同模型方法之间的对比实验。acmix注意力与eca、cbam、coat注意力相比map分别提升了0.7%、1.6%、1.7%,这是由于acmix考虑了卷积与注意力的内在联系,卷积和自注意力权重加权可以确保注意力机制的添加起到积极的效果。acmix将卷积和自注意力的一阶段合并使得模型的参数量少于其他注意力机制。condconv结构使模型参数量降低并且map进一步提升0.4%。实验选取了yolox系列的三种代表性目标检测模型进行对比,yolov3为工业界广泛使用的算法,yolov5为最受欢迎的目标检测算法,以及最新的yolov8算法。与yolov8n相比,尽管只有0.3%map的提升,但yolox-act的参数量只占yolov8n的29.15%。对比yolo系列的其他算法,yolox-act模型参数量更少,在低算力设备移植上具有明显优势。最终,yolox-act与yolox相比,在模型参数没有增加的情况下,map提高了2.3%,与没有数据增强的yolox相比map提高了7.3%。
[0102]
表4不同模型及注意力机制的对比
[0103]
方法参数量(m)map0.5(%)fps(f/s)yolox0.89772.694yolox whiou—73.5—yolox whiou eca1.11573.888yolox whiou cbam1.12472.991yolox whiou coat1.69372.884yolox whiou acmix0.94974.587
yolov3-tiny12.1367.7250yolov5n2.5070.4303yolov5s7.0771.1108yolov8n3.0174.6278yolox-act0.89574.984
[0104]
图8和图9分别展示了原模型yolox和yolo-act模型在复杂火灾环境下的火焰和烟雾检测结果。图中蓝色框线表示烟雾检测结果,红色框线表示火灾检测。结果在yolox和yolox-act都能检测到目标的情况下,yolox-act取得了更高的精度,并且yolox-act在火焰信息较少的小火焰目标和模糊烟雾上表现出更好的检测效果。
[0105]
实施例三
[0106]
本技术实施例提供了一种电子设备,该电子设备包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序,其中,存储器用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器和处理器通过总线连接。具体地,处理器通过运行存储在存储器的上述计算机程序时实现上述实施例一中的任一步骤。
[0107]
应当理解,在本技术实施例中,所称处理器可以是中央处理单元(central processing unit,cpu),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0108]
存储器可以包括只读存储器、快闪存储器和随机存储器,并向处理器提供指令和数据。存储器的一部分或全部还可以包括非易失性随机存取存储器。
[0109]
由上可见,本技术实施例提供的一种电子设备,通过运行计算机程序实现如实施例一所示的火焰烟雾目标检测方法,使用acmix注意力机制和条件卷积改进并优化yolox模型的网络结构,使改进后得到的模型能够自适应地关注不同的目标区域并捕获更多的特征信息,提升模型的检测精度;同时针对火焰烟雾目标形状的多样性,设计使用了whiou损失函数,进一步考虑预测框和真实框的长宽耦合损失,提高了模型的检测性能,使模型在训练过程中更好的学习烟火目标的形状特征。此外,还采用数据增强方式对图像数据进行预处理,丰富图片的背景信息和数据集火灾特征信息,抑制了标签噪声,进一步提升模型的定位能力和泛化能力。
[0110]
应当理解,上述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本技术实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,上述计算机程序可存储于以计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,上述计算机程序包括计算机程序代码,上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读介质可以包括:能够携带上述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)、随机存取存储器
(ram,random access memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,上述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。
[0111]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
[0112]
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将上述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本技术的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0113]
需要说明的是,上述实施例所提供的方法及其细节举例可结合至实施例提供的装置和设备中,相互参照,不再赘述。
[0114]
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各实例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟是以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
[0115]
在本技术所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其他的方式实现。例如,以上所描述的装置/设备实施例仅仅是示意性的,例如,上述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以由另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
[0116]
上述实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围,均应包含在本技术的保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表