一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于监控视频的车间危险行为识别报警方法及系统

2022-11-13 12:42:46 来源:中国专利 TAG:


1.本发明涉及车间安全行为识别技术领域,特别涉及一种基于监控视频的车间危险行为识别报警方法及系统。


背景技术:

2.随着工业的发展,企业内存在的安全问题并未得到有效控制。工人的安全防范意识并没有得到相应增强,这也导致车间内安全事故频发。目前绝大多数企业的监控摄像头众多,其依赖于人工对监控视频的实时反映。一方面极其消耗人力运营成本,另一方面依赖人力的监控存在较高的漏报漏识别率。因此车间配备安全辅助识别报警装置也尤为重要。
3.在车间内,工人的抽烟行为可能会导致火灾事故;工人的进食、玩手机行为可能使工人的分心而导致安全事故。因此危险行为检测技术是识别报警装置的重要技术组成部分。传统的目标检测方法包括应用传统机器学习方法和应用深度学习方法。而车间内环境复杂、人员走动、光照变化等问题,则容易导致对危险行为漏检及误判。
4.机器视觉的运用可以使得在监控视频和计算机硬件设施集成的情况下实现非人工的检测识别危险行为,从而达到减少人力成本、提高检测效率的目的。
5.现有的危险行为检测识别方法大多是基于深度学习的方法,通过对目标检测领域的经典算法进行简单的训练集替换操作,用来对各种危险行为进行检测识别。比如运用目标检测中常见的两种检测方法,目前最常用的两阶段目标检测faster r-cnn系列和单阶段目标检测yolo系列。但在实际运用场景中,由于车间内环境复杂、光线明暗和待检测目标大小角度变化等问题,导致现有的目标检测算法在实时检测中无法满足检测精度(map)和检测速度(fps)的需求。其次,车间内硬件设施通常不足以满足复杂模型的算力需求,因此需要在考虑检测精度和检测速度平衡的前提下,减少模型的训练参数从而充分利用gpu提供的硬件并行计算能力。


技术实现要素:

6.针对现有技术中存在的不足,本发明提供了一种基于监控视频的车间危险行为识别报警方法及系统,基于改进后的yolov4-mobilenet v3网络模型检测,充分考虑到车间基础硬件设施效能低下的情况,能够对车间内行为进行实时监控并检测,提高检测危险行为的速度和准确率,并触发报警模块及时通知安全人员。大幅降低了车间设备成本,减少了车间内危险行为的发生且提高了车间内安全性,能有效地维护车间的良好秩序和生产工作。
7.本发明是通过以下技术手段实现上述技术目的的。
8.一种基于监控视频的车间危险行为识别报警方法,包括如下步骤:
9.s1:采集危险行为图像数据集,通过图像增广技术对获取的图像进行数量补充;
10.s2:对危险行为图像预处理,确定训练集和测试集;
11.s3:利用改进后的yolov4-mobilenet v3深度学习网络架构,构建多个危险行为识别模块;
对其进行变换操作:
[0031][0032]
式中,[,]为沿空间维数的连接操作;δ为非线性激活函数;fc∈r
c/r
×
(h w)
为对空间信息在水平方向和垂直方向进行编码的中间特征映射;沿着空间维度将生成的fc分解为两个单独的张量和r用于控制se block大小的缩减率;
[0033]
利用另外两个1*1卷积变换函数fh和fw分别将第c通道中特征图和变换,输出表示为和和和分别作为注意力权重如下式:
[0034][0035][0036]
其中,σ是sigmoid激活函数,i为第c通道中水平坐标变量,j为第c通道中垂直坐标变量;
[0037]
注意力ca机制模块的输出如下:
[0038][0039]
其中:xc(i,j)是第c通道中的输入特征。
[0040]
进一步,在neck加强特征提取网络中,将yolov4网络中的panet模块中普通卷积更换为深度可分离卷积,其中深度可分离卷积参数量是普通卷积的倍,式中dk为卷积核大小,n为输出通道数。
[0041]
进一步,所述置信度定义为:
[0042][0043]
其中,表示第m个网格单元的第n个边界框的置信度;pr(object)代表当前边界框有对象的概率;表示当前的边界框有对象时,预测的边界框和物体真实的边界框交并比。
[0044]
一种所述的基于监控视频的车间危险行为识别报警方法的系统,包括监控设备、计算设备、控制设备、显示设备和报警设备;
[0045]
所述监控设备用于采集车间监控摄像头拍摄的实时视频数据,将车间实时视频传输至所述计算设备;所述计算设备内包括训练完成的多个危险行为识别模块,用于对视频传输中的图像帧进行检测识别,并将带有目标位置、类别和置信度的实时视频传输至显示设备和控制设备,
[0046]
所述控制设备通过对比设定的置信度阈值,当检测到关键图像帧的置信度大于设定阈值时,所述控制设备判定存在危险行为,所述控制设备控制显示设备实时显示带有矩形框的监控画面;当判定存在危险行为,所述控制设备将所有判定的图像帧合并成为存在危险行为的视频流上传至报警设备,并触发警报。
[0047]
本发明的有益效果在于:
[0048]
1.本发明所述的基于监控视频的车间危险行为识别报警方法及系统,基于原
yolov4网络,使用k-means 算法对数据集进行anchor维度聚类,提升算法精度。替换主干网络使用为特征提取能力更强且网络参数量更小的网络——mobilenet v3。将se注意力(通道注意力)机制模块替换为ca注意力(位置注意力)机制模块,使特征图有更强的特征表达能力。替换panet中普通卷积模块替换为深度可分离卷积并添加cbam注意力,提高精度,减少参数量以降低计算负荷,进一步适配硬件设施。
[0049]
2.本发明所述的基于监控视频的车间危险行为识别报警方法及系统,基于yolov4-mobilenet v3网络模型检测,充分考虑到车间基础硬件设施效能低下的情况,能够对车间内行为进行实时监控并检测,提高检测危险行为的速度和准确率,并触发报警模块及时通知安全人员。大幅降低了车间设备成本,减少了车间内危险行为的发生且提高了车间内安全性,能有效地维护车间的良好秩序和生产工作。
附图说明
[0050]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,显而易见地还可以根据这些附图获得其他的附图。
[0051]
图1为本发明实施例提供的基于监控视频的车间危险行为识别报警方法的流程示意图。
[0052]
图2为本发明实施例提供的yolov4网络模型示意图。
[0053]
图3为本发明实施例提供的mobilenet v3整体网络结构示意图。
[0054]
图4为本发明实施例提供的mobilenet v3网络中bneck示意图。
[0055]
图5为本发明实施例提供的ca注意力机制结构的示意图。
[0056]
图6为本发明实施例提供的改进的panet的示意图。
[0057]
图7为本发明实施例提供的基于监控视频的车间危险行为识别报警系统的结构框图。
具体实施方式
[0058]
下面结合附图以及具体实施例对本发明作进一步的说明,但本发明的保护范围并不限于此。
[0059]
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
[0060]
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“轴向”、“径向”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或
两个以上,除非另有明确具体的限定。
[0061]
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
[0062]
如图1所示,本发明所述的基于监控视频的车间危险行为识别报警方法,包括如下步骤:
[0063]
s1:采集危险行为图像数据集,通过图像增广技术对获取的图像进行数量补充,具体为:
[0064]
s1.1:选取不同时间多段企业车间内的监控视频,抽取包含危险行为的关键图像帧,并且对其进行统一裁剪成608*608大小,得到车间人员抽烟、进食和玩手机的监控图片;所述危险行为图像数据集中包括抽烟图像、进食图像和玩手机图像。
[0065]
s1.2:对抽取的关键帧图像进行一系列的图像增广处理操作,其中包括改变翻转、裁剪、改变颜色的亮度、对比度、饱和度和色调等。
[0066]
s2:对危险行为图像预处理,确定训练集和测试集,具体为:
[0067]
s2.1:使用的数据增强操作包括:
[0068]
s2.1.1:裁剪混合cutmix:通过从一个图像中切割一部分并将其粘贴到增强图像上来组合图像;
[0069]
s2.1.2:马赛克数据增强mosaic:将四张训练图像随机比例组合成一张;
[0070]
s2.1.3:类标签平滑label smoothing:对类标签进行编码以在某种程度上衡量不确定性即可能出现的错误、过拟合及过度关注其它预测的复杂性。通常情况下,选择0.9,即[0,0,0,0,9,0...]来表示正确的类。
[0071]
s2.2:对抽取图像进行人为名称标记和定位位置标注,并且分别定义为smoking、eating和playing的标签,并划分为训练集和测试集。其中,训练集和测试集的样本比例为10∶1。
[0072]
s3:利用改进后的yolov4-mobilenet v3深度学习网络架构,构建多个危险行为识别模块,具体为:
[0073]
s3.1:如图2所示,本发明中使用的yolov4-mobilenet v3深度学习网络架构包括backbone特征提取主干网络、neck加强特征提取网络和head预测网络:
[0074]
在backbone特征提取主干网络中,将原yolov4网络中的cspdarknet53替换为mobilenet v3,将mobilenet v3中通道注意力senet机制模块替换为位置注意力ca机制模块;
[0075]
在neck加强特征提取网络中,将yolov4网络中的panet模块中普通卷积更换为深度可分离卷积;所述head预测网络为yolov4中head预测网络;综合深度可分离卷积、具有线性瓶颈的逆残差结构、改进的ca注意力机制、h-swish激活函数这四个特点,在保证检测精度的同时减少模型的参数量,提高模型的特征提取能力,提高检测速率即fps,降低对基础硬件设施的要求;
[0076]
如图3和图4所示,对yolov4-mobilenet v3中mobilenet v3主干网络及bneck(瓶
颈层)作更为详细的描述:
[0077]
所述mobilenet v3网络结构,input表示输入当前层的特征矩阵的维度。operator代表每次特征层经历的block操作。exp size表示bneck中第一个升维的1
×
1卷积输出的维度。#out表示输入到bneck时特征层的通道数。nbn表示未使用归一化操作。ca表示是否使用注意力机制。nl表示当前使用的非线性激活函数,hs代表h-swish,re代表relu。s为每一次block结构所用的步距stride。输入图像,先通过1
×
1卷积上升通道数,然后在高维空间使用深度卷积,再经过ca注意力机制优化特征图数据,最后经过1
×
1卷积下降通道数(使用激活函数)。当步长=1且输入和输出特征图的维度相同时,使用残差连接输入和输出;当步长=2(下采样阶段)直接输出降维后的特征图。
[0078]
如图5所示,对mobilenet v3主干网络中改进的注意力机制模块进行阐述:
[0079]
原注意力机制senet(squeezeexcitationnet)为通道注意力网络,对输入的特征图进行全局平均池化,再通过两个全连接层,以sigmoid激活函数输出相应的权重。其主要衡量通道关系,忽视了位置信息,即忽视了空间选择。位置注意力ca(coordinate attention),将通道注意力分解为两个1维特征编码过程,分别沿2个空间方向聚合,在沿一个空间方向捕获远程依赖关系的同时沿另一空间方向保留精确的位置信息。将生成的特征图分别编码为一堆方向感知和位置敏感的注意力信息attention map,互补地应用于输入特征图,增强关注对象的表示,具体包括如下步骤:
[0080]
坐标信息嵌入:给定输入xc,使用尺寸为(h,1)或(1,w)的池化核分别沿着水平坐标和垂直坐标对每个通道进行编码,高度为h的第c通道的输出可以表示为:
[0081][0082]
宽度为w的第c通道的输出可以表示为:
[0083][0084]
其中:
[0085]
xc(h,p)表示第c通道中高度为h的第p个竖直张量;xc(q,w)表示第c通道中宽度为w的第q个水平张量;和分别为两个空间方向聚合特征,得到对应方向感知特征图;rc×h×w是通道数量为c、水平方向长度为h、垂直方向长度为w的特征合集;
[0086]
坐标注意力生成:对和进行连接操作,然后使用1*1卷积变换函数f1对其进行变换操作:
[0087][0088]
式中,[,]为沿空间维数的连接操作;δ为非线性激活函数;fc∈r
c/r
×
(h w)
为对空间信息在水平方向和垂直方向进行编码的中间特征映射;沿着空间维度将生成的fc分解为两个单独的张量和r用于控制se block大小的缩减率;
[0089]
利用另外两个1*1卷积变换函数fh和fw分别将第c通道中特征图和变换,输出表示为和和和分别作为注意力权重如下式:
[0090][0091][0092]
其中,σ是sigmoid激活函数,i为第c通道中水平坐标变量,j为第c通道中垂直坐标变量;
[0093]
注意力ca机制模块的输出如下:
[0094][0095]
其中:xc(i,j)是第c通道中的输入特征。
[0096]
如图6所示,改进原yolov4网络中neck特征提取层中的panet模块,具体步骤如下:
[0097]
在上采样核下采样后对输出特征图使用cbam注意力机制,由于cbam是轻量级的通用模块,因此可以忽略该模块的开销而将其无缝集成到panet架构中。cbam模块将卷积层输出的结果作为输入特征图,先通过一个通道注意力模块,得到加权结果之后,经过一个空间注意力模块,对经过通道注意力模块处理过的中间特征图再进行加权,最终将注意力分配权重与输入特征图之间相乘。
[0098]
将panet中原普通卷积模块conv替换为深度可分离卷积(即图4中dwconv——depthwise separable convolution):
[0099]
设输入特征维度为df×df
×
m,df为特征尺寸,m为通道数,dk为卷积核大小,n为输出通道数;
[0100]
标准卷积核参数为dk×dk
×m×
n;
[0101]
深度可分离卷积有深度卷积 逐点卷积,其计算如下:
[0102]
深度卷积:卷积核参数为dk×dk
×1×
m。输出深度卷积后的特征维度为:df×df
×
m。卷积是每个通道只对应一个卷积核(扫描深度为1),所以flops(浮点运算值)为:m
×df
×df
×dk
×dk

[0103]
逐点卷积:输入为深度卷积后的特征,维度为df×df
×
m,卷积核参数为1
×1×m×
n,输出维度为df×df
×
n,卷积过程中对每个特征做1
×
1的标准卷积,flops为:n
×df
×df
×
m;
[0104]
将上述卷积核参数量相加得:dk×dk
×
m m
×
n。因此深度可分离卷积参数量是标准卷积的:
[0105][0106]
因此当输出通道数越多或卷积核大小越大,深度可分离卷积参数量的计算量就越小
[0107]
s3.2:利用k-means 算法进行锚框维度聚类,其中包括:
[0108]
s3.2.1:在训练集中算计选择一个样本作为第一个初始聚类中心;
[0109]
s3.2.2:选择出其余的聚类中心:计算训练集中所有样本与初始聚类中心之间的最短距离,用d(x)表示;接着计算所有样本被选为下一个聚类中心的概率按照轮盘法选择下一个聚类中心;
[0110]
s3.2.3:重复上述过程,直到k个聚类中心都被确定。
[0111]
s4:将训练集输入构建的多个危险行为识别模块,利用损失函数训练得到训练完成的多个危险行为识别模块,具体为:
[0112]
s4.1:将训练标签分别设置为smoking、eating、playing三类,分别用来检测抽烟、进食、玩手机;
[0113]
s4.2:将训练集输入构建的多个危险行为识别模块,修改训练所需参数,具体地:
[0114]
s4.2.1:参数包括每次迭代训练的图片数量batch、batch中的图片再产生子集subdivisions、学习率变化时的迭代次数steps、输入图片宽度width、输入图片高度height、输入图片通道数channels、种类classes、图片角度变化angel等,具体的:
[0115]
s4.2.2:batch=96;subdivisions=32;steps=14000或16000;width=608;height=608;channels=3;classes=3;angel=0;
[0116]
s4.3:将带有三类标签的训练集分批输入多个危险行为识别模块中得到对应输出结果,根据损失函数计算loss值,并进行反向传播,不断更新模型的参数,直至迭代次数大于阈值停止训练,选择loss最小的参数作为最终模型参数,进而得到训练完成的多个危险行为识别模块。
[0117]
其中,损失函数包括三部分:分类损失class_loss、置信度损失conf_loss和边界框回归损失ciou_loss。
[0118]
loss=class_loss conf_loss ciou_loss;
[0119][0120][0121][0122]
式中:s2为网格数;n为每个网格中预测框的个数;为预测框包含目标、不包含目标;λ
noobj
为权重系数;表示第m个网格单元grid cell的第n个边界框bounding box的预测置信度;表示其真实置信度;pr(object)、表示当前box有对象的预测概率、真实概率;iou是预测框和真实框之间的交并比;b,b
gt
分别代表预测框predict box和ground truth box真实框gt box的中心点;ρ2是指两个中心点的距离的平方;l2是指刚好能包含预测框和真实框的最小边框的对角线长度平方;α是惩罚因子;ν是真实框和预测框长宽比相似度。其中,α和ν计算公式为:
[0123]
[0124][0125]
式中:ω
gt
,h
gt
,ω,h分别是真实框和预测框的宽高;
[0126]
s5:将测试集输入训练完成的多个危险行为识别模块进行卷积处理,模型输出的分类结果包括目标所属的类别和对应的置信度;根据目标置信度设置阈值,去除置信度低于阈值的目标所属的类别;
[0127]
所述置信度定义为:
[0128][0129]
其中,表示第m个网格单元的第n个边界框的置信度;pr(object)代表当前边界框有对象的概率;表示当前的边界框有对象时,预测的边界框和物体真实的边界框交并比。
[0130]
训练中,表示真实值,的取值是由grid cell的bounding box是否负责预测某个对象决定。如果存在负责,则否则,
[0131]
矩形框表征目标的大小及精确位置;置信值表征预测矩形框的可行程度,值越大说明矩形框中存在目标的可能性越大;根据非极大值抑制算法对存在目标的预测框进行筛选,剔除对应同一目标的重复矩形框;根据筛选后预测框的分类概率,取得最大概率对应的索引,即为目标的分类索引号,从而得到目标的类别。
[0132]
s6:基于卷积处理完成的多个危险行为识别模块对监控视频中所有图像帧判定是否存在危险行为,当认定存在危险行为,触发报警模块。
[0133]
如图7所示,一种所述的基于监控视频的车间危险行为识别报警方法的系统,包括监控设备、计算设备、控制设备、显示设备和报警设备;
[0134]
所述监控设备用于采集车间监控摄像头拍摄的实时视频数据,将车间实时视频传输至所述计算设备;所述计算设备内包括训练完成的多个危险行为识别模块,用于对视频传输中的图像帧进行检测识别,并将带有目标位置、类别和置信度的实时视频传输至显示设备和控制设备。
[0135]
所述控制设备通过对比设定的置信度阈值,当检测到关键图像帧的置信度大于设定阈值时,所述控制设备判定存在危险行为,所述控制设备控制显示设备实时显示带有矩形框的监控画面;当判定存在危险行为,所述控制设备将所有判定的图像帧合并成为存在危险行为的视频流上传至报警设备,并触发警报。
[0136]
应当理解,虽然本说明书是按照各个实施例描述的,但并非每个实施例仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
[0137]
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施例的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施例或变更均应包含在本发明的保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献