一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于slowfast双帧速率的实时智能视频监控异常行为分析方法与流程

2021-12-04 13:59:00 来源:中国专利 TAG:


1.本发明涉及视频图像识别领域,尤其涉及一种基于slowfast双帧速率的实时智能视频监控异常行为分析方法。


背景技术:

2.融合新一代互联网技术、物联网技术与ai技术的数字产业化改革正成为实现“监控
‑‑
处理
‑‑
分析
‑‑
信息转换输出”公共安全、推动智能监控快速发展、促进中国传统安防向数字安防升级的新引擎。我国依托信息技术快速发展、智能信息设施的建设日益完善,智能化设备正在成为新一代公共安全产品的可靠支柱。近年来,视频监控开始在各种各样的场景中发挥巨大作用,有效地提高了公共安全管理效率。但随着视频监控的不断发展,监控摄像头布满城市的各个角落,利用人眼观察的方式进行视频巡检已经不能满足现在社会发展的需求了。
3.智能监控在公共安全中的“眼睛 大脑”,能够对监控范围内的异常状态进行识别判读,并按规定发出相应的预警,及时提醒监管人员做出应对措施。然而,智能视频监控系统中异常行为分析仍存在分析检测的目标、范围与准确度具有维度上的不对等性,质量、成效与行为动作具有不确定性。而且,智能监控异常行为分析作为感知型分析、行为判断的延伸,其分析本身也存在单节点分析失效、分析与约束动态改变、空间上信息不对等和时间维度上不确定性的问题。传统的视频监控未充分考虑上述的不对等性和不确定性的问题。


技术实现要素:

4.本发明的目的就在于使用slowfast双帧速率模型实时的对智能视频监控异常行为进行分析,而为了使slowfast网络模型在slow分支下捕获更多的空间语义信息,提高slow分支提取类别空间语义的能力,使网络训练的模型分类精度更高。本发明提供了一种多特征融合和soft

label交叉熵损失函数的slowfast双帧速率实时智能视频监控异常行为分析方法
5.本发明采用的技术方案是:
6.一种基于slowfast双帧速率的实时智能视频监控异常行为分析方法,包括以下步骤:
7.a、在应用场景下采集具有特定行为的人物视频片段作为样本数据集,标注行人类别标签,并对样本数据集进行预处理;
8.b、搭建多特征融合的slowfast双帧速率网络模型,包括slow分支和fast分支,所述的low分支以低帧率运行,fast分支以高帧率运行;
9.所述的slow分支中包含了三个依次连接的第一卷积块,第1个卷积块的输入为低帧率采样得到的视频帧图像,第1个卷积块的输出同时作为第2、3个卷积块的输入,第2个卷积块的输出也作为第3个卷积块的输入,在第3个卷积块中实现多特征融合;
10.所述的fast分支中包含三个依次连接的第二卷积块,第1个卷积块的输入为高帧率采样得到的视频帧图像,前一个卷积块的输出作为下一个卷积块的输入;并且将fast分支中第一个卷积块的输出与slow分支的第一个卷积块的输出侧向连接;
11.slow分支的最后一个卷积块与fast分支的最后一个卷积块的输出结果连接后经softmax函数预测行为类别;
12.c、利用基于软标签的损失函数和步骤a中的样本数据集,对步骤b建立的多特征融合的slowfast双帧速率网络模型进行训练;
13.d、实时获取监控视频,利用训练好的多特征融合的slowfast双帧速率网络模型进行异常行为检测。
14.优选的,所述的类别标签包括打架、攀高、倒地。
15.优选的,所述的类别标签采用独热编码,所属类别的位置为1,其余为0。
16.优选的,所述的侧向连接具体为:将fast分支的第1个卷积块的输出与slow分支的第1个卷积块的输出融合后作为slow分支的第2个卷积块的输入,将fast分支的第2个卷积块的输出与slow分支的第2个卷积块的输出融合后作为slow分支的第3个卷积块的输入。
17.优选的,进行侧向连接时,对fast分支中输出的结果每隔α帧进行采样,转换成与slow分支中相同的视频帧数量,然后按通道方向连接。
18.优选的,所述的第一卷积块和第二卷积块采用多层特征融合输出的网络结构实现,由k 1层卷积层构成,第i层卷积层的输出与第i层卷积层的输入拼接后作为第i 1层卷积层的输入,第1层卷积层的输入与第k 1层卷积层的输出拼接后作为该卷积块的最终输出。
19.优选的,所述的基于软标签的损失函数为:
[0020][0021][0022]
其中,l
ce
为损失值,n是batch

size样本数,m是类别数,p
ji(k)
是网络迭代第k次时第j个样本预测为第i类的概率,p
ji(k

1)
是网络上一次迭代时第j个样本预测为第i类的概率;y
ji(k)
表示软标签向量,其长度为m;k表示网络的迭代次数,n
epoch
表示预设的网络最大迭代次数。
[0023]
优选的,对步骤a中的视频数据集按照交叉验证法进行步骤c的训练。
[0024]
优选的,所述的步骤d具体为:实时获取监控视频,训练好的多特征融合的slowfast双帧速率网络模型中的fast分支以1秒提取15帧的高帧率采样视频帧图像,slow分支以1秒提取2帧的低帧率采样视频帧图像,两分支输出结果连接后经softmax函数预测得到行为类别,监测到异常行为时发出警告。
[0025]
与现有技术相比,本发明具备的有益效果是:
[0026]
本发明基于slowfast双帧速率网络模型进行监控视频异常行为分析,slowfast双帧速率网络模型包含slow和fast两个分支,slow分支以低帧率运行,使用一个较大的时序跨度(即每秒跳过的帧数),例如1秒提取2帧,目的在于捕获图像或几个稀疏帧提供的语义
信息;fast分支以高帧率运行,时间分辨率高,使用一个非常小的时序跨度,例如1秒提取15帧,目的在于捕获快速变化的动作。此外,两分支采用多层特征融合输出的结构,利用不同层特征具有不同语义的特点,将这些特征层进行自上而下的特征融合,提高slow分支提取类别空间语义的能力以及fast分支提取时间语义信息而弱化空间语义信息的能力。
[0027]
在slowfast网络模型中,为了更好的训练分类模型,对交叉熵损失函数进行了改进,将y
ji
类别的独热编码(由0和1组成的一个向量转换为一种软标签形式,利用每一轮的概率预测结果更新标签。
[0028]
本发明对于基于在缺少时间维度分析的图像切片或是对时间维度没有区分性的视频数据上做分析的方法来说是一个技术的突破。
附图说明
[0029]
图1是本发明的异常行为分析步骤图;
[0030]
图2是本发明实施例中示出的三类行为的视频序列样本数据;
[0031]
图3是本发明提出的多特征融合的slowfast网络结构示意图;
[0032]
图4是图3的slowfast网络中每一个卷积块的结构示意图。
具体实施方式
[0033]
以下结合附图和具体实施对本发明进行详细描述,但不作为对本发明的限定。
[0034]
如图1所示软标签的交叉熵损失函数。
[0035]
更具体的,本发明的实施步骤如下:
[0036]
a、在实际应用场景下,进行行人视频样本数据集的采集和标注(例如:打架、攀高、戏水等),并对样本数据集进行预处理
[0037]
本实施例中,在实际应用场景中使用监控摄像头采集30人的视频样本,共获得500个10秒左右的视频片段,将这500个视频分成10类行人行为(例如:打架、攀高、倒地等),每类行为包含50个视频片段,部分视频片段的数据样本集如图2所示,情形1为一个打架视频序列,情形2为一个攀高视频序列,情形3为一个倒地视频序列。
[0038]
b、搭建多特征融合的slowfast双帧速率网络模型
[0039]
如图3所示,多特征融合的slowfast双帧速率网络模型包含两个分支:slow分支和fast分支,其中slow分支以低帧率运行,使用一个较大的时序跨度(即每秒跳过的帧数),1秒提取2帧,目的在于捕获图像或几个稀疏帧提供的语义信息;fast分支以高帧率运行,时间分辨率高,使用一个非常小的时序跨度,1秒提取15帧,目的在于捕获快速变化的动作。
[0040]
slow分支中包含了三个依次连接的第一卷积块,第1个卷积块的输入为低帧率采样得到的视频帧图像,第1个卷积块的输出同时作为第2、3个卷积块的输入,第2个卷积块的输出也作为第3个卷积块的输入,在第3个卷积块中实现多特征融合。slow分支中标记的c表示通道,t表示采样帧的数量。
[0041]
fast分支中包含三个依次连接的第二卷积块,fast分支的第1个卷积块的输入为高帧率采样得到的视频帧图像,前一个卷积块的输出作为下一个卷积块的输入。此外,将fast分支提取的特征信息通过侧向连接加入到slow分支的主干中,也就是说,将fast分支的第1个卷积块的输出与slow分支的第1个卷积块的输出融合后作为slow分支的第2个卷积
块的输入,将fast分支的第2个卷积块的输出与slow分支的第2个卷积块的输出融合后作为slow分支的第3个卷积块的输入。这使得slow分支在提取空间语义信息的同时也能获取到fast分支的时间语义信息。fast分支中标记的βc表示通道,αt表示采样帧的数量。由于fast分支更关注时间序列,而弱化空间语义信息,所以fast分支网络通道数是slow分支的1/8,使得整体网络变得轻量、高效,能达到实时监测的性能。
[0042]
侧向连接时需要将fast分支输出的结构{αt,s2,βc}变形转置为slow分支的结构{t,s2,αβc}可连接的形式,就是说需要把α帧压入一帧。本实施例中,可以通过time

strided采样实现,简单地每隔α帧进行采样,{αt,s2,βc}就变换为{t,s2,βc}。变形转置后的{t,s2,βc}与slow分支输出的{t,s2,αβc}按通道连接即可。
[0043]
slow分支中的卷积块和fast分支中的卷积块均采用图4所示的多层特征的融合输出网络结构,由k 1层卷积层构成,第i层卷积层的输出与第i层卷积层的输入拼接后作为第i 1层卷积层的输入,第1层卷积层的输入与第k 1层卷积层的输出拼接后作为该卷积块的最终输出。图3中,将第1层卷积层的输入记为x0,第1层卷积层的输出记为x1,第k层卷积层的输入记为x
k
‑1,第k层卷积层的输出记为x
k
,最终输出记为x
u

[0044]
图3所示的网络结构包含多层特征的输出,利用不同层特征具有不同语义的特点,将这些特征层进行自上而下的特征融合,提高slow分支提取类别空间语义的能力,以及fast分支提取时间语义的能力。
[0045]
c、设计slowfast网络模型的损失函数
[0046]
slowfast网络模型的最终目的是对视频中人的行为进行分类,网络的最后特征层经过softmax输出类别的概率,在训练阶段,通过交叉熵损失函数来优化网络模型,使得softmax输出正确类别的概率越大,交叉熵损失函数公式为:
[0047][0048]
其中n是batch

size样本数,m是类别数,p
ji
是网络预测为该类的概率,y
ji
是类别的one

hot编码,如果样本j的真实类别为i,则one

hot编码向量中i的位置就为1,否则为0。
[0049]
为了更好的训练分类模型,本实施例对上述的交叉熵损失函数进行了改进,上式中y
ji
是类别的独热编码(由0和1组成的一个向量),表示为是此类别的位置就为1,不是此类别的位置就为0,属于硬标签,而改进的交叉熵损失函数将真实标签由硬标签改为软标签,具体表示如下式:
[0050][0051]
其中n是batch

size样本数,m是类别数,p
ji(k)
是网络迭代第k次时预测为该类的概率,y
ji(k)
表示为是此类别的位置就为p
ji(k

1)
,不是此类别的位置就为0,p
ji(k

1)
是网络上一次迭代时预测为该类的概率,具体公式表示如下:
[0052][0053]
其中k表示网络的迭代次数,n
epoch
表示预设的网络最大迭代次数。
[0054]
d、利用a步骤构建的样本数据集训练slowfast网络模型
[0055]
对a步骤中的视频片段数据集按照交叉验证法进行如下划分,划分为10个大小相等的互斥子集,每次使用9个子集的并集作为训练集,余下的一个子集作为测试集,这样获得10组训练/测试集;
[0056]
使用划分的视频数据集联合训练slowfast网络模型,对数据集视频进行整体的翻转、随机擦除来扩充和增强数据集;对于图4所示的网络结构,采用经过imagenet数据集预训练过的权重来初始化网络,让网络更快的收敛。slowfast网络训练中设置初始学习率为0.01,学习率的值随训练次数成指数下降,设置batch size大小为8,网络训练400个epoch即停止训练,最后将训练好的模型保存为.pt文件。
[0057]
e、对slowfast网络模型进行测试
[0058]
加载slowfast网络模型,读取训练好的参数文件,即.pt文件,包括各个网络层的权重值,将权重值导入slowfast网络中,再利用d步骤划分的测试集测试模型的效果。
[0059]
在实际应用中,通过采集视频监控图像作为训练好的slowfast网络模型的输入,可用于实时监测异常行为,存在异常行为会输出异常行为的类别并报警。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献