一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于序列识别的视频异常事件检测方法与流程

2022-02-19 01:02:07 来源:中国专利 TAG:

baseline[c].the ieee conference on computer vision and pattern recognition.2018:6536

6545)中提出了一个基于预测未来帧的方法来进行异常检测。作者使用u

net网络架构实现了视频检测的预测器,因为它在图像到图像的转换方面有很好的性能。
[0007]
以上文章的异常检测都是集中于无监督(或者说是半监督),所需要挑战的数据集多是监控视频下的行人道上的数据集,所要挑战的异常都是未见物体/异常运动(快速运动为主)。这些数据集和真实情景期望解决的危险有所差别,于是sultani w,chen c等人在《监控视频中的真实世界异常检测》(real

world anomaly detection in surveillance videos[c].the ieee conference on computer vision and pattern recognition.)中提出了ucf

crime数据集,并且引入了弱监督的多示例学习的方法进入异常检测。但是由于多实例学习的方法分割了视频前后的联系,使得神经网络仅能在有限的感受野上对于视频的特征进行判断,因此无法全面的利用视频的全局特征进行判断,同时多实例学习在训练的时候产生了大量的噪声标签,使得检测效果受限。
[0008]
zhong j x,li n,kong w等人在此基础上于《图卷积标签噪声清洁器:为异常检测训练即插即用动作分类器》(graph convolutional label noise cleaner:train a plug

and

play action classifier for anomaly detection[c].the ieee/cvf conference on computer vision and pattern recognition.2019:1237

1246)中提出了一种基于噪声标签清理的方法法提高模型的性能,作者通过研究认为解决噪声标签问题通常是可行的。但是此方法依旧受限于有限的感受野,使得检测效果并不尽如人意。


技术实现要素:

[0009]
本发明为了克服以上技术的不足,提供了一种基于序列识别的视频异常事件检测方法,该发明利用双向lstm神经网络,可以根据更长的序列做出判断,而不是局限于conv3d有限的感受野。
[0010]
术语解释:
[0011]
cnn:表示卷积神经网络。
[0012]
tanh:表示卷积神经网络的激活函数。
[0013]
i3d:inflated 3d convnet,膨胀3d卷积网络。
[0014]
lstm:表示长短期记忆网络。
[0015]
sr

net:表示序列是被模型。
[0016]
本发明克服其技术问题所采用的技术方案是:
[0017]
一种基于序列识别的视频异常事件检测方法,包括步骤:
[0018]
s1、数据集划分:将异常视频数据集划分为训练集和测试集;
[0019]
s2、视频预处理:调整视频帧大小、频率,并将视频截取为rgb帧和光流帧;
[0020]
s3、视频特征提取:加载在数据集上预训练好的i3d模型,修改i3d模型网络结构,然后将步骤s2中得到的rgb帧输入修改后的i3d模型并从中提取视频特征向量;
[0021]
s4、数据增广:对步骤s3得到的视频特征向量进行不同起始位点的截取,并进行补长,最后得到若干条等长的视频特征向量;
[0022]
s5、利用双向lstm网络获得视频特征编码:将步骤s4中得到的视频特征向量输入
到双向lstm网络中,获得视频特征编码;
[0023]
s6、利用序列识别模型对视频进行分类:将步骤s5中得到的视频特征编码输入到序列识别模型中,得出预测结果。
[0024]
进一步地,步骤s2中,视频预处理具体包括:
[0025]
s21、将视频帧大小统一为256*256,帧率固定到30fps;
[0026]
s22、利用dense_flow工具将视频截取为rgb帧和光流帧。
[0027]
进一步地,步骤s3中,视频特征提取具体包括:
[0028]
s31、加载在kinetics数据集上预训练好的i3d模型,初始化网络权重和偏差参数;
[0029]
s32、修改i3d模型网络结构,去除最后一层池化层和卷积层,取倒数第二层的输出作为视频的特征向量;
[0030]
s33、将步骤s2中获取的视频rgb帧输入修改后的i3d模型,提取i3d模型网络的倒数第二层的特征作为视频的特征向量,该特征向量大小为k*d,故对于视频t,可以得到k*d维的特征向量x
t

[0031]
x
t
=[x
t,1
,

x
t,k
],x
t,i
∈r
d
ꢀꢀ
(1)
[0032]
式(1)中,x
t
表示一段视频的特征向量,x
t,i
表示该视频第i个片段对应的特征向量,k表示视频被分为的片段的数量,d表示每个片段的特征向量的长度。
[0033]
进一步地,步骤s5中,利用双向lstm网络获得视频特征编码具体包括:
[0034]
s51、设置网络学习参数,所述网络学习参数至少包括批处理大小、学习率、动量、最大迭代次数、权重衰减率;
[0035]
s52、读取步骤s4中的视频特征向量作为双向lstm网络的输入;
[0036]
s53、初始化网络,第一时刻的神经元参数和隐藏层参数初始化为:
[0037][0038]
式(2)中,c0表示双向lstm网络中第一时刻的神经元参数,h0表示双向lstm网络中第一时刻的隐藏层参数;
[0039]
s54、将特征向量输入到双向lstm网络模型中,最后获取视频的特征编码。
[0040]
进一步地,步骤s54中,训练双向lstm网络具体包括:
[0041]
s541、将输入视频特征向量作为双向lstm网络的输入,获得初始化参数c0和h0;
[0042]
s542、由lstm记忆神经元计算出每个时刻t的对应的h
t
,计算公式如下:
[0043]
i
t
=σ(w
xi
x
t
w
hi
h
t
‑1 w
ci
c
t
‑1 b
i
)
[0044]
f
t
=σ(w
xf
x
t
w
hf
h
t
‑1 w
cf
c
t
‑1 b
f
)
[0045]
c
t
=f
t
c
t
‑1 i
t
tanh(w
xc
x
t
w
hc
h
t
‑1 b
c
)
ꢀꢀ
(5)
[0046]
o
t
=σ(w
xo
x
t
w
ho
h
t
‑1 w
co
c
t
b
o
)
[0047]
h
t
=o
t
tanh(c
t
)
[0048]
式(5)中,i
t
表示t时刻lstm记忆神经元的输入门,f
t
表示t时刻lstm记忆神经元的遗忘门,c
t
表示t时刻lstm记忆神经元内部记忆单元,o
t
表示t时刻lstm记忆神经元的输出门,h
t
表示t时刻lstm记忆神经元的隐藏层的输出;x
t
表示t时刻输入该神经元的向量,w
xi
表示记忆神经元的输入门中对应x
t
的科学系参数,w
hi
表示记忆神经元的输入门中对应隐藏层的科学系参数,w
ci
表示记忆神经元的输入门中对应内部记忆单元的科学系参数,b
i
是神经
元的输入门可以被学习的参数,w
xf
表示记忆神经元的遗忘门中对应x
t
的科学系参数,w
hf
表示记忆神经元的遗忘门中对应隐藏层的科学系参数,w
cf
表示记忆神经元的遗忘门中对应内部记忆单元的科学系参数,b
f
是记忆神经元的遗忘门中可以被学习的参数,w
xc
表示神经元内部记忆单元中对应x
t
的科学系参数,w
hc
表示神经元内部记忆单元中对应隐藏层的科学系参数,b
c
是神经元内部记忆单元中可以被学习的参数,w
xo
表示神经元的输出门中对应x
t
的科学系参数,w
ho
表示神经元的输出门中对应隐藏层的科学系参数,w
co
表示神经元的输出门中对应内部记忆单元的科学系参数,b
o
是神经元的输出门中可以被学习的参数;
[0049]
s543、使用双向lstm捕捉到当前时刻t的过去和未来的特征,通过反向传播来训练双向lstm网络。
[0050]
进一步地,步骤s6中,利用序列识别模型对视频进行分类具体包括:
[0051]
s61、使用随机初始化方法来初始化序列识别网络模型的参数;
[0052]
s62、将步骤s5中的视频特征编码矩阵输入到序列识别模型中,最终得到视频的打分s
j
,其中s
j
表示该视频被分类为异常的概率;根据序列识别网络,在表示最后一层fc层的和异常概率s
j
之间建立映射函数,表示如下:
[0053][0054]
式(3)中,w
fc
∈r,b
fc
∈r是可学习的参数,w
fc
和b
fc
是最后一层fc层中科学系的参数,表示第j个视频输入最后一层fc层的特征向量;
[0055]
s63、以二分类任务的交叉熵损失进行微调,获得最优序列识别模型,二分类任务的交叉熵损失函数可以表示如下:
[0056][0057]
式(4)中,l
n
表示第n个任务的预测损失,1~n个预测损失组成了这一组数据的损失函数矩阵,t表示矩阵的转置,y
n
表示样本n的标签,正类为1、负类为0;x
n
表示样本n预测为正类的概率。
[0058]
进一步地,步骤s63中,利用给定输入视频特征编码微调卷积神经网络,具体包括:
[0059]
s631、正向传递学习:计算在当前网络参数下,网络每一层的输出特征,正向传播过程如下:
[0060]
a
l
=τ(z
l
)=τ(a
l
‑1w
l
b
l
)
ꢀꢀ
(6)
[0061]
式(6)中,l表示第l层,a
l
表示第l层的输出,τ(*)表示激活函数,此处使用的是tanh,z
l
表示卷积操作之后的输出,w
l
表示第l层的权重,b
l
表示第l层的偏移值;
[0062]
s632、反向传播更新,采用随机梯度下降方法算法,每迭代一次从训练样本中随机抽取一组样本,通过网络获得卷积层的输出,计算梯度,更新网络参数,网络权重和偏差参数更新公式如下:
[0063][0064]
式(7)中,l(w,b)表示损失函数,μ表示学习率;
[0065]
s633、重复步骤s631的正向传递学习和步骤s632的反向传播更新两个步骤,直到
达到最大迭代次数或最高验证精度时结束微调。
[0066]
本发明的有益效果是:
[0067]
本发明的方法,首先利用特征提取网络i3d提取视频更加完备的特征向量,并通过双向lstm网络捕捉到当前时刻t的过去和未来的特征,使神经网络可以对更长的序列做出判断,而不是局限于有限的感受野上(时间轴)。这两个分支网络的运用有助于提高模型对场景语义对象的检测能力。训练过程同时利用视频片段之前和之后的信息,并且设计了更为合理的序列识别模型来刻画异常视频的边界,建立判别性强的分类模型。同时通过数据扩增技术有效解决了训练数据不足的问题。最后,由序列识别模型来判断视频中是否存在异常事件,可以显著提高视频异常事件检测的效果。
附图说明
[0068]
图1为本发明实施例所述的基于序列识别的视频异常事件检测方法的流程示意图。
[0069]
图2为本发明实施例所述的基于序列识别的视频异常事件检测方法采用的神经网络结构示意图。
[0070]
图3为本发明实施例所述的测试结果的roc曲线图。
[0071]
图4为本发明实施例所述方法在数据集ucf_crime中正常片段的打分示意图。
[0072]
图5为本发明实施例所述方法在数据集ucf_crime中异常片段的打分示意图。
具体实施方式
[0073]
为了便于本领域人员更好的理解本发明,下面结合附图和具体实施例对本发明做进一步详细说明,下述仅是示例性的不限定本发明的保护范围。
[0074]
本实施例公开了一种基于序列识别的视频异常事件检测方法,以ucf

crime异常视频数据集为例子,该数据集包括13种异常事件。共有1900个视频,其中异常和正常视频各占950个。数据集划分方面,训练集包含1610个视频(800个通常视频,810个异常视频),测试集包含290个视频(150个通常,140个异常视频)。
[0075]
如图1所示,基于序列识别的视频异常事件检测方法主要分为训练和测试两个流程,在训练过程中需要对视频数据进行数据集的划分,然后进行数据预处理后输入到训练好的i3d特征提取网络中进行特征提取,然后对提起后的特征向量进行数据增广,最后输入到lstm和序列识别网络中进行训练。而在测试过程中则无需进行数据的增广,其余流程与训练过程一致。
[0076]
如图2所示,基于序列识别的视频异常事件检测方法采用的神经网络结构主要分为特征提取网络(i3d),双向lstm网络,以及序列识别网络三个部分。
[0077]
具体地,本实施例所述的基于序列识别的视频异常事件检测方法包括如下步骤:
[0078]
步骤s1、数据集划分:将异常视频数据集划分为训练集和测试集。
[0079]
本实施例中,对于给定的图像数据集,划分数据集,均随机挑选视频,训练集包含1610个视频(800个通常视频,810个异常视频),测试集包含290个视频(150个通常,140个异常视频)。
[0080]
步骤s2、视频预处理:调整视频帧大小、频率,并将视频截取为rgb帧和光流帧。具
体是:
[0081]
s21、将视频帧大小统一为256*256,帧率固定到30fps;
[0082]
s22、利用dense_flow工具将视频截取为rgb帧和光流帧。
[0083]
步骤s3、视频特征提取:加载在数据集上预训练好的i3d模型,修改i3d模型网络结构,然后将步骤s2中得到的rgb帧输入修改后的i3d模型并从中提取视频特征向量。
[0084]
本实施例中,视频特征提取具体包括:
[0085]
s31、加载在kinetics数据集上预训练好的i3d模型,初始化网络权重和偏差参数,此处不对模型进行任何微调;
[0086]
s32、修改i3d模型网络结构,去除最后一层池化层和卷积层,取倒数第二层的输出作为视频的特征向量;
[0087]
s33、将步骤s2中获取的视频rgb帧输入修改后的i3d模型,提取i3d模型网络的倒数第二层的特征作为视频的特征向量,该特征向量大小为k*d,优选32*1024,故对于视频t,可以得到k*d维的特征向量x
t

[0088]
x
t
=[x
t,1
,

x
t,k
],x
t,i
∈r
d
ꢀꢀ
(1)
[0089]
式(1)中,x
t
表示一段视频的特征向量,x
t,i
表示该视频第i个片段对应的特征向量,k表示视频被分为的片段的数量,d表示每个片段的特征向量的长度。
[0090]
步骤s4、数据增广:对步骤s3得到的视频特征向量进行不同起始位点的截取,并进行补长,最后得到32条等长的视频特征向量。
[0091]
步骤s5、利用双向lstm网络获得视频特征编码:将步骤s4中得到的视频特征向量输入到双向lstm网络中,获得视频特征编码。
[0092]
本实施例中,利用双向lstm网络获得视频特征编码具体包括:
[0093]
s51、设置网络学习参数,所述网络学习参数至少包括批处理大小、学习率、动量、最大迭代次数、权重衰减率;本实施例优选,批处理大小设置为16,学习率设置为0.001,动量设置为0.9,最大迭代次数设置为50,权重衰减率0.01。
[0094]
s52、读取步骤s4中的视频特征向量作为双向lstm网络的输入;
[0095]
s53、初始化网络,第一时刻的神经元参数和隐藏层参数初始化为:
[0096][0097]
式(2)中,c0表示双向lstm网络中第一时刻的神经元参数,h0表示双向lstm网络中第一时刻的隐藏层参数;
[0098]
s54、将特征向量输入到双向lstm网络模型中,最后获取视频的特征编码。
[0099]
进一步地,步骤s54中,训练双向lstm网络具体包括:
[0100]
s541、将输入视频特征向量作为双向lstm网络的输入,获得初始化参数c0和h0;
[0101]
s542、由lstm记忆神经元计算出每个时刻t的对应的h
t
,计算公式如下:
[0102]
i
t
=σ(w
xi
x
t
w
hi
h
t
‑1 w
ci
c
t
‑1 b
i
)
[0103]
f
t
=σ(w
xf
x
t
w
hf
h
t
‑1 w
cf
c
t
‑1 b
f
)
[0104]
c
t
=f
t
c
t
‑1 i
t
tanh(w
xc
x
t
w
hc
h
t
‑1 b
c
)
ꢀꢀ
(5)
[0105]
o
t
=σ(w
xo
x
t
w
ho
h
t
‑1 w
co
c
t
b
o
)
[0106]
h
t
=o
t
tanh(c
t
)
[0107]
式(5)中,i
t
表示t时刻lstm记忆神经元的输入门,f
t
表示t时刻lstm记忆神经元的遗忘门,c
t
表示t时刻lstm记忆神经元内部记忆单元,o
t
表示t时刻lstm记忆神经元的输出门,h
t
表示t时刻lstm记忆神经元的隐藏层的输出;x
t
表示t时刻输入该神经元的向量,w
xi
表示记忆神经元的输入门中对应x
t
的科学系参数,w
hi
表示记忆神经元的输入门中对应隐藏层的科学系参数,w
ci
表示记忆神经元的输入门中对应内部记忆单元的科学系参数,b
i
是神经元的输入门可以被学习的参数,w
xf
表示记忆神经元的遗忘门中对应x
t
的科学系参数,w
hf
表示记忆神经元的遗忘门中对应隐藏层的科学系参数,w
cf
表示记忆神经元的遗忘门中对应内部记忆单元的科学系参数,b
f
是记忆神经元的遗忘门中可以被学习的参数,w
xc
表示神经元内部记忆单元中对应x
t
的科学系参数,w
hc
表示神经元内部记忆单元中对应隐藏层的科学系参数,b
c
是神经元内部记忆单元中可以被学习的参数,w
xo
表示神经元的输出门中对应x
t
的科学系参数,w
ho
表示神经元的输出门中对应隐藏层的科学系参数,w
co
表示神经元的输出门中对应内部记忆单元的科学系参数,b
o
是神经元的输出门中可以被学习的参数;
[0108]
s543、使用双向lstm捕捉到当前时刻t的过去和未来的特征,通过反向传播来训练双向lstm网络。
[0109]
步骤s6、利用序列识别模型对视频进行分类:将步骤s5中得到的视频特征编码输入到序列识别模型中,得出预测结果。
[0110]
本实施例中,利用序列识别模型对视频进行分类具体包括:
[0111]
s61、使用随机初始化方法来初始化序列识别网络模型的参数;
[0112]
s62、将步骤s5中的视频特征编码矩阵输入到序列识别模型中,最终得到视频的打分s
j
,其中s
j
表示该视频被分类为异常的概率;根据序列识别网络,在表示最后一层fc层的和异常概率s
j
之间建立映射函数,表示如下:
[0113][0114]
式(3)中,w
fc
∈r,b
fc
∈r是可学习的参数,w
fc
和b
fc
是最后一层fc层中科学系的参数,表示第j个视频输入最后一层fc层的特征向量;
[0115]
s63、以二分类任务的交叉熵损失进行微调,获得最优序列识别模型,二分类任务的交叉熵损失函数可以表示如下:
[0116][0117]
式(4)中,l
n
表示第n个任务的预测损失,1~n个预测损失组成了这一组数据的损失函数矩阵,t表示矩阵的转置,y
n
表示样本n的标签,正类为1、负类为0;x
n
表示样本n预测为正类的概率。
[0118]
进一步地,步骤s63中,利用给定输入视频特征编码微调卷积神经网络,具体包括:
[0119]
s631、正向传递学习:计算在当前网络参数下,网络每一层的输出特征,正向传播过程如下:
[0120]
a
l
=τ(z
l
)=τ(a
l
‑1w
l
b
l
)
ꢀꢀ
(6)
[0121]
式(6)中,l表示第l层,a
l
表示第l层的输出,τ(*)表示激活函数,此处使用的是tanh,z
l
表示卷积操作之后的输出,w
l
表示第l层的权重,b
l
表示第l层的偏移值;
[0122]
s632、反向传播更新,采用随机梯度下降方法算法,每迭代一次从训练样本中随机抽取一组样本,通过网络获得卷积层的输出,计算梯度,更新网络参数,网络权重和偏差参数更新公式如下:
[0123][0124]
式(7)中,l(w,b)表示损失函数,μ表示学习率;
[0125]
s633、重复步骤s631的正向传递学习和步骤s632的反向传播更新两个步骤,直到达到最大迭代次数或最高验证精度时结束微调。
[0126]
如图3所示,为本实施例的测试结果的roc曲线图,图3的横坐标为假正率fpr(false positive rate),表示错误的判定为正例的概率,纵坐标为真正率tpr(true positive rate),表示正确的判定为正例的概率。可以看出整个曲线趋于左上角,曲线下的面积为auc的值,可以看出本实施例的模型对异常事件的检测能力较为优异。
[0127]
图4和图5为本实施例的模型在数据集ucf_crime中的一段视频(explosion008)上的异常打分示意图,图4和图5的横坐标表示视频的一个时间轴,纵坐标表示当前时刻视频中发生异常事件的概率。其中图4表示为该视频中正常片段的打分示意图,可以看到当视频中无异常事件发生的时候,视频的打分趋近于0,图5为该视频中异常片段的打分示意图,可以看到当视频中有异常事件(爆炸)发生时,视频的打分趋近于1。
[0128]
为了验证本发明提出的基于序列识别的视频异常事件检测方法的优势,使用ucf

crime数据集,将由i3d特征提取网络,双向lstm网络和序列识别网络组成的本实例方法与其他方法做分析和对比,如表1所示:
[0129]
表1:不同算法的分类正确率比较
[0130]
方法auc(%)far(%)binary classifier方法50.0

hasan et al.提出的方法50.6

lu et al.提出的方法65.51

sultani et al.提出的方法74.441.9zhong et al.提出的方法82.120.1本发明的方法85.50.8
[0131]
表1中,hasan等人提出的算法参见其发表的论文《视频序列时间规律的学习》(he ieee conference on computer vision and pattern recognition.2016:733

742);lu等人提出的算法参见其发表的论文《在matlab中每秒150帧率的异常事件检测》(in cvpr,june 2016);sultani等人提出的算法参见其发表的论文《监控视频中的真实世界异常检测》(the ieee conference on computer vision and pattern recognition.2018:6479

6488);zhong等人提出的算法参见其发表的论文《图卷积标签噪声清洁器:为异常检测训练即插即用动作分类器》(the ieee/cvf conference on computer vision and pattern recognition.2019:1237

1246)。在实验中,auc值越大越好,far值越小越好。由表1可知,本发明所述的基于序列识别的视频异常事件检测方法效果优于使用有限感受野的视频特征的异常检测算法,而在基于弱监督的算法中,本发明提出的基于序列识别的视频异常事件检测方法具有更好地效果,进一步说明通过利用i3d作为视频特征提取网络,利用双向lstm
网络获取更大的感受野,利用序列识别模型来刻画异常边界,能够提高视频异常事件检测的效果。
[0132]
为了进一步说明本发明方法各个模块的不同贡献,不同模块的组合检测结果如表2所示:
[0133]
表2:不同模块的组合分类结果
[0134]
方法auc(%)far(%)i3d mil79.611.2c3d lstm80.011.4i3d lstm(本发明方法)85.50.8
[0135]
由表2可知,在ucf

crime数据集上,不同的模块对于视频异常检测的效果都有一定的提升,由此可见,本发明的方法在每个模块上的有效性,并且通过合理的组合后对视频异常检测的效果有了进一步提升,说明了本发明中的各个模块是具有互补性的。
[0136]
以上仅描述了本发明的基本原理和优选实施方式,本领域人员可以根据上述描述做出许多变化和改进,这些变化和改进应该属于本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献