一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种数据非平衡弱监督视频异常检测方法及系统

2022-11-30 22:03:59 来源:中国专利 TAG:


1.本发明属于视频处理技术领域,具体涉及一种数据非平衡弱监督视频异常检测方法及系统。


背景技术:

2.视频异常检测技术在自主监控中得到应用,是监控异常事件发生的重要方法。视频异常通常指视频中出现不正常的外观或运动属性,或在不正常的时间或空间出现正常的外观或运动属性。视频异常检测任务即为检测出视频中存在的时间和空间异常。
3.根据样本数据的标签有无,现有的技术通常分为两类,一种是基于无监督的视频异常检测技术,这类方法通常仅对正常样本分布进行建模,测试时将偏离正常样本分布的视频帧或视频片段视为异常。另一种是弱监督的视频异常检测技术,这类方法在训练过程中只使用视频级别的标签,通常看作是一个标准的多示例学习问题,其中每个视频均可以看作是一个包,视频中的每个片段均可看作是一个示例,只要检测到视频中至少存在一帧异常帧,则将该视频标记为异常,否则标记为正常。
4.虽然目前存在大量先进的弱监督视频异常检测技术,但是这些弱监督视频异常检测任务均隐式的建立在视频内正常异常帧不平衡的基础上,更多的关注如何找到具有代表性的视频片段或如何获取视频片段之间的时序关系,忽略了一个非常重要的问题,即正常视频和异常视频之间固有的数据失衡现象。例如,常用的shanghaitech数据集在训练过程中共包含238个视频,其中正常视频175个,异常视频63个,接近正常视频数量的三分之一,而在现实生活中异常视频数量要远远小于正常视频。如果称shanghaitech数据集在训练过程中微弱的考虑到正常视频与异常视频之间数量的不平衡,那么常用的基准数据集ucf-crime和xd-violence在训练过程中则将正常视频与异常视频数量设置为接近1:1,这也潜在的使得当前弱监督视频异常检测任务忽略了视频间固有的数量的不平衡现象。
5.随着近些年监控摄像头数量的迅速增加,视频监控中的异常检测问题受到越来越多的关注。由于海量监控视频带来的标注困难等问题,获得视频级标签相对要比获得帧级标签更容易,因此只标注视频级别标签的弱监督方法成为实现异常检测的重要手段。然而,以往的弱监督视频异常检测任务隐式的建立在视频内正常异常帧不平衡的基础上,更多的关注如何找到具有代表性的视频片段或如何获取视频片段之间的时间关系,却忽略了一个重要的问题,即正常视频和异常视频之间固有的数据失衡现象,从而影响异常事件的检测效果。


技术实现要素:

6.为克服现有技术中的问题,本发明的目的的在于提供一种数据非平衡弱监督视频异常检测方法及系统,该方法能够对异常视频的数量增强和注意力聚焦,并融合,精准的实现对视频帧级别异常事件检测效果。
7.为实现上述目的,本发明采用的技术方案如下:
8.一种数据非平衡弱监督视频异常检测方法,包括以下步骤:
9.提取待测视频的视频片段级的视频特征;
10.将视频片段级的视频特征通过对抗训练模块获得段级异常分数;
11.将视频片段级的视频特征通过聚焦训练模块获得片段级别的异常分数;
12.将通过对抗训练模块获得的段级异常分数与通过聚焦训练模块获得的片段级别的异常分数进行融合,得到融合后的异常分数;
13.将融合后的异常分数与阈值进行对比,将大于阈值的视频片段中的所有帧均视作异常,小于阈值的视频片段中的所有帧均看作正常,从而实现数据非平衡弱监督视频异常检测与异常的时间定位。
14.进一步的,通过i3d网络提取待测视频的视频片段级的视频特征。
15.进一步的,提取待测视频的视频片段级的视频特征具体包括以下步骤:
16.将每一个视频xi分为n个连续且不重叠的时间片段xi={x
i1
,...,x
in
},x
i1
为第一个时间片段,x
in
为第n个时间片段,视频xi中的所有片段根据视频级别标签组成一个正包或负包,正包表示视频xi中至少有一个异常时间片段,负包表示视频xi中的所有时间片段均为正常;
17.然后以每一个视频xi作为i3d网络的输入,i3d网络的输出原始的时空特征zi={z
i1
,...,z
in
}∈rn×d,每个视频xi对应一个原始的时空特征zi={z
i1
,...,z
in
}∈rn×d,从而完成提取视频特征;其中,n为视频片段数,d为每个片段特征的维数,z
i1
为第一个时间片段x
i1
对应的原始的时空特征,z
in
为第n个时间片段x
in
对应的原始的时空特征,r为n
×
d维的矩阵向量。
18.进一步的,对抗训练模块总的损失如下:
19.l
at
=λl
clean
(1-λ)l
adv
ꢀꢀꢀ
(11)
20.式中,l
at
为对抗训练模块的总损失函数,λ为调节干净视频损失和对抗样本损失之间权重的参数,l
clean
为干净视频的总损失函数,l
adv
为对抗样本的总损失函数。
21.进一步的,干净视频的总损失函数如下:
[0022][0023]
式中,l
clean
为干净视频的总损失函数,α,β和γ分别为不同的权重参数,为干净视频的铰链损失,为干净视频的稀疏损失,为干净视频的光滑损失。
[0024]
进一步的,对抗样本的总损失函数如下:
[0025][0026]
式中,l
adv
为对抗样本的总损失函数,α,β和γ分别为不同的权重参数,为对抗样本的铰链损失,为对抗样本的稀疏损失,为对抗样本的光滑损失为对抗样本的交叉熵损失。
[0027]
进一步的,聚焦训练模块的损失函数如下:
[0028][0029]
式中,l
ft
为聚焦训练模块的总损失函数,α,β和γ分别为不同的权重参数,为
干净视频的铰链损失,为干净视频的稀疏损失,为干净视频的光滑损失,l
cs
为代价敏感损失。
[0030]
进一步的,代价敏感的损失函数如下:
[0031]
l
cs
=-ω(1-yc)
τ
ylog(yc)-(1-ω)(yc)
τ
(1-y)log(1-yc)
ꢀꢀꢀ
(12)
[0032]
式中,l
cs
为代价敏感损失,ω为控制异常视频和正常视频损失比例的权重系数,(1-yc)
τ
为控制难异常和易异常视频损失比例的权重因子。
[0033]
进一步的,融合后的异常分数通过下式计算,
[0034]sfusion
=sa
t
(if|sa
t-c|≥|s
ft-c|),otherwise s
fusion
=s
ft
ꢀꢀꢀ
(14)
[0035]
其中,c是对抗训练和聚焦训练异常分数之间的判定阈值,s
fusion
是融合后的异常分数,s
at
为通过对抗训练模块获得的视频片段级异常分数,s
ft
为通过聚焦训练模块获得的视频片段级别的异常分数。
[0036]
一种数据非平衡弱监督视频异常检测系统,包括:
[0037]
视频特征提取模块,用于提取待测视频的视频片段级的视频特征,并发送给段级异常分数获得模块和片段级别的异常分数获得模块;
[0038]
段级异常分数获得模块,用于将视频片段级的视频特征通过对抗训练模块获得段级异常分数,并发送给融合模块;
[0039]
片段级别的异常分数获得模块,用于将视频片段级的视频特征通过聚焦训练模块获得片段级别的异常分数,并发送给融合模块;
[0040]
融合模块,用于将通过对抗训练模块获得的段级异常分数与通过聚焦训练模块获得的片段级别的异常分数进行融合,得到融合后的异常分数,并发送给比较模块;
[0041]
比较模块,用于将融合后的异常分数与阈值进行对比,将大于阈值的视频片段中的所有帧均视作异常,小于阈值的视频片段中的所有帧均看作正常,实现数据非平衡弱监督视频异常检测与异常的时间定位。
[0042]
与现有技术相比,本发明具有的有益效果:
[0043]
本发明一方面通过对抗训练模块生成异常视频的对抗样本来扩充异常视频的数量,通过缓解数量上的不平衡,产生微调的决策边界使得检测模型能够正确分类对抗样本;另一方面通过聚焦训练模块调整异常视频和正常视频的损失代价,使得检测模型聚焦于对异常视频和难-异常视频的识别(难-异常视频是指分数异常且接近决策边界的视频,易-异常视频是指分数异常但远离决策边界的视频),最后进行融合,融合后的异常分数与阈值进行对比,将大于阈值的视频片段中的所有帧均视作异常,小于阈值的视频片段中的所有帧均看作正常,从而实现数据非平衡弱监督视频异常检测与异常的时间定位。本发明通过融合对抗训练模块与聚焦训练模块得到的片段级别的异常分数,使得更易于学习正常与异常视频片段之间的差异,对异常事件检测更趋近于真实,进而提升了视频异常检测准确率。
[0044]
进一步的,本发明仅使用视频级别的标签自动实现帧级别的异常事件检测,具有较高的检测效率,克服了传统的视频异常检测方法通常依靠人工观看并识别异常事件,从而导致检测不准确的问题。
附图说明
[0045]
图1为本发明数据非平衡弱监督视频异常检测方法的原理图;
[0046]
图2为本发明数据非平衡弱监督视频异常检测方法的框架细节图;
[0047]
图3为异常视频的对抗样本生成的框架细节图;
[0048]
图4为shanghaitech数据集异常视频得分测试结果,其中,(a)为08_0158测试视频,(b)为02_0161测试视频。
[0049]
图5为数据非平衡弱监督视频异常检测系统的示意图。
具体实施方式
[0050]
下面结合附图对本发明进行详细说明。
[0051]
为缓解现实世界中正常和异常视频数量不平衡的事实,本发明提出一种数据非平衡弱监督视频异常检测方法,即为对抗与聚焦联合训练。该训练策略由两个独立的模块组成,一个是基于数据的对抗训练模块,该模块首先在隐空间生成异常视频的对抗样本,然后使用正常视频、异常视频及其对抗样本的特征集一起训练检测模型,从数据的角度实现了异常视频的扩充;另一个是基于模型的聚焦训练模块,该模块在交差熵损失函数的基础上进行修改,通过调整正常与异常视频分类代价和异常视频中难易样本的分类代价,使得模型聚焦于识别数量较少的异常视频和异常视频中相对难识别的样本,进而从模型的角度实现了对异常视频和难异常视频的聚焦。更进一步的,基于数据的对抗训练和基于模型的聚焦训练可以看作是解决正常视频和异常视频数据不平衡的两种不同方式,因此一个自然的想法是将两个模块进行融合,本发明采用了一种简单有效的后融合策略,即将通过两个模块获得的异常分数进行分数级别融合。
[0052]
参见图1和图2,本发明的一种数据非平衡弱监督视频异常检测方法,基于对抗与聚焦联合训练机制,从图1中可以看出,由于异常视频的稀缺性,原始的决策边界容易对一些异常视频分类错误,这会严重影响检测模型的分类性能。为了缓解这一问题,一方面通过基于数据的对抗训练模块生成异常视频的对抗样本来扩充异常视频的数量,通过缓解数量上的不平衡,产生微调的决策边界使得检测模型能够正确分类对抗样本;另一方面提出基于模型的聚焦训练模块,通过调整异常视频和正常视频的损失代价,使得检测模型聚焦于对异常视频和难-异常视频的识别(难-异常视频是指分数异常且接近决策边界的视频,易-异常视频是指分数异常但远离决策边界的视频)。在训练完整框架之后,采用一种简单有效的后融合策略,将测试阶段对抗训练和聚焦训练得到的异常分数相结合获得最终的决策边界,从而实现异常事件检测和时间上的定位。参见图2,本发明的数据非平衡弱监督视频异常检测方法包括四个部分组成,分别为视频特征提取、对抗训练模块、聚焦训练模块和后融合策略,具体过程如下:
[0053]
(1)提取视频特征
[0054]
弱监督视频异常检测是指仅利用视频级标签实现异常检测和时间上的定位。假设本发明给定一组训练视频及其对应的视频级别标签xi为视频,i为视频序号,m为视频个数,yi为xi对应的视频级标签,对于每一个视频xi,首先将每一个视频xi分为n个连续且不重叠的时间片段即xi={x
i1
,...,x
in
},x
i1
为第一个时间片段,x
in
为第n个时间片段,视频xi中的所有片段根据视频级别标签组成一个正包或负包,正包(yi=1)表示视频xi中至少有一个异常时间片段,负包(yi=0)表示视频xi中的所有时间片段均为正常。
[0055]
本发明以每一个视频xi作为i3d网络的输入,i3d网络的输出原始的时空特征zi={z
i1
,...,z
in
}∈rn×d,每个视频xi对应一个原始的时空特征zi={z
i1
,...,z
in
}∈rn×d,即完成提取视频特征;其中n代表视频片段数,d代表每个片段特征的维数,z
i1
为第一个时间片段x
i1
对应的原始的时空特征,z
in
为第n个时间片段x
in
对应的原始的时空特征,r为n
×
d维的矩阵向量。
[0056]
(2)通过对抗训练模块获得视频级异常分数;
[0057]
本发明将所有原始的时空特征集称为干净特征,其中{zn}表示所有的正常视频特征,{za}表示所有的异常视频特征。由于异常视频的稀缺性,本发明使用基于隐空间的投影梯度下降方法生成异常视频的对抗样本{z
′a},正常视频特征保持不变。由于异常视频的对抗样本{z
′a}的生成过程与对抗训练模块的网络结构相关,在下面内容中介绍对抗样本{z
′a}的生成过程。
[0058]
由于通过预训练的i3d网络提取的视频特征即原始的时空特征不具有充分的判别性,本发明提出一种多尺度时间网络f
φ
,该多尺度时间网络f
φ
以原始的时空特征集或异常视频的对抗样本{z
′a}作为输入,输出其各自对应的具有相同维数的多尺度时间特征集或异常视频的对抗样本的多尺度时间特征集{t
′a},其中为原始的时空特征经过多尺度时间网络fφ后输出的多尺度时间特征,{t
′a}为异常视频对抗样本的原始时空特征{z
′a}经过多尺度时间网络f
φ
后输出的多尺度时间特征集。具体来讲,该多尺度时间网络f
φ
在视频各个时间片段中采用自注意力机制与膨胀卷积操作,得到多尺度时间特征集或异常视频的对抗样本的多尺度时间特征集{t
′a}。其中,tn为正常视频的多尺度时间特征,ta为异常视频的多尺度时间特征。为了使特征更具判别性,本发明最大化正常视频的多尺度时间特征集和异常视频的多尺度时间特征集的差异性,以及正常视频和异常视频的对抗样本的多尺度时间特征集的差异性。本发明使用铰链损失如下:
[0059][0060][0061]
其中,yn和ya分别代表了对应视频级别的标签,m是预定义的阈值,gk(tn),gk(ta)和gk(t
′a)分别是异常视频的多尺度时间特征ta,正常视频的多尺度时间特征tn和对抗样本的多尺度时间特征t
′a中l
2-norm最大的k个片段的范数均值,和分别为干净视频的铰链损失和对抗样本的铰链损失。
[0062]
当本发明获得了正常视频的多尺度时间特征集{ti}和异常视频的多尺度时间特征集{t
′a}后,使用片段级别的分类器回归片段异常分数,并加权平均top-k视频片段的异常分数,获得视频级异常分数。将视频级异常分数与对应的视频级别标签进行对比,将两者之间的误差(即干净视频和对抗样本的交叉熵损失)作为对抗训练模块总的损失函数中的一项,通过优化对抗训练模块的总体损失函数完成训练。
[0063]
至此,对抗训练模块的网络结构已经介绍完成,异常视频的对抗样本z'a的生成过程如图3所示。具体来讲,为了便于公式简洁,此处将多尺度时间网络f
φ
与全连接网络写
在一起用f
θ
表示,即其中ωk代表多尺度时间特征ta中l
2-norm最大的k个片段。在本发明中,采用基于隐空间的投影梯度下降方法生成对抗样本z'a,生成公式如下:
[0064][0065]
其中,(z'a)
t 1
和(z'a)
t
分别为第t 1和t次迭代生成的对抗样本,(z'a)0=za为输入的干净异常特征,l(θ,za,ya)=-y
a log(f
θ
(za))-(1-ya)log(1-f
θ
(za)),η为更新对抗扰动的步长,ya是异常视频za的标签,θ为网络参数,在本发明中经过了t 1次迭代的(z'a)
t 1
即为最终的异常视频对抗样本z'a。
[0066]
考虑到异常事件的稀疏性,本发明分别在干净特征和对抗样本中使用稀疏损失,具体如下:
[0067][0068][0069]
式中,和分别为干净视频的稀疏损失和对抗样本的稀疏损失,t
ij
和t'
aj
分别为干净视频片段的多尺度时间特征和对抗样本片段的多尺度时间特征,为视频片段级别的分类器,用于回归片段的异常分数。
[0070]
由于视频片段之间的异常分数应具有光滑性,本发明在干净特征和对抗样本中使用光滑性损失,具体如下:
[0071][0072][0073]
式中,和分别为干净视频的光滑损失和对抗样本的光滑损失。
[0074]
分类损失如下:
[0075][0076][0077]
式中,和分别为干净视频和对抗样本的交叉熵损失,y为视频的真实标签值,yc和y
adv
分别为干净视频和对抗样本的异常分数预测值。
[0078]
干净特征的总的损失函数如下:
[0079][0080]
式中,l
clean
为干净视频的总损失函数,α,β和γ分别为不同的权重参数。
[0081]
对抗样本的总的损失函数如下:
[0082]
[0083]
式中,l
adv
为对抗样本的总损失函数,α,β和γ分别为不同的权重参数。
[0084]
整个对抗训练模块总的损失定义如下:
[0085]
l
at
=λl
clean
(1-λ)l
adv
ꢀꢀꢀ
(11)
[0086]
式中,l
at
为对抗训练模块的总损失函数,λ为调节干净视频损失和对抗样本损失之间权重的参数。
[0087]
在训练阶段,当对抗训练模块总的损失函数收敛到最小时训练完成,得到训练后的对抗训练模块。
[0088]
在测试阶段,将待检测视频首先逐片段进行片段级特征提取,再将片段特征输入到已经训练好的对抗训练模块,得到视频的片段级异常分数。
[0089]
(3)通过聚焦训练模块获得视频级别的异常分数;
[0090]
聚焦训练模块是在交叉熵损失函数的基础上,通过添加一个系数来控制异常视频和正常视频的权重,以及添加一个控制难异常和易异常视频权重的因子,使异常视频被分类错误的损失比正常视频分错的惩罚更大,以及异常视频中难异常被分错的损失比易异常分错的惩罚更大。具体来讲,本发明以正常视频时空特征{zn}和异常视频特征{za}作为输入,然后将其送入多尺度时间网络,分别得到对应的多尺度时间特征{tn}和{ta},tn为正常视频的多尺度时间特征,ta为异常视频的多尺度时间特征,再将其送入片段级别的分类器回归片段异常分数,并加权平均top-k视频片段的异常分数,获得视频级异常分数。将视频级异常分数与对应的视频级别标签进行对比,将两者之间的误差(即代价敏感损失)作为聚焦训练模块总的损失函数中的一项,通过优化公式(13)实现聚焦训练模块的训练。
[0091]
代价敏感的损失函数如下式:
[0092]
l
cs
=-ω(1-yc)
τ
ylog(yc)-(1-ω)(yc)
τ
(1-y)log(1-yc)
ꢀꢀꢀ
(12)
[0093]
式中,l
cs
为代价敏感损失,ω为控制异常视频和正常视频损失比例的权重系数,(1-yc)
τ
为控制难异常和易异常视频损失比例的权重因子。
[0094]
整个聚焦训练模块的整体损失如下:
[0095][0096]
式中,l
ft
为聚焦训练模块的总损失函数,α,β和γ分别为不同的权重参数。
[0097]
(4)通过后融合策略进行融合,实现数据非平衡弱监督视频异常检测;
[0098]
由于步骤(2)中基于数据的对抗训练模块与步骤(3)中基于模型的聚焦训练模块可以看作是缓解正常视频和异常视频数据不平衡的两种不同方式,本发明提出了一种简单有效的后融合策略,将测试过程中通过对抗训练模块获得的视频的段级异常分数与通过聚焦训练模块获得的视频的片段级别的异常分数采用下式进行分数级别的融合:
[0099]sfusion
=s
at
(if|s
at-c|≥|s
ft-c|),otherwise s
fusion
=s
ft
ꢀꢀꢀ
(14)
[0100]
其中,c是对抗训练和聚焦训练异常分数之间的判定阈值,s
fusion
是融合后的异常分数,s
at
为通过对抗训练模块获得的视频片段级异常分数,s
ft
为通过聚焦训练模块获得的视频片段级别的异常分数。
[0101]
在训练过程中通过优化(11)和(13)式,完成整个模型的训练过程,在测试过程中,将待检测视频的视频按片段分别通过两个训练好的模块进行异常评分,再将两个模块的异常得分通过(14)式进行融合,获得最终的异常得分,进而实现对异常的检测和时间定位。
[0102]
本发明融合了基于数据的对抗训练和基于模型的聚焦训练,能很好缓解视频间数据不平衡的问题。
[0103]
(5)利用测试数据对训练好的模型进行性能评估
[0104]
本发明在shanghaitech异常检测基准数据集上进行实验,由于本发明提出的是一个在弱监督视频异常检测领域被忽略的问题,在这里将原始的基准异常检测数据集调整为数据不平衡实验的设置(本发明将原始数据集中的异常视频数量减少为原来的1/5,正常视频数量不变)。
[0105]
本发明最终在shanghaitech数据集(图4中以08_0158和02_0161视频为例)进行测试,帧级准确率达到97.92%。
[0106]
为了展示模型评估效果,输入一个待测视频,首先将待测视频分为连续不重叠的若干个视频片段,再利用训练好的对抗训练模块和聚焦训练模块分别评估每个视频片段的异常得分,再将两个模块给出的异常得分进行融合,结果如图4中(a)和(b)所示,折线表示预测分数,阴影背景表示真实的标签,阴影部分对应的折线数值越接近1越能说明模型的准确性高,可以看出对于视频的真实异常部分,本发明都能够得到准确的预测,并且时间定位与真实标签相符,说明了本发明检测方法的准确性(图中的小插图是从异常视频中随机选的视频帧,为了可视化该异常事件并说明模型的准确性)。
[0107]
参见图5,一种数据非平衡弱监督视频异常检测系统,包括:
[0108]
视频特征提取模块,用于提取待测视频的视频片段级的视频特征,并发送给段级异常分数获得模块和片段级别的异常分数获得模块;
[0109]
段级异常分数获得模块,用于将视频片段级的视频特征通过对抗训练模块获得段级异常分数,并发送给融合模块;
[0110]
片段级别的异常分数获得模块,用于将视频片段级的视频特征通过聚焦训练模块获得片段级别的异常分数,并发送给融合模块;
[0111]
融合模块,用于将通过对抗训练模块获得的段级异常分数与通过聚焦训练模块获得的片段级别的异常分数进行融合,得到融合后的异常分数,并发送给比较模块;
[0112]
比较模块,用于将融合后的异常分数与阈值进行对比,将大于阈值的视频片段中的所有帧均视作异常,小于阈值的视频片段中的所有帧均看作正常,实现数据非平衡弱监督视频异常检测与异常的时间定位。
[0113]
本发明首次指出目前的弱监督视频异常检测任务忽略了固有的正常-异常视频数据不平衡问题,本发明从基于数据的对抗训练模块和基于模型的聚焦训练模块分别缓解异常视频数据不平衡问题,再通过融合两个模块取得了较高的异常检测准确率。具体具有如下优点:
[0114]
(1)视频间数据不平衡问题的提出。在弱监督视频异常检测任务中由于现有的基准数据集几乎都设置了相同数量的正常-异常视频,导致忽略了该重要的问题,本发明首次指出该问题并给出解决方法。
[0115]
(2)高检测效率。传统的视频异常检测方法通常依靠人工观看并识别异常事件,本发明仅使用视频级别的弱标签自动实现帧级别的异常事件检测,具有较高的检测效率。
[0116]
(3)高检测准确率。本发明通过融合基于数据的对抗训练模块与基于模型的聚焦训练模块,使得模型更易于学习正常与异常视频片段之间的差异,模型对异常事件检测更
趋近于真实,进而提升了模型的准确率。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献