基于Vit网络启发式自监督训练的抛洒物异常检测方法

2022-11-19 14:20:29 来源：中国专利 TAG：

基于vit网络启发式自监督训练的抛洒物异常检测方法
技术领域
1.本发明涉及图像异常检测技术领域，尤其涉及基于vit网络启发式自监督训练的抛洒物异常检测方法。

背景技术：

2.在日常生活中，由车内乘客、车辆本身及自然环境产生的各种异物(例如：食品包装盒、车辆掉落零件、树干枝桠等)常常散落到高速公路上，这些散落的抛洒物极大地影响了公路的正常保养和驾驶员的安全驾驶，因此，需要对这一问题进行研究，找到一种方法能够省时省力地进行抛洒物的检测，进而帮助高速公路养护人员清理路面抛洒物。
3.目前，基于深度学习进行图像异常检测的方法主要有基于像素级重建的方法、基于构造伪负样本的分类面构建方法和基于度量学习的方法。
4.其中基于像素级重建的算法一方面需要对网络泛化性进行一个恰当的约束(网络泛化性过强，会对异常样例产生适应性；网络泛化性较差，容易对正常样例产生误判)，但是求取恰当约束是非常困难的，它受多个互相耦合因素的制约，并且难以用优化函数去定量描述，且基于像素级重建的模型不仅消耗了大量计算资源，而且模型没能从高层语义的角度去理解什么是正常的模式；
5.基于构造伪负样本的分类面构建方法步骤较为繁琐，可能需要多次实验确定关键参数，而且在生成伪负样本的过程中存在着大量的不确定性，难以直观、可靠地生成高质量的伪负数样本，进而影响分类面的构建；
6.基于度量学习的方法具有较强的先验假设，且往往需要人工提前选定特征中心，其先验假设更贴合于简单图像的数据分布，而对于像高速公路这样的复杂场景图像而言，难以在保证泛化能力的前提下将全部正常图像映射到人工选定的特征中心附近，从而减弱了类间的稀疏性，为后续分类和定位带来了困难，因此，本发明提出基于vit网络启发式自监督训练的抛洒物异常检测方法用以解决现有技术中存在的问题。

技术实现要素：

7.针对上述问题，本发明的目的在于提出基于vit网络启发式自监督训练的抛洒物异常检测方法，解决在实际的高速公路场景中，由于场景复杂、抛洒物异常数据难以获取且无法穷举、正常模式和异常模式的分类边界较为模糊，高速公路抛洒物检测存在诸多困难，且现有的异常检测算法难以处理的问题。
8.为了实现本发明的目的，本发明通过以下技术方案实现：基于vit网络启发式自监督训练的抛洒物异常检测方法，包括以下步骤：
9.步骤一：先利用不同高速路段上的高速公路摄像头对正常的高速公路路面进行图像采集，得到正常路面图像，再利用不同高速路段上的高速公路摄像头对带有抛洒物的异常高速公路路面进行图像采集，得到异常路面图像；
10.步骤二：选取imagenet数据集作为训练集，并在imagenet数据集上对待训练图片
进行视觉变换器网络的自监督训练，实现教师网络的训练；
11.步骤三：待教师网络训练完毕后取出训练好的教师网络作为特征提取的骨架网络并冻结网络参数，再在骨架网络后面接入一个带线性整流模块的分类头，搭建二分类网络；
12.步骤四：先将采集到的正常路面图像和异常路面图像进行掩码预处理，再将掩码预处理后的正常路面图像和异常路面图像输入到搭建好的二分类网络中进行分类网络训练；
13.步骤五：待二分类网络训练完毕后，对于正常图像，将其特征抑制图舍去，对于异常图像，将其特征抑制图保留作为异常定位图并进行异常检测。
14.进一步改进在于：所述步骤一中，采集正常路面图像和异常路面图像的具体步骤为：先选定高速公路摄像头的位置并在选定的位置采集监控视频，再在采集的监控视频中选取抛洒物明显的视频和无抛洒物的视频，然后在选取的视频中每二十帧截取一帧，分别得到异常路面图像和正常路面图像。
15.进一步改进在于：所述步骤二中，自监督训练的具体步骤为：
16.a1、将待训练的图片分别进行两种不同的数据增强，生成两部分数据，并分别送入结构相同的教师网络和学生网络；
17.a2、将教师网络的输出向量进行中心化和锐化之后再和学生网络输出向量计算损失函数，反向传播更新学生网络参数；
18.a3、根据当前教师网络参数和更新后的学生网络参数加权求和更新教师网络参数，并且由当前教师网络输出向量的中心值和当前批量的平均值加权求和更新当前的中心值，实现教师网络的训练。
19.进一步改进在于：所述a1中，所述教师网络和学生网络结构相同，由基本的vit网络和将vit网络输出映射到高维特征空间的投影头组成，对于imagenet数据集中的待训练图片，一方面通过数据增广t1统一缩放其尺寸为224
×
224
×
3，生成两张全局图x
g1
和x
g2
，并送入教师网络g
t
中，另一方面通过数据增广t2统一缩放其尺寸为112
×
112
×
3，生成n张局部图x
cn
，将两张全局图和n张局部图送入学生网络gs中。
20.进一步改进在于：所述a2中，由前向传播过程得到教师网络的输出g
t
(xg)和学生网络的输出gs(xg xc)，对学生网络的输出进行softmax归一化，得到一个65536维的概率分布向量p1，其中：
[0021][0022]
对于教师网络的输出g
t
(xg)，先进行中心化和锐化处理，公式如下：
[0023]gt
(xg)
←
(g
t
(xg)-c)/t(e)
[0024]
式中，c为教师网络输出的各维度上的平均值，t(e)为随训练epoch变化的温度，然后对经过中心化和锐化处理后的教师网络输出g
t
(xg)进行softmax归一化，提供分布监督信号p2，其中：
[0025][0026]
对学生网络的分布p1和教师网络的分布p2求交叉熵损失，得到整个网络的损失函数为：
[0027]
lossd＝-p2logp1[0028]
计算每个全局图和任意一个局部图的交叉熵损失，求和之后再取平均值，则最终优化目标为：
[0029][0030]
最后通过随机梯度下降的方式优化学生网络gs。
[0031]
进一步改进在于：在学生网络完成参数更新的基础之上，利用指数移动平均的方式更新教师网络参数，跟据当前学生网络参数和上一个epoch的教师网络参数加权求和，更新教师网络参数，其公式如下：
[0032]gt
←
αg
t
(1-α)gs[0033]
其中α采用余弦衰减的方式，范围在0.996～1之间，教师网络参数更新完毕后，更新教师网络输出的center变量c，公式如下：
[0034][0035]
式中γ采用经验参数0.9，利用一个批量的均值对center变量c的跳变产生抑制作用。
[0036]
进一步改进在于：所述步骤三中，所述二分类网络在有监督情况下进行微调训练，训练时冻结住骨架部分的参数，单独训练分类头网络，损失函数为lossf＝crossentropyloss(label,output)。
[0037]
进一步改进在于：所述步骤四中，所述掩码预处理的具体步骤为：先利用预训练的yolov5网络，检测出高速公路上的车辆和行人，并将该区域用近似背景颜色的单一颜色掩码填充，然后再将填充后的图片缩放至720
×
360
×
3后送入到二分类网络。
[0038]
进一步改进在于：所述步骤四中，所述骨架网络输出特征图后再经过一次线性整流模块的特征抑制，使正常图像和异常图像提取到的特征差异更加明显，计算过程如下：
[0039][0040]
式中f(x,y)
max
为输出特征图向量的最大值，σ为输出特征图向量的标准差。
[0041]
进一步改进在于：所述步骤五中，对正常路面图像和异常路面图像进行二分类过程中，将没有局部不规则性的路面图像判定为正常，将具有局部不规则性的路面图像判定为异常。
[0042]
本发明的有益效果为：本发明基于vit的教师学生网络，在超大规模自然图像数据集上进行自监督训练，使vit网络在高维空间中学习到自然正常图像的结构特征，从而能够在高速公路这一复杂场景环境下，发现异常图像局部的空间不规则性，然后在此基础上构建基于预训练的vit骨架网络的二分类网络进行高速公路抛洒物异常检测，与传统的无监督和半监督方法相比，能够解决高速公路抛洒物异常检测问题，且具有通用性，能够推广到多个公开的异常检测数据集。
附图说明
[0043]
为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
[0044]
图1是本发明的方法流程示意图；
[0045]
图2是本发明的教师网络架构图；
[0046]
图3是本发明的二分类网络架构图。
具体实施方式
[0047]
下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得所有其他实施例，都属于本发明保护的范围。
[0048]
参见图1、图2、图3，本实施例提供了基于vit网络启发式自监督训练的抛洒物异常检测方法，包括以下步骤：
[0049]
步骤一：先选定70个高速公路摄像头的位置并在选定的位置采集70端监控视频，高速公路摄像头的分辨率为1920*1080，再在70端采集的监控视频中选取抛洒物明显的25端视频和无抛洒物的10段视频，然后在选取的视频中每二十帧截取一帧，分别得到3631张异常路面图像和1531张正常路面图像；
[0050]
步骤二：选取imagenet数据集作为训练集，并在imagenet数据集上对待训练图片进行视觉变换器网络的自监督训练，具体步骤为：
[0051]
a1、将待训练的图片分别进行两种不同的数据增强，生成两部分数据，并分别送入结构相同的教师网络和学生网络，教师网络和学生网络结构相同，由基本的vit网络和将vit网络输出映射到高维特征空间的投影头组成，网络结构如图2所示，对于imagenet数据集中的待训练图片，一方面通过数据增广t1(包括随机裁剪原图面积的40％～100％，随机翻转、颜色跳变及高斯模糊)统一缩放其尺寸为224
×
224
×
3，生成两张全局图x
g1
和x
g2
，并送入教师网络g
t
中，另一方面通过数据增广t2(包括随机裁剪原图面积的20％～40％，随机翻转、颜色跳变及高斯模糊)统一缩放其尺寸为112
×
112
×
3，生成n张局部图x
cn
，将两张全局图和n张局部图送入学生网络gs中；
[0052]
a2、将教师网络的输出向量进行中心化和锐化之后再和学生网络输出向量计算损失函数，反向传播更新学生网络参数，由前向传播过程得到教师网络的输出g
t
(xg)和学生网
络的输出gs(xg xc)，对学生网络的输出进行softmax归一化，得到一个65536维的概率分布向量p1，其中：
[0053][0054]
对于教师网络的输出g
t
(xg)，先进行中心化和锐化处理，公式如下：
[0055]gt
(xg)
←
(g
t
(xg)-c)/t(e)
[0056]
式中，c为教师网络输出的各维度上的平均值，t(e)为随训练epoch变化的温度，通过g
t
(xg)-c的中心化操作促进网络输出的收缩，但存在使各维度趋同的风险，通过的锐化操作，在训练后期t(e)较小，可以促进各维度的差异，二者相互博弈制衡，可以避免单一正样本训练所引起的模型退化、坍塌，然后对经过中心化和锐化处理后的教师网络输出g
t
(xg)进行softmax归一化，软化教师网络的输出，提供类似于“该物体很大可能是马，较小可能是大象，但肯定不可能是老虎”的更为丰富的分布监督信号p2，其中：
[0057][0058]
对学生网络的分布p1和教师网络的分布p2求交叉熵损失，得到整个网络的损失函数为：
[0059]
lossd＝-p2logp1[0060]
对于一张图片而言，要计算每个全局图和任意一个局部图的交叉熵损失，求和之后再取平均值，则最终优化目标为：
[0061][0062]
最后通过随机梯度下降的方式优化学生网络gs；
[0063]
a3、根据当前教师网络参数和更新后的学生网络参数加权求和更新教师网络参数，并且由当前教师网络输出向量的中心值和当前批量的平均值加权求和更新当前的中心值，实现教师网络的训练，在学生网络完成参数更新的基础之上，利用指数移动平均的方式更新教师网络参数，跟据当前学生网络参数和上一个epoch的教师网络参数加权求和，更新教师网络参数，其公式如下：
[0064]gt
←
αg
t
(1-α)gs[0065]
其中α采用余弦衰减的方式，范围在0.996～1之间，教师网络参数更新完毕后，更新教师网络输出的center变量c，公式如下：
[0066][0067]
式中γ采用经验参数0.9，利用一个批量的均值对center变量c的跳变产生抑制作
用，从而使训练过程更为平稳；
[0068]
步骤三：待教师网络训练完毕后取出训练好的教师网络作为特征提取的骨架网络并冻结网络参数，再在骨架网络后面接入一个带线性整流模块的分类头，搭建二分类网络，二分类网络在有监督情况下进行微调训练，训练时冻结住骨架部分的参数，单独训练分类头网络，损失函数为lossf＝crossentropyloss(label,output)，二分类网络结构如图3所示；
[0069]
步骤四：先将采集到的正常路面图像和异常路面图像进行掩码预处理，再将掩码预处理后的正常路面图像和异常路面图像输入到搭建好的二分类网络中进行分类网络训练，掩码预处理的具体步骤为：先利用预训练的yolov5网络，检测出高速公路上的车辆和行人，并将该区域用近似背景颜色的单一颜色掩码填充，然后再将填充后的图片缩放至720
×
360
×
3后送入到二分类网络，对于训练集中的异常图片，经过自监督训练的vit网络会关注到它的局部不规则区域，注意力区域非常集中，而对于训练集中的正常图片，由于没有明显的注意力焦点，vit网络会关注到多个图像区域，注意力区域非常分散，骨架网络输出特征图后再经过一次线性整流模块的特征抑制，使正常图像和异常图像提取到的特征差异更加明显，计算过程如下：
[0070][0071]
式中f(x,y)
max
为输出特征图向量的最大值，σ为输出特征图向量的标准差；
[0072]
步骤五：待二分类网络训练完毕后，利用训练好的二分类网络对预处理图像进行二分类，将没有局部不规则性的路面图像判定为正常，并将其特征抑制图舍去，将具有局部不规则性的路面图像判定为异常，并将其特征抑制图保留作为异常定位图进行异常检测。
[0073]
以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种3D人体姿态的评估方法、装置及电子设备与流程

基于Vit网络启发式自监督训练的抛洒物异常检测方法

相关文献

最热文献