一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

适用于复杂环境的基于视频流数据的高空小目标检测方法

2022-05-18 16:24:46 来源:中国专利 TAG:


1.本发明属于目标检测技术领域,特别是一种适用于复杂环境的基于视频流数据的高空小目标检测方法、系统、计算机设备和存储介质。


背景技术:

2.目标检测(object detection)的任务是找出图像中所有感兴趣的目标,确定它们的类别和位置,目标检测是计算机视觉领域的核心问题之一。由于各类物体有不同的外观、形状和姿态,加上成像时光照、遮挡等因素的干扰,目标检测一直是计算机视觉领域最具有挑战性的问题。传统目标检测的方法一般分为三个阶段:首先在给定的图像上选择一些候选的区域,这一步是为了对目标的位置进行定位。由于目标可能出现在图像的任何位置,而且目标的大小、长宽比例也不确定,所以需要设置不同的尺度,不同的长宽比。其次是对这些区域提取特征,常用的特征有sift、hog等。最后使用训练的分类器进行分类,分类器主要有svm,adaboost等。传统目标检测有许多缺点,首先候选区域生成时间复杂度高,影响后续特征提取和分类的速度和性能,其次,人工特征提取使得算法整体的多样性和鲁棒性无法保证,对于尺寸较小的目标,其特征很可能会被忽略。
3.如今,计算机性能的提升使得深度学习算法成为了目标检测领域的主流方法。尤其是2012年,基于cnn的alexnet一举夺得imagenet图像识别比赛的冠军,从此神经网络开始受到广泛的关注。深度学习利用多层计算模型来学习抽象的数据表示,能够发现大数据中的复杂结构,目前,这项技术已成功地应用在包括计算机视觉领域在内的多种模式分类问题上。常见的目标检测算法如r-cnn系列,yolo系列等,均展现出了强大的检测精度。缺点是该类算法的深层神经网络依赖硬件性能,具有较高的计算成本。
4.基于视频的目标检测,由于视频中的目标具有不同姿态且经常出现遮挡、其运动具有不规则性,同时考虑到监控视频的景深、分辨率、天气、光照等条件和场景的多样性和复杂性,而且目标检测算法的结果将直接影响后续的跟踪、动作识别和行为描述的效果。故即使在技术发展的今天,视频目标检测这一基本任务仍然是非常具有挑战性的课题,存在很大的提升潜力和空间。尤其是对于机载计算机,其性能有限,神经网络难以部署,其次,摄像机拍摄抖动,不稳定等因素造成的图像模糊也严重限制了目标检测的精度。


技术实现要素:

5.本发明的目的在于针对上述现有技术存在的问题,提供一种适用于复杂环境的基于视频流数据的高空小目标检测方法。
6.实现本发明目的的技术解决方案为:一种适用于复杂环境的基于视频流数据的高空小目标检测方法,所述方法包括以下步骤:
7.步骤1,构建神经网络,并利用高空小目标图像数据集训练所述神经网络,获得目标检测模型;
8.步骤2,对待检测视频进行划分,每6帧为作为一个目标检测周期,分别记为第i帧
至第i 5帧;
9.步骤3,针对第i 3帧图像,将其输入至所述目标检测模型,获得目标信息;
10.步骤4,针对第i 1帧,第i 3帧和第i 5帧图像,首先构建图像金字塔并使用sift提取图像中的关键点,之后通过lk光流法估算当前特征点的光流;
11.步骤5,基于光流估算出该视频帧中关键点在下一帧中的位置,并获取匹配的关键点对;
12.步骤6,根据成功匹配的关键点计算变换矩阵,将变换矩阵作用于后一帧图像进行校正,再利用帧差法和二值法获得该帧图像中运动目标的位置;
13.步骤7,针对步骤3模型输出的目标信息,对其进行解码,获得目标的位置、类别和类别置信度,同时分别设置阈值一和阈值二两个阈值,且阈值一大于阈值二,置信度大于阈值一的目标为接收目标,置信度小于阈值二的目标舍弃,置信度位于阈值一和二之间的目标作为候选目标;
14.步骤8,对于步骤6的每个输出结果,寻找与其iou匹配的候选目标,若存在多个候选目标,则选择置信度最大的目标作为最终匹配结果,若不存在与之匹配的候选目标,则舍弃。
15.一种适用于复杂环境的基于视频流数据的高空小目标检测系统,所述系统包括依次执行的以下模块:
16.模型构建模块,用于构建神经网络,并利用高空小目标图像数据集训练所述神经网络,获得目标检测模型;
17.视频划分模块,用于对待检测视频进行划分,每6帧为作为一个目标检测周期,分别记为第i帧至第i 5帧;
18.目标信息获取模块,用于将第i 3帧图像输入至所述目标检测模型,获得目标信息;
19.关键点提取模块,用于针对第i 1帧,第i 3帧和第i 5帧图像,首先构建图像金字塔并使用sift提取图像中的关键点,之后通过lk光流法估算当前特征点的光流;
20.关键点匹配模块,用于基于光流估算出该视频帧中关键点在下一帧中的位置,并获取匹配的关键点对;
21.校正模块,用于根据成功匹配的关键点计算变换矩阵,将变换矩阵作用于后一帧图像进行校正,再利用帧差法和二值法获得该帧图像中运动目标的位置;
22.目标分类模块,用于针对目标信息获取模块中模型输出的目标信息,对其进行解码,获得目标的位置、类别和类别置信度,同时分别设置阈值一和阈值二两个阈值,且阈值一大于阈值二,置信度大于阈值一的目标为接收目标,置信度小于阈值二的目标舍弃,置信度位于阈值一和二之间的目标作为候选目标;
23.目标检测模块,用于针对所述校正模块的每个输出结果,寻找与其iou匹配的候选目标,若存在多个候选目标,则选择置信度最大的目标作为最终匹配结果,若不存在与之匹配的候选目标,则舍弃。
24.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
25.步骤1,构建神经网络,并利用高空小目标图像数据集训练所述神经网络,获得目
标检测模型;
26.步骤2,对待检测视频进行划分,每6帧为作为一个目标检测周期,分别记为第i帧至第i 5帧;
27.步骤3,针对第i 3帧图像,将其输入至所述目标检测模型,获得目标信息;
28.步骤4,针对第i 1帧,第i 3帧和第i 5帧图像,首先构建图像金字塔并使用sift提取图像中的关键点,之后通过lk光流法估算当前特征点的光流;
29.步骤5,基于光流估算出该视频帧中关键点在下一帧中的位置,并获取匹配的关键点对;
30.步骤6,根据成功匹配的关键点计算变换矩阵,将变换矩阵作用于后一帧图像进行校正,再利用帧差法和二值法获得该帧图像中运动目标的位置;
31.步骤7,针对步骤3模型输出的目标信息,对其进行解码,获得目标的位置、类别和类别置信度,同时分别设置阈值一和阈值二两个阈值,且阈值一大于阈值二,置信度大于阈值一的目标为接收目标,置信度小于阈值二的目标舍弃,置信度位于阈值一和二之间的目标作为候选目标;
32.步骤8,对于步骤6的每个输出结果,寻找与其iou匹配的候选目标,若存在多个候选目标,则选择置信度最大的目标作为最终匹配结果,若不存在与之匹配的候选目标,则舍弃。
33.一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
34.步骤1,构建神经网络,并利用高空小目标图像数据集训练所述神经网络,获得目标检测模型;
35.步骤2,对待检测视频进行划分,每6帧为作为一个目标检测周期,分别记为第i帧至第i 5帧;
36.步骤3,针对第i 3帧图像,将其输入至所述目标检测模型,获得目标信息;
37.步骤4,针对第i 1帧,第i 3帧和第i 5帧图像,首先构建图像金字塔并使用sift提取图像中的关键点,之后通过lk光流法估算当前特征点的光流;
38.步骤5,基于光流估算出该视频帧中关键点在下一帧中的位置,并获取匹配的关键点对;
39.步骤6,根据成功匹配的关键点计算变换矩阵,将变换矩阵作用于后一帧图像进行校正,再利用帧差法和二值法获得该帧图像中运动目标的位置;
40.步骤7,针对步骤3模型输出的目标信息,对其进行解码,获得目标的位置、类别和类别置信度,同时分别设置阈值一和阈值二两个阈值,且阈值一大于阈值二,置信度大于阈值一的目标为接收目标,置信度小于阈值二的目标舍弃,置信度位于阈值一和二之间的目标作为候选目标;
41.步骤8,对于步骤6的每个输出结果,寻找与其iou匹配的候选目标,若存在多个候选目标,则选择置信度最大的目标作为最终匹配结果,若不存在与之匹配的候选目标,则舍弃。
42.本发明与现有技术相比,其显著优点为:1)本发明通过计算光流更加准确地获取不同视频帧之间的变换矩阵,通过该矩阵对后一帧图像进行校正,能够获得更精确的运动
目标位置,从而提高目标检测精度。2)本发明针对视频目标检测环境的复杂性,设计轻量级的神经网络,克服了传统方法检测精度低的缺陷。3)本发明针对视频信号不稳定的问题,使用sift和光流法对动态目标进行检测,保证了在视频质量低,环境复杂情况下的检测精度。
43.下面结合附图对本发明作进一步详细描述。
附图说明
44.图1为适用于复杂环境的基于视频流数据的高空小目标检测方法流程图。
45.图2为视频划分示意图。
46.图3为神经网络框架图。
47.图4为视频检测结果图,其中(a)至(d)为视频四个场景的检测结果。
具体实施方式
48.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
49.在一个实施例中,结合图1,提供了一种适用于复杂环境的基于视频流数据的高空小目标检测方法,所述方法包括以下步骤:
50.步骤1,构建神经网络,并利用高空小目标图像数据集训练所述神经网络,获得目标检测模型;
51.步骤2,结合图2,对待检测视频进行划分,每6帧为作为一个目标检测周期,分别记为第i帧至第i 5帧;
52.步骤3,针对第i 3帧图像,将其输入至所述目标检测模型,获得目标信息;
53.步骤4,针对第i 1帧,第i 3帧和第i 5帧图像,首先构建图像金字塔并使用sift提取图像中的关键点,之后通过lk光流法估算当前特征点的光流;
54.步骤5,基于光流估算出该视频帧中关键点在下一帧中的位置,并获取匹配的关键点对;
55.步骤6,根据成功匹配的关键点计算变换矩阵,将变换矩阵作用于后一帧图像进行校正,再利用帧差法和二值法获得该帧图像中运动目标的位置;
56.步骤7,针对步骤3模型输出的目标信息,对其进行解码,获得目标的位置、类别和类别置信度,同时分别设置阈值一和阈值二两个阈值,且阈值一大于阈值二,置信度大于阈值一的目标为接收目标,置信度小于阈值二的目标舍弃,置信度位于阈值一和二之间的目标作为候选目标;
57.步骤8,对于步骤6的每个输出结果,寻找与其iou匹配的候选目标,若存在多个候选目标,则选择置信度最大的目标作为最终匹配结果,若不存在与之匹配的候选目标,则舍弃。
58.进一步地,在其中一个实施例中,结合图3,步骤1中所述神经网络的框架具体为:
59.对输入图像进行一次3*3的卷积将通道数扩充到32维,然后将该特征层输入至残差网络中,分别进行1次,2次,2次,4次和1次的残差块计算,分别对输入进行下采样,并扩张一次通道数,将最终的3个特征层(52,52,128),(26,26,256)和(13,13,512)作为检测不同
尺寸目标的特征输出;
60.之后对输出特征进行进一步处理,对(13,13,512)尺度的特征层进行l5卷积正则化处理,之后通过3*3卷积和1*1卷积进行压缩,使得(13,13,512)尺度的特征层的输出格式为c*h*w*(5 cls);对(13,13,512)尺度特征层进行l5卷积正则化处理的结果进行上采样,并通过(26,26,256)全连接层和(26,26,256)的特征层进行拼接,然后进行l5卷积正则化处理,之后通过3*3卷积和1*1卷积进行压缩,使得(26,26,256)尺度的特征层的输出格式为c*h*w*(5 cls);对上述拼接后进行l5卷积正则化处理的结果进行上采样,并通过(52,52,256)全连接层和(52,52,128)的特征层进行拼接,然后进行l5卷积正则化处理,之后通过3*3卷积和1*1卷积进行压缩,使得(52,52,128)尺度的特征层的输出格式为c*h*w*(5 cls);其中,c为图像通道数,h为图像的高,w为图像的宽,cls为检测目标类别数,即代表每一个类别的置信度,5分别代表目标中心点坐标和长宽偏移量以及存在目标的置信度。
61.进一步地,在其中一个实施例中,步骤4中lk光流法的计算公式为:
62.i(x,y,z,t)=i(x δx,y δy,z δz,t δt)
63.其中,x、y、z表示某一点的位置坐标,t表示当前的时刻,i(x,y,z,t)表示该点在t时刻的灰度值,即亮度,δx、δy、δz表示该点在经过δt时间后的位移量,上述公式假设在一段时间内该点亮度恒定,对其进行泰勒展开可得下式:
[0064][0065]
将上式两边除以δt并移项,可简化为如下形式:
[0066]ixvx
i
yvy
=-i
t
[0067]
式中,i
x
、iy、i
t
为i对x、y、t的偏导数,v
x
和vy即为和表示该点在短时间的光流;
[0068]
利用3*3窗口内的9个像素点建立9个方程,可简写为下面的形式:
[0069][0070]
使用最小二乘法可求该点的光流(vx,vy):
[0071][0072]
进一步地,在其中一个实施例中,,步骤5所述获取匹配的关键点对,具体过程包括:
[0073]
计算当前帧中关键点与下一帧中关键点的欧氏距离,根据欧氏距离寻找匹配的关键点,若欧式距离小于设定的阈值,则关键点对匹配成功。
[0074]
进一步地,在其中一个实施例中,,步骤6中变换矩阵的计算公式为:
[0075]kt
=hk
t δt
[0076]
式中,k
t
和k
t δt
分别为前后两帧中匹配的关键点的坐标,h为变换矩阵。
[0077]
进一步地,在其中一个实施例中,,步骤8用公式表示为:
[0078][0079]
iou(obj1,o)>p,...,iou(obji,o)>p}
[0080]
式中,obj
final
表示最终匹配结果,obj表示候选目标,conf
obj
表示候选目标obj的置信度,obji表示第i个候选目标,表示第i个候选目标的置信度,o为步骤6的输出结果,iou(obji,o)表示计算obji和o的iou值,p表示设定阈值,优选地p取值为0.7。
[0081]
在一个实施例中,提出了一种适用于复杂环境的基于视频流数据的高空小目标检测系统,所述系统包括依次执行的以下模块:
[0082]
模型构建模块,用于构建神经网络,并利用高空小目标图像数据集训练所述神经网络,获得目标检测模型;
[0083]
视频划分模块,用于对待检测视频进行划分,每6帧为作为一个目标检测周期,分别记为第i帧至第i 5帧;
[0084]
目标信息获取模块,用于将第i 3帧图像输入至所述目标检测模型,获得目标信息;
[0085]
关键点提取模块,用于针对第i 1帧,第i 3帧和第i 5帧图像,首先构建图像金字塔并使用sift提取图像中的关键点,之后通过lk光流法估算当前特征点的光流;
[0086]
关键点匹配模块,用于基于光流估算出该视频帧中关键点在下一帧中的位置,并获取匹配的关键点对;
[0087]
校正模块,用于根据成功匹配的关键点计算变换矩阵,将变换矩阵作用于后一帧图像进行校正,再利用帧差法和二值法获得该帧图像中运动目标的位置;
[0088]
目标分类模块,用于针对目标信息获取模块中模型输出的目标信息,对其进行解码,获得目标的位置、类别和类别置信度,同时分别设置阈值一和阈值二两个阈值,且阈值一大于阈值二,置信度大于阈值一的目标为接收目标,置信度小于阈值二的目标舍弃,置信度位于阈值一和二之间的目标作为候选目标;
[0089]
目标检测模块,用于针对所述校正模块的每个输出结果,寻找与其iou匹配的候选目标,若存在多个候选目标,则选择置信度最大的目标作为最终匹配结果,若不存在与之匹配的候选目标,则舍弃。
[0090]
关于适用于复杂环境的基于视频流数据的高空小目标检测系统的具体限定可以参见上文中对于适用于复杂环境的基于视频流数据的高空小目标检测方法的限定,在此不再赘述。上述适用于复杂环境的基于视频流数据的高空小目标检测系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0091]
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
[0092]
步骤1,构建神经网络,并利用高空小目标图像数据集训练所述神经网络,获得目标检测模型;
[0093]
步骤2,对待检测视频进行划分,每6帧为作为一个目标检测周期,分别记为第i帧
至第i 5帧;
[0094]
步骤3,针对第i 3帧图像,将其输入至所述目标检测模型,获得目标信息;
[0095]
步骤4,针对第i 1帧,第i 3帧和第i 5帧图像,首先构建图像金字塔并使用sift提取图像中的关键点,之后通过lk光流法估算当前特征点的光流;
[0096]
步骤5,基于光流估算出该视频帧中关键点在下一帧中的位置,并获取匹配的关键点对;
[0097]
步骤6,根据成功匹配的关键点计算变换矩阵,将变换矩阵作用于后一帧图像进行校正,再利用帧差法和二值法获得该帧图像中运动目标的位置;
[0098]
步骤7,针对步骤3模型输出的目标信息,对其进行解码,获得目标的位置、类别和类别置信度,同时分别设置阈值一和阈值二两个阈值,且阈值一大于阈值二,置信度大于阈值一的目标为接收目标,置信度小于阈值二的目标舍弃,置信度位于阈值一和二之间的目标作为候选目标;
[0099]
步骤8,对于步骤6的每个输出结果,寻找与其iou匹配的候选目标,若存在多个候选目标,则选择置信度最大的目标作为最终匹配结果,若不存在与之匹配的候选目标,则舍弃。
[0100]
关于每一步的具体限定可以参见上文中对于适用于复杂环境的基于视频流数据的高空小目标检测方法的限定,在此不再赘述。
[0101]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
[0102]
步骤1,构建神经网络,并利用高空小目标图像数据集训练所述神经网络,获得目标检测模型;
[0103]
步骤2,对待检测视频进行划分,每6帧为作为一个目标检测周期,分别记为第i帧至第i 5帧;
[0104]
步骤3,针对第i 3帧图像,将其输入至所述目标检测模型,获得目标信息;
[0105]
步骤4,针对第i 1帧,第i 3帧和第i 5帧图像,首先构建图像金字塔并使用sift提取图像中的关键点,之后通过lk光流法估算当前特征点的光流;
[0106]
步骤5,基于光流估算出该视频帧中关键点在下一帧中的位置,并获取匹配的关键点对;
[0107]
步骤6,根据成功匹配的关键点计算变换矩阵,将变换矩阵作用于后一帧图像进行校正,再利用帧差法和二值法获得该帧图像中运动目标的位置;
[0108]
步骤7,针对步骤3模型输出的目标信息,对其进行解码,获得目标的位置、类别和类别置信度,同时分别设置阈值一和阈值二两个阈值,且阈值一大于阈值二,置信度大于阈值一的目标为接收目标,置信度小于阈值二的目标舍弃,置信度位于阈值一和二之间的目标作为候选目标;
[0109]
步骤8,对于步骤6的每个输出结果,寻找与其iou匹配的候选目标,若存在多个候选目标,则选择置信度最大的目标作为最终匹配结果,若不存在与之匹配的候选目标,则舍弃。
[0110]
关于每一步的具体限定可以参见上文中对于适用于复杂环境的基于视频流数据的高空小目标检测方法的限定,在此不再赘述。
[0111]
在一个实施例中,对本发明进行进一步验证说明。本实施例中,使用四旋翼无人机(dji m-100)和笔记本电脑搭建了一个测试平台,在树林场景中进行取景拍摄,以验证该发明在复杂环境中的检测精度。无人机dji m-100上装载了机载电脑mainfold、摄像头传感器和gps等模块。
[0112]
如图4(a)所示,右下角处于蹲姿状态且身穿迷彩服的人被成功检测,图4(b)中左上角处于半遮挡状态的人被成功检测,图4(c)中右下角处于半遮挡的人被成功检测,图4(d)中最上方两个重叠的人分别被检测,足以说明该检测算法的鲁棒性和复杂环境的适应性。
[0113]
以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献