一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种固定相机快速进行目标检测的方法、系统和存储介质与流程

2022-02-21 10:27:23 来源:中国专利 TAG:


1.本发明属于固定相机快速进行目标检测技术领域,更具体地,涉及一种固定相机快速进行目标检测的方法、系统和存储介质。


背景技术:

2.目标检测(object detection),就是在给定的一张图片中精确找到物体所在的位置,并标注出物体的类别。所以,目标检测要解决的问题就是物体在哪里以及是什么的整个流程问题。但是,在实际照片中,物体的尺寸变化范围很大,摆放物体的角度、姿态、在图片中的位置都不一样,物体之间可能还有重叠现象,这使得目标检测的难度变得很大。目前检测精度较高的方案有one-stage算法和two-stage,前者以yolo、ssd为典型代表,后者以r-cnn系列为典型代表。two-stage算法和one-stage算法的区别在于,two-stage算法会先使用一个网络生成proposal,如selective search和rpn网络,前者是基于一些人造特征来的,rpn是一个也需要进行训练的网络,rpn出现后,ss方法基本就被摒弃。one-stage追求速度舍弃了two-stage架构,即不再设置单独网络生成proposal,而是直接在feature map上进行密集抽样,产生大量的先验框,如yolo的网格方法和ssd沿用faster-rcnn的anchor方法。这些先验框没有经过两步处理,且框的尺寸往往是人为规定,精度肯定会比较低,而且retina-net论文中提到,one-stage产生的先验框正负样本比例严重失衡(背景样本占多数),会引起训练上的问题。
3.但是对于路侧固定相机来讲,存在着检测目标速度高,图像中存在的时间较短的问题,此时直接使用神经网络进行目标检测效果不佳,不能够完全发挥神经网络的优势,迫切需要一种能够快速进行目标检测的方案。


技术实现要素:

4.有鉴于此,本公开实施例提供了一种固定相机快速进行目标检测的方法、系统和存储介质,至少解决现有技术中对于路侧固定相机来讲,存在着检测目标速度高,图像中存在的时间较短的问题,此时直接使用神经网络进行目标检测效果不佳,不能够完全发挥神经网络的优势,迫切需要一种能够快速进行目标检测的方案的问题。
5.第一方面,本公开实施例提供了一种固定相机快速进行目标检测的方法,包括:
6.获取待处理图像和所述待处理图像上的坐标信息;
7.通过帧差法进行运动目标的检测,获取目标图像;
8.将所述坐标信息和所述目标图像融合,框选目标物体信息;
9.使用cnn神经网络检测所述目标物体信息。
10.作为本公开实施例的一种具体实现方式,包括:
11.利用固定摄像头拍摄所述待处理图像;
12.利用毫米波雷达检测所述待处理图像上的坐标信息。
13.作为本公开实施例的一种具体实现方式,所述通过帧差法进行运动目标的检测包
括:
14.选取5帧背景图和相邻5帧图像;
15.将所述相邻5帧图像分别与所述5帧背景图进行帧差,获得帧差结果;
16.每个所述帧差结果顺序相与;
17.通过连通区域和聚类算法获得帧差结果。
18.作为本公开实施例的一种具体实现方式,所述框选目标物体信息包括框数据,所述框数据包括位置信息和大小信息。
19.作为本公开实施例的一种具体实现方式,所述框选目标物体信息还包括:
20.框选相对独立目标信息,和框选相互交接目标信息,和框选相互包含目标信息。
21.作为本公开实施例的一种具体实现方式,所述使用cnn神经网络检测所述目标物体信息包括:
22.预处理所述框数据;
23.检测预处理后的所述框数据。
24.作为本公开实施例的一种具体实现方式,还包括:
25.根据所述处理图像和所述框数据进行整合,使cnn神经网络的检测结果整合到完整的帧数据上。
26.作为本公开实施例的一种具体实现方式,所述预处理为图像大小处理,所述cnn神经网络为vgg神经网络。
27.第二方面,本公开实施例还提供了计算机可读存储介质,包括:
28.所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的一种固定相机快速进行目标检测的步骤。
29.第三方面,本公开实施例还提供了一种固定相机快速进行目标检测的系统,基于上述的一种固定相机快速进行目标检测的方法,包括:
30.固定摄像头、毫米波雷达、处理器和存储器,所述处理器与所述固定摄像头和所述毫米波雷达通讯连接,所述处理器能够执行所述存储器中保存的计算机程序,实现上述的固定相机快速进行目标检测的方法。
31.本公开实施例提供的固定相机快速进行目标检测方法对固定相机检测快速移动目标场景,创新检运动目标测框架机制,使用两步检测法,快速roi定位加cnn神经网路精确检测识别。
32.本发明的其它特征和优点将在随后具体实施方式部分予以详细说明。
附图说明
33.通过结合附图对本发明示例性实施方式进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显,其中,在本发明示例性实施方式中,相同的参考标号通常代表相同部件。
34.图1示出了根据本发明的一个实施例的一种固定相机快速进行目标检测的方法的示意图。
35.图2示出了根据本发明的一个实施例的一种固定相机快速进行目标检测的方法的将所述坐标信息和所述目标图像融合升温流程图。
36.图3示出了根据本发明的一个实施例的一种固定相机快速进行目标检测的方法的帧差法的流程图。
37.图4示出了根据本发明的一个实施例的一种固定相机快速进行目标检测的方法的相对独立目标的框选示意图。
38.图5示出了根据本发明的一个实施例的一种固定相机快速进行目标检测的方法的相互交接目标的框选示意图。
39.图6示出了根据本发明的一个实施例的一种固定相机快速进行目标检测的方法的帧差法相互包含目标的框选示意图。
40.图7示出了根据本发明的一个实施例的一种固定相机快速进行目标检测的方法的使用cnn神经网络检测所述目标物体信息的流程图。
41.图8示出了根据本发明的一个实施例的一种固定相机快速进行目标检测的方法的流程图。
42.图9示出了根据本发明的一个实施例的一种固定相机快速进行目标检测的方法的原理图。
43.图10示出了根据本发明的一个实施例的一种固定相机快速进行目标检测的方法的vgg16的结构示意图。
44.图11示出了根据本发明的一个实施例的一种固定相机快速进行目标检测的方法的vgg网络的示意图。
具体实施方式
45.下面将更详细地描述本发明的优选实施方式。虽然以下描述了本发明的优选实施方式,然而应该理解,可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。
46.1、该固定相机快速进行目标检测的方法对固定相机检测快速移动目标场景,创新检运动目标测框架机制,使用两步检测法,快速roi定位加cnn神经网路精确检测识别;
47.2、该固定相机快速进行目标检测的方法改良帧差法,通过引入多帧背景图片,以及5帧图像进行帧差,能够大大增加目标和周围背景的对比度,从而较为清晰的检测出运动目标的轮廓。
48.实施例一:
49.参见图1,本公开实施例提供一种固定相机快速进行目标检测的方法,包括如下步骤:
50.s101获取待处理图像和所述待处理图像上的坐标信息;
51.采集固定摄像头图像,毫米波雷达检测目标,固定摄像头进行拍照记录图像信息,同时毫米波雷达解析运动目标检测,获得目标图像对应的坐标信息。
52.s102通过帧差法进行运动目标的检测,获取目标图像;
53.通过帧差法检测图像信息,从待处理图像中获得目标图像。
54.s103将所述坐标信息和所述目标图像融合,框选目标物体信息;
55.检测目标融合,神经网络根据识别出目标图像结合坐标信息按照一定逻辑分割图像,整合目标,对目标进行框选,根据目标框的大小进行分割,分割后的目标框为检测对象。
56.s104使用cnn神经网络检测所述目标物体信息;
57.神经网络对框数据进行预处理,输出检测结果,检测结果根据与处理结果结合原始的图像信息进行再次检测,再次检测结构整合后输出。
58.具体的,先快速获取目标图像和cnn神经神经网络检测目标,通过视频检测和毫米波雷达检测作为快速检测目标框的方法,实现快速有效的进行多目标检测,成本相对较小,利于工程化应用,cnn神经网络包括分类识别神经网络、vgg神经网络。
59.进一步,本方法分为两步,第一步快速提取图像候选特征。首先输入图片,对图片进行帧差,快速提取出目标的位置和大小信息,然后需要一个roi_pooling层将候选区域进行进一步的位置的精确的回归和修正。(实际上可以将roi_pooling层理解为“抠图”)。接下来使用vgg神经网络完成对候选框的分类和预测。得到候选目标对应到feature map上它的那一段区域(特征)之后,会通过一个全连接层来进一步的对候选区域的特征进行表示。然后通过当前帧图像的位置信息进行整合,来分别完成对候选目标类别的判断和位置的精修。
60.作为本公开实施例的一种具体实现方式,所述收集目标信息包括:
61.采集固定摄像头图像;
62.毫米波雷达检测目标。
63.具体的,固定摄像机拍摄目标的图像信息,毫米波雷达扫描物体移动信息记录。
64.参见图2,作为本公开实施例的一种具体实现方式,包括:
65.利用固定摄像头拍摄所述待处理图像;
66.利用毫米波雷达检测所述待处理图像上的坐标信息
67.具体的,基于图像信息和坐标信息监测目标,同时两种检测方法相互匹配验证。
68.参见图3,作为本公开实施例的一种具体实现方式,所述通过帧差法进行运动目标的检测包括:
69.选取5帧背景图和相邻5帧图像;
70.将所述相邻5帧图像分别与所述5帧背景图进行帧差,获得帧差结果;
71.每个所述帧差结果顺序相与;
72.通过连通区域和聚类算法获得帧差结果。
73.具体的,通过帧差法清晰准确提取目标,结合坐标信息调高辨识度。
74.进一步,摄像机采集的视频序列具有连续性的特点。如果场景内没有运动目标,则连续帧的变化很微弱,如果存在运动目标,则连续的帧和帧之间会有明显地变化。帧差法帧间差分法是通过对视频中相邻两帧图像做差分运算来标记运动物体的方法。帧差法依据的原理是:当视频中存在移动物体的时候,相邻帧(或相邻三帧)之间在灰度上会有差别,求取两帧图像灰度差的绝对值,则静止的物体在差值图像上表现出来全是0,而移动物体特别是移动物体的轮廓处由于存在灰度变化为非0,这样就能大致计算出移动物体的位置、轮廓和移动路径等。相邻帧间差分法直接对相邻的两帧图像做差分运算,并取差分运算的绝对值构成移动物体,优点是运算快速,实时性高,缺点是无法应对光照的突变,物体间一般具有空洞。只能提取出边界,边界轮廓比较粗,往往比实际物体要大。对快速运动的物体,容易出现鬼影的现象,甚至会被检测为两个不同的运动物体,对慢速运动的物体,当物体在前后两帧中几乎完全重叠时,则检测不到物体。
75.参见图4-6,作为本公开实施例的一种具体实现方式,所述框选目标物体信息包括
框数据,所述框数据包括位置信息和大小信息。
76.具体的,每帧图像的目标对应相应时间的坐标信息,通过坐标信息和图像信息逐帧结合框选目标,根据框选的目标结合帧差法进一步识别目标。
77.作为本公开实施例的一种具体实现方式,所述框选目标物体信息还包括:
78.框选相对独立目标信息,和框选相互交接目标信息,和框选相互包含目标信息。
79.具体的,一帧图像可能包含多个目标,其关系可以分为相对独立、相互交接和相互包含三种,按照一定的逻辑整合目标框,进行目标框融合,根据目标框的大小分割图像,作为使用cnn神经神经网络进行目标检测的输入。
80.参见图7,作为本公开实施例的一种具体实现方式,所述使用cnn神经网络检测所述目标物体信息包括:
81.预处理所述框数据;
82.检测预处理后的所述框数据。
83.具体的,cnn神经网络循环处理所有的分割图像,分割图像提取保存目标帧数据和框数据,对目标图像进行预处理,之后cnn神经网络进行目标检测,使用cnn神经网络输出检测结果。
84.作为本公开实施例的一种具体实现方式,还包括:
85.根据所述处理图像和所述框数据进行整合,使cnn神经网络的检测结果整合到完整的帧数据上。
86.具体的,还需要根据图像所在的帧数据以及框数据,统一整合cnn神经网络图像帧目标数据,将检测结果整合到完整的帧数据上。
87.作为本公开实施例的一种具体实现方式,所述预处理为图像大小处理,所述cnn神经网络为vgg神经网络。
88.具体的,cnn神经网络为vgg16网络,vgg16共包含:
89.13个卷积层(convolutional layer),分别用conv3-xxx表示
90.3个全连接层(fully connected layer),分别用fc-xxxx表示
91.5个池化层(pool layer),分别用maxpool表示
92.其中,卷积层和全连接层具有权重系数,因此也被称为权重层,总数目为13 3=16,这即是vgg16中16的来源。(池化层不涉及权重,因此不属于权重层,不被计数)。
93.vgg16的突出特点是简单,体现在:
94.1.卷积层均采用相同的卷积核参数
95.卷积层均表示为conv3-xxx,其中conv3说明该卷积层采用的卷积核的尺寸(kernel size)是3,即宽(width)和高(height)均为3,3*3是很小的卷积核尺寸,结合其它参数(步幅stride=1,填充方式padding=same),这样就能够使得每一个卷积层(张量)与前一层(张量)保持相同的宽和高。xxx代表卷积层的通道数。
96.2.池化层均采用相同的池化核参数
97.池化层的参数均为2,步幅stride=2,max的池化方式,这样就能够使得每一个池化层(张量)的宽和高是前一层(张量)的一半。
98.3.模型是由若干卷积层和池化层堆叠(stack)的方式构成,比较容易形成较深的网络结构。
99.图10示出了vgg16的具体结构示意图。
100.进一步,vgg全称是visual geometry group属于牛津大学科学工程系,其发布了一些列以vgg开头的卷积网络模型,可以应用在人脸识别、图像分类等方面,分别从vgg16~vgg19。vgg研究卷积网络深度的初衷是想搞清楚卷积网络深度是如何影响大规模图像分类与识别的精度和准确率的,最初是vgg-16号称非常深的卷积网络全称为(gg-very-deep-16cnn),vgg在加深网络层数同时为了避免参数过多,在所有层都采用3x3的小卷积核,卷积层步长被设置为1。vgg的输入被设置为224x244大小的rgb图像,在训练集图像上对所有图像计算rgb均值,然后把图像作为输入传入vgg卷积网络,使用3x3或者1x1的filter,卷积步长被固定1。vgg全连接层有3层,根据卷积层 全连接层总数目的不同可以从vgg11~vgg19,最少的vgg11有8个卷积层与3个全连接层,最多的vgg19有16个卷积层 3个全连接层,此外vgg网络并不是在每个卷积层后面跟上一个池化层,还是总数5个池化层,分布在不同的卷积层之下。
101.vgg中根据卷积核大小和卷积层数目的不同,可分为a,a-lrn,b,c,d,e共6个配置(convnet configuration),其中以d,e两种配置较为常用,分别称为vgg16和vgg19。
102.图11示出了vgg的六种结构配置。
103.进一步,固定摄像头捕捉目标图像,快速检测运动目标,同时毫米波雷达检测目标,对目标进行坐标转换,将转换结果和运动目标融合,根据融合结果框选,再根据目标框分割图像,之后融合一帧中的多个图像并保留图像所在帧数据,将图像进行分割和预处理,之后vgg神经网络检测目标,检测结果和保留图像所在帧数据整合到相同图像帧,输出最终结果。
104.实施例二:
105.本公开实施例还提供了计算机可读存储介质,包括:
106.所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的一种固定相机快速进行目标检测的步骤。
107.实施例三:
108.参见图8-9,本公开实施例还提供了一种固定相机快速进行目标检测的系统,基于上述的一种固定相机快速进行目标检测的方法,包括:
109.固定摄像头、毫米波雷达、处理器和存储器,所述处理器与所述固定摄像头和所述毫米波雷达通讯连接,所述处理器能够执行所述存储器中保存的计算机程序,实现如权利要求上述的固定相机快速进行目标检测的方法。
110.本领域技术人员应能理解,为了解决如何获得良好用户体验效果的技术问题,本实施例中也可以包括诸如通信总线、接口等公知的结构,这些公知的结构也应包含在本公开的保护范围之内。
111.有关本实施例的详细说明可以参考前述各实施例中的相应说明,在此不再赘述。
112.以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献