一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于East算法的小目标图像检测方法及系统与流程

2022-02-22 04:01:02 来源:中国专利 TAG:

一种基于east算法的小目标图像检测方法及系统
技术领域
1.本发明涉及一种小目标图像检测方法及系统。


背景技术:

2.小目标的检测在日常生活和工业生产中具有很普遍的需求,例如监控视频中的远距离的车辆和行人、自动驾驶场景下需要感知的远处环境、高空无人机视角下的各类小目标等。目前,基于深度学习的目标图像检测算法主要分为两类,一类是基于快速rcnn、快速r-cnn、r-fcn表示的候选帧,另一类是基于ylo、ssd、视网膜网表示的集成卷积网络。然而,这些算法都是基于一般场景,在一般数据集上表现良好,小目标图像识别效果并不理想。小目标图像体积小、尺度多样、检测难度高,目前主流的目标检测算法对大目标的检测准确率通常是小目标的两倍以上,可见对小目标的检测是极其困难的,小目标检测这一难题目前还没有被很好地解决。


技术实现要素:

3.发明目的:本发明的目的是提供一种小目标检测方法及系统,能够减少计算量,提升目标检测的速度和精度。
4.技术方案:本发明所述的1、一种基于east算法的小目标图像检测方法,其特征在于,包括如下步骤:
5.(1)输入待检测图像,建立目标检测网络;所述目标检测网络包括特征提取层、特征融合层和输出层,在所述特征提取层中基于fpn构建特征金字塔;在所述特征融合层中,融合后的特征图输入双向门控循环单位进行前向传播,在保留长期序列信息下减少梯度消失问题;
6.(2)优化损失函数,更新网络参数;
7.(3)输出目标检测结果。
8.进一步地,步骤(2)中损失函数包括分数图损失和几何图损失,分数图损失采用焦点损失函数,提高检测精度。
9.进一步地,步骤(1)中基于fpn对pvanet网络进行浅层特征提取和深层特征提取,提取四个层次的特征图构建多尺度特征金字塔。所述浅层特征提取采用3层3*3维度的卷积核进行卷积;所述深层特征提取过程中利用inceptionv1模块分解卷积核,采用1*3和3*1维度的卷积核进行卷积。提高小目标检测性能和多尺度目标检测效果。
10.本发明所述的一种基于east算法的小目标图像检测系统,包括:
11.输入层,用于输入待检测图像;
12.特征提取层,用于结合fpn网格构建多尺度特征金字塔;
13.特征融合层,用于进行特征融合并将融合后的特征图输入双向门控循环单位,在保留长期序列信息下减少梯度消失问题;
14.输出层,用于输出目标检测结果。
15.有益效果:本发明与现有技术相比的优点在于:(1)算法速度快,基于east(高效而准确的场景文本检测)算法进行小目标图像检测,相比于基于候选帧的目标检测算法速度快;(2)目标检测效果好:引入fpn,融合高层语义信息和底层位置信息,在各融合层分别进行预测,提高小目标检测性能和多尺度目标检测效果;(3)引入双向gru单元加速算法在时间上的收敛速度,优化参数更新和泛化上的性能。
附图说明
16.图1为本发明的小目标图像检测方法流程图。
具体实施方式
17.下面结合附图对本发明的技术方案作进一步说明。
18.如图1所示,所述小目标图像检测方法,包括如下步骤:
19.(1)输入图像
20.本实施例已以imagenet数据集上预先训练好的网络pvanet作为基本网络。
21.(2)浅层特征提取
22.pvanet网络的卷积层采用3层3*3维度,步长为2的卷积核进行卷积;第1层卷积层使用relu激活函数,输出维度为24;第2层卷积使用crelu激活函数,输出维度为48;第3层卷积层使用crelu激活函数,输出维度为32。
23.(3)深层特征提取
24.pvanet网络采用inceptionv1模块进行深层特征提取,将3
×
3卷积核进一步非对称地分解成两个1
×
3和3
×
1维度的卷积核,进一步减少了网络的参数量,通过层数增加提高网络的非线性表达能力。
25.提取四个层次的特征图以获得多尺度特征图{p1,p2,p3,p4},提取的特征映射分别为输入图像大小的1/4、1/8、1/16和1/32。
26.(4)引入双向gru(门控循环单位),使用以下特征映射:上采样特征图p1,将其放大到2倍,然后沿通道轴与p2级联,然后使用1*1卷积以减少通道数和计算量,然后进行3*3卷积融合信息,重复上述步骤,依次合并4个特征图。
27.(5)合并的特征图输入双向gru中,gru计算公式如下:
28.z
t
=σ(wz[h
t-1
,x
t
])
[0029]rt
=σ(wr[h
t-1
,x
t
])
[0030][0031][0032]
wz、wr、w代表权值矩阵,σ代表sigmoid函数;x
t
代表t时刻门控循环单元的输入;表示候选状态激活函数,它由t时刻的输入x
t
、重置门r
t
、以及t-1时刻的激活值h
t-1
共同决定;h
t
表示当前门控循环单元的激活值;tanh为激活函数;z
t
、r
t
各自表示更新门、重置门。
[0033]
设置正向gru在t时刻的输出记为反向gru在t时刻的输出记为将两个方向相反的输出态连接到同一个输出,同时输出向前和向后状态的信息。
[0034]
通过双向gru单元加速算法在时间上的收敛速度,优化参数更新和泛化上的性能,输出结果。
[0035]
(6)将各特征层的组合多通道特征图投影为1通道分数图和5通道几何图。分数图表明像素是目标的置信度。几何输出为rbox,几何信息包括4个通道的轴对齐边界框aabb和一个通道的旋转角度,其中aabb表示从像素位置到矩形的顶部、底部、左侧和右侧边界的距离。
[0036]
(7)优化损失函数
[0037]
损失函数由两部分组成,l=ls lg,其中ls表示分数图的损失,lg表示几何图的损失。
[0038]
利用焦点损失函数减小正负样本识别难度对模型效果的影响,焦点损失在标准交叉熵损失函数中增加了一个额外的调制系数,降用以低分类样本的权重,公式如下:
[0039]
ls=-(1-p
t
)
r log(p
t
)
[0040]
式中,p
t
是预测类别的概率,r是参数,r=2。
[0041]
几何损失是aabb损失和角度损失的加权和,公式如下
[0042]
lg=l
aabb
λ
θ
(1-cos(θ
1-θ2))
[0043]
其中θ1表示示预测的旋转角度,θ2、λ
θ
分别表示实际标记的旋转角度和权重。为了保证几何损失的尺度不变性,对于几何损失的aabb部分,使用iou(交并比)损失。
[0044][0045]
其中r1表示预测的aabb形状;r2表示标注框。
[0046]
将步骤(7)结果送入网络模型中,更新网络参数。
[0047]
(8)使用adam优化器进行端到端训练
[0048]
统一从图像集中抽取426*426个作为样本,批量大小为24,初始adam学习速率为1e-2,衰减指数为0.8,衰减速度为15600,学习速率停止在1e-5。
[0049]
(9)最后通过局部感知的非最大抑制(lnms)获取邻域,对所有输入集合进行依次加权合并,得到合并后的集合,抑制置信度分数最高的预测框和分数较低的预测框以获得最终结果。
[0050]
(91)对于同一矩形帧,迭代地将当前矩形帧与下一个合并矩形的最大矩形帧合并;
[0051]
(92)重复步骤(91),逐行合并矩形框,合并的集合为s。
[0052]
(93)从s中选择置信度分数最高的预测框m,并将其移动到最终检测结果d中。
[0053]
(94)去掉iou中s和m之间的大于阈值的方框。
[0054]
(95)重复步骤(93)和(94),直到s集为空,以获得最终检测结果d。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献