一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于分割的图像目标快速检测方法

2022-12-13 23:16:51 来源:中国专利 TAG:


1.本发明涉及海洋遥感目标检测技术领域,尤其涉及一种基于分割的图像目标快速检测方法。


背景技术:

2.现有的部分卫星上搭载有光学遥感相机,该光学遥感相机能够检测舰船等目标,可以在港口船舶调度、重点海域舰船监测、海洋搜救指挥等任务中为指挥人员提供舰船等目标的图像位置,最终使得指挥人员能够及时地获取相关的信息,从而做出准确有效的决策。而且舰船检测是维护国家海洋安全等领域的关键技术手段之一,具有重要技术价值。
3.在实际检测的过程中,由于光学遥感图像的尺寸较大,同时被检测的舰船等目标的背景相对复杂、尺度变化大,而且被检测的目标可能会呈任意角度旋转排列,给检测带来了很大的挑战。
4.现有技术中,针对高分辨率光学遥感图像处理、在轨卫星实时数据分析等应用场景中的舰船目标检测问题,根据目标图像的特征提取方式不同,通常分为两种方法,包括:传统的舰船目标检测方法和基于深度学习的舰船目标检测方法,其中,基于深度学习的舰船目标检测方法又包括基于锚框(anchor-based)、基于无锚框(anchor-free)和基于分割的方法。
5.具体地,在传统的舰船目标检测方法中,会提前进行除噪除云等图像预处理,之后提取目标所在的候选区域并进行海陆分离,然后再进行特征提取,最后对目标进行分类。其中,先验模板匹配模型中,为了定位舰船目标所在的候选区域,可以根据各类舰船目标细长方形轮廓等先验特征信息制作模板图像并构建模板库,之后用滑动窗口等规则遍历整个图像,最终通过匹配的方法检测出舰船目标;人工特征统计模型中,利用舰船目标和海水平面的灰度特征的分布差异明显或舰船特殊的形状纹理,使用灰度统计的方法或形状纹理特征提取目标、分离背景;视觉感知模型中,从空间域或频率域计算显著区域进行舰船检测。也就是说,传统的舰船目标检测方法主要为使用穷尽枚举的策略获得目标所在的候选区域,之后,通过人工提取的特征或可变形模板以及线性分类模块来检测目标,整个算法较复杂,而且效果欠佳。
6.在基于深度学习的舰船目标检测方法中,对于基于锚框(anchor-based)的方法和基于无锚框(anchor-free)的方法而言,这些方法的基础都需要借助骨干网络进行特征提取,常用的有alexnet、vgg、res-net、res-next以及使用可变形卷积的骨干网络等。
7.具体地,在基于锚框(anchor-based)的目标检测方法中,通过anchor机制对图像中各个锚点生成密集的锚框,使得网络可以针对这些锚框进行边界框回归和目标分类,其主要包括两阶段方法和单阶段方法。其中,两阶段方法可看作是基于候选区域的检测方法,对计算得到的候选区域提取特征,经过二次修正后再进行分类和回归得到检测结果,典型的方法包括:faster rcnn、gliding vertex、rr-cnn、rrpn等。单阶段方法通过金字塔式特征提取网络后直接进行检测,典型的方法包括:yolo、r-centernet 、yolt等。通常,两阶段
方法检测精度高但速度较慢,单阶段方法检测速度快但精度相对较低。
8.在基于无锚框(anchor-free)的目标检测方法中,将检测分为确定物体中心和估计四条边框这两个子问题,拥有更大更灵活的解空间和更少的anchor计算量。但该类方法存在正负样本不平衡的问题,并且当被检测的图像中两艘舰船目标中心点重叠时,还可能会产生语义模糊问题。
9.在基于图像分割的目标检测方法中,利用目标色彩、灰度、形状、纹理等特征,将图像划分为独立区域,之后对像素进行分类,从而将目标从背景中分离。这类方法当前大多用于文本检测,例如east、psenet等。现有的基于分割的舰船检测方法通常需要复杂的后处理过程,一定程度影响了算法的速度和精度。
10.可见,对于传统的舰船检测方法,特征提取能力和适用范围有限,抗干扰能力与鲁棒性较差,在复杂背景下无法精确用旋转框定位舰船目标。对于大多数基于深度学习的舰船检测方法,网络需要引入大量锚框计算以便于保证检测精度,这在一定程度牺牲了算法速度。而且,其中的基于分割的舰船检测方法往往需要在产生概率图之后,使用复杂的后处理过程检出目标,流程更为复杂。
11.由此,为了能够更加精确且高效的完成海洋舰船目标检测任务,需要提供一种新的目标检测方法。


技术实现要素:

12.为解决上述现有技术中存在的部分或全部技术问题,本发明提供一种基于分割的图像目标快速检测方法。
13.本发明的技术方案如下:
14.一种基于分割的图像目标快速检测方法,所述方法包括:
15.s1:准备训练数据,对4点坐标形式标注的舰船目标训练图像进行离线数据增强,将原始数据以及经由离线数据增强后生成的数据一起作为训练样本;
16.s2:构建神经网络模型,使用嵌入可变形卷积的残差网络作为用于特征提取的骨干网络,通过对特征金字塔各层特征进行上采样和相加操作,使得特征金字塔各层融合为原输入图像的1/4尺寸的新特征图,将获取的新特征图通过标签学习生成概率图和阈值图,再由可微分二值化公式将生成的概率图和阈值图生成近似二值化图;
17.s3:设定优化方法,借助训练样本,计算神经网络模型中概率图、阈值图和近似二值化图的损失并进行优化,保存通过神经网络模型得到的网络权重;
18.s4:检测目标,将待检测图像输入神经网络模型,加载之前得到的网络权重,通过轮廓追踪算法生成舰船目标边界框。
19.可选地,在所述s1中,所述对4点坐标形式标注的舰船目标训练图像进行离线数据增强,包括:
20.将舰船目标训练图像连带(x1,y1,x2,y2,x3,y3,x4,y4)格式标注的真实标签一同进行离线数据增强,其中,所述离线数据增强包括:旋转图像、随机改变图像亮度、对图像随机添加高斯噪声。
21.可选地所述离线数据增强中的旋转图像操作包括:对图像使用仿射变换实现随机角度旋转,其中,变换公式如下:
[0022][0023]
在上式中,θ表示旋转角度,(x,y)表示选定的旋转目标在图像中的原始坐标,(x

,y

)表示选定的旋转目标对应生成的新坐标。
[0024]
可选地,所述离线数据增强中的随机改变图像亮度、对图像随机添加高斯噪声包括:利用python中的scikit-image数字图片处理包和numpy包,对图像加入随机亮度和随机噪声。
[0025]
可选地,在所述s2中,所述使得特征金字塔各层融合为原输入图像的1/4尺寸的新特征图,包括:
[0026]
将原始的训练图像的尺寸调整到固定大小,输入至提取特征的骨干网络,使用resnet-50,并在conv3、conv4、conv5层中使用可变形卷积v2,其计算方法如下:
[0027][0028]
在上式中,p表示输入,y(p)表示输出矩阵,pk表示卷积核参数集合r中的第k个点,

pk表示神经网络模型学习到的每个位置的偏移量,

mk表示权重系数,

mk与

pk都通过一个卷积层进行学习,其中,权重系数

mk可以使神经网络模型区分变形卷积核覆盖的区域是否为感兴趣区域,若对应区域不包含目标,则权重系数为0。
[0029]
可选地,在所述s2中,包括:
[0030]
当训练样本经过嵌入可变形卷积的骨干网络提取特征后,将生成得到的特征图输入特征金字塔中,特征金字塔中的五层特征图分别为c1、c2、c3、c4、c5,五层特征图的尺寸分别为原始训练图像的1/2、1/4、1/8、1/16、1/32,然后通过对特征金字塔各层特征进行上采样和相加操作,将特征金字塔各层融合为原输入图像1/4尺寸的新特征图,
[0031]
之后,将得到的新特征图通过标签学习生成概率图与阈值图,概率图和近似二值化图受相同标签的监督,将每个舰船目标矩形标注框通过收缩一定的偏移量形成标签,定义偏移量的计算方法如下:
[0032][0033]
在上式中,d表示偏移量,l表示边界框周长,a表示边界框面积,参数r表示收缩比例;
[0034]
对于阈值图训练使用的标签,在由上式计算出偏移量之后,将原真实标签收缩并扩张偏移量的区域作为阈值图的标签,将扩张框和收缩框之间差集中各个像素点到原真实标签边界的归一化距离作为区域内各像素的值,使得区域内每个像素的值不完全相同。
[0035]
可选地,在所述s2中,还包括:
[0036]
在训练过程中,近似二值化图由概率图和阈值图经可微分二值化处理后生成,可微分二值化过程如下式所示:
[0037][0038]
在上式中,(i,j)表示图像中的位置,表示生成的近似二值化图,p表示概率图,t
表示神经网络模型中学习到的自适应阈值图,k表示超参数,k设为50。
[0039]
可选地,在所述s3中,包括:
[0040]
神经网络模型的损失函数l由多个损失组合而成,具体为:
[0041]
l=ls α
×
lb β
×
l
t
[0042]
在上式中,ls表示概率图对应的损失,lb表示近似二值化图对应的损失,l
t
表示阈值图对应的损失,根据实际损失值的数量级,将α设为1.0,β设为10。
[0043]
其中,概率图对应的损失ls使用二分类交叉熵损失函数,具体为:
[0044][0045]
在上式中,s
l
表示正负样本比例1:3的训练集,xi表示预测类别的概率,yi表示对应的真实样本标签;
[0046]
近似二值化图对应的损失lb使用dice loss,具体为:
[0047][0048]
在上式中,x表示预测的分割图像,y表示真实标签;
[0049]
阈值图对应的损失l
t
使用l1 loss,具体为:
[0050][0051]
在上式中,rd表示扩张框gd内所有像素点,y*表示阈值图标签,x*表示预测类别的概率。
[0052]
可选地,在所述s4中,所述通过轮廓追踪算法生成舰船目标边界框,包括:
[0053]

用恒定阈值对概率图进行过滤,产生二值化图;
[0054]

计算二值化图对应的连通区域;
[0055]

利用偏移量d

放大连通区域得到舰船目标区域,通过opencv库中的轮廓追踪算法生成边界框,其中,偏移量d

的计算方式如下:
[0056][0057]
在上式中,a

表示步骤

中连通区域面积,l

表示连通区域周长,参数r

设为1.5。
[0058]
本发明技术方案的主要优点如下:
[0059]
(1)使用自适应阈值替代了固定阈值,能够更精确地过滤目标背景;
[0060]
(2)在需要生成检测框时,无需复杂的后处理过程,能够减少计算量,提高运算速度;
[0061]
(3)使用嵌入可变形卷积的残差网络,尤其适用于提取狭长的舰船目标特征;
[0062]
(4)相比于现有的基于分割的检测方法,本方法的整体计算复杂程度较低,运行速度较快,而且实现简单,更适合工程应用;
[0063]
(5)本方法尤其适合高分辨率光学遥感图像处理、在轨卫星实时数据分析等应用场景中的舰船目标检测任务。
附图说明
[0064]
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0065]
图1为根据本发明的一个实施方式中的基于分割的图像目标快速检测方法的简要流程图;
[0066]
图2为本实施方式中基于分割的图像目标快速检测方法中的网络结构示意图;
[0067]
图3为本实施方式中基于分割的图像目标快速检测方法中的可变形卷积网络结构的示意图;
[0068]
图4为本实施方式中基于分割的图像目标快速检测方法中的概率图和近似二值化图的生成标签的原理示意图;
[0069]
图5为本实施方式中基于分割的图像目标快速检测方法中的阈值图的生成标签的示意图;
[0070]
图6a至图6c为根据本实施方式的一个验证实验中对训练图像进行离线数据增强后生成的不同图像数据的图像数据示意图;
[0071]
图7a至图7d为根据本实施方式的一个验证实验中对训练图像进行测试后得到的4种不同检测结果的图像数据示意图。
具体实施方式
[0072]
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0073]
以下结合附图,详细说明本发明实施例提供的技术方案。
[0074]
如图1至图5所示,针对现有的基于锚框的深度学习检测算法因人工预设锚框导致计算量大的问题,在根据本发明的一个实施方式中,提供了一种基于分割的图像目标快速检测方法,该方法从分割的角度出发,根据不同图像数据在骨干网络中选择性地加入可变形卷积,并引入可微分二值化的自适应阈值,可以在推理阶段中仅使用概率图预测舰船目标,能够简单、快速、精准地定位图像中的舰船目标。
[0075]
可以理解,本实施方式中的方法主要能够用于高分辨率光学遥感图像处理、在轨卫星实时数据分析等应用场景中的舰船目标检测。
[0076]
具体而言,如图1所示,本实施方式中的基于分割的图像目标快速检测方法包括:
[0077]
s1:准备训练数据,对4点坐标形式标注的舰船目标训练图像进行离线数据增强,将原始数据以及经由离线数据增强后生成的数据一起作为训练样本;
[0078]
s2:构建神经网络模型,使用嵌入可变形卷积的残差网络作为用于特征提取的骨干网络,通过对特征金字塔各层特征进行上采样和相加操作,使得特征金字塔各层融合为原输入图像的1/4尺寸的新特征图,将获取的新特征图通过标签学习生成概率图和阈值图,再由可微分二值化公式将生成的概率图和阈值图生成近似二值化图;
[0079]
s3:设定优化方法,借助训练样本,计算神经网络模型中概率图、阈值图和近似二
值化图的损失并进行优化,保存通过神经网络模型得到的网络权重;
[0080]
s4:检测目标,将待检测图像输入神经网络模型,加载之前得到的网络权重,通过轮廓追踪算法生成舰船目标边界框。
[0081]
可见,本实施方式的方法中,没有多锚框参数带来的大计算量,能以较高精度实现快速运行,适合光学遥感图像中的背景复杂、多尺度且任意旋转排列的舰船目标检测。
[0082]
具体地,在所述s1中,所述对4点坐标形式标注的舰船目标训练图像进行离线数据增强,包括:
[0083]
将舰船目标训练图像连带(x1,y1,x2,y2,x3,y3,x4,y4)格式标注的真实标签一同进行离线数据增强,其中,所述离线数据增强包括:旋转图像、随机改变图像亮度、对图像随机添加高斯噪声。
[0084]
进一步地,所述离线数据增强中的旋转图像操作包括:对图像使用仿射变换实现随机角度旋转,其中,变换公式如下:
[0085][0086]
在上式(1)中,θ表示旋转角度,(x,y)表示选定的旋转目标在图像中的原始坐标,(x

,y

)表示选定的旋转目标对应生成的新坐标。
[0087]
所述离线数据增强中的随机改变图像亮度、对图像随机添加高斯噪声包括:利用python中的scikit-image数字图片处理包和numpy包,对图像加入随机亮度和随机噪声。
[0088]
进一步地,在所述s2中,所述使得特征金字塔各层融合为原输入图像的1/4尺寸的新特征图,包括:
[0089]
将原始的训练图像的尺寸调整到固定大小,输入至提取特征的骨干网络,使用resnet-50,并在conv3、conv4、conv5层中使用可变形卷积v2,其中,可变形卷积网络结构如图3所示,其计算方法如下式(2)所示:
[0090][0091]
在上式(2)中,p表示输入,y(p)表示输出矩阵,pk表示卷积核参数集合r中的第k个点,

pk表示神经网络模型学习到的每个位置的偏移量,

mk表示权重系数,

mk与

pk都通过一个卷积层进行学习,其中,权重系数

mk可以使神经网络模型区分变形卷积核覆盖的区域是否为感兴趣区域,若对应区域不包含目标,则权重系数为0。
[0092]
通过嵌入上述模块,理论上可以使神经网络模型更准确地提取图像中的有效信息。
[0093]
进一步地,如图2所示,在所述s2中,包括:
[0094]
当训练样本经过嵌入可变形卷积的骨干网络提取特征后,将生成得到的特征图输入特征金字塔中,特征金字塔中的五层特征图分别为c1、c2、c3、c4、c5,五层特征图的尺寸分别为原始训练图像的1/2、1/4、1/8、1/16、1/32,然后通过对特征金字塔各层特征进行上采样和相加操作,将特征金字塔各层融合为原输入图像1/4尺寸的新特征图,
[0095]
之后,将得到的新特征图通过标签学习生成概率图与阈值图,概率图和近似二值化图受相同标签的监督,将每个舰船目标矩形标注框通过收缩一定的偏移量形成标签,定
义偏移量的计算方法如下:
[0096][0097]
在上式(3)中,d表示偏移量,l表示边界框周长,a表示边界框面积,参数r表示收缩比例。
[0098]
示例性地,参数r通常为0.65。
[0099]
示例性地,在本实施方式中,如图4所示,利用vatti裁剪算法收缩原真实标签(ground truth,gt)形成收缩框gs即为概率图和近似二值化图使用的标签。
[0100]
类似地,对于阈值图训练使用的标签,如图5所示,在由上式(3)计算出偏移量之后,将原真实标签收缩并扩张偏移量的区域作为阈值图的标签,将扩张框和收缩框之间差集中各个像素点到原真实标签边界的归一化距离作为区域内各像素的值,使得区域内每个像素的值不完全相同。
[0101]
进一步地,通过图2中所示的阈值图可知,阈值图能够将目标区域的边界高亮显示,这种类似边界图的阈值图是产生检测结果的重要组成部分。本实施方式中的方法对阈值图使用有监督训练,从而能够帮助提升模型的检测能力,可以使用现有技术中的产生目标边界图的方法分割目标实例,并将阈值图作为之后二值化操作的阈值。
[0102]
在本实施方式中,在所述s2中,还包括:
[0103]
在训练过程中,近似二值化图由概率图和阈值图经可微分二值化处理后生成,可微分二值化过程如下式(4)所示:
[0104][0105]
在上式(4)中,(i,j)表示图像中的位置,表示生成的近似二值化图,p表示概率图,t表示神经网络模型中学习到的自适应阈值图,k表示超参数,k设为50。
[0106]
可以理解,通过可微分二值化函数引入自适应阈值,不仅有助于区分背景和目标,还能分离紧密排列的舰船目标。可微分二值化函数作为本方法中的关键组成部分,之所以能够有效工作,是因为其能够利用梯度的反向传播进行训练。
[0107]
进一步地,在本实施方式中,在所述s3中,包括:
[0108]
神经网络模型的损失函数l由多个损失组合而成,具体为:
[0109]
l=ls α
×
lb β
×
l
t
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0110]
在上式(5)中,ls表示概率图对应的损失,lb表示近似二值化图对应的损失,l
t
表示阈值图对应的损失,根据实际损失值的数量级,将α设为1.0,β设为10。
[0111]
其中,概率图对应的损失ls使用二分类交叉熵损失函数,具体为:
[0112][0113]
在上式(6)中,s
l
表示正负样本比例1:3的训练集,xi表示预测类别的概率,yi表示对应的真实样本标签(0或1)。
[0114]
可以理解,为克服正负样本不均衡问题,本实施方式的方法中,在二分类交叉熵损失中加入困难负样本挖掘方法。
[0115]
近似二值化图对应的损失lb使用dice loss,具体为:
[0116][0117]
在上式(7)中,x表示预测的分割图像,y表示真实标签。
[0118]
阈值图对应的损失l
t
使用l1 loss,具体为:
[0119][0120]
在上式(8)中,rd表示扩张框gd内所有像素点,y*表示阈值图标签,x*表示预测类别的概率。
[0121]
本实施方式中的方法能够生成自适应阈值,由于在神经网络模型中使用的是可微分二值化函数,为减少计算量,在推理阶段不再计算近似二值化图,只需要通过概率图就能够生成较为精准的边界框。其中,通过轮廓追踪算法生成舰船目标边界框中的矩形检测框的生成可分为三个步骤。
[0122]
具体地,在本实施方式中,在所述s4中,所述通过轮廓追踪算法生成舰船目标边界框,包括:
[0123]

用恒定阈值对概率图进行过滤,产生二值化图;
[0124]

计算二值化图对应的连通区域;
[0125]

利用偏移量d

放大连通区域得到舰船目标区域,通过opencv库中的轮廓追踪算法生成边界框,其中,偏移量d

的计算方式如下:
[0126][0127]
在上式(9)中,a

表示步骤

中连通区域面积,l

表示连通区域周长,参数r

设为1.5。
[0128]
可以理解,在实际训练中,r

要随产生二值化图的阈值变化,因为当阈值减小会导致二值化图中的目标变大,为限制边界框实际尺寸,连通区域向外扩张的比例也要减小。
[0129]
为了判断本实施方式中的基于分割的图像目标快速检测方法的可行性,工作人员基于数据集hrsc2016(共计1680张图像,图像分辨率在300
×
300到1500
×
900之间)对本实施方式中的方法进行了验证。
[0130]
其中,在该次验证实验中,实验硬件平台选择了2.50ghz intel core i7-4710hq处理器,12.0gb内存,实验操作系统选择了ubuntu 18.04。
[0131]
本实施方式中方法利用python、pytorch、以及opencv、numpy、scikit-image等工具库实现,未进行加速优化。
[0132]
在本次验证实验的过程中,图6a至图6c示例性地给出了对训练图像进行离线数据增强后生成的不同图像数据,其中,图6a给出了对训练图像进行高斯噪音处理后的图像数据,图6b给出了对训练图像进行亮度变化处理后的图像数据,图6c给出了对训练图像进行旋转处理后的图像数据。
[0133]
此外,图7a至图7d示例性地给出了对训练图像进行测试后得到的不同检测结果。
[0134]
最后,使用voc2007平均精度作为评估指标,得到的实验结果如下表1所示。
[0135]
表1 hrsc2016数据集测试结果
[0136][0137]
可见,通过对比多个基于锚框的检测算法,本实施方式中的方法在hrsc2016数据集检测精度可达ap89.50,检测速度单卡可达31.6fps。在保证相当精度的前提下,本实施方式中方法的检测速度远远领先其他方法。
[0138]
由此,本实施方式中的方法具有以下优点:
[0139]
(1)使用自适应阈值替代了固定阈值,能够更精确地过滤目标背景;
[0140]
(2)在需要生成检测框时,无需复杂的后处理过程,能够减少计算量,提高运算速度;
[0141]
(3)使用嵌入可变形卷积的残差网络,尤其适用于提取狭长的舰船目标特征;
[0142]
(4)相比于现有的基于分割的检测方法,本方法的整体计算复杂程度较低,运行速度较快,而且实现简单,更适合工程应用;
[0143]
(5)本方法尤其适合高分辨率光学遥感图像处理、在轨卫星实时数据分析等应用场景中的舰船目标检测任务。
[0144]
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外,本文中“前”、“后”、“左”、“右”、“上”、“下”均以附图中表示的放置状态为参照。
[0145]
最后应说明的是:以上实施例仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献