一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于注意力区域多向可调滤波的舞台目标检测算法的制作方法

2022-05-06 06:46:02 来源:中国专利 TAG:


1.本发明涉及目标检测技术领域,尤其涉及一种基于注意力区域多向可调滤波的舞台目标检测算法。


背景技术:

2.目前在舞台图像前景目标提取中,通常是利用5*5模板的均值滤波方法先对抓取到的舞台图像进行了预处理,然后将与处理后的图像进行二值化从而获得舞台前景人像目标。这种方法可有效的提取到前景目标,但不足的是,均值滤波常常使其图像模糊化,将图像细节模糊掉,这将大大降低前景目标的提取率;特别是针对不规则边缘目标,均值滤波提取目标率比较低。


技术实现要素:

3.本发明的目的在于提供一种基于注意力区域多向可调滤波的舞台目标检测算法,从而解决现有技术中存在的前述问题。
4.为了实现上述目的,本发明采用的技术方案如下:
5.一种基于注意力区域多向可调滤波的舞台目标检测算法,包括如下步骤,
6.s1、利用多步长空间技术对视觉传感器获取的原始图像进行处理,获取一系列不同步长下的显著目标图;利用最小熵信息挑选出系列不同步长下的显著目标图中的最优显著图,进而生成注意力集中区域图;
7.s2、利用方向可调滤波对视觉传感器获取的原始图像进行方向可调调滤波匹配,获取不同方向上的目标边缘区域图;
8.s3、利用奇异值分解法对注意力集中区域图与目标边缘区域图进行特征提取与重构;并将两者重构后的图像进行融合,获取目标显著图;
9.s4、对目标显著图进行阈值分割,获取最终的目标位置。
10.优选的,步骤s1具体包括如下内容,
11.s11、将视觉传感器获取的原始图像进行傅里叶变换;公式为,
[0012][0013]
其中,f(u,v)为图像经傅里叶变换后的形式;i(x,y)为原始图像;(x,y)为原始图像的像素点变量;(u,v)为原始图像的像素点变量(x,y)转换到频域后的变量;m和n分别为原始图像的宽与高;j为虚数单位值;
[0014]
s12、对进行傅里叶变换后的图像进行相位信息提取,并对获取的相位谱信息进行对数处理,获取图像的对数相位谱;公式为,
[0015]
p(u,v)=p[f(u,v)]
[0016]
m(u,v)=log(p(u,v))
[0017]
其中,p[f]为对进行傅里叶变换后的图像进行相位信息提取操作;p(u,v)为获取
的相位谱信息;m(u,v)为图像的对数相位谱;
[0018]
s13、利用高斯函数的核步长因子对图像的对数相位谱进行空间扩展,获取多步长相位谱空间;公式为,
[0019]
m(u,v;σ)=g(u,v;σ)*m(u,v),σ=1,

,q
[0020]
其中,m(u,v;σ)为由σ扩展生成的多步长相位谱空间;为高斯函数;σ为高斯函数的核步长因子,其取值范围取决于所要提取的前景目标像素值num
target
所占图像整体像素值num
image
的大小,
[0021][0022]
s14、利用傅里叶比变换对多步长相位谱空间进行处理,获取一系列不同步长下的显著目标图;公式为,
[0023]sσ
(x,y)=ifft{m(u,v;σ)ej·
p(u,v)
}
[0024]
其中,s
σ
(x,y)为在高斯函数的核步长因子为σ时,所生成的一系列不同步长下的显著目标图;ifft表示傅里叶反变换;
[0025]
s15、利用最小熵信息挑选出不同步长下的显著目标图中的最优显著图;公式为,
[0026]
σ
opt
=argmin(e(s
σ
))
[0027]
其中,σ
opt
为最优核步长因子;e为求熵符号;
[0028]
s16、令信息熵为加权因子,生成注意力集中区域图;公式为,
[0029][0030]
其中,s(x,y)为注意力集中区域图;为核步长因子为σ
opt
的最优显著图。
[0031]
优选的,步骤s2具体包括如下内容,
[0032]
s21、利用最优显著图获取任意方向上的可调滤波模板;公式为,
[0033][0034][0035][0036][0037]
其中,g(x

,y

)为高斯函数;表示的是0度方向上的卷积模板;表示为90度方向上的卷积模板;与式子线性组合,就可以得到两方向上的卷积滤波模板的θ为任意方向角度输入值;(x

,y

)为最优显著图的像素点变量;
[0038]
s22、利用方向可调滤波模板的线性组合对视觉传感器获取的原始图像进行卷积处理,获取不同方向上的目标边缘区域图;
[0039][0040]
其中,d[d(x,y)]为不同方向上的目标边缘区域图;f[f(x,y)]为视觉传感器获取的原始图像。
[0041]
优选的,步骤s2中采用三方向可调滤波模板的线性组合对视觉传感器获取的原始图像进行卷积处理,获取不同方向上的目标边缘区域图;
[0042][0043]
其中,为三方向可调滤波模板;为三方向滤波模板的幅度系数;ka、kb、kc为对应的三方向滤波模板的角度系数。
[0044]
优选的,步骤s3具体包括如下内容,
[0045]
s31、利用奇异值分解法对注意力集中区域图与目标边缘区域图分别进行特征提取与重构;
[0046]
奇异值分解可以将含有图像信息的复杂矩阵重构成多个子矩阵相乘,进而获取重构后的矩阵i,矩阵i的秩表示为r,r≤min(m,n);
[0047]
i=u∑v
t
[0048]
其中u和v为正交矩阵,u=[u1,u2,u3…
um]∈rm×m,v=[v1,v2,v3…
vn]∈rn×n;v
t
为矩阵v的转置矩阵;∑为对角矩阵,∑=diag[δ1,δ2,δ3…
δr];u1,u2,u3…
um和v1,v2,v3…
vn分别为相应正交矩阵中的元素值,m和n分别为图的像素;δ1,δ2,δ3…
δr为奇异值;r为奇异值的个数;
[0049]
s32、将两者重构后的图像进行融合,获取目标显著图;公式为,
[0050]
rct(x,y)=i
s(num)
i
d(num)
[0051]
其中,rct(x,y)为目标显著图;i
s(num)
为重构后的注意力集中区域图;i
d(num)
为重构后的目标边缘区域图;num为特征个数;
[0052]
优选的,步骤s4具体为,
[0053][0054]
其中,final(x,y)为最终的目标位置;th为分割阈值;l1=255;l2=0。
[0055]
本发明的有益效果是:能够有效快速的检测出舞台目标并能满足智能小车应用中的实时性能要求。
附图说明
[0056]
图1是本发明实施例中舞台目标检测算法的原理流程图;
[0057]
图2是本发明实施例中原始图像、原始图像的三维图以及注意力集中区域图的对比图;
[0058]
图3是本发明实施例中多向可调滤波输入输出示意图;
[0059]
图4是本发明实施例中原始图像、原始图像的三维图和目标边缘区域图的对比图;
[0060]
图5是本发明实施例中原始图像、对比方法1处理的效果图、对比方法2处理的效果
图和本发明方法处理的效果图的对比图。
具体实施方式
[0061]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不用于限定本发明。
[0062]
实施例一
[0063]
如图1所示,本实施例中,提供了一种基于注意力区域多向可调滤波的舞台目标检测算法,包括如下步骤,
[0064]
s1、利用多步长空间技术对视觉传感器获取的原始图像进行处理,获取一系列不同步长下的显著目标图;利用最小熵信息挑选出系列不同步长下的显著目标图中的最优显著图,进而生成注意力集中区域图;
[0065]
s2、利用方向可调滤波对视觉传感器获取的原始图像进行方向可调调滤波匹配,获取不同方向上的目标边缘区域图;
[0066]
s3、利用奇异值分解法对注意力集中区域图与目标边缘区域图进行特征提取与重构;并将两者重构后的图像进行融合,获取目标显著图;
[0067]
s4、对目标显著图进行阈值分割,获取最终的目标位置。
[0068]
本实施例中,本发明运用多步长空间技术对视觉传感器获得的图像进行处理,获取一些列不同步长下的显著目标图,利用最小熵信息条献出系列图中的最优显著图并生成注意力集中区域图;接着利用不同方向上生成的模板对视觉传感器获得的图像进行匹配处理,从而获得不同方向上的目标边缘区域图;然后对多步长相位谱生成的注意力集中区域图和多方向生成的目标边缘区域图进行奇异值分解并提取特征值,凭借较合适且少的特征个数进行目标图重构;最后对重构后含有目标的图像进行阈值分割显示出最终的目标位置。
[0069]
可见本发明主要包括四个步骤,分别是获取注意力集中区域图、获取目标边缘区域图、获取目标显著图、获取最终的目标位置。下面对这四部分内容进行详细说明。
[0070]
一、获取注意力集中区域图
[0071]
在舞台场景下的舞台目标图像(视觉传感器获取的图像)中,首先获取含有前景目标的注意力集中区域图。图像的视觉显著性信息在众多文献资料中被研究,作为图像中人眼最为关注的部分,常常被认为是注意力集中的区域。基于这一属性,通过多步长高斯函数的核步长因子,生成一种多步长相位谱(即一系列不同步长下的显著目标图)。
[0072]
为了算法在实时应用中,处理速度快,将会对其进行优化处理,那么本发明利用图像的熵信息对其进行最优显著图的提取。
[0073]
获取最优显著图后,发现部分细节被模糊,为了更加详细的凸显注意力集中区域图中的目标部分,令信息熵为加权因子,对最优显著图中的目标部分进行细节增强,最终获得注意力集中区域图。
[0074]
该部分具体包括如下内容,
[0075]
1、首先将视觉传感器获取的原始图像(i(x,y))进行傅里叶变换;公式为,
[0076][0077]
其中,f(u,v)为图像经傅里叶变换后的形式;i(x,y)为原始图像;(x,y)为原始图像的像素点变量;(u,v)为原始图像的像素点变量(x,y)转换到频域后的变量;m和n分别为原始图像的的大小,即宽与高;j为虚数单位值。
[0078]
2、对进行傅里叶变换后的图像进行相位信息提取,并对获取的相位谱信息进行对数处理,获取图像的对数相位谱;公式为,
[0079]
p(u,v)=p[f(u,v)]
[0080]
m(u,v)=log(p(u,v))
[0081]
其中,p[f]为对进行傅里叶变换后的图像进行相位信息提取操作;p(u,v)为获取的相位谱信息;m(u,v)为图像的对数相位谱;
[0082]
3、利用高斯函数的核步长因子对图像的对数相位谱进行空间扩展,获取多步长相位谱空间;公式为,
[0083]
m(u,v;σ)=g(u,v;σ)*m(u,v),σ=1,

,q
[0084]
其中,m(u,v;σ)为由σ扩展生成的多步长相位谱空间,同时也标识了高斯函数平滑后的效果;为高斯函数;σ为高斯函数的核步长因子,其取值范围取决于所要提取的前景目标像素值num
target
所占图像整体像素值num
image
的大小,
[0085][0086]
4、利用傅里叶比变换对多步长相位谱空间进行处理,获取一系列不同步长下的显著目标图;公式为,
[0087]sσ
(x,y)=ifft{m(u,v;σ)ej·
p(u,v)
}
[0088]
其中,s
σ
(x,y)为在高斯函数的核步长因子为σ时,所生成的一系列不同步长下的显著目标图;ifft表示傅里叶反变换;
[0089]
5、利用最小熵信息挑选出不同步长下的显著目标图中的最优显著图;公式为,
[0090]
σ
opt
=argmin(e(s
σ
))
[0091]
其中,σ
opt
为最优核步长因子;e为求熵符号;
[0092]
6、令信息熵为加权因子,生成注意力集中区域图;公式为,
[0093][0094]
其中,s(x,y)为注意力集中区域图;为核步长因子为σ
opt
的最优显著图。
[0095]
二、获取目标边缘区域图
[0096]
将含有舞台目标的图像输入方向可调滤波器进行方向可调滤波处理,便可以将不同方向上目标的大致轮廓以及其特征边缘信息清晰地突显出来。方向可调滤波是在不同方向上产生滤波模板,利用不同方向上的模板线性组合去对图像进行卷积处理。其实质是对
要处理的图像进行边缘检测与提取,其本身所产生的模板分不同阶以及不同的系数,常用的有一阶、三阶、五阶等,而该模板的系数又分幅度系数和方向系数,最后所生成的卷积模板是不同方向上的系数相乘再相加。
[0097]
该部分具体包括如下内容,
[0098]
1、利用最优显著图获取任意方向上的可调滤波模板;公式为,
[0099][0100][0101][0102][0103]
其中,g(x

,y

)为高斯函数;表示的是0度方向上的卷积模板;表示为90度方向上的卷积模板;与式子线性组合,就可以得到两方向上的卷积滤波模板的θ为任意方向角度输入值;(x

,y

)为最优显著图的像素点变量;
[0104]
2、利用方向可调滤波模板的线性组合对视觉传感器获取的原始图像进行卷积处理,获取不同方向上的目标边缘区域图;
[0105][0106]
其中,d[d(x,y)]为不同方向上的目标边缘区域图;f[f(x,y)]为视觉传感器获取的原始图像。
[0107]
根据舞台目标所形成的图像本身属性,本发明最终利用下列可调滤波来获取目标边缘区域图。具体的,采用三方向可调滤波模板的线性组合对视觉传感器获取的原始图像进行卷积处理,获取不同方向上的目标边缘区域图;
[0108][0109]
其中,为三方向可调滤波模板;为三方向滤波模板的幅度系数;ka、kb、kc为对应的三方向滤波模板的角度系数。
[0110]
三、获取目标显著图
[0111]
通过上述两个步骤,我们获得了多步长下的注意力区域图以及方向上的目标边缘区域图,该两张图囊括了所处理图像的绝大部分信息在内。在移动智能小车的应用中,我们需要快速准确的检测出目标,因此我们将利用奇异值分解该两张饱含步长信息与方向信息的图,降低两帧图像中的噪声,提取合适且较少的特征信息,对其进行图像重构。
[0112]
该部分具体包括如下内容,
[0113]
1、利用奇异值分解法对注意力集中区域图与目标边缘区域图分别进行特征提取与重构;
[0114]
奇异值分解(svd)可以将含有图像信息的复杂矩阵重构成多个子矩阵相乘,进而获取重构后的矩阵i,矩阵i的秩表示为r,r≤min(m,n);
[0115]
i=u∑v
t
[0116]
其中u和y为正交矩阵,u=[u1,u2,u3…
um]∈rm×m,y=[v1,v2,v3…
vn]∈rn×n;v
t
为矩阵v的转置矩阵;∑为对角矩阵,∑=diag[δ1,δ2,δ3…
δr];u1,u2,u3…
um和v1,v2,v3…
vn分别为相应正交矩阵中的元素值,m和n分别为图的像素;δ1,δ2,δ3…
δr为奇异值;r为奇异值的个数;
[0117]
2、对注意力集中区域图和目标边缘区域图利用num个特征分别进行重构后,再将两者重构后的图像进行融合,获取目标显著图;公式为,
[0118]
rct(x,y)=i
s(num)
i
d(num)
[0119]
其中,rct(x,y)为目标显著图;i
s(num)
为重构后的注意力集中区域图;i
d(num)
为重构后的目标边缘区域图;num为特征个数;
[0120]
四、获取最终的目标位置
[0121]
上一步利用较少的特征数据量进行了图像重构,且把重构的两张图进行了简单的融合,形成了目标显著图rct(x,y)。为了更加鲜明的显示出提取到的目标,本发明利用图像阈值分割来获取最终的目标信息。
[0122]
该部分的具体内容为,
[0123][0124]
其中,fihal(x,y)为最终的目标位置;th为分割阈值;l1=255;l2=0。
[0125]
分割阈值的选取非常重要,不同的阈值大小可以决定保留图像细节边缘的多少,因此阈值th的抉择应该针对不同图片的属性,多加实验,得到最佳的值。
[0126]
本实施例中,多步长空间平滑技术可准确有效的获取不同步长下的显著图,再借助图像信息熵的选取使我们获取了较为理想的注意力集中区域图,最后利用加权信息获取较为清晰的注意力集中区域图,该图中已包含我们所需要的目标部分,其实验结果如图2所示。从图2中我们可以看出,图2的(a1)与(a2)为视觉传感器采集到的原始图,(b1)和(b2)是所对应原始图的三维成像图,(c1)图像为经多步长空间平滑技术获取不同步长下的显著图,利用最小信息熵及其倒数获取了最佳的加权注意力区域图。可以清楚的看到,舞台上人物的大致轮廓被显著凸显出来;而(c2)图像为经多步长空间滤波器处理后,通过最优步长的选取获得了舞台三个人物的大致范围,但不足的是,目标的一部分被当作背景噪声过滤掉,所以导致其细节部分并未被显现出来,为了解决这一问提,下一步将利用方向可调滤波得到详细的舞台目标轮廓图(即目标边缘区域图)。
[0127]
依靠三阶方向滤波,我们将会从原图像中获取在不同方向上目标的边缘信息,同时显示出目标的轮廓范围,原理如图3所示。
[0128]
从图4中我们可以看出,图4的(a1)与(a2)为原始图,(b1)和(b2)为所对应的三维图,(c1)与(c2)为经多方向处理的多向边缘目标图。通过图4可以清楚的看到,舞台上人物的大致轮廓以及其特征边缘信息被清晰的突显出来。方向可调滤波利用其特性,对不同的图像进行不同方向上的匹配,使其凸显的目标具有多向完整性。
[0129]
实施例二
[0130]
为了突出本发明的优越性,将本发明提出的方法与金字塔与显著性结合的目标检测技术(即对比方法1)和双边滤波多尺度目标检测技术(对比方法2)进行对比实验。
[0131]
实验所用不同场景下的五个序列图片如图5所示来进行仿真,其大小分别为488
×
492像素、600
×
900像素、422
×
545像素、452
×
724像素、485
×
707像素,所选取的图片都有其自身的特点,序列1是纯色背景下的单人目标,序列2是纯暗背景下以及伞下遮挡的双人目标,序列3是暗黑背景下的三人目标,序列4是在有光线干扰下的双人目标,序列5是在灯光与光线双重干扰下的三人目标。本发明选取上述五个序列中的人物作为将要检测的舞台目标对象,其结果显示了所提算法的可行性与有效性,舞台目标检测算法用matlab编程实现。
[0132]
检测结果如图5中所示,a序列(a1-a5)为原始图像转化后的灰度图,b序列(b1-b5)为对比方法1的处理效果图,c序列(c1-c5)为对比方法2的处理效果图,d序列(d1-d5)为本发明方法的处理效果图。
[0133]
图5是五帧不同场景序列下图像的检测效果图,第1帧图5的a(1)是在纯色背景下,对比方法1、对比方法2都能检测出相对来说较好的目标像素部分,但由于目标底部由于追光使其强度亮,这导致了对比方法2将一小部分地面误检为目标,本发明方法在多层步骤处理下,获取了较为明显的目标信息。而在序列2即第二帧图5的a(2)中,由于伞下的光线以及其所处的背景,使其利用对比方法1在进行金字塔分解时将细小部分虚化放大,然后在显著性检测中又使其分割出来,在最后的形态学处理过程中选取结构元素进行处理,不合适的结构元素导致了部分像素的缺失与漏检,而对比方法2在改进的双边滤波处理后通过差分获取了较为完整的目标信息与部分背景信息,经过尺度空间处理,虽然得到了目标像素信息,但少许背景像素点在图像的底部也被显示了出来,在图5的d(2)中本发明所提方法由于伞遮挡的光线,目标腿部的部分像素仍然无法全部呈现,但具有优势的是,目标的大部分像素点被保留,因此该结果仍然可体现本发明方法的优越性。在第3帧图5的a(3)时,对比方法1没有了遮挡,检测目标轮廓效果相对有了提升,对比方法2的检测结果也得到了较大的改观,而本发明方法相对来说获得了目标轮廓,锁定了绝大多数目标的像素点;在第4帧图5的a(4)处理过程中,由于光线干扰,对比方法1即图5的b(4)利用显著性方法获得了部分目标的轮廓范围,处于底部的人物目标被漏检,而在图5的c(4)中对比方法2利用背景估计差分图像却将光线也当作了前景目标被突显出,要么将目标与光线同时保留,要么同时滤除,而本发明方法的多尺度技术对其进行了第一次干扰滤除,奇异值分解又对其进行了第二次抑制,在两次的滤波中,光线噪声被抑制,目标被清晰的显示了出来。同理,图5的a(5)与上述类似,其背景中出现的双层扇子叠影,其并非目标组成部分,但都被对比方法1和对比方法2中的方法,当作目标凸显出来,再加上该图中目标数众多,所以为最大保全目标像素数增加了一些难度,而本发明的算法,明显优于上述两种方法效果。值得注意的是,本发明方法除了能将舞台三个目标完整的显示出来,少量零星的地面非目标像素点被检测出来,但这并不足以影响本发明方法的优越性。根据对比实验,我们可以轻易的得出本发明的方法优于其他两种方法,这是因为本发明方法在先是运用多尺度技术获得了一般的显著目标,接着用不同方向的细节进行特征匹配,使其较为立体的获得了目标边缘特征,然后在上述两种技术下,将两张图像分别进行了奇异值分解重构,减少了图像的数据量,提高了时效性,最后运用了简单的图像融合显示出来了目标,最大范围的保留了我们要检测的目标位置,在多尺度与多方向共同作用下,使其实验效果显得较为满意。
[0134]
总的来说,本发明方法可显著的提取目标轮廓信息图,能使舞台目标的包含的轮
廓像素正确清晰的显示出来。同时,也使目标边缘像素点的缺省和漏检达到最小值,此方法明显优于金字塔-显著性方法和双边滤波-尺度技术算法。接下来,对比该三种方法在处理单帧舞台图像时,所保留的目标像素点个数在总像素个数占据的比例,其结果如表1所示。其比值越大,表明所占的目标像素数越多,换句话说,该比例反映了检测出的目标越接近其真值,其表达式为:
[0135][0136]
其中,tp
the number of target pixel
为目标像素点的个数值,ip
the total pixel of image
为图像的总像素个数值,p
ratio
为两者对应的比值。
[0137]
表1目标像素点个数占比
[0138][0139]
从表1的目标像素占据总像素比值可以看到,对比方法1在序列2、序列4以及序列5中也取得了将对较好的比例,而对比方法2仅在序列3中取得了相对来说不错的效果,而本发明方法在5个序列中都极大的保留了最多的目标像素个数。这是因为多尺度与多方向的处理,可以尽量的获得目标不同尺度不同方向上的特征点,这为目标像素的保留提供了基础,而奇异值的分解在不缺失目标图像强度信息的作用下,压缩了数据量、抑制了噪声,而进一步的融合包含了目标图像的大部分信息,因此本发明方法才能有效的提取目标以及对应的边缘,使其凸显在图像上。结合图5与表1得知,本发明方法可有效快速的检测出舞台目标并具有显著的优势。本发明方法不仅可以有效的检测出舞台的单目标以及多目标,还能保留了较多的目标轮廓边缘等细节信息,这为舞台目标检测后的追踪奠定了良好的基础。
[0140]
通过采用本发明公开的上述技术方案,得到了如下有益的效果:
[0141]
本发明提供了一种基于注意力区域多向可调滤波的舞台目标检测算法,能够有效快速的检测出舞台目标并能满足智能小车应用中的实时性能要求。
[0142]
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献