一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于信息减少率的无监督运动目标检测方法

2022-05-18 10:21:05 来源:中国专利 TAG:

的运动目标。
11.本发明与现有技术相比,其显著优点为:(1)基于背景图像区域中不包含前景图像 区域的信息的性质,根据光流的关系构造生成式对抗网络模型实现背景与运动目标的判 别,生成式对抗网络包括生成器和恢复器;引入注意力机制有效地提高了跟踪算法的鲁 棒性,减小了背景噪声等对目标的跟踪的干扰;(2)充分利用目标和背景的光流信息, 通过注意力机制对运动目标的特征通道进行融合,减少了背景的干扰,提高了对运动目 标的检测性能。
附图说明
12.图1为本发明具体实施流程图。
13.图2为本发明的基本网络结构图。
14.图3为网络模型的生成器模块对部分视频序列中运动目标的检测输出结果图。
15.图4为网络模型的生成器模块的网络结构图。
具体实施方式
[0016][0017]
本发明一种基于信息减少率的无监督运动目标检测方法,包括以下步骤:
[0018]
步骤1:通过摄像头采集视频序列并进行预处理,构建数据库;
[0019]
步骤2:通过训练好的pwcnet计算得到视频序列对应的光流图像,并进行归一化;
[0020]
步骤3:以视频序列及其对应的光流图像作为输入,训练生成式对抗网络模型;
[0021]
步骤4:对待检测视频序列同样进行步骤1~步骤2的处理;
[0022]
步骤5:提取训练好的生成式对抗网络模型的生成器模块,检测待检测视频序列中 的运动目标。
[0023]
进一步地,步骤3所述训练生成式对抗网络模型,具体步骤如下:
[0024]
步骤3.1、运动目标与背景的区分:
[0025]
基于背景图像区域中不应包含运动目标前景图像区域的信息的原理,可以通过学习 感兴趣区域之外的区域来尽可能差地对感兴趣区域的图像进行解释。具体的,对于视频 序列的某帧图像i,假设图像区域为d,运动目标的图像区域为ω,背景为ωc=d/ω, 其流向相邻帧(上一帧或下一帧)的光流为u。其中,光流表示图像亮度模式的表观运 动,包含了物体表面结构和动态行为的重要信息。使用表示两个随机变量的互 信息,给定图像i中的位置i、位置j的光流ui、uj,将前景ω的概念形式化为与背景互 信息为0的区域:
[0026][0027]
其中,互信息表示给定图像i中位置j的光流uj所 能提供的关于位置i的光流ui的信息量,该互信息取值越大,提供的信息量越大;香农 信息熵h(ui|i)表示ui的不确定度,变量的不确定性越大,信息熵也就越大,取值始终大 于0;h(ui|uj,i)表示在已知uj的条件下,ui的不确定度;
[0028]
步骤3.2、基于信息减少率的损失函数:
[0029]
根据以上定义的前景和背景,结合香农信息熵理论,定义信息减少率来构建优化目 标;以d中的两个子集即区域x、区域y作为输入,区域x、区域y的光流分别为u
x
、uy,定义 信息减少率γ如下:
[0030][0031]
其中,表示给定图像i中区域y的光流uy所能提 供的关于区域x的光流u
x
的信息量;香农信息熵h(u
x
|i)表示u
x
的不确定度;hu
x
|uy,i) 表示在已知uy的条件下,u
x
的不确定度;
[0032]
γ(x|y;i)表示已知uy的条件下,u
x
的不确定度减小的量,取值在0~1之间;当u
x
和 uy独立,即一个属于前景一个属于背景图像区域时,γ=0;目标图像区域ω中的光流 用u
in
={ui,i∈ω}表示,背景区域ωc中的用u
out
={uj,j∈ωc}表示,从而有:
[0033][0034]
其中,p(u
in
|i)表示光流为前景光流的概率,p(u
in
|u
out
,i)表示已知u
out
的条件下, u
in
的概率;根据信息减少率γ,定义损失函数为当最 小时,背景的光流足以预测前景;
[0035]
对模型进行严格的假设,如下所示:
[0036][0037]
其中,φ(ω,y,i)=∫u
in
dp(u
in
|u
out
,i);||||2表示对向量取模,σ表示方差;
[0038]
同时,引入函数χ表示d、ω、ωc:
[0039][0040]
故,流入ω的光流表示为u
iin
=χui,流出的为u
iout
=-1-χ)ui;
[0041]
最终,选择χ和φ作为卷积神经网络中的参数函数类,以w表示参数,对应的函数为 和
[0042]
为了简化表示,省去损失函数的常数项,并转为原损失函数的相反数,可以得到 最终的损失函数
[0043]
[0044]
其中,为恢复器i,使上式最小,w1为恢复器i的参数;为生成器g,选择使 得u
iout
不为u
iin
提供信息,使得上式最大,w2为生成器g的参数;i为图像;
[0045]
最终,的优化目标表示为以下形式:
[0046][0047]
步骤3.3、构建生成器g和恢复器i,生成器g和恢复器i共同组成了一个生成式对抗 网络,求解步骤3.2中的优化问题;生成器g用于生成运动目标的光流掩膜图像mask; 恢复器i以cpn为基本网络架构,根据生成器g生成的掩膜图像以及对应的光流图像恢 复掩膜图像内部的光流信息;
[0048]
步骤3.4、使用davis2016数据集对构建好的生成式对抗网络进行训练,得到最 终的生成式对抗网络模型。
[0049]
进一步地,步骤3.3所述生成器g和恢复器i共同组成了一个生成式对抗网络,具体 模型如下:
[0050]
1)生成器g输入为rgb图像i
t
及其对应的光流u
t:t δt
,输出为运动目标的掩膜图 像mask,其中δt在均匀分布u=[-5,5之间随机采样且δt≠0,这样引入更多关于图 像i
t
光流的变化信息;生成器g由编码器和解码器两部分组成;编码器部分由5个卷积 层组成,每个卷积层后都有一个bn层,每一个卷积层将原图像缩小为输入图像的1/4; 编码器之后有4个半径逐次增大的空洞卷积层,半径依次为2,4,8,16;解码器部分 由5个卷积层构成,通过上采样生成与输入图像大小相同的掩膜图像;
[0051]
2)恢复器i输入为rgb图像i
t
以及生成器g生成的掩膜图像mask,输出为预测的 掩膜图像之外的光流图像,也就是背景的光流图像;恢复器i的编码器部分包括两个分 支,并且两个分支的结构及参数完全相同,分别由9层卷积层构成,每一个卷积层后使 用leakyrelu作为激活函数。其中一个网络分支以经归一化的帧图像作为输入,另一 个分支以光流图像以及生成器生成的掩码图像作为输入。将两个网络分支编码后的特征 使用拼接操作(concat)连接后传递给解码器,解码器主要由反卷积层和leakyrelu 激活函数构成,同时使用跳跃结构将深层的特征上采样后与浅层的特征进行特征融合。 最终输出与输入图像大小相同的光流图像。
[0052]
进一步地,步骤3所述生成式对抗网络模型的生成器g和恢复器i的编码器部分引入 了轻量级的注意力机制;注意力模块包括通道注意力、空间注意力以及全局注意力。
[0053]
1)通道注意力主要包括三个操作:挤压、激励和再标定。首先,对于输入尺寸为 h
×w×
c特征图f,通过挤压操作在空间维度对输入特征进行压缩,得到一个1
×1×
c 的特征向量s,表示该通道的全局特征,该特征向量中的每个元素与特征图中每个通道 相对应,实际上就是对每个特征图做全局池化的过程;然后,通过激励操作建立通道之 间的关联性,利用权重w来学习c个通道直接的相关性,得到一个尺寸为1
×1×
c的通 道权重e,一般通过1
×
1的卷积操作实现;最后,通过再标定操作将通道的权重和原始 输入特征图相乘,得到加权的输出特征图fc′

[0054]
2)对特征图f
′c分别采用最大池化和平均池化操作,产生两个特征矩阵f
max
和f
avg
; 然后,对两个特征矩阵进行融合操作得到融和特征图f
ma
,通过sigmoid激活函数处理得 到空间注意力权重w,其中的融合操作一般为对特征矩阵进行简单地按通道拼接后进行 卷积
操作;最后,将空间注意力权重矩阵w与原始输入特征图f矩阵相乘,得到加权后 的输出特征图fs′

[0055]
3)全局注意力的挤压操作与通道注意力相同,而对于其中的激励操作,我们将其 替换为由以下4个连续操作的实现:fc(2c/16)

relu

fc(1)

sigmoid,激励操作 会生成一个尺寸选择因子其中,fc(
·
)表示全连接操作,c为通道数,relu和 sigmoid均为激活函数。根据空间注意力机制的输出fs′
和尺寸选择因子μ计算得到获得尺 寸敏感的特征fs′
cale
,如下式所示:
[0056]fg

=f (μ*fs′
)
[0057]
其中,为了避免丢失注意力值接近0的区域的某些重要信息,添加了一个恒等映射项f。
[0058]
进一步地,步骤4~步骤5中,提取训练好的生成式对抗网络模型的生成器模块检 测待检测视频序列中的运动目标,具体步骤如下:
[0059]
首先,将待检测的视频序列进行步骤一所述的预处理操作;
[0060]
然后,按照步骤二所述的方法计算得到对应的光流图像;
[0061]
最后,将经预处理的视频序列图像及对应的光流图像输入到步骤三中得到的生成器 g中,所得到的输出图像就是运动目标的预测结果。
[0062]
下面结合说明书附图进一步阐明本发明,应理解这些实施例仅用于说明本发明而不 用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形 式的修改均落于本技术所附权利要求所限定的范围。
[0063]
实施例
[0064]
本发明提出了一种带注意力机制的无监督的运动目标检测方法。基于背景图像区域 中不包含前景图像区域的信息的性质,根据光流的关系构造生成式对抗网络模型实现背 景与运动目标的判别,生成式对抗网络包括生成器和恢复器;引入注意力机制有效地提 高了跟踪算法的鲁棒性,减小了背景噪声等对目标的跟踪的干扰。基本思路是:首先构 建视频数据库,对视频进行预处理;然后利用pwcnet对每一段视频的相邻帧计算得 到光流信息;再将经预处理得到视频及其对应的光流信息作为基于注意力机制的生成式 对抗网络的输入,对网络模型进行训练;最后,对于待检测的视频序列,使用网络模型 的生成器模块就能得到对运动目标的检测结果。
[0065]
如图1所示,本发明的实施主要包含四个步骤:(1)视频序列预处理;(2)通过 pwcnet得到视频序列的光流图像;(3)以视频序列及其对应的光流图像作为输入训练 生成式对抗网络;(4)利用训练好的网络模型的生成器模块,检测视频序列中的运动目 标,并输出检测结果。
[0066]
步骤一:通过摄像头采集视频序列并进行预处理,构建数据库;
[0067]
由于采集到的自然场景下的视频序列可能存在光照不均匀等因素干扰,所以对其进 行预处理,主要包括视频序列的直方图均衡化、归一化等;
[0068]
步骤二:通过pwcnet得到视频序列的光流图像;
[0069]
给定待测图像i其流向下(上)一帧的光流u:d1→
r2是到的映 射。pwcnet是一个高性能的光流学习网络,可以高效地获取视频序列的光流信息。本 发明采用了pwcnet计算光流信息,并进行归一化,归一化操作主要包括将光流图像 调整到与
视频序列相同的大小,然后除以一个常数,也就是将光流图像的值等比例减小, 以加速网络的训练。
[0070]
步骤三:以视频序列及其对应的光流图像作为输入训练生成式对抗网络;
[0071]
步骤3.1、运动目标与背景的区分。基于背景图像区域中不应包含运动目标前景图 像区域的信息的原理,可以通过学习感兴趣区域之外的区域来尽可能差地对感兴趣区域 的图像进行解释。具体的,对于视频序列的某帧图像i,假设图像区域为d,运动目标 的图像区域为ω,背景为ωc=d/ω,其流向相邻帧(上一帧或下一帧)的光流为u。其 中,光流表示图像亮度模式的表观运动,包含了物体表面结构和动态行为的重要信息。 使用表示两个随机变量的互信息,给定图像i中的两个位置的光流ui、uj,可以 将前景ω的概念形式化为与背景互信息为0的区域::
[0072][0073]
其中,互信息表示光流uj所能提供的关于预测光流ui的信息量,值越大,提供的信息量越大;表示信息熵,用 于量化信息量的大小,变量的不确定性越大,信息熵也就越大,取值始终大于0。
[0074]
步骤3.2、基于信息减少率的损失函数。根据以上定义的前景和背景,结合香农信 息熵理论,定义信息减少率来构建优化目标;以d中的两个子集(区域)x,y作为输入, 定义信息减少率γ如下:
[0075][0076]
其中,表示光流uy所能提供的关于预测光流u
x
的信息量;香农信息熵h(u
x
|i)u
x
表示u
x
的不确定度;hu
x
|uy,i)表示在已知uy的条件 下,u
x
的不确定度;γ(x|y;i)表示已知uy的条件下,u
x
的不确定度减小的量,取值在 0~1之间。特别的,当u
x
和uy独立,即一个属于前景一个属于背景图像区域时,γ=0; 目标图像区域ω中的光流用u
in
={ui,i∈ω}表示,背景区域ωc中的用u
out
={uj,j∈ωc} 表示,从而有:
[0077][0078]
其中,p(u
in
|i)表示光流为前景光流的概率,p(u
in
|u
out
,i)表示已知u
out
的条件下, u
in
的概率。根据信息减少率γ,定义损失函数为当最 小时,背景的光流就足以预测前景。对模型进行严格的假设,如下所示:
[0079][0080]
其中,φ(ω,y,i)=∫u
in
dp(u
in
|u
out
,i);||||2表示对向量取模,σ表示方差。同时, 引入函数χ表示d、ω、ωc:
[0081][0082]
故,流入ω的光流表示为u
iin
=χui,流出的为u
iout
=(1-χ)ui;
[0083]
最终,选择χ和φ作为卷积神经网络中的参数函数类,以w表示参数,对应的函数为 和为了简化表示,省去损失函数的常数项,并转为原损失函数的相反数,可 以得到最终的损失函数
[0084][0085]
其中,为恢复器i,使上式最小,w1为其参数;为生成器g,选择合适的使得 u
iout
不为u
iin
提供信息,使得上式最大,w2为其参数;i为图像。
[0086]
最终,的优化目标表示为以下形式:
[0087][0088]
步骤3.3、构建生成器g和恢复器i,生成器g和恢复器i共同组成了一个生成式对抗 网络,能够有效地求解步骤3.2中的优化问题。生成器g包括编码器和解码器部分,用 于生成运动目标的光流掩膜图像,其网络结构及参数如表1所示。恢复器i包括编码器 和解码器部分,可以通过生成器g生成的掩膜图像恢复掩膜图像之外的光流信息,其网 络结构及参数如表2所示。
[0089]
1)生成器g输入为rgb图像i
t
及其对应的光流u
t:t δt
,输出为运动目标的掩膜图 像mask,其中δt在均匀分布u=[-5,5]之间随机采样且δt≠0,这样引入更多关于图 像i
t
光流的变化信息;生成器g由编码器和解码器两部分组成;编码器部分由5个卷积 层组成,每个卷积层后都有一个batchnormalization层,每一个卷积层将原图像缩小为 输入图像的1/4;编码器之后有4个半径逐次增大的空洞卷积层,半径依次为2、4、8、 16;解码器部分由5个卷积层构成,通过上采样生成与输入图像大小相同的掩膜图像;
[0090]
2)恢复器i输入为rgb图像i
t
以及生成器g生成的掩膜图像mask,输出为预测的 掩膜图像之外的光流图像,也就是背景的光流图像;恢复器i的编码器部分包括两个分 支,并且两个分支的结构及参数完全相同,分别由9层卷积层构成,每一个卷积层后使 用leakyrelu作为激活函数。其中一个网络分支以经归一化的帧图像作为输入,另一 个分支以光流图像以及生成器生成的掩码图像作为输入。将两个网络分支编码后的特征 使用拼接操作(concat)连接后传递给解码器,解码器主要由反卷积层和leakyrelu激 活函数构成,同时使用跳跃结构将深层的特征上采样后与浅层的特征进行特征融合。最 终输出与输入图像大小相同的光流图像。
[0091]
表1生成器网络参数
[0092][0093]
注1:其中每个卷积层后都有一个batch normalization,图中没有显示出来。
[0094]
注2:空洞卷积是在卷积核中间填充rate-1个0,可以扩大感受野、捕获多尺度上下文信息。
[0095]
注3:反卷积层可以实现信号复原,实现上采样。
[0096]
注4:在卷积层2-3,4-5,7-10,11-12中都加入了注意力模块,以减少背景噪声地干扰。
[0097]
表2恢复器网络参数
[0098][0099]
步骤3.4、使用训练数据集对构建好的生成式对抗网络进行训练,得到最终的网络 模型。
[0100]
步骤四:利用训练好的网络模型的生成器g,检测视频序列中的运动目标;
[0101]
首先,将待检测的视频序列进行步骤一所述的预处理操作;然后,按照步骤二所述 的方法计算得到对应的光流图像;最后将经预处理的视频序列图像及对应的光流图像输 入到步骤三中得到的生成器g中,所得到的输出图像就是运动目标的掩码图像。
[0102]
本发明一种基于信息减少率的无监督运动目标检测方法,基于背景图像区域中不包 含前景图像区域的信息的性质,根据光流的关系构造生成式对抗网络模型实现背景与运 动目标的判别,生成式对抗网络包括生成器和恢复器;引入注意力机制有效地提高了跟 踪算法的鲁棒性,减小了背景噪声等对目标的跟踪的干扰。基本思路是:首先构建视频 数据库,对视频进行预处理;然后利用pwcnet对每一段视频的相邻帧计算得到光流 信息;再将经预处理得到视频及其对应的光流信息作为基于注意力机制的生成式对抗网 络的输
入,对网络模型进行训练;最后,对于待检测的视频序列,使用网络模型的生成 器模块就能得到对运动目标的检测结果。与现有的无监督的运动目标检测算法相比,本 发明充分利用目标和背景的光流信息,通过注意力机制对运动目标的特征通道进行融合, 减少了背景的干扰,提高了对运动目标的检测性能。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献