一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于信息减少率的无监督运动目标检测方法

2022-05-18 10:21:05 来源:中国专利 TAG:

技术特征:
1.一种基于信息减少率的无监督运动目标检测方法,其特征在于,包括以下步骤:步骤1:通过摄像头采集视频序列并进行预处理,构建数据库;步骤2:通过训练好的pwcnet计算得到视频序列对应的光流图像,并进行归一化;步骤3:以视频序列及其对应的光流图像作为输入,训练生成式对抗网络模型;步骤4:对待检测视频序列同样进行步骤1~步骤2的处理;步骤5:提取训练好的生成式对抗网络模型的生成器模块,检测待检测视频序列中的运动目标。2.根据权利要求1所述的基于信息减少率的无监督运动目标检测方法,其特征在于,步骤3所述训练生成式对抗网络模型,具体步骤如下:步骤3.1、运动目标与背景的区分:对于视频序列的一帧图像i,假设图像区域为d,运动目标的图像区域为ω,背景为ω
c
=d/ω,当前帧流向相邻帧的光流为u,相邻帧为上一帧或下一帧;其中,光流表示图像亮度模式的表观运动,包含物体表面结构和动态行为的信息;使用表示两个随机变量的互信息,给定图像i中的位置i、位置j的光流u
i
、u
j
,将前景ω的概念形式化为与背景互信息为0的区域:其中,互信息表示给定图像i中位置j的光流u
j
所能提供的关于位置i的光流u
i
的信息量,该互信息取值越大,提供的信息量越大;香农信息熵h(u
i
|i)表示u
i
的不确定度,变量的不确定性越大,信息熵也就越大,取值始终大于0;h(u
i
|u
j
,i)表示在已知u
j
的条件下,u
i
的不确定度;步骤3.2、基于信息减少率的损失函数:根据以上定义的前景和背景,结合香农信息熵理论,定义信息减少率来构建优化目标;以d中的两个子集即区域x、区域y作为输入,区域x、区域y的光流分别为u
x
、u
y
,定义信息减少率γ如下:其中,表示给定图像i中区域y的光流u
y
所能提供的关于区域x的光流u
x
的信息量;香农信息熵h(u
x
|i)表示u
x
的不确定度;h(u
x
|u
y
,i)表示在已知u
y
的条件下,u
x
的不确定度;γ(x|y;i)表示已知u
y
的条件下,u
x
的不确定度减小的量,取值在0~1之间;当u
x
和u
y
独立,即一个属于前景一个属于背景图像区域时,γ=0;目标图像区域ω中的光流用u
in
={u
i
,i∈ω}表示,背景区域ω
c
中的用u
out
={u
j
,j∈ω
c
}表示,从而有:其中,p(u
in
|i)表示光流为前景光流的概率,p(u
in
|u
out
,i)表示已知u
out
的条件下,u
in

概率;根据信息减少率γ,定义损失函数为当最小时,背景的光流足以预测前景;对模型进行严格的假设,如下所示:其中,φ(ω,y,i)=∫u
in
dp(u
in
|u
out
,i);|| ||2表示对向量取模,σ表示方差;同时,引入函数χ表示d、ω、ω
c
:故,流入ω的光流表示为u
iin
=χu
i
,流出的为u
iout
=(1-χ)u
i
;最终,选择χ和φ作为卷积神经网络中的参数函数类,以w表示参数,对应的函数为和省去损失函数的常数项,并转为原损失函数的相反数,得到最终的损失函数的常数项,并转为原损失函数的相反数,得到最终的损失函数其中,为恢复器i,使上式最小,w1为恢复器i的参数;为生成器g,选择使得u
iout
不为u
iin
提供信息,使得上式最大,w2为生成器g的参数;i为图像;最终的优化目标表示为以下形式:步骤3.3、构建生成器g和恢复器i,生成器g和恢复器i共同组成了一个生成式对抗网络,求解步骤3.2中的优化问题;生成器g用于生成运动目标的光流掩膜图像mask;恢复器i以cpn为基本网络架构,根据生成器g生成的掩膜图像以及对应的光流图像恢复掩膜图像内部的光流信息;步骤3.4、使用davis2016数据集对构建好的生成式对抗网络进行训练,得到最终的生成式对抗网络模型。3.根据权利要求2所述的基于信息减少率的无监督运动目标检测方法,其特征在于,步骤3.3所述生成器g和恢复器i共同组成了一个生成式对抗网络,具体模型如下:1)生成器g输入为rgb图像i
t
及其对应的光流u
t:t δt
,输出为运动目标的掩膜图像mask,其中δt在均匀分布u=[-5,5]之间随机采样且δt≠0,这样引入更多关于图像i
t
光流的变化信息;生成器g由编码器和解码器两部分组成;编码器部分由5个卷积层组成,每个卷积层后
都有一个bn层,每一个卷积层将原图像缩小为输入图像的1/4;编码器之后有4个半径逐次增大的空洞卷积层,半径依次为2,4,8,16;解码器部分由5个卷积层构成,通过上采样生成与输入图像大小相同的掩膜图像;2)恢复器i输入为rgb图像i
t
以及生成器g生成的掩膜图像mask,输出为预测的掩膜图像之外的光流图像,也就是背景的光流图像;恢复器i的编码器部分包括两个分支,并且两个分支的结构及参数完全相同,分别由9层卷积层构成,每一个卷积层后使用leakyrelu作为激活函数;其中一个网络分支以经归一化的帧图像作为输入,另一个分支以光流图像以及生成器生成的掩码图像作为输入;将两个网络分支编码后的特征使用拼接操作concat连接后传递给解码器,解码器主要由反卷积层和leakyrelu激活函数构成,同时使用跳跃结构将深层的特征上采样后与浅层的特征进行特征融合;最终输出与输入图像大小相同的光流图像。4.根据权利要求3所述的基于信息减少率的无监督运动目标检测方法,其特征在于,步骤3中生成式对抗网络模型的生成器g和恢复器i的编码器部分引入了轻量级的注意力机制,注意力模块包括通道注意力、空间注意力以及全局注意力:1)通道注意力包括三个操作:挤压、激励和再标定;首先,对于输入尺寸为h
×
w
×
c特征图f,通过挤压操作在空间维度对输入特征进行压缩,得到一个1
×1×
c的特征向量s,表示该通道的全局特征,该特征向量中的每个元素与特征图中每个通道相对应,实际上就是对每个特征图做全局池化的过程;然后,通过激励操作建立通道之间的关联性,利用权重w来学习c个通道直接的相关性,得到一个尺寸为1
×1×
c的通道权重e,通过1
×
1的卷积操作实现;最后,通过再标定操作将通道的权重和原始输入特征图相乘,得到加权的输出特征图f

c
;2)对特征图f

c
分别采用最大池化和平均池化操作,产生两个特征矩阵f
max
和f
avg
;然后,对两个特征矩阵进行融合操作得到融和特征图f
ma
,通过sigmoid激活函数处理得到空间注意力权重w,其中的融合操作包括对特征矩阵进行按通道拼接然后进行卷积操作;最后,将空间注意力权重矩阵w与原始输入特征图f矩阵相乘,得到加权后的输出特征图f

s
;3)全局注意力的挤压操作与通道注意力相同,而对于其中的激励操作,我们将其替换为由以下4个连续操作的实现:fc(2c/16)

relu

fc(1)

sigmoid,激励操作会生成一个尺寸选择因子其中,fc(
·
)表示全连接操作,c为通道数,relu和sigmoid均为激活函数;根据空间注意力机制的输出f

s
和尺寸选择因子μ计算得到获得尺寸敏感的特征f

scale
,如下式所示:f

g
=f (μ*f

s
)其中,为了避免丢失注意力值接近0的区域的重要信息,添加了一个恒等映射项f。5.根据权利要求4所述的基于信息减少率的无监督运动目标检测方法,其特征在于,步骤4~步骤5中,提取训练好的生成式对抗网络模型的生成器模块检测待检测视频序列中的运动目标,具体步骤如下:首先,将待检测的视频序列进行步骤1所述的预处理操作;然后,按照步骤2所述的方法计算得到对应的光流图像;最后,将经预处理的视频序列图像及对应的光流图像输入到步骤3中得到的生成器g中,所得到的输出图像就是运动目标的预测结果。

技术总结
本发明公开了一种基于信息减少率的无监督运动目标检测方法。该方法为:通过摄像头采集视频序列并进行预处理,构建数据库;通过训练好的PWCNet计算得到视频序列对应的光流图像并进行归一化;以视频序列及其对应的光流图像作为输入,训练生成式对抗网络模型;对待检测视频序列同样进行前述处理;提取训练好的生成式对抗网络模型的生成器模块,检测待检测视频序列中的运动目标。本发明基于背景图像区域中不包含前景图像区域的信息的性质,根据光流的关系构造生成式对抗网络模型实现背景与运动目标的判别,生成式对抗网络包括生成器和恢复器;通过注意力机制对运动目标的特征通道进行融合,减少了背景的干扰,提高了对运动目标的检测性能。的检测性能。的检测性能。


技术研发人员:李军 刘江 付孟祥 王子文 张书恒
受保护的技术使用者:南京理工大学
技术研发日:2021.12.10
技术公布日:2022/5/17
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献