一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于质量评估的视频显著性目标检测方法与流程

2022-02-20 13:08:44 来源:中国专利 TAG:


1.本发明属于计算机视觉领域,视频显著性目标检测旨在通过利用隐藏在视频序列中的空间线索和时间线索来定位和分割最吸引注意力的对象。该任务源于认知研究中人类的视觉注意力行为,即快速的将注意力转移到视觉场景中最具信息量的区域。


背景技术:

2.现有的技术可以部分解决这个问题,大致可以分为四类,即基于特征提取的、基于长短期记忆、基于注意力机制和基于并行网络的视频显著性目标检测(video salient object detection,vsod)方法。
3.基于特征提起的vsod方法试图将空间信息与基于先验知识的运动线索相结合,例如时空背景先验知识和低秩一致性,这类方法的性能受限于提取特征的好坏。基于长短期记忆网络的vsod方法分别从视频序列中的单个图像中提取空间信息,并通过卷积存储单元对时间信息进行建模,例如convlstm。基于注意力机制的vsod方法使用一种非局部机制来捕捉连续几帧图像的时间信息。基于并行的vsod方法通常采用双流框架,其中一个支流提取图像的空间特征,一个支流提取使用生成光流算法得到的光流图像的时间特征。该类方法受限于光流图像质量的好坏,输出特征能否较好融合空间信息和时间信息。
4.目前vsod的方法存在的问题和挑战主要有:第一,前景和背景共享相似的特征时,隐藏在每一帧中的空间线索通常很难被利用。显著对象和背景之间的低对比度的rgb图像会引入误导信息来干扰预测目标。第二,隐藏在不同帧之间的时间线索可能会受到快速运动、大位移和光照变化的干扰。光流图像中有噪声导致错误预测,即使来自精确光流图像的时间信息也会混淆几个运动物体在场景中的空间信息。第三,预测边缘的粗糙性,通过时空信息通常能确定显著性目标的定位,然而缺乏对浅层特征的强调导致边缘信息模糊。
5.vsod的应用场景广泛,视频显著性目标检测作为一种有效的预处理技术已被广泛应用于检索、识别、分割、重定向、增强、行人检测、评价、压缩等众多计算机视觉任务。


技术实现要素:

6.基于双流框架的vsod方法受限于光流图像质量的好坏,提取rgb图像特征的好坏,输出特征能否较好融合空间信息和时间信息。因此,本发明提供一种基于质量评估的视频显著性目标检测方法,我们提出了一种新的框架,其中包含对光流特征(时间信息)和rgb特征(空间信息)进行质量评估的模块,这样,该框架就能自适应的捕获准确的空间和时间信息来预测显著图。具体来说,我们在框架的编码和解码部分各引入了一个质量评估的自适应门模块(质量评估模块),该模块可以通过计算mae值来估计输入特征的质量,给质量高的特征以较大的权重,保留特征,给质量低的特征以较小的权重,去除特征,起到筛选作用,传递有效信息。其次,考虑到多尺度信息能促进目标整体定位的确定和目标细节的分割,我们引入一个多尺度感知模块。此外,考虑到空间信息和时间信息更好的融合,我们提出引入一个基于注意力机制的模块(时空信息交互模块),让空间信息和时间信息相互指导,相互促
进,从而学习到更好的时空特征。最后,我们还提出了一个双差分增强模块,它专注于捕捉空间和时间线索之间的差分信息,并生成融合的特征。
7.一种基于质量评估的视频显著性目标检测方法,步骤如下:
8.步骤(1):构建视频显著性目标检测网络框架;
9.所述的视频显著性目标检测网络框基于一个双流的编码-解码结构,主干网络采用resnet101网络,一条支流的输入为rgb图像,提取图像的空间特征,称其rgb支流,另一条支流的输入为光流图像,提取图像间的时间信息,称其运动支流,通过raft算法处理视频中连续两帧图像,计算得到光流图,用于反映视频中物体的运动。
10.步骤(2):在编码部分,两条支流各自提取特征,通过质量评估模块对每层输出特征质量评估,筛选有指导意义的特征,并且通过时空信息交互模块进行特征增强并让两支流的时空特征相互指导;在解码部分,通过质量评估模块将编码中每层的输出特征再经过一次质量评估,通过双差分增强模块融合时空特征,以级联的形式传递深层次特征到浅层次特征,最终得到预测图。考虑到多尺度信息能促进目标整体定位的确定和目标细节的分割,在编码部分引入一个多尺度感知模块,多尺度感知模块的输出与rgb支流的输出进行融合,获得多尺度融合后的rgb特征。
11.为减小模型参数量,在解码部分,分别对resnet的每层输出特征进行卷积操作,降通道数,具体地,前四层特征降至48维,第五层特征降至256维。同时,两个支流的主干网络共享参数,每层的质量评估模块共享参数。
12.步骤(3):损失函数:
13.对于最终预测显著图,根据basnet中损失函数的定义计算最终预测显著图和正确标注之间的损失,如公式9所示。
14.lf=l
bce
(pf,g) l
ssim
(pf,g) l
iou
(pf,g)(9)
15.对于质量评估,以公式9相同的损失函数使正确标注去监督中间的显著图,计算中间的显著图和正确标注间的平均绝对误差mae,通过公式10使mae监督质量得分。
[0016][0017]
步骤(4):采用duts数据集的训练集对视频显著性目标检测网络进行预训练,一轮预训练结束后,使用davis数据集的训练集对整个网络进行再一轮训练。通过对输入图像应用随机水平翻转和随机旋转的方式扩增训练数据量,防止过拟合。使用adam优化器,以1e-5的初始学习率训练模型直至收敛。
[0018]
进一步的,所述的多尺度感知模块:
[0019]
多尺度感知模块用于增强在编码阶段rgb支流最后输出的特征,在结构上,多尺度感知模块由两个resnet101网络组成,其参数与rgb支流的resnet101主干网络共享。对于rgb支流的输入图像,首先进行下采样操作,分别缩小图像至1/2、1/4,将下采样后的图像分别输入两个resnet101中。经由五层卷积层,得到两个不同尺度的输出特征,将这两个特征与rgb支流的最后层输出特征以逐级上采样并拼接的方式进行特征融合,并且将融合后的特征与rgb支流最终得到的特征相融合,得到多尺度融合后的rgb特征,如公式1所示:
[0020]
[0021]
concat(.,.)为通道维度的拼接操作,为上采样两倍操作。为输入为1/4图像对应的特征,为输入为1/2图像对应的特征,e
in
为rgb支流对应的特征,e
out
为融合后的输出特征。
[0022]
进一步的,所述的质量评估模块:
[0023]
质量评估模块由两个子网络组成,预测子网络和评估子网络。预测子网络由三个卷积层组成,用于预测显著图,该显著图受到正确标注的监督。评估子网络由三个卷积层、一个全局平均池化层和一个sigmoid激活函数组成,用于计算质量得分,该质量得分受到预测图和正确标注之间的平均绝对误差mae监督。将预测的显著图和输入特征进行拼接,作为评估子网络的输入特征。将质量得分与输入特征相乘,作为质量评估模块的输出特征,如公式2、3所示。质量得分越高的输入特征将会保留,得分越低的输入特征会被认为存在大量噪声而去除。
[0024][0025][0026]
为评估子网络的卷积操作,为预测子网络的卷积操作,si为质量得分,ei为输入特征,为经过质量评估后的特征。

为对应元素相乘操作,σ为sigmoid激活函数。
[0027]
进一步的,所述的时空信息交互模块:
[0028]
时空信息交互模块用于保持不同特征之间的语义一致性。先对运动支流特征作为输入特征进行通道维度上的注意力操作,如公式4所示,再进行空间维度上的注意力操作,如公式5所示,将增强后的特征与rgb支流的特征相加,得到时间信息指导下的空间信息,如公式6、7所示。同理,对rgb支流特征进行通道维度和空间维度上的注意力操作增强特征,并与运动支流特征相加,得到空间信息指导下的时间信息。
[0029][0030][0031][0032][0033]
为求通道注意力的函数,为空间维度上的最大池化操作,为全连接操作,σ为sigmoid激活函数,

为通道维度上的对应相乘。为求空间注意力的函数,为通道维度上的最大池化操作,为卷积操作,为空间维度上的对应相乘。为输入的运动特征,为注意力操作后增强的运动特
征,为输出的rgb特征,为对应元素相加操作。
[0034]
进一步的,所述的双差分增强模块:
[0035]
双差分增强模块来挖掘rgb和光流特征之间的差分信息。对于分别经过质量评估后的rgb和光流特征,通过作差和卷积操作来提取差异信息,将差异信息作为补充来增强原始信息,如公式8所示。
[0036][0037]
为对差异特征的卷积操作,为增强后的(空间或时间)特征。
[0038]
本发明有益效果如下:
[0039]
本发明提出一个新的视频显著性目标检测框架,其中引入了多尺度感知模块、质量评估模块、时空信息交互模块、双差分增强模块,与现有的基于双流的视频显著性目标检测方法相比,本文提出的框架能自适应的捕获准确的空间和时间信息,从而获取准确的预测结果。
附图说明
[0040]
图1为框架结构图中编码部分;
[0041]
图2为框架结构图中解码部分;
[0042]
图3为质量评估模块结构图;
[0043]
图4为双差分增强模块结构图。
具体实施方式
[0044]
以下结合附图与实施例对本发明方法进行进一步描述。
[0045]
一种基于质量评估的视频显著性目标检测方法,步骤如下:
[0046]
步骤(1):构建视频显著性目标检测网络框架;
[0047]
所述的视频显著性目标检测网络框基于一个双流的编码-解码结构,主干网络采用resnet101网络,一条支流的输入为rgb图像,提取图像的空间特征,称其rgb支流,另一条支流的输入为光流图像,提取图像间的时间信息,称其运动支流,通过raft算法处理视频中连续两帧图像,计算得到光流图,用于反映视频中物体的运动。
[0048]
步骤(2):在编码部分,两条支流各自提取特征,通过质量评估模块对每层输出特征质量评估,筛选有指导意义的特征,并且通过时空信息交互模块进行特征增强并让两支流的时空特征相互指导;在解码部分,通过质量评估模块将编码中每层的输出特征再经过一次质量评估,通过双差分增强模块融合时空特征,以级联的形式传递深层次特征到浅层次特征,最终得到预测图。考虑到多尺度信息能促进目标整体定位的确定和目标细节的分割,在编码部分引入一个多尺度感知模块,多尺度感知模块的输出与rgb支流的输出进行融合,获得多尺度融合后的rgb特征。
[0049]
为减小模型参数量,在解码部分,分别对resnet的每层输出特征进行卷积操作,降通道数,具体地,前四层特征降至48维,第五层特征降至256维。同时,两个支流的主干网络共享参数,每层的质量评估模块共享参数。
[0050]
步骤(3):损失函数:
[0051]
对于最终预测显著图,根据basnet中损失函数的定义计算最终预测显著图和正确标注之间的损失,如公式9所示。
[0052]
lf=l
bce
(pf,g) l
ssim
(pf,g) l
iou
(pf,g)(9)
[0053]
对于质量评估,以公式9相同的损失函数使正确标注去监督中间的显著图,计算中间的显著图和正确标注间的平均绝对误差mae,通过公式10使mae监督质量得分。
[0054][0055]
步骤(4):采用duts数据集的训练集对视频显著性目标检测网络进行预训练,一轮预训练结束后,使用davis数据集的训练集对整个网络进行再一轮训练。通过对输入图像应用随机水平翻转和随机旋转的方式扩增训练数据量,防止过拟合。使用adam优化器,以1e-5的初始学习率训练模型直至收敛。
[0056]
图1、2是本发明所提出的框架结构图。我们的框架的基础是一个双流的编码-解码结构,主干是resnet101网络,一条支流的输入为rgb图像,提取图像的空间特征,称其rgb支流,另一条支流的输入为光流图像,提取图像间的时间信息,称其运动支流,通过raft算法处理视频中连续两帧图像,计算光流图,能反映视频中物体的运动。在编码部分,两条支流各自提取特征,通过对每层输出特征质量评估,筛选有指导意义的特征,并且通过基于注意力机制的模块进行特征增强并让两支流的时空特征相互指导;在解码部分,将编码中每层的输出特征再经过一次质量评估,通过双差分增强模块融合时空特征,以级联的形式传递深层次特征到浅层次特征,最终得到预测图。
[0057]
为减小模型参数量,在解码部分,分别对resnet的每层输出特征进行卷积操作,降通道数,具体地,前四层特征降至48维,第五层特征降至256维。同时,两个支流的主干网络共享参数,每层的质量评估模块共享参数。
[0058]
一、具体模块介绍:
[0059]
(1)多尺度感知模块:
[0060]
所谓多尺度,实际上就是对信号的不同粒度的采样,通常在不同的尺度下我们可以观察到不同的特征,从而完成不同的任务。通常来说粒度更小即更密集的采样可以看到更多的细节,粒度更大即更稀疏的采样可以看到整体的趋势。多尺度感知模块的设置是为了增强在编码阶段rgb支流最后输出的特征,在结构上,它由两个resnet101网络组成,其参数与rgb支流的resnet101主干网络共享。对于rgb支流的输入图像,首先进行下采样操作,分别缩小图像至1/2、1/4,将下采样后的图像分别输入两个resnet101中。经由五层卷积层,得到两个不同尺度的输出特征,将这两个特征与rgb支流的最后层输出特征以逐级上采样并拼接的方式进行特征融合,并且将融合后的特征与rgb支流最终得到的特征相融合,得到多尺度融合后的rgb特征,如公式1所示:
[0061][0062]
concat(.,.)为通道维度的拼接操作,为上采样两倍操作。为输入为1/4图像对应的特征,为输入为1/2图像对应的特征,e
in
为rgb支流对应的特征,e
out
为融合后的
输出特征。
[0063]
(2)质量评估模块:
[0064]
质量评估模块旨在对提取特征进行评价监督,去除噪声信息,如图3所示。它预测质量得分来表示特征的可靠性,并重新校准特征,质量评估模块由两个子网络组成,预测子网络和评估子网络。预测子网络由三个卷积层组成,用于预测显著图,该显著图受到正确标注的监督。评估子网络由三个卷积层、一个全局平均池化层和一个sigmoid激活函数组成,用于计算质量得分,该质量得分受到预测图和正确标注之间的平均绝对误差mae监督。将预测的显著图和输入特征进行拼接,作为评估子网络的输入特征。将质量得分与输入特征相乘,作为质量评估模块的输出特征,如公式2、3所示。质量得分越高的输入特征将会保留,得分越低的输入特征会被认为存在大量噪声而去除。
[0065][0066][0067]
为评估子网络的卷积操作,为预测子网络的卷积操作,si为质量得分,ei为输入特征,为经过质量评估后的特征。

为对应元素相乘操作,σ为sigmoid激活函数。
[0068]
(3)时空信息交互模块:
[0069]
时空信息交互模块用于保持不同特征之间的语义一致性。通过时空信息交互模块使时空信息相互指导、相互促进。先对运动支流特征作为输入特征进行通道维度上的注意力操作,如公式4所示,再进行空间维度上的注意力操作,如公式5所示,将增强后的特征与rgb支流的特征相加,得到时间信息指导下的空间信息,如公式6、7所示。同理,对rgb支流特征进行通道维度和空间维度上的注意力操作增强特征,并与运动支流特征相加,得到空间信息指导下的时间信息。
[0070][0071][0072][0073][0074]
为求通道注意力的函数,为空间维度上的最大池化操作,为全连接操作,σ为sigmoid激活函数,

为通道维度上的对应相乘。为求空间注意力的函数,为通道维度上的最大池化操作,为卷积操作,为空间维度上的对应相乘。为输入的运动特征,为注意力操作后增强的运动特征,为输出的rgb特征,为对应元素相加操作。
[0075]
(4)双差分增强模块:
[0076]
由rgb特征获得的颜色显著性和由光流特征获得的运动显著性是互补的,融合两者能得到信息丰富的显著图。然而,大多数互补信息隐藏在rgb和光流特征之间的差异中。为了充分利用它们的互补性,我们提出了一个双差分增强模块来挖掘rgb和光流特征之间的差分信息,如图4所示。对于分别经过质量评估后的rgb和光流特征,通过作差和卷积操作来提取差异信息,将差异信息作为补充来增强原始信息,如公式8所示。
[0077][0078]
为对差异特征的卷积操作,为增强后的(空间或时间)特征。
[0079]
二、实验细节:
[0080]
(1)损失函数:
[0081]
对于最终预测显著图,根据basnet中损失函数的定义计算最终预测显著图和正确标注之间的损失,如公式9所示。
[0082]
lf=l
bce
(pf,g) l
ssim
(pf,g) l
iou
(pf,g)(9)
[0083]
对于质量评估,以公式9相同的损失函数使正确标注去监督中间的显著图,计算中间的显著图和正确标注间的平均绝对误差mae,以公式10使mae去监督质量得分。
[0084][0085]
(2)数据集:
[0086]
我们将在实验中用到图像显著目标检测数据集(即duts)、视频显著目标检测数据集(即davis)于模型训练,用到视频显著目标检测数据集,davis、davsod数据集于测试模型性能。
[0087]
duts数据集包含为5019幅测试图像和10553幅训练图像,是目前最大的图像显著检测数据集。davis数据集包含50个高质量视频序列,总共包含3455帧。davsod是目前最大的vsod数据集,拥有226个视频和23938帧,涵盖不同的真实场景、对象、实例和动作。
[0088]
(3)评价指标:
[0089]
视频显著性目标检测的评估主要有三个指标,f-measure、s-measure、meanabsoluteerror(mae)。
[0090]
f-measure的定义如公式11所示,用以求查全率和查准率在非负权重β下的加权调和平均值。其中,由经验所得,β2一般取值为0.3。
[0091][0092]
s-measure的定义如公式12所示,用以评估预测显著图与其对应的正确标注图之间的结构相似性。其中,μ通常设置为0.5,so和sr分别表示区域感知结构相似性和对象感知结构相似性。
[0093][0094]
meanabsoluteerror(mae)的定义如公式所示13,其中,s(x,y)表示预测显著图的像素值,g(x,y)表示正确标注图的像素值,w和h表示图像的宽度和高度。
[0095]
[0096]
(4)实验步骤:
[0097]
我们在pytorch上实现了我们的方法。我们使用预先在imagenet上训练好的resnet-101作为我们的初始主干。我们使用raft来生成光流图像。首先,我们用duts数据集的训练集对我们的模型进行预训练,一轮预训练结束后,我们使用davis数据集的训练集对整个网络进行再一轮训练。我们通过对输入图像应用随机水平翻转和随机旋转的方式扩增训练数据量,防止过拟合。我们使用adam优化器,以1e-5的初始学习率训练模型直至收敛。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献