一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于动量更新的视频目标分割方法和系统与流程

2022-11-23 18:17:55 来源:中国专利 TAG:

技术特征:
1.一种基于动量更新的视频目标分割方法,其特征在于,包括以下步骤:步骤1:构造视频目标分割的数据集,对视频进行抽帧预处理,对图像通道进行随机舍弃;步骤2:将目标帧图像放入目标帧编码器中,得到其对应的输出特征嵌入;步骤3:将目标帧之前的所有图像分别放入参考帧编码器中,分别得到它们对应的特征嵌入;步骤4:计算目标帧特征嵌入与参考帧特征嵌入不同像素点之间的相似度,构成相似度矩阵;步骤5:使用相似度矩阵与参考帧的真实图像进行相乘相加操作,完成对目标帧图像的重构;步骤6:使用目标帧真实图像与得到的重构图像计算损失函数;步骤7:使用反向传播算法对目标帧编码器进行参数更新;步骤8:使用动量更新方法对参考帧编码器进行参数更新。2.如权利要求1所述的一种基于动量更新的视频目标分割方法,其特征在于,所述步骤1中数据集的构造方法为:视频每五帧抽出一帧,如果帧间隔过小的话会导致目标变化较小,而且会造成不必要的计算,将取出的帧从rgb空间转换到lab空间,将转换后的图像随机舍弃其中的一个通道,舍弃的一个通道图像是灰度图,我们使用舍弃的这个灰度图当作每一帧的真实图像,原先的lab空间3通道图像放到编码器中进行特征提取并计算相似度矩阵,舍弃的灰度图像当作图像的真实图像用于与关系矩阵相乘,重构当前帧。3.如权利要求2所述的一种基于动量更新的视频目标分割方法,其特征在于,所述步骤2中目标帧特征嵌入的获取方法为:q=φ(i
q
,θ
q
)其中:i
q
代表目标帧的三通道lab图像;φ代表将目标帧图像放入目标帧编码器中进行计算,使用的目标帧编码器是resnet18舍弃最后全连接层之后的网络;θ
q
代表目标帧编码器的模型参数;q代表得到的目标帧图像的特征嵌入。4.如权利要求3所述的一种基于动量更新的视频目标分割方法,其特征在于,所述步骤3中参考帧特征嵌入的获取方法为:r=φ(i
r
,θ
r
)其中:i
r
代表参考帧的三通道lab图像;φ代表将参考帧图像放入参考帧编码器中进行计算,使用的参考帧编码器是resnet18舍弃最后全连接层之后的网络;θ
r
代表参考帧编码器的模型参数;r代表得到的参考帧图像的特征嵌入。5.如权利要求4所述的一种基于动量更新的视频目标分割方法,其特征在于,所述步骤4中相似度矩阵的计算方法为:
其中:q
i
代表目标帧图像的特征嵌入中第i个像素点的特征向量;代表第k个参考帧图像的特征嵌入中第j个邻居像素点的特征向量;p代表目标帧图像的特征嵌入中第i个像素点在参考帧图像的特征嵌入中的所有邻居像素点;n代表所有的参考帧图像,即目标帧之前的所有图像;a
k
代表目标帧图像与第k个参考帧图像不同像素点之间的相似度矩阵;代表目标帧图像中第i个像素点与第k个参考帧图像中第j个邻居像素点之间的相似度。6.如权利要求5所述的一种基于动量更新的视频目标分割方法,其特征在于,所述步骤5中目标帧的重构方法为:其中:代表目标帧图像中第i个像素点与第k个参考帧图像中第j个邻居像素点之间的相似度;v
k
代表第k个参考帧的真实图像,即舍弃的灰度图像;代表第k个参考帧的真实图像中第j个邻居像素点的颜色值;p代表目标帧图像的特征嵌入中第i个像素点在参考帧图像的特征嵌入中的所有邻居像素点;n代表所有的参考帧图像,即目标帧之前的所有图像;代表目标帧的重构图像;代表目标帧的重构图像中第i个像素点的预测值。7.如权利要求6所述的一种基于动量更新的视频目标分割方法,其特征在于,所述步骤6中损失的计算方法为:其中:其中:i代表目标帧图像中的第i个像素点;num代表目标帧图像中像素点的总数;
代表目标帧的重构图像中第i个像素点的预测值;i
i
代表目标帧的真实图像中第i个像素点的颜色值。8.如权利要求7所述的一种基于动量更新的视频目标分割方法,其特征在于,所述步骤7中目标帧编码器参数的更新方法为:其中:代表更新后的目标帧编码器参数;argmin代表用反向传播算法求每一个参数的梯度来更新参数。9.如权利要求8所述的一种基于动量更新的视频目标分割方法,其特征在于,所述步骤8中参考帧编码器参数的更新方法为:其中:代表更新后的目标帧编码器参数;θ
r
代表更新前的参考帧编码器参数;代表更新后的参考帧编码器参数;m代表动量系数,此专利中取m为0.999。10.一种计算机可读存储介质,其上存储有计算机程序,用于视频目标分割,其特征在于,该程序被处理器执行时执行以下步骤:获取目标帧图像与参考帧图像,参考帧图像就是目标帧之前的所有图像;将目标帧图像放入目标帧编码器中,得到其对应的输出特征嵌入;将目标帧之前的所有图像分别放入参考帧编码器中,分别得到它们对应的特征嵌入;计算目标帧特征嵌入与参考帧特征嵌入不同像素点之间的相似度,构成相似度矩阵;使用相似度矩阵与参考帧的真实图像进行相乘相加操作,重构当前帧,完成对视频目标的分割。11.一种基于动量更新的视频目标分割系统,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,其特征在于,所述指令适于由处理器加载并执行以下处理:获取目标帧图像与参考帧图像,参考帧图像就是目标帧之前的所有图像;将目标帧图像放入目标帧编码器中,得到其对应的输出特征嵌入;将目标帧之前的所有图像分别放入参考帧编码器中,分别得到它们对应的特征嵌入;计算目标帧特征嵌入与参考帧特征嵌入不同像素点之间的相似度,构成相似度矩阵;使用相似度矩阵与参考帧的真实图像进行相乘相加操作,重构当前帧,完成对视频目标的分割。

技术总结
本发明公开了一种基于动量更新的视频目标分割方法和系统,所述方法包括:获取目标帧图像与参考帧图像,参考帧图像为目标帧之前的所有图像,将目标帧图像放入目标帧编码器,得到相应的输出特征嵌入,同理得到参考帧图像相应的特征嵌入,计算目标帧与参考帧特征嵌入不同像素点间的相似度,构成相似度矩阵,再将其与参考帧的真实图像进行相乘相加操作,重构当前帧,完成对视频目标的分割。该发明提出使用目标帧之前的所有帧来完成对目标帧的分割。且在训练过程中目标帧编码器采用标准的反向传播算法、参考帧编码器使用动量更新方法更新模型的参数,这样既可解决目标消失与再现问题,又不增加训练模型占用的存储空间,从而提高视频目标分割的效果。频目标分割的效果。频目标分割的效果。


技术研发人员:张善源 卢宪凯 黄泽锋 李姝颖 魏惠贤
受保护的技术使用者:山东千面科技有限公司
技术研发日:2022.07.19
技术公布日:2022/11/22
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献