一种基于动量更新的视频目标分割方法和系统与流程

2022-11-23 18:17:55 来源：中国专利 TAG：

1.本发明涉及视频目标分割领域，具体地说是一种基于动量更新的视频目标分割方法和系统。

背景技术：

2.视频目标分割是指在视频的第一帧中得到要追踪的目标，然后能够在视频的后续帧中完成对这些目标对象的跟踪与分割。如今，随着自媒体技术的迅速崛起，视频俨然已经成为人类社会中最普遍的信息交互媒介。因此，人们对视频目标分割的需求也变得越来越大，而且对视频目标分割的精度也产生了更高的要求。视频目标分割现已大规模应用于人机交互、自动驾驶、智慧工业、智能安保跟踪、智能监控和视频语义理解等领域，而且视频目标分割的应用场景正在持续增加。然而现阶段视频目标分割的精度和效率并不是很高，尚未达到人们的生产生活要求，因此，发明一种视频目标分割系统对于提高视频目标分割的精度和效率具有极为重要的意义。
3.现有的专利和发表的论文中，深度学习已经成为完成视频目标分割任务的主流方法。由于全监督的视频目标分割方法需要大量的标注，这会引起严重的人力和物力消耗，所以现在大家主要用无监督方法完成对视频的目标分割，无监督方法不需要人工标注，可以节省标注数据集所需要的人力物力，而且得到具有较强的学习能力的模型。自监督视频目标分割主要利用目标帧图像颜色的恒常性原理，首先计算参考帧与目标帧像素之间的相似度，得到参考帧与目标帧的相似度矩阵，然后将参考帧的原始图像与相似度矩阵相乘，得到对目标帧图像所有像素点的预测，最后使用目标帧的原始图像与得到的预测图像计算损失函数，完成对模型的迭代更新。
4.随着视频的进行，目标对象有时会突然消失而有时会突然再现，统称此类现象为目标的消失与再现，目标对象的消失与再现问题会对视频目标分割效果产生较大的影响。在现有的自监督视频目标分割方法中往往采用多个参考帧同时重构一个目标帧，这样可以有效缓解视频中目标的消失与再现问题。但是采用多个参考帧会占用较多的显存空间，造成巨大的资源浪费。而且即使采用多个参考帧来重构一个目标帧，消失的目标也不一定恰好存在于使用的多个参考帧中，这样就导致得到的模型效果较差。
5.在已有的专利和发表的论文中，基于动量更新的自监督算法使用目标帧之前的所有帧来完成对目标帧的分割。并且在训练过程中目标帧编码器采用标准的反向传播算法来更新模型的参数，参考帧编码器使用动量更新方法来更新模型的参数。基于动量更新的视频目标分割算法具有以下优点：(1)能够较好地解决目标消失与再现问题。(2)模型参数量增加的并不多，但是效果提升较多(3)能够减少模型训练过程中使用的显存空间，有效节省计算资源。基于以上优点，基于动量更新的自监督算法已成为一种主流的方法。近年来，大家都是采用多个参考帧同时重构一个目标帧来完成自监督视频目标分割任务，这样可以有效缓解视频中目标的消失与再现问题。但是采用多个参考帧会占用较多的显存空间，造成巨大的资源浪费。而且即使采用多个参考帧来重构一个目标帧，消失的目标也不一定恰好
存在于使用的多个参考帧中，这样就导致得到的模型效果较差。因此，如何在既解决目标消失与再现问题又不增加模型占用存储空间的前提下完成视频目标的分割，提高视频目标分割的效果，是目前本领域技术人员需要解决的技术问题。

技术实现要素：

6.本发明为克服上述现有技术的不足，提供了一种基于动量更新的视频目标分割方法和系统。该发明提出使用目标帧之前的所有帧来完成对目标帧的分割。并且在训练过程中目标帧编码器采用标准的反向传播算法来更新模型的参数，参考帧编码器使用动量更新方法来更新模型的参数，这样不仅可以解决目标消失与再现问题，而且又不增加训练模型占用的存储空间，能够较好的分割出视频中的目标对象，提高了视频目标分割的效果。
7.为实现上述目的，本发明采用如下技术方案：
8.一种基于动量更新的视频目标分割方法，包括以下步骤：
9.步骤1：构造视频目标分割的数据集，对视频进行抽帧预处理，对图像通道进行随机舍弃；
10.步骤2：将目标帧图像放入目标帧编码器中，得到其对应的输出特征嵌入；
11.步骤3：将目标帧之前的所有图像分别放入参考帧编码器中，分别得到它们对应的特征嵌入；
12.步骤4：计算目标帧特征嵌入与参考帧特征嵌入不同像素点之间的相似度，构成相似度矩阵；
13.步骤5：使用相似度矩阵与参考帧的真实图像进行相乘相加操作，完成对目标帧图像的重构；
14.步骤6：使用目标帧真实图像与得到的重构图像计算损失函数；
15.步骤7：使用反向传播算法对目标帧编码器进行参数更新；
16.步骤8：使用动量更新方法对参考帧编码器进行参数更新。
17.所述步骤1中数据集的构造方法为：
18.视频每五帧抽出一帧，如果帧间隔过小的话会导致目标变化较小，而且会造成不必要的计算。将取出的帧从rgb空间转换到lab空间，将转换后的图像随机舍弃其中的一个通道，舍弃的一个通道图像是灰度图，我们使用舍弃的这个灰度图当作每一帧的真实图像。原先的lab空间3通道图像放到编码器中进行特征提取并计算相似度矩阵。舍弃的灰度图像当作图像的真实图像用于与关系矩阵相乘，重构当前帧。
19.所述步骤2中目标帧特征嵌入的获取方法为：
20.q＝φ(iq，θq)
21.其中：
22.iq代表目标帧的三通道lab图像；
23.φ代表将目标帧图像放入目标帧编码器中进行计算，使用的目标帧编码器是resnet18舍弃最后全连接层之后的网络；
24.θq代表目标帧编码器的模型参数；
25.q代表得到的目标帧图像的特征嵌入。
26.所述步骤3中参考帧特征嵌入的获取方法为：
27.r＝φ(ir，θr)
28.其中：
29.ir代表参考帧的三通道lab图像；
30.φ代表将参考帧图像放入参考帧编码器中进行计算，使用的参考帧编码器是resnet18舍弃最后全连接层之后的网络；
31.θr代表参考帧编码器的模型参数；
32.r代表得到的参考帧图像的特征嵌入。
33.所述步骤4中相似度矩阵的计算方法为：
[0034][0035]
其中：
[0036]
qi代表目标帧图像的特征嵌入中第i个像素点的特征向量；
[0037]
代表第k个参考帧图像的特征嵌入中第j个邻居像素点的特征向量；
[0038]
p代表目标帧图像的特征嵌入中第i个像素点在参考帧图像的特征嵌入中的所有邻居像素点；
[0039]
n代表所有的参考帧图像，即目标帧之前的所有图像；
[0040]ak
代表目标帧图像与第k个参考帧图像不同像素点之间的相似度矩阵；
[0041]
代表目标帧图像中第i个像素点与第k个参考帧图像中第j个邻居像素点之间的相似度。
[0042]
所述步骤5中目标帧的重构方法为：
[0043][0044]
其中：
[0045]
代表目标帧图像中第i个像素点与第k个参考帧图像中第j个邻居像素点之间的相似度；
[0046]vk
代表第k个参考帧的真实图像，即舍弃的灰度图像；
[0047]
代表第k个参考帧的真实图像中第j个邻居像素点的颜色值；
[0048]
p代表目标帧图像的特征嵌入中第i个像素点在参考帧图像的特征嵌入中的所有邻居像素点；
[0049]
n代表所有的参考帧图像，即目标帧之前的所有图像；
[0050]
代表目标帧的重构图像；
[0051]
代表目标帧的重构图像中第i个像素点的预测值。
[0052]
所述步骤6中损失的计算方法为：
[0053][0054]
其中：
[0055][0056]
其中：
[0057]
i代表目标帧图像中的第i个像素点；
[0058]
num代表目标帧图像中像素点的总数；
[0059]
代表目标帧的重构图像中第i个像素点的预测值；
[0060]ii
代表目标帧的真实图像中第i个像素点的颜色值。
[0061]
所述步骤7中目标帧编码器参数的更新方法为：
[0062][0063]
其中：
[0064]
代表更新后的目标帧编码器参数；
[0065]
arg min代表用反向传播算法求每一个参数的梯度来更新参数。
[0066]
所述步骤8中参考帧编码器参数的更新方法为：
[0067][0068]
其中：
[0069]
代表更新后的目标帧编码器参数；
[0070]
θr代表更新前的参考帧编码器参数；
[0071]
代表更新后的参考帧编码器参数；
[0072]
m代表动量系数，此专利中取m为0.999。
[0073]
根据本发明的第二方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，用于视频目标分割，该程序被处理器执行时执行以下步骤：
[0074]
获取目标帧图像与参考帧图像，参考帧图像就是目标帧之前的所有图像；
[0075]
将目标帧图像放入目标帧编码器中，得到其对应的输出特征嵌入；
[0076]
将目标帧之前的所有图像分别放入参考帧编码器中，分别得到它们对应的特征嵌入；
[0077]
计算目标帧特征嵌入与参考帧特征嵌入不同像素点之间的相似度，构成相似度矩阵；
[0078]
使用相似度矩阵与参考帧的真实图像进行相乘相加操作，重构当前帧，完成对视频目标的分割。
[0079]
根据本发明的第三方面，本发明提供了一种基于动量更新的视频目标分割系统，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行以下处理：
[0080]
获取目标帧图像与参考帧图像，参考帧图像就是目标帧之前的所有图像；
[0081]
将目标帧图像放入目标帧编码器中，得到其对应的输出特征嵌入；
[0082]
将目标帧之前的所有图像分别放入参考帧编码器中，分别得到它们对应的特征嵌
入；
[0083]
计算目标帧特征嵌入与参考帧特征嵌入不同像素点之间的相似度，构成相似度矩阵；
[0084]
使用相似度矩阵与参考帧的真实图像进行相乘相加操作，重构当前帧，完成对视频目标的分割。
[0085]
本发明的有益效果：
[0086]
本发明提供了一种基于动量更新的视频目标分割方法。具体来说，该发明定义了一个存储器，使用存储器来存储目标帧之前所有帧的图像特征嵌入，使用目标帧与存储器中存储的之前所有帧的信息来完成训练与预测过程。在训练过程中，使用目标帧图像与存储器中存储的之前所有帧的图像特征嵌入计算相似度矩阵，使用相似度矩阵与之前所有帧的真实颜色图像进行相乘相加操作，重构目标帧。完成目标帧重构之后，将目标帧的图像特征嵌入存储到存储器中。在后续训练过程中，每个视频都循环执行上述操作。在预测过程中，使用目标帧图像与存储器中存储的之前所有帧的图像特征嵌入计算相似度矩阵，使用相似度矩阵与之前所有帧的掩码图像进行相乘相加操作，完成对目标帧的分割。在完成目标帧的分割后，将目标帧的特征嵌入与预测掩码图像存储到存储器中。在后续的测试过程中，每个视频都循环执行上述操作。使用存储器存储之前所有帧的信息，可以保证目标信息足够多，所能表示的视觉信息、视觉特征就足够丰富，当拿一个目标帧图像与存储器中的图像特征嵌入做对比时，能真正学到那些把物体区分开的特征，那些更本质的目标特征。可以避免只使用目标帧之前部分帧时候出现的目标分割效果较差的问题，可以有效解决目标处理过程中常出现的物体遮挡、超出视线和目标消失与再现问题。
[0087]
同时，本发明采用一种动量更新的方法来更新模型参数。具体来说，在训练过程中目标帧编码器采用标准的反向传播算法来更新模型的参数，初始的参考帧编码器与目标帧编码器参数相同，在后续的每个迭代中参考帧编码器只进行很小程度的更新，每次保留99.9％的原来部分，每次只使用0.1％目标帧编码器进行更新参考帧编码器更新。每次只进行较小程度的更新可以保证参考帧编码器与目标帧编码器尽可能相似，只有保证参考帧编码器与目标帧编码器尽可能相似，才能保证目标帧图像与存储器中之前所有帧信息求得的相似度矩阵有意义。同时，参考帧编码器没有使用反向更新的方式进行更新，只使用简单相加的操作，可以减少模型进行参数更新时所占用的存储空间。
附图说明
[0088]
构成本技术的一部分的说明书附图用来提供对本技术的进一步理解，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。
[0089]
图1为本发明基于动量更新的视频目标分割方法流程图。
具体实施方式
[0090]
下面结合附图与实施例对本发明作进一步说明。
[0091]
应该指出，以下详细说明都是例示性的，旨在对本技术提供进一步的说明。除非另有指明，本发明使用的所有技术和科学术语具有与本技术所属技术领域的普通技术人员通常理解的相同含义。
[0092]
需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本技术的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0093]
在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互组合。
[0094]
实施例一
[0095]
本实施例提供了一种基于动量更新的视频目标分割方法，包括以下步骤：
[0096]
步骤1：构造视频目标分割的数据集，对视频进行抽帧预处理，对图像通道进行随机舍弃；
[0097]
步骤2：将目标帧图像放入目标帧编码器中，得到其对应的输出特征嵌入；
[0098]
步骤3：将目标帧之前的所有图像分别放入参考帧编码器中，分别得到它们对应的特征嵌入；
[0099]
步骤4：计算目标帧特征嵌入与参考帧特征嵌入不同像素点之间的相似度，构成相似度矩阵；
[0100]
步骤5：使用相似度矩阵与参考帧的真实图像进行相乘相加操作，完成对目标帧图像的重构；
[0101]
步骤6：使用目标帧真实图像与得到的重构图像计算损失函数；
[0102]
步骤7：使用反向传播算法对目标帧编码器进行参数更新；
[0103]
步骤8：使用动量更新方法对参考帧编码器进行参数更新。
[0104]
各步骤中涉及的内容具体如下：
[0105]
所述步骤1中数据集的构造方法为：
[0106]
视频每五帧抽出一帧，如果帧间隔过小的话会导致目标变化较小，而且会造成不必要的计算。将取出的帧从rgb空间转换到lab空间，将转换后的图像随机舍弃其中的一个通道，舍弃的一个通道图像是灰度图，我们使用舍弃的这个灰度图当作每一帧的真实图像。原先的lab空间3通道图像放到编码器中进行特征提取并计算相似度矩阵。舍弃的灰度图像当作图像的真实图像用于与关系矩阵相乘，重构当前帧。
[0107]
所述步骤2中目标帧特征嵌入的获取方法为：
[0108]
q＝φ(iq，θq)
[0109]
其中：
[0110]iq
代表目标帧的三通道lab图像；
[0111]
φ代表将目标帧图像放入目标帧编码器中进行计算，使用的目标帧编码器是resnet18舍弃最后全连接层之后的网络；
[0112]
θq代表目标帧编码器的模型参数；
[0113]
q代表得到的目标帧图像的特征嵌入。
[0114]
所述步骤3中参考帧特征嵌入的获取方法为：
[0115]
r＝φ(ir，θr)
[0116]
其中：
[0117]
ir代表参考帧的三通道lab图像；
[0118]
φ代表将参考帧图像放入参考帧编码器中进行计算，使用的参考帧编码器是
resnet18舍弃最后全连接层之后的网络；
[0119]
θr代表参考帧编码器的模型参数；
[0120]
r代表得到的参考帧图像的特征嵌入。
[0121]
所述步骤4中相似度矩阵的计算方法为：
[0122][0123]
其中：
[0124]
qi代表目标帧图像的特征嵌入中第i个像素点的特征向量；
[0125]
代表第k个参考帧图像的特征嵌入中第j个邻居像素点的特征向量；
[0126]
p代表目标帧图像的特征嵌入中第i个像素点在参考帧图像的特征嵌入中的所有邻居像素点；
[0127]
n代表所有的参考帧图像，即目标帧之前的所有图像；
[0128]ak
代表目标帧图像与第k个参考帧图像不同像素点之间的相似度矩阵；
[0129]
代表目标帧图像中第i个像素点与第k个参考帧图像中第j个邻居像素点之间的相似度。
[0130]
所述步骤5中目标帧的重构方法为：
[0131][0132]
其中：
[0133]
代表目标帧图像中第i个像素点与第k个参考帧图像中第j个邻居像素点之间的相似度；
[0134]vk
代表第k个参考帧的真实图像，即舍弃的灰度图像；
[0135]
代表第k个参考帧的真实图像中第j个邻居像素点的颜色值；
[0136]
p代表目标帧图像的特征嵌入中第i个像素点在参考帧图像的特征嵌入中的所有邻居像素点；
[0137]
n代表所有的参考帧图像，即目标帧之前的所有图像；
[0138]
代表目标帧的重构图像；
[0139]
代表目标帧的重构图像中第i个像素点的预测值。
[0140]
所述步骤6中损失的计算方法为：
[0141][0142]
其中：
[0143][0144]
其中：
[0145]
i代表目标帧图像中的第i个像素点；
[0146]
num代表目标帧图像中像素点的总数；
[0147]
代表目标帧的重构图像中第i个像素点的预测值；
[0148]ii
代表目标帧的真实图像中第i个像素点的颜色值。
[0149]
所述步骤7中目标帧编码器参数的更新方法为：
[0150][0151]
其中：
[0152]
代表更新后的目标帧编码器参数；
[0153]
arg min代表用反向传播算法求每一个参数的梯度来更新参数。
[0154]
所述步骤8中参考帧编码器参数的更新方法为：
[0155][0156]
其中：
[0157]
代表更新后的目标帧编码器参数；
[0158]
θr代表更新前的参考帧编码器参数；
[0159]
代表更新后的参考帧编码器参数；
[0160]
m代表动量系数，此专利中取m为0.999。
[0161]
实施例二
[0162]
本实施例的目的是提供一种计算机可读存储介质。
[0163]
为了实现上述目的，本发明采用如下一种技术方案：
[0164]
一种计算机可读存储介质，其上存储有计算机程序，用于视频目标分割，该程序被处理器执行时执行以下步骤：
[0165]
获取目标帧图像与参考帧图像，参考帧图像就是目标帧之前的所有图像；
[0166]
将目标帧图像放入目标帧编码器中，得到其对应的输出特征嵌入；
[0167]
将目标帧之前的所有图像分别放入参考帧编码器中，分别得到它们对应的特征嵌入；
[0168]
计算目标帧特征嵌入与参考帧特征嵌入不同像素点之间的相似度，构成相似度矩阵；
[0169]
使用相似度矩阵与参考帧的真实图像进行相乘相加操作，重构当前帧，完成对视频目标的分割。
[0170]
实施例三
[0171]
本实施例的目的是提供一种基于动量更新的视频目标分割系统。
[0172]
为了实现上述目的，本发明采用如下一种技术方案：
[0173]
一种基于基于动量更新的视频目标分割系统，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行以下处理：
[0174]
获取目标帧图像与参考帧图像，参考帧图像就是目标帧之前的所有图像；
[0175]
将目标帧图像放入目标帧编码器中，得到其对应的输出特征嵌入；
[0176]
将目标帧之前的所有图像分别放入参考帧编码器中，分别得到它们对应的特征嵌入；
[0177]
计算目标帧特征嵌入与参考帧特征嵌入不同像素点之间的相似度，构成相似度矩阵；
[0178]
使用相似度矩阵与参考帧的真实图像进行相乘相加操作，重构当前帧，完成对视频目标的分割。
[0179]
以上实施例二和实施例三中，各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。
[0180]
本发明提出了一种基于动量更新的视频目标分割方法。该发明提出使用目标帧之前的所有帧来完成对目标帧的分割。并且在训练过程中目标帧编码器采用标准的反向传播算法来更新模型的参数，参考帧编码器使用动量更新方法来更新模型的参数，这样不仅可以解决目标消失与再现问题，而且又不增加训练模型占用的存储空间，能够较好的分割出视频中的目标对象，提高了视频目标分割的效果。
[0181]
本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
[0182]
上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种用于自动驾驶的应用场景建模方法及建模系统与流程

一种基于动量更新的视频目标分割方法和系统与流程

相关文献

最热文献