一种基于全双工策略的视频目标分割方法及系统与流程

2021-11-03 22:13:00 来源：中国专利 TAG：

1.本发明属于视频处理与计算机视觉技术领域，尤其涉及一种基于全双工策略的视频目标分割方法及系统。

背景技术：

2.本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。
3.视频目标分割(video object segmentation，vos)是视频内容理解与智能分析的一个基础领域，其任务目标是在像素级别上描述视频帧中移动的前景目标。该任务已经在自动驾驶、人机交互等诸多领域中广泛应用。视频目标分割任务中，帧内的表观信息与帧间的运动信息是种相当重要的两个信息源，早期的方法主要使用基于单工策略(即仅使用表观信息或者运动信息)的解决方案，但这类方法限制了帧内和帧间特征交互能力的最大能力。

技术实现要素：

4.为了解决上述背景技术中存在的技术问题，本发明提供一种基于全双工策略的视频目标分割方法及系统，其会全自动地分割出视频片段中所有的移动前景目标。
5.为了实现上述目的，本发明采用如下技术方案：
6.本发明的第一个方面提供一种基于全双工策略的视频目标分割方法。
7.一种基于全双工策略的视频目标分割方法，包括：
8.将待分割的视频通过光流生成器，得到光流图；
9.将表观图、与表观图匹配的光流图输入训练好的视频目标分割模型，得到分割预测图；
10.所述视频目标分割模型包括：依次连接的resnet50骨架网络、交叉注意力关系模块、全双工模式的双向提纯模块和解码器。
11.进一步的，所述分割预测图生成的过程包括：
12.将表观图、与表观图匹配的光流图输入两个独立的resnet50骨架网络分支之中，得到表观特征和运动特征；
13.将表观特征和运动特征输入交叉注意力关系模块，得到包含时空关联的融合特征；
14.将包含时空关联的融合特征集和运动特征集输入若干个叠加的全双工模式的双向提纯模块，得到包含时空关联的鉴别性特征和运动的鉴别性特征；
15.将包含时空关联的鉴别性特征和运动的鉴别性特征分别输入两个解码器中，得到相应的分割预测图。
16.进一步的，所述包含时空关联的融合特征获得的过程包括：
17.表观特征和运动特征分别经过全局池化得到表观注意力向量和运动注意力向量，
对表观注意力向量和运动注意力向量均进行卷积处理，得到表观全局特征描述子和运动全局特征描述子，将表观全局特征描述子和运动全局特征描述子依次均进行特征加权、逐像素相乘操作，得到的表观候选特征、运动候选特征与上一层包含时空关联的融合特征进行逐元素相加处理，得到包含时空关联的融合特征。
18.进一步的，所述包含时空关联的鉴别性特征和运动的鉴别性特征获得过程包括：
19.将包含时空关联的融合特征集和运动融合特征集均经过特征分配器进行统一化处理，然后将统一化处理后的包含时空关联的融合特征集和运动融合特征集均进行自顶向下的交错递减处理，然后将自顶向下交错递减处理后的运动融合特征集与包含时空关联的融合特征集进行逐像素相加和特征拼接，得到包含时空关联的鉴别性特征；将自顶向下交错递减处理后的包含时空关联的融合特征集与运动融合特征集进行逐像素相加和特征拼接，得到运动的鉴别性特征。
20.进一步的，所述将包含时空关联的鉴别性特征和运动的鉴别性特征分别输入两个解码器中包括：
21.将包含时空关联的鉴别性特征与包含时空关联的融合特征集进行上采样、特征拼接处理，得到的特征通过卷积层和sigmoid激活函数，得到对应的分割预测图；
22.将运动的鉴别性特征与运动融合特征集进行上采样、特征拼接处理，得到的特征通过卷积层和sigmoid激活函数，得到对应的分割预测图。
23.进一步的，所述包含时空关联的融合特征集包括：包含若干时空关联的融合特征，所述运动融合特征集包括：包含若干运动特征。
24.进一步的，所述视频目标分割模型训练的过程包括：
25.将训练视频样本输入视频目标分割模型，计算每次迭代过程中的预测结果误差，并反向传播到视频目标分割模型，基于预测结果误差计算梯度，并更新视频目标分割模型的参数，直到达到预设的迭代次数，得到训练好的视频目标分割模型。
26.本发明的第二个方面提供一种基于全双工策略的视频目标分割系统。
27.一种基于全双工策略的视频目标分割系统，包括：
28.预处理模块，其被配置为：将待分割的视频通过光流生成器，得到光流图；
29.分割模块，其被配置为：将表观图、与表观图匹配的光流图输入训练好的视频目标分割模型，得到分割预测图；
30.模型构建模块，其被配置为：所述视频目标分割模型包括：依次连接的resnet50骨架网络、交叉注意力关系模块、全双工模式的双向提纯模块和解码器。
31.本发明的第三个方面提供一种计算机可读存储介质。
32.一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一个方面所述的基于全双工策略的视频目标分割方法中的步骤。
33.本发明的第四个方面提供一种计算机设备。
34.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一个方面所述的基于全双工策略的视频目标分割方法中的步骤。
35.与现有技术相比，本发明的有益效果是：
36.本发明设计的交叉注意力关系模块(rcam)，用以实现在特征嵌入空间中的双向信
息传递，并进一步使用全双工模式的双向提纯模块来更新时空特征嵌入上的不一致性，从而有效地提升了模型的预测性能。得益于全双工策略工中的相互约束能力，该模型能够在特征编码和解码阶段中同时执行交叉形式的特征传递(传输与接收)，使其对各种颇具挑战性场景(如：动态模糊、遮挡等)具有更高的鲁棒性。
37.本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。
附图说明
38.构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。
39.图1是本发明全双工策略的视频目标分割方法的框架图；
40.图2(a)是本发明实施例中单工模式的交叉注意力关系模块的一种结构图；
41.图2(b)是本发明实施例中单工模式的交叉注意力关系模块的另一种结构图；
42.图2(c)是本发明实施例中全双工模式的交叉注意力关系模块的结构图；
43.图3(a)是本发明实施例中单工模式的双向提纯模块的一种结构图；
44.图3(b)是本发明实施例中单工模式的双向提纯模块的另一种结构图；
45.图3(c)是本发明实施例中全双工模式的双向提纯模块的结构图；
46.图4是本发明实施例中在测评基准中视频片段的定性效果图。
具体实施方式
47.下面结合附图与实施例对本发明作进一步说明。
48.应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
49.需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
50.需要注意的是，附图中的流程图和框图示出了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意，在有些作为备选的实现中，方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，或者它们有时也可以按照相反的顺序执行，这取决于所涉及的功能。同样应当注意的是，流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合，可以使用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以使用专用硬件与计算机指令的组合来实现。
51.实施例一
52.如图1所示，本实施例提供了一种基于全双工策略的视频目标分割方法，本实施例
以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器和系统，并通过终端和服务器的交互实现。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本技术在此不做限制。本实施例中，该方法包括以下步骤：
53.将待分割的视频通过光流生成器，得到光流图；
54.将表观图、与表观图匹配的光流图输入训练好的视频目标分割模型，得到分割预测图；
55.所述视频目标分割模型包括：依次连接的resnet50骨架网络、交叉注意力关系模块、全双工模式的双向提纯模块和解码器。
56.具体的，如图1所示，假设给定一个含有t个连续帧的视频片段首先运用光流生成器(即flownet 2.0模型)来生成t
‑
1个光流图这个过程是通过两个相邻帧计算得到的(即：)。为了保证输入数量上的匹配，本方案在整体流程中舍弃了最后一个光流帧。因此，所提出的流程以表观图像和相匹配的光流图作为输入，其中t代表当前帧的时间戳。首先，m
t
和a
t
成对的输入到两个独立的resnet50骨架网络分支之中，并从第k层获得表观特征与运动特征传入交叉注意力关系模块(rcam)中，让整个网络能够嵌入时空域的跨模态特征。接着使用n个叠加的双向提纯模块(bpm)对融合特征集和运动特征集进行提纯以获取鉴别性特征，其中n代表bpm的阶段数，最大阶段数为n。最后，两个解码器用于生成最终的预测图(即：和)。
57.1.1双流网络
58.本实施例中，使用去除了全连接层的resnet50骨架网络作为双流特征编码器，其网络结构如表1所示。每个卷积层之后都接有relu层和批归一化层。每个卷积块结构如表1所示。特征编码器仅在高四层(即：卷积块2、卷积块3、卷积块4和卷积块5)处使用具有侧向输出的数据流，被用于后续的特征解码器和时空交互与优化。需要说明的是，表1给出的编码器的结构仅是本实施例实施的一种情况，其他能够实现本实施例的不同网络骨架的编码器也属于本发明的保护范围。
59.表1.resnet50骨架网络的结构参数表(假设输入图片的大小为352x352)
[0060][0061][0062]
1.2交叉注意力关系模块
[0063]
本实施例提出全双工模式的交叉注意力关系模块的设计方案(详见图2(c))，其包含两个单工模式策略(详见图3(a)和3(b))。rcam模块的两个输入是从标准的resnet50骨架网络中获得的测输出，即：和具体而言，针对第k层的侧输出表观特征和运动特征进行全局平均池化来产生基于通道维度的注意力向量和接着，使用具有两个可学习参数w
φ
和w
θ
的1
×
1卷积(即：φ(x；w
φ
)和θ(x；w
θ
))生成两个具有辨别性的全局特征描述子。sigmoid激活函数接着用于将描述子转换至[0,1]区间，其包含了有效的注意力向量值用于通道维度上的特征加权。接着将与做
逐像素相乘操作，用以生成候选特征同理类似的方式可求得如下式所述：
[0064][0065][0066]
然后，结合和低一层融合特征的融合特征提取。在resnet50骨架网络的第k层块中应用了逐元素相加获得了包含时空关联的融合特征
[0067][0068]
其中，k∈{1：k}表示在主干内不同阶层的特征。表示全零的特征矩阵，用于初始化。在默认模型实现中取k＝4。需要说明的是本实施例中，交叉注意力关系模块的个数不作相应的限定，上述技术方案仅是本实施例的一种实施方案。
[0069]
1.3双向提纯模块
[0070]
双向提纯阶段是由n个双向提纯模块(bpm)叠加而组成，如图1所示，本方案首先使用特征分配器来统一化来自先前阶段的特征：
[0071][0072]
其中，k∈{1：k}和n∈{1：n}分别表示不同层级的特征和bpm的数量。具体而言，特征分配器由两个具有32个卷积核的3
×
3卷积所实现。特征分配器有助于减少后续推理的计算资源负担，同时对齐不同层级特征的后续操作。
[0073]
本实施例提出在bpm模块中使用全双工模式的方案(详见图3(c))，其包含两个单工模式策略(详见图3(a)和图3(b))。一方面，运动特征包含时域运动信息并且可以通过拼接操作传递入融合特征另一方面，通过与融合特征相乘可以抑制运动特征中的扰乱信息。为了获取鲁棒的特征表达，本实施例进一步使用了一种有效的跨模态特征融合策略，其通过自顶向下的交错递减连接(idc)，将低层次且弱语义特征传播到高层次且富语义特征之中。具体而言，在第一阶段的时空特征融合过程(详见图3
‑
b)被定义为：
[0074][0075]
其中，符号是接有1
×
1卷积的上采样操作，用于重新缩放候选引导特征成为与特征相一致的分辨率大小。符号和∪分别表示在idc策略下执行逐元素相加和特征拼接操作，后接有一个带有32个卷积核的1
×
1卷积。例如：在k＝2和k＝4的设定下有：
[0076][0077]
此外，时序特征重新校准过程(参见图3
‑
a)的公式定义如下：
[0078][0079]
其中∩用于表示在idc策略下逐元素相乘，后接着一个带有32个1
×
1大小的卷积核。
[0080]
1.4解码器
[0081]
经过特征融合和多层交互的重新校准后，最后一个bpm模块输出两组具有32个固定通道数的鉴别性特征(即当n＝n时获得到的特征和)。本实施例在经典的unet结构的各个跳层连接中加入了金字塔池化模块(ppm)，并且在模型实现中只采用其高四层(k＝4)。由于特征从高层次往低层次融合，全局信息同时在解码器的不同尺度中仍被保留：
[0082][0083][0084]
其中，代表金字塔池化层与上采样操作，n的取值是从1取到n，
⊙
表示特征拼接操作。接着，通道数由64经过一个卷积层减少至32。最后，在上游输出(特征和特征)后采用具有单个1
×
1核的卷积层和sigmoid激活函数来生成时间戳为t帧下所对应的分割预测图(即：和)。
[0085]
1.5深度神经网络训练：
[0086]
1.5.1参数初始化
[0087]
对于卷积块1至卷积块5，采用在imagenet数据集上的resnet50的预训练参数进行参数初始化。新添加的层结构统一采用方差为0.01，均值为0的高斯分布进行训练参数的初始化。训练图片和测试图片均放缩到352
×
352大小。
[0088]
1.5.2训练优化器
[0089]
本实施例采用adam(adaptive moment estimation)的梯度下降法求解神经网络模型的卷积模板参数w和偏置参数b，在每次迭代过程中，计算预测结果误差并反向传播到卷积神经网络模型，计算梯度并更新卷积神经网络模型的参数。
[0090]
1.6实现逻辑与处理流程：
[0091]
前端a接受到数据(用户输入的图片组)，然后上传给后台，后台使用本实施例将所给视频片段中所有运动的前景目标分割出来，然后将分割结果输出到前台b。
[0092]
2.1定量结果
[0093]
表2展示了与当前前沿的视频目标分割(vos)模型在davis16数据集验证集上的定量对比结果，其中包括14个无监督设定(unsupervised)模型和7个半监督设定(semi
‑
supervised)下的模型。flow代表是否使用了光流算法，crf代表是否使用了条件随机场算法作为图像后处理。
[0094]
表3展示了与当前13个前沿的视频显著性目标检测(vsod)模型在四个基准测评(包括：davis16、mcl、fbms和davsod19)上的定量对比结果。
[0095]
表2.与前沿视频目标分割(vos)模型的定量对比
[0096][0097]
表3.与前沿的视频显著性目标检测(vsod)模型的定量对比
[0098][0099]
如图4所示，在四个通用的评价基准(包括：davis16、mcl、fbms以及davsod19)上的实验数据表明，本实施例在视频目标分割和视频显著目标检测任务中超越当前最先进的方法。
[0100]
实施例二
[0101]
本实施例提供了一种基于全双工策略的视频目标分割系统。
[0102]
一种基于全双工策略的视频目标分割系统，包括：
[0103]
预处理模块，其被配置为：将待分割的视频通过光流生成器，得到光流图；
[0104]
分割模块，其被配置为：将表观图、与表观图匹配的光流图输入训练好的视频目标分割模型，得到分割预测图；
[0105]
模型构建模块，其被配置为：所述视频目标分割模型包括：依次连接的resnet50骨架网络、交叉注意力关系模块、全双工模式的双向提纯模块和解码器。
[0106]
上述模块与实施例一所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
[0107]
实施例三
[0108]
本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的基于全双工策略的视频目标分割方法中的步骤。
[0109]
实施例四
[0110]
本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的基于全双工策略的视频目标分割方法中的步骤。
[0111]
本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
[0112]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实
现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0113]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0114]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0115]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(read
‑
only memory，rom)或随机存储记忆体(random accessmemory，ram)等。
[0116]
以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：通信客户分类管理方法、系统、电子设备及存储介质与流程

一种基于全双工策略的视频目标分割方法及系统与流程

相关文献

最热文献