视频帧的处理方法、装置、设备以及计算机可读介质与流程

2023-01-15 05:39:36 来源：中国专利 TAG：

1.本发明涉及图像处理技术领域，尤其涉及一种视频帧的处理方法、装置、设备以及计算机可读介质。

背景技术：

2.视频分割算法是用于求取视频中目标的分割掩膜的算法，可以应用于视频编辑、特效制作以及短视频创作等领域。现有的视频分割算法求取掩膜的过程为：将视频的已知帧掩膜和视频中的每一个视频帧输入到视频分割模型中，由视频分割模型计算出视频中除已知帧之外的每一个视频帧的分割掩膜。其中，视频帧的分割掩膜用于区分显示视频帧中的目标和背景区域。
3.然而，现有技术中，许多视频的分辨率较高，对于现有的视频分割算法来说，处理高分辨率的视频帧需要消耗大量的计算成本，导致算法求取分割掩膜的速度较慢，不能够满足快速、准确的获取视频中的每一个视频帧的分割掩膜的用户需求。

技术实现要素：

4.有鉴于此，本发明实施例提供一种视频帧的处理方法、装置、设备以及计算机可读介质，通过确定出目标在视频中的活动区域的方式，对视频帧进行裁剪，以减少视频分割模型的计算成本。
5.为实现上述目的，本发明实施例提供如下技术方案：第一方面，本技术实施例公开了一种视频帧的处理方法，包括：根据视频的已知帧掩膜以及每一个视频帧，确定出目标在所述视频中的活动区域；其中，所述视频的已知帧掩膜为所述视频中已知的视频帧的分割掩膜；所述视频帧的分割掩膜用于区分显示所述视频帧中的目标和背景区域；裁剪出所述已知帧掩膜中处于所述活动区域的图像，得到所述已知帧掩膜的裁剪图像；并分别裁剪出每一个视频帧中处于所述活动区域的图像，得到每一个所述视频帧的裁剪图像；将所述已知帧掩膜的裁剪图像和每一个所述视频帧的裁剪图像输入至视频分割模型中，由所述视频分割模型得到并输出每一个所述视频帧的裁剪图像的分割掩膜；针对每一个所述视频帧，将所述视频帧的裁剪图像的分割掩膜恢复至所述视频帧裁剪前的尺寸，得到所述视频帧的分割掩膜。
6.第二方面，本技术实施例公开了一种视频帧的处理装置，包括：确定单元，用于根据视频的已知帧掩膜以及每一个视频帧，确定出目标在所述视频中的活动区域；其中，所述视频的已知帧掩膜为所述视频中已知的视频帧的分割掩膜；所述视频帧的分割掩膜用于区分显示所述视频帧中的目标和背景区域；裁剪单元，用于裁剪出所述已知帧掩膜中处于所述活动区域的图像，得到所述已知帧掩膜的裁剪图像；并分别裁剪出每一个视频帧中处于所述活动区域的图像，得到每一
个所述视频帧的裁剪图像；第一输入单元，用于将所述已知帧掩膜的裁剪图像和每一个所述视频帧的裁剪图像输入至视频分割模型中，由所述视频分割模型得到并输出每一个所述视频帧的裁剪图像的分割掩膜；恢复单元，用于针对每一个所述视频帧，将所述视频帧的裁剪图像的分割掩膜恢复至所述视频帧裁剪前的尺寸，得到所述视频帧的分割掩膜。
7.第三方面，本技术实施例公开了一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如上述第一方面中任一所述的方法。
8.第四方面，本技术实施例公开了一种视频帧的处理设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述第一方面中任一所述的方法。
9.基于上述本发明实施例提供的视频帧的处理方法，根据视频的已知帧掩膜以及每一个视频帧，确定出目标在视频中的活动区域。然后裁剪出已知帧掩膜中处于活动区域的图像，得到已知帧掩膜的裁剪图像，并分别裁剪出每一个视频帧中处于活动区域的图像，得到每一个视频帧的裁剪图像。然后将已知帧掩膜的裁剪图像和每一个视频帧的裁剪图像输入至视频分割模型中，由视频分割模型得到并输出每一个视频帧的裁剪图像的分割掩膜。由于已知帧掩膜的裁剪图像和每一个视频帧的裁剪图像都是裁剪的处于活动区域的图像，因此裁剪图像中都有包括目标，但相较于裁剪前的尺寸更小但分辨率、高清程度不变，因此视频分割模型计算出每一个视频帧的裁剪图像的分割掩膜的效率也更高、准确度也并未下降。后续只需针对每一个视频帧，将视频帧的裁剪图像的分割掩膜恢复至所述视频帧裁剪前的尺寸，即可得到视频帧的分割掩膜，满足了快速、准确的获取视频中的每一个视频帧的分割掩膜的用户需求。
附图说明
10.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。
11.图1为本技术实施例公开的一种视频帧的处理方法的流程示意图；图2为一种视频帧和视频帧的分割掩膜的示意图；图3为本技术实施例公开的一种确定活动区域的方法的流程示意图；图4为本技术实施例公开的一种确定出感兴趣区域的方法的流程示意图；图5为本技术实施例公开的另一种确定活动区域的方法的流程示意图；图6为本技术实施例公开的一种已知帧掩膜的获取方法的流程示意图；图7为本技术实施例公开的一种视频帧的分割掩膜的获取方法的流程示意图；图8为本技术实施例公开的另一种视频帧的处理方法的流程示意图；图9为本技术实施例公开的一种视频帧的处理装置的结构示意图。
具体实施方式
12.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
13.在本技术中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
14.参阅图1，本技术实施例提出了一种视频帧的处理方法，具体包括以下步骤：s101、根据视频的已知帧掩膜以及每一个视频帧，确定出目标在视频中的活动区域，其中视频的已知帧掩膜为所述视频中已知的视频帧的分割掩膜，视频帧的分割掩膜用于区分显示视频帧中的目标和背景区域。
15.其中，步骤s101的视频包括多个连续的视频帧。步骤s101中的视频指的是需要获取视频中除已知帧掩膜之外的每一个视频帧的分割掩膜的视频。视频帧的分割掩膜也可以理解为是一个通过区分显示目标和图像区域，进而实现凸显出视频帧中的目标的图像，视频帧的分割掩膜与视频帧的图像尺寸相同。视频帧中的背景区域指的是视频帧中目标所在的区域之外的图像区域。具体的，分割掩膜（也可以简称为掩膜）相当于是图像滤镜的模板，用于将我们需要的标志物（即目标）突出显示出来。视频帧中的人、物体、道路、河流、房子等均可以作为目标，目标可以根据用户需求进行选择。例如某一个视频拍摄了小狗在路上跑，则可以选择小狗作为目标。
16.视频帧的分割掩膜区分显示目标和背景区域在该视频帧的方式有很多，例如目标在该视频帧中的图像区域可以采用第一像素值显示，而视频帧中目标不在的图像区域（即背景区域）则采用第二像素值显示，第一像素值和第二像素值不相等，进而该视频帧的分割掩膜能够标记出目标在该视频帧中的图像区域。举例说明，如图2所示，某一视频中的视频帧为图2中的图像201，图像201中的物体2011被选取为目标，则图像202为图像201对应的分割掩膜。从图像202可以看出，目标物体2011所在的图像区域，在图像202中采用了白色显示，具体显示为白色区域2021。而图像201中的背景区域，在图像202中则采用了黑色显示。需要说明的是，视频帧的分割掩膜的展示方式还有很多，本技术实施例对此不作限制。
17.步骤s101中的已知帧掩膜是在执行步骤s101前预先获取到的。该已知帧掩膜可以是视频中任意一帧的掩膜，例如可以选用视频中的初始帧的掩膜作为步骤s101中的已知帧掩膜。已知帧掩膜的获取方式有很多，例如可以是采用交互式分割方式对已知帧进行处理，得到已知帧掩膜，还可以是人工预先根据已知帧中的目标，绘制出已知帧掩膜。本技术实施例对于已知帧掩膜的方式不作限制，本技术实施例对于已知帧掩膜的数量也不作限制，例如也可以预先获取2个已知帧掩膜。
18.由于视频的已知帧掩膜上显示出了目标的形状和位置、而目标在视频中又都是连续变化的，因此根据视频的已知帧掩膜和视频中所有视频帧，可以确定出目标在视频中的活动区域。目标在视频中的活动区域可以是一个矩形区域，视频中任意一个视频帧中的目
标均处于该活动区域内。该活动区域的面积、尺寸小于视频帧。示例性的，该活动区域可以是所有视频帧中的目标所在区域的最小外接矩形。
19.可选地，参阅图3，在本技术一具体实施例中，执行步骤s101的一种实施方式包括：s301、对视频的已知帧掩膜进行下采样处理，得到已知帧掩膜的下采样图像，并对视频的每一个视频帧均进行下采样处理，得到每一个视频帧的下采样图像。
20.对视频的已知帧掩膜进行下采样处理，以使得已知帧掩膜的尺寸减小，得到了已知帧掩膜的下采样图像。同时还对视频的每一个视频帧进行下采样处理，即分别缩小每一个视频帧，进而得到每一个视频帧的下采样图像。所有视频帧的下采样图像和已知帧掩膜的下采样图像的尺寸均一致。
21.其中，步骤s301中下采样处理过程中具体采用的下采样算法、方式等本技术实施例不作限制。
22.s302、根据已知帧掩膜的下采样图像以及每一个视频帧的下采样图像，确定出每一个视频帧的下采样图像的感兴趣区域，其中视频帧的下采样图像的感兴趣区域为目标在视频帧的下采样图像中的最小外接区域。
23.被处理的图像以方框、圆、椭圆、不规则多边形等方式勾勒出的需要处理的区域，称为感兴趣区域（region of interest，roi）。在本技术实施例中，需要处理的区域指的是目标所在的区域，因此本技术实施例中视频帧的下采样图像的感兴趣区域，就可以理解为是视频帧的下采样图像中以方框、圆、椭圆、不规则多边形等方式勾勒出的目标在视频帧的下采样图像中的一个最小外接区域。在视频帧的下采样图像中，除了感兴趣区域以外的区域都属于背景区域，不存在目标。其中，最小外接区域的形状本技术实施例不作限制，例如可以是最小外接矩形区域，也可以是最小外接椭圆区域。
24.在步骤s301进行下采样处理之后，仅是等比例的尺寸缩小，目标在视频中的形状、位置关系等都没有发生改变，因此通过该已知帧掩膜的下采样图像中显示出的目标的位置、形状等信息，可以推理计算出每一个视频帧的下采样图像的感兴趣区域。其中，推理计算出每一个视频帧的下采样图像的感兴趣区域的方式很多，例如可以采用roi机制相关算法、还可以采用视频分割模型等方式确定出视频帧的下采样图像的感兴趣区域，本技术实施例对此不作限制。
25.由于本技术实施例中在步骤s301进行了下采样处理，下采样处理后得到的已知帧掩膜的下采样图像以及每一个视频帧的下采样图像的尺寸都变小了，因此在计算每一个视频帧的下采样图像的感兴趣区域时，计算效率会较高，尤其是对于原本是高分辨率的视频帧来说，经过下采样处理之后，执行步骤s302的效率提升，且由于步骤s302中仅用于确定出感兴趣区域，感兴趣区域只要求圈定出目标所在的区域范围即可，而不需要考虑目标的形状轮廓的精度，因此在进行下采样处理之后所得到的视频帧的下采样图像的感兴趣区域，仍然能够准确换算还原成最初高分辨率的视频帧的感兴趣区域，即感兴趣区域的准确度不受下采样影响。通过本技术实施例确定出的感兴趣区域，效率较高。
26.可选地，参阅图4，在本技术一具体实施例中，执行步骤s302的一种实施方式，包括：s401、将已知帧掩膜的下采样图像和每一个视频帧的下采样图像输入至视频分割模型中，由视频分割模型得到并输出每一个视频帧的下采样图像的分割掩膜。
27.视频分割模型是能够通过视频中其中一个视频帧的分割掩膜，推理出视频中其他视频帧的分割掩膜的模型。因此，本技术实施例中，将已知帧掩膜的下采样图像和每一个视频帧的下采样图像输入至视频分割模型中之后，视频分割模型就可以得到并输出每一个视频帧的下采样图像的分割掩膜。
28.其中本技术实施例中的视频分割模型得到并输出每一个视频帧的下采样图像的分割掩膜，可以理解为是视频分割模型输出了除已知帧之外的每一个视频帧的下采样图像的分割掩膜。其中，已知帧指的是视频中已知分割掩膜的视频帧。已知帧的下采样图像的分割掩膜就是前述提及的已知帧掩膜的下采样图像，由于在执行步骤s401之前已经预先得到了已知帧掩膜的下采样图像，因此视频分割模型不需要再输出已知帧的下采样图像的分割掩膜。
29.其中，步骤s401中视频分割模型是对已知帧掩膜的下采样图像和每一个视频帧的下采样图像进行处理，而并非直接对已知帧掩膜和视频帧（即未经下采样处理的初始高分辨率的视频帧和已知帧掩膜）进行处理，由于下采样图像的尺寸更小、清晰度更低，因此视频分割模型不需要耗费过多的计算量，即可快速得到每一个视频帧的下采样图像的分割掩膜。
30.示例性的，步骤s401中可以使用第一公式，得到每一个视频帧的下采样图像的分割掩膜。
31.第一公式为：m1-resize，m2-resize，
…
=model（[v0-resize，v1-resize，v2-resize，
…
]，m0-resize）。其中，“m1-resize，m2-resize，
…”
表示除已知帧之外的每一个视频帧的下采样图像的分割掩膜，model（）表示视频分割模型的算法，“v0-resize，v1-resize，v2-resize，
…”
表示输入到视频分割模型中的每一个视频帧，m0-resize表示已知帧掩膜。
[0032]
s402、针对每一个视频帧的下采样图像，根据视频帧的下采样图像的分割掩膜，确定出视频帧的下采样图像的感兴趣区域。
[0033]
由于下采样图像的分割掩膜凸显出了目标所在的区域，因此根据该下采样图像的分割掩膜中目标所在的区域，可以圈定出该视频帧的下采样图像的感兴趣区域，进而后续能够通过所有视频帧的下采样图像的感兴趣区域，准确的还原出目标在视频中的活动区域。
[0034]
可选地，针对每一个视频帧的下采样图像，可以根据视频帧的下采样图像的分割掩膜中显示出的目标所在区域的每一个像素点的位置信息，确定出目标所在区域的左上角点的坐标和右下角点的坐标，确定出的左上角点的坐标和右下角点的坐标构成了该下采样图像的分割掩膜的最小外接矩形，视频帧的下采样图像中的目标的所有像素点均落在该最小外接矩形内部。
[0035]
示例性的，针对每一个视频帧的下采样图像，求取该下采样图像的感兴趣区域的左上角点的坐标的方式为：获取该下采样图像的分割掩膜中所显示的目标所在区域的所有像素点的坐标，然后将获取到的所有像素点的坐标中在x轴方向的最小值，确定为左上角点的x轴坐标，并将获取到的所有像素点的坐标中在y轴方向的最小值，确定为左上角点的y轴坐标。又将获取到的所有像素点的坐标中在x轴方向的最小值，确定为左上角点的x轴坐标，并将获取到的所有像素点的坐标中在y轴方向的最小值，确定为左上角点的y轴坐标。其中，
本技术实施例中的x轴也可以称为横轴，y轴也可以称为纵轴。
[0036]
例如，可以通过第二公式计算出每一个感兴趣区域的左上角点和右下角点的坐标。
[0037]
其中，第二公式包括：horizontal-i=where（mi-resize，axis=0）；vertical-i=where（mi-resize，axis=1）；x1-i，x2-i=horizontal-i[[0，-1]]；y1-i，y2-i=vertical-i[[0，-1]]。
[0038]
其中，where（mi-resize，axis=0）用于求取第i个视频帧的下采样图像的分割掩膜中，在横轴方向上的所有在目标所在区域的像素点的x轴坐标。horizontal-i则是求取到的第i个视频帧的下采样图像的分割掩膜中，在横轴方向上的所有在目标所在区域的像素点的x轴坐标。where（mi-resize，axis=1）用于求取第i个视频帧的下采样图像的分割掩膜中，在纵轴方向上的所有在目标所在区域的像素点的y轴坐标。horizontal-i[[0，-1]]用于获取所有在目标所在区域的像素点的x轴坐标中的最小值和最大值。x1-i为求取到的所有在目标所在区域的像素点的x轴坐标中的最小值，x2-i为求取到的所有在目标所在区域的像素点的x轴坐标中的最大值。vertical-i[[0，-1]]用于获取所有在目标所在区域的像素点的y轴坐标中的最小值和最大值。y1-i为求取到的所有在目标所在区域的像素点的y轴坐标中的最小值。y2-i为求取到的所有在目标所在区域的像素点的y轴坐标中的最大值。
[0039]
其中，（x1-i，y1-i）为第i个视频帧的下采样图像的感兴趣区域的左上角点的坐标。（x2-i，y2-i）为第i个视频帧的下采样图像的感兴趣区域的右下角点的坐标。
[0040]
s303、根据所有感兴趣区域，确定出目标在视频中的活动区域。
[0041]
前述步骤s302中获取到了所有视频帧的下采样图像的感兴趣区域，而视频帧的下采样图像的感兴趣区域能够说明视频帧的感兴趣区域。具体可以理解为视频帧的下采样图像的感兴趣区域与视频帧的感兴趣区域是存在对应关系的，即根据视频帧的下采样图像的感兴趣区域，可以通过视频帧的下采样图像和该视频帧之间的尺寸关系。确定出视频帧的感兴趣区域。由于视频帧的下采样图像的感兴趣区域能够说明视频帧的感兴趣区域，进而通过前述步骤s302中提及的视频帧的下采样图像的感兴趣区域，就能够确定出目标在视频中的活动区域。
[0042]
可选地，参阅图5，在本技术一具体实施例中，执行步骤s303的一种实施方式，包括：s501、将所有感兴趣区域的最小外接区域，确定为下采样活动区域，其中下采样活动区域为目标在下采样后的视频中的活动区域。
[0043]
具体的，通过整合所有视频帧的下采样图像的感兴趣区域，即可得到下采样后的视频中的目标的活动区域，即目标在下采样后的视频中出现的位置均落入在下采样活动区域内。其中，下采样后的视频指的是所有视频帧的下采样图像按照视频帧的顺序排列之后形成的视频。
[0044]
为了使得确定的下采样活动区域在能够圈住目标的活动范围的情况下尽可能的小，以便后续步骤s102所得到的裁剪图像的尺寸仅可能的小，本技术实施例中选择将所有感兴趣区域的最小外接区域，作为下采样活动区域。
[0045]
示例性的，若前述获取的下采样图像的感兴趣区域是一个目标所在区域的最小外接矩形区域，那么可以求取所有感兴趣区域左上角点的横轴坐标的最小值，作为下采样活动区域的左上角点的横轴坐标。并求取所有感兴趣区域左上角点的纵轴坐标的最小值，作为下采样活动区域的左上角点的纵轴坐标。又将所有感兴趣区域右下角点的横轴坐标的最大值，作为下采样活动区域的右下角点的横轴坐标。又将所有感兴趣区域右下角点的纵轴坐标的最大值，作为下采样活动区域的右下角点的纵轴坐标。将下采样活动区域的左上角点和右下角点所确定出的矩形区域，作为下采样活动区域。
[0046]
举例说明，可以将所有感兴趣区域的左上角点的坐标和右下角点的坐标代入下述第三公式中，求取得到下采样活动区域的左上角点的坐标和右下角点的坐标。
[0047]
其中第三公式包括：x1，y1=min（[x1-1，x1-2，x1-3，
…
]），min（[y1-1，y1-2，y1-3，
…
]）；x2，y2=max（[x2-1，x2-2，x2-3，
…
]），max（[y2-1，y2-2，y2-3，
…
]）。
[0048]
其中，min（[x1-1，x1-2，x1-3，
…
]）表示求取所有下采样图像的感兴趣区域的左上角点的横坐标的最小值。min（[y1-1，y1-2，y1-3，
…
]）表示求取所有下采样图像的感兴趣区域的左上角点的纵坐标的最小值。x1是下采样活动区域的左上角点的横坐标，y1是下采样活动区域的左上角点的纵坐标。
[0049]
max（[x2-1，x2-2，x2-3，
…
]）表示所有下采样图像的感兴趣区域的右下角点的横坐标的最大值。max（[y2-1，y2-2，y2-3，
…
]）表示所有下采样图像的感兴趣区域的右下角点的纵坐标的最大值。x2是下采样活动区域的右下角点的横坐标，y2是下采样活动区域的右下角点的纵坐标。
[0050]
s502、根据下采样活动区域，确定出目标在视频中的活动区域。
[0051]
计算得到下采样活动区域之后，可根据下采样后的视频帧与未下采样时的视频帧之间的尺度关系，还原出下采样活动区域对应到未下采样时的视频帧上的区域，该区域即为目标在视频中的活动区域。
[0052]
具体的，根据下采样活动区域在视频帧的下采样图像的位置，进行上采样还原，得到视频帧原尺度（或者说尺寸）下的下采样活动区域的对应区域，原尺度下的下采样活动区域的对应区域即为目标在视频中的活动区域。
[0053]
示例性的，可以将下采样活动区域的左上角点和右下角点的坐标代入至第四公式中，计算得到目标在视频中的活动区域的左上角点和右下角点。
[0054]
其中，第四公式包括：x1-ori，y1-ori，x2-ori，y2-ori=resizeori（[x1，y1，x2，y2]）。
[0055]
resizeori（[x1，y1，x2，y2]）用于将下采样活动区域的左上角点和右下角点的坐标，恢复到视频帧的原尺度下的对应位置。x1是下采样活动区域的左上角点的横坐标，y1是下采样活动区域的左上角点的纵坐标。x2是下采样活动区域的右下角点的横坐标，y2是下采样活动区域的右下角点的纵坐标。x1-ori是目标在视频中的活动区域的左上角点的横坐标，y1-ori是目标在视频中的活动区域的左上角点的纵坐标，x2-ori是目标在视频中的活动区域的右下角点的横坐标，y2-ori是目标在视频中的活动区域的右下角点的纵坐标。
[0056]
可选地，在本技术一具体实施例中，步骤s303的另一种实施方式，包括：针对每一个视频帧的下采样图像的感兴趣区域，将该视频帧的下采样图像的感兴
i，y2-i]if si 》 median-s*1.5”用于筛除感兴趣区域的面积大于median-s的1.5倍的感兴趣区域。
[0066]
求取面积阈值的方式有很多，包括但不限于本技术实施例所提出的方式。
[0067]
可选地，参阅图6，在本技术一具体实施例中，已知帧掩膜的获取方式包括以下步骤：s601、获取交互信息。
[0068]
其中，该交互信息由用户执行的交互操作产生。交互信息中包括有对已知帧的目标的交互信息，和/或，对已知帧的背景区域的交互信息。例如用户使用红颜色的画笔在目标所在的区域执行点击的交互操作，进而可获取到相应的交互信息。视频的已知帧为视频中的任意一个视频帧。第一次预测分割掩膜为交互式分割模型首次预测出的该已知帧的分割掩膜。
[0069]
s602、将视频的已知帧、以及获取的交互信息输入至交互式分割模型中，由交互式分割模型得到并输出已知帧的第一次预测分割掩膜。
[0070]
交互式分割模型用于根据交互信息预测分割掩膜。第一次预测分割掩膜为交互式分割模型首次预测出的该已知帧的分割掩膜。
[0071]
具体的，在交互式分割模型进行第一次预测的过程中，首先将第一次预测的过程中用户对已知帧执行的交互信息（即步骤s601获取的交互信息）以及该视频的已知帧输入至交互式分割模型中，交互式分割模型则根据获取的交互信息预测已知帧的分割掩膜，得到并输出已知帧的第一次预测分割掩膜。
[0072]
s603、判断是否接收到终止指令。
[0073]
步骤s602中输出的第一次预测分割掩膜会展示在界面上，以供用户查看。用户通过观察比对第一次预测分割掩膜与已知帧中实际的目标的轮廓（可以理解为用户通过已知帧查看到的实际分割掩膜）是否一致，来确认是否需要终止交互。若用户认为第一次预测分割掩膜与已知帧中实际的目标的轮廓是一致的，即用户认为第一次预测分割掩膜的准确度符合用户的需求，则会输入一个终止指令，表示结束交互式分割流程，不再输入交互信息。当接收到终止指令时，会触发进入到步骤s604中。
[0074]
若用户通过观察比对第一次预测分割掩膜与已知帧中实际的目标的轮廓，发现第一次预测分割掩膜与已知帧中实际的目标的轮廓不一致，还需要交互式分割模型再次进行预测，则会再次输入新的交互信息，触发执行步骤s605。
[0075]
可选地，在本技术另一具体实施例中，还可以是执行图6的流程的终端，自动判断第一次预测分割掩膜与已知帧中实际的目标的轮廓是否重合（即是否一致），若完全重合，则产生终止指令，若不重合，则不产生终止指令，等待用户再一次输入交互信息。
[0076]
s604、将已知帧的第一次预测分割掩膜确定为已知帧掩膜。
[0077]
由于步骤s603判断出接收到了终止指令，说明第一次预测分割掩膜满足用户的准确度要求，因此可以直接将已知帧的第一次预测分割掩膜确定为已知帧掩膜，终止流程。
[0078]
s605、再一次获取交互信息。
[0079]
当判断出未接收到终止指令时，则说明交互式分割模型输出的第一次预测分割掩膜还未满足用户的准确度要求，用户会再一次输入交互信息，以使得交互式分割模型通过再一次获取到的交互信息，提高输出的分割掩膜的准确度。
[0080]
其中，步骤s605中再一次获取交互信息的过程可参考前述步骤s601，此处不再赘述。
[0081]
s606、将已知帧的第一次预测分割掩膜、再一次获取的交互信息以及已知帧输入至交互式分割模型中，由交互式分割模型得到并输出已知帧的第二次预测分割掩膜。
[0082]
具体的，在交互式分割模型第一次预测完分割掩膜之后（即执行步骤s602之后），交互式分割模型从第二次预测分割掩膜开始，会将第一次预测分割掩膜、再一次获取的交互信息（即当前最新一次获取到的交互信息）以及已知帧输入至交互式分割模型中，进而得到第二次预测分割掩膜。由于交互式分割模型在生成第二次预测分割掩膜的过程中，使用到了再次获取到的交互信息以及第一次预测分割掩膜，因此交互式分割模型输出的第二次预测分割掩膜会比第一次预测分割掩膜的准确度更高。
[0083]
s607、将第二次预测分割掩膜，作为新的第一次预测分割掩膜，返回判断是否接收到终止指令。
[0084]
输出第二次预测分割掩膜之后，界面上会把第二次预测分割掩膜作为新的第一次预测分割掩膜进行展示。用户对比观察新的第一次预测分割掩膜与已知帧中实际的目标轮廓是否一致，来确定是否输入终止指令。因此，需要返回至步骤s603中，判断用户是否有输入终止指令。如果用户对新的第一次预测分割掩膜的准确度满意，即认为新的第一次预测分割掩膜与已知帧中实际的目标轮廓基本一致，那么步骤s603中会判断出接收到终止指令，进而触发执行步骤s604，得到了已知帧掩膜，结束流程。
[0085]
如果用户认为新的第一次预测分割掩膜的准确度，仍然无法满足用户的需求，则用户又会再一次输入交互信息，进而触发执行步骤s605，即交互式分割模型再次预测分割掩膜。后续通过步骤s607的不断返回，交互式分割模型会不断输出新的第一次预测分割掩膜，不断提高准确度，直至接收到用户输入的终止指令为止，将最新的第一次预测分割掩膜确定为已知帧掩膜，最终结束流程。
[0086]
s102、裁剪出已知帧掩膜中处于活动区域的图像，得到已知帧掩膜的裁剪图像，并分别裁剪出每一个视频帧中处于活动区域的图像，得到每一个视频帧的裁剪图像。
[0087]
由于前述步骤s101中已确定出了目标在视频中的活动区域，而对于分割掩膜来说，也只关注目标出现的区域（即前述步骤s101中确定出的活动区域），因此在后续处理得到分割掩膜之前，可以对已知帧掩膜、以及所有视频帧均进行裁剪，即分别裁剪出处于活动区域位置的图像，进而得到已知帧掩膜的裁剪图像以及每一个视频帧的裁剪图像。
[0088]
裁剪之后所得到的视频帧的裁剪图像、以及已知帧掩膜的裁剪图像中，完整的保留了目前所在的区域的相关信息，剔除掉了不重要的背景区域。视频帧的裁剪图像、以及已知帧掩膜的裁剪图像的的尺寸相较于裁剪之前的原尺寸减小、所占内存空间也变小，但清晰度不变，且目标的尺寸形状也并未发生改变，仍然和裁剪前一致。
[0089]
s103、将已知帧掩膜的裁剪图像和每一个视频帧的裁剪图像输入至视频分割模型中，由视频分割模型得到并输出每一个视频帧的裁剪图像的分割掩膜。
[0090]
由前述对步骤s102的描述可知，已知帧掩膜的裁剪图像以及每一个视频帧的裁剪图像相较于裁剪之前，仅是图像尺寸减小，但是图像的清晰度不变、图像中目标的尺寸形状等也未发生变化，因此将已知帧掩膜的裁剪图像和每一个视频帧的裁剪图像输入至视频分割模型中之后，所得到的每一个视频帧的裁剪图像的分割掩膜中，显示的目标的区域也是
与实际的视频帧的分割掩膜是相同的，区别点仅在于背景区域的面积减少了，因此需要后续执行步骤s104进行恢复，以得到视频帧的分割掩膜。
[0091]
需要说明的是，由于已知帧掩膜的裁剪图像就相当于是已知帧的裁剪图像的分割掩膜了，因此步骤s103中视频分割模型输出的每一个视频帧的裁剪图像的分割掩膜可以不包括已知帧的裁剪图像的分割掩膜。
[0092]
相较于现有的直接输入已知帧掩膜和视频帧的方式来说，因本技术实施例中输入至视频分割模型的图像尺寸减小，步骤s103中视频分割模型的计算量会明显下降，视频分割模型输出结果的效率得到了明显的提升。即使是高分辨率的视频，采用本技术实施例的步骤s101至步骤s103处理之后，也可以快速得到每一个视频帧的裁剪图像的分割掩膜。又因为已知帧掩膜的裁剪图像和每一个视频帧的裁剪图像相较于裁剪前的清晰度是不变的、图像中的目标的尺寸形状也都是不变的，因此视频分割模型在预测视频帧的裁剪图像的分割掩膜时，不会受到清晰度改变的影响，即仍然能够保障模型处理的准确率。
[0093]
举例说明，如图7示出的视频帧701中，矩形区域7011是活动区域，视频帧7011中的平行四边形物体则是目标。该视频帧701经过裁剪之后，得到视频帧的裁剪图像702，对比701和702可以看出，目标的尺寸形状都不变、清晰度也不变。将该视频帧的裁剪图像702以及已知帧掩膜输入到视频分割模型中，由视频分割模型得到并输出视频帧的裁剪图像的分割掩膜703。
[0094]
示例性的，步骤s103可以使用第六公式，得到每一个视频帧的裁剪图像的分割掩膜。
[0095]
其中，第六公式为：m1-crop，m2-crop，
…
=model（[v0-crop，v1-crop，v2-crop，
…
]，m0-crop）。
[0096]“m1-crop，m2-crop，
…”
表示除已知帧之外的每一个视频帧的裁剪图像的分割掩膜。model（）表示视频分割模型的算法，“v0-crop，v1-crop，v2-crop，
…”
表示输入到视频分割模型中的每一个视频帧的裁剪图像，m0-crop表示已知帧掩膜的裁剪图像。
[0097]
s104、针对每一个视频帧，将视频帧的裁剪图像的分割掩膜恢复至视频帧裁剪前的尺寸，得到视频帧的分割掩膜。
[0098]
针对每一个视频帧，在步骤s103得到视频帧的裁剪图像的分割掩膜之后，根据该视频帧的裁剪图像的分割掩膜，得到该视频帧的分割掩膜。该视频帧的分割掩膜中的目标所在的图像区域，与视频帧的裁剪图像的分割掩膜中的目标所在的图像区域相同，区别仅在于将视频帧的裁剪图像的分割掩膜恢复至视频帧裁剪前的尺寸之后，背景区域的面积增加到与裁剪前的一致。因此，步骤s104的处理过程也不影响最终得到的视频帧的分割掩膜的准确度和清晰度。举例说明，如图7所示，将视频帧的裁剪图像的分割掩膜703恢复到和视频帧701相同的尺寸后，得到视频帧的分割掩膜704。对比视频帧的裁剪图像的分割掩膜703和视频帧的分割掩膜704可知，目标所在的图像区域是一致的，仅是背景区域恢复到了视频帧的尺寸。
[0099]
可选地，在本技术一具体实施例中，执行步骤s104的一种实施方式，包括：针对每一个视频帧，创建出与视频帧裁剪前的尺寸一致的空白掩膜图像，根据视频帧的裁剪图像的分割掩膜的像素值，对空白掩膜图像中位于目标在视频中的活动区域处的像素点进行赋值，得到视频帧的分割掩膜。
[0100]
针对每一个视频帧，创建一个与视频帧相同尺寸（即未对视频帧裁剪时的尺寸）的空白掩膜图像，空白掩膜图像指的是整个图像的像素值均为背景区域对应的像素值的图像。例如，如果预设了分割掩膜是采用白色表示背景区域的，那么空白掩膜图像就是只有白色的图像。创建空白掩膜图像之后，在视频帧的裁剪图像的分割掩膜对应到空白掩膜图像中的区域上，进行赋值。而通过前述的对视频帧的裁剪图像的分割掩膜的描述可知，视频帧的裁剪图像的分割掩膜相当于是对视频帧中处于活动区域处的图像进行处理得来的，因此视频帧的裁剪图像的分割掩膜对应到空白掩膜图像中的区域，即为前述提及的活动区域。具体的，根据视频帧的裁剪图像的分割掩膜的像素值，对空白掩膜图像中位于目标在视频中的活动区域处的像素点进行赋值，以使得空白掩膜图像中的活动区域处在经过赋值后，与视频帧的裁剪图像的分割掩膜相同。经过赋值之后的空白掩膜图像，即为视频帧的分割掩膜。
[0101]
示例性的，可以将目标在视频中的活动区域的左上角点和右下角点的坐标代入至第七公式中，计算得到视频帧的分割掩膜。
[0102]
其中，第七公式包括：mi=zero-like（vi）；mi[y1-ori：y2-ori：x1-ori：x2-ori]=mi-crop。
[0103]
其中，zero-like（vi）用于初始化与第i个视频帧的尺寸一致的空白掩膜图像，mi为第i个视频帧对应的空白掩膜图像。x1-ori是目标在视频中的活动区域的左上角点的横坐标，y1-ori是目标在视频中的活动区域的左上角点的纵坐标，x2-ori是目标在视频中的活动区域的右下角点的横坐标，y2-ori是目标在视频中的活动区域的右下角点的纵坐标。mi-crop是第i个视频帧的裁剪图像的分割掩膜，mi[y1-ori：y2-ori：x1-ori：x2-ori]=mi-crop用于将mi-crop重新赋值到mi中的[y1-ori：y2-ori：x1-ori：x2-ori]区域中。[y1-ori：y2-ori：x1-ori：x2-ori]为目标在视频中的活动区域。
[0104]
需要说明的是，本技术实施例中将视频帧的裁剪图像的分割掩膜恢复至视频帧裁剪前的尺寸的方式有很多，包括但不限于本技术实施例所提出的内容。
[0105]
参阅图8，为了使得本技术实施例所提出的视频帧的处理方法描述更为清楚，基于前述提及的视频帧的处理方法，示例性的描述获取到视频帧的分割掩膜的流程：首先获取用户输入的需要处理的视频，对该视频中的其中一个视频帧（即前述提及的已知帧）进行交互标注，得到掩膜m0（即前述提及的已知帧掩膜）。将掩膜m0和视频进行下采样的预处理，得到掩膜m0的下采样图像和每一个视频帧的下采样图像。然后视频分割模型根据掩膜m0的下采样图像，一次传播推导出其他视频帧的下采样图像的分割掩膜。由于一次传播时视频分割模型获取分割掩膜的目的并不是为了分割出目标所在的图像区域，而是为了确定目标在视频中的活动区域，因此将视频分割模型的一次传播过程称为粗分割。完成粗分割之后，可以根据视频帧的下采样图像的分割掩膜，确定出视频帧的下采样图像的感兴趣区域，在对这些感兴趣区域进行过滤之后，将过滤后的所有感兴趣区域的外接矩形框确定为活动区域（简称roi）。根据roi分别对m0和原视频（即未下采样时的视频）中的视频帧进行裁剪，得到新视频序列（即每一个视频帧的裁剪图像）和m0的裁剪图像m0-crop。然后将新视频序列和m0-crop输入至视频分割模型，二次传播推导出新视频序列的分割掩膜（即前述提及的视频帧的裁剪图像的分割掩膜）。由于二次传播的目的是为了准确分割出新视频序列中的目标
所在的图像区域，因此将视频分割模型的二次传播过程称为细分割。结合roi，将新视频序列的分割掩膜恢复至原尺度，得到每一个视频帧的分割掩膜，然后再对视频帧的分割掩膜进行精修，最终再输出精修后的每一个视频帧的分割掩膜。
[0106]
具体的执行过程和原理可参见前述对本技术实施例的视频帧的处理方法的详细介绍，此处不再赘述。
[0107]
本发明实施例提供的视频帧的处理方法，根据视频的已知帧掩膜以及每一个视频帧，确定出目标在视频中的活动区域。然后裁剪出已知帧掩膜中处于活动区域的图像，得到已知帧掩膜的裁剪图像，并分别裁剪出每一个视频帧中处于活动区域的图像，得到每一个视频帧的裁剪图像。然后将已知帧掩膜的裁剪图像和每一个视频帧的裁剪图像输入至视频分割模型中，由视频分割模型得到并输出每一个视频帧的裁剪图像的分割掩膜。由于已知帧掩膜的裁剪图像和每一个视频帧的裁剪图像都是裁剪的处于活动区域的图像，因此裁剪图像中都有包括目标，但相较于裁剪前的尺寸更小但分辨率、高清程度不变，因此视频分割模型计算出每一个视频帧的裁剪图像的分割掩膜的效率也更高、准确度也并未下降。后续只需针对每一个视频帧，将视频帧的裁剪图像的分割掩膜恢复至所述视频帧裁剪前的尺寸，即可得到视频帧的分割掩膜，满足了快速、准确的获取视频中的每一个视频帧的分割掩膜的用户需求。
[0108]
参阅图9，基于上述本技术实施例提出的视频帧的处理方法，本技术实施例对应公开了一种视频帧的处理装置，具体包括：确定单元901、裁剪单元902、第一输入单元903以及恢复单元904。
[0109]
确定单元901，用于根据视频的已知帧掩膜以及每一个视频帧，确定出目标在所述视频中的活动区域；其中，所述视频的已知帧掩膜为所述视频中已知的视频帧的分割掩膜；所述视频帧的分割掩膜用于区分显示所述视频帧中的目标和背景区域；可选地，在本技术一具体实施例中，确定单元901包括：下采样子单元、第一确定子单元以及第二确定子单元。
[0110]
下采样子单元，用于对视频的已知帧掩膜进行下采样处理，得到所述已知帧掩膜的下采样图像；并对所述视频的每一个视频帧均进行下采样处理，得到每一个所述视频帧的下采样图像；第一确定子单元，用于根据所述已知帧掩膜的下采样图像以及每一个所述视频帧的下采样图像，确定出每一个所述视频帧的下采样图像的感兴趣区域；其中，所述视频帧的下采样图像的感兴趣区域为所述目标在视频帧的下采样图像中的最小外接区域；可选地，在本技术一具体实施例中，第一确定子单元包括：输入子单元，用于将所述已知帧掩膜的下采样图像和每一个所述视频帧的下采样图像输入至视频分割模型中，由所述视频分割模型得到并输出每一个所述视频帧的下采样图像的分割掩膜；第三确定子单元，用于针对每一个所述视频帧的下采样图像，根据所述视频帧的下采样图像的分割掩膜，确定出所述视频帧的下采样图像的感兴趣区域。
[0111]
第二确定子单元，用于根据所有所述感兴趣区域，确定出所述目标在所述视频中的活动区域。
[0112]
可选地，在本技术一具体实施例中，第二确定子单元包括：第四确定子单元和第五
确定子单元。
[0113]
第四确定子单元，用于将所有所述感兴趣区域的最小外接区域，确定为下采样活动区域；其中，所述下采样活动区域为目标在下采样后的所述视频中的活动区域；第五确定子单元，用于根据所述下采样活动区域，确定出所述目标在所述视频中的活动区域。
[0114]
裁剪单元902，用于裁剪出所述已知帧掩膜中处于所述活动区域的图像，得到所述已知帧掩膜的裁剪图像；并分别裁剪出每一个视频帧中处于所述活动区域的图像，得到每一个所述视频帧的裁剪图像；第一输入单元903，用于将所述已知帧掩膜的裁剪图像和每一个所述视频帧的裁剪图像输入至视频分割模型中，由所述视频分割模型得到并输出每一个所述视频帧的裁剪图像的分割掩膜；恢复单元904，用于针对每一个所述视频帧，将所述视频帧的裁剪图像的分割掩膜恢复至所述视频帧裁剪前的尺寸，得到所述视频帧的分割掩膜。
[0115]
可选地，在本技术一具体实施例中，还包括：计算单元和筛选单元。
[0116]
计算单元，用于根据所有所述视频帧的下采样图像的感兴趣区域的面积，计算得到感兴趣区域的面积阈值；筛选单元，用于从所有所述感兴趣区域中，筛选出感兴趣区域的面积小于或等于所述面积阈值的感兴趣区域。其中，确定单元901，包括：第六确定子单元，用于根据筛选出的所有所述感兴趣区域，确定出所述目标在所述视频中的活动区域。
[0117]
可选地，在本技术一具体实施例中，恢复单元904包括：创建子单元和赋值子单元。
[0118]
创建子单元，用于针对每一个所述视频帧，创建出与所述视频帧裁剪前的尺寸一致的空白掩膜图像；赋值子单元，用于根据所述视频帧的裁剪图像的分割掩膜的像素值，对所述空白掩膜图像中位于所述目标在所述视频中的活动区域处的像素点进行赋值，得到所述视频帧的分割掩膜。
[0119]
可选地，在本技术一具体实施例中，还包括：第一获取单元、第二输入单元、判断单元、终止单元、第三输入单元以及返回单元。
[0120]
第一获取单元，用于获取交互信息。
[0121]
第二输入单元，用于将视频的已知帧、以及获取的交互信息输入至交互式分割模型中，由交互式分割模型得到并输出已知帧的第一次预测分割掩膜。
[0122]
判断单元，用于判断是否接收到终止指令。
[0123]
终止单元，用于若接收到终止指令，则将已知帧的第一次预测分割掩膜确定为已知帧掩膜。
[0124]
第三输入单元，用于若未接收到终止指令且再一次获取交互信息，则将已知帧的第一次预测分割掩膜、再一次获取的交互信息以及已知帧输入至交互式分割模型中，由交互式分割模型得到并输出已知帧的第二次预测分割掩膜。
[0125]
返回单元，用于将第二次预测分割掩膜，作为新的第一次预测分割掩膜，返回至判断单元。
[0126]
上述本技术实施例提出的各个单元和子单元的执行过程和原理与前述本技术实
施例提出的视频帧的处理方法相同，此处不再赘述。
[0127]
本发明实施例提供的视频帧的处理装置中，确定单元901根据视频的已知帧掩膜以及每一个视频帧，确定出目标在视频中的活动区域。然后裁剪单元902裁剪出已知帧掩膜中处于活动区域的图像，得到已知帧掩膜的裁剪图像，并分别裁剪出每一个视频帧中处于活动区域的图像，得到每一个视频帧的裁剪图像。然后第一输入单元将已知帧掩膜的裁剪图像和每一个视频帧的裁剪图像输入至视频分割模型中，由视频分割模型得到并输出每一个视频帧的裁剪图像的分割掩膜。由于已知帧掩膜的裁剪图像和每一个视频帧的裁剪图像都是裁剪的处于活动区域的图像，因此裁剪图像中都有包括目标，但相较于裁剪前的尺寸更小但分辨率、高清程度不变，因此第一输入单元903中视频分割模型计算出每一个视频帧的裁剪图像的分割掩膜的效率也更高、准确度也并未下降。后续只需回复单元904针对每一个视频帧，将视频帧的裁剪图像的分割掩膜恢复至所述视频帧裁剪前的尺寸，即可得到视频帧的分割掩膜，满足了快速、准确的获取视频中的每一个视频帧的分割掩膜的用户需求。
[0128]
本技术实施例还公开了一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如上述中任一所述的视频帧的处理方法。
[0129]
本技术实施例还公开了一种视频帧的处理设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述中任一所述的视频帧的处理方法。
[0130]
本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。
[0131]
专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。
[0132]
对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种面向中文冠心病诊断报告的命名实体消歧方法

视频帧的处理方法、装置、设备以及计算机可读介质与流程

相关文献

最热文献