视频处理方法、装置、电子设备及存储介质与流程

2022-07-10 09:27:09 来源：中国专利 TAG：

1.本公开涉及计算机技术领域，具体涉及一种视频处理方法、装置、电子设备及存储介质。

背景技术：

2.视频分割技术作为视频处理的关键步骤，对视频分析有较大影响，并且在理论和实际应用中有重要的研究价值。例如，在视频编辑、影视后期制作、视频会议等中，均需要对视频中的目标做精确的、像素级别的分割。
3.半监督视频目标分割(semi-supervised video object segmentation,vos)是视频分割技术中的其中一种方式。半监督视频目标分割方式中，需要提供视频中一个或多个待分割目标的初始标注，而在后续的视频帧中，通过算法模型基于初始标注进行目标自动分割。半监督视频目标分割方式仅需要少量的人工交互即可完成整个视频的分割，能够减少人力成本，并提高视频分割效率。因此，如何实现较优地半监督视频目标分割方法是本领域当前需要解决的技术问题之一。

技术实现要素：

4.本公开实施例提供一种视频处理方法、装置、电子设备及计算机可读存储介质。
5.第一方面，本公开实施例中提供了一种视频处理方法，其中，包括：
6.获取多个连续视频帧；
7.根据当前处理帧的前一帧以及前一帧中的目标预测信息获取所述当前处理帧中目标预测信息的局部位置引导信息；
8.基于所述局部位置引导信息获取所述当前处理帧中的所述目标预测信息；其中所述目标预测信息包括所述当前处理帧中目标对象的位置信息。
9.进一步地，所述方法还包括：
10.根据第一帧以及所述第一帧中的目标预测信息获取所述当前处理帧中目标预测信息的目标完整性约束信息；其中，所述第一帧为所述多个连续视频帧中出现当前目标的第一个视频帧；
11.基于所述局部位置引导信息获取所述当前处理帧中的所述目标预测信息，包括：
12.基于所述局部位置引导信息以及所述目标完整性约束信息获取所述当前处理帧中的目标预测信息。
13.进一步地，所述方法还包括：
14.根据历史帧以及所述历史帧中的目标预测信息获取所述当前处理帧中目标预测信息的全局目标检索信息；所述历史帧为所述当前处理帧之前的一个或多个视频帧；
15.基于所述局部位置引导信息获取所述当前处理帧中的所述目标预测信息，包括：
16.基于所述局部位置引导信息以及所述全局目标检索信息获取所述当前处理帧中的目标预测信息。
17.进一步地，根据当前处理帧的前一帧以及前一帧中的目标预测信息获取所述当前处理帧中目标预测信息的局部位置引导信息，包括：
18.通过对所述当前处理帧编码获取所述当前处理帧对应的当前帧编码特征，以及通过对所述前一帧以及所述前一帧中的所述目标预测信息编码获取所述前一帧对应的前一帧编码特征；所述当前编码特征和前一帧编码特征分别包括局部键特征和值特征；
19.将位置编码特征融合至所述前一帧和所述当前处理帧分别对应的局部键特征后，得到前一帧位置融合特征和当前帧位置融合特征；
20.根据所述前一帧位置融合特征和当前帧位置融合特征获取所述前一帧与所述当前处理帧之间的位置相关性信息；
21.基于所述前一帧的目标预测信息对所述位置相关性信息进行信息过滤；
22.基于过滤后的所述位置相关性信息以及所述当前处理帧的值特征获取所述局部位置引导信息。
23.进一步地，根据第一帧以及所述第一帧中的目标预测信息获取所述当前处理帧中目标预测信息的目标完整性约束信息，包括：
24.获取所述第一帧对应的第一帧编码特征；其中所述第一帧编码特征包括值特征；
25.根据所述第一帧的目标预测信息从所述第一帧对应的值特征中筛选出所述第一帧中的目标值特征；
26.将所述目标值特征融合至所述当前处理帧的值特征得到第一互相关特征；
27.将所述当前处理帧的值特征融合至所述目标值特征得到第二互相关特征；
28.基于所述第一互相关特征和所述第二互相关特征获得所述目标完整性约束信息。
29.进一步地，所述方法还包括：
30.将所述目标预测信息输出至用户设备；
31.从所述用户设备接收用户对所述目标预测信息的反馈数据；其中所述反馈数据包括所述当前处理处理帧中所述目标预测信息的纠正信息；
32.根据所述纠正信息对所述当前处理帧中的目标预测信息进行更新。
33.进一步地，所述方法还包括：
34.将所述当前处理帧以及所述多个连续视频帧中的剩余视频帧确定为新的多个连续视频帧，并将所述当前处理帧确定为所述多个连续视频帧中的第一帧。
35.进一步地，获取多个连续视频帧之前，所述方法还包括：
36.从用户设备接收用户上传的视频以及所述视频中的目标标注信息；
37.将所述目标标注信息所对应的视频帧确定为所述多个连续视频帧中的第一帧，将所述目标标注信息确定为所述第一帧对应的目标预测信息。
38.进一步地，获取多个连续视频帧之前，所述方法还包括：
39.从用户设备接收用户上传的视频以及所述视频中的多个目标标注信息；
40.根据所述多个目标标注信息将所述视频划分成多组视频帧集合，每组所述视频帧集合包括多个连续视频帧，且对应于所述目标标注信息的视频帧作为所述多个连续视频帧中的第一帧。
41.进一步地，根据历史帧以及所述历史帧中的目标预测信息获取所述当前处理帧中目标预测信息的全局目标检索信息，包括：
42.获取所述历史帧的历史编码特征；其中所述历史编码特征包括全局键特征和值特征；
43.根据所述历史编码特征和当前帧编码特征计算所述历史帧与所述当前帧之间的相似度；
44.利用所述相似度对所述历史编码特征的值特征进行加权处理，以获得加权值特征；
45.将所述加权值特征和所述当前帧编码特征的值特征拼接后得到所述全局目标检索信息。
46.第二方面，本发明实施例中提供了一种视频处理方法，其中，包括：
47.获取视频处理数据；所述视频处理数据包括多个连续视频帧以及所述多个连续视频帧中出现目标对象的第一帧中的目标预测信息；
48.根据当前处理帧的前一帧以及前一帧中的目标预测信息获取所述当前处理帧中目标预测信息的局部位置引导信息；
49.根据第一帧以及所述第一帧中的目标预测信息获取所述当前处理帧中目标预测信息的目标完整性约束信息；其中，所述第一帧为所述多个连续视频帧中出现当前目标的第一个视频帧；
50.根据历史帧以及所述历史帧中的目标预测信息获取所述当前处理帧中目标预测信息的全局目标检索信息；所述历史帧为所述当前处理帧之前的一个或多个视频帧；
51.基于所述局部位置引导信息、所述目标完整性约束信息和所述全局目标检索信息解码获取所述当前处理帧中的目标预测信息，其中所述目标预测信息包括所述当前处理帧中目标对象的位置信息。
52.第三方面，本发明实施例中提供了一种视频处理方法，其中，包括：
53.获取视频处理数据；所述视频处理数据包括多个连续视频帧以及所述多个连续视频帧中出现目标对象的第一帧中的目标预测信息；
54.调用预设服务接口，以便由所述预设服务接口从所述多个连续视频帧的第二帧开始，根据当前处理帧的前一帧以及前一帧中的目标预测信息获取所述当前处理帧中目标预测信息的局部位置引导信息，基于所述局部位置引导信息获取所述当前处理帧中的所述目标预测信息；其中所述目标预测信息包括所述当前处理帧中目标对象的位置信息；
55.输出所述多个视频处理帧对应的目标预测信息。
56.第四方面，本发明实施例中提供了一种视频处理装置，其中，包括：
57.第一获取模块，被配置为获取多个连续视频帧；
58.第二获取模块，被配置为根据当前处理帧的前一帧以及前一帧中的目标预测信息获取所述当前处理帧中目标预测信息的局部位置引导信息；
59.第三获取模块，被配置为基于所述局部位置引导信息获取所述当前处理帧中的所述目标预测信息；其中所述目标预测信息包括所述当前处理帧中目标对象的位置信息。
60.第五方面，本发明实施例中提供了一种视频处理装置，其中，包括：
61.第六获取模块，被配置为获取视频处理数据；所述视频处理数据包括多个连续视频帧以及所述多个连续视频帧中出现目标对象的第一帧中的目标预测信息；
62.第七获取模块，被配置为根据当前处理帧的前一帧以及前一帧中的目标预测信息
获取所述当前处理帧中目标预测信息的局部位置引导信息；
63.第八获取模块，被配置为根据第一帧以及所述第一帧中的目标预测信息获取所述当前处理帧中目标预测信息的目标完整性约束信息；其中，所述第一帧为所述多个连续视频帧中出现当前目标的第一个视频帧；
64.第九获取模块，被配置为根据历史帧以及所述历史帧中的目标预测信息获取所述当前处理帧中目标预测信息的全局目标检索信息；所述历史帧为所述当前处理帧之前的一个或多个视频帧；
65.第十获取模块，被配置为基于所述局部位置引导信息、所述目标完整性约束信息和所述全局目标检索信息解码获取所述当前处理帧中的目标预测信息，其中所述目标预测信息包括所述当前处理帧中目标对象的位置信息。
66.第六方面，本发明实施例中提供了一种视频处理装置，其中，包括：
67.第十一获取模块，被配置为获取视频处理数据；所述视频处理数据包括多个连续视频帧以及所述多个连续视频帧中出现目标对象的第一帧中的目标预测信息；
68.调用模块，被配置为调用预设服务接口，以便由所述预设服务接口从所述多个连续视频帧的第二帧开始，根据当前处理帧的前一帧以及前一帧中的目标预测信息获取所述当前处理帧中目标预测信息的局部位置引导信息，基于所述局部位置引导信息获取所述当前处理帧中的所述目标预测信息；其中所述目标预测信息包括所述当前处理帧中目标对象的位置信息；
69.第二输出模块，被配置为输出所述多个视频处理帧对应的目标预测信息。
70.所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
71.在一个可能的设计中，上述装置的结构中包括存储器和处理器，所述存储器用于存储一条或多条支持上述装置执行上述对应方法的计算机指令，所述处理器被配置为用于执行所述存储器中存储的计算机指令。上述装置还可以包括通信接口，用于上述装置与其他设备或通信网络通信。
72.第七方面，本公开实施例提供了一种电子设备，包括存储器、处理器以及存储在存储器上的计算机程序，其中，所述处理器执行所述计算机程序以实现上述任一方面所述的方法。
73.第八方面，本公开实施例提供了一种计算机可读存储介质，用于存储上述任一装置所用的计算机指令，该计算机指令被处理器执行时用于实现上述任一方面所述方法的步骤。
74.第九方面，本公开实施例提供了一种计算机程序产品，其包含计算机指令，该计算机指令被处理器执行时用于实现上述任一方面所述方法的步骤。
75.本公开实施例提供的技术方案可以包括以下有益效果：
76.本公开实施例在对多个连续视频帧进行视频分割的过程中，针对当前处理帧，通过前一帧、前一帧的目标预测信息以及当前处理帧确定局部位置引导信息，进而再根据局部位置引导信息获取当前处理帧中的目标预测信息。通过上述方式，能够保证当前处理帧中得到的目标预测信息与前一帧不会出现较大偏差，并且不会在不相关的位置上产生错误的目标分割，确保分割得到的目标对象在空间上能够保持连续性。
77.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。
附图说明
78.结合附图，通过以下非限制性实施方式的详细描述，本公开的其它特征、目的和优点将变得更加明显。在附图中：
79.图1示出根据本公开一实施方式的视频处理方法的流程图；
80.图2示出根据本公开一实施方式进行视频目标分割的结构框架图；
81.图3示出根据本公开一实施方式的半监督视频目标分割方式的一种模型实现框架图；
82.图4示出根据本公开一实施方式中pgm模块的一种实现框架图；
83.图5示出根据本公开一实施方式中orm模块的一种实现框架图；
84.图6示出根据本公开一实施方式中grm模块的一种实现框架图；
85.图7示出根据本公开另一实施方式的视频处理方法的流程图；
86.图8示出根据本公开另一实施方式的视频处理方法的流程图；
87.图9示出根据本公开一实施方式的视频处理的一种应用场景流程图；
88.图10是适于用来实现根据本公开一实施方式的视频处理方法的电子设备的结构示意图。
具体实施方式
89.下文中，将参考附图详细描述本公开的示例性实施方式，以使本领域技术人员可容易地实现它们。此外，为了清楚起见，在附图中省略了与描述示例性实施方式无关的部分。
90.在本公开中，应理解，诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在，并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
91.另外还需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
92.下面通过具体实施例详细介绍本公开实施例的细节。
93.图1示出根据本公开一实施方式的视频处理方法的流程图。如图1所示，该视频处理方法包括以下步骤：
94.在步骤s101中，获取多个连续视频帧；
95.在步骤s102中，根据当前处理帧的前一帧以及前一帧中的目标预测信息获取所述当前处理帧中目标预测信息的局部位置引导信息；
96.在步骤s103中，基于所述局部位置引导信息获取所述当前处理帧中的所述目标预测信息；所述目标预测信息包括所述当前处理帧中目标对象的位置信息。
97.本实施例中，多个连续视频帧可以是一段完整的视频或者视频中的某个视频段，多个连续视频帧中可以包括一个或多个目标对象。目标对象可以是图像中的人、动物、车辆、建筑物、标语、标识等。本公开实施例中的视频处理方法适于对视频帧进行目标分割，也
即将目标对象从视频帧中分割出来，可以实现视频中目标对象的运动跟踪，例如可以应用于视频会议，通过跟踪参会人员而将参会人员的图像从会议场景中分割出来；本公开实施例还适用于视频直播场景，通过跟踪主播而将主播图像从周边环境图像中分割出来；本公开实施例还适用于影视后期制作、视频编辑等应用场景。
98.本公开实施例中的方法通过对多个连续视频帧进行逐帧处理，从每个帧中预测出目标对象对应的目标预测信息。目标预测信息可以包括但不限于视频帧中待跟踪的目标对象在视频帧中的相位位置信息(例如目标对象的轮廓位置)，根据目标预测信息可以将目标对象从视频帧中分割出来。在一些实施例中，目标预测信息可以表示为掩膜图的形式，其大小与多个连续视频帧中的每一视频帧相同，而其元素值用于标识目标对象像素所在的位置，其取值可以为1或0，目标对象位置处的元素值可以1，而非目标对象位置处的元素值可以为0。
99.本公开实施例可以从多个连续视频帧的第二帧开始处理，第一帧作为第二帧的前一帧，其对应的目标预测信息可以通过其他方式获取，例如可以通过人工标注的方式获取等。例如，用户需要跟踪一段视频中的某个或某些目标对象时，可以在出现该目标对象或者该些目标对象的视频帧中人工标注出对应的目标预测信息(也即目标对象所在的位置信息)，而本公开实施例可以基于该人工标注的目标预测信息在后续视频帧中跟踪该目标对象，进而将目标对象从后续视频帧中分割出来，最终可以获得每个视频帧中目标对象对应的目标预测信息。因此，本公开实施例属于半监督视频分割方式。
100.对于当前处理帧而言，其前一帧可以是经过人工标注的第一帧或者是经过本公开实施例提出的视频处理方法进行目标分割的视频帧，无论是哪种情况，前一帧对应的目标预测信息均已知。
101.可以理解的是，当前处理帧与前一帧中目标对象的位置变化不会太大，因此可以通过前一帧以及前一帧中的目标预测信息对当前处理帧中的目标预测信息做指引，使得确保对当前处理帧进行处理得到的目标预测信息不会过多偏离于前一帧中的目标预测信息，也即使得当前处理帧中的目标预测信息与前一帧中的目标预测信息在空间上能够保持连续性。
102.因此，本公开实施例通过前一帧、前一帧中的目标预测信息以及当前处理帧获取局部位置引导信息。该局部位置引导信息可以包含当前待处理帧中由前一帧的目标预测信息所指引和/或限制的目标位置信息。在一些实施例中，可以通过前一帧与当前处理帧之间的位置相关性而得到局部位置引导信息，根据该局部位置引导信息能够使得最终确定的当前处理帧中的目标预测信息不会过多偏离于前一帧中的目标预测信息，也即保证了前后两帧中目标对象在空间上的连续性。
103.本公开实施例在对多个连续视频帧进行视频分割的过程中，针对当前处理帧，通过前一帧、前一帧的目标预测信息以及当前处理帧确定局部位置引导信息，进而再根据局部位置引导信息获取当前处理帧中的目标预测信息。通过上述方式，能够保证当前处理帧中得到的目标预测信息与前一帧不会出现较大偏差，并且不会在不相关的位置上产生错误的目标分割，确保分割得到的目标对象在空间上能够保持连续性。
104.在本实施例的一个可选实现方式中，所述方法还进一步包括以下步骤：
105.根据第一帧以及所述第一帧中的目标预测信息获取所述当前处理帧中目标预测
信息的目标完整性约束信息；其中，所述第一帧为所述多个连续视频帧中出现当前目标的第一个视频帧；
106.步骤s103，即基于所述局部位置引导信息获取所述当前处理帧中的所述目标预测信息的步骤，进一步包括以下步骤：
107.基于所述局部位置引导信息以及所述目标完整性约束信息获取所述当前处理帧中的目标预测信息。
108.该可选的实现方式中，目标预测信息可以理解为在当前处理帧中跟踪的目标对象的信息，而所述目标对象可以包括一个或多个，在包含多个目标对象的情况下，多个连续视频帧中由人工标注了目标预测信息的视频帧可以包括多个。当然可以理解的是，多个目标对象也可以同时在同一帧中出现，则该多个目标对象可以对应同一个第一帧，也即在同一帧中同时将多个目标对象进行了标注。第一帧可以理解为多个连续视频中人工标注了目标预测信息的视频帧。在一些实施例中，第一帧与当前处理帧的前一帧可以是同一个视频帧。
109.第一帧中的目标预测信息也可以通过其他可靠的方式得到。利用本公开实施例处理当前处理帧时，第一帧的目标预测信息已知，并且该第一帧的目标预测信息可以是完全准确或者准确度高于预定值的信息。如上文中所述，该目标预测信息可以表示为掩膜图的形式，其大小与第一帧相同，对应于目标对象的位置处的元素值可以为1，而其他位置处的元素值可以为0。
110.如上文中所述，第一帧的目标预测信息是通过人工标注方式或者其他可靠方式获取的较为准确的信息，为了保证从当前处理帧中预测得到的目标预测信息中能够包括完整的目标对象，因此本公开实施例通过引入第一帧以及第一帧的目标预测信息，预测当前处理帧中的目标预测信息。
111.在实现过程中，本公开实施例通过第一帧、第一帧中的目标预测信息以及当前处理帧获取目标完整性约束信息。该目标完整性约束信息中可以包含当前处理帧中目标预测信息的先验信息，该先验信息可以是目标对象做为一个完整物体的物体信息。在一些实施例中，目标完整性约束信息可以通过第一帧中目标预测信息对应的目标对象与当前处理帧之间的互相关性得到目标完整性约束信息，基于该目标完整性约束信息，能够使得当前处理帧中的目标预测信息包含完整的目标对象，而不会出现当前处理帧中的目标预测信息展示出的目标对象不完整、或者当前处理帧中的目标预测信息展示出的同一个目标对象被切割成多个部分等的情况发生。
112.本公开实施例在对多个连续视频帧进行视频分割的过程中，针对当前处理帧，通过前一帧、前一帧的目标预测信息以及当前处理帧确定局部位置引导信息，并通过第一帧、第一帧的目标预测信息以及当前处理帧的确定目标完整性约束信息，进而再根据局部位置引导信息和目标完整性约束信息获取当前处理帧中的目标预测信息。通过上述方式，能够保证当前处理帧中得到的目标预测信息与前一帧不会有较大偏差，并且不会在不相关的位置上产生错误的目标分割，确保分割得到的目标对象在空间上能够保持连续性；同时还能够保证当前处理帧中得到的目标预测信息中包括完整的目标对象，而不会出现目标对象残缺不完整或者被分割成多个部分的情况。
113.在本实施例的一个可选实现方式中，所述方法还包括：
114.根据历史帧以及所述历史帧中的目标预测信息获取所述当前处理帧中目标预测
信息的全局目标检索信息；所述历史帧为所述当前处理帧之前的一个或多个视频帧；
115.步骤s103，即基于所述局部位置引导信息获取所述当前处理帧中的所述目标预测信息的步骤，进一步包括以下步骤：
116.基于所述局部位置引导信息以及所述全局目标检索信息获取所述当前处理帧中的目标预测信息。
117.该可选的实现方式中，历史帧可以理解为多个连续视频帧中当前处理帧之前目标预测信息已知的全部或者部分视频帧。历史帧中可以包括上文中提到的第一帧和前一帧。历史帧对应的目标预测信息可以是利用本公开实施例提出的方法预测得到的信息，如果历史帧是多个连续视频帧中出现目标的第一帧，则该历史帧的目标预测信息也可以通过人工标注方式或其他可靠的方式得到。如上文中所述，该目标预测信息也可以表示为掩膜图的形式，其大小与历史帧一致，对应于历史帧中目标位置处的元素值可以为1，而其他位置处的元素值可以为0。
118.可以理解的是，利用本公开实施例每处理完一个视频帧，即可将该视频帧作为历史帧，并将其与目标预测信息存储起来，以作为后续视频帧的处理依据。
119.可以理解的是，通常情况下，目标对象会存在于连续多个视频帧中，因此针对当前处理帧进行目标分割时，该当前处理帧之前的多个历史帧中可能会存在一些相关信息，通过这些相关信息有助于对当前处理帧进行目标分割。因此本公开实施例通过历史帧以及历史帧中的目标预测信息来指引当前处理帧中的目标预测信息。
120.在实现过程中，本公开实施例通过历史帧、历史帧中的目标预测信息以及当前处理帧获取全局目标检索信息。该全局目标检索信息中可以包含当前处理帧中目标对象与历史帧在时间和空间维度上的相似性信息，也即历史帧中与当前处理帧中的目标对象在像素级别上的相似性信息。在一些实施例中，全局目标检索信息可以基于历史帧与当前处理帧之间的相似性而得到，通过该全局目标检索信息能够基于当前处理帧与历史帧之间的像素相似性准确预测当前处理帧中的目标预测信息。
121.在一些实施例中，可以基于局部位置引导信息和目标完整性约束信息中的一种或多种的组合、以及全局目标检索信息获得当前处理帧中的目标预测信息。
122.本公开实施例在视频目标分割过中，通过历史帧以及历史帧中的目标预测信息、第一帧以及第一帧中的目标预测信息、前一帧以及前一帧中目标预测信息进行编码，进而再对获得的编码特征与当前处理帧的编码特征进行相关性等处理之后，能够通过半监督的方式获得当前处理帧中较为准确且完整的目标预测结果。
123.在本实施例的一个可选实现方式中，步骤s102，即根据当前处理帧的前一帧以及前一帧中的目标预测信息获取所述当前处理帧中目标预测信息的局部位置引导信息的步骤，进一步包括以下步骤：
124.通过对所述当前处理帧编码获取所述当前处理帧对应的当前帧编码特征，以及通过对所述前一帧以及所述前一帧中的所述目标预测信息编码获取所述前一帧对应的前一帧编码特征；所述当前编码特征和前一帧编码特征分别包括局部键特征和值特征；
125.将位置编码特征融合至所述前一帧和所述当前处理帧分别对应的局部键特征后，得到前一帧位置融合特征和当前帧位置融合特征；
126.根据所述前一帧位置融合特征和当前帧位置融合特征获取所述前一帧与所述当
前处理帧之间的位置相关性信息；
127.基于所述前一帧的目标预测信息对所述位置相关性信息进行信息过滤；
128.基于过滤后的所述位置相关性信息以及所述当前处理帧的值特征获取所述局部位置引导信息。
129.该可选的实现方式中，在利用前一帧、前一帧中的目标预测信息以及当前处理帧获取位置引导信息的实现过程中，可以先针对前一帧、前一帧中的目标预测信息以及当前处理帧进行编码，之后再根据编码得到的特征进行相应处理。
130.在一些实施例中，可以利用预先构建的编码器模型获取当前处理帧对应的当前编码特征。编码器模型可以是神经网络模型，例如可以是类似于resnet50、vgg32、alexnet等结构的模型，具体可以根据实际需求进行变换设置，在此不再赘述。
131.在另一些实施例中，还可以利用预先构建的编码器模型获取前一帧对应的前一帧编码特征，与当前处理帧所不同的是，前一帧编码特征中编码有前一帧的目标预测信息，也即利用编码器模型对前一帧编码的过程中，输入包括前一帧以及前一帧中的目标预测信息，而利用编码器模型对当前处理帧进行编码的过程中，输入仅包括当前处理帧。在一些实施例中，前一帧和当前处理帧可以利用同一编码器模型进行编码。
132.在一些实施例中，当前编码特征和前一帧编码特征均可以分别包括局部键特征和值特征。该局部键特征可以包括目标对象的局部位置相关的特征，该局部键特征主要在利用前一帧以及前一帧对应的目标预测信息对当前处理帧的目标预测信息进行位置指引时使用，该局部键特征可以用于体现前一帧和当前帧之间目标预测信息的外观变化，由于该局部键特征仅体现的是前一帧与当前帧之间目标预测信息的外观变化，因此局部键特征包括的仅是局部位置相关的特征。
133.当前编码特征中的值特征可以包括用于解码当前处理帧中目标预测信息的图像内容特征。而前一帧编码特征中的值特征可以包括编码有前一帧中目标对象的视觉语义以及目标预测信息的特征。
134.利用前一帧以及前一帧中的目标预测信息对当前处理帧中目标预测信息的位置指引实现过程，可以举例说明如下：
135.1)将视频帧中的位置编码特征融合至前一帧和当前处理帧的局部键特征中，使得前一帧和当前处理帧对应的局部特征具有位置对应关系；位置编码特征可以是预先设定的，对应于针对视频帧中每一位置赋予的位置标识，例如可以通过序列数字对视频帧中的每一位置进行标识，也可以通过其他字符对每一位置进行标识等，具体可以根据实际应用需求设置，在此不做限制。在一些实施例中，可以通过将位置编码特征与局部键特征进行对应元素相加的方式进行融合，在其他实施例中，也可以通过将位置编码特征与局部键特征相乘、拼接等方式进行融合。也即前一帧位置融合特征为位置编码特征与前一帧对应的局部键特征之间进行对应元素相加得到的结果，当前帧位置融合特征为位置编码特征与当前处理帧的局部键特征之间进行对应元素相加得到的结果。
136.2)根据前一帧位置融合特征与当前帧位置融合特征之间的相似性获取前一帧和当前处理帧之间的位置相关性信息，该位置相关性信息可以用于表示前一帧和当前处理帧中各位置之间的相关性程度，例如前一帧中目标对象所在位置与当前处理帧中目标对象所在位置之间的相关性程度较大，而前一帧中目标对象所在位置与当前处理帧中非目标对象
所在位置之间的相关性程度较小。该位置相关性信息可以包括前一帧与当前处理帧中像素位置间的相关性程度。在一些实施例中，可以通过前一帧位置融合特征与当前帧位置融合特征之间的点积操作计算得到上述位置相关性信息。在另一些实施例中，点积操作还可以替换成叉乘、相加、拼接等其他操作。
137.3)利用前一帧中的目标预测信息对上述位置相关性信息进行过滤，以便滤除无关区域的位置相关性信息，也即滤除非目标对象位置处的位置相关性信息，只保留前一帧中的目标预测信息对应的位置相关性信息。这是因为前一帧和当前处理帧中的目标预测信息差别不会太大，当前处理帧中目标预测信息的预测与前一帧中目标预测信息对应的图像特征相关，而与前一帧中目标预测信息之外的图像特征的相关性不大，因此利用前一帧中的目标预测信息对位置相关性信息进行过滤，可以将无关区域也即非目标对象区域的位置相关性信息滤除，使得后续处理限于目标对象所在区域内的位置相关性信息，可以减少计算量以及提高目标分割的准确率。
138.4)过滤后的位置相关性信息与当前处理帧的值特征相融合之后可以得到局部位置引导信息。在一些实施例中，可以从过滤后的位置相关性信息中进一步抽取相关性程度较高的信息，例如抽取相关性程度最大的预定数量个位置相关性信息，而筛除相关性程度较低的位置相关性信息，并将抽取出的位置相关性信息与当前处理帧的值特征相融合之后得到局部位置引导信息。例如，将抽取出的预定数量个位置相关性信息与当前处理帧中的值特征进行叉乘的方式得到局部位置引导信息，也即将位置相关性信息与当前处理帧中值特征中对应位置的元素进行相乘，得到向量形式的局部位置引导信息。
139.在本实施例的一个可选实现方式中，根据第一帧以及所述第一帧中的目标预测信息获取所述当前处理帧中目标预测信息的目标完整性约束信息的步骤，进一步包括以下步骤：
140.获取所述第一帧对应的第一帧编码特征；其中所述第一帧编码特征包括局部键特征和值特征；
141.根据所述第一帧的目标预测信息从所述第一帧对应的值特征中筛选出所述第一帧中的目标值特征；
142.将所述目标值特征融合至所述当前处理帧的值特征得到第一互相关特征；
143.将所述当前处理帧的值特征融合至所述目标值特征得到第二互相关特征；
144.基于所述第一互相关特征和所述第二互相关特征获得所述目标完整性约束信息。
145.该可选的实现方式中，在利用第一帧、第一帧中的目标预测信息以及当前处理帧获取目标完整性约束信息的实现过程中，可以先针对第一帧、第一帧中的目标预测信息以及当前处理帧进行编码，之后再根据编码得到的特征进行相应处理。
146.在一些实施例中，可以利用预先构建的编码器模型获取当前处理帧对应的当前编码特征。编码器模型可以是神经网络模型，例如可以是类似于resnet50、vgg32、alexnet等结构的模型，具体可以根据实际需求进行变换设置，在此不再赘述。
147.在另一些实施例中，还可以利用预先构建的编码器模型获取第一帧对应的第一帧编码特征，与当前处理帧所不同的是，第一帧编码特征中编码有第一帧的目标预测信息，也即利用编码器模型对第一帧编码的过程中，输入包括第一帧以及第一帧中的目标预测信息，而利用编码器模型对当前处理帧进行编码的过程中，输入仅包括当前处理帧。在一些实
施例中，第一帧和当前处理帧可以利用同一编码器模型进行编码。
148.需要说明的是，如果第一帧对应的第一帧编码特征在历史处理过程中已经获得并存储，则可以直接从存储位置获取该第一帧编码特征。
149.在一些实施例中，当前编码特征和第一帧编码特征均可以分别包括值特征。当前编码特征中的值特征可以包括用于解码当前处理帧中目标预测信息的图像内容特征。而第一帧编码特征中的值特征可以包括编码有第一帧中目标对象的视觉语义以及目标预测信息的特征。需要说明的是，获取目标完整性约束信息的流程中只需要第一帧和当前处理帧的值特征。而可以理解的是，第一帧编码特征和当前编码特征中并不限于值特征，还可以包括局部键特征和全局键特征，而局部键特征和全局键特征可以在其他流程中使用。
150.第一帧中的目标预测信息可以通过人工方式标注，或者其他可靠的方式标注，因此第一帧中的目标预测信息较为完整且准确。为了保证当前处理帧中预测得到的目标预测信息中包括完整的目标对象，因此通过第一帧中的目标对象与当前处理帧中的目标对象之间的语义相关性得到目标完整性约束信息，以便在获取当前处理帧中的目标预测信息时可以参考目标完整性约束信息。
151.下面是举例说明获取目标完整性约束信息的实现方式：
152.1)利用第一帧中的目标预测信息从第一帧的值特征筛选出第一帧中目标对象对应的目标值特征。也即从第一帧对应的所有值特征中筛选出目标对象所在位置处的值特征。
153.2)对所述目标值特征和当前处理帧的值特征进行互相关操作，也即通过将目标值特征融合至当前处理帧的值特征的方式，获取当前处理帧关注第一帧中目标预测信息中的值特征而得到的第一互相关特征，并通过将当前处理帧的值特征融合至目标值特征的方式，获取第一帧中目标值特征关注当前处理帧的值特征而得到的第二互相关特征。
154.3)基于第一互相关特征和第二互相关特征获取目标完整性约束信息。在一些实施例中，可以将目标值特征与第一互相关特征相加之后，执行全局均值池化(gap，global average pooling)操作；而当前处理帧的值特征与第二互相关特征相加之后，与上述进行gap操作后得到的结果进行叉乘，叉乘结果即为目标完整性约束信息。
155.在本实施例的一个可选实现方式中，根据历史帧以及所述历史帧中的目标预测信息获取所述当前处理帧中目标预测信息的全局目标检索信息的步骤，进一步包括以下步骤：
156.获取所述历史帧的历史编码特征；其中所述历史编码特征包括全局键特征和值特征；
157.根据所述历史编码特征和当前帧编码特征计算所述历史帧与所述当前帧之间的相似度；
158.利用所述相似度对所述历史编码特征的值特征进行加权处理，以获得加权值特征；
159.将所述加权值特征和所述当前帧编码特征的值特征拼接后得到所述全局目标检索信息。
160.该可选的实现方式中，在利用历史帧、历史帧中的目标预测信息以及当前处理帧获取全局目标检索信息的实现过程中，可以先针对历史帧、历史帧中的目标预测信息以及
当前处理帧进行编码，之后再根据编码得到的特征进行相应处理。
161.在一些实施例中，可以利用预先构建的编码器模型获取当前处理帧对应的当前编码特征。编码器模型可以是神经网络模型，例如可以是类似于resnet50、vgg32、alexnet等结构的模型，具体可以根据实际需求进行变换设置，在此不再赘述。
162.在另一些实施例中，还可以利用预先构建的编码器模型获取历史帧对应的历史帧编码特征，与当前处理帧所不同的是，历史帧编码特征中编码有历史帧的目标预测信息，也即利用编码器模型对历史帧编码的过程中，输入包括历史帧以及历史帧中的目标预测信息，而利用编码器模型对当前处理帧进行编码的过程中，输入仅包括当前处理帧。在一些实施例中，历史帧和当前处理帧可以利用同一编码器模型进行编码。
163.需要说明的是，如果历史帧对应的历史帧编码特征在历史处理过程中已经获得并存储，则可以直接从存储位置获取该历史帧编码特征。
164.在一些实施例中，当前编码特征和历史帧编码特征均可以分别包括值特征和全局键特征。当前编码特征中的值特征可以包括用于解码当前处理帧中目标预测信息的图像内容特征。而历史帧编码特征中的值特征可以包括历史帧中目标对象的视觉语义特征，当前编码特征和历史帧编码特征中的全局键特征包括目标对象的位置特征。
165.下面是举例说明获取全局目标检索信息的实现方式：
166.1)对当前处理帧和历史帧对应的全局键特征进行叉乘操作，叉乘结果经过softmax函数之后可以得到当前处理帧与历史帧中像素级别的相似度；
167.2)将上述相似度作为权重，对历史帧对应的值特征加权处理，加权处理的结果即为加权值特征；
168.3)该加权值特征可以与当前处理帧的值特征进行拼接，拼接结果即为全局目标检索信息。
169.在一些实施例中，可以利用基于局部位置引导信息、全局目标检索信息和目标完整性约束信息获取所述当前处理帧中的目标预测信息。该实施例中，可以获取当前处理帧对应的局部键特征、值特征和全局键特征，进而还可以获取第一帧的值特征和历史帧的值特征、全局键特征。
170.对上述特征经过如上文中所述的相应处理之后，可以得到局部位置引导信息、全局目标检索信息和目标完整性约束信息，进而通过将局部位置引导信息、全局目标检索信息和目标完整性约束信息进行拼接，进而再根据拼接结果得到当前处理帧的目标预测信息。
171.在本实施例的一个可选实现方式中，所述方法还进一步包括以下步骤：
172.将所述目标预测信息输出至用户设备；
173.从所述用户设备接收用户对所述目标预测信息的反馈数据；其中所述反馈数据包括所述当前处理处理帧中所述目标预测信息的纠正信息；
174.根据所述纠正信息对所述当前处理帧中的目标预测信息进行更新。
175.该可选的实现方式中，从当前处理帧中获得目标预测信息之后，可以将该目标预测信息输出至用户设备，例如可以在当前处理帧中，将目标预测信息所对应位置处的图像渲染成其他颜色之后输出至用户设备，以便用户设备查看本次处理结果的准确性。
176.用户接收到该目标预测信息之后，如果发现目标预测信息与目标对象的真实位置
有差距，还可以在用户设备上对目标预测信息进行修正。例如用户设备可以提供用户对当前处理帧图像的编辑接口，以便用户对目标预测信息进行纠正，比如将未识别出信息通过划线、点选等操作添加至原目标预测信息，而将识别错误的一些信息从原目标预测信息中删除。用户设备可以将用户的纠正信息反馈至进行目标分割的后台服务器。
177.在接收到用户设备的反馈数据之后，可以根据反馈数据中对目标预测信息的纠正信息对当前处理帧的目标预测信息进行更新。通过这种方式，可以人工校准当前处理帧的目标预测信息，进而能够提高后续帧的目标分割准确率。
178.在本实施例的一个可选实现方式中，所述方法还进一步包括以下步骤：
179.将所述当前处理帧以及所述多个连续视频帧中的剩余视频帧确定为新的多个连续视频帧，并将所述当前处理帧确定为所述多个连续视频帧中的第一帧。
180.该可选的实现方式中，在接收到用户针对当前处理帧的目标预测信息的纠正信息之后，根据该纠正信息对目标预测信息更新。而更新后的目标预测信息可以理解为对当前处理帧的人工标注信息，额吉更新后的目标预测信息是较为准确的信息。因此可以将当前处理帧作为第一帧，而以当前处理帧中的目标预测信息作为半监督信息对后续的视频帧进行目标分割处理。通过这种方式，可以避免由于当前处理帧中自动识别出的目标预测信息的不准确，而导致后续视频帧中目标预测信息不准确的问题。
181.在本实施例的一个可选实现方式中，步骤s101，即获取多个连续视频帧的之前，所述方法还进一步包括以下步骤：
182.从用户设备接收用户上传的视频以及所述视频中的目标标注信息；
183.将所述目标标注信息所对应的视频帧确定为所述多个连续视频帧中的第一帧，将所述目标标注信息确定为所述第一帧对应的目标预测信息。
184.该可选的实现方式中，本公开实施例中的视频处理方法可以在服务器上实现。用户通过用户设备将视频上传至服务器，同时还可以针对要进行目标分割的目标对象，在至少一个视频帧给出目标标注信息。该目标标注信息可以是用户通过视频编辑接口，通过点选或者划线等方式在其中一个或多个视频帧中勾画出目标对象而得到的信息，例如可以包括目标对象在对应视频帧中的位置信息等。
185.在接收到用户上传的视频以及对应的目标标注信息之后，可以将该目标标注信息所对应的视频帧作为第一帧，而将该第一帧以及后续的视频帧作为多个连续视频帧，并将该目标标注信息作为第一帧中的目标预测信息之后，利用本公开实施例提出的视频处理方法对第一帧之后的视频帧进行目标分割处理，针对第一帧之后的视频帧所获得的目标预测信息均可以返回给用户设备，以供用户使用。
186.这种方式可以适用于多种应用场景，例如视频编辑、影视后期制作等。用户可以针对在待编辑的视频中标注出需要进行目标分割的人、物、车辆等目标对象，并将待编辑的视频以及标注信息上传至服务器，服务器可以基于标注信息自动对待编辑的视频中的每一帧进行目标分割，并将分割结果返回给用户。
187.在本实施例的一个可选实现方式中，步骤s101，即获取多个连续视频帧的之前，所述方法还进一步包括以下步骤：
188.从用户设备接收用户上传的视频以及所述视频中的多个目标标注信息；
189.根据所述多个目标标注信息将所述视频划分成多组视频帧集合，每组所述视频帧
集合包括多个连续视频帧，且对应于所述目标标注信息的视频帧作为所述多个连续视频帧中的第一帧。
190.该可选的实现方式中，视频中如果有多个需要进行分割的目标对象的话，用户可以针对每个目标对象进行标注，也即针对每个目标对象给出目标标注信息。需要说明的是，如果两个或两个以上的目标对象在同一帧中第一次出现的话，可以分别对这两个或两个以上的目标对象进行标注，而在目标分割的时候，可以分别对这两个或两个以上的目标对象进行分割。还需要说明的是，如果两个或两个以上的目标对象第一次出现的帧不同时，可以在不同帧中分别标注出不同的目标对象，进而再分别进行目标分割。
191.服务器在接收到上传的视频以及对应的目标标注信息之后，可以根据目标标注信息把视频划分成多组视频帧，并针对每组视频帧分别进行目标分割。针对每组视频帧分割对应的一个目标对象，并且该组视频帧中的第一帧为标注有该目标对象的视频帧。
192.图2示出根据本公开一实施方式进行视频目标分割的结构框架图。如图2所示，编码器模型对当前处理帧进行编码，获得当前帧编码特征；当前帧编码特征包局部键特征、值特征和全局键特征。编码器模型还对前一帧和前一帧的目标预测信息进行编码，获得前一帧编码特征。前一帧编码特征包括局部键特征、值特征和全局键特征。前一帧编码特征的值特征和全局特征可以存储至缓存设备中，以便后续处理中作为历史帧的历史编码特征使用。
193.位置引导模块(pgm，position guide module)获取当前处理帧对应的值特征和局部键特征、前一帧对应的值特征和局部键特征，并根据当前处理帧对应的值特征和局部键特征、前一帧对应的值特征和局部键特征，获取局部位置引导信息，局部位置引导信息的相关细节可以参见上文中的描述，在此不再赘述。
194.物体关系模块(orm，object relation module)获取第一帧的值特征(可以从缓存设备获取)和当前处理帧的值特征，并根据第一帧的值特征(可以从缓存设备获取)和当前处理帧的值特征获取目标完整性约束信息，目标完整性约束信息的相关细节可以参见上文中的描述，在此不再赘述。
195.全局检索模块(grm，global retrieval module)获取历史帧和当前处理帧的值特征、全局键特征，并根据历史帧和当前处理帧的值特征、全局键特征获取全局目标检索信息，全局目标检索信息的具体细节可以参见上文中的描述，在此不再赘述。
196.解码器模型获取局部位置引导信息、目标完整性约束信息和全局检索信息，进而通过对局部位置引导信息、目标完整性约束信息和全局检索信息解码获得当前处理帧的目标预测信息。
197.图3示出根据本公开一实施方式中半监督视频目标分割方式的一种模型实现框架图。如图3所示，假设多个连续视频帧包括n帧，历史帧包括t＝1,2,
……
，n-1，第一帧为t＝1帧，当前处理帧为t＝n帧，前一帧为t＝n-1帧。历史帧编码特征enc(m)以及目标预测信息存储在内存池中，在对当前处理帧进行目标分割的过程中，首先通过人工标注出第一帧的目标预测信息，之后从第2帧开始，利用本公开实施例提出的视频处理方法进行处理。针对当前处理帧，从内存池获取除前一帧外的历史帧编码特征。历史帧编码特征可以包括两种特征：值特征value和全局键特征key-g。
198.针对当前处理帧，利用编码器模型基于前一帧以及前一帧中的目标预测信息获取
前一帧编码特征，前一帧编码特征可以包括三种特征：局部键特征key-l、值特征value和全局键特征key-g。在获取前一帧编码特征之后，将其中的值特征value和全局键特征key-g存储至内存池中。
199.针对当前处理帧，还利用编码器模型基于当前处理帧获取当前帧编码特征，包括：局部键特征key-l、值特征value和全局键特征key-g。
200.前一帧的局部键特征key-l、当前帧的局部键特征key-l以及当前帧的值特征value输入至位置引导模块(pgm，position guide module)，pgm模块输出局部位置引导信息。
201.从内存池中获取的第一帧的值特征value和当前处理帧的值特征value输入至物体关系模块(orm，object relation module)，orm模块输出目标完整性约束信息。
202.从内存池中获取的所有历史帧的值特征value、全局键特征key-g和当前处理帧的值特征value、全局键特征key-g输入至全局检索模块(grm，global retrieval module)模块，grm输出全局目标检索信息。
203.局部位置引导信息、目标完整性约束信息和全局目标检索信息拼接之后输入至解码器模型，输出解码特征，根据解码特征可以预测得到当前处理帧中的目标预测信息。
204.图4示出根据本公开一实施方式中pgm模块的一种实现框架图。如图4所示，位置编码特征分别与当前处理帧的局部键特征key-l(q)、前一帧的局部键特征key-l(m)进行元素加和操作之后，其输出经过卷积处理之后分别得到前一帧位置融合特征(hq×
wq×
c，其中，hq、wq、c分别为该前一帧位置融合特征的三个不同维度)和当前帧位置融合特征(hm×
wm×
c，其中，hw、ww、c分别为该当前帧位置融合特征的三个不同维度)，前一帧位置融合特征与当前帧位置融合特征进行元素内积操作之后，获得前一帧和当前处理帧之间的位置相关性信息hqwq×hm
wm，在hqwq维度上对位置相关性信息经过softmax函数，获得的处理结果与后面提到的前一帧的目标预测信息进行融合。前一帧的目标预测信息prediction
t-1
经过多次变换后形成1
×hm
wm的形式，将该1
×hm
wm形式的向量复制(broadcast)多份后，与经过softmax函数得到的位置相关性信息进行叉乘，进而再从叉乘结果hqwq×hm
wm选取k个最大的信息hqwq×
k，并获取该k个最大的信息的均值hqwq×
1，该均值经过变换形成hq×
wq形式，进而再对其复制(broadcast)多份后，与当前处理帧的值特征value(q)进行叉乘得到局部位置引导信息。
205.图5示出根据本公开一实施方式中orm模块的一种实现框架图。如图5所示，orm模块为目标关系模块。该orm模块中，基于第一帧中的目标预测信息从第一帧的值特征value(m)抽取目标特征，获得目标值特征，将该目标值特征结合到当前处理帧的值特征value(q)获得第一互相关特征，将当前处理帧的值特征value(q)融合到该目标值特征得到第二互相关特征。目标值特征与第一互相关特征加和操作后，得到的结果进行gap(global average pooling，全局均值池化)操作；当前处理帧的值特征value(q)与第二互相关特征加和操作之后，与gap操作的结果进行叉乘操作，得到目标完整性约束信息。
206.图6示出根据本公开一实施方式中grm模块的一种实现框架图。如图6所示，grm模块为全局检索模块。该grm模块中，当前处理帧的全局键特征key-g(q)与历史帧的全局键特征key-g(m)经过叉乘之后，再通过softmax函数获得当前处理帧与历史帧之间的位置相关性信息，该位置相关性信息与历史帧的值特征value(m)进行叉乘之后，与当前处理帧的值
特征value(q)进行拼接操作(concat)，进而再获得全局目标检索信息。
207.图7示出根据本公开另一实施方式的视频处理方法的流程图。如图7所示，该视频处理方法包括以下步骤：
208.在步骤s701中，获取视频处理数据；所述视频处理数据包括多个连续视频帧以及所述多个连续视频帧中出现目标对象的第一帧中的目标预测信息；
209.在步骤s702中，根据当前处理帧的前一帧以及前一帧中的目标预测信息获取所述当前处理帧中目标预测信息的局部位置引导信息；
210.在步骤s703中，根据第一帧以及所述第一帧中的目标预测信息获取所述当前处理帧中目标预测信息的目标完整性约束信息；其中，所述第一帧为所述多个连续视频帧中出现当前目标的第一个视频帧；
211.在步骤s704中，根据历史帧以及所述历史帧中的目标预测信息获取所述当前处理帧中目标预测信息的全局目标检索信息；所述历史帧为所述当前处理帧之前的一个或多个视频帧；
212.在步骤s705中，基于所述局部位置引导信息、所述目标完整性约束信息和所述全局目标检索信息解码获取所述当前处理帧中的目标预测信息，其中所述目标预测信息包括所述当前处理帧中目标对象的位置信息。
213.本实施例中，多个连续视频帧可以是一段完整的视频或者视频中的某个视频段，多个连续视频帧中可以包括一个或多个目标对象。目标对象可以是图像中的人、动物、车辆、建筑物、标语等。本公开实施例中的视频处理方法适于对视频帧进行目标分割，也即将目标对象从视频帧中分割出来，可以实现视频中目标对象的运动跟踪，例如可以应用于视频会议，通过跟踪参会人员而将参会人员的图像从会议场景中分割出来；本公开实施例还适用于视频直播场景，通过跟踪主播而将主播图像从周边环境图像中分割出来；本公开实施例还适用于影视后期制作、视频编辑等应用场景。
214.本公开实施例中的方法通过对多个连续视频帧进行逐帧处理，从每个帧中预测出目标对象对应的目标预测信息。目标预测信息可以包括但不限于视频帧中待跟踪的目标对象在视频帧中的相位位置信息(例如目标对象的轮廓位置)，根据目标预测信息可以将目标对象从视频帧中分割出来。在一些实施例中，目标预测信息可以表示为掩膜图的形式，其大小与多个连续视频帧中的每一视频帧相同，而其元素值用于表示目标对象像素的位置，其可以为1或0，目标对象位置处的元素值可以1，而非目标对象位置处的元素值可以为0。
215.本公开实施例可以从多个连续视频帧的第二帧开始处理，第一帧作为第二帧的前一帧，其对应的目标预测信息可以通过其他方式获取，例如可以通过人工标注的方式获取等。例如，用户需要跟踪一段视频中的某个或某些目标对象时，可以在出现该目标对象或者该些目标对象的视频帧中人工标注出对应的目标预测信息(也即目标对象所在的位置信息)，而本公开实施例可以基于该人工标注的目标预测信息在后续视频帧中跟踪该目标对象，进而将目标对象从后续视频帧中分割出来，最终可以获得每个视频帧中目标对象对应的目标预测信息。因此，本公开实施例属于半监督视频分割方式。
216.需要说明的是历史帧包括多个连续视频帧中出现目标对象的第一帧以及前一帧之前的所有视频帧或者部分视频帧。
217.利用前一帧中的目标预测信息、前一帧、当前处理帧可以获得局部位置引导信息，
具体细节可以参见上文中的描述，在此不再赘述。
218.利用第一帧的目标预测信息、第一帧以及当前处理帧可以获取目标完整性约束信息，具体细节可以参见上文中的描述，在此不再赘述。
219.利用前一帧、第一帧、其他历史帧以及当前处理帧可以获取全局目标检索信息，具体细节可以参见上文中的描述，在此不再赘述。
220.利用局部位置引导信息、目标完整性约束信息和全局目标检索信息可以预测当前处理帧中的目标预测信息。
221.本实施例中的相关细节均可以参见上述对其他实施例的描述，在此不再赘述。
222.本公开实施例在对多个连续视频帧进行视频分割的过程中，针对当前处理帧，通过前一帧征、前一帧的目标预测信息以及当前处理帧确定局部位置引导信息，并通过第一帧、第一帧的目标预测信息以及当前处理帧确定目标完整性约束信息，还通过历史帧、历史帧的目标预测信息以及当前处理帧确定全局目标检索信息，进而再根据局部位置引导信息、目标完整性约束信息和全局目标检索信息获取当前处理帧中的目标预测信息。通过上述方式，能够保证当前处理帧中得到的目标预测信息与前一帧不会有较大偏差，并且不会在不相关的位置上产生错误的目标分割，确保分割得到的目标在空间上能够保持连续性。
223.图8示出根据本公开另一实施方式的视频处理方法的流程图。如图8所示，该视频处理方法包括以下步骤：
224.在步骤s801中，获取视频处理数据；所述视频处理数据包括多个连续视频帧以及所述多个连续视频帧中出现目标对象的第一帧中的目标预测信息；
225.在步骤s802中，调用预设服务接口，以便由所述预设服务接口从所述多个连续视频帧的第二帧开始，根据当前处理帧的前一帧以及前一帧中的目标预测信息获取所述当前处理帧中目标预测信息的局部位置引导信息，基于所述局部位置引导信息获取所述当前处理帧中的所述目标预测信息；其中所述目标预测信息包括所述当前处理帧中目标对象的位置信息；
226.在步骤s803中，输出所述多个视频处理帧对应的目标预测信息。
227.本实施例中，该方法可以在云端执行。预设服务接口可以预先部署在云端，该预设服务接口可以是saas(software-as-a-service，软件即服务)接口，需求方可以预先获得该预设服务接口的使用权，在需要时可以通过调用该预设服务接口对需要处理的视频进行目标分割，该预设服务接口实现的是本公开实施例提出的视频处理方法。
228.本实施例中，需求方可以将需要处理的多个连续视频帧以及标注有目标预测信息的第一帧提供给预设服务接口，由预设服务接口对后续视频帧进行目标分割处理。
229.多个连续视频帧可以是一段完整的视频或者视频中的某个视频段，多个连续视频帧中可以包括一个或多个目标对象。目标对象可以是图像中的人、动物、车辆、建筑物、标语等。本公开实施例中的视频处理方法适于对视频帧进行目标分割，也即将目标对象从视频帧中分割出来，可以实现视频中目标对象的运动跟踪，例如可以应用于视频会议，通过跟踪参会人员而将参会人员的图像从会议场景中分割出来；本公开实施例还适用于视频直播场景，通过跟踪主播而将主播图像从周边环境图像中分割出来；本公开实施例还适用于影视后期制作、视频编辑等应用场景。
230.本公开实施例中的方法通过对多个连续视频帧进行逐帧处理，从每个帧中预测出
目标对象对应的目标预测信息。目标预测信息可以包括但不限于视频帧中待跟踪的目标对象在视频帧中的相位位置信息(例如目标对象的轮廓位置)，根据目标预测信息可以将目标对象从视频帧中分割出来。在一些实施例中，目标预测信息可以表示为掩膜图的形式，其大小与多个连续视频帧中的每一视频帧相同，而其元素值用于表示目标对象像素位置，其可以为1或0，目标对象位置处的元素值可以1，而非目标对象位置处的元素值可以为0。
231.本公开实施例可以从多个连续视频帧的第二帧开始处理，第一帧作为第二帧的前一帧，其对应的目标预测信息可以通过其他方式获取，例如可以通过人工标注的方式获取等。例如，用户需要跟踪一段视频中的某个或某些目标对象时，可以在出现该目标对象或者该些目标对象的视频帧中人工标注出对应的目标预测信息(也即目标对象所在的位置信息)，而本公开实施例可以基于该人工标注的目标预测信息在后续视频帧中跟踪该目标对象，进而将目标对象从后续视频帧中分割出来，最终可以获得每个视频帧中目标对象对应的目标预测信息。因此，本公开实施例属于半监督视频分割方式。
232.对于当前处理帧而言，其前一帧可以是经过人工标注的第一帧或者是经过本公开实施例提出的视频处理方法进行目标分割的视频帧，无论是哪种情况，前一帧对应的目标预测信息均已知。
233.可以理解的是，当前处理帧与前一帧中目标对象的位置变化不会太大，因此可以通过前一帧以及前一帧中的目标预测信息对当前处理帧中的目标预测信息做指引，使得确保对当前处理帧进行处理得到的目标预测信息不会过多偏离于前一帧中的目标预测信息，也即使得当前处理帧中的目标预测信息与前一帧中的目标预测信息在空间上能够保持连续性。
234.因此，本公开实施例通过前一帧、前一帧中的目标预测信息以及当前处理帧获取局部位置引导信息。该局部位置引导信息可以包含当前待处理帧中由前一帧的目标预测信息所指引和/或限制的目标位置信息。在一些实施例中，可以通过前一帧与当前处理帧之间的位置相关性而得到局部位置引导信息，根据该局部位置引导信息能够使得最终确定的当前处理帧中的目标预测信息不会过多偏离于前一帧中的目标预测信息，也即保证了前后两帧中目标对象在空间上的连续性。
235.本公开实施例在对多个连续视频帧进行视频分割的过程中，针对当前处理帧，通过前一帧、前一帧的目标预测信息以及当前处理帧确定局部位置引导信息，进而再根据局部位置引导信息获取当前处理帧中的目标预测信息。通过上述方式，能够保证当前处理帧中得到的目标预测信息与前一帧不会出现较大偏差，并且不会在不相关的位置上产生错误的目标分割，确保分割得到的目标对象在空间上能够保持连续性。
236.本公开实施例提出的视频处理方法的实现流程可以部署在云端，并且可以以远程调用接口的形式对外提供服务。用户可以在用户设备上，将待处理视频通过该远程调用接口上传至云端，云端利用上述实现流程对视频进行处理，并且云端可以将处理结果返回至用户设备，供用户使用。上述应用过程可以在多种应用场景下使用，比如视频会议、视频直播、视频编辑、影视制作、商品信息提取等场景。
237.下面以视频直播为例，说明本公开实施例在具体应用场景下的实现流程。
238.图9示出根据本公开一实施方式的视频处理的一种应用场景流程图。如图9所示，在视频直播过程中，为了营造直播气氛，可以利用本公开实施例提出的视频处理方法将视
频帧中的主播图像从视频帧中分割出来，进而可以将主播图像与虚拟背景相结合形成直播视频后上传至直播平台，供用户点击观看。
239.在主播端，主播可以利用主播设备上的视频app采集直播过程中的视频数据，主播设备将采集的视频数据输出至后台服务器。后台服务器可以利用已知的目标分割模型(例如静态目标分割模型)对视频数据中的第一帧进行处理，获得第一帧中主播图像的位置轮廓信息，并将第一帧以及第一帧中主播的位置轮廓信息传送至云端，并实时将后续采集到的视频帧传送至云端，云端部署的视频处理接口按照本公开实施例提出的视频处理方法对后续的视频帧进行处理，进而获得后续每一帧中主播图像的位置轮廓信息，同时云端还将每一帧对应的主播图像的位置轮廓信息返回给后台服务器，后台服务器可以根据主播图像的位置轮廓信息从每一帧中提取主播图像，进而再将所提取的主播图像渲染至预先设定的虚拟背景中，将其发布至视频直播平台，供用户通过用户设备选择观看。需要说明的是，后台服务器用来对第一帧进行目标分割的目标分割模型可以选用已有的，并且该目标分割模型可以是针对静态图像进行目标分割的模型，而本公开实施例提出的视频处理方法由于具有较好的空间连续性和目标检测的完整性，能够从后续的视频帧中准确定位主播图像的位置，并能准确提取出主播对应的图像信息。
240.可以理解的是，本公开实施例不限于上述目标跟踪相关的应用场景，还可以应用于如目标数量的检测等的从场景。例如，在商品或者货物管理过程中，用户可以通过视频采集设备采集摆放在一位置处的多个商品的视频，并给出其中一个视频帧中所有商品的目标标注信息。该视频采集设备可以持续采集视频帧，并通过用户设备将持续采集的视频帧上传至云端，云端通过调用实现本公开实施例方法的服务接口，对后续视频帧进行目标分割，以便从后续视频帧中将商品图像分割出来。云端将针对每个视频帧得到的目标预测信息返回给用户设备。用户设备可以通过比较后续视频帧中目标预测信息与用户给出的目标标注信息，进而确定商品或货物数量的增加或减少。
241.下述为本公开装置实施例，可以用于执行本公开方法实施例。
242.根据本公开一实施方式的视频处理装置，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。该视频处理装置包括：
243.第一获取模块，被配置为获取多个连续视频帧；
244.第二获取模块，被配置为根据当前处理帧的前一帧以及前一帧中的目标预测信息获取所述当前处理帧中目标预测信息的局部位置引导信息；
245.第三获取模块，被配置为基于所述局部位置引导信息获取所述当前处理帧中的所述目标预测信息；其中所述目标预测信息包括所述当前处理帧中目标对象的位置信息。
246.在本实施例的一个可选实现方式中，所述装置还包括：
247.第四获取模块，被配置为根据第一帧以及所述第一帧中的目标预测信息获取所述当前处理帧中目标预测信息的目标完整性约束信息；其中，所述第一帧为所述多个连续视频帧中出现当前目标的第一个视频帧；
248.所述第三获取模块，包括：
249.第一获取子模块，被配置为基于所述局部位置引导信息以及所述目标完整性约束信息获取所述当前处理帧中的目标预测信息。
250.在本实施例的一个可选实现方式中，所述装置还包括：
251.第五获取模块，被配置为根据历史帧以及所述历史帧中的目标预测信息获取所述当前处理帧中目标预测信息的全局目标检索信息；所述历史帧为所述当前处理帧之前的一个或多个视频帧；
252.所述第三获取模块，包括：
253.第二获取子模块，被配置为基于所述局部位置引导信息以及所述全局目标检索信息获取所述当前处理帧中的目标预测信息。
254.在本实施例的一个可选实现方式中，所述第二获取模块，包括：
255.第三获取子模块，被配置为通过对所述当前处理帧编码获取所述当前处理帧对应的当前帧编码特征，以及通过对所述前一帧以及所述前一帧中的所述目标预测信息编码获取所述前一帧对应的前一帧编码特征；所述当前编码特征和前一帧编码特征分别包括局部键特征和值特征；
256.第一融合子模块，被配置为将位置编码特征融合至所述前一帧和所述当前处理帧分别对应的局部键特征后，得到前一帧位置融合特征和当前帧位置融合特征；
257.第四获取子模块，被配置为根据所述前一帧位置融合特征和当前帧位置融合特征获取所述前一帧与所述当前处理帧之间的位置相关性信息；
258.过滤子模块，被配置为基于所述前一帧的目标预测信息对所述位置相关性信息进行信息过滤；
259.第五获取子模块，被配置为基于过滤后的所述位置相关性信息以及所述当前处理帧的值特征获取所述局部位置引导信息。
260.在本实施例的一个可选实现方式中，所述第四获取模块，包括：
261.第六获取子模块，被配置为获取所述第一帧对应的第一帧编码特征；其中所述第一帧编码特征包括值特征；
262.筛选子模块，被配置为根据所述第一帧的目标预测信息从所述第一帧对应的值特征中筛选出所述第一帧中的目标值特征；
263.第二融合子模块，被配置为将所述目标值特征融合至所述当前处理帧的值特征得到第一互相关特征；
264.第三融合子模块，被配置为将所述当前处理帧的值特征融合至所述目标值特征得到第二互相关特征；
265.第七获取子模块，被配置为基于所述第一互相关特征和所述第二互相关特征获得所述目标完整性约束信息。
266.在本实施例的一个可选实现方式中，所述装置还包括：
267.第一输出模块，被配置为将所述目标预测信息输出至用户设备；
268.第一接收模块，被配置为从所述用户设备接收用户对所述目标预测信息的反馈数据；其中所述反馈数据包括所述当前处理处理帧中所述目标预测信息的纠正信息；
269.更新模块，被配置为根据所述纠正信息对所述当前处理帧中的目标预测信息进行更新。
270.在本实施例的一个可选实现方式中，所述装置还包括：
271.第一确定模块，被配置为将所述当前处理帧以及所述多个连续视频帧中的剩余视频帧确定为新的多个连续视频帧，并将所述当前处理帧确定为所述多个连续视频帧中的第
一帧。
272.在本实施例的一个可选实现方式中，所述第一获取模块之前，所述装置还包括：
273.第二接收模块，被配置为从用户设备接收用户上传的视频以及所述视频中的目标标注信息；
274.第二确定模块，被配置为将所述目标标注信息所对应的视频帧确定为所述多个连续视频帧中的第一帧，将所述目标标注信息确定为所述第一帧对应的目标预测信息。
275.在本实施例的一个可选实现方式中，所述第一获取模块之前，所述装置还包括：
276.第三接收模块，被配置为从用户设备接收用户上传的视频以及所述视频中的多个目标标注信息；
277.划分模块，被配置为根据所述多个目标标注信息将所述视频划分成多组视频帧集合，每组所述视频帧集合包括多个连续视频帧，且对应于所述目标标注信息的视频帧作为所述多个连续视频帧中的第一帧。
278.在本实施例的一个可选实现方式中，所述第五获取模块，包括：
279.第八获取子模块，被配置为获取所述历史帧的历史编码特征；其中所述历史编码特征包括全局键特征和值特征；
280.计算子模块，被配置为根据所述历史编码特征和当前帧编码特征计算所述历史帧与所述当前帧之间的相似度；
281.加权子模块，被配置为利用所述相似度对所述历史编码特征的值特征进行加权处理，以获得加权值特征；
282.拼接子模块，被配置为将所述加权值特征和所述当前帧编码特征的值特征拼接后得到所述全局目标检索信息。
283.本公开实施例中的视频处理方法与图1所示实施例及相关实施例中的视频处理方法对应一致，具体细节可以参见上述对图1所示实施例及相关实施例的描述，在此不再赘述。
284.根据本公开另一实施方式的视频处理装置，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。该视频处理装置包括：
285.第六获取模块，被配置为获取视频处理数据；所述视频处理数据包括多个连续视频帧以及所述多个连续视频帧中出现目标对象的第一帧中的目标预测信息；
286.第七获取模块，被配置为根据当前处理帧的前一帧以及前一帧中的目标预测信息获取所述当前处理帧中目标预测信息的局部位置引导信息；
287.第八获取模块，被配置为根据第一帧以及所述第一帧中的目标预测信息获取所述当前处理帧中目标预测信息的目标完整性约束信息；其中，所述第一帧为所述多个连续视频帧中出现当前目标的第一个视频帧；
288.第九获取模块，被配置为根据历史帧以及所述历史帧中的目标预测信息获取所述当前处理帧中目标预测信息的全局目标检索信息；所述历史帧为所述当前处理帧之前的一个或多个视频帧；
289.第十获取模块，被配置为基于所述局部位置引导信息、所述目标完整性约束信息和所述全局目标检索信息解码获取所述当前处理帧中的目标预测信息，其中所述目标预测信息包括所述当前处理帧中目标对象的位置信息。
290.本公开实施例中的视频处理方法与图7所示实施例及相关实施例中的视频处理方法对应一致，具体细节可以参见上述对图7所示实施例及相关实施例的描述，在此不再赘述。
291.根据本公开另一实施方式的视频处理装置，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。该视频处理装置包括：
292.第十一获取模块，被配置为获取视频处理数据；所述视频处理数据包括多个连续视频帧以及所述多个连续视频帧中出现目标对象的第一帧中的目标预测信息；
293.调用模块，被配置为调用预设服务接口，以便由所述预设服务接口从所述多个连续视频帧的第二帧开始，根据当前处理帧的前一帧以及前一帧中的目标预测信息获取所述当前处理帧中目标预测信息的局部位置引导信息，基于所述局部位置引导信息获取所述当前处理帧中的所述目标预测信息；其中所述目标预测信息包括所述当前处理帧中目标对象的位置信息；
294.第二输出模块，被配置为输出所述多个视频处理帧对应的目标预测信息。
295.本公开实施例中的视频处理方法与图8所示实施例及相关实施例中的视频处理方法对应一致，具体细节可以参见上述对图8所示实施例及相关实施例的描述，在此不再赘述。
296.图10是适于用来实现根据本公开实施方式的视频处理方法的电子设备的结构示意图。
297.如图10所示，电子设备1000包括处理单元1001，其可实现为cpu、gpu、fpga、npu等处理单元。处理单元1001可以根据存储在只读存储器(rom)1002中的程序或者从存储部分1008加载到随机访问存储器(ram)1003中的程序而执行本公开上述任一方法的实施方式中的各种处理。在ram1003中，还存储有电子设备1000操作所需的各种程序和数据。处理单元1001、rom1002以及ram1003通过总线1004彼此相连。输入/输出(i/o)接口1005也连接至总线1004。
298.以下部件连接至i/o接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至i/o接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。
299.特别地，根据本公开的实施方式，上文参考本公开实施方式中的任一方法可以被实现为计算机软件程序。例如，本公开的实施方式包括一种计算机程序产品，其包括有形地包含在及其可读介质上的计算机程序，所述计算机程序包含用于执行本公开实施方式中任一方法的程序代码。在这样的实施方式中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。
300.附图中的流程图和框图，图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所
标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
301.描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
302.作为另一方面，本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。
303.以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：行人图像的检测网络、检测方法、训练方法、电子设备和介质与流程

视频处理方法、装置、电子设备及存储介质与流程

相关文献

最热文献