一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

视频密集预测方法及其装置与流程

2022-11-30 10:39:51 来源:中国专利 TAG:


1.本技术属于图像处理技术领域,具体涉及一种视频密集预测方法及其装置。


背景技术:

2.随着深度学习在计算机视觉任务上的发展,一些通过传统方法比较难解决的任务,因为深度学习方法的引入使得任务被简化。
3.目前深度学习的很多成果已经得到具体应用,如将图像的密集预测应用于图像处理中,可以使得图像处理效果更好。例如,将基于密集语义预测的图像分割、深度估计等应用于手机拍照的人像模式中,可以提升拍照效果。
4.但现有的密集预测模型,一般是对单张图片进行密集预测,而在利用现有密集预测模型对视频进行密集预测,以基于密集预测结果对视频图像处理时,密集预测模型对不同图像的同一位置处的相同图像内容的密集预测结果可能不同,这种预测不稳定的问题,可能会导致处理后的视频图像在播放时,发生明显的闪烁和抖动问题,视频显示效果差。


技术实现要素:

5.本技术实施例的目的是提供一种视频密集预测方法及其装置,能够解决现有技术中在基于单张图片的密集预测模型对视频图像进行密集预测时,存在预测结果稳定性低的问题。
6.第一方面,本技术实施例提供了一种视频密集预测方法,所述方法包括:
7.将第一输入数据输入至视频密集预测模型中;其中,所述第一输入数据包括:第一视频帧、第二视频帧和所述第一视频帧的第一密集预测结果,所述第一视频帧为所述第二视频帧的前一视频帧;
8.通过所述视频密集预测模型,根据所述第一输入数据,得到第一中间密集预测结果;其中,所述第一中间密集预测结果包括:所述第一密集预测结果中,与所述第一视频帧和所述第二视频帧之间相同图像内容对应的密集预测结果;
9.通过所述视频密集预测模型,根据所述第一中间密集预测结果,对所述第二视频帧进行密集预测,得到第二密集预测结果;
10.将所述第二密集预测结果作为所述视频密集预测模型的输出结果进行输出。
11.第二方面,本技术实施例提供了一种视频密集预测装置,所述装置包括:
12.输入模块,用于将第一输入数据输入至视频密集预测模型中;其中,所述第一输入数据包括:第一视频帧、第二视频帧和所述第一视频帧的第一密集预测结果,所述第一视频帧为所述第二视频帧的前一视频帧;
13.处理模块,用于通过所述视频密集预测模型,根据所述第一输入数据,得到第一中间密集预测结果;其中,所述第一中间密集预测结果包括:所述第一密集预测结果中,与所述第一视频帧和所述第二视频帧之间相同图像内容对应的密集预测结果;
14.预测模块,用于通过所述视频密集预测模型,根据所述第一中间密集预测结果,对
所述第二视频帧进行密集预测,得到第二密集预测结果;
15.输出模块,用于将所述第二密集预测结果作为所述视频密集预测模型的输出结果进行输出。
16.第三方面,本技术实施例提供了一种电子设备,该电子设备包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的视频密集预测方法中的步骤。
17.第四方面,本技术实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的视频密集预测方法中的步骤。
18.第五方面,本技术实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的视频密集预测方法。
19.第六方面,本技术实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一帧处理器执行以实现如第一方面所述的视频密集预测方法。
20.在本技术实施例中,视频密集预测模型可以结合第一中间密集预测结果,对第二视频帧进行密集预测,由于第一中间密集预测结果中包括:第一密集预测结果中,与第一视频帧和第二视频帧之间相同图像内容对应的密集预测结果,因此,这样有助于使得第二视频帧与第一视频帧之间同一位置处的相同图像内容的密集预测结果相同,降低出现不同图像的同一位置处的相同图像的密集预测结果不同的概率,提高预测结果的稳定性,同时也可以减少处理后的视频存在闪烁和抖动等问题。
附图说明
21.图1是本技术实施例提供的视频密集预测方法的流程示意图;
22.图2是本技术实施例提供的视频密集预测模型的示意图之一;
23.图3是本技术实施例提供的视频密集预测模型的示意图之二;
24.图4是本技术实施例提供的视频密集预测装置的示意框图;
25.图5是本技术实施例提供的电子设备的示意框图;
26.图6是本技术实施例提供的电子设备的硬件结构示意图。
具体实施方式
27.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本技术保护的范围。
28.本技术的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,以便本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的帧数,例如第一对象可以是一帧,也可以是多帧。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
29.下面结合附图,通过具体的实施例及其应用场景对本技术实施例提供的视频密集预测方法进行详细地说明。
30.图1是本技术实施例提供的一种视频密集预测方法的流程示意图,该视频密集预测方法应用于电子设备,即视频密集预测方法中的步骤由该电子设备执行。
31.其中,该视频密集预测方法可以包括:
32.步骤101:将第一输入数据输入至视频密集预测模型中。
33.该视频密集预测模型存储于电子设备中,该视频密集预测模型具体可以是密集语义预测模型,也可以是非语义的密集预测模型。其中,非语义的密集预测可以应用于如视频图像增强、视频图像去噪等视频处理任务中。
34.该第一输入数据可以包括:第一视频帧、第二视频帧和第一视频帧的第一密集预测结果。
35.其中,第二视频帧为目标视频中的视频帧,也是待进行密集预测的视频帧,也就是说视频密集预测模型当前需要对第二视频帧进行密集预测。第一视频帧为第二视频帧的前一视频帧,可以理解为是视频密集预测模型的历史密集预测视频帧,已具有密集预测结果,即第一密集预测结果。在第二视频帧为目标视频的第一帧视频帧的情况下,第一视频帧可以是预先设置的用于作为一个视频中第一帧视频帧的前一视频帧的预设图像,相应的,第一密集预测结果也可以是针对预设图像预先设置的预测结果。
36.相比于现有技术中的视频密集预测模型,本技术实施例提供的模型的输入数据除了包括待进行密集预测的视频帧,还包括已进行密集预测的上一视频帧和上一视频帧的密集预测结果。
37.步骤102:通过视频密集预测模型,根据第一输入数据,得到第一中间密集预测结果。
38.其中,第一中间密集预测结果可以包括:第一密集预测结果中,与第一视频帧和第二视频帧之间相同位置处的相同图像内容对应的密集预测结果。例如,第一视频帧与第二视频帧之间的相同图像区域a中的图像内容相同,假设第一密集预测结果中与第一视频帧的图像区域a中的图像内容,对应的密集预测结果为密集预测结果b,则第一中间密集预测结果至少包括密集预测结果b。
39.本技术实施例中,在将第一输入数据输入至视频密集预测模型中之后,视频密集预测模型可以基于第一视频帧、第二视频帧和第一视频帧的第一密集预测结果,得到第一中间密集预测结果。
40.关于第一中间密集预测结果在密集预测中的作用,具体可见下文。
41.步骤103:通过视频密集预测模型,根据第一中间密集预测结果,对第二视频帧进行密集预测,得到第二密集预测结果。
42.步骤104:将第二密集预测结果作为视频密集预测模型的输出结果进行输出。
43.本技术实施例中,视频密集预测模型可以结合第一中间密集预测结果,对第二视频帧进行密集预测,由于第一中间密集预测结果中包括:第一密集预测结果中,与第一视频帧和第二视频帧之间相同图像内容对应的密集预测结果,因此,这样有助于使得第二视频帧与第一视频帧之间同一位置处的相同图像内容的密集预测结果相同,降低出现不同图像的同一位置处的相同图像的密集预测结果不同的概率,提高预测结果的稳定性,同时也可
以减少处理后的视频存在闪烁和抖动等问题。
44.另外,对于通过现有密集预测模型对视频进行密集预测出现的预测结果稳定性低的问题,目前已有的解决方式可以包括:
45.(1)对两帧以上连续视频帧的视频数据进行标注,然后利用标注的视频数据进行视频密集预测稳定性的学习。这种方式,在视频数据标注时,需要考虑两帧以上的连续视频帧之间的关联关系,训练数据获取难度大,需要由专业人员进行视频数据标注,存在训练数据获取成本高的问题。
46.(2)使用前后帧视频图像联合输入的方法提升视频密集预测模型输出结果的稳定性,但这种方式下会带来视频延时一帧或多帧输出的问题。
47.相比于现有解决方式(1),本技术实施例中,只需考虑相邻两帧视频帧之间的关联关系即可,视频训练数据获取难度小。尤其是对于密集语义预测任务,输出结果相对输入往往做了很大的简化,例如每个像素的位置只会有有限个取值,排列组合远小于输入,输出相对于输入减少了一些信息,因此,在视频关联性上,考虑相邻两帧视频图像之间的关联性即可满足需求,所以,本技术实施例可以进行短时稳定性模型,即针对相邻两帧图像的关联性进行建模,这样在训练时无需依赖两帧以上连续的视频序列,在图片数据集上即可完成训练,降低了训练成本。
48.相比于现有解决方式(2),本技术实施例中,是将历史视频帧作为参考使用,而非以未被预测的视频帧作为参考使用,因此,不会存在视频延迟一帧或几帧输出的情况。
49.作为一种可选实施例,如图2和图3所示,本技术实施例中,视频密集预测模型200可以包括:密集预测模型201和视频稳定性模型202。
50.视频稳定性模型的外部输入数据可以包括:第一视频帧和第一视频帧的第一密集预测结果,除此之外,还可以包括第二视频帧。视频稳定性模型的输出数据为第一中间密集预测结果,或用于得到第一中间密集预测结果的数据。密集预测模型的外部输入数据为第二视频帧,内部输入数据为视频稳定性模型的输出数据。
51.其中,在视频稳定性模型的输出数据为第一中间密集预测结果的情况下,密集预测模型可以将第一中间密集预测结果作为预测用数据,应用到第二视频帧的密集预测中,从而得到第二视频帧的密集预测结果。
52.其中,在视频稳定性模型的输出数据为用于得到第一中间密集预测结果的数据的情况下,密集预测模型可以根据视频稳定性模型的输出数据,得到第一中间密集预测结果,然后将第一中间密集预测结果应用到第二视频帧的密集预测中,从而得到第二视频帧的密集预测结果。
53.需要说明的是,这里所述的外部输入数据和内部输入数据是相对于整个视频密集预测模型而言的。例如,将视频稳定性模型的输出数据输入至密集预测模型中,则视频稳定性模型的输出数据为密集预测模型的内部输入数据,而第二视频帧则为密集预测模型的外部输入数据。
54.本技术实施例提供的视频密集预测模型,相对于现有的视频密集预测模型,除了包括用于密集预测的模型外,还包括视频稳定性学习模型,即视频稳定性模型,该模型主要用于基于上一视频帧和上一视频帧的密集预测结果,进行稳定性学习,将学习结果发送至密集预测模型,使得密集预测模型可以结合该学习结果,进行更加稳定的预测。
55.基于上述视频密集预测模型,本技术实施例提供了三种得到第一中间密集预测结果的具体实施方式,如下所述。
56.方式一
57.步骤102:通过视频密集预测模型,根据第一输入数据,得到第一中间密集预测结果,可以包括:
58.步骤a1:将第一输入数据输入至视频稳定性模型中。
59.在方式一中,视频稳定性模型的输入数据可以包括:第一视频帧、第二视频帧和第一视频帧的第一密集预测结果。
60.步骤a2:通过视频稳定性模型,确定第一视频帧与第二视频帧之间的相同图像内容。
61.将第一视频帧、第二视频帧和第一视频帧的第一密集预测结果输入至视频稳定性模型后,视频稳定性模型可以对第一视频帧和第二视频帧进行对比分析,确定两帧视频图像之间的相同图像。例如,先可以分别获取第一视频帧的第一图像特征和第二视频帧的第二图像特征;然后,确定第一图像特征与第二图像特征的相同图像特征;最后,该相同图像特征对应的图像内容,则为第一视频帧与第二视频帧之间的相同图像内容。
62.步骤a3:通过视频稳定性模型,确定第一密集预测结果中与两帧视频帧之间的相同图像内容对应的密集预测结果。
63.步骤a4:将第一密集预测结果中与该相同图像内容对应的密集预测结果,确定为第一中间密集预测结果。
64.视频稳定性模型在确定第一视频帧与第二视频帧之间的相同图像后,可以确定第一密集预测结果中与两帧视频图像之间的相同图像对应的密集预测结果,然后将这部分密集预测结果作为第一中间密集预测结果进行输出。可选地,视频稳定性模型还可以建立相同图像特征与第一中间密集预测结果之间的对应关系,生成对应关系信息,并将该对应关系信息输入至密集预测模型中,以便密集预测模型可以根据该对应关系信息,将第一中间密集预测结果应用到第二视频帧的密集预测过程中。
65.在方式一中,第一中间密集预测结果是第一密集预测结果中与两帧视频图像之间的相同图像内容对应的密集预测结果,密集预测模型将其应用到密集预测中,有助于使得第二视频帧与第一视频帧之间相同图像内容的密集预测结果相同,提高预测结果的稳定性。此外,在方式一中,第一中间密集预测结果由视频稳定性模型确定,密集预测模型直接使用第一中间密集预测结果即可,这样可以减少对密集预测模型的改动。
66.方式二
67.步骤102:通过视频密集预测模型,根据第一输入数据,得到第一中间密集预测结果,可以包括:
68.步骤b1:将第一视频帧和第一密集预测结果,输入至视频稳定性模型中。
69.在方式二中,视频稳定性模型的输入数据可以包括:第一视频帧和第一视频帧的第一密集预测结果,相比于方式一,不再输入第二视频帧至视频稳定性模型中。
70.步骤b2:通过视频稳定性模型,获取第一视频帧的第一图像特征,并建立第一图像特征与第一密集预测结果之间的对应关系,输出对应关系信息。
71.在方式二中,视频稳定性模型可以对第一视频帧进行图像特征提取,得到第一视
频帧的第一图像特征,然后建立第一图像特征与第一密集预测结果之间的对应关系,生成二者之前的对应关系信息,并将该对应关系信息作为输出数据进行输出。其中,该对应关系信息即为视频稳定性模型输出的用于得到第一中间密集预测结果的数据。
72.步骤b3:将第二视频帧和该对应关系信息输入至密集预测模型中。
73.步骤b4:通过密集预测模型,获取第二视频帧的第二图像特征。
74.步骤b5:通过密集预测模型,确定第一图像特征与第二图像特征之间的相同图像特征。
75.步骤b6:通过密集预测模型,根据对应关系,将第一密集预测结果中与该相同图像特征对应的密集预测结果,确定为第一中间密集预测结果。
76.在方式二中,密集预测模型可以对第二视频帧进行图像特征提取,得到第二视频帧的第二图像特征,然后确定第一图像特征与第二图像特征之间的相同图像特征,之后再根据第一图像特征与第一密集预测结果之间的对应关系信息,确定第一密集预测结果中与该相同图像特征对应的密集预测结果,确定的这部分密集预测结果则为第一中间密集预测结果。
77.在方式二中,第一中间密集预测结果是第一密集预测结果中与两帧视频图像之间的相同图像特征对应的密集预测结果,也就是相同图像内容对应的密集预测结果,将其应用到密集预测中,有助于使得第二视频帧与第一视频帧之间相同图像内容的密集预测结果相同,提高预测结果的稳定性。此外,在方式二中,无需视频稳定性模型确定第一中间密集预测结果,减少了视频稳定性模型的数据处理量,而密集预测模型在进行密集预测时,本身也需要进行图像特征提取,因此,在能够获得第一中间密集预测结果的同时,还提高了模型内部数据的利用率。
78.方式三
79.步骤102:通过视频密集预测模型,根据第一输入数据,得到第一中间密集预测结果,可以包括:
80.步骤c1:将第一输入数据输入至视频稳定性模型中。
81.在方式三中,视频稳定性模型的输入数据可以包括:第一视频帧、第二视频帧和第一视频帧的第一密集预测结果。
82.步骤c2:通过视频稳定性模型,得到第二视频帧与第一视频帧之间的光流信息。
83.在方式三中,视频稳定性模型可以基于第一视频帧和第二视频帧,得到第二视频帧与第一视频帧的光流信息。
84.步骤c3:通过视频稳定性模型,利用光流信息对第一密集预测结果进行插值采样,得到第一中间密集预测结果。
85.在方式三中,视频稳定性模型可以利用第二视频帧与第一视频帧之间的光流信息对第一密集预测结果进行插值采样,得到的采样结果即为第一中间密集预测结果。其中,插值采样方法可以是双线性插值采样。
86.利用光流信息可以对图像进行处理,如第一视频帧中包括人物a,人物a的右手朝向左摆动,第二视频帧中人物a的右手向右摆动,利用光流信息,可以对第一视频帧进行图像处理。处理后的图像中,人物a的右手朝向右摆动,与第二视频帧中的图像内容接近。同理,利用光流信息也可以对密集预测结果进行处理,使处理后的密集预测结果中除了可以
包括第一视频帧与第二视频帧之间同一位置处相同图像内容的密集预测结果,还可以包括第二视频帧相比于第一视频帧相同位置处不同图像内容的密集预测结果,这样可以使得第二视频帧的密集预测结果与第一视频帧的密集预测结果尽可能多的相同,从而提升预测结果的稳定性。
87.另外,现有技术中,对于通过现有密集预测模型对视频进行密集预测出现预测结果稳定性低的问题,目前已有的解决方式还可以包括:对密集预测模型输出的密集预测结果,使用光流信息进行处理,改善相同图像预测结果不一致的问题。这种后处理方式,是采用插值的方式处理视频预测的稳定性问题,容易出现伪影,且视频变化幅度比较大的时候,由于光流的限制会出现较为严重的拖影,而本技术实施例中,基于光流信息的插值操作,是在整个模型进行密集预测过程中完成的,伪影和拖影的问题可以在模型训练过程中优化,因此可以在一定程度上克服现有技术中出现的伪影和拖影的问题,提升视频显示效果。
88.作为一种可选实施例,密集预测模型可以包括第一编码器和第一解码器,第一编码器的数据处理过程可以包括至少两个处理阶段,第一解码器的数据处理过程包括的处理阶段可以与第一编码器相同。第一编码器的初始输入数据为第二视频帧,第一解码器的最终输出数据为第二视频帧的密集预测结果。
89.如图2和图3所示,密集预测模型201包括编码器1(对应第一编码器)和解码器1(对应第一解码器),编码器1的数据处理过程包括4个处理阶段,解码器1的数据处理过程也包括4个处理阶段。编码器1的每个处理阶段的输出数据作为解码器1的处理阶段的输入数据,如:编码器1的阶段1的输出数据作为解码器1的阶段1的输入数据,编码器1的阶段2的输出数据作为解码器1的阶段2的输入数据等。输入1为编码器的初始输入数据,输出1为解码器的最终输出数据。
90.可选地,该密集预测模型可以是u-net模型。在u-net模型中,包含一个编码器encoder和一个解码器decoder,编码器中输出相同分辨率特征图的连续神经网络层称为一个处理阶段,每个处理阶段输出的特征图的分辨率是上一个处理阶段的1/2。在密集预测任务中,一般编码器会对应有3~5个阶段,最后一个阶段输出的特征图的分辨率为输入图像分辨率的1/8~1/32。
91.需要说明的是,在密集预测模型中,编码器每个处理阶段输出的特征图的分辨率可以不同,也可以相同,与使用的具体模型相关,具体可根据实际需求选择。
92.可选地,步骤104:通过视频密集预测模型,根据第一中间密集预测结果,对第二视频帧进行密集预测,得到第二密集预测结果,可以包括:
93.通过视频密集预测模型,将第一中间密集预测结果叠加至第一目标处理阶段的输出结果中,对第二视频帧进行密集预测,得到第二密集预测结果。
94.其中,第一目标处理阶段包括编码器的至少一个处理阶段。
95.本技术实施例中,是将第一中间密集预测结果应用到密集预测过程中,即:将第一中间密集预测结果叠加到密集预测模型的编码器阶段,相比于对密集预测模型的输出结果进行后处理的方式,本技术实施例相当于是后处理与预测同时进行,这样可以在一定程度上解决现有技术中的后处理造成的视频图像伪影和拖影的问题,提升视频显示效果。
96.可选地,视频稳定性模型可以包括第二编码器和第二解码器,第二编码器的数据处理过程可以包括至少一个处理阶段,第二解码器的数据处理过程也可以包括至少一个处
理阶段。
97.第二编码器的初始输入数据可以是第一视频帧、第一视频帧的第一密集预测结果和第二视频帧,如在前述方式一和方式三中;第二编码器的初始输入数据也可以是第一视频帧和第一视频帧的第一密集预测结果,如在前述方式二中。第二解码器的第二目标处理阶段的输出结果为第一中间密集结果,如在前述方式一和方式三中;或第一图像特征与第一密集预测结果之间的对应关系信息,第一图像特征为第一视频帧的图像特征,如在前述方式二中。
98.其中,第二目标处理阶段为第二解码器的至少一个处理阶段,第二目标处理阶段的数量与第一目标处理阶段的数量相同。
99.其中,视频稳定性模型中编码器的处理阶段数与解码器的处理阶段数可以相同,也可以不同,具体可根据实际需求设置。视频稳定性模型中解码器的处理阶段数与密集预测模型中编码器的阶段数可以相同,也可以不同,具体可根据实际需求设置。例如,可以根据实际效果,选择视频稳定性模型中解码器一部分处理阶段的输出数据,结合到密集预测模型的编码器内。
100.如图2和图3所示,视频稳定性模型202包括编码器2(对应第二编码器)和解码器2(对应第二解码器),编码器2的数据处理过程包括4个处理阶段,解码器2的数据处理过程包括3个处理阶段,二者的处理阶段数不同。解码器2的阶段1、阶段2和阶段3的输出数据,分别作为编码器1的阶段2、阶段3和阶段4的输入数据,二者的处理阶段数也不同。
101.下面再对本技术实施例提供的视频密集预测模型的训练过程进行解释说明。其中,不同模型的训练方式有所不同,下面以图2和图3所示的模型为例,对模型训练过程进行描述。
102.前述方式一和方式二对应的视频密集预测模型可以如图2所示。对于图2所示的模型,在进行模型训练时,模型的输入包括当前视频帧、上一视频帧和上一视频帧的groundtruth(即真值,对图像数据标注的标签)。这里的上一视频帧和上一视频帧的groundtruth可以使用真实已标注的视频帧,也可以对当前视频帧和当前视频帧的groundtruth,进行一些预设变换,从而得到模拟的上一视频帧和上一视频帧的groundtruth,这些变换可以包括但不限于以下至少一种:仿射变换、透视变换、运动模糊以及薄板样条变换等,这样可省去人为标注上一视频帧的groundtruth的操作,降低训练成本。模型的输出为当前视频帧的密集预测结果。之后,对当前视频帧的密集预测结果与当真帧的groundtruth求损失,确定二者之间的差异,然后利用得到的损失,对模型进行反向传播训练。其实现过程可以如下所述:
103.将训练数据输入至视频密集预测模型中;其中,训练数据包括:当前视频帧、上一视频帧和上一视频帧的真值;
104.获取视频密集预测模型对当前视频帧的密集预测结果;
105.对当前视频帧的密集预测结果与当前视频帧的真值求损,获得第一损失;
106.利用第一损失,对密集预测模型进行反向传播训练;
107.在当前视频帧的密集预测结果与当前视频帧的真值之间的损失小于或等于第一期望值,或训练次数达到预设次数的情况下,停止模型训练,获得完成训练后的视频密集预测模型。
108.前述方式三对应的视频密集预测模型可以如图3所示,下面首先对图3所示的模型进行解释说明。
109.图3中的输入1和输出1,与图2中的输入1和输出1相同,这里不再赘述。图3中的输入2为当前视频帧和上一视频帧,用于获得当前视频帧与上一视频帧之间的光流信息。图3中的输入3为上一视频帧的密集预测结果,基于输入2得到的光流信息,对上一视频帧的密集预测结果进行插值采样,得到第一中间密集预测结果。
110.当密集预测模型201中编码器1的第一目标处理阶段的数量为至少两个,且每个第一目标处理阶段输入的特征图的分辨率不同时,为了适配每个第一目标处理阶段输入的特征图的分辨率,可以先对上一视频帧的密集预测结果进行降采样,从而得到相应分辨率的密集预测结果,然后再利用光流信息对降采样后的密集预测结果进行重采样,即进行插值采样,从而得到视频稳定性模型的输出数据,即第一中间密集预测结果。如图3所示,第一目标处理阶段的数量为3个,分别为阶段2(输入特征图的分辨率为原图像的1/2)、阶段3(输入特征图的分辨率为原图像的1/4)和阶段4(输入特征图的分辨率为原图像的1/8),则分别对上一视频帧的密集预测结果进行不同的降采样处理,从而得到相应分辨率的密集预测结果。
111.图3所示的模型训练过程与图2所示的模型训练过程有所不同,除了要对密集预测模型进行训练外,还需要显性的对视频稳定性模型进行训练。但在对视频稳定性模型进行训练时,不需要有光流标注信息,而是使用视频稳定性模型预测的光流信息,对上一视频帧和上一视频帧的密集预测结果做插值采样,使采样后的上一视频帧与当前视频帧接近,确定二者之间的差异,得到第二损失,以及使采样后的密集预测结果与当前视频帧的groundtruth接近,确定二者之间的差异,得到第三损失。然后利用第一损失(当前视频帧的密集预测结果与当前视频帧的真值之间的损失)、第二损失和第三损失,对视频稳定性模型进行训练。其实现过程可以如下所述:
112.将训练数据输入至视频密集预测模型中;其中,训练数据包括:当前视频帧、上一视频帧和上一视频帧的真值;
113.获取视频稳定性模型预测得到的光流信息;
114.利用该光流信息分别对上一视频帧和上一视频帧的密集预测结果进行插值采样;
115.获取第一损失、第二损失和第三损失;其中,第一损失为对当前视频帧的密集预测结果与当前视频帧的真值求损得到的损失;第二损失为对插值采样后的上一视频帧与当前视频帧求损得到的损失;第三损失为对插值采样后的密集预测结果与当前视频帧的真值求损得到的损失;
116.利用第一损失、第二损失和第三损失,对视频稳定性模型进行训练,以及利用第一损失对密集预测模型进行反向传播训练;
117.在模型的输出结果满足预设条件的情况下,或在模型的训练次数达到预设次数的情况下,停止模型训练,获得完成训练的视频密集预测模型;其中,预设条件包括以下至少一个:第一损失小于或等于第一期望值、第二损失小于或等于第二期望值、第三损失小于或等于第三期望值。
118.本技术实施例中,可以通过无监督的方法对视频稳定性模型进行训练,学习光流信息,无需光流标注数据。
119.最后,在利用训练好的模型进行密集预测时,可以将需要密集预测的视频拆分成一帧一帧的视频图像进行预测,直到完成所有视频帧的预测。
120.以上即为对本技术实施例提供的视频密集预测方法的描述。
121.综上所述,本技术实施例中,视频密集预测模型可以结合第一中间密集预测结果,对第二视频帧进行密集预测,由于第一中间密集预测结果中包括:第一密集预测结果中,与第一视频帧和第二视频帧之间相同图像内容对应的密集预测结果,因此,这样有助于使得第二视频帧与第一视频帧之间同一位置处的相同图像内容的密集预测结果相同,降低出现不同图像的同一位置处的相同图像的密集预测结果不同的概率,提高预测结果的稳定性,同时也可以减少处理后的视频存在闪烁和抖动等问题。
122.本技术实施例提供的视频密集预测方法,执行主体可以为视频密集预测装置。本技术实施例中以视频密集预测装置执行视频密集预测方法为例,说明本技术实施例提供的视频密集预测装置。
123.图4是本技术实施例提供的一种视频密集预测装置的示意框图,该视频密集预测装置应用于电子设备。
124.如图4所示,所述视频密集预测装置可以包括:
125.输入模块401,用于将第一输入数据输入至视频密集预测模型中。
126.其中,所述第一输入数据包括:第一视频帧、第二视频帧和所述第一视频帧的第一密集预测结果,所述第一视频帧为所述第二视频帧的前一视频帧。
127.处理模块402,用于通过所述视频密集预测模型,根据所述第一输入数据,得到第一中间密集预测结果。
128.其中,所述第一中间密集预测结果包括:所述第一密集预测结果中,与所述第一视频帧和所述第二视频帧之间相同图像内容对应的密集预测结果。
129.预测模块403,用于通过所述视频密集预测模型,根据所述第一中间密集预测结果,对所述第二视频帧进行密集预测,得到第二密集预测结果。
130.输出模块404,用于将所述第二密集预测结果作为所述视频密集预测模型的输出结果进行输出。
131.可选地,所述视频密集预测模型包括视频稳定性模型。
132.所述处理模块402可以包括:
133.第一输入单元,用于将所述第一输入数据输入至所述视频稳定性模型中。
134.第一确定单元,用于通过所述视频稳定性模型,确定所述第一视频帧与所述第二视频帧之间的相同图像内容。
135.第二确定单元,用于通过所述视频稳定性模型,确定所述第一密集预测结果中与所述相同图像内容对应的密集预测结果。
136.第三确定单元,用于将所述第一密集预测结果中与所述相同图像内容对应的密集预测结果,确定为所述第一中间密集预测结果。
137.可选地,所述视频密集预测模型包括:视频稳定性模型和密集预测模型。
138.所述处理模块402可以包括:
139.第二输入单元,用于将所述第一视频帧和所述第一密集预测结果,输入至所述视频稳定性模型中。
140.第一处理单元,用于通过所述视频稳定性模型,获取所述第一视频帧的第一图像特征,并建立所述第一图像特征与所述第一密集预测结果之间的对应关系,输出对应关系信息。
141.第三输入单元,用于将所述第二视频帧和所述对应关系信息输入至所述密集预测模型中。
142.第一获取单元,用于通过所述密集预测模型,获取所述第二视频帧的第二图像特征。
143.第四确定单元,用于通过所述密集预测模型,确定所述第一图像特征与所述第二图像特征之间的相同图像特征。
144.第五确定单元,用于通过所述密集预测模型,根据所述对应关系信息,将所述第一密集预测结果中与所述相同图像特征对应的密集预测结果,确定为所述第一中间密集预测结果。
145.可选地,所述视频密集预测模型包括视频稳定性模型。
146.所述处理模块402可以包括:
147.第四输入单元,用于将所述第一输入数据输入至所述视频稳定性模型中。
148.第二获取单元,用于通过所述视频稳定性模型,得到所述第二视频帧与所述第一视频帧之间的光流信息。
149.第二处理单元,用于通过所述视频稳定性模型,利用所述光流信息对所述第一密集预测结果进行插值采样,得到所述第一中间密集预测结果。
150.可选地,所述视频密集预测模型包括:视频稳定性模型和密集预测模型;所述密集预测模型包括第一编码器,所述第一编码器的数据处理过程包括至少两个处理阶段;所述视频稳定性模型包括第二解码器,所述第二解码器的数据处理过程包括至少一个处理阶段。
151.所述预测模块403可以包括:
152.预测单元,用于通过所述密集预测模型,将所述第一中间密集预测结果叠加至第一目标处理阶段的输出结果中,对所述第二视频帧进行密集预测,得到所述第二密集预测结果;
153.其中,所述第一目标处理阶段包括所述第一编码器的至少一个处理阶段。
154.其中,所述第二解码器的第二目标处理阶段的输出结果为所述第一中间密集预测结果,或第一图像特征与所述第一密集预测结果之间的对应关系信息,所述第一图像特征为所述第一视频帧的图像特征,所述第二目标处理阶段包括所述第二解码器的至少一个处理阶段。
155.综上所述,本技术实施例中,视频密集预测模型可以结合第一中间密集预测结果,对第二视频帧进行密集预测,由于第一中间密集预测结果中包括:第一密集预测结果中,与第一视频帧和第二视频帧之间相同图像内容对应的密集预测结果,因此,这样有助于使得第二视频帧与第一视频帧之间同一位置处的相同图像内容的密集预测结果相同,降低出现不同图像的同一位置处的相同图像的密集预测结果不同的概率,提高预测结果的稳定性,同时也可以减少处理后的视频存在闪烁和抖动等问题。
156.本技术实施例中的视频密集预测装置可以是电子设备,也可以是电子设备中的部
件,例如集成电路或芯片。该电子设备可以是终端,也可以为除终端之外的其他设备。示例性的,电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(mobile internet device,mid)、增强现实(augmented reality,ar)/虚拟现实(virtual reality,vr)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,umpc)、上网本或者个人数字助理(personal digital assistant,pda)等,还可以为服务器、网络附属存储器(network attached storage,nas)、个人计算机(personal computer,pc)、电视机(television,tv)、柜员机或者自助机等,本技术实施例不作具体限定。
157.本技术实施例中的视频密集预测装置可以为具有操作系统的装置。该操作系统可以为安卓(android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本技术实施例不作具体限定。
158.本技术实施例提供的视频密集预测装置能够实现图1所示的视频密集预测方法实施例实现的各个过程,为避免重复,这里不再赘述。
159.可选地,如图5所示,本技术实施例还提供一种电子设备500,包括:处理器501和存储器502,存储器502上存储有可所述处理器501上运行的程序或指令,该程序或指令被处理器501执行时实现上述视频密集预测方法实施例的各个步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。
160.需要说明的是,本技术实施例中的电子设备500包括上述移动电子设备和非移动电子设备。
161.图6为实现本技术实施例的一种电子设备的硬件结构示意图。
162.该电子设备600包括但不限于:射频单元601、网络模块602、音频输出单元603、输入单元604、传感器605、显示单元606、用户输入单元607、接口单元608、存储器609以及处理器610等部件。
163.本领域技术人员可以理解,电子设备600还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器610逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图6中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
164.其中,处理器610可以用于:将第一输入数据输入至视频密集预测模型中;其中,所述第一输入数据包括:第一视频帧、第二视频帧和所述第一视频帧的第一密集预测结果,所述第一视频帧为所述第二视频帧的前一视频帧;通过所述视频密集预测模型,根据所述第一输入数据,得到第一中间密集预测结果;其中,所述第一中间密集预测结果包括:所述第一密集预测结果中,与所述第一视频帧和所述第二视频帧之间相同图像内容对应的密集预测结果;通过所述视频密集预测模型,根据所述第一中间密集预测结果,对所述第二视频帧进行密集预测,得到第二密集预测结果;将所述第二密集预测结果作为所述视频密集预测模型的输出结果进行输出。
165.可选地,所述视频密集预测模型包括视频稳定性模型。
166.相应的,处理器610还可以用于:将所述第一输入数据输入至所述视频稳定性模型中;通过所述视频稳定性模型,确定所述第一视频帧与所述第二视频帧之间的相同图像内
容;通过所述视频稳定性模型,确定所述第一密集预测结果中与所述相同图像内容对应的密集预测结果;将所述第一密集预测结果中与所述相同图像内容对应的密集预测结果,确定为所述第一中间密集预测结果。
167.可选地,所述视频密集预测模型包括:视频稳定性模型和密集预测模型。
168.相应的,处理器610还可以用于:将所述第一视频帧和所述第一密集预测结果,输入至所述视频稳定性模型中;通过所述视频稳定性模型,获取所述第一视频帧的第一图像特征,并建立所述第一图像特征与所述第一密集预测结果之间的对应关系,输出对应关系信息;将所述第二视频帧和所述对应关系信息输入至所述密集预测模型中;通过所述密集预测模型,获取所述第二视频帧的第二图像特征;通过所述密集预测模型,确定所述第一图像特征与所述第二图像特征之间的相同图像特征;通过所述密集预测模型,根据所述对应关系信息,将所述第一密集预测结果中与所述相同图像特征对应的密集预测结果,确定为所述第一中间密集预测结果。
169.可选地,所述视频密集预测模型包括视频稳定性模型。
170.相应的,处理器610还可以用于:将所述第一输入数据输入至所述视频稳定性模型中;通过所述视频稳定性模型,得到所述第二视频帧与所述第一视频帧之间的光流信息;通过所述视频稳定性模型,利用所述光流信息对所述第一密集预测结果进行插值采样,得到所述第一中间密集预测结果。
171.可选地,所述视频密集预测模型包括:视频稳定性模型和密集预测模型;所述密集预测模型包括第一编码器,所述第一编码器的数据处理过程包括至少两个处理阶段;所述视频稳定性模型包括第二解码器,所述第二解码器的数据处理过程包括至少一个处理阶段。
172.相应的,处理器610还可以用于:通过所述密集预测模型,将所述第一中间密集预测结果叠加至第一目标处理阶段的输出结果中,对所述第二视频帧进行密集预测,得到所述第二密集预测结果;其中,所述第一目标处理阶段包括所述第一编码器的至少一个处理阶段;所述第二解码器的第二目标处理阶段的输出结果为所述第一中间密集预测结果,或第一图像特征与所述第一密集预测结果之间的对应关系信息,所述第一图像特征为所述第一视频帧的图像特征,所述第二目标处理阶段包括所述第二解码器的至少一个处理阶段。
173.本发明实施例中,视频密集预测模型可以结合第一中间密集预测结果,对第二视频帧进行密集预测,由于第一中间密集预测结果中包括:第一密集预测结果中,与第一视频帧和第二视频帧之间相同图像内容对应的密集预测结果,因此,这样有助于使得第二视频帧与第一视频帧之间同一位置处的相同图像内容的密集预测结果相同,降低出现不同图像的同一位置处的相同图像的密集预测结果不同的概率,提高预测结果的稳定性,同时也可以减少处理后的视频存在闪烁和抖动等问题。
174.应理解的是,本技术实施例中,输入单元604可以包括帧率标识处理器(graphics processing unit,gpu)6041和麦克风6042,帧率标识处理器6041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)得到的静态图片或视频的图像数据进行处理。显示单元606可包括显示面板6061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板6061。用户输入单元607包括触控面板6071以及其他输入设备6072中的至少一种。触控面板6071,也称为触摸屏。触控面板6071可包括触摸检测装置和触摸控制器两帧部分。其他输
入设备6072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
175.存储器609可用于存储软件程序以及各种数据。存储器609可主要包括存储程序或指令的第一存储区和存储数据的第二存储区,其中,第一存储区可存储操作系统、至少一帧功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外,存储器609可以包括易失性存储器或非易失性存储器,或者,存储器609可以包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,rom)、可编程只读存储器(programmable rom,prom)、可擦除可编程只读存储器(erasable prom,eprom)、电可擦除可编程只读存储器(electrically eprom,eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory,ram),静态随机存取存储器(static ram,sram)、动态随机存取存储器(dynamic ram,dram)、同步动态随机存取存储器(synchronous dram,sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram,ddrsdram)、增强型同步动态随机存取存储器(enhanced sdram,esdram)、同步连接动态随机存取存储器(synch link dram,sldram)和直接内存总线随机存取存储器(direct rambus ram,drram)。本技术实施例中的存储器609包括但不限于这些和任意其它适合类型的存储器。
176.处理器610可包括一帧或多帧处理单元;可选的,处理器610集成应用处理器和调制解调处理器,其中,应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作,调制解调处理器主要处理无线通信信号,如基带处理器。可以理解的是,上述调制解调处理器也可以不集成到处理器610中。
177.本技术实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述视频密集预测方法实施例的各帧过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
178.其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器rom、随机存取存储器ram、磁碟或者光盘等。
179.本技术实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述视频密集预测方法实施例的各帧过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
180.本技术实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一帧处理器执行以实现如上述视频密集预测方法实施例的各帧过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
181.应理解,本技术实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
182.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一帧
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本技术实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及
的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
183.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一帧存储介质(如rom、ram、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器或者网络设备等)执行本技术各帧实施例所述的方法。
184.上面结合附图对本技术的实施例进行了描述,但是本技术并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本技术的启示下,在不脱离本技术宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本技术的保护之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献