一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种2D视频帧的视差图像生成方法及装置与流程

2022-02-25 23:01:06 来源:中国专利 TAG:

一种2d视频帧的视差图像生成方法及装置
技术领域
1.本发明涉及视频处理技术领域,特别是涉及一种2d视频帧的视差图像生成方法及装置。


背景技术:

2.从视觉感官的角度,可以将视频分为2d视频与3d视频两种类别。其中,2d视频的每一视频帧为一张图像,3d视频的每一视频帧中包含存在视差的两个视图,其中,每一视图为一张图像。用户在观看3d视频过程中左右两眼观看到的视图不同,由于两个视图之间存在视差,因此,用户可以观看到3d立体效果。3d视频目前广泛应用于电影、电视等多个领域。
3.当前,在将2d视频帧转换为3d视频的过程中,可以基于2d视频中的2d视频帧生成与该2d视频帧存在视差的图像,进而基于该2d视频帧与所生成的图像获得3d视频帧。但在基于2d视频帧生成与2d视频帧存在视差的图像的过程中存在视差歧义性的问题,即基于相似的2d视频帧分别生成图像,所生成的图像与2d视频帧之间存在视差,但不同2d视频帧对应的视差之间的差距较大。进而导致基于相似的2d视频帧和所生成的图像生成的3d视频所展示的3d效果不同,因此通过现有技术转换得到的3d视频的3d效果不稳定。为提高由2d视频转换得到的3d视频3d效果的稳定性,需要提供一种2d视频帧的视差图像生成方法,以降低不同2d视频帧与所生成的图像的视差之间的差距。


技术实现要素:

4.本发明实施例的目的在于提供一种2d视频帧的视差图像生成方法及装置,以降低不同2d视频帧与所生成的图像的视差之间的差距。具体技术方案如下:
5.第一方面,本发明实施例提供了一种2d视频帧的视差图像生成方法,所述方法包括:
6.对2d视频帧进行包括预设数量次下采样处理的级联下采样处理,获得每一次下采样处理得到的下采样图像,所述级联下采样处理中每次下采样处理的结果作为下一次进行下采样处理所处理的图像;
7.基于数值固定的预设参数,对所获得的每一次下采样处理得到的下采样图像中除第一图像外的每一第二图像内像素的像素值进行调整,以使得每一第二图像内像素的像素值均值以及方差得到改变,所述第一图像为:所获得下采样图像中尺寸最小的图像;
8.对所述第一图像进行上采样处理,得到上采样图像;
9.对上采样图像进行卷积处理,得到与所述上采样图像尺寸相同的卷积图像;
10.将所述上采样图像、卷积图像以及与所述上采样图像尺寸相同的像素值调整后的第二图像,按照像素位置进行像素值融合,得到融合图像;
11.若所述融合图像的尺寸与所述2d视频帧的尺寸不同,则对所述融合图像进行上采样处理,得到新的上采样图像,并返回执行所述对上采样图像进行卷积处理,得到与所述上采样图像尺寸相同的卷积图像,以及所述将所述上采样图像、卷积图像以及与所述上采样
图像尺寸相同的像素值调整后的第二图像,按照像素位置进行像素值融合,得到融合图像的步骤;
12.否则,将所述融合图像确定为与所述2d视频帧存在视差的图像。
13.本发明的一个实施例中,所述基于数值固定的预设参数,对所获得的每一次下采样处理得到的下采样图像中除第一图像外的每一第二图像内像素的像素值进行调整,包括:
14.对所获得的每一次下采样处理得到的下采样图像中除第一图像外的每一第二图像内各个像素的像素值乘以预设方差,并加上预设平均值,得到调整后的各个像素的像素值。
15.本发明的一个实施例中,所述通过以下方式获得与该2d视频帧存在视差的图像,包括:
16.将2d视频帧输入预先训练的图像获得模型中,获得与所述2d视频帧存在视差的图像,其中,所述图像获得模型的模型参数中包含所述预设参数,所述图像获得模型用于:实现所述对2d视频帧进行包括预设数量次下采样处理的级联下采样处理,获得每一次下采样处理得到的下采样图像至所述将所述融合图像确定为与所述2d视频帧存在视差的图像的步骤。
17.本发明的一个实施例中,通过以下方式对预设的神经网络模型进行训练得到所述图像获得模型:
18.确定3d样本视频帧中两个样本视图内像素间像素值差值的均值和方差,将所确定的均值作为样本均值,将所确定的方差作为样本方差;
19.获得预设数量个视差数组,其中,视差数组中包含的元素表示视差;
20.从每一视差数组中选择一个视差,得到包括所选择视差的第一数组;
21.根据所述样本均值和样本方差,调整所述第一数组中的视差使得第一数组中视差的分布趋近于所述两个样本视图内像素间像素值差值的分布,得到第二数组;
22.计算第二数组的视差均值与视差方差;
23.将预设的神经网络模型的模型参数中的预设参数设置为所述视差均值与视差方差;
24.将一个样本视图输入所述神经网络模型,得到与所述样本视图存在视差的输出图像;
25.根据所述输出图像与另一样本视图,计算所述神经网络模型的损失;
26.根据所述损失调整所述神经网络模型的模型参数。
27.本发明的一个实施例中,所述确定3d样本视频帧中两个样本视图内像素间像素值差值的均值和方差,包括:
28.提取表示所述两个样本视图之间关联关系的关联特征;
29.对所述关联特征进行卷积处理;
30.对所获得的卷积处理结果进行全连接处理,得到所述两个样本视图内像素间像素值差值的均值与方差。
31.第二方面,本发明实施例提供了一种2d视频帧的视差图像生成装置,所述装置包括:
32.下采样模块,用于对2d视频帧进行包括预设数量次下采样处理的级联下采样处理,获得每一次下采样处理得到的下采样图像,所述级联下采样处理中每次下采样处理的结果作为下一次进行下采样处理所处理的处理图像;
33.像素值调整模块,用于基于数值固定的预设参数,对所获得的每一次下采样处理得到的下采样图像中除第一图像外的每一第二图像内像素的像素值进行调整,以使得每一第二图像内像素的像素值均值以及方差得到改变,所述第一图像为:所获得下采样图像中尺寸最小的图像;
34.第一上采样模块,用于对所述第一图像进行上采样处理,得到上采样图像;
35.卷积模块,用于对上采样图像进行卷积处理,得到与所述上采样图像尺寸相同的卷积图像;
36.像素值融合模块,用于将所述上采样图像、卷积图像以及与所述上采样图像尺寸相同的像素值调整后的第二图像,按照像素位置进行像素值融合,得到融合图像;
37.第二上采样模块,用于若所述像素值融合模块得到的融合图像的尺寸与所述2d视频帧的尺寸不同,则对所述融合图像进行上采样处理,得到新的上采样图像,并返回触发执行所述卷积模块以及像素值融合模块;
38.图像确定模块,用于若所述像素值融合模块得到的融合图像的尺寸与所述2d视频帧的尺寸相同,将所述融合图像确定为与所述2d视频帧存在视差的图像。
39.本发明的一个实施例中,所述像素值调整模块,具体用于:
40.对所获得的每一次下采样处理得到的下采样图像中除第一图像外的每一第二图像内各个像素的像素值乘以预设方差,并加上预设平均值,得到调整后的各个像素的像素值。
41.本发明的一个实施例中,通过以下图像获得模块获得与该2d视频帧存在视差的图像:
42.图像获得模块,用于将2d视频帧输入预先训练的图像获得模型中,获得与所述2d视频帧存在视差的图像,其中,所述图像获得模型的模型参数中包含所述预设参数,所述图像获得模型用于:实现所述下采样模块至所述图像确定模块。
43.本发明的一个实施例中,通过以下模型训练模块对预设的神经网络模型进行训练得到所述图像获得模型,所述模型训练模块,包括:
44.均值方差确定子模块,用于确定3d样本视频帧中两个样本视图内像素间像素值差值的均值和方差,将所确定的均值作为样本均值,将所确定的方差作为样本方差;
45.数组生成子模块,用于获得预设数量个视差数组,其中,所述视差数组中包含的元素表示视差;
46.视差选择子模块,用于从每一视差数组中选择一个视差,得到包括所选择视差的第一数组;
47.视差调整子模块,用于根据所述样本均值和样本方差,调整所述第一数组中的视差使得第一数组中视差的分布趋近于所述两个样本视图内像素间像素值差值的分布,得到第二数组;
48.均值方差计算子模块,用于计算第二数组的视差均值与视差方差;
49.参数设置子模块,用于将预设的神经网络模型的模型参数中的预设参数设置为所
述视差均值与视差方差;
50.图像获得子模块,用于将一个样本视图输入所述神经网络模型,得到与所述样本视图存在视差的输出图像;
51.损失计算子模块,用于根据所述输出图像与另一样本视图,计算所述神经网络模型的损失;
52.参数调整子模块,用于根据所述损失调整所述神经网络模型的模型参数。
53.本发明的一个实施例中,所述均值方差确定子模块,具体用于:
54.提取表示所述两个样本视图之间关联关系的关联特征;
55.对所述关联特征进行卷积处理;
56.对所获得的卷积处理结果进行全连接处理,得到所述两个样本视图内像素间像素值差值的均值与方差。
57.第三方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
58.存储器,用于存放计算机程序;
59.处理器,用于执行存储器上所存放的程序时,实现第一方面任一所述的方法步骤。
60.第四方面,一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现第一方面任一所述的方法步骤。
61.第五方面,在本发明实施的又一方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面任一所述的方法步骤。
62.本发明实施例提供的2d视频帧的视差图像生成方案中,对2d视频帧进行级联下采样处理,获得每一次下采样处理得到的下采样图像,基于数值固定的预设参数对第二图像内像素的像素值进行调整。对第一图像进行上采样处理,得到上采样图像,对上采样图像进行卷积处理,得到与上采样图像尺寸相同的卷积图像。将上采样图像、卷积图像以及与上采样图像尺寸相同的像素值调整后的第二图像进行像素值融合,得到融合图像。重复执行上述过程,直至融合图像的尺寸与2d视频帧相同,将最终得到的融合图像确定为与2d视频帧存在视差的图像。
63.由以上可见,通过本发明实施例提供的方案能够获得与2d视频帧存在视差的图像。并且,在获得与2d视频帧存在视差的图像的过程中,始终使用数值固定的预设参数对第二图像进行调整。受到数值固定的预设参数的影响,所生成的图像与2d视频帧之间的视差较为固定,因此通过本发明实施例提供的方案可以降低2d视频帧与所生成的图像的视差之间的差距。并且,通过调整上述预设参数,可以改变对第二图像的调整结果,从而改变所生成的融合图像,进一步的使得所获得的图像与2d视频帧之间的视差发生改变,因此所获得的图像与2d视频帧之间的视差可调节。
附图说明
64.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
65.图1为本发明实施例提供的一种2d视频帧的视差图像生成方法的流程示意图;
66.图2为本发明实施例提供的第一种图像获得模型训练方法的流程示意图;
67.图3为本发明实施例提供的第二种图像获得模型训练方法的流程示意图;
68.图4为本发明实施例提供的一种2d视频帧的视差图像生成装置的结构示意图;
69.图5为本发明实施例提供的一种模型训练模块的结构示意图;
70.图6为本发明实施例中提供的一种电子设备的结构示意图。
具体实施方式
71.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
72.由于现有技术中不同2d视频帧与所生成的图像的视差之间的差距较大。为解决这一问题,本发明实施例提供了一种2d视频帧的视差图像生成方法及装置。
73.本发明的一个实施例中,提供了一种2d视频帧的视差图像生成方法,上述方法包括:
74.对2d视频帧进行包括预设数量次下采样处理的级联下采样处理,获得每一次下采样处理得到的下采样图像,上述级联下采样处理中每次下采样处理的结果作为下一次进行下采样处理所处理的图像;
75.基于数值固定的预设参数,对所获得的每一次下采样处理得到的下采样图像中除第一图像外的每一第二图像内像素的像素值进行调整,以使得每一第二图像内像素的像素值均值以及方差得到改变,上述第一图像为:所获得下采样图像中尺寸最小的图像;
76.对上述第一图像进行上采样处理,得到上采样图像;
77.对上采样图像进行卷积处理,得到与上述上采样图像尺寸相同的卷积图像;
78.将上述上采样图像、卷积图像以及与所述上采样图像尺寸相同的像素值调整后的第二图像,按照像素位置进行像素值融合,得到融合图像;
79.若上述融合图像的尺寸与上述2d视频帧的尺寸不同,则对上述融合图像进行上采样处理,得到新的上采样图像,并返回执行上述对上采样图像进行卷积处理,得到与上述上采样图像尺寸相同的卷积图像,以及所述将所述上采样图像、卷积图像以及与所述上采样图像尺寸相同的像素值调整后的第二图像,按照像素位置进行像素值融合,得到融合图像的步骤;
80.否则,将上述融合图像确定为与上述2d视频帧存在视差的图像。
81.由以上可见,通过本发明实施例提供的方案能够获得与2d视频帧存在视差的图像。并且,在获得与2d视频帧存在视差的图像的过程中,始终使用数值固定的预设参数对第二图像进行调整。受到数值固定的预设参数的影响,所生成的图像与2d视频帧之间的视差较为固定,因此通过本发明实施例提供的方案可以降低2d视频帧与所生成的图像的视差之间的差距。并且,通过调整上述预设参数,可以改变对第二图像的调整结果,从而改变所生成的融合图像,进一步的使得所获得的图像与2d视频帧之间的视差发生改变,因此所获得的图像与2d视频帧之间的视差可调节。
82.下面通过具体的实施例对本发明实施例提供的2d视频帧的视差图像生成方法及装置进行说明。
83.具体的,3d视频中的每一3d视频帧中包含两张彼此之间存在视差的2d图像,上述两张2d图像可以被称为3d视频帧的两个视图,用户观看3d视频的过程中,左眼与右眼观看到的视图不同,因此根据视图对应的眼睛不同,可以将上述3d视频帧的视图区分为左视图
与右视图。则若将上述2d视频帧作为左视图,所获得的与上述2d视频帧存在视差的图像即为右视图,反之,若将上述2d视频帧作为右视图,所获得的与上述2d视频帧存在视差的图像即为左视图。
84.参见图1,本发明实施例提供了一种2d视频帧的视差图像生成方法的流程示意图,针对每一2d视频帧,按照以下步骤s101-s107获得与该2d视频帧存在视差的图像。
85.s101:对2d视频帧进行包括预设数量次下采样处理的级联下采样处理,获得每一次下采样处理得到的下采样图像。
86.其中,上述级联下采样处理中每次下采样处理的结果作为下一次进行下采样处理所处理的图像。
87.例如,上述预设次数可以为5次,则对2d视频帧进行第一次下采样处理后,再对第一次下采样处理的结果进行第二次下采样处理,并对第二次下采样处理的结果进行第三次下采样处理,依次类推,共进行5次下采样处理,获得5张下采样图像。
88.由于下采样处理会降低图像的尺寸,因此所获得的各个下采样图像的尺寸不同。具体的,上述下采样处理可以为:使得经过下采样处理之后的图像的尺寸降低为原图像的尺寸的的处理。
89.例如,上述2d视频帧的尺寸为1080像素
×
720像素,进行一次下采样处理后得到的下采样图像的尺寸为540像素
×
360像素,进行第二次下采样处理后得到的下采样图像的尺寸为270像素
×
180像素,依次类推,每进行一次下采样处理得到的下采样图像的尺寸为下采样处理前的一半。
90.本发明的一个实施例中,上述下采样处理可以通过卷积处理与池化处理实现。
91.s102:基于数值固定的预设参数,对所获得的每一次下采样处理得到的下采样图像中除第一图像外的每一第二图像内像素的像素值进行调整,以使得每一第二图像内像素的像素值均值以及方差得到改变。
92.其中,上述第一图像为:所获得下采样图像中尺寸最小的图像。
93.具体的,由于每经过一次下采样处理,所得到的下采样图像的尺寸依次降低,因此上述第一图像为级联下采样处理中最后一次下采样处理所获得的图像。
94.本发明的一个实施例中,可以通过以下步骤a实现上述步骤s102。
95.步骤a:对所获得的每一次下采样处理得到的下采样图像中除第一图像外的每一第二图像内各个像素的像素值乘以预设方差,并加上预设平均值,得到调整后的各个像素的像素值。
96.具体的,上述预设方差与预设平均值均为上述预设参数。按照数学原理对各个像素值乘以同一预设方差,可以改变像素值整体的方差,在各个像素值的基础上加上同一预设平均值,可以改变像素值整体的平均值
97.其中,可以按照以下公式对所获得下采样图像中除第一图像外的每一第二图像内像素的像素值进行调整:
98.encoder
′i=encoderi*sigma mean
99.其中,上述i为第二图像的顺序号,encoderi为第i个第二图像内像素的像素值,sigma与mean为上述预设参数,encoder
′i为对encoderi调整之后得到的像素值。
100.具体的,通过改变上述预设参数,可以调整计算得到的encoder
′i,从而使得调整后的第二图像发生改变。
101.s103:对上述第一图像进行上采样处理,得到上采样图像。
102.具体的,上述上采样处理为上述级联下采样处理中下采样处理的反变换过程,即上采样处理所处理的第一图像的尺寸与上述下采样处理得到的图像尺寸相同,上述上采样处理得到的上采样图像的尺寸,与上述下采样处理所处理的下采样图像的尺寸相同。
103.例如,若上述下采样处理使得经过下采样处理之后的图像的尺寸降低为原图像则上述上采样处理可以使得经过上采样处理之后的图像的尺寸增加至原图像2倍。
104.例如,若上述第一图像的尺寸为270像素
×
180像素,则对第一图像进行上采样处理后得到的上采样图像的尺寸为540像素
×
360像素。
105.其中,上述上采样处理可以通过双线性差值法实现。
106.另外,可以将上述下采样处理过程称为编码过程,则可以将上述上采样处理过程称为解码过程。
107.s104:对上采样图像进行卷积处理,得到与上述上采样图像尺寸相同的卷积图像。
108.具体的,上述卷积处理可以为使得图像尺寸不变的卷积处理。则经过卷积处理后得到的卷积图像的尺寸与上采样图像的尺寸相同。
109.s105:将上述上采样图像、卷积图像以及与上述上采样图像尺寸相同的像素值调整后的第二图像,按照像素位置进行像素值融合,得到融合图像。
110.其中,由于上述上采样处理与下采样处理互为反变换过程,因此存在与经过上采样处理后得到的上采样图像尺寸相同的下采样图像。
111.具体的,由于上述上采样图像、卷积图像与调整后的上采样图像的尺寸相同,因此上述图像的像素按照像素位置存在相互对应的关系,即像素位置相同的像素互相对应,例如,三者左上角的像素相互对应。将尺寸相同的上采样图像、卷积图像与调整后的下采样图像进行融合,得到的融合图像的尺寸也同样与上述上采样图像相同。
112.可以将相互对应的像素的像素值进行平均值计算、加权平均计算等计算,将所得到的计算结果作为融合图像对应像素位置的像素的像素值,从而得到融合图像。例如,可以将三者左上角的像素的像素值进行加权平均计算,将所得到的计算结果作为融合图像左上角像素点的像素值。
113.另外,也可以通过逻辑滤波器算法、金字塔分解算法、高通滤波算法等方法对上述上采样图像、卷积图像与调整后的下采样图像进行融合,在此不再赘述。
114.s106:若上述融合图像的尺寸与上述2d视频帧的尺寸不同,则对上述融合图像进行上采样处理,得到新的上采样图像。
115.具体的,3d视频帧的两个视图的尺寸相同,因此若上述融合图像的尺寸与上述2d视频帧的尺寸不同,则说明所得到的融合图像还不是与上述2d视频帧存在视差的图像,因此需要继续对上述上采样图像进行处理,返回执行上述步骤s104-s105。这样返回上述步骤s104之后,会针对上述新的上采样图像进行卷积处理,并对新得到的卷积图像、上采样图像以及第二图像进行融合处理。
116.另外,上述步骤s101-s106对2d视频帧进行级联下采样处理之后,再进行连续多次
上采样处理,直至所得到的融合图像的尺寸与2d视频帧相同的过程可以被称为金字塔编码。
117.s107:若上述融合图像的尺寸与上述2d视频帧的尺寸相同,将上述融合图像确定为与上述2d视频帧存在视差的图像。
118.由以上可见,通过本发明实施例提供的方案能够获得与2d视频帧存在视差的图像。并且,在获得与2d视频帧存在视差的图像的过程中,始终使用数值固定的预设参数对第二图像进行调整。受到数值固定的预设参数的影响,所生成的图像与2d视频帧之间的视差较为固定,因此通过本发明实施例提供的方案可以降低2d视频帧与所生成的图像的视差之间的差距。并且,通过调整上述预设参数,可以改变对第二图像的调整结果,从而改变所生成的融合图像,进一步的使得所获得的图像与2d视频帧之间的视差发生改变,因此所获得的图像与2d视频帧之间的视差可调节。
119.本发明的一个实施例中,上述步骤s101-s107可以通过以下步骤b实现。
120.步骤b:将2d视频帧输入预先训练的图像获得模型中,获得与上述2d视频帧存在视差的图像。
121.其中,上述图像获得模型的模型参数中包含上述预设参数。上述图像获得模型用于:实现上述步骤s101-s107。
122.具体的,与前述图1所示的实施例相比,上述下采样处理可以通过上述图像获得模型的卷积层与池化层实现,上述上采样处理可以通过上述图像获得模型的反卷积层实现,上述卷积处理可以通过上述图像获得模型的卷积层实现。
123.上述图像获得模型可以按照上述图1所示方式对上述2d视频帧进行处理,得到与上述2d视频帧存在视差的图像,实现上述图1所示的实施例。
124.参见图2,本发明实施例提供了第一种图像获得模型训练方法的流程示意图。具体的,通过以下步骤s201-s209对预设的神经网络模型进行训练得到上述图像获得模型。
125.s201:确定3d样本视频帧中两个样本视图内像素间像素值差值的均值和方差,将所确定的均值作为样本均值,将所确定的方差作为样本方差。
126.具体的,上述两个样本视图的尺寸相同,可以按照像素位置分别确定两个样本视图内对应像素间的像素值差值,从而计算上述样本视差的样本均值与样本方差。
127.由于均值与方差均是能够反映数据分布情况的统计学数值,因此上述样本均值与样本方差能够表示上述两个样本视图内像素间像素值差值的分布。
128.本发明实施例中,可以通过以下步骤c-步骤e确定上述样本均值与样本方差。
129.步骤c:提取表示上述两个样本视图之间关联关系的关联特征。
130.具体的,可以通过神经网络模型中的关联层提取上述两个样本视图之间的关联特征。上述关联层的数量可以为1个。
131.可以将上述两个样本视图输入上述关联层,将关联层的输出结果作为上述关联特征。
132.步骤d:对上述关联特征进行卷积处理。
133.其中,可以通过神经网络模型中的卷积层对关联特征进行卷积处理。
134.具体的,可以通过连续的卷积层对关联特征进行卷积处理,例如,可以通过5个卷积层对关联特征进行卷积处理,即由第一卷积层对关联特征进行卷积处理,得到第一卷积
结果;由第二卷积层对第一卷积结果进行卷积处理,得到第二卷积结果;由第三卷积层对第二卷积结果进行卷积处理,得到第三卷积结果,依次类推,将第五卷积层输出的第五卷积结果作为最终得到的、对关联特征进行卷积处理的卷积处理结果。
135.步骤e:对所获得的卷积处理结果进行全连接处理,得到上述两个样本视图内像素间像素值差值的均值与方差。
136.其中,可以分别将卷积处理结果输入神经网络模型中2个不同的全连接层对上述卷积处理结果进行全连接处理,分别得到上述样本均值与样本方差。
137.s202:获得预设数量个视差数组。
138.其中,上述视差数组中包含的元素表示视差。上述视差数组可以是随机生成的,也可以是预先设置的,不做具体限制。
139.具体的,由于样本视图内像素间像素值差值的分布往往接近于正态分布,因此上述视差数组包含的视差可以符合正态分布,从而使得视差数组中视差的分布接近于实际的像素值差值的分布。
140.另外,上述视差数组中包含的视差也可以符合平均分布等其他分布形式。
141.其中,上述视差数组可以是随机生成的。
142.此外,上述预设数量可以为2的任意次方,如128、64、32、256等。
143.s203:从每一视差数组中选择一个视差,得到包括所选择视差的第一数组。
144.具体的,可以从每一视差数组中随机选择一个视差,也可以选择每一视差数组中预设位置处的视差。上述视差数组的数量不同,得到的第一数组的维度数也不同,若上述视差数组的数量为128个,则可以认为上述第一数组的维度是128维。上述第一数组的维度数与上述样本方差与样本均值的维度数相同。
145.可以认为从每一视差数组中选择的一个视差可以表示该视差数组中视差的分布。若上述视差数组是随机生成的具有随机性,则所得到的第一数组同样具有随机性。并且由于上述视差数组的数量较多,因此上述随机生成的第一数组能够表示普遍的随机情况下3d视频帧的视图内像素之间的像素值差值的分布情况。
146.s204:根据上述样本均值和样本方差,调整上述第一数组中的视差使得第一数组中视差的分布趋近于上述两个样本视图内像素间像素值差值的分布,得到第二数组。
147.具体的,可以将第一数组中的每一视差乘以样本均值之后再加上样本方差,从而对第一数组中的视差进行调整,得到第二数组。
148.若上述第一数组是随机生成的,由于上述样本均值与样本方差能够表示上述两个样本视图内像素间像素值差值的分布情况,第一数组能够表示3d视频帧的视图间视差的随机分布情况,因此根据上述样本均值和样本方差,调整第一数组的视差后得到的第二数组既能够表示样本视图内像素间像素值差值的分布情况,又能反映视差的随机分布情况。
149.s205:计算第二数组的视差均值与视差方差。
150.具体的,可以对上述第二数组进行全连接处理,计算得到上述视差均值与视差方差。可以将上述第二数组输入神经网络中的全连接层,将输出的结果作为上述视差均值与视差方差。
151.s206:将预设的神经网络模型的模型参数中的预设参数设置为上述视差均值与视差方差。
152.具体的,由于针对不同3d视频帧,两个样本视图内像素间像素值差值的分布不同,因此确定得到的样本均值和样本方差不同,对于不同的3d视频帧,计算得到的视差均值与视差方差不同。
153.根据不同的样本视图对上述神经网络模型进行训练之前,需要将上述神经网络模型的预设参数设置为与该样本视图相对应的视差均值与视差方差。以使得所设置的预设参数与进行模型训练时使用的样本视图相匹配。
154.s207:将一个样本视图输入上述神经网络模型,得到与上述样本视图存在视差的输出图像。
155.由于为了使得3d视频呈现出不同的3d立体效果,不同3d视频帧中视图之间的视差往往不同,即不同3d视频帧中视图之间的视差分布往往不同。也就是说不同3d视频帧中视图之间的视差的相似性较低,3d视频帧具有3d视差歧义性。以不同的3d视频帧的视图作为样本视图对神经网络模型进行训练会对上述神经网络模型造成不同的影响。使得上述神经网络模型难以被训练至收敛。
156.因此,上述神经网络模型在对样本视图进行处理时,可以根据上述视差均值与视差方差对所获得的样本视图的样本下采样图像中除第三图像外的第四图像内像素的像素值进行调整,使得调整后第四图像内像素的像素值受到样本视图的像素之间像素值差值分布的影响,趋近于对另一样本视图进行虚拟的下采样处理得到的结果。从而使得所得到的输出图像趋近于另一样本视图,使得上述神经网络模型较为易于被训练至收敛。并且若上述第一数组是随机生成,的,则上述视差均值与视差方差具有随机性,因此所得到的输出图像并非直接趋近于另一样本视图,保证了通过上述样本视图能够对上述神经网络模型进行有效的训练。
157.其中,上述第三图像为所获得的样本下采样图像中尺寸最小的图像。
158.另外,本发明的一个实施例中,可以将一个预设类型的样本视图输入上述神经网络模型,得到与上述一个样本视图存在视差的输出图像。
159.其中,上述预设类型为左视图或右视图。
160.若上述预设类型为左视图,则在进行模型训练时始终将样本视图中的左视图输入上述神经网络模型,将输出图像作为右视图。由于输入上述神经网络模型中的样本视图均为左视图,上述输入神经网络模型中的样本视图具有相似性,因此上述神经网络模型较容易被训练至收敛。
161.同理,若上述预设类型为右视图,上述神经网络模型同样较容易被训练至收敛,在此不再赘述。
162.另外,由于上述样本视图为左视图或者右视图,也就是样本视图为对应观看用户单一眼睛的视图,所以上述神经网络模型对样本视图进行处理的过程可以被称为单目编码。
163.s208:根据上述输出图像与另一样本视图,计算上述神经网络模型的损失。
164.本发明的实施例中可以将输出图像与另一样本视图作为损失计算算法的输入数据,通过上述损失计算算法计算得到上述损失。具体的,上述损失计算算法可以为l1算法、ssim(structural similarity,结构相似性)算法、视差深度图的二阶梯度算法或其他算法,上述算法为现有算法,在此不再赘述。
165.s209:根据上述损失调整上述神经网络模型的模型参数。
166.在调整模型参数之后,若满足预设的训练终止条件,则将训练之后的神经网络模型确定为图像获得模型。
167.具体的,上述训练终止条件可以为对模型参数的调整达到预设次数,也可以为计算得到的上述神经网络模型的损失小于预设损失或其他训练终止条件。
168.否则,返回执行上述步骤s201-s208,继续进行模型训练。
169.由以上可见,本发明实施例提供的方案以3d视频帧中的视图作为样本视图,将一个样本视图输入神经网络模型中,并根据所得到的输出图像与另一样本视图计算损失,调整模型参数,通过训练使得神经网络模型输出的输出图像逐渐趋近于与输入的样本视图存在视差的另一样本视图。从而使得训练得到的图像获得模型能够根据输入的2d视频帧得到与2d视频帧存在视差的图像。
170.并且,本发明实施例提供的方案在进行模型训练时会根据计算得到的预设参数对各个第四图像内像素的像素值进行调整,使得所得到的输出图像趋近于另一样本视图。从而可以降低计算得到的损失,上述神经网络模型更易于被训练至收敛。
171.参见图3,本发明实施例提供了第二种图像获得模型训练方法的流程示意图,其中,l为样本视图中的左视图,r为样本视图中的右视图,r’为输出图像,vae为用于输出视差均值和视差方差的模型。
172.其中,根据样本视图与第一数组计算得到视差均值与视差方差,并以上述视差均值与视差方差配置神经网络模型。图中表示的输入神经网络模型的样本视图为左视图。生成融合图像,根据融合图像获得输出图像。由于上述输入神经网络模型的样本视图为左视图,因此可以认为上述输出图像r’为所生成的右视图。根据输出图像与样本视图中的右视图计算模型损失,并可以根据损失调整上述神经网络模型的模型参数。
173.由以上可见,vae模型能够基于样本视图像素点的像素值之间差值计算得到视差均值与视差方差,在神经网络模型中,基于上述视差均值与视差方差对样本视图内像素的像素值进行调整,可以得到上述融合图像,再对融合图像进行处理,可以得到与样本视图之间存在视差的输出图像,基于输出图像与另一样本图像可以计算得到神经网络模型的损失,进一步的可以基于上述损失可以调整神经网络模型的模型参数。因此通过本发明实施例提供的方案可以实现前文所示的神经网络模型的训练过程。
174.与前述2d视频帧的视差图像生成方法相对应,参见图4,为本发明实施例提供的一种2d视频帧的视差图像生成装置的结构示意图,所述装置包括:
175.下采样模块401,用于对2d视频帧进行包括预设数量次下采样处理的级联下采样处理,获得每一次下采样处理得到的下采样图像,所述级联下采样处理中每次下采样处理的结果作为下一次进行下采样处理所处理的处理图像;
176.像素值调整模块402,用于基于数值固定的预设参数,对所获得的每一次下采样处理得到的下采样图像中除第一图像外的每一第二图像内像素的像素值进行调整,以使得每一第二图像内像素的像素值均值以及方差得到改变,所述第一图像为:所获得下采样图像中尺寸最小的图像;
177.第一上采样模块403,用于对所述第一图像进行上采样处理,得到上采样图像;
178.卷积模块404,用于对上采样图像进行卷积处理,得到与所述上采样图像尺寸相同
的卷积图像;
179.像素值融合模块405,用于将所述上采样图像、卷积图像以及与所述上采样图像尺寸相同的像素值调整后的第二图像,按照像素位置进行像素值融合,得到融合图像;
180.第二上采样模块406,用于若所述像素值融合模块405得到的融合图像的尺寸与所述2d视频帧的尺寸不同,则对所述融合图像进行上采样处理,得到新的上采样图像,并返回触发执行所述卷积模块404以及像素值融合模块405;
181.图像确定模块407,用于若所述像素值融合模块405得到的融合图像的尺寸与所述2d视频帧的尺寸相同,将所述融合图像确定为与所述2d视频帧存在视差的图像。
182.由以上可见,通过本发明实施例提供的方案能够获得与2d视频帧存在视差的图像。并且,在获得与2d视频帧存在视差的图像的过程中,始终使用数值固定的预设参数对第二图像进行调整。受到数值固定的预设参数的影响,所生成的图像与2d视频帧之间的视差较为固定,因此通过本发明实施例提供的方案可以降低2d视频帧与所生成的图像的视差之间的差距。并且,通过调整上述预设参数,可以改变对第二图像的调整结果,从而改变所生成的融合图像,进一步的使得所获得的图像与2d视频帧之间的视差发生改变,因此所获得的图像与2d视频帧之间的视差可调节。
183.本发明的一个实施例中,上述像素值调整模块402,具体用于:
184.对所获得的每一次下采样处理得到的下采样图像中除第一图像外的每一第二图像内各个像素的像素值乘以预设方差,并加上预设平均值,得到调整后的各个像素的像素值。
185.本发明的一个实施例中,通过以下图像获得模块获得与该2d视频帧存在视差的图像:
186.图像获得模块,用于将2d视频帧输入预先训练的图像获得模型中,获得与所述2d视频帧存在视差的图像,其中,所述图像获得模型的模型参数中包含所述预设参数,所述图像获得模型用于:实现所述下采样模块至所述图像确定模块。
187.由以上可见,上述图像获得模型可以按照上述2d视频帧的视差图像生成方法所示的方式对上述2d视频帧进行处理,得到与上述2d视频帧存在视差的图像。
188.本发明的一个实施例中,通过以下模型训练模块对预设的神经网络模型进行训练得到所述图像获得模型。参见图5,本发明实施例提供了一种模型训练模块的结构示意图,上述模型训练模块,包括:
189.均值方差确定子模块501,用于确定3d样本视频帧中两个样本视图内像素间像素值差值的均值和方差,将所确定的均值作为样本均值,将所确定的方差作为样本方差;
190.数组生成子模块502,用于获得预设数量个视差数组,其中,所述视差数组中包含的元素表示视差;
191.视差选择子模块503,用于从每一视差数组中选择一个视差,得到包括所选择视差的第一数组;
192.视差调整子模块504,用于根据所述样本均值和样本方差,调整所述第一数组中的视差使得第一数组中视差的分布趋近于所述两个样本视图内像素间像素值差值的分布,得到第二数组;
193.均值方差计算子模块505,用于计算第二数组的视差均值与视差方差;
194.参数设置子模块506,用于将预设的神经网络模型的模型参数中的预设参数设置为所述视差均值与视差方差;
195.图像获得子模块507,用于将一个样本视图输入所述神经网络模型,得到与所述样本视图存在视差的输出图像;
196.损失计算子模块508,用于根据所述输出图像与另一样本视图,计算所述神经网络模型的损失;
197.参数调整子模块509,用于根据所述损失调整所述神经网络模型的模型参数。
198.由以上可见,本发明实施例提供的方案以3d视频帧中的视图作为样本视图,将一个样本视图输入神经网络模型中,并根据所得到的输出图像与另一样本视图计算损失,调整模型参数,通过训练使得神经网络模型输出的输出图像逐渐趋近于与输入的样本视图存在视差的另一样本视图。从而使得训练得到的图像获得模型能够根据输入的2d视频帧得到与2d视频帧存在视差的图像。
199.并且,本发明实施例提供的方案在进行模型训练时会根据计算得到的预设参数对各个第四图像内像素的像素值进行调整,使得所得到的输出图像趋近于另一样本视图。从而可以降低计算得到的损失,上述神经网络模型更易于被训练至收敛。
200.本发明的一个实施例中,上述均值方差确定子模块501,具体用于:
201.提取表示所述两个样本视图之间关联关系的关联特征;
202.对所述关联特征进行卷积处理;
203.对所获得的卷积处理结果进行全连接处理,得到所述两个样本视图内像素间像素值差值的均值与方差。
204.本发明实施例还提供了一种电子设备,如图6所示,包括处理器601、通信接口602、存储器603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信,
205.存储器603,用于存放计算机程序;
206.处理器601,用于执行存储器603上所存放的程序时,实现上述2d视频帧的视差图像生成方法任一所述的方法步骤。
207.应用本发明实施例提供的电子设备生成2d视频帧的视差图像时,通过本发明实施例提供的方案能够获得与2d视频帧存在视差的图像。并且,在获得与2d视频帧存在视差的图像的过程中,始终使用数值固定的预设参数对第二图像进行调整。受到数值固定的预设参数的影响,所生成的图像与2d视频帧之间的视差较为固定,因此通过本发明实施例提供的方案可以降低2d视频帧与所生成的图像的视差之间的差距。并且,通过调整上述预设参数,可以改变对第二图像的调整结果,从而改变所生成的融合图像,进一步的使得所获得的图像与2d视频帧之间的视差发生改变,因此所获得的图像与2d视频帧之间的视差可调节。
208.上述终端提到的通信总线可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
209.通信接口用于上述终端与其他设备之间的通信。
210.存储器可以包括随机存取存储器(random access memory,简称ram),也可以包括
非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
211.上述的处理器可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(digital signal processing,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)、现场可编程门阵列(field-programmable gate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
212.在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述实施例中任一所述的2d视频帧的视差图像生成方法。
213.应用本实施例提供的计算机可读存储介质中存储的计算机程序生成2d视频帧的视差图像时,通过本发明实施例提供的方案能够获得与2d视频帧存在视差的图像。并且,在获得与2d视频帧存在视差的图像的过程中,始终使用数值固定的预设参数对第二图像进行调整。受到数值固定的预设参数的影响,所生成的图像与2d视频帧之间的视差较为固定,因此通过本发明实施例提供的方案可以降低2d视频帧与所生成的图像的视差之间的差距。并且,通过调整上述预设参数,可以改变对第二图像的调整结果,从而改变所生成的融合图像,进一步的使得所获得的图像与2d视频帧之间的视差发生改变,因此所获得的图像与2d视频帧之间的视差可调节。
214.在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的2d视频帧的视差图像生成方法。
215.执行本实施例提供的计算机程序产品生成2d视频帧的视差图像时,通过本发明实施例提供的方案能够获得与2d视频帧存在视差的图像。并且,在获得与2d视频帧存在视差的图像的过程中,始终使用数值固定的预设参数对第二图像进行调整。受到数值固定的预设参数的影响,所生成的图像与2d视频帧之间的视差较为固定,因此通过本发明实施例提供的方案可以降低2d视频帧与所生成的图像的视差之间的差距。并且,通过调整上述预设参数,可以改变对第二图像的调整结果,从而改变所生成的融合图像,进一步的使得所获得的图像与2d视频帧之间的视差发生改变,因此所获得的图像与2d视频帧之间的视差可调节。
216.在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以
是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solid state disk(ssd))等。
217.需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
218.本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质和计算机程序产品,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
219.以上所述仅为本发明的较佳实施例,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献