一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

独立图层生成对抗网络的生成方法及装置

2022-07-31 04:58:45 来源:中国专利 TAG:


1.本技术涉及计算机视觉与机器学习技术领域,特别涉及一种独立图层生成对抗网络的生成方法及装置。


背景技术:

2.在深度学习的计算机视觉领域,训练网络模型往往需要大量的数据与相应的标注才能达到理想的性能。而在收集数据的过程中,收集数据标注的过程需要耗费大量的时间资源,并且存在一定的人为标记错误,对于某些特定的任务还需要收集特定的数据标注。与收集数据标注相比,无标签的数据往往更容易获得,因此利用无标签的数据通过无监督学习等方式来帮助网络训练成为了一种重要的技术。
3.相关技术中,图层生成对抗网络生成方法在构建能输出多个图层的生成器之后,通过对前景进行平移扰动和额外的背景判别器的方式,实现前景图层和背景图层生成出各自对应的内容。其中,对前景进行平移的方法基于的假设是,当前景正确分割时,其在背景上进行平移时对真实性影响最小,从而让生成器生成出对应的掩膜图层;而额外的背景判别器间接地依赖于人工标注,这一类方法根据检测框信息,从训练图片的背景区域裁剪出背景块作为真实图片去训练背景判别器,再利用背景判别器去额外监督背景图层,从而实现不同图层的生成。
4.然而,相关技术中,简单的基于前景平移扰动的方法存在不同图层之间出现相似内容的混淆问题,当图层生成器包括前景图层、背景图层和掩膜层时,简单的基于前景平移扰动的方法生成的前景图层会包括部分背景内容,而背景图层会包括部分前景内容。例如,当生成一张汽车的图层时,背景图层中出现了车轮而前景图层则出现了树木和路面等背景,这种缺陷会导致生成图层的质量下降,不利于其下游的应用,如图像分割,亟需改善。


技术实现要素:

5.本技术提供一种独立图层生成对抗网络的生成方法及装置,以解决相关技术中基于前景平移扰动的方法生成图层内容时,会导致不同图层之间的内容混淆,从而降低图层质量,且不利于下游应用的技术问题。
6.本技术第一方面实施例提供一种独立图层生成对抗网络的生成方法,所述独立图层生成对抗网络包括背景生成器、前景掩膜生成器、判别器、前景掩膜扰动器和图层独立器,其中,所述方法包括以下步骤:将连续随机变量输入至所述背景生成器和所述前景掩膜生成器,分别获取背景图层和前景图层与对应的掩膜图层;将所述背景图层和所述前景图层与对应的掩膜图层输入至所述图层独立器,得到所述图层独立器对图层生成器的优化目标;将所述前景图层与对应的掩膜图层输入至所述前景掩膜扰动器,得到扰动后的前景与掩膜图层,并与所述背景图层进行组合,得到生成图片;将所述生成图片输入至所述判别器,并计算相应的生成对抗学习损失函数的同时,对所述图层独立器输出的互信息进行最小化,得到图层生成器最终的损失函数,并对图层生成器进行训练;将所述生成图片和真实
图片输入至所述判别器,根据所述生成对抗损失函数得到所述判别器的损失函数,并对所述判别器进行训练;将所述背景图层、所述前景图层和所述掩膜图层输入至所述图层独立器,根据所述图层独立器的损失函数进行最大似然估计,并对所述图层独立器进行训练;迭代进行所述图层生成器、所述判别器以及图层独立器的交替训练,直至满足迭代结束条件,得到最终训练好的图层生成对抗网络。
7.可选地,在本技术的一个实施例中,所述将所述背景图层和所述前景图层与对应的掩膜图层输入至所述图层独立器,得到所述图层独立器对图层生成器的优化目标,包括:基于背景图层和前景图层在最终生成图片中展现的区域,通过掩膜层对所述区域进行划分,确定前景图层可视区域、前景图层不可视区域、背景图层可视区域与背景图层不可视区域;计算所述前景图层可视区域与所述背景图层不可视区域之间的第一互信息,并计算所述前景图层不可视区域和所述背景图层可视区域之间的第二互信息;根据所述第一互信息和所述第二互信息获取所述图层独立器对所述图层生成器的优化目标。
8.可选地,在本技术的一个实施例中,所述优化目标伪:
9.min mi(x
mb
;x
mf
) mi(xm′b;xm′f),
10.其中,x
mf
为前景图层可视区域,xm′f为前景图层的不可视区域,x
mb
为背景图层的不可视区域,xm′b为背景图层的可视区域。
11.可选地,在本技术的一个实施例中,所述生成图片表示为:
12.x=t(m)

t(xf) (1-t(m))

xb,
13.其中,t代表对于前景层和掩膜层的随机平移扰动,x代表最终将各个图层组合而成的最终图片。
14.可选地,在本技术的一个实施例中,在将所述连续随机变量输入至所述背景生成器和所述前景掩膜生成器之前,还包括:从多元高斯分布随机采样所述连续随机变量。
15.本技术第二方面实施例提供一种独立图层生成对抗网络的生成装置,所述独立图层生成对抗网络包括背景生成器、前景掩膜生成器、判别器、前景掩膜扰动器和图层独立器,其中,所述装置包括:第一获取模块,用于将连续随机变量输入至所述背景生成器和所述前景掩膜生成器,分别获取背景图层和前景图层与对应的掩膜图层;第二获取模块,用于将所述背景图层和所述前景图层与对应的掩膜图层输入至所述图层独立器,得到所述图层独立器对图层生成器的优化目标;组合模块,用于将所述前景图层与对应的掩膜图层输入至所述前景掩膜扰动器,得到扰动后的前景与掩膜图层,并与所述背景图层进行组合,得到生成图片;第一训练模块,用于将所述生成图片输入至所述判别器,并计算相应的生成对抗学习损失函数的同时,对所述图层独立器输出的互信息进行最小化,得到图层生成器最终的损失函数,并对图层生成器进行训练;第二训练模块,用于将所述生成图片和真实图片输入至所述判别器,根据所述生成对抗损失函数得到所述判别器的损失函数,并对所述判别器进行训练;第三训练模块,用于将所述背景图层、所述前景图层和所述掩膜图层输入至所述图层独立器,根据所述图层独立器的损失函数进行最大似然估计,并对所述图层独立器进行训练;第四训练模块,用于迭代进行所述图层生成器、所述判别器以及图层独立器的交替训练,直至满足迭代结束条件,得到最终训练好的图层生成对抗网络。
16.可选地,在本技术的一个实施例中,所述第二获取模块包括:区域划分单元,用于基于背景图层和前景图层在最终生成图片中展现的区域,通过掩膜层对所述区域进行划
分,确定前景图层可视区域、前景图层不可视区域、背景图层可视区域与背景图层不可视区域;计算单元,用于计算所述前景图层可视区域与所述背景图层不可视区域之间的第一互信息,并计算所述前景图层不可视区域和所述背景图层可视区域之间的第二互信息;获取单元,用于根据所述第一互信息和所述第二互信息获取所述图层独立器对所述图层生成器的优化目标。
17.可选地,在本技术的一个实施例中,所述优化目标伪:
18.min mi(x
mb
;x
mi
) mi(xm′b;xm′f),
19.其中,x
mf
为前景图层可视区域,xm′f为前景图层的不可视区域,x
mb
为背景图层的不可视区域,xm′b为背景图层的可视区域。
20.可选地,在本技术的一个实施例中,所述生成图片表示为:
21.x=t(m)

t(xf) (1-t(m))

xb,
22.其中,t代表对于前景层和掩膜层的随机平移扰动,x代表最终将各个图层组合而成的最终图片。
23.可选地,在本技术的一个实施例中,还包括:随机采样模块,用于从多元高斯分布随机采样所述连续随机变量。
24.本技术第三方面实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如上述实施例所述的独立图层生成对抗网络的生成方法。
25.本技术第四方面实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上述实施例所述的独立图层生成对抗网络的生成方法。
26.本技术实施例可以通过连续输入随机变量获得生成图片,并利用生成图片获得损失函数,进而基于真实图片、生成图片和损失函数,对分别图层生成器、判别器和图层独立器进行单独训练和交替训练,最终获得训练好的图层生成对抗网络,从而实现高质量的图层生成的同时,有利于下游应用,例如通过高质量图层生成的图片与掩膜可以当作训练数据与标注,并用于分割网络的训练当中,从而实现了无监督物体分割的问题,使得前景与背景分割任务上不再依赖于人工标注,极大程度地降低了标注的人力资源成本。由此,解决了相关技术中基于前景平移扰动的方法生成图层内容时,会导致不同图层之间的内容混淆,从而降低图层质量,且不利于下游应用的技术问题。
27.本技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本技术的实践了解到。
附图说明
28.本技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
29.图1为根据本技术实施例提供的一种独立图层生成对抗网络的生成方法的流程图;
30.图2为根据本技术一个实施例的独立图层生成对抗网络的生成方法的流程图;
31.图3为根据本技术一个实施例的独立图层生成对抗网络的生成方法的原理示意
图;
32.图4为根据本技术一个实施例的独立图层生成对抗网络的生成方法的区域划分示意图;
33.图5为根据本技术一个实施例的独立图层生成对抗网络的生成方法的应用原理示意图;
34.图6为根据本技术实施例提供的一种独立图层生成对抗网络的生成装置的结构示意图;
35.图7为根据本技术实施例提供的电子设备的结构示意图。
具体实施方式
36.下面详细描述本技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本技术,而不能理解为对本技术的限制。
37.下面参考附图描述本技术实施例的独立图层生成对抗网络的生成方法及装置。针对上述背景技术中心提到的相关技术中基于前景平移扰动的方法生成图层内容时,会导致不同图层之间的内容混淆,从而降低图层质量,且不利于下游应用的技术问题,本技术提供了一种独立图层生成对抗网络的生成方法,在该方法中,可以通过连续输入随机变量获得生成图片,并利用生成图片获得损失函数,进而基于真实图片、生成图片和损失函数,对分别图层生成器、判别器和图层独立器进行单独训练和交替训练,最终获得训练好的图层生成对抗网络,从而实现高质量的图层生成的同时,有利于下游应用,例如可以当作训练数据与标注并用于分割网络的训练当中,从而实现了无监督物体分割的问题,使得前景与背景分割任务上不再依赖于人工标注,极大程度地降低了标注的人力资源成本。由此,解决了相关技术中基于前景平移扰动的方法生成图层内容时,会导致不同图层之间的内容混淆,从而降低图层质量,且不利于下游应用的技术问题。
38.具体而言,图1为本技术实施例所提供的一种独立图层生成对抗网络的生成方法的流程示意图。
39.如图1所示,该独立图层生成对抗网络的生成方法包括以下步骤:
40.在步骤s101中,将连续随机变量输入至背景生成器和前景掩膜生成器,分别获取背景图层和前景图层与对应的掩膜图层。
41.需要注意的是,本技术实施例的独立图层生成对抗网络可以由背景生成器、前景掩膜生成器、判别器、前景掩膜扰动器和图层独立器组成。其中,背景生成器与前景掩膜生成器共用同一个输入随机变量并分别输出背景图层和前景与掩膜图层;前景掩膜扰动器可以对前景和掩膜两个图层随机进行一定程度的平移扰动。
42.在实际执行过程中,本技术实施例可以将连续随机变量输入至背景生成器,得到输出背景图层的同时,将连续随机变量输入至掩膜生成器,得到前景图层与相应的掩膜图层,从而利用判别器分辨真假的能力,使图层生成对抗网络生成出对真实性影响最小的掩膜,即前景图层对应的分割。
43.其中,背景生成器和掩膜生成器可组合为图层生成器。
44.可选地,在本技术的一个实施例中,在将连续随机变量输入至背景生成器和前景
掩膜生成器之前,还包括:从多元高斯分布随机采样连续随机变量。
45.可以理解的是,多元高斯分布为一元高斯分布的在向量形式的推广,在一元高斯的情况下,可以用特征的均值与方差来描述该单元的高斯分布,但是多元高斯则使用的是所有特征的均值向量与协方差均值描述多元的高斯分布,本技术实施例可以从多元高斯分布随机采样连续随机变量,可以保证随机变量的均衡性,便于后续克服不同图层间出现相似内容的混淆问题,提升图层生成质量。
46.在步骤s102中,将背景图层和前景图层与对应的掩膜图层输入至图层独立器,得到图层独立器对图层生成器的优化目标。
47.作为一种可能实现的方式,本技术实施例可以将背景图层、前景图层与掩膜图层输入值图层独立器,从而获得图层独立器对图层生成器的优化目标,进而克服不同图层间出现相似内容的混淆问题,提升图层生成质量。
48.可以理解的是,图层生成对抗网络以生成对抗网络为基础,其中生成器通常由多个子生成器组成,并输出多个图层,如背景图层、前景图层和掩膜图层,并通过图层叠加组合,得到最终的输出图片,一般的生成对抗网络只有一个生成器并输出一个图层,从而导致对抗网络生成的不同图层之间出现相似的内容,使得图层的内容与语义不确定,例如,语义设定为前景的图层输出的内容包括背景、设为背景语义的图层输出了前景内容等,本技术实施例为避免上述问题,构建图层生成器,实现多个图层的输出。
49.可选地,在本技术的一个实施例中,将背景图层和前景图层与对应的掩膜图层输入至图层独立器,得到图层独立器对图层生成器的优化目标,包括:基于背景图层和前景图层在最终生成图片中展现的区域,通过掩膜层对区域进行划分,确定前景图层可视区域、前景图层不可视区域、背景图层可视区域与背景图层不可视区域;计算前景图层可视区域与背景图层不可视区域之间的第一互信息,并计算前景图层不可视区域和背景图层可视区域之间的第二互信息;根据第一互信息和第二互信息获取图层独立器对图层生成器的优化目标。
50.在实际执行过程中,本技术实施例可以将得到的背景图层、前景图层和对应的掩膜图层输入至图层独立器,并根据掩膜图层对前景图层和背景图层进行可视与不可视区域的划分。
51.进一步地,本技术实施例可以计算前景图层可视区域和背景图层不可视区域之间的第一互信息,以及前景图层不可视区域和背景图层可视区域之间的第二互信息,进而得到图层独立器对图层生成器的优化目标。
52.本技术实施例可以通过得到图层独立器对图层生成器的优化目标,实现前景图层与背景图层之间的独立图层生成,从而克服不同图层间出现相似内容的混淆问题,提升图层生成质量。
53.可选地,在本技术的一个实施例中,优化目标伪:
54.min mi(x
mb
;x
mf
) mi(xm′b;xm′f),
55.其中,x
mf
为前景图层可视区域,xm′f为前景图层的不可视区域,x
mb
为背景图层的不可视区域,xm′b为背景图层的可视区域。
56.具体地,本技术实施例可以首先将背景图层和前景图层根据其在最终生成图片中的展现的区域,通过掩膜层对其进行可视与不可视区域的划分,即:
57.x
mf
=m

xf,xm′f=(1-m)

xf,
58.x
mb
=m

xb,xm′b=(1-m)

xb,
59.其中,x
mf
为前景图层可视区域,xm′f为前景图层的不可视区域,x
mb
为背景图层的不可视区域,xm′b为背景图层的可视区域,xf为前景层,xb为背景层,m为掩膜层。
60.需要注意的是,可视区域与不可视区域的划分是为了在后续最小化图层独立器损失函数时减少对图层生成对抗网络真实性的影响。
61.下一步,本技术实施例可以计算前景图层可视区域和背景图层不可视区域之间的第一互信息,以及前景图层不可视区域和背景图层可视区域之间的第二互信息,得到图层独立器对图层生成器的优化目标,即:
62.main mi(x
mb
;x
mf
) mi(xm′b;xm′f)。
63.本技术实施例可以通过最小化两组互信息的优化目标,实现前景图层与背景图层之间的独立图层生成,从而克服不同图层间出现相似内容的混淆问题,提升图层生成质量。
64.在步骤s103中,将前景图层与对应的掩膜图层输入至前景掩膜扰动器,得到扰动后的前景与掩膜图层,并与背景图层进行组合,得到生成图片。
65.在实际执行过程中,本技术实施例可以将前景图层与对应的掩膜图层输入至前景掩膜扰动器,得到扰动后的前景图层与掩膜图层,并将扰动后的前景图层与背景图层根据扰动后的掩膜图层进行组合得到生成图片,从而避免不同图层中出现相似信息,导致内容混淆,进而提升图片质量。
66.可选地,在本技术的一个实施例中,生成图片表示为:
67.x=t(m)

t(xf) (1-t(m))

xb,
68.其中,t代表对于前景层和掩膜层的随机平移扰动,x代表最终将各个图层组合而成的最终图片。
69.具体地,本技术实施例可以通过前景掩膜扰动器对前景图层和对应的掩膜图层中的像素随机平移一个小位移量,得到扰动后的前景图层与对应的掩膜图层,再将平移扰动后的前景图层与背景图层根据扰动后的掩膜图层进行组合,得到最终的合成图片,即:
70.x=t(m)

t(xf) (1-t(m))

xb。
71.其中,t代表对于前景层和掩膜层的随机平移扰动,即前景掩膜扰动器的功能,x代表最终将各个图层组合而成的最终图片。
72.在步骤s104中,将生成图片输入至判别器,并计算相应的生成对抗学习损失函数的同时,对图层独立器输出的互信息进行最小化,得到图层生成器最终的损失函数,并对图层生成器进行训练。
73.作为一种可能实现的方式,本技术实施例可以将生成图片输入至判别器,计算相应的生成对抗学习损失函数,同时对图层独立器中得到的两个互信息,即第一互信息和第二互信息进行最小化,得到图层生成器最终的损失函数,并对图层生成器进行训练。
74.可以理解的是,生成对抗网络由两个组成部分:生成器和判别器。生成器即图层生成器,可以将输入的人为预先设定的分布映射到图像空间中,输入的变量通常服从多元高斯分布,而图像空间一般为生成器所拟合的训练数据的图像空间;判别器则是利用生成数据与真实数据进行训练,从而学会分辨图片的真实性,进而构成判别器指导生成器的训练,以及利用生成器生成的数据与真实数据来训练判别器两个阶段,通过两个阶段的轮替实现
相互之间的训练,从而使得判别器区分真假的能力变强,生成器也能生成越来越真实的图片数据。
75.其中,本技术实施例在训练生成器时输出对应的使前背景图层间相互独立的损失函数,而在训练图层独立器自身时则是输出最大似然估计的损失函数。
76.在步骤s105中,将生成图片和真实图片输入至判别器,根据生成对抗损失函数得到判别器的损失函数,并对判别器进行训练。
77.在实际执行过程中,本技术实施例可以将生成图片和真实图片输入至判别器,进而根据生成对抗损失函数得到判别器的损失函数,从而对判别器进行训练,便于后续获得训练完成的图层生成对抗网络,从而克服不同图层间出现相似内容的混淆问题,提升图层生成质量。
78.在步骤s106中,将背景图层、前景图层和掩膜图层输入至图层独立器,根据图层独立器的损失函数进行最大似然估计,并对图层独立器进行训练。
79.具体地,本技术实施例可以将背景图层、前景图层和掩膜图层输入至图层独立器,并根据图层独立器的损失函数进行最大似然估计,从而对图层独立器进行训练。
80.其中,图层独立器可以包括两个估计前景图层与背景图层之间条件概率分布的神经网络和组成,并通过最大似然估计训练神经网络来实现对条件概率分布的估计,即:
[0081][0082][0083][0084]
在实现过程中,本技术实施例可以将条件概率分布估计为多元独立高斯分布,神经网络θ1和θ2则分别输入x
mf
和xm′f,输出对于x
mb
和xm′b均值与方差的估计。
[0085]
在步骤s107中,迭代进行图层生成器、判别器以及图层独立器的交替训练,直至满足迭代结束条件,得到最终训练好的图层生成对抗网络。
[0086]
具体地,本技术实施例在生成器的训练过程中,生成的图层在平移扰动后经过叠加组合后构成最终的生成图片,而生成图片则被送入判别器判断其真实性。
[0087]
同时,生成的图层还被送入图层独立器中计算前景图层与背景图层之间各个区域对应的互信息,即:
[0088]vmi
(g)=mi(x
mb
;x
mf
) mi(xm′b;xm′f)。
[0089]
并通过最小化互信息实现独立前景图层与背景图层的图层生成,预防不同图层间出现相似内容的混淆问题。
[0090]
进一步地,本技术实施例在训练判别器的过程中,判别器接受生成图片与真实图片进行训练,从而学会判别图片的真实性,而在图层独立器的训练过程中,图层独立器接受生成的图层并对前景图层和背景图层之间不同区域的条件概率进行最大似然估计,即:
[0091][0092]
从而实现对互信息的估计并用于生成器的训练中。
[0093]
最终,本技术实施例可以通过生成器、判别器、图层独立器的迭代训练,使生成的图像真实性越来越高,同时不同图层间出现相似内容的混淆问题得到预防。
[0094]
具体的,整个图层生成对抗网络的学习目标可以总结为如下:
[0095][0096]
其中,
[0097][0098]
为生成器和判别器对抗学习的损失函数,而最后两项和为:
[0099][0100][0101]
最后两项和分别用于保证前景掩膜的面积不小于一定的阈值,以及使掩膜进行0与1二值分化从而避免出现0和1之间的半透明图层情况。
[0102]
下面结合图2至图5所示,以一个具体实施例对本技术实施例的独立图层生成对抗网络的生成方法的工作原理进行详细阐述。
[0103]
可以理解的是本技术实施例的独立图层生成对抗网络可以由背景生成器、前景掩膜生成器、判别器、前景掩膜扰动器和图层独立器组成。其中,背景生成器与前景掩膜生成器可以组合为图层生成器,共用同一个输入随机变量并分别输出背景图层和前景与掩膜图层;前景掩膜扰动器可以对前景和掩膜两个图层随机进行一定程度的平移扰动。
[0104]
进一步地,生成对抗网络由两个组成部分:生成器和判别器。生成器即图层生成器,可以将输入的人为预先设定的分布映射到图像空间中,输入的变量通常服从多元高斯分布,而图像空间一般为生成器所拟合的训练数据的图像空间;判别器则是利用生成数据与真实数据进行训练,从而学会分辨图片的真实性,进而构成判别器指导生成器的训练,以及利用生成器生成的数据与真实数据来训练判别器两个阶段,通过两个阶段的轮替实现相互之间的训练,从而使得判别器区分真假的能力变强,生成器也能生成越来越真实的图片数据。
[0105]
如图2和图3所示,本技术实施例可以包括以下步骤:
[0106]
步骤s201:获取背景图层。在实际执行过程中,本技术实施例可以从多元高斯分布随机采样连续随机变量,并将连续随机变量输入至背景生成器,得到输出背景图层。
[0107]
步骤s202:获取前景图层和掩膜图层。本技术实施例可以从多元高斯分布随机采样连续随机变量,并将连续随机变量输入至掩膜生成器,得到前景图层与相应的掩膜图层,从而利用判别器分辨真假的能力,使图层生成对抗网络生成出对真实性影响最小的掩膜,即前景图层对应的分割。
[0108]
步骤s203:得到图层独立器对图层生成器的优化目标。如图4所示,在实际执行过程中,本技术实施例可以将得到的背景图层、前景图层和对应的掩膜图层输入至图层独立器,并根据掩膜图层对前景图层和背景图层进行可视与不可视区域的划分。
[0109]
进一步地,本技术实施例可以计算前景图层可视区域和背景图层不可视区域之间的第一互信息,以及前景图层不可视区域和背景图层可视区域之间的第二互信息,进而得到图层独立器对图层生成器的优化目标。
[0110]
本技术实施例可以通过得到图层独立器对图层生成器的优化目标,实现前景图层
与背景图层之间的独立图层生成,从而克服不同图层间出现相似内容的混淆问题,提升图层生成质量。
[0111]
具体地,本技术实施例可以首先将背景图层和前景图层根据其在最终生成图片中的展现的区域,通过掩膜层对其进行可视与不可视区域的划分,即:
[0112]
x
mf
=m

xf,xm′f=(1-m)

xf,
[0113]
x
mb
=m

xb,xm′b=(1-m)

xb,
[0114]
其中,x
mf
为前景图层可视区域,xm′f为前景图层的不可视区域,x
mb
为背景图层的不可视区域,xm′b为背景图层的可视区域,xf为前景层,xb为背景层,m为掩膜层。
[0115]
需要注意的是,可视区域与不可视区域的划分是为了在后续最小化图层独立器损失函数时减少对图层生成对抗网络真实性的影响。
[0116]
下一步,本技术实施例可以计算前景图层可视区域和背景图层不可视区域之间的第一互信息,以及前景图层不可视区域和背景图层可视区域之间的第二互信息,得到图层独立器对图层生成器的优化目标,即:
[0117]
min mi(x
mb
;x
mf
) mi(xm′b;xm′f)。
[0118]
本技术实施例可以通过最小化两组互信息的优化目标,实现前景图层与背景图层之间的独立图层生成,从而克服不同图层间出现相似内容的混淆问题,提升图层生成质量。
[0119]
步骤s204:使用前掩膜扰动器得到扰动后的生成图片。在实际执行过程中,本技术实施例可以将前景图层与对应的掩膜图层输入至前景掩膜扰动器,得到扰动后的前景图层与掩膜图层,并将扰动后的前景图层与背景图层根据扰动后的掩膜图层进行组合得到生成图片。
[0120]
具体地,本技术实施例可以通过前景掩膜扰动器对前景图层和对应的掩膜图层中的像素随机平移一个小位移量,得到扰动后的前景图层与对应的掩膜图层,再将平移扰动后的前景图层与背景图层根据扰动后的掩膜图层进行组合,得到最终的合成图片,即:
[0121]
x=t(m)

t(xf) (1-t(m))

xb。
[0122]
其中,t代表对于前景层和掩膜层的随机平移扰动,即前景掩膜扰动器的功能,x代表最终将各个图层组合而成的最终图片
[0123]
步骤s205:训练图层生成器。作为一种可能实现的方式,本技术实施例可以将生成图片输入至判别器,计算相应的生成对抗学习损失函数,同时对图层独立器中得到的两个互信息,即第一互信息和第二互信息进行最小化,得到图层生成器最终的损失函数,并对图层生成器进行训练。
[0124]
其中,本技术实施例在训练生成器时输出对应的使前背景图层间相互独立的损失函数,而在训练图层独立器自身时则是输出最大似然估计的损失函数。
[0125]
步骤s206:训练判别器。在实际执行过程中,本技术实施例可以将生成图片和真实图片输入至判别器,进而根据生成对抗损失函数得到判别器的损失函数,从而对判别器进行训练,便于后续获得训练完成的图层生成对抗网络,从而克服不同图层间出现相似内容的混淆问题,提升图层生成质量。
[0126]
步骤s207:训练图层独立器。具体地,本技术实施例可以将背景图层、前景图层和掩膜图层输入至图层独立器,并根据图层独立器的损失函数进行最大似然估计,从而对图层独立器进行训练。
[0127]
其中,图层独立器可以包括两个估计前景图层与背景图层之间条件概率分布的神经网络和组成,并通过最大似然估计训练神经网络来实现对条件概率分布的估计,即:
[0128][0129][0130][0131]
在实现过程中,本技术实施例可以将条件概率分布估计为多元独立高斯分布,神经网络θ1和θ2则分别输入x
mf
和xm′f,输出对于x
mb
和xm′b均值与方差的估计。
[0132]
步骤s208:获得训练完毕的图层生成对抗网络。具体地,本技术实施例在生成器的训练过程中,生成的图层在平移扰动后经过叠加组合后构成最终的生成图片,而生成图片则被送入判别器判断其真实性。
[0133]
同时,生成的图层还被送入图层独立器中计算前景图层与背景图层之间各个区域对应的互信息,即:
[0134]vmi
(g)=mi(x
mb
;x
mf
) mi(xm′b;xm′f)。
[0135]
并通过最小化互信息实现独立前景图层与背景图层的图层生成,预防不同图层间出现相似内容的混淆问题。
[0136]
进一步地,本技术实施例在训练判别器的过程中,判别器接受生成图片与真实图片进行训练,从而学会判别图片的真实性,而在图层独立器的训练过程中,图层独立器接受生成的图层并对前景图层和背景图层之间不同区域的条件概率进行最大似然估计,即:
[0137][0138]
从而实现对互信息的估计并用于生成器的训练中。
[0139]
最终,本技术实施例可以通过生成器、判别器、图层独立器的迭代训练,使生成的图像真实性越来越高,同时不同图层间出现相似内容的混淆问题得到预防。
[0140]
具体的,整个图层生成对抗网络的学习目标可以总结为如下:
[0141][0142]
其中,
[0143][0144]
为生成器和判别器对抗学习的损失函数,而最后两项和为:
[0145][0146][0147]
分别用于保证前景掩膜的面积不小于一定的阈值,以及使掩膜进行0与1二值分化从而避免出现0和1之间的半透明图层情况。
[0148]
如图5所示,当训练好图层生成对抗网络后,本技术实施例利用图层生成器生成合成图片以及前景掩膜的合成标注,可以当作训练数据与标注并用于分割网络的训练当中,当分割器使用合成图片与标注训练好之后,输入真实图片则可得到对应的掩膜,从而实现
了无监督物体分割的问题,使得前景与背景分割任务上不再依赖于人工标注,极大程度地降低了标注的人力资源成本。
[0149]
根据本技术实施例提出的独立图层生成对抗网络的生成方法,可以通过连续输入随机变量获得生成图片,并利用生成图片获得损失函数,进而基于真实图片、生成图片和损失函数,对分别图层生成器、判别器和图层独立器进行单独训练和交替训练,最终获得训练好的图层生成对抗网络,从而实现高质量的图层生成的同时,有利于下游应用,例如可以当作训练数据与标注并用于分割网络的训练当中,从而实现了无监督物体分割的问题,使得前景与背景分割任务上不再依赖于人工标注,极大程度地降低了标注的人力资源成本。由此,解决了相关技术中基于前景平移扰动的方法生成图层内容时,会导致不同图层之间的内容混淆,从而降低图层质量,且不利于下游应用的技术问题。
[0150]
其次参照附图描述根据本技术实施例提出的独立图层生成对抗网络的生成装置。
[0151]
图6是本技术实施例的独立图层生成对抗网络的生成装置的方框示意图。
[0152]
如图6所示,该独立图层生成对抗网络的生成装置10包括:第一获取模块100、第二获取模块200、组合模块300、第一训练模块400、第二训练模块500、第三训练模块600和第四训练模块700。
[0153]
具体地,第一获取模块100,用于将连续随机变量输入至背景生成器和前景掩膜生成器,分别获取背景图层和前景图层与对应的掩膜图层。
[0154]
第二获取模块200,用于将背景图层和前景图层与对应的掩膜图层输入至图层独立器,得到图层独立器对图层生成器的优化目标。
[0155]
组合模块300,用于将前景图层与对应的掩膜图层输入至前景掩膜扰动器,得到扰动后的前景与掩膜图层,并与背景图层进行组合,得到生成图片。
[0156]
第一训练模块400,用于将生成图片输入至判别器,并计算相应的生成对抗学习损失函数的同时,对图层独立器输出的互信息进行最小化,得到图层生成器最终的损失函数,并对图层生成器进行训练。
[0157]
第二训练模块500,用于将生成图片和真实图片输入至判别器,根据生成对抗损失函数得到判别器的损失函数,并对判别器进行训练。
[0158]
第三训练模块600,用于将背景图层、前景图层和掩膜图层输入至图层独立器,根据图层独立器的损失函数进行最大似然估计,并对图层独立器进行训练。
[0159]
第四训练模块700,用于迭代进行图层生成器、判别器以及图层独立器的交替训练,直至满足迭代结束条件,得到最终训练好的图层生成对抗网络。
[0160]
可选地,在本技术的一个实施例中,第二获取模块200包括:区域划分单元、计算单元和获取单元。
[0161]
其中,区域划分单元,用于基于背景图层和前景图层在最终生成图片中展现的区域,通过掩膜层对区域进行划分,确定前景图层可视区域、前景图层不可视区域、背景图层可视区域与背景图层不可视区域。
[0162]
计算单元,用于计算前景图层可视区域与背景图层不可视区域之间的第一互信息,并计算前景图层不可视区域和背景图层可视区域之间的第二互信息。
[0163]
获取单元,用于根据第一互信息和第二互信息获取图层独立器对图层生成器的优化目标。
[0164]
可选地,在本技术的一个实施例中,优化目标伪:
[0165]
min mi(x
mb
;x
mf
) mi(xm′b;xm′f),
[0166]
其中,x
mf
为前景图层可视区域,xm′f为前景图层的不可视区域,x
mb
为背景图层的不可视区域,xm′b为背景图层的可视区域。
[0167]
可选地,在本技术的一个实施例中,生成图片表示为:
[0168]
x=t(m)

t(xf) (1-t(m))

xb,
[0169]
其中,t代表对于前景层和掩膜层的随机平移扰动,x代表最终将各个图层组合而成的最终图片。
[0170]
可选地,在本技术的一个实施例中,还包括:随机采样模块,用于从多元高斯分布随机采样连续随机变量。
[0171]
需要说明的是,前述对独立图层生成对抗网络的生成方法实施例的解释说明也适用于该实施例的独立图层生成对抗网络的生成装置,此处不再赘述。
[0172]
根据本技术实施例提出的独立图层生成对抗网络的生成装置,可以通过连续输入随机变量获得生成图片,并利用生成图片获得损失函数,进而基于真实图片、生成图片和损失函数,对分别图层生成器、判别器和图层独立器进行单独训练和交替训练,最终获得训练好的图层生成对抗网络,从而实现高质量的图层生成的同时,有利于下游应用,例如可以当作训练数据与标注并用于分割网络的训练当中,从而实现了无监督物体分割的问题,使得前景与背景分割任务上不再依赖于人工标注,极大程度地降低了标注的人力资源成本。由此,解决了相关技术中基于前景平移扰动的方法生成图层内容时,会导致不同图层之间的内容混淆,从而降低图层质量,且不利于下游应用的技术问题。
[0173]
图7为本技术实施例提供的电子设备的结构示意图。该电子设备可以包括:
[0174]
存储器701、处理器702及存储在存储器701上并可在处理器702上运行的计算机程序。
[0175]
处理器702执行程序时实现上述实施例中提供的独立图层生成对抗网络的生成方法。
[0176]
进一步地,电子设备还包括:
[0177]
通信接口703,用于存储器701和处理器702之间的通信。
[0178]
存储器701,用于存放可在处理器702上运行的计算机程序。
[0179]
存储器701可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
[0180]
如果存储器701、处理器702和通信接口703独立实现,则通信接口703、存储器701和处理器702可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(industry standard architecture,简称为isa)总线、外部设备互连(peripheral component,简称为pci)总线或扩展工业标准体系结构(extended industry standard architecture,简称为eisa)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0181]
可选地,在具体实现上,如果存储器701、处理器702及通信接口703,集成在一块芯片上实现,则存储器701、处理器702及通信接口703可以通过内部接口完成相互间的通信。
[0182]
处理器702可能是一个中央处理器(central processing unit,简称为cpu),或者
是特定集成电路(application specific integrated circuit,简称为asic),或者是被配置成实施本技术实施例的一个或多个集成电路。
[0183]
本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上的独立图层生成对抗网络的生成方法。
[0184]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本技术的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或n个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0185]
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本技术的描述中,“n个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
[0186]
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更n个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本技术的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本技术的实施例所属技术领域的技术人员所理解。
[0187]
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或n个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
[0188]
应当理解,本技术的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,n个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
[0189]
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步
骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
[0190]
此外,在本技术各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
[0191]
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本技术的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本技术的限制,本领域的普通技术人员在本技术的范围内可以对上述实施例进行变化、修改、替换和变型。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献