一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于多尺度生成对抗网络的小样本高质量生成的方法

2022-12-19 22:18:49 来源:中国专利 TAG:

技术特征:
1.基于多尺度生成对抗网络的小样本高质量生成的方法,其特征在于:首先,利用生成对抗网络训练图像生成模型,其中生成器是由多个卷积层构成的全卷积神经网络;其中判别器也是由多个卷积层构成的全卷积神经网络,输入图像通过多个卷积层得到的输出矩阵,矩阵中每个数据代表着原输入图像中的一个感受野,对应了图像的一片区域,判别器因此可以拉近生成图像和真实图像在各个区域上的距离实现整体分布的拟合,依据此原理实现图像的增广;然后利用多个图像生成模型构建多尺度模型,每一层尺度下都会接收不同尺寸大小的图像,从低到高依次增大;待第一层尺度训练完毕后,图像生成模型会学习到第一层尺度下图像大小的轮廓细节;将第一尺度下生成的图像放大后传入到第二层尺度,放大后的图像较之于第二层尺度下的训练数据集图像会有失真不清晰的现象,所以第二层尺度的图像生成模型就是学习传入图像放大后中缺失的细节信息;逐步增加尺度,最后得到清晰的生成图像。2.根据权利要求1所述的方法,其特征在于:步骤1:第一层尺度图像生成模型的构建步骤1.1:基于全卷积神经网络的生成器构建第一层尺度生成器的输入为符合期望值为0,标准差为1的正态分布的噪声图,卷积前噪声图在上下左右各填充5行,经过5个卷积层进行卷积,卷积核大小皆为3
×
3,步长皆为1,卷积过程中不进行填充,前4个卷积层通道数全是32,都采用批量归一化,它将对后续激活函数的输入进行归一化,使得数值更加稳定,批量归一化后将采用带泄露修正线性单元作为激活函数,控制负斜率的角度设置为0.2,使模型收敛更快;第5个卷积层通道数为3,采用双曲正切函数作为激活函数,将输出的数值范围定在-1至1之间;噪声图通过5层卷积后会得到一个与其等大的生成图像,将作为第一层尺度判别器的输入和下一层尺度生成器的输入;步骤1.2:基于全卷积神经网络的判别器构建判别器的输入为真实图像或者生成图像,经过5个卷积层,卷积核大小皆为3
×
3,步长皆为1,卷积过程中不进行填充,前4个卷积层通道数全是32,都采用批量归一化,批量归一化后将采用带泄露修正线性单元作为激活函数,控制负斜率的角度设置为0.2;第5个卷积层通道数为1,不添加激活函数;图像通过5层卷积后会得到一个1维矩阵,将矩阵中所有元素的均值作为距离指标,作为后续损失函数的输入。3.根据权利要求1所述的方法,其特征在于:步骤2:多尺度模型构建步骤2.1:确定尺度n的数量原始图像数据集的分辨率大小为700
×
460;在模型中各尺度图像的输入最小尺寸不能低于32,最大尺寸不能高于256;因此通过缩放将原始数据集图像长宽按等比例缩放至256
×
168,该大小也会作为最高尺度的输入尺寸大小;在模型中各尺度之间的缩放因子r定为0.75;通过缩放因子r从高到低计算出各尺度的图像输入大小256
×
168,192
×
126,144
×
95,108
×
72,81
×
54,61
×
41,继续向下最小尺寸会低于32,共有6层尺度,所以尺度n设置为6;步骤2.2:除第一层尺度外,其余尺度图像生成模型构建第二层包括第二层以上的尺度都需要接收来自上一尺度的生成图像;第n层尺度的生
成器的输入为符合标准正态分布的噪声图z
n
和来自n-1层尺度生成器生成的图像f
n-1
;在输入网络前先通过1/r乘上f
n-1
对图像进行放大,得到放大的生成图像f
n-1r
;将f
n-1r
和z
n
分别在上下左右各填充5行,相加后输入到5层卷积网络中,其中5个卷积层的卷积核大小皆为3
×
3,步长皆为1,卷积过程中不进行填充;前4个卷积层通道数全是32x(pow(2,n//4)),其中“//”是一个算术运算符,表示整数除法,它可以返回商向下取整的整数部分,pow函数用于进行求幂运算2为底数,n//4为指数;整体表示每隔4个尺度,通道数就翻倍,所以从第2到第7尺度通道数分别为32,32,32,64,64,64;第5个卷积层通道数为3,采用双曲正切函数作为激活函数,将输出的数值范围定在-1至1之间;最后网络的输出结果会与f
n-1r
相加得到的生成图像f
n
,f
n
会作为判别器的输入和下一尺度生成器的输入;第n层尺度的判别器的输入为真实图像或者生成图像,经过5个卷积层,卷积核大小皆为3
×
3,步长皆为1,卷积过程中不进行填充,前4个卷积层通道数全是32x(pow(2,n//4)),都采用批量归一化,批量归一化后将采用带泄露修正线性单元作为激活函数;第5个卷积层通道数为1,不添加激活函数;图像通过5层卷积后会得到一个1维矩阵,将矩阵中所有元素的均值作为距离指标,作为后续损失函数的输入。4.根据权利要求1所述的方法,其特征在于:步骤3:逐层生成图像步骤3.1:通过损失函数进行动态博弈,在博弈开始前先对判别器预训练2000轮,在博弈阶段判别器连续训练3次,生成器连续训练3次,这样可以避免生成器在优化的过程中梯度过小的问题;优化的过程是通过损失函数进行;损失函数分为2个部分:对抗损失、重建损失;整体损失函数公式如下:其中d为判别器,g为生成器;为在对生成器进行优化时最小化损失函数,对判别器进行优化时最大化损失函数;l
adv
(g,d)为对抗损失,如公式(2)所示;l
rec
(g)为重建损失,如公式(4)所示;其中重建损失权重系数

rec
设置为10,具有通用性;对抗损失l
adv
(g,d)具体公式如下:其中对抗损失采用的是wgan-gp损失以提高模型的稳定性,防止模式崩塌;d(x)是判别器输入图片为x时图片为真的概率,表示d(x)的数学期望,其中x服从真实图像数据的概率分布p
data
(x);d(g(z))是当g(z)生成器输入某个隐空间时得到生成图像,判别器判别该图为真的概率,表示d(g(z))的数学期望,其中z服从正态分布噪声的概率分布p
z
(z);服从分布公式如(3)所示,α为-1至1之间的随机数,是在真实图像和生成图像之间做线性差值;为在上的梯度,即相对于原始输入的梯度的l2范数要约束在1附近的数学期望;λ为梯度惩罚因子,其中λ取值为10,具有通用性;重建损失l
rec
(g)具体公式如下:
其中n表示当前尺度的层数,x1和x
n
分别是第1个尺度和第n尺度下的真实图像,它在整个训练过程中保持不变;和分别是第1个尺度和第n尺度下的重建图像,如公式(5)所示,其中z
*
是第1个尺度下输入的噪声图,对于所有的真实图像都会有一个固定的z
*
,它在整个训练过程中保持不变;g1(z
*
,0)表示第1层尺度下的生成器输入z
*
噪声图后得到的重建图像图像表示第n个尺度下生成器输入为放大1/r倍的第n-1尺度的重建图像后生成重建图像图像后生成重建图像和表示重建图像和真实图像差值的2范数,相当于重建图像采用均方误差和真实图像进行对比;最小化重建损失可以在一定程度上让随机生成的图像尽可能的拟合真实图像,控制生成图像的发散性;发散性由重建损失权重系数

rec
控制;随后,生成器通过最小化损失函数进行训练,判别器通过取损失函数相反数后最小化损失进行训练;皆采用adam优化算法,其中将学习速率设为0.0005,一阶矩估计的指数衰减率设为0.5,二阶矩估计的指数衰减率设为0.999,动态学习率调整为每隔2000次迭代学习率变为之前的0.1倍;共进行24000次的迭代;步骤3.2:随后从低到高逐一进行训练,直到所有尺度训练完毕,形成一个基于多尺度生成对抗网络的小样本生成框架。

技术总结
一种基于多尺度生成对抗网络的小样本高质量生成的方法属于计算机视觉领域,研究了一种针对可以在小样本数据集上生成高分辨率图像的方法。首先利用基于全卷积神经网络构建的生成器,得到生成图像。然后利用基于全卷积神经网络构建的判别器,在隐式上对于图像进行增广,分别对生成图片和真实图像计算距离指标。生成器和判别器组成单层尺度下的图像生成模型。利用图像生成模型构建多层尺度结构,从低到高处理图像的尺寸逐步增大。最后逐层进行动态博弈实现生成图像分布向真实图像分布拟合。本发明解决了小样本的数据集少和生成图像清晰度不够的问题。晰度不够的问题。晰度不够的问题。


技术研发人员:刘博 陈铭明 王慧娜
受保护的技术使用者:北京工业大学
技术研发日:2022.09.17
技术公布日:2022/12/16
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献