一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于结构一致性统计映射框架的真实图像风格迁移方法

2023-02-19 05:36:20 来源:中国专利 TAG:


1.本发明涉及真实图像风格迁移技术领域,尤其是涉及一种基于结构一致性统计映射框架的真实图像风格迁移方法。


背景技术:

2.真实图像风格迁移是一项重要的图像编辑任务,在计算机视觉和图形中有各种各样的应用,包括变换图片的时间,天气和季节等。如何将参考图片的风格表现出来,然后在真实感约束下将其转换到目标上,是真实图像风格迁移的关键挑战。
3.近年来,随着智能手机等摄影摄像设备的普及,人们创作出越来越多的摄影作品,对高质量图片的需求也越来越高。通过真实图像风格迁移,可以固定图片的内容,通过不同的风格输入,产生一系列不同色调风格的作品,在已有图片的基础上,生成更多高质量和富有美感的图片,满足人们艺术创作和社会交际的需求。
4.然而目前大部分采用的真实图像风格迁移方法基本都是建立在艺术风格迁移的基础上,因此不可避免地存在着一些局限性,如:1)生成图片较内容图片会有明显的扭曲形变与细节丢失;2)为抑制图像形变与风格溢出等问题需进行预处理或后处理;3)艺术风格迁移导致生成图片在色彩上不自然,失去真实感。同时,各常用方法在速度上还有待提升。


技术实现要素:

5.本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于结构一致性统计映射框架的真实图像风格迁移方法。
6.本发明的目的可以通过以下技术方案来实现:
7.基于结构一致性统计映射框架的真实图像风格迁移方法,该方法包括以下步骤:
8.s1:构建数据集,将数据集中的图像进行预处理,同时将数据集划分处测试集和训练集。
9.s2:构建真实图像风格迁移子网络,该子网络为利用自适应实例归一化,并进行特征融合和跳连接的编码解码网络。构建不同配置的基于结构一致性统计映射框架的总体网络,每个不同配置的基于结构一致性统计映射框架的总体网络都包括一个或多个上述子网络。
10.输入内容图片,基于结构一致性统计映射的总体网络在保持结构一致性的同时,会在多个子网络进行多次风格统计映射,在保持内容图片内容基本不变的同时,将风格图片的色调风格迁移到内容图片上,得到迁移后的生成图像。
11.s3:将训练集的图像输入不同配置的基于结构一致性统计映射框架的总体网络中,对不同网络进行网络优化训练。通过分别计算色域均值损失和内容损失,基于反向传播算法和adam优化器优化网络参数,按照设定的学习率进行参数的迭代更新。当基于结构一致性统计映射框架的总体网络的迁移效果良好时,网络训练完成。
12.s4:将测试集输入训练好的不同配置的基于结构一致性统计映射框架的总体网络
的各个子网络中,得到输出图片,并通过评价指标判别所述子网络是否取得良好效果。若生成图片和判别指标都呈现出良好效果,保留下对应子网络,进行下一步。若效果与指标不佳,则重新执行s3。
13.s5:将内容图片与风格图片输入到基于结构一致性统计映射框架训练的子网络中,得到风格迁移后的生成图片。
14.进一步地,构建数据集,在图像预处理将训练集图像统一下采样为256*256大小,下采样时进行抗锯齿操作,下采样后作标准化等预处理。
15.进一步地,子网络在编码侧首先使用预训练的vgg-19提取内容图片与风格图片在conv1-1,conv2-1,conv3-1和conv4-1四个不同尺度的特征,将对应层次的内容特征与风格特征进行自适应实例归一化操作。编码器共分为4层,各层卷积核大小均为3
×
3,下一层卷积核个数为上一层的2倍,同时卷积层都采用relu函数作为激活函数。得到的浅层特征会进行一次缩小为原来尺寸一半的下采样,并与深层特征逐元素相加进行特征传递。
16.子网络解码部分,考虑到深层特征信息丢失的问题,参考u型网络,将编码得到的特征进行卷积操作与双线性插值上采样,并通过跳连接与分区自适应实例归一化操作得到的同尺度特征进行通道拼接。解码器同样为4层,各层特征图大小,卷积核数量与编码器保持一致。
17.进一步地,基于结构一致性统计映射框架的总体网络包含一或多个相同结构但不共享参数的子网络,每个子网络输入为一张内容图片和一张风格图片。如包含多个子网络,则后一个子网络的输入内容图片为前一个子网络输出结果。
18.优选地,基于结构一致性统计映射框架的总体网络的每个子网络的输出结果都与第一个子网络的内容图片求取内容损失,内容损失函数由以下公式计算得到:
[0019][0020]
式中,x为首个子网络输入的内容图片,z为各个子网络输入的风格图片的集合,g为子网络的集合,yi=gi(y
i-1
,zi)为第i个子网络的风格化结果(y0=x),φ为图片送入vgg-19提取conv4-1层特征,h,w为特征的高和宽,n为子网络的个数。
[0021]
优选地,s3中的色域均值损失的求取过程如下:
[0022]
1)将表示各个颜色通道的二维矩阵展平成一维向量。
[0023]
2)对向量按数值大小进行升序排序。
[0024]
3)将向量均分成含相同数量像素的色彩区域,对各色彩区域取均值,得到均值向量。
[0025]
4)求取生成图片与风格图片均值向量间的均方误差,得到的即是色域均值损失。
[0026]
色域均值损失函数公式为:
[0027][0028]
式中,c为颜色通道数量,p为通道色域数量,ov
ij
和sv
ij
分别为生成图片和风格图片颜色通道第i个颜色通道第j个色域的均值。
[0029]
优选地,基于所述结构一致性统计映射框架的总体网络的总损失函数为:
[0030][0031]
式中,表示在第i个子网络的色域均值损失。λ1,λ2为权重超参数。
[0032]
损失函数中,内容损失保证生成图片与内容图片在内容上的一致,色域均值损失以实现更好的迁移效果。
[0033]
本发明提供的基于结构一致性统计映射框架的真实图像风格迁移方法,相较于现有技术至少包括如下有益效果:
[0034]
1)本发明提出了结构一致性统计映射框架进行风格迁移,框架总体网络包含多个连续的子迁移网络,在保持内容一致性的前提下进行连续的多风格迁移,最后再映射回原内容图片,实现色彩风格的循环迁移;在此框架下,子迁移网络可以取得更好的迁移效果。
[0035]
2)相较于其他方法,本发明无需额外的预处理或后处理操作,可以实现端到端的图片生成。
[0036]
3)相较于其他方法,本发明得到的输出图片基本避免了扭曲和伪影的产生,能充分保持内容结构。
[0037]
4)相较于其他方法,在titan-rtx gpu上,采用本发明方法处理1024*1024分辨率的图片只需0.0226s,采用photonas,photowct(full)与wct2则分别需要0.4473s,0.7874s和3.3919s,即本发明在运行速度上能够快一到两个数量级,可以实现实时的真实图像风格迁移。
[0038]
5)相较于其他方法,本发明采用色域均值损失等损失函数对网络进行训练,能充分利用全局色彩分布信息,在色彩上实现较好的整体迁移效果。
附图说明
[0039]
图1为实施例中基于结构一致性统计映射框架的真实图像风格迁移方法的流程图;
[0040]
图2为实施例中数据集的部分构成图;
[0041]
图3为实施例中计算色域均值损失示意图;
[0042]
图4为实施例中真实图像风格迁移子网络的结构示意图;
[0043]
图5为实施例中真实图像风格迁移子网络的模块具体结构示意图;
[0044]
图6为实施例中基于所述结构一致性统计映射框架的总体网络配置示意图;
[0045]
图7为实施例中进行真实图像风格迁移示意图。
具体实施方式
[0046]
下面结合附图和具体实施例对本发明进行详细说明。显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
[0047]
实施例
[0048]
如图1所示,本发明涉及一种基于结构一致性统计映射框架的真实图像风格迁移
方法,该方法运行在gpu中,用于实现对真实图像风格的迁移,包括以下步骤:
[0049]
步骤一、数据集的构建与预处理
[0050]
构建数据集photostylization。从网络上使用爬取约80000张图片,最终人工选取30000张图片,并分为城市,食物,人物,纪实,自然,夜景,植物,动物8个种类。数据集总大小约为203gb,最小尺寸为1155*1732,平均尺寸为4478*3800。在原图的基础上进行调整与剪裁,统一下采尺寸至256
×
256,下采时进行抗锯齿操作。在训练时会对内容图片和风格图片进行随机配对,并将图片归一化到[-1,1]的区间内。
[0051]
真实图像风格迁移任务有两个输入,一张是内容图片,一张是风格图片。任务希望得到一张在内容上与内容图片一致,在色彩风格上与风格图片一致的生成图片。即在保持图片真实性的前提下迁移风格图片的色调风格。后续通过将内容图片与风格图片输入构建的网络得到生成图片。
[0052]
步骤二、网络的构建
[0053]
如图4所示,构建出真实图像风格迁移子网络。
[0054]
子网络为利用自适应实例归一化,并进行特征融合和跳连接的编码解码网络。
[0055]
在编码侧首先使用预训练的vgg-19提取内容图片与风格图片在conv1-1,conv2-1,conv3-1和conv4-1四个不同尺度的特征,将对应层次的内容特征与风格特征进行分区自适应实例归一化操作。编码器共分为4层,各层卷积核大小均为3
×
3,下一层卷积核个数为上一层的2倍,同时卷积层都使用relu函数作为激活函数。得到的浅层特征会进行一次缩小为原来尺寸一半的下采样,并与深层特征逐元素相加进行特征传递。
[0056]
在解码部分,考虑到深层特征信息丢失的问题,参考u型网络,将编码得到的特征进行卷积操作与双线性插值上采样,并通过跳连接与分区自适应实例归一化操作得到的同尺度特征进行通道拼接。解码器同样为4层,各层特征图大小,卷积核数量与编码器保持一致。
[0057]
网络各模块的具体结构见图5。
[0058]
如图6所示,构建不同配置的基于结构一致性统计映射框架的总体网络,每个不同配置的基于结构一致性统计映射框架的总体网络都包含一个或多个上述子网络。
[0059]
例如:配置(a),包含一个子网络net1,输入为一张内容图片和一张风格图片。
[0060]
配置(b)、(c)均包含两个子网络net1与net2,前一个子网络的输出为后一个子网络的输入内容图片。其中(b)的两个子网络分别输入两张不同的风格图片,(c)的第二个子网络输入的风格图片为第一个子网络输入的内容图片。
[0061]
配置(d)、(e)均包含三个子网络net1、net2与net3,前一个子网络的输出为后一个子网络的输入内容图片。其中(d)的三个子网络分别输入三张不同的风格图片,(c)的第三个子网络输入的风格图片为第一个子网络输入的内容图片。
[0062]
包含更多子网络的配置同理,不在此列出。
[0063]
步骤三、网络模型的训练优化
[0064]
将训练集的图像输入到基于结构一致性统计映射框架的总体网络中,对网络进行网络优化训练。通过分别计算色域均值损失、内容损失,基于反向传播算法和adam优化器优化网络参数,按照设定的学习率进行参数的迭代更新。具体地,adam优化器中β1=0.5,β2=0.999,∈=10-8
,训练使用动态的学习率衰减策略,即:
[0065][0066]
其中,lr为当前学习率,epoch为当前训练轮次。lr
origin
为网络的初始学习率,设置为10-3
。lr
decay
为学习率衰减值,设置为0.05。
[0067]
每个子网络的输出结果都与第一个子网络的内容图片求取内容损失,内容损失函数由以下公式计算得到:
[0068][0069]
其中,x是首个子网络输入的内容图片,z表示各个子网络输入的风格图片的集合,g表示子网络的集合,yi=gi(y
i-1
,zi)是第i个子网络的风格化结果(y0=x),φ表示图片送入vgg-19提取conv4-1层特征,φ
hw
(yi)为第i个子网络的生成图片的特征,φ
hw
(x)为网络最初输入的内容图片的特征,h,w表示特征的高和宽,n为子网络的个数。
[0070]
色域均值损失,求取过程如下:
[0071]
1)将表示各个颜色通道的二维矩阵展平成一维向量。
[0072]
2)对向量按数值大小进行升序排序。
[0073]
3)将向量均分成含相同数量像素的色彩区域,对各色彩区域取均值,得到均值向量。
[0074]
4)求取生成图片与风格图片均值向量间的均方误差,得到的即是色域均值损失。
[0075]
色域均值损失函数公式为:
[0076][0077]
其中,c为颜色通道数量,p为通道色域数量,ov
ij
和sv
ij
分别为生成图片、风格图片的第i个颜色通道第j个色域的均值。
[0078]
基于结构一致性统计映射框架的总体网络的总损失函数为:
[0079][0080]
其中,表示在第i个子网络的色域均值损失。λ1,λ2为权重超参数。
[0081]
损失函数中,内容损失保证生成图片与内容图片在内容上的一致,色域均值损失以实现更好的迁移效果。
[0082]
步骤四、网络模型的测试
[0083]
将测试集输入训练好的不同配置的基于结构一致性统计映射框架的总体网络的各个子网络中,得到输出图片,并通过ssim(结构相似性),lipis(学习感知图像块相似性),content los(内容损失)和gram loss(格里姆损失)等指标判别所述网络是否取得良好效果。若输出图片和判别指标都呈现出良好效果,保留下网络,否则应当调整损失函数权重和训练轮数。在具体实施中,当epoch为35,λ1,λ2分别取10,10000时,配置(c)的net2和配置(e)
的net3即可取得较好的效果与指标。
[0084]
步骤五、对图片进行风格迁移
[0085]
将内容图片与风格图片输入到基于结构一致性统计映射框架的总体网络训练得到的上述指标最优的子网络中,得到风格迁移后的结果,如图7所示。在时间上,本发明在nvidia rtx titan显卡上处理2048*2048分辨率的图片的时间为36毫秒。本实施例利用相同图片数据,对采用本发明方法和现有技术图像处理方法进行对比,在titan-rtx gpu上,采用本发明方法处理1024*1024分辨率的图片只需0.0226s,采用photonas,photowct(full)与wct2则分别需要0.4473s,0.7874s和3.3919s。其中,full表示包含后处理的photowct完整模型。
[0086]
经过以上五步,可以得到没有扭曲与伪影,在内容上与输入的内容图片保持一致,在色调风格上与输入的风格图片保持一致的生成图片。本发明提出的方法能够得到优于其他主流方法的风格迁移效果,且在速度上达到实时迁移,无需繁琐的前处理与后处理。
[0087]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的工作人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献