一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于等形变约束的图像漫画风格迁移方法

2022-08-13 15:57:33 来源:中国专利 TAG:


1.本发明涉及人工智能计算机视觉技术领域,尤其是涉及一种基于等形变约束的图像漫画风格迁移方法。


背景技术:

2.图像风格迁移旨在对于给定的风格图像和内容图像,将内容图像的风格替换为风格图像的风格,同时保留内容图像的语义信息。近年来来,神经风格迁移成为了学术研究和产业应用领域一个很受欢迎的主题,越来越多的学者提出诸多优秀的模型来提升和扩展风格迁移的性能。从商业价值来看,对图像漫画风格迁移算法的研究对于短视频制作、漫画创作、漫画电影特效制作等领域都大有裨益。从技术手段来看,前人提出的风格迁移方法虽在油画等纹理明显的风格迁移任务中已经做出了比较好的效果,但对漫画、素描等线条图像鲜有涉及。
3.目前的漫画风格迁移技术通常是通过构造深层卷积神经网络刻画内容图像与风格化后图像的映射。由于受限于无参考图像的问题,现有技术往往通过构造内容图像与风格化后图像高层特征的距离,完成内容损失函数的计算及模型训练,以保留图像的语义信息。但是高层特征的感受野较大,使用高层特征的距离构造损失函数完成网络的训练,往往会导致模型对于细节信息的刻画不够精确、对于不同对象的分离程度差,效果不佳。此外,考虑到自然景物图像与漫画风格图像间的视觉差异,即:自然景物图像细节丰富、层次感强、像素间的色彩变化柔和;漫画图像细节较少、色彩较为鲜明、物体边缘存在线条勾勒。现有的基于生成对抗网络的方法在漫画风格迁移中的表现的够不稳定,导致使用现有的图像风格迁移方法应用于漫画风格迁移任务中难以取得较好的视觉效果,生成图像往往表现出:在平滑区域会出现伪纹理(噪声)、无法很好地保留内容图像的语义信息,迁移后的图像难以很好的表现出漫画风格。


技术实现要素:

4.本发明的目的是提供一种基于等形变约束的图像漫画风格迁移方法,生成的漫画风格图像细节刻画精确、对于不同对象的分离程度好,效果佳。
5.本发明提供了一种基于等形变约束的图像漫画风格迁移方法,包括:将风格图像与内容图像分别进行初始化处理,得到初始风格图像和初始内容图像;其中,内容图像从mscoco数据集中获取,风格图像从宫崎骏的《哈尔的移动城堡》动漫影片截图中获取;构建包括扭曲形变层、等形变损失函数、生成器及鉴别器在内的漫画风格迁移模型;将初始风格图像和初始内容图像输入漫画风格迁移模型中,对漫画风格迁移模型进行对抗训练,直至模型稳定;将待迁移图像输入至训练好的漫画风格迁移模型中,输出漫画风格图像。
6.在一种可能的实施方式中,将风格图像与内容图像分别进行初始化处理,得到初始风格图像和初始内容图像包括:将风格图像及内容图像的尺寸调整为286*286*3的第一风格图像和第一内容图像;将第一风格图像及第一内容图像随机剪裁为256*256*3的第二
风格图像和第二内容图像;将第二风格图像与第二内容图像进行归一化处理,得到初始风格图像和初始内容图像。
7.在一种可能的实施方式中,在将第一风格图像及第一内容图像随机剪裁为256*256*3的第二风格图像和第二内容图像之后还包括:以0.5的概率将第二风格图像和第二内容图像水平翻转。
8.在一种可能的实施方式中,将第二风格图像与第二内容图像进行归一化处理包括:将第二风格图像与第二内容图像的像素范围由[0,255]归一化到[0,1]。
[0009]
在一种可能的实施方式中,构建扭曲形变层的方法包括:在图像内部均匀选取k*k个控制点,获取控制点的坐标矩阵;在[-α,α]内随机采样,得到与控制点坐标矩阵维度大小相同的扭曲形变因子,其中,[-α,α]为控制点随机取值范围,扭曲形变因子中各个元素独立从[-α,α]中随机选取,α取值为0.15;根据薄板样条插值理论和扭曲形变因子计算得到仿射变换矩阵,再将仿射变换矩阵嵌入卷积神经网络,构建扭曲形变层。
[0010]
在一种可能的实施方式中,根据薄板样条插值理论计算图像中各个像素点的仿射变换。
[0011]
在一种可能的实施方式中,根据扭曲形变层计算得到等形变损失函数,其中,等形变损失函数计算底层特征间损失,用于对细节的刻画。
[0012]
在一种可能的实施方式中,将初始风格图像和初始内容图像输入漫画风格迁移模型中,对漫画风格迁移模型进行对抗训练,直至模型稳定包括:计算风格迁移模型的生成器损失;计算风格迁移模型的鉴别器损失;固定鉴别器模型参数,使用adam优化方法进行生成器模型的参数训练;固定生成器模型参数,使用adam优化方法进行鉴别器模型的参数训练;将生成器模型的参数训练和鉴别器模型的参数训练交替执行,直至模型稳定。
[0013]
在一种可能的实施方式中,生成器包括:编码器,利用卷积神经网络从输入图像中提取特征,并将图像压缩成特征向量;转换器,将图像在真实图像/漫画图像域中的特征向量转换为漫画图像/真实图像域中的特征向量,并使用残差模块,在进行风格转换的同时尽可能保留原始图像的特征;解码器,利用反卷积层完成从特征向量中还原出低级特征的工作,最后得到生成图像。
[0014]
在一种可能的实施方式中,漫画风格迁移模型包括两个生成器及两个鉴别器,构成一环形网络。
[0015]
本发明提供的一种基于等形变约束的图像漫画风格迁移方法,该方法包括:将风格图像与内容图像分别进行初始化处理,得到初始风格图像和初始内容图像;其中,内容图像从mscoco数据集中获取,风格图像从宫崎骏的《哈尔的移动城堡》动漫影片截图中获取;构建包括扭曲形变层、等形变损失函数、生成器及鉴别器在内的漫画风格迁移模型;将初始风格图像和初始内容图像输入漫画风格迁移模型中,对漫画风格迁移模型进行对抗训练,直至模型稳定;将待迁移图像输入至训练好的漫画风格迁移模型中,输出漫画风格图像。解决了现有技术中,对于漫画风格迁移图像细节信息刻画的不够精确、对于不同对象的分离程度差,效果不佳的技术问题。
附图说明
[0016]
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体
实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0017]
图1为本发明实施例提供的一种基于等形变约束的图像漫画风格迁移方法流程示意图;
[0018]
图2为本发明实施例中将风格图像与内容图像分别进行初始化处理的方法流程示意图;
[0019]
图3为本发明实施例中构建扭曲形变层的方法流程示意图;
[0020]
图4为本发明实施例中对漫画风格迁移模型进行对抗训练的方法流程示意图;
[0021]
图5为本发明实施例提供的等形变损失函数构造示意图;
[0022]
图6为本发明实施例提供的循环一致性损失函数构造示意图;
[0023]
图7为本发明实施例提供的漫画风格迁移方法的对比实验效果示例图。
具体实施方式
[0024]
为了使本发明的上述以及其他特征和优点更加清楚,下面结合附图进一步描述本发明。应当理解,本文给出的具体实施例是出于向本领域技术人员解释的目的,仅是示例性的,而非限制性的。
[0025]
在以下描述中,阐述了许多具体细节以提供对本发明的透彻理解。然而,对于本领域普通技术人员来说将明显的是,不需要采用具体细节来实践本发明。在其他情况下,未详细描述众所周知的步骤或操作,以避免模糊本发明。
[0026]
目前的漫画风格迁移技术通常是通过构造深层卷积神经网络刻画内容图像与风格化后图像的映射。由于受限于无参考图像的问题,现有技术往往通过构造内容图像与风格化后图像高层特征的距离,完成内容损失函数的计算及模型训练,以保留图像的语义信息。但是高层特征的感受野较大,使用高层特征的距离构造损失函数完成网络的训练,往往会导致模型对于细节信息的刻画不够精确、对于不同对象的分离程度差,效果不佳。此外,考虑到自然景物图像与漫画风格图像间的视觉差异,现有的基于生成对抗网络的方法在漫画风格迁移中的表现的够不稳定,导致使用现有的图像风格迁移方法应用于漫画风格迁移任务中难以取得较好的视觉效果,生成图像往往在平滑区域会出现伪纹理(噪声)、无法很好地保留内容图像的语义信息,迁移后的图像难以很好的表现出漫画风格。
[0027]
因此,本发明提供了一种基于等形变约束的图像漫画风格迁移方法,如图1所示,包括如下步骤:
[0028]
步骤s101,将风格图像与内容图像分别进行初始化处理,得到初始风格图像和初始内容图像;其中,内容图像从mscoco数据集中获取,风格图像从宫崎骏的《哈尔的移动城堡》动漫影片截图中获取。
[0029]
如图2所示,将风格图像与内容图像分别进行初始化处理的步骤可以包括:
[0030]
步骤s201,将风格图像及内容图像的尺寸调整为286*286*3的第一风格图像和第一内容图像。
[0031]
步骤s203,将第一风格图像及第一内容图像随机剪裁为256*256*3的第二风格图像和第二内容图像。
[0032]
步骤s205,将第二风格图像与第二内容图像进行归一化处理,得到初始风格图像和初始内容图像。
[0033]
具体的,在本方案中,可以将第二风格图像与第二内容图像的像素范围由[0,255]归一化到[0,1]。
[0034]
优选的,在步骤s203,将第一风格图像及第一内容图像随机剪裁为256*256*3的第二风格图像和第二内容图像之后还可以包括:
[0035]
步骤s204,以0.5的概率将第二风格图像和第二内容图像水平翻转。
[0036]
本方案的有益效果是:可以通过提升样本的多样性,降低位置信息对于模型训练的干扰,增强特征提取的稳定性。
[0037]
步骤s103,构建包括扭曲形变层、等形变损失函数、生成器及鉴别器在内的漫画风格迁移模型。
[0038]
如图3所示,构建扭曲形变层的方法可以包括:
[0039]
步骤s301,在图像内部均匀选取k*k个控制点,获取控制点的坐标矩阵,其中,c=[c1,c2,

,ck]
t
,k=k2,ci=[c
ix
,c
iy
]
t
为第i个控制点的坐标。
[0040]
步骤s303,在[-α,α]内随机采样,得到与控制点坐标矩阵维度大小相同的扭曲形变因子,其中,[-α,α]为控制点随机取值范围,扭曲形变因子中各个元素独立从[-α,α]中随机选取,α取值为0.15。
[0041]
步骤s305,根据扭曲形变因子计算得到仿射变换矩阵,再将仿射变换矩阵嵌入卷积神经网络,构建扭曲形变层。
[0042]
具体的,本方案中,根据控制点的随机扭曲形变因子,使用薄板样条插值理论计算图像中各个像素点的仿射变换(φ
x
(
·
),φy(
·
)),对于像素点p,其在原始图像中的横纵坐标为(p
x
,py),扭曲变换后,p点坐标为(φ
x
(p
x
),φy(py))。将根据扭曲形变因子计算得到的仿射变换嵌入网络中作为扭曲形变层,记该网络层为
[0043]
优选的,在步骤s305,根据扭曲形变因子计算得到仿射变换矩阵,再将仿射变换矩阵嵌入卷积神经网络,构建扭曲形变层之后可以包括:
[0044]
步骤s307,根据扭曲形变层计算得到等形变损失函数,其中,等形变损失函数计算底层特征间损失,用于对细节的刻画。
[0045]
具体的,在本方案中,可以根据如下公式计算等形变损失函数:
[0046]
l
trans
(g,x)=||φ
°
g(x)-g
°
φ(x)||1[0047]
其中x为内容图像,φ(
·
)为扭曲形变层,g(
·
)为风格迁移模型的生成器,
°
为两个算子的复合,||
·
||1为l1范数。
[0048]
图5为本发明实施例提供的等形变损失函数构造示意图。如图5所示,基于“一个理想的风格迁移模型应该具备等形变性”的理论,即:风格迁移模型与扭曲变换的处理顺序是可交换的。具体地,先对风格图像做风格化,再对风格化后的图像进行扭曲形变得到的图像为φ
°
g(x),先对图像做扭曲形变再对图像做风格化得到的图像为g
°
φ(x);对于一个理想的风格迁移模型,φ
°
g(x)与g
°
φ(x)非常接近,因此,模型将φ
°
g(x)与g
°
φ(x)两幅图像逐点误差的l1范数,作为等形变损失函数,协助网络的训练。等形变损失计算底层特征(像素值)间的损失,有助于模型对于细节的刻画,如:边缘、纹理等。
[0049]
漫画风格迁移模型包括:生成器、鉴别器及扭曲形变层。其中,生成器包括:编码
[0060]
2)随机扭曲因子生成
[0061]
构造形变扰动:y=c δ,其中扭曲因子δ矩阵维度大小与控制点坐标相同维度相同,δ中各个元素独立从[-α,α]中随机选取,本发明中α取值为0.15。随后,将获取到的δ与c逐点相加,得到形变后控制点的坐标。
[0062]
3)扭曲形变层构建
[0063]
结合径向基函数矩阵,构造全图的仿射变换φ
θ
,本方案使用仿射变换矩阵,对图像进行二维仿射变换后得到扭曲形变的结果,仿射变换矩阵用于刻画输入特征图与输出特征图之间坐标点的映射关系。具体计算方法如下:
[0064][0065]
其中,1k为全1的k维行向量,1
kt
为全1的k维列向量。
[0066]
本技术将图像定义在规则的网格上,从而可以方便地得到各像素坐标,对于图像h和w为图像的宽度和高度,xi为图像中的第i个像素点。计算图像各像素点的径向基函数矩阵ψ的表达式如下:
[0067]
ψ
ij
=d2(x
ix
,c
jx
)
·
lnd2(x
iy
,c
jy
)
[0068]
其中x
ix
表示输入图像中第i个点的横坐标,x
iy
表示输入图像中第i个点的纵坐标。
[0069]
定义为扭曲变换层,对于输入图像x,其所有像素点的坐标矩阵记为[x1,x2,

,x
hw
]
t
,其中xi=[x
ix
,x
iy
]
t
,扭曲变换层的前向传播方式为:
[0070]
φ(x)=o([ψ 1
it x y]
·
φ
θ
)
[0071]
其中o(
·
)操作为按照变换后的坐标位置将图像各像素进行移动。
[0072]
模型构建完成后,利用扭曲形变层,计算等形变损失函数:
[0073]
l
trans
(g,x)=||φ
°
g(x)-g
°
φ(x)||1[0074]
其中x为内容图像,φ(
·
)为扭曲形变层,g(
·
)为风格迁移模型的生成器,
°
为两个算子的复合,||
·
||1为l1范数。
[0075]
在一个可选的实施例中,漫画风格迁移模型包括两个生成器及两个鉴别器,构成一环形网络。
[0076]
步骤s105,将初始风格图像和初始内容图像输入漫画风格迁移模型中,对漫画风格迁移模型进行对抗训练,直至模型稳定。
[0077]
如图4所示,将初始风格图像和初始内容图像输入漫画风格迁移模型中,对漫画风格迁移模型进行对抗训练,直至模型稳定可以包括:
[0078]
步骤s401,计算风格迁移模型的生成器损失。
[0079]
步骤s403,计算风格迁移模型的鉴别器损失。
[0080]
步骤s405,固定鉴别器模型参数,使用adam优化方法进行生成器模型的参数训练。
[0081]
步骤s407,固定生成器模型参数,使用adam优化方法进行鉴别器模型的参数训练。
[0082]
步骤s409,将生成器模型的参数训练和鉴别器模型的参数训练交替执行,直至模型稳定。
[0083]
具体的,在本方案中,生成器损失函数包括等形变损失、循环一致性损失及对抗损失。
[0084]
对于等形变损失,本发明构造了两个生成器g
c->s
(
·
)与g
s->c
(
·
)的等形变损失,可由下式计算:
[0085][0086]
其中,xc与xs分别表示内容和风格图像数据集,l
trans
(g
c->s
,xc)为利用g
c->s
(
·
)及内容图像构造的等形变损失,l
trans
(g
s->c
,xs)为利用g
s->c
(
·
)及风格图像构造的等形变损失。
[0087]
需要说明的是,若只使用对抗性损失对网络结构进行约束,网络可能将源域的输入图像映射到目标域的风格图像中的任何随机排列中,所以在无监督的情况下,生成器学习到较为准确的风格迁移效果较为困难,耗时也相对较长。针对这种情况,本发明中引入循环一致性损失减少可能的映射空间,从而提升图像的迁移效果。
[0088]
图6为本发明实施例提供的循环一致性损失函数构造示意图。如图6所示,循环一致性损失l
cyc
由下式计算:
[0089][0090]
具体的,对抗损失用于计算生成图像与真实图像的分布差异,通过训练,使得生成器和鉴别器进行交替博弈对抗学习,使生成图像和真实图像分布的差异达到最小化,其中生成器的训练目标是极小化对抗损失。进一步的,对抗损失l
gan
由下式计算:
[0091][0092]
生成器整体的损失函数为:
[0093]
l
total
=λ1l
trans
λ2l
cyc
λ3l
gan
[0094]
其中λ1,λ2,λ3为三个损失的权重。
[0095]
鉴别器损失定义如下:
[0096][0097][0098]
具体的,对于两个鉴别器,通过训练要达到的效果是鉴别器可以将真实图像鉴别为真,将生成器生成的图像鉴别为假,并对于预期结果和实际鉴别结果的差值采用均方误差进行计算。
[0099]
图像风格迁移训练过程中使用adam优化器作为梯度下降算法,更新网络参数时的学习率取0.0002,生成器和鉴别器的归一化方式采用实例归一化,批处理大小为1。训练时的每一步迭代中,先对生成器进行优化,再优化判别器。具体的,生成器的加权系数分别为λ1=20.0,λ2=10.0,λ3=2.0。训练的目标是尽可能使生成器的总损失函数和鉴别器的总损失函数同时达到最小,并采用反向传播梯度算法对整个生成器和鉴别器的网络模型进行优化。
[0100]
步骤s107,将待迁移图像输入至训练好的漫画风格迁移模型中,输出漫画风格图像。
[0101]
本方案的有益效果在于:提出风格迁移模型应具备等形变性这一性质,根据扭曲形变层与风格迁移模型的可交换性构造等形变损失函数,从而更好地构造从内容图像到漫画风格图像间的映射关系。等形变损失在很大程度上解决了图像中平滑区域出现伪纹理、内容图像的语义信息没有得到很好保留等问题,提升了模型对于语义信息的保持与刻画能力。该方案在与近几年较为主流的图像风格迁移方法的对比实验中取得了更好的效果,在后面部分的对比实验中将会进行详细阐述。
[0102]
接下来将结合对比实验的内容对本发明所提供的方案做进一步的验证:
[0103]
对比实验中,内容图像来源于mscoco数据集,mscoco数据集是一个大型的、丰富的物体检测、风格与字幕数据集,其中的图像主要来自于复杂的日常场景。本文从mscoco数据集中随机选取了5116张作为训练集,100张作为测试集;风格图像来源于宫崎骏的《哈尔的移动城堡》动漫影片截图1020张,采用的是python argparse与opencv模块相结合的随机帧截取的方式,图像尺寸统一裁剪为800*432像素,其中917张作为训练集,103张作为测试集。
[0104]
对比实验结果示例如图7所示,本实施例选取了近几年比较知名的图像风格迁移模型与本发明的网络模型进行对比实验,其中包括:sanet方法、gatys方法、cartoongan方法、adain方法,并主要从定性分析和定量分析两个方面对生成图像的质量进行评价:
[0105]
定性分析主要是通过直观观察对生成图像的质量进行多方面的综合评估,如:是否保留了现实图片的细节特征、生成图片中是否存在不稳定的像素块、不稳定像素块所占比例、漫画风格是否显著、生成图片是否足够清晰等等,进而从直观的视觉角度对不同模型的漫画风格迁移效果做出合理且全面的评价;
[0106]
由于定性分析存在的不确定性以及风格感知测试对参与者属性(如年龄、审美差异等)的依赖性,本发明引入fr
é
chet inception距离得分(fr
é
chet inception distance score,fid)作为模型更为精确的评估指标。fid是从原始图像的计算机视觉特征的统计方面的相似度,通过提取真实图片和生成图片的特征均值和协方差矩阵,来计算两组图片在特征空间的距离的一种度量,因而fid分数越低代表两组图片越相似,常用于评估生成图像的质量。
[0107]
对比实验结果如下:
[0108]
定性分析:从图7中可以看出,sanet方法中生成图像存在严重的模糊化问题,物体之间的分界比较模糊,并且画面色块明显分布较为混乱,其生成图像视觉效果较差;gatys方法语义匹配方面完成得较好,如建筑结构等信息还原较好,但是并没有很好地学习到风格化特征,整体颜色普遍偏黄偏暗,视觉上无法感知到其漫画风格的存在;adain方法存在比较严重的内容图像细节缺失的问题,画面整体存在较重的涂抹感,且色块分布不均,画面中物体出现一定程度的扭曲形变问题;cartoongan方法的漫画风格较为突出,但是对于颜色的捕捉不够准确,画面整体色调普遍偏红,且生成图像质量不够稳定,如在第二组图片中平滑区域出现了噪声,第三组图片颜色生成不稳定(见图第2行第5列、第3行第5列方框部分);cyclegan方法风格化也较为显著,画面的伪纹理较多,对内容图像语义信息的保持不够好,如第一组生成图像中影子部分非常模糊,第二组生成图片中天空中出现较多内容图像中不存在的云、柱子上出现较多伪纹理和杂乱的色块,以及第三组图片中物体刻画出现
较多阴影和内容图像中没有的细节(见图第2行第8列、第3行第8列方框部分)。因而在定性分析中,本发明的生成图像具有风格迁移效果好、颜色保持能力强、纹理细节等语义信息保留完整等优点。
[0109]
定量分析:5种对比方案以及本实施例的方案的fid指标计算结果如表1所示,可以看出,本实施例使用的基于空间形变网络的图像漫画风格迁移方法在与内容图的fid指标上优于所有对比算法,在cyclegan方法的基础上有大幅度改善,提升了84.216;而在与风格图的fid指标上,,比原有cyclegan方法高了13.419,这是因为在大幅度提升语义信息的保持度的同时,几乎无法避免地牺牲掉了一小部分风格迁移的效果。综合两个指标的结果,参见表1可以得出结论,本实施例的方案优于其他5个对比算法。
[0110][0111][0112]
以上描述的各技术特征可以任意地组合。尽管未对这些技术特征的所有可能组合进行描述,但这些技术特征的任何组合都应当被认为由本说明书涵盖,只要这样的组合不存在矛盾。
[0113]
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献