一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

图像实时风格迁移方法、装置、计算机设备和存储介质与流程

2022-02-22 04:54:56 来源:中国专利 TAG:


1.本技术涉及图像处理技术领域,特别是涉及一种图像实时风格迁移方法、装置、计算机设备和存储介质。


背景技术:

2.自gatys等人在2015年首次将深度学习技术应用到图像风格迁移领域后,风格迁移开始吸引学术界和工业界日益增长的兴趣。该领域的一个核心问题是将一幅任意给定的风格图像的艺术风格迁移到另一张目标内容图像上,这称为任意风格迁移。通过利用预先训练的深度卷积神经网络(如vgg)的显著特征表达能力,现有的任意风格迁移算法已经能够在任意图像上实现令人满意的风格化效果。然而,大型的预训练深度神经网络产生了高昂的计算成本,这阻碍了当前的任意风格迁移方法在实际场景中的应用,如处理超高分辨率/超高清(如4096
×
2160像素,或“4k”)的图像。
3.一些方法为解决这一困境做出了宝贵的努力,一种做法是在不损失太多性能的情况下压缩大型的预训练深度神经网络模型。wang等人在2020年提出使用协同蒸馏技术减少vgg网络的卷积滤波器,成功地在单个12gb显存的gpu显卡上渲染超高分辨率图像。虽然内存消耗显著减少,但压缩后的模型往往速度不够快。另一种解决方案是将超高分辨率的图像划分成若干小块(patch),然后再对各个小块单独进行风格迁移。该方法虽然可以实现任意分辨率的风格迁移,但仍然存在效率问题。另外,还有一些方法设计了用于风格转换的轻量级网络,然而,由于它们的风格特征仍然是从大型的预训练vgg中提取的,因此它们本质上很难处理超高分辨率图像。因此,尽管最近取得了快速进展,但现有的任意风格迁移方法要么不能处理超高分辨率图像,要么处理起来速度太慢。而研究一种快速的超高分辨率/超高清图像风格迁移方法,无论是在学术界的学术研究,还是在工业界的落地应用方面,都是具有重大意义的。


技术实现要素:

4.基于此,有必要提供一种快速的图像风格迁移方法,能够快速地将任意给定的风格图像的艺术风格迁移到其他给定的内容图像上,尤其适用于超高清图像。
5.一种图像实时风格迁移方法,包括:
6.步骤1,利用微型内容编码器提取内容图像的内容特征fc;
7.步骤2,利用微型风格编码器提取风格图像的风格特征fs;
8.步骤3,利用风格调制器将风格特征fs转换成风格调制信号ms;
9.步骤4,利用微型解码器处理所述内容特征fc和风格调制信号ms,得到风格迁移后的图像。
10.以下还提供了若干可选方式,但并不作为对上述总体方案的额外限定,仅仅是进一步的增补或优选,在没有技术或逻辑矛盾的前提下,各可选方式可单独针对上述总体方案进行组合,还可以是多个可选方式之间进行组合。
11.可选地,所述微型内容编码器包括:
12.一个步长为1,卷积核大小为9
×
9的标准卷积层;
13.两个步长为2,卷积核大小为3
×
3的深度可分离卷积层;
14.两个步长为1的残差块;
15.所述标准卷积层、深度可分离卷积层以及残差块串联连接,最后一个残差块的输出即为所提取的内容特征。
16.可选地,所述微型风格编码器包括:
17.一个步长为1,卷积核大小为9
×
9的标准卷积层;
18.两个步长为2,卷积核大小为3
×
3的深度可分离卷积层;
19.两个步长为1的残差块;
20.所述标准卷积层、深度可分离卷积层以及残差块串联连接,最后一个残差块的输出即为所提取的风格特征。
21.可选地,所述风格调制器包括:权重子网络ξw和偏置子网络ξb;
22.所述权重子网络ξw包括:
23.一个步长为1,卷积核大小为1
×
1的标准卷积层;
24.一个全局池化层;
25.所述偏置子网络ξb包括:
26.一个步长为1,卷积核大小为1
×
1的标准卷积层;
27.一个全局池化层;
28.所述风格调制器利用如下算法将风格特征fs转换成风格调制信号ms:
29.ms=(μ(fs),σ(fs),ξw(fs),ξb(fs))
30.式中:
31.μ(fs)为所述风格特征fs的均值;
32.σ(fs)为所述风格特征fs的标准差;
33.ξw(fs)为利用所述权重子网络ξw提取出的权重参数;
34.ξb(fs)为利用所述偏置子网络ξb提取出的偏置参数。
35.可选地,所述微型解码器包括:
36.两个步长为1的残差块;
37.两个带上采样操作的卷积核大小为3
×
3的深度可分离卷积层;
38.一个步长为1,卷积核大小为9
×
9的标准卷积层;
39.所述残差块、深度可分离卷积层以及标准卷积层串联连接,最后一个标准卷积层的输出即为所述风格迁移后的图像。
40.可选地,所述微型解码器利用特征调制featmod和网络滤波器调制filtermod相结合的双路调制方式处理所述内容特征fc和风格调制信号ms;
41.所述特征调制featmod的算法如下:
[0042][0043]
式中:
[0044]
σ(fs)为所述风格特征fs的标准差;
[0045]
μ(fs)为所述风格特征fs的均值;
[0046]
σ(fc)为所述内容特征fc的标准差;
[0047]
μ(fc)为所述内容特征fc的均值;
[0048]
所述网络滤波器调制filtermod的算法如下:
[0049]
filtermod(d,ms)=resblock(fc,(ξw(fs),ξb(fs)))
[0050]
=conv(relu(conv(fc,(ξw(fs),ξb(fs)))),(ξw(fs),ξb(fs))) fc[0051]
式中:
[0052]
d表示所述微型解码器;
[0053]
resblock表示所述微型解码器中的残差块;
[0054]
conv为所述微型解码器中所述残差块中的卷积层;
[0055]
relu为所述微型解码器中所述残差块中的激活层。
[0056]
可选地,在对所述微型内容编码器、所述微型风格编码器、所述风格调制器以及微型解码器进行训练时,采用内容损失、风格损失和风格信号对比损失三项损失共同进行训练;
[0057]
所述风格信号对比损失定义如下:
[0058][0059]
式中:
[0060]
n表示一个训练批次里样本的数量;
[0061]
为从第i张风格迁移的结果图像中通过微型风格编码器和风格调制器抽取出来的风格调制信号;
[0062]
为从第i张风格图像中通过微型风格编码器和风格调制器抽取出来的风格调制信号;
[0063]
为从第j张风格图像中通过微型风格编码器和风格调制器抽取出来的风格调制信号。
[0064]
本技术还提供了一种图像实时风格迁移装置,包括:
[0065]
第一模块,用于利用微型内容编码器提取内容图像的内容特征fc;
[0066]
第二模块,用于利用微型风格编码器提取风格图像的风格特征fs;
[0067]
第三模块,用于利用风格调制器将风格特征fs转换成风格调制信号ms;
[0068]
第四模块,用于利用微型解码器处理所述内容特征fc和风格调制信号ms,得到风格迁移后的图像。
[0069]
本技术还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述图像实时风格迁移方法的步骤。
[0070]
本技术还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述图像实时风格迁移方法的步骤。
[0071]
本技术提供的快速的超高清图像风格迁移方法能够针对任意给定的超高清风格图像和超高清内容图像,进行快速的风格迁移,其有益效果是:
[0072]
1、与传统的基于深度学习的风格迁移方法相比,在测试阶段没有涉及到任何的大型预训练网络,因此能够在有限计算资源下处理超高分辨率的图像(如4096
×
2160像素,或“4k”)。同时,由于采用了风格信号双路调制和对比学习训练,风格迁移的质量不会有明显的降低。
[0073]
2、与其他能够处理超高分辨率的风格迁移方法相比,使用了微型的神经网络结构,因此在处理超高分辨率图像的速度上大大提升,能够实现超高分辨率图像的快速实时风格迁移。
附图说明
[0074]
图1为本技术其中一实施例中图像实时风格迁移方法的流程图;
[0075]
图2为本技术其中一实施例中微型内容编码器和微型风格编码器的网络结构图;
[0076]
图3为本技术其中一实施例中风格调制器和微型解码器的网络结构及风格信号双路调制示意图;
[0077]
图4为本技术其中一实施例中微型风格迁移网络训练损失计算示意图;
[0078]
图5为计算机设备示意图。
具体实施方式
[0079]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0080]
参见图1所示,一种图像实时风格迁移方法,包括:
[0081]
步骤1,利用微型内容编码器提取内容图像的内容特征fc;
[0082]
步骤2,利用微型风格编码器提取风格图像的风格特征fs;
[0083]
步骤3,利用风格调制器将风格特征fs转换成风格调制信号ms;
[0084]
步骤4,利用微型解码器处理所述内容特征fc和风格调制信号ms,得到风格迁移后的图像。
[0085]
本技术提供的图像实时风格迁移方法,针对任意给定的超高清风格图像和超高清内容图像,能够快速地将超高清风格图像的艺术风格迁移到超高清内容图像上,整个过程所使用的神经网络模型是微型的和轻量的,不涉及任何大型的深度神经网络(如vgg),因此,其不仅能够在有限的计算资源(如8gb显存的gpu显卡)上处理以前方法处理不了的超高清图像(如4k),而且能够以实时的速度快速地产生风格迁移后的结果图像。
[0086]
参见图2所示,其中一实施例中,所述微型内容编码器包括:
[0087]
一个步长为1,卷积核大小为9
×
9的标准卷积层;
[0088]
两个步长为2,卷积核大小为3
×
3的深度可分离卷积层;
[0089]
两个步长为1的残差块;
[0090]
所述标准卷积层、深度可分离卷积层以及残差块串联连接,最后一个残差块的输
出即为所提取的内容特征。
[0091]
参见图2所示,其中一实施例中,所述微型风格编码器包括:
[0092]
一个步长为1,卷积核大小为9
×
9的标准卷积层;
[0093]
两个步长为2,卷积核大小为3
×
3的深度可分离卷积层;
[0094]
两个步长为1的残差块;
[0095]
所述标准卷积层、深度可分离卷积层以及残差块串联连接,最后一个残差块的输出即为所提取的风格特征。
[0096]
参见图3所示,其中一实施例中,所述风格调制器包括:权重子网络ξw和偏置子网络ξb;
[0097]
所述权重子网络ξw包括:
[0098]
一个步长为1,卷积核大小为1
×
1的标准卷积层;
[0099]
一个全局池化层;
[0100]
所述偏置子网络ξb包括:
[0101]
一个步长为1,卷积核大小为1
×
1的标准卷积层;
[0102]
一个全局池化层。
[0103]
参见图3所示,其中一实施例中,所述风格调制器利用如下算法将风格特征fs转换成风格调制信号ms:
[0104]ms
=(μ(fs),σ(fs),ξw(fs),ξb(fs))
[0105]
式中:
[0106]
μ(fs)为所述风格特征fs的均值;
[0107]
σ(fs)为所述风格特征fs的标准差;
[0108]
ξw(fs)为利用所述权重子网络ξw提取出的权重参数;
[0109]
ξb(fs)为利用所述偏置子网络ξb提取出的偏置参数。
[0110]
参见图3所示,其中一实施例中,所述微型解码器包括:
[0111]
两个步长为1的残差块;
[0112]
两个带上采样操作的卷积核大小为3
×
3的深度可分离卷积层;
[0113]
一个步长为1,卷积核大小为9
×
9的标准卷积层;
[0114]
所述残差块、深度可分离卷积层以及标准卷积层串联连接,最后一个标准卷积层的输出即为所述风格迁移后的图像。
[0115]
参见图3所示,其中一实施例中,所述微型解码器利用特征调制featmod和网络滤波器调制filtermod相结合的双路调制方式处理所述内容特征fc和风格调制信号ms;
[0116]
所述特征调制featmod的算法如下:
[0117][0118]
式中:
[0119]
σ(fs)为所述风格特征fs的标准差;
[0120]
μ(fs)为所述风格特征fs的均值;
[0121]
σ(fc)为所述内容特征fc的标准差;
[0122]
μ(fc)为所述内容特征fc的均值;
[0123]
所述网络滤波器调制filtermod的算法如下:
[0124]
filtermod(d,ms)=resblock(fc,(ξw(fs),ξb(fs)))
[0125]
=conv(relu(conv(fc,(ξw(fs),ξb(fs)))),(ξw(fs),ξb(fs))) fc[0126]
式中:
[0127]
d表示所述微型解码器;
[0128]
resblock表示所述微型解码器中的残差块;
[0129]
conv为所述微型解码器中所述残差块中的卷积层;
[0130]
relu为所述微型解码器中所述残差块中的激活层。
[0131]
所述微型解码器读入所述内容特征fc和所述风格调制信号ms,采用特征调制featmod和网络滤波器调制filtermod相结合的双路调制方式来利用所述风格调制信号ms调制所述内容特征fc,所述特征调制featmod仅用到了所述风格调制信号ms中的μ(fs)和σ(fs)信号;所述网络滤波器调制filtermod仅用到了所述风格调制信号ms中的ξw(fs)和ξb(fs)信号来对所述微型解码器中的残差块中的卷积层的滤波器进行调制。
[0132]
本技术提供的图像实时风格迁移获得的风格迁移后的图像在质量方面,由于采用了风格信号双路调制和对比学习训练,风格迁移的质量不会有明显的降低。
[0133]
更进一步地,由于在现有的深度学习平台上,对特征进行操作要比对网络滤波器进行操作更容易实现,因此根据卷积的分配率和结合律,对所述微型解码器中的残差块中的卷积层的滤波器进行调制时,可以采用如下等价方式:
[0134][0135]
式中,表示卷积滤波器,*表示标量乘积运算,表示卷积运算。
[0136]
在对所述微型内容编码器、所述微型风格编码器、所述风格调制器以及微型解码器进行训练时,采用内容损失、风格损失和风格信号对比损失三项损失共同进行训练。
[0137]
具体地,所述内容损失定义如下:
[0138][0139]
式中:
[0140]ics
为所述微型解码器输出的风格迁移结果图像;
[0141]
ic为所述内容图像;
[0142]
φi为在imagenet上预训练的vgg-19网络的某一层;
[0143]
lc为采用计算内容损失的网络层,如{relu4_1}层。
[0144]
注意,虽然在计算所述内容损失时仍然采用了大型的预训练的vgg-19网络,但该网络在模型训练完毕后会被丢弃,因此,在测试阶段不涉及任何大型的预训练网络。
[0145]
所述风格损失定义如下:
[0146][0147]
式中:
[0148]ics
为所述微型解码器输出的风格迁移结果图像;
[0149]is
为所述风格图像;
[0150]
φi为在imagenet上预训练的vgg-19网络的某一层;
[0151]
μ表示均值;
[0152]
σ表示标准差;
[0153]
ls为采用计算风格损失的网络层,如{relu1_1,relu2_1,relu3_1,relu4_1}层。
[0154]
注意,虽然在计算所述风格损失时仍然采用了大型的预训练的vgg-19网络,但该网络在模型训练完毕后会被丢弃,因此,在测试阶段不涉及任何大型的预训练网络。
[0155]
所述风格信号对比损失定义如下:
[0156][0157]
式中:
[0158]
n表示一个训练批次里样本的数量,即每个训练批次有n张内容图像,n张风格图像,会生成n张风格迁移的结果图像。
[0159]
第i张风格迁移的结果图像由第i张内容图像作为内容,第i张风格图像作为风格生成而来。为从第i张风格迁移的结果图像中通过微型风格编码器和风格调制器抽取出来的风格调制信号。为从第i张风格图像中通过微型风格编码器和风格调制器抽取出来的风格调制信号;为从第j张风格图像中通过微型风格编码器和风格调制器抽取出来的风格调制信号。
[0160]
在训练所述内容损失,所述风格损失和所述风格信号对比损失时,可采用ms-coco作为内容图像数据集,wikiart作为风格图像数据集。
[0161]
本技术还提供了一种图像实时风格迁移装置,包括:
[0162]
第一模块,用于利用微型内容编码器提取内容图像的内容特征fc;
[0163]
第二模块,用于利用微型风格编码器提取风格图像的风格特征fs;
[0164]
第三模块,用于利用风格调制器将风格特征fs转换成风格调制信号ms;
[0165]
第四模块,用于利用微型解码器处理所述内容特征fc和风格调制信号ms,得到风格迁移后的图像。
[0166]
关于各模块中功能限定可参见上文中对于图像实时风格迁移方法的限定,在此不再赘述。上述图像实时风格迁移装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操
作。
[0167]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现图像实时风格迁移方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
[0168]
本领域技术人员可以理解,图5中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0169]
本技术还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述图像实时风格迁移方法的步骤。
[0170]
本技术还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述图像实时风格迁移方法的步骤。
[0171]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0172]
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0173]
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献