一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

图像处理方法、装置、电子设备及存储介质与流程

2022-03-01 22:30:23 来源:中国专利 TAG:


1.本公开涉及计算机技术领域,特别涉及一种图像处理方法、装置、电子设备及存储介质。


背景技术:

2.图形到图像的转换能够应用于许多计算机视觉任务中,如图像分割、图像修改、图像风格变换等。例如,基于深度学习中的对抗生成网络,能够将目标域(由一组风格相近的图像组成)的图像的风格转换为源域(由另一组风格相近的图像组成)的风格,同时保持源域的图像内容不变,如将摄影图像中的真实人脸转换为卡通人脸,且保持摄影图像中的内容不变。因此,如何提高风格转换得到的图像的质量,是一个重要的研究方向。
3.目前,ugatit(unsupervised generative attentional networks with adaptive layer-instance normalization for image-to-image translation,自适应图层实例归一化下图像到图像转换)方法,借助于类激活映射(classactivationmap)将网络聚焦于源域和目标域差距较大的区域,再使用自适应层中的实例归一化模块完成大形变大跨度的风格转换任务。
4.上述技术方案中,由于源域和目标域通常具有不同的信息丰富程度,会导致转换得到的结果不合理,图像的质量较差。


技术实现要素:

5.本公开提供一种图像处理的方法、装置、电子设备及存储介质,能够避免由于图像之间的信息丰富程度不平衡对风格转换带来的影响,使得转换得到的结果较为合理,提高了转换得到图像的质量。本公开的技术方案如下:
6.根据本公开实施例的第一方面,提供一种图像处理方法,所述方法包括:
7.对第一图像和第二图像进行特征提取,得到多个第一图像特征和多个第二图像特征,所述多个第一图像特征表示所述第一图像的特征,所述多个第二图像特征表示所述第二图像的特征,所述多个第一图像特征和所述多个第二图像特征一一对应;
8.确定对应同一通道位置的第一图像特征和第二图像特征之间的相似度,得到多个特征相似度;
9.基于所述多个第一图像特征、所述多个第二图像特征和所述多个特征相似度,确定第一目标图像和第二目标图像,所述第一目标图像与所述第二图像具有相同风格,所述第二目标图像与所述第一图像具有相同风格。
10.在一些实施例中,所述确定对应同一通道位置的第一图像特征和第二图像特征之间的相似度,得到多个特征相似度,包括:
11.将对应同一通道位置的第一图像特征和第二图像特征的点积,确定为所述第一图像特征和所述第二图像特征的特征相似度;或者,
12.将对应同一通道位置的第一图像特征和第二图像特征的交叉熵,确定为所述第一
图像特征和所述第二图像特征的特征相似度。
13.在一些实施例中,所述对第一图像和第二图像进行特征提取,得到多个第一图像特征和多个第二图像特征,包括:
14.对所述第一图像进行编码,得到第一编码图像;
15.对所述第一编码图像进行特征提取,得到所述多个第一图像特征;
16.对所述第二图像进行编码,得到第二编码图像;
17.对所述第二编码图像进行特征提取,得到所述多个第二图像特征。
18.在一些实施例中,所述对所述第一图像进行编码,得到第一编码图像,包括:
19.对所述第一图像进行下采样,将采样得到的图像输入第一残差网络,得到所述第一编码图像。
20.在一些实施例中,所述对所述第一编码图像进行特征提取,得到所述多个第一图像特征,包括:
21.基于嵌入函数,对所述第一编码图像进行特征提取,得到多个第一嵌入特征;
22.对所述多个第一嵌入特征分别进行平均池化,得到所述多个第一图像特征。
23.在一些实施例中,所述方法还包括:
24.基于投影函数,重新排列所述多个第一图像特征之间的通道关系。
25.在一些实施例中,所述对所述第二图像进行编码,得到第二编码图像,包括:
26.对所述第二图像进行下采样,将采样得到的图像输入第二残差网络,得到所述第二编码图像。
27.在一些实施例中,所述对所述第二编码图像进行特征提取,得到所述多个第二图像特征,包括:
28.基于嵌入函数,对所述第二编码图像进行特征提取,得到多个第二嵌入特征;
29.对所述多个第二嵌入特征分别进行平均池化,得到所述多个第二图像特征。
30.在一些实施例中,所述方法还包括:
31.基于投影函数,重新排列所述多个第二图像特征之间的通道关系。
32.在一些实施例中,所述基于所述多个第一图像特征、所述多个第二图像特征和所述多个特征相似度,确定第一目标图像和第二目标图像,包括:
33.基于所述多个第一图像特征和所述多个特征相似度,确定多个第一目标特征;
34.对所述多个第一目标特征进行解码,得到所述第一目标图像;
35.基于所述多个第二图像特征和所述多个特征相似度,确定多个第二目标特征;
36.对所述多个第二目标特征进行解码,得到所述第二目标图像。
37.在一些实施例中,所述基于所述多个第一图像特征和所述多个特征相似度,确定多个第一目标特征,包括:
38.对于任一第一图像特征,将所述任一第一图像特征与对应的特征相似度的乘积,确定为所述任一第一图像特征对应的第一目标特征。
39.在一些实施例中,所述对所述多个第一目标特征进行解码,得到所述第一目标图像,包括:
40.将所述多个第一目标特征输入第三残差网络,对所述第三残差网络输出的结果进行上采样,得到所述第一目标图像。
41.在一些实施例中,所述基于所述多个第二图像特征和所述多个特征相似度,确定多个第二目标特征,包括:
42.对于任一第二图像特征,将所述任一第二图像特征与对应的特征相似度的乘积,确定为所述任一第二图像特征对应的第二目标特征。
43.在一些实施例中,所述对所述多个第二目标特征进行解码,得到所述第二目标图像,包括:
44.将所述多个第二目标特征输入第四残差网络,对所述第四残差网络输出的结果进行上采样,得到所述第二目标图像。
45.根据本公开实施例的第二方面,提供一种图像处理模型的训练方法,所述图像处理模型包括生成器和判别器,所述方法包括:
46.将第一样本图像和第二样本图像输入所述生成器中的编码器和对齐遗忘层,得到多个样本图像特征,所述对齐遗忘层用于提取图像特征;
47.将所述多个样本图像特征输入所述生成器中的解码器,得到第一样本目标图像和第二样本目标图像,所述第一样本目标图像与所述第二样本图像具有相同风格,所述第二样本目标图像与所述第一样本图像具有相同风格;
48.将所述第一样本图像、所述第二样本图像、所述第一样本目标图像和所述第二样本目标图像输入所述判别器,得到训练损失;
49.根据所述训练损失,进行模型训练。
50.在一些实施例中,所述将所述第一样本图像、所述第二样本图像、所述第一样本目标图像和所述第二样本目标图像输入所述判别器,得到训练损失,包括:
51.将所述第一样本图像、所述第二样本图像、所述第一样本目标图像和所述第二样本目标图像输入所述判别器,得到第一损失、第二损失和第三损失,,所述第一损失包括第一对抗损失和第二对抗损失,所述第一对抗损失表示将第一样本图像转换为第二样本目标图像的损失,所述第二对抗损失表示将第二样本图像转换为第一样本目标图像的损失,所述第二损失包括第一图像损失和第二图像损失,所述第一图像损失表示第一样本图像和第一样本目标图像之间的区别,所述第二图像损失表示第二样本你图像和第二样本目标图像之间的区别,所述第三损失包括第一一致性损失和第二一致性损失,所述第一一致性损失表示第一样本图像与第二样本目标图像之间的区别,所述第二一致性损失表示第二样本图像与第一样本目标图像之间的区别;
52.对所述第一损失、所述第二损失和所述第三损失进行加权求和,得到所述训练损失。
53.根据本公开实施例的第三方面,提供一种图像处理装置,包括:
54.特征提取模块,被配置为对第一图像和第二图像进行特征提取,得到多个第一图像特征和多个第二图像特征,所述多个第一图像特征表示所述第一图像的特征,所述多个第二图像特征表示所述第二图像的特征,所述多个第一图像特征和所述多个第二图像特征一一对应;
55.相似度确定模块,被配置为确定对应同一通道位置的第一图像特征和第二图像特征之间的相似度,得到多个特征相似度;
56.图像确定模块,被配置为基于所述多个第一图像特征、所述多个第二图像特征和
所述多个特征相似度,确定第一目标图像和第二目标图像,所述第一目标图像与所述第二图像具有相同风格,所述第二目标图像与所述第一图像具有相同风格。
57.在一些实施例中,所述相似度确定模块,被配置为将对应同一通道位置的第一图像特征和第二图像特征的点积,确定为所述第一图像特征和所述第二图像特征的特征相似度;或者,将对应同一通道位置的第一图像特征和第二图像特征的交叉熵,确定为所述第一图像特征和所述第二图像特征的特征相似度。
58.在一些实施例中,所述特征提取模块,包括:
59.第一编码单元,被配置为对所述第一图像进行编码,得到第一编码图像;
60.第一特征提取单元,被配置为对所述第一编码图像进行特征提取,得到所述多个第一图像特征;
61.第二编码单元,被配置为对所述第二图像进行编码,得到第二编码图像;
62.第二特征提取单元,被配置为对所述第二编码图像进行特征提取,得到所述多个第二图像特征。
63.在一些实施例中,所述第一编码单元,被配置为对所述第一图像进行下采样,将采样得到的图像输入第一残差网络,得到所述第一编码图像。
64.在一些实施例中,所述第一特征提取单元,被配置为基于嵌入函数,对所述第一编码图像进行特征提取,得到多个第一嵌入特征;对所述多个第一嵌入特征分别进行平均池化,得到所述多个第一图像特征。
65.在一些实施例中,所述装置还包括:
66.第一重排模块,被配置为基于投影函数,重新排列所述多个第一图像特征之间的通道关系。
67.在一些实施例中,所述第二编码单元,被配置为对所述第二图像进行下采样,将采样得到的图像输入第二残差网络,得到所述第二编码图像。
68.在一些实施例中,所述第二特征提取单元,被配置为基于嵌入函数,对所述第二编码图像进行特征提取,得到多个第二嵌入特征;对所述多个第二嵌入特征分别进行平均池化,得到所述多个第二图像特征。
69.在一些实施例中,所述装置还包括:
70.第二重排模块,被配置为基于投影函数,重新排列所述多个第二图像特征之间的通道关系。
71.在一些实施例中,所述图像确定模块,包括:
72.第一确定单元,被配置为基于所述多个第一图像特征和所述多个特征相似度,确定多个第一目标特征;
73.第一解码单元,被配置为对所述多个第一目标特征进行解码,得到所述第一目标图像;
74.第二确定单元,被配置为基于所述多个第二图像特征和所述多个特征相似度,确定多个第二目标特征;
75.第二解码单元,被配置为对所述多个第二目标特征进行解码,得到所述第二目标图像。
76.在一些实施例中,所述第一确定单元,被配置为对于任一第一图像特征,将所述任
一第一图像特征与对应的特征相似度的乘积,确定为所述任一第一图像特征对应的第一目标特征。
77.在一些实施例中,所述第一解码单元,被配置为将所述多个第一目标特征输入第三残差网络,对所述第三残差网络输出的结果进行上采样,得到所述第一目标图像。
78.在一些实施例中,所述第二确定单元,被配置为对于任一第二图像特征,将所述任一第二图像特征与对应的特征相似度的乘积,确定为所述任一第二图像特征对应的第二目标特征。
79.在一些实施例中,所述第二解码单元,被配置为将所述所个第二目标特征输入第四残差网络,对所述第四残差网络输出的结果进行上采样,得到所述第二目标图像。
80.根据本公开实施例的第四方面,提供一种图形处理模型的训练装置,所述图像处理模型包括生成器和判别器,所述装置包括:
81.第一训练模块,被配置为基于生成器中的编码器和对齐遗忘层,对第一样本图像和第二样本图像进行特征提取,多个样本图像特征,所述对齐遗忘层用于提取图像特征;
82.第二训练模块,被配置为基于所述生成器中的解码器,对样本图像特征和相似度进行解码,得到第一样本目标图像和第二样本目标图像,所述第一样本目标图像与所述第二样本图像具有相同风格,所述第二样本目标图像与所述第一样本图像具有相同风格;
83.第三训练模块,被配置为基于所述判别器、所述第一样本图像、所述第二样本图像、所述第一样本目标图像和所述第二样本目标图像,确定训练损失;
84.所述第三训练模块,还被配置为基于所述训练损失,进行模型训练。
85.在一些实施例中,所述第四训练模块,被配置为基于所述判别器、所述第一样本图像、所述第二样本图像、所述第一样本目标图像和所述第二样本目标图像,确定第一损失,所述第一损失包括第一对抗损失和第二对抗损失,所述第一对抗损失表示将第一样本图像转换为第二样本目标图像的损失,所述第二对抗损失表示将第二样本图像转换为第一样本目标图像的损失;基于所述第一样本图像、所述第二样本图像、所述第一样本目标图像和所述第二样本目标图像,确定第二损失,所述第二损失包括第一图像损失和第二图像损失,所述第一图像损失表示第一样本图像和第一样本目标图像之间的区别,所述第二图像损失表示第二样本你图像和第二样本目标图像之间的区别;基于所述第一样本图像、所述第二样本图像、所述第一样本目标图像和所述第二样本目标图像,确定第三损失,所述第三损失包括第一一致性损失和第二一致性损失,所述第一一致性损失表示第一样本图像与第二样本目标图像之间的区别,所述第二一致性损失表示第二样本图像与第一样本目标图像之间的区别。
86.根据本公开实施例的第五方面,提供一种电子设备,该电子设备包括:
87.一个或多个处理器;
88.用于存储该处理器可执行程序代码的存储器;
89.其中,该处理器被配置为执行该程序代码,以实现上述图像处理方法,或者以实现上述图像处理模型的训练方法。
90.根据本公开实施例的第六方面,提供一种计算机可读存储介质,当该计算机可读存储介质中的程序代码由电子设备的处理器执行时,使得电子设备能够执行上述图像处理方法,或者使得电子设备能够执行上述图像处理模型的训练方法。
91.根据本公开实施例的第七方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述图像处理方法,或者该计算机程序被该处理器执行时实现上述图像处理模型的训练方法。
92.本公开实施例提供的技术方案至少带来以下有益效果:
93.本公开实施例提供了一种图像处理方法,通过分别确定第一图像的多个第一图像特征与第二图像的多个第二图像特征之间的多个特征相似度,能够基于该多个特征相似度,降低两个图像中冗余和不一致的特征影响,保留两个图像中共同的特征,从而避免由于图像之间的信息丰富程度不平衡对风格转换带来的影响,使得转换得到的结果较为合理,提高了转换得到图像的质量。
94.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
95.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
96.图1是根据一示例性实施例示出的一种图像处理方法的实施环境示意图。
97.图2是根据一示例性实施例示出的一种图像处理方法的流程图。
98.图3是根据一示例性实施例示出的另一种图像处理方法的流程图。
99.图4是根据一示例性实施例示出的另一种图像处理模型的训练方法的流程图。
100.图5是根据一示例性实施例示出的一种生成器的结构示意图。
101.图6是根据一示例性实施例示出的一种对齐遗忘层的结构示意图。
102.图7是根据一示例性实施例示出的一种转换结果示意图。
103.图8是根据一示例性实施例示出的一种地图和微星地图的风格转换结果的示意图。
104.图9是根据一示例性实施例示出的一种街景和分割街景的风格转换结果的示意图。
105.图10是根据一示例性实施例示出的一种建筑和分割建筑的风格转换结果的示意图。
106.图11是根据一示例性实施例示出的一种变体实验结果的对比图。
107.图12是根据一示例性实施例示出的一种图像处理装置的框图。
108.图13是根据一示例性实施例示出的另一种图像处理装置的框图。
109.图14是根据一示例性实施例示出的一种图像处理模型的训练装置的框图。
110.图15是根据一示例性实施例示出的一种服务器的框图。
具体实施方式
111.为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
112.需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用
的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。本公开实施例中的多个,表示两个或两个以上。
113.本公开所使用的术语“至少一个”、“多个”、“每个”、“任一”,至少一个包括一个、两个或两个以上,多个包括两个或两个以上,而每个是指对应的多个中的每一个,任一是指多个中的任意一个。举例来说,多个第一图像特征包括3个第一图像特征,而每个是指这3个第一图像特征中的每一个第一图像特征,任一是指这3个第一图像特征中的任意一个,能够是第一个,或者,是第二个,或者是第三个。
114.需要说明的是,本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等),均为经用户授权或者经过各方充分授权的信息。
115.以下为本公开实施例涉及的名词解释。
116.relu(rectified linear unit,线性整流函数),又称修正线性单元,是一种人工神经网络中常用的激活函数(activation function),通常指代以斜坡函数及其变种为代表的非线性函数。
117.leaky relu(带泄露线性整流函数)是线性整流函数在基于斜坡函数的基础上的变种,leaky relu的梯度为一个常数,而不是0。在输入值为正的时候,带泄露线性整流函数和普通斜坡函数保持一致。
118.本公开实施例提供的图像处理方法由电子设备执行,在一些实施例中,该电子设备为终端,例如,该终端为手机、平板电脑、计算机等多种类型的终端。在一些实施例中,该电子设备为服务器,例如,该服务器为一台服务器,或者,是由若干服务器组成的服务器集群,或者,是一个云计算服务中心。
119.图1是根据一示例性实施例示出的一种图像处理方法的实施环境示意图。以电子设备被提供为服务器为例,参见图1,该实施环境具体包括:终端101和服务器102。终端101与服务器102通过网络连接能够进行交互。
120.终端101可以为智能手机、台式电脑、手提电脑和膝上型便携计算机等设备中的至少一种。终端101上可以安装并运行有应用程序,用户可以通过终端101登录该应用程序来获取该应用程序提供的服务。终端101可以通过无线网络或有线网络与服务器102相连,进而可以将待处理的第一图像和第二图像发送给服务器102。
121.在一些实施例中,终端101可以泛指多个终端中的一个,本实施例仅以终端101来举例说明。本领域技术人员可以知晓,上述终端的数量可以更多或更少。比如上述终端可以仅为几个,或者上述终端为几十个或几百个,或者更多数量,本公开实施例对终端的数量和设备类型均不加以限定。
122.服务器102可以为一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。服务器102可以通过无线网络或有线网络与终端101和其他终端相连,服务器102可以接收终端101发送的第一图像和第二图像。在一些实施例中,上述服务器的数量可以更多或更少,本公开实施例对此不加以限定。当然,服务器102还可以包括其他功能服务器,以便提供更全面且多样化的服务。
123.图2是根据一示例性实施例示出的一种图像处理方法的流程图,如图2所示,该图
像处理方法由服务器设备执行,包括以下步骤:
124.在步骤s201中,对第一图像和第二图像进行特征提取,得到多个第一图像特征和多个第二图像特征,该多个第一图像特征表示该第一图像的特征,该多个第二图像特征表示该第二图像的特征,该多个第一图像特征和该多个第二图像特征一一对应。
125.其中,该第一图像为待转换为目标风格的图像,该第二图像为具有目标风格的图像;或者,该第二图像为待转换为目标风格的图像,该第一图像为具有目标风格的图像。
126.在步骤s202中,确定对应同一通道位置的第一图像特征和第二图像特征之间的相似度,得到多个特征相似度。
127.其中,对于对应同一通道位置的第一图像特征和第二图像特征,能够确定该第一图像特征和该第二图像特征之间的特征相似度,该特征相似度能够用于判断对应的图像特征是否为共同特征。
128.在步骤s203中,基于多个第一图像特征、多个第二图像特征和多个特征相似度,确定第一目标图像和第二目标图像,该第一目标图像与该第二图像具有相同风格,该第二目标图像与该第一图像具有相同风格。
129.其中,第一目标图像由第一图像转换得到,也即将第一图像转换为具有与第二图像相同的风格后,得到第一目标图像。第二目标图像由第二图像转换得到,也即将第二图像转换为具有与第一图像相同的风格后,得到第二目标图像。
130.本公开实施例提供的方案,通过分别确定第一图像的多个第一图像特征与第二图像的多个第二图像特征之间的多个特征相似度,能够基于该多个特征相似度,降低两个图像中冗余和不一致的特征的影响,保留两个图像中共同的特征,从而避免由于图像之间的信息丰富程度不平衡对风格转换带来的影响,使得转换得到的结果较为合理,提高了转换得到图像的质量。
131.在一些实施例中,该确定对应同一通道位置的第一图像特征和第二图像特征之间的相似度,得到多个特征相似度,包括:
132.将对应同一通道位置的第一图像特征和第二图像特征的点积,确定为该第一图像特征和该第二图像特征的特征相似度;或者,
133.将对应同一通道位置的第一图像特征和第二图像特征的交叉熵,确定为该第一图像特征和该第二图像特征的特征相似度。
134.在本公开实施例中,通过计算第一图像特征和第二图像特征的点积或者交叉熵,能够确定来自于不同图像,但对应同一通道位置的两个图像特征之间的特征相似度,进而能够根据特征相似度,确定该通道位置上图像特征是否一致。
135.在一些实施例中,该对第一图像和第二图像进行特征提取,得到多个第一图像特征和多个第二图像特征,包括:
136.对该第一图像进行编码,得到第一编码图像;
137.对该第一编码图像进行特征提取,得到该多个第一图像特征;
138.对该第二图像进行编码,得到第二编码图像;
139.对该第二编码图像进行特征提取,得到该多个第二图像特征。
140.在本公开实施例中,通过对第一图像和第二图像分别进行编码,能够对编码后的图像进行特征提取,得到各个通道位置对应的图像特征,也即提取得到通道层面的特征。
141.在一些实施例中,该对该第一图像进行编码,得到第一编码图像,包括:
142.对该第一图像进行下采样,将采样得到的图像输入第一残差网络,得到该第一编码图像。
143.在本公开实施例中,通过对第一图像进行下采样,再进行残差处理,能够从图像中提取有用的信息,得到编码图像,从而便于后续从编码图像中提取特征。
144.在一些实施例中,该对该第一编码图像进行特征提取,得到该多个第一图像特征,包括:
145.基于嵌入函数,对该第一编码图像进行特征提取,得到多个第一嵌入特征;
146.对该多个第一嵌入特征分别进行平均池化,得到该多个第一图像特征。
147.在本公开实施例中,通过基于嵌入函数对编码图像进行特征提取和平均池化,能够提取到编码图像中各个通道位置的全局信息。
148.在一些实施例中,该方法还包括:
149.基于投影函数,重新排列该多个第一图像特征之间的通道关系。
150.在本公开实施例中,由于图像特征之间的关系可能具有非对齐、非线性的特点,因此通过提供投影函数,能够对图像特征之间的通道关系进行重新排列,使得各个图像特征对齐。
151.在一些实施例中,该对该第二图像分别进行编码,得到第二编码图像,包括:
152.对该第二图像进行下采样,将采样得到的图像输入第二残差网络,得到该第二编码图像。
153.在本公开实施例中,通过对第二图像进行下采样,再进行残差处理,能够从图像中提取有用的信息,得到编码图像,从而便于后续从编码图像中提取特征。
154.在一些实施例中,该对该第二编码图像的多个通道分别进行特征提取,得到该多个第二图像特征,包括:
155.基于嵌入函数,对该第二编码图像进行特征提取,得到多个第二嵌入特征;
156.对该多个第二嵌入特征分别进行平均池化,得到该多个第二图像特征。
157.在本公开实施例中,通过基于嵌入函数对编码图像进行特征提取和平均池化,能够提取到编码图像中各个通道位置的全局信息。
158.在一些实施例中,该方法还包括:
159.基于投影函数,重新排列该多个第二图像特征之间的通道关系。
160.在本公开实施例中,由于图像特征之间的关系可能具有非对齐、非线性的特点,因此通过提供投影函数,能够对图像特征之间的通道关系进行重新排列,使得各个图像特征对齐。
161.在一些实施例中,基于该多个第一图像特征、该多个第二图像特征和该多个特征相似度,确定第一目标图像和第二目标图像,包括:
162.基于该多个第一图像特征和该多个特征相似度,确定多个第一目标特征;
163.对该多个第一目标特征进行解码,得到该第一目标图像;
164.基于该多个第二图像特征和该多个特征相似度,确定多个第二目标特征;
165.对该多个第二目标特征进行解码,得到该第二目标图像。
166.在本公开实施例中,通过基于图像特征和特征相似度来确定目标特征,使得对目
标特征进行解码即可得到风格转换后的目标图像,由于降低了相似度较低的图像特征的影响,能够提高转换得到的目标图像的质量。
167.在一些实施例中,该基于该多个第一图像特征和该多个特征相似度,确定多个第一目标特征,包括:
168.对于任一第一图像特征,将该任一第一图像特征与对应的特征相似度的乘积,确定为该任一第一图像特征对应的第一目标特征。
169.在本公开实施例中,通过将图像特征和对应的特征相似度的乘积作为对应的目标特征,使得基于该目标特征,能够解码得到具有对应风格的目标图像。
170.在一些实施例中,该对该多个第一目标特征进行解码,得到该第一目标图像,包括:
171.将该多个第一目标特征输入第三残差网络,对该第三残差网络输出的结果进行上采样,得到该第一目标图像。
172.在本公开实施例中,通过对第一目标特征进行残差处理,再进行上采样,实现对目标特征的解码,从而得到第一目标图像。
173.在一些实施例中,该基于该多个第二图像特征和该多个特征相似度,确定多个第二目标特征,包括:
174.对于任一第二图像特征,将该任一第二图像特征与对应的特征相似度的乘积,确定为该任一第二图像特征对应的第二目标特征。
175.在本公开实施例中,通过将图像特征和对应的特征相似度的乘积作为对应的目标特征,使得基于该目标特征,能够解码得到具有对应风格的目标图像。
176.在一些实施例中,该对该多个第二目标特征进行解码,得到该第二目标图像,包括:
177.将该多个第二目标特征输入第四残差网络,对该第四残差网络输出的结果进行上采样,得到该第二目标图像。
178.在本公开实施例中,通过对第二目标特征进行残差处理,再进行上采样,实现对目标特征的解码,从而得到第二目标图像。
179.上述图2所示为本公开实施例提供的图像处理方法的基本流程,下面基于一种具体实现方式,来对本公开提供的方案进行进一步阐述,图3是根据一示例性实施例示出的另一种图像处理方法的流程图。以电子设备被提供为服务器,由服务器执行该图像处理方法为例,参见图3,该方法包括:
180.在步骤s301中,对第一图像进行编码,得到第一编码图像。
181.其中,第一图像为待处理的图像,也即待进行风格转换的图像,为便于描述,将第一图像具有的风格表示为第一风格。服务器能够基于第一编码器对第一图像进行编码,得到第一编码图像。
182.在一些实施例中,上述第一编码器包括第一下采样块和第一残差网络,该第一残差网络包括至少一个残差块,服务器能够基于第一下采样块对该第一图像进行下采样,然后将采样得到的图像输入第一残差网络,由该第一残差网络对采样得到的图像进行处理,从而得到该第一编码图像。其中,该第一下采样块包括至少一个卷积层,用于提取第一图像中有用的信息,也即提取第一图像中的特征。需要说明的是,上述每个卷积层和残差网络进
行归一化时采用实例归一化,激活函数使用relu函数。
183.例如,第一编码器包括三个串联的卷积层和三个残差块。第一个卷积层的卷积核为7
×
7,步长为1;第二个卷积层的卷积核为3
×
3,步长为2;第三个卷积层的卷积核为3
×
3,步长为2。其中,串联是指第一个卷积层的输出为第二个卷积层的输入,第二个卷积层的输出为第三个卷积层的输入,第三个卷积层的输出为第一个残差块的输入,第一个残差块的输出为第二个残差块的输入,第二个残差块的输出为第三个残差块的输入。
184.在步骤s302中,对第一编码图像进行特征提取,得到多个第一图像特征,该多个第一图像特征表示该第一图像的特征。
185.其中,经过编码后的第一编码图像包括多个通道,服务器能够分别对每个通道进行特征提取,得到每个通道对应的第一图像特征。
186.在一些实施例中,服务器能够基于嵌入函数将编码图像中信息映射到语义一致的潜在空间中,该嵌入函数由2个共享权值的残差块构建得到。则服务器能够基于嵌入函数对该第一编码图像的多个通道分别进行特征提取,得到多个第一嵌入特征,然后对该多个第一嵌入特征在通道方向分别进行平均池化,提取第一嵌入特征在通道层面的全局信息,得到该多个第一图像特征。
187.其中,该嵌入函数表示为q(
·
),第一嵌入特征表示为z
x
=q(e
x
(x)),z
x
∈rc×w×h,其中,x表示第一图像,c表示编码图像的通道数量,c为正整数,w和h表示第一编码图像的宽和长。第一图像特征表示为e
x
,该第一图像特征的计算方式参见公式(1)所示:
[0188][0189]
其中,表示第c个通道的第一图像特征,avg_pooling(
·
)表示平均池化,表示第c个通道的第一嵌入特征,h表示第一编码图像的长,w表示第一编码图像的宽。
[0190]
在一些实施例中,多个第一图像特征之间的关系可能为非对齐以及非线性,服务器能够基于投影函数对多个第一图像特征的通道关系进行重新排列。相应的,服务器基于投影函数,重新排列该多个第一图像特征之间的通道关系。
[0191]
其中,该投影函数表示为g(
·
),该投影函数由1
×
1卷积核的卷积层或者多层感知机搭建得到。重新排列第一图像特征的方式参见公式(2)所示:
[0192]fx
=g(e
x
),f
x
∈rcꢀꢀ
(2);
[0193]
其中,f
x
表示对齐后的第一图像特征,g(
·
)表示投影函数,e
x
表示第一图像特征,c表示通道数量。
[0194]
在步骤s303中,对第二图像进行编码,得到第二编码图像。
[0195]
其中,第二图像为对照图像,也即风格转换的对照图像,为便于描述,将第二图像具有的风格表示为第二风格。服务器能够基于第二编码器对第二图像进行编码,得到第二编码图像。该第二编码器与上述第一编码器的结构相同。
[0196]
在一些实施例中,上述第二编码器包括第二下采样块和第二残差网络,该第二残差网络包括至少一个残差块,服务器能够基于第二下采样块对该第二图像进行下采样,然后将采样得到的图像输入第二残差网络,由该第二残差网络对采样得到的图像进行处理,从而得到该第二编码图像。其中,该第二下采样块包括至少一个卷积层,用于提取第二图像
中有用的信息,也即提取第二图像中的特征。需要说明的是,上述每个卷积层和残差网络进行归一化时采用实例归一化,激活函数使用relu函数。
[0197]
例如,第二编码器包括三个串联的卷积层和三个残差块。第一个卷积层的卷积核为7
×
7,步长为1;第二个卷积层的卷积核为3
×
3,步长为2;第三个卷积层的卷积核为3
×
3,步长为2。其中,串联是指第一个卷积层的输出为第二个卷积层的输入,第二个卷积层的输出为第三个卷积层的输入,第三个卷积层的输出为第一个残差块的输入,第一个残差块的输出为第二个残差块的输入,第二个残差块的输出为第三个残差块的输入。
[0198]
需要说明的是,本公开实施例示例性的以第一图像为待处理的图像,第二图像为对照图像为例进行说明,在一些实施例中,还可以以第二图像为待处理图像,第一图像为对照图像。
[0199]
在步骤s304中,对第二编码图像进行特征提取,得到多个第二图像特征,该多个第二图像特征表示第二图像的特征。
[0200]
其中,经过编码后的第二编码图像包括多个通道,服务器能够分别对每个通道进行特征提取,得到每个通道对应的第二图像特征。
[0201]
在一些实施例中,服务器能够基于嵌入函数将编码图像中信息映射到语义一致的潜在空间中,该嵌入函数由2个共享权值的残差块构建得到。则服务器能够基于嵌入函数对该第二编码图像的多个通道分别进行特征提取,得到多个第二嵌入特征,然后对该多个第二嵌入特征在通道方向分别进行平均池化,提取第二嵌入特征在通道层面的全局信息,得到该多个第二图像特征。
[0202]
其中,该嵌入函数表示为q(
·
),第二嵌入特征表示为zy=q(ey(y)),zy∈rc×w×h,其中,y表示第二图像,c表示编码图像的通道,w和h表示第二编码图像的宽和长。第二图像特征表示为ey,该第二图像特征的计算方式参见公式(3)所示:
[0203][0204]
其中,表示第c个通道的第二图像特征,avg_pooling(
·
)表示平均池化,表示第c个通道的第二嵌入特征,h表示第二编码图像的长,w表示第二编码图像的宽。
[0205]
在一些实施例中,多个第二图像特征之间的关系可能为非对齐以及非线性,服务器能够基于投影函数对多个第二图像特征的通道关系进行重新排列。相应的,服务器基于投影函数,重新排列该多个第二图像特征之间的通道关系。
[0206]
其中,该投影函数表示为g(
·
),该投影函数由1
×
1卷积核的卷积层或者多层感知机搭建得到。重新排列第二图像特征的方式参见公式(4)所示:
[0207]fy
=g(ey),fy∈rcꢀꢀ
(4);
[0208]
其中,fy表示对齐后的第二图像特征,g(
·
)表示投影函数,ey表示第二图像特征,c表示通道数量。
[0209]
需要说明的是,服务器能够基于同一个嵌入函数和同一个投影函数来对第一编码图像和第二编码图像进行处理,也即第一编码图像和第二编码图像共用一个嵌入函数和一个投影函数。
[0210]
需要说明的是,服务器能够同时对第一图像和第二图像进行编码和特征提取,也
即上述步骤s301和步骤s303不具有先后顺序,该步骤编码是为了便于描述。
[0211]
在步骤s305中,确定对应同一通道位置的第一图像特征和第二图像特征之间的相似度,得到多个特征相似度。
[0212]
其中,服务器能够基于互学习的方式,来建立多个第一图像特征和多个第二图像特征之间的联系,将对应同一通道位置的第一图像特征和第二图像特征相关联。
[0213]
在一些实施例中,服务器能够确定对应同一通道位置的第一图像特征和第二图像特征之间的特征相似度。服务器能够将对应同一通道位置的第一图像特征和第二图像特征的点积,确定为该第一图像特征和该第二图像特征的特征相似度;或者,服务器能够将对应同一通道的第一图像特征和第二图像特征的交叉熵,确定为该第一图像特征和该第二图像特征的特征相似度。
[0214]
其中,特征相似度的计算方式参见公式(5)所示:
[0215]
s=sim(f
x
,fy)
ꢀꢀ
(5);
[0216]
其中,s表示特征相似度,sim(
·
)表示相似度函数,f
x
表示对齐后的第一图像特征,fy表示对齐后的第二图像特征。
[0217]
需要说明的是,根据上述公式(5),表示通道c对应的第一图像特征和第二图像特征之间的特征相似度。sc的值越高,说明第一图像特征和第二图像特征的相似度越高,也即该通道上的特征是第一图像和第二图像所共用的特征;sc的值越低,说明第一图像特征和第二图像特征的相似度越低,也即该通道上第一图像的特征和第二图像的特征不一致。
[0218]
需要说明的是,服务器还能够对上述多个特征相似度进行归一化处理,得到需要说明的是,服务器还能够对上述多个特征相似度进行归一化处理,得到包括c为正整数。
[0219]
在步骤s306中,基于多个第一图像特征和多个特征相似度,确定多个第一目标特征。
[0220]
其中,对于任一第一图像特征,服务器能够将该任一第一图像特征与对应的特征相似度的乘积,确定为该任一第一图像特征对应的第一目标特征,从而得到多个第一目标特征。第一目标特征表示为
[0221]
在步骤s307中,对该多个第一目标特征进行解码,得到第一目标图像,该第一目标图像与该第二图像具有相同风格。
[0222]
其中,服务器在得到上述多个第一目标特征之后,能够基于第一解码器对该多个第一目标特征进行解码,得到第一目标图像。
[0223]
在一些实施例中,上述第一解码器包括第一上采样块和第三残差网络,该第三残差网络包括至少一个残差块,服务器能够将该多个第一目标特征输入第三残差网络,对该第三残差网络输出的结果进行上采样,得到该第一目标图像,该第一目标图像具有第二风格,也即与第二图像具有相同的风格。其中,该第一上采样块包括至少一个卷积层。需要说明的是,上述每个卷积层和残差网络进行归一化时采用实例归一化,激活函数使用relu函数。
[0224]
例如,第一解码器包括三个串联的三个残差块和卷积层。第一个卷积层的卷积核
为3
×
3,步长为0.5;第二个卷积层的卷积核为3
×
3,步长为0.5;第三个卷积层的卷积核为7
×
7,步长为1。其中,串联是指第一个残差块的输出为第二个残差块的输入,第二个残差块的输出为第三个残差块的输入,第三个残差块的输出为第一个卷积层的输入,第一个卷积层的输出为第二个卷积层的输入,第二个卷积层的输出为第三个卷积层的输入。
[0225]
在步骤s308中,基于该多个第二图像特征和该多个特征相似度,确定多个第二目标特征。
[0226]
其中,对于任一第二图像特征,服务器能够将该任一第二图像特征与对应的特征相似度的乘积,确定为该任一第二图像特征对应的第二目标特征,从而得到多个第二目标特征。第二目标特征表示为
[0227]
在步骤s309中,对该多个第二目标特征进行解码,得到第二目标图像,该第二目标图像与该第一图像具有相同风格。
[0228]
其中,服务器在得到上述多个第二目标特征之后,能够基于第二解码器对该多个第二目标特征进行解码,得到第二目标图像。
[0229]
在一些实施例中,上述第二解码器包括第二上采样块和第四残差网络,该第四残差网络包括至少一个残差块,服务器能够将该多个第二目标特征输入第四残差网络,对该第四残差网络输出的结果进行上采样,得到该第二目标图像,该第二目标图像具有第一风格,也即与第一图像具有相同的风格。其中,该第二上采样块包括至少一个卷积层。需要说明的是,上述每个卷积层和残差网络进行归一化时采用实例归一化,激活函数使用relu函数。
[0230]
例如,第二解码器包括三个串联的三个残差块和卷积层。第一个卷积层的卷积核为3
×
3,步长为0.5;第二个卷积层的卷积核为3
×
3,步长为0.5;第三个卷积层的卷积核为7
×
7,步长为1。其中,串联是指第一个残差块的输出为第二个残差块的输入,第二个残差块的输出为第三个残差块的输入,第三个残差块的输出为第一个卷积层的输入,第一个卷积层的输出为第二个卷积层的输入,第二个卷积层的输出为第三个卷积层的输入。
[0231]
需要说明的是,服务器能够同时进行解码确定第一目标图像和第二目标图像,也即上述步骤s306和s308不具有先后顺序,步骤编号是为了便于表述。
[0232]
本公开实施例提供的方案,通过分别确定第一图像的多个第一图像特征与第二图像的多个第二图像特征之间的多个特征相似度,能够基于该多个特征相似度,降低两个图像中冗余和不一致的特征的影响,保留两个图像中共同的特征,从而避免由于图像之间的信息丰富程度不平衡对风格转换带来的影响,使得转换得到的结果较为合理,提高了转换得到图像的质量。
[0233]
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
[0234]
图4是根据一示例性实施例示出的另一种图像处理模型的训练方法的流程图。以电子设备被提供为服务器,由服务器执行该图像处理模型的训练方法为例,参见图4,图像处理模型包括生成器和判别器,该方法包括:
[0235]
在步骤s401中,将第一样本图像和第二样本图像输入该生成器中的编码器和对齐遗忘层,得到多个样本图像特征,该对齐遗忘层用于提取图像特征。
[0236]
在步骤s402中,将该多个样本图像特征输入该生成器中的解码器,得到第一样本
目标图像和第二样本目标图像,该第一样本目标图像与该第二样本图像具有相同风格,该第二样本目标图像与该第一样本图像具有相同风格。
[0237]
在步骤s403中,将该第一样本图像、该第二样本图像、该第一样本目标图像和该第二样本目标图像输入该判别器,得到训练损失。
[0238]
在步骤s404中,根据该训练损失,进行模型训练。
[0239]
在本公开实施中,通过基于训练损失来训练图像处理模型,使得该训练得到的图像处理模型能够生成合理的转换结果,且在在风格转换时不丢失原始图片的属性,并且该模型的输出较为稳定,具有鲁棒性。
[0240]
在一些实施例中,训练使用的样本图像包括源域数据集x和目标域数据集y,其中,源域数据集包括n张第一样本图像,记为目标域数据集包括m张第二样本图像,记为n和m均为正整数。
[0241]
图5是根据一示例性实施例示出的一种生成器的结构示意图。参见图5所示,该生成器包括第一编码器e
x
、第二编码器ey、对齐遗忘层u、第一解码器g
x
以及第二解码器gy。其中,第一编码器用于对源域数据集中的图片,也即第一样本图像,进行编码;第二编码器用于对目标域数据集中的图片,也即第二样本图像,进行编码。对齐遗忘层用于对编码后的编码图像进行特征提取,得到样本图像特征。对齐遗忘层还用于确定样本图像特征之间的相似度。对齐遗忘层还用于基于样本图像特征和相似度确定待解码的目标样本特征。第一解码器用于对基于第一样本图像特征确定的样本目标特征进行解码,得到第一样本目标图像。第二解码器用于对基于第二样本图像特征确定的样本目标特征进行界面,得到第二样本目标图像。
[0242]
在一些实施例中,图6是根据一示例性实施例示出的一种对齐遗忘层的结构示意图。参见图6所示,对齐遗忘层包括嵌入模块、投影模块以及互学习模块三部分。其中,嵌入模块用于基于嵌入函数q(
·
)提取不同域的信息应声到相同的潜在空间,记为和表示源域图像的c个通道的嵌入特征;表示目标域图像的c个通道的嵌入特征。嵌入模块还用于对嵌入特征进行平均池化,从通道层面提取嵌入特征的全局信息,记为和表示源域图像的c个通道的第一图像特征;表示目标域图像的c个通道的第二图像特征,计算方式参见上述公式(1)和公式(3)在此不再赘述。投影模块用于基于投影函数g(
·
)来重新排列图像特征的通道关系,得到f
x
和fy,f
x
表示对齐的第一图像特征,fy表示对齐的第二图像特征。互学习模块用于确定图像特征之间的相似度,记为sim(f
x
,fy)。互学习模块还用于对特征相似度进行归一化,得到表示c个通道的特征相似度,c为正整数,k=c。互学习模块还用于将特征相似度和图像特征进行相乘,输出相乘的结果。
[0243]
在一些实施例中,判别器包括第一判别器d
x
和第二判别器dy,第一判别器和第二判别器的结构一致。判别器用于判断图像是真实的图像,还是由生成器生成的图像。判别器由4个卷积层串联得到。其中,前三个卷积层为三个卷积核为4
×
4,步长为0.5的卷积层,第四个卷积层的卷积核为4
×
4、步长为1。每个卷积层进行归一化时采用实例归一化,激活函数
使用leakyrelu激活函数。
[0244]
需要说明的是,本公开实施例提供图像处理模型,通过第一编码器e
x
、对齐遗忘层u、及第二解码器gy,能够将源域数据集x中图像x的风格迁移至目标域数据集y对应的风格,即映射通过第二编码器ey、对齐遗忘层u和第一解码器g
x
,能够将目标域数据集y中图像y的风格迁移至源域数据集x对应的风格,即映射需要说明的是,第一编码器e
x
、对齐遗忘层u和第一解码器g
x
,能够实现对源域数据集x中图像x的重建;第二编码器ey、对齐遗忘层u g
x
和第二解码器gy,能够实现对目标域数据集y中图像y的重建,其中重建是指对输入图像处理后,使输出图像保持原有风格与内容的不变,以提高映射的稳定性,其中重建得到的图像为中间图像,不作为输出结果。
[0245]
需要说明的是,在进行模型训练时,服务器能够将具有第一风格的图像x转换为具有第二风格的图像即表示图像x经过第一编码器、对齐遗忘层以及第二解码器的处理之后,转换为图像这一过程叫做前向转换。服务器还能够将具有第二风格的图像再转换回第一风格,得到图像即表示图像经过第二编码器、对齐遗忘层以及第一解码器的处理后,转换为图像这一过程叫做后向转换。同理,服务器还能够将具有第二风格的图像y转换为具有第一风格的图像即表示图像y经过第二编码器、对齐遗忘层以及第一解码器的处理之后,转换为图像这一过程叫做前向转换。服务器还能够将具有第一风格的图像再转换回第二风格,得到图像即表示图像经过第一编码器、对齐遗忘层以及第二解码器的处理后,转换为图像这一过程叫做后向转换。其中,前向转换用于完成风格转换任务,后向转换用于保证网络映射的稳定性,也即保证输入图片经过两次风格转换后仍能够转换为输入图片本身。
[0246]
在一些实施例中,由于训练初期前向转换的输出结果不稳定,因此在进行后向转换时,使用对齐遗忘模块中的嵌入模块部分,而不使用投影模块和互学习模块部分,从而能够保证训练的稳定性。
[0247]
在一些实施例中,上述训练损失包括第一损失、第二损失和第三损失。该第一损失包括第一对抗损失和第二对抗损失,该第一对抗损失表示将第一样本图像转换为第二样本目标图像的损失,该第二对抗损失表示将第二样本图像转换为第一样本目标图像的损失。该第二损失包括第一图像损失和第二图像损失,该第一图像损失表示第一样本图像和第一样本目标图像之间的区别,该第二图像损失表示第二样本你图像和第二样本目标图像之间的区别。该第三损失包括第一一致性损失和第二一致性损失,该第一一致性损失表示第一样本图像与第二样本目标图像之间的区别,该第二一致性损失表示第二样本图像与第一样本目标图像之间的区别。
[0248]
相应的,将该第一样本图像、该第二样本图像、该第一样本目标图像和该第二样本目标图像输入判别器,得到训练损失,包括:将该第一样本图像、该第二样本图像、该第一样本目标图像和该第二样本目标图像输入判别器,得到第一损失、第二损失和第三损失,对该第一损失、第二损失和该第三损失进行加权求和,得到该训练损失。
[0249]
在一些实施例中,上述第一损失为对抗性损失,该对抗性损失用于使模型能够输出合理的转换结果。其中,生成器基于{e
x
,u,gy}和{ey,u,g
x
}分别对输入的图像x和图像y进行处理,生成器的目标是生成尽可能真实的图像。判别器的目标是尽可能正确的判别图像是输入的图像还是生成器生成的图像。该第一损失包括的第一对抗损失和第二对抗损失基于以下公式(6)和(7)计算得到。
[0250][0251]
其中,l
adv
(e
x
,u,gy,dy)表示第一对抗损失,e
x
表示第一编码器,u表示对齐遗忘层,gy表示第二解码器,dy表示第二判别器,s
data
(y)表示目标域数据集,y表示目标域数据集中的图像,s
data
(x)表示源域数据集,x表示源域数据集中的图像。
[0252][0253]
其中,l
adv
(ey,u,g
x
,d
x
)表示第二对抗损失,ey表示第二编码器,u表示对齐遗忘层,g
x
表示第一解码器,dx表示第一判别器,s
data
(x)表示源域数据集,x表示源域数据集中的图像,s
data
(y)表示目标域数据集,y表示目标域数据集中的图像。
[0254]
在一些实施例中,上述第二损失为图像损失,也可以称为身份损失,该图像损失用于使模型能够保留图像的重要信息,从而保证在对图像进行风格转换时不丢失原始图像的输入属性,也即不丢失原始图像中的内容。生成器基于{e
x
,u,g
x
}和{ey,u,gy}实现重建输入的图像x和图像y的任务,其中{e
x
,u,g
x
}和{ey,u,gy}还可以称为自编码器。该第二损失包括的第一图像损失和第二图像损失基于以下公式(8)和(9)计算得到。
[0255][0256]
其中,l
identity
(e
x
,u,g
x
)表示第一图像损失,s
data
(x)表示源域数据集,x表示源域数据集中的图像,e
x
表示第一编码器,u表示对齐遗忘层,g
x
表示第一解码器,||
·
||1表示1-范数。
[0257][0258]
其中,l
identity
(ey,u,gy)表示第二图像损失,s
data
(y)表示目标域数据集,y表示目标域数据集中的图像,ey表示第二编码器,u表示对齐遗忘层,gy表示第二解码器,||
·
||1表示1-范数。
[0259]
在一些实施例中,上述第三损失为循环一致性损失,该循环一致性损失用于保证模型映射的稳定性。该第三损失基于下述公式(10)计算得到。
[0260][0261]
其中,l
cyc
(g,f)表示第三损失;s
data
(x)表示源域数据集;x表示源域数据集中的图像;表示基于第一编码器e
x
、对齐遗忘层u以及第二解码器gy对图像进行处理;s
data
(y)表示目标域数据集;y表示目标域数据集中的图像;表示基于第二编码器ey、对齐遗忘层u以及第一解码器g
x
对图像进行处理;||
·
||1表示1-范数。
[0262]
综上所述,本公开实施例中的训练损失基于下述公式(11)计算得到。
[0263]
[0264]
其中,l(e
x
,ey,u,g
x
,gy,d
x
,dy)表示训练损失,l
adv
(e
x
,u,gy,dy)表示第一对抗损失,l
adv
(ey,u,g
x
,d
x
)表示第二对抗损失,l
identity
(e
x
,u,g
x
)表示第一图像损失,l
identity
(ey,u,gy)表示第二图像损失,l
cyc
(e
x
,ey,u,g
x
,gy)=l
cyc
(g,f)表示第三损失,λ1和λ2表示对应的损失项的权重。
[0265]
例如,服务器以学习率为0.0002,批训练大小为1,迭代周期为200,损失函数权重为λ1=5,λ2=10进行模型训练,直到得到上述图像处理模型。
[0266]
需要说明的是,为了验证本公开实施例提供的图像处理方法的处理效果,还将本公开提供的图像处理方法与已有的代表方法cyclegan(cycle generative adversarial networks,循环生成对抗网络)、unit(unsupervised image-to-image translation networks,一种无监督的图到图翻译网络)、gcgan(geometry-consistent generativeadversarialnetworks for one-sided unsupervised domain mapping,单侧无监督域映射的几何一致生成对抗网络)、drit (diverse image-to-image translation via disentangled representations,通过解耦表示实现图像到图像的不同转换)以及ugatit(unsupervised generative attentional networks with adaptive layer-instance normalization for image-to-image translation,具有用于图像到图像转换的自适应层实例标准化的无监督生成注意网络)进行了定性对比,定性对比采用的数据集为卡通人脸数据集selfie2anime。转换结果参见图7所示,图7是根据一示例性实施例示出的一种转换结果示意图。其中,第一列表示输入的图像,第二列表示基于cyclegan进行风格转换后输出的图像,第三列表示基于unit进行风格转换后输出的图像,第四列表示基于gcgan进行风格转换后输出的图像,第五列表示基于drit 进行风格转换后输出的图像,第六列表示基于ugatit进行风格转换后输出的图像。第七列表示基于本公开实施例提供的图像处理方法进行风格转换后输出的图像。
[0267]
需要说明的是,还将本公开提供的图像处理方法与已有的代表方法cyclegan、unit、gcgan、drit 以及ugatit进行了定量对比,对比参数为fid分数(frechet inception distance score,frechet inception距离得分),fid分数是一种计算真实图像和生成图像的特征向量之间距离的一种度量,fid分数越低代表真实图像和生成图像越接近。对比结果参见表1所示,本公开的方法取得了最低的分数,说明本公开的转换结果更接近真实卡通人脸。
[0268]
表1
[0269]
方法cycleganunitgcgandrit ugatit本公开fid分数84.63104.86147.30118.4894.5981.39
[0270]
需要说明的是,还将本公开提供的图像处理方法与已有的代表方法cyclegan、unit、gcgan、drit 以及ugatit进行了用户测评对比,用户评测中共计37位被试用户参加实验,每道试题中被试用户均被要求选出代表性算法中转换结果最好的一个,共计25题。评测结果见表2所示。本公开取得了最高的支持率,说明本公开的转换结果更符合用户的认知与喜爱。
[0271]
表2
[0272]
方法cycleganunitgcgandrit ugatit本公开用户支持率8.43%2.48%7.56%2.91%32.64%46.16%
[0273]
需要说明的是,本公开实施例提供的图像处理方法能够应用于多种场景的风格转换任务。图8是根据一示例性实施例示出的一种地图和卫星地图的风格转换结果的示意图。如图8所示,共包括6对图像,每对图像中位于左侧的图像为输入图像,位于右侧的图像为转换结果。图9是根据一示例性实施例示出的一种街景和分割街景的风格转换结果的示意图。如图9所示,共包括6对图像,每对图像中位于左侧的图像为输入图像,位于右侧的图像为转换结果。图10是根据一示例性实施例示出的一种建筑和分割建筑的风格转换结果的示意图。如图10所示,共包括6对图像,每对图像中位于左侧的图像为输入图像,位于右侧的图像为转换结果。
[0274]
需要说明的是,本技术实施例提供的图像处理方法,还能够进一步提升网络的能力,以提高风格转换的质量。在一些实施例中,上述对齐遗忘层具有多种变体:如在嵌入模块中可使用不同数目的残差块对两个域的共同特征进行提取,投影模块中可使用1
×
1卷积核的卷积层或者多层感知机搭建,互学习模块中可以使用交叉熵或点乘来衡量相似度,使得该图像处理方法具有可扩展性和灵活性。
[0275]
图11是根据一示例性实施例示出的一种变体实验结果的对比图。如图11所示,第一列为输入图像;第二列为在对齐遗忘层中使用两个残差块,在投影模块使用1
×
1卷积核的卷积层,在互学习模块使用交叉熵后的转换结果;第三列为在对齐遗忘层中使用一个残差块,在投影模块使用1
×
1卷积核的卷积层,在互学习模块使用交叉熵后的转换结果;第四列为在对齐遗忘层中使用三个残差块,在投影模块使用1
×
1卷积核的卷积层,在互学习模块使用交叉熵后的转换结果;第五列为在对齐遗忘层中使用两个残差块,在投影模块使用1
×
1卷积核的卷积层,在互学习模块使用点乘后的转换结果;第六列为在对齐遗忘层中仅使用两个残差块,在投影模块使用两层多层感知机,在互学习模块使用交叉熵之后的转换结果;第七列为在对齐遗忘层中使用两个残差块,在投影模块使用两层多层感知机,在互学习模块使用点乘的转换结果。
[0276]
另外,本公开在训练图形处理模型时,需要的训练资源(gpu)少,仅需显存不到3000m,训练时长40h即可,训练效率大大提升,训练成本显著降低,训练效率高。
[0277]
图12是根据一示例性实施例示出的一种图像处理装置的框图。参照图12,该装置包括:特征提取模块1201、相似度确定模块1202以及图像确定模块1203。
[0278]
特征提取模块1201,被配置为对第一图像和第二图像进行特征提取,得到多个第一图像特征和多个第二图像特征,该多个第一图像特征表示该第一图像的特征,该多个第二图像特征表示该第二图像的特征,该多个第一图像特征和该多个第二图像特征一一对应;
[0279]
相似度确定模块1202,被配置为确定对应同一通道位置的第一图像特征和第二图像特征之间的相似度,得到多个特征相似度;
[0280]
图像确定模块1203,被配置为基于该多个第一图像特征、该多个第二图像特征和该多个特征相似度,确定第一目标图像和第二目标图像,该第一目标图像与该第二图像具有相同风格,该第二目标图像与该第一图像具有相同风格。
[0281]
本公开实施例提供的装置,通过分别确定第一图像的多个第一图像特征与第二图像的多个第二图像特征之间的多个特征相似度,能够基于该多个特征相似度,降低两个图像中冗余和不一致的特征的影响,保留两个图像中共同的特征,从而避免由于图像之间的
信息丰富程度不平衡对风格转换带来的影响,使得转换得到的结果较为合理,提高了转换得到图像的质量。
[0282]
在一些实施例中,该相似度确定模块1202,被配置为将对应同一通道位置的第一图像特征和第二图像特征的点积,确定为该第一图像特征和该第二图像特征的特征相似度;或者,将对应同一通道位置的第一图像特征和第二图像特征的交叉熵,确定为该第一图像特征和该第二图像特征的特征相似度。
[0283]
在一些实施例中,图13是根据一示例性实施例示出的另一种图像处理装置的框图,参见图13所示,该特征提取模块1201,包括:
[0284]
第一编码单元12011,被配置为对该第一图像进行编码,得到第一编码图像;
[0285]
第一特征提取单元12012,被配置为对该第一编码图像进行特征提取,得到该多个第一图像特征;
[0286]
第二编码单元12013,被配置为对该第二图像进行编码,得到第二编码图像;
[0287]
第二特征提取单元12014,被配置为对该第二编码图像进行特征提取,得到该多个第二图像特征。
[0288]
在一些实施例中,参见图13所示,该第一编码单元12011,被配置为对该第一图像进行下采样,将采样得到的图像输入第一残差网络,得到该第一编码图像。
[0289]
在一些实施例中,参见图13所示,该第一特征提取单元12012,被配置为基于嵌入函数,对该第一编码图像进行特征提取,得到多个第一嵌入特征;对该多个第一嵌入特征分别进行平均池化,得到该多个第一图像特征。
[0290]
在一些实施例中,参见图13所示,该装置还包括:
[0291]
第一重排模块1205,被配置为基于投影函数,重新排列该多个第一图像特征之间的通道关系。
[0292]
在一些实施例中,该第二编码单元12013,被配置为对该第二图像进行下采样,将采样得到的图像输入第二残差网络,得到该第二编码图像。
[0293]
在一些实施例中,该第二特征提取单元12014,被配置为基于嵌入函数,对该第二编码图像进行特征提取,得到多个第二嵌入特征;对该多个第二嵌入特征分别进行平均池化,得到该多个第二图像特征。
[0294]
在一些实施例中,参见图13所示,该装置还包括:
[0295]
第二重排模块1206,被配置为基于投影函数,重新排列该多个第二图像特征之间的通道关系。
[0296]
在一些实施例中,参见图13所示,该图像确定模块1203,包括:
[0297]
第一确定单元12031,被配置为基于该多个第一图像特征和该多个特征相似度,确定多个第一目标特征;
[0298]
第一解码单元12032,被配置为对该多个第一目标特征进行解码,得到该第一目标图像;
[0299]
第二确定单元12033,被配置为基于该多个第二图像特征和该多个特征相似度,确定多个第二目标特征;
[0300]
第二解码单元12034,被配置为对该多个第二目标特征进行解码,得到该第二目标图像。
[0301]
在一些实施例中,该第一确定单元12031,被配置为对于任一第一图像特征,将该任一第一图像特征与对应的特征相似度的乘积,确定为该任一第一图像特征对应的第一目标特征。
[0302]
在一些实施例中,该第一解码单元12032,被配置为对该多个第一目标特征进行上采样,将采样得到的特征输入第三残差网络,得到该第一目标图像。
[0303]
在一些实施例中,该第二确定单元12033,被配置为对于任一第二图像特征,将该任一第二图像特征与对应的特征相似度的乘积,确定为该任一第二图像特征对应的第二目标特征。
[0304]
在一些实施例中,该第二解码单元12034,被配置为对该多个第二目标特征进行上采样,将采样得到的特征输入第四残差网络,得到该第二目标图像。
[0305]
需要说明的是,上述实施例提供的图像处理装置在对图像进行处理时,仅以上述各功能单元的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元完成,即将电子设备的内部结构划分成不同的功能单元,以完成以上描述的全部或者部分功能。另外,上述实施例提供的图像处理装置与图像处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
[0306]
图14是根据一示例性实施例示出的一种图像处理模型的训练装置的框图。参照图14,该图像处理模型包括生成器和判别器,该装置包括:第一训练模块1401、第二训练模块1402以及第三训练模块1403。
[0307]
第一训练模块1401,被配置为将第一样本图像和第二样本图像输入该生成器中的编码器和对齐遗忘层,得到多个样本图像特征,该对齐遗忘层用于提取图像特征;
[0308]
第二训练模块1402,被配置为将该多个样本图像特征输入该生成器中的解码器,得到第一样本目标图像和第二样本目标图像,该第一样本目标图像与该第二样本图像具有相同风格,该第二样本目标图像与该第一样本图像具有相同风格;
[0309]
第三训练模块1403,被配置为将该第一样本图像、该第二样本图像、该第一样本目标图像和该第二样本目标图像输入该判别器,得到训练损失;
[0310]
该第三训练模块1403,还被配置为根据该训练损失,进行模型训练。
[0311]
在一些实施例中,第三训练模块1403,被配置为将该第一样本图像、该第二样本图像、该第一样本目标图像和该第二样本目标图像输入该判别器,得到第一损失、第二损失和第三损失,该第一损失包括第一对抗损失和第二对抗损失,该第一对抗损失表示将第一样本图像转换为第二样本目标图像的损失,该第二对抗损失表示将第二样本图像转换为第一样本目标图像的损失,该第二损失包括第一图像损失和第二图像损失,该第一图像损失表示第一样本图像和第一样本目标图像之间的区别,该第二图像损失表示第二样本你图像和第二样本目标图像之间的区别,该第三损失包括第一一致性损失和第二一致性损失,该第一一致性损失表示第一样本图像与第二样本目标图像之间的区别,该第二一致性损失表示第二样本图像与第一样本目标图像之间的区别;对该第一损失、该第二损失和该第三损失进行加权求和,得到该训练损失。
[0312]
需要说明的是,上述实施例提供的图像处理模型的训练装置在训练图像处理模型时,仅以上述各功能单元的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元完成,即将电子设备的内部结构划分成不同的功能单元,以完成以上
描述的全部或者部分功能。另外,上述实施例提供的图像处理模型的训练装置与图像处理模型的训练方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
[0313]
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
[0314]
电子设备被提供为服务器时,图15是根据一示例性实施例示出的一种服务器1500的框图,该服务器1500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,cpu)1501和一个或一个以上的存储器1502,其中,该存储器1502中存储有至少一条程序代码,该至少一条程序代码由该处理器1501加载并执行以实现上述各个方法实施例提供的图像处理方法,或者,该至少一条程序代码由该处理器1501加载并执行以实现上述各个方法实施例提供的图像处理模型的训练方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器1500还可以包括其他用于实现设备功能的部件,在此不做赘述。
[0315]
在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器1502,上述指令可由服务器1500的处理器1501执行以完成上述方法。可选地,计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
[0316]
一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述图像处理方法,或者该计算机程序被处理器执行时实现上述图像处理模型的训练方法。
[0317]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
[0318]
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献